1 00:00:00,880 --> 00:00:02,735 Kiedyś było tak, 2 00:00:02,735 --> 00:00:04,590 że aby komputer coś zrobił, 3 00:00:04,590 --> 00:00:06,447 trzeba go było zaprogramować. 4 00:00:06,447 --> 00:00:09,398 Dla tych, którzy tego nie robili: 5 00:00:09,398 --> 00:00:13,470 programowanie wymaga drobiazgowego zdefiniowania 6 00:00:13,470 --> 00:00:16,727 każdego kroku, który komputer ma wykonać, 7 00:00:16,727 --> 00:00:18,614 by osiągnąć cel. 8 00:00:18,614 --> 00:00:21,221 Jeżeli chcemy, by komputer wykonał czynność, 9 00:00:21,221 --> 00:00:23,070 której sami nie potrafimy wykonać, 10 00:00:23,079 --> 00:00:24,648 stajemy przed dużym wyzwaniem. 11 00:00:24,648 --> 00:00:28,131 Stanął przed nim Artur Samuel. 12 00:00:28,131 --> 00:00:31,348 W 1956 roku stwierdził, że chciałby, 13 00:00:31,348 --> 00:00:34,548 aby komputer wygrał z nim w warcaby. 14 00:00:34,548 --> 00:00:36,018 Jak napisać program, 15 00:00:36,018 --> 00:00:38,547 drobiazgowo wyrazić, jak być lepszym w warcaby 16 00:00:38,547 --> 00:00:40,196 niż jest się samemu? 17 00:00:40,196 --> 00:00:42,116 Artur wpadł na następujący pomysł: 18 00:00:42,116 --> 00:00:45,840 kazał komputerowi grać z samym sobą tysiące razy 19 00:00:45,840 --> 00:00:48,364 i w ten sposób nauczyć się gry. 20 00:00:48,364 --> 00:00:50,314 Rzeczywiście się udało. 21 00:00:50,314 --> 00:00:55,561 W 1962 roku komputer pokonał mistrza stanu Connecticut. 22 00:00:55,561 --> 00:00:58,534 Artur Samuel był ojcem uczenia maszynowego. 23 00:00:58,534 --> 00:01:00,251 Mam wobec niego duży dług, 24 00:01:00,251 --> 00:01:02,404 bo sam zajmuję się uczeniem maszynowym. 25 00:01:02,404 --> 00:01:04,051 Byłem przewodniczącym Kaggle, 26 00:01:04,051 --> 00:01:06,888 społeczności zrzeszającej 200 tys. specjalistów 27 00:01:06,888 --> 00:01:08,367 od programowania maszynowego. 28 00:01:08,367 --> 00:01:10,122 Kaggle organizuje konkursy, 29 00:01:10,122 --> 00:01:11,757 podczas których członkowie próbują 30 00:01:11,757 --> 00:01:13,833 rozwiązać dotąd nierozwiązane problemy. 31 00:01:13,833 --> 00:01:17,470 Udało się to już setki razy. 32 00:01:17,470 --> 00:01:20,120 Z tej perspektywy wiele się dowiedziałem 33 00:01:20,120 --> 00:01:23,950 o dawnych i obecnych możliwościach uczenia maszynowego, 34 00:01:23,950 --> 00:01:26,252 i co będzie możliwe w przyszłości. 35 00:01:26,252 --> 00:01:28,135 Chyba pierwszym dużym sukcesem 36 00:01:28,135 --> 00:01:30,571 w komercyjnym zastosowaniu uczenia maszynowego 37 00:01:30,571 --> 00:01:33,944 był Google, który udowodnił, że da się szukać informacji 38 00:01:33,944 --> 00:01:35,856 przy pomocy algorytmu komputerowego, 39 00:01:35,856 --> 00:01:37,802 opartego o uczenie maszynowe. 40 00:01:37,802 --> 00:01:41,928 Odtąd było wiele udanych komercyjnych zastosowań. 41 00:01:41,928 --> 00:01:43,844 Firmy takie jak Amazon czy Netflix 42 00:01:43,844 --> 00:01:47,110 używają uczenia maszynowego do proponowania produktów 43 00:01:47,110 --> 00:01:49,770 lub filmów, które nas zaciekawią. 44 00:01:49,776 --> 00:01:51,986 Czasem przyprawia to o gęsią skórkę. 45 00:01:51,986 --> 00:01:53,463 Firmy jak LinkedIn czy Facebook 46 00:01:53,463 --> 00:01:56,077 mówią nam czasem, kogo znamy, 47 00:01:56,077 --> 00:01:58,191 i nie mamy pojęcia, jak to robią. 48 00:01:58,191 --> 00:02:01,178 Wykorzystują moc uczenia maszynowego. 49 00:02:01,195 --> 00:02:04,302 To algorytmy, które uczą się z danych, 50 00:02:04,302 --> 00:02:07,399 nie zaś przez ręczne programowanie. 51 00:02:07,399 --> 00:02:11,225 To również dlatego komputer Watson firmy IBM 52 00:02:11,225 --> 00:02:14,059 potrafił pokonać dwóch mistrzów świata w grze "Va Banque", 53 00:02:14,059 --> 00:02:17,484 odpowiadając na niezwykle subtelne i skomplikowane pytania takie jak to: 54 00:02:17,484 --> 00:02:20,819 Antyczny "Lew z Kalchu" zginął z muzeum w tym mieście w 2003 roku. 55 00:02:20,819 --> 00:02:23,514 Także dlatego mamy pierwsze samokierujące samochody. 56 00:02:23,514 --> 00:02:26,936 Możliwość odróżnienia, powiedzmy, drzewa i przechodnia, 57 00:02:26,936 --> 00:02:28,488 jest dosyć istotna. 58 00:02:28,488 --> 00:02:31,075 Nie wiemy, jak zaprogramować to ręcznie, 59 00:02:31,075 --> 00:02:34,072 ale potrafimy to zrobić przez uczenie maszynowe. 60 00:02:34,072 --> 00:02:37,510 Ten samochód przejechał już ponad 2 mln kilometrów 61 00:02:37,510 --> 00:02:40,186 po zwykłych drogach, bez wypadków. 62 00:02:40,196 --> 00:02:44,110 Czyli komputery potrafią się uczyć 63 00:02:44,110 --> 00:02:46,010 i potrafią uczyć się rzeczy, 64 00:02:46,010 --> 00:02:48,848 których czasem sami nie potrafimy robić, 65 00:02:48,848 --> 00:02:51,733 lub potrafią je robić lepiej niż my. 66 00:02:51,733 --> 00:02:55,348 Jeden z niezwykłych przykładów uczenia maszynowego 67 00:02:55,348 --> 00:02:58,320 zdarzył się w projekcie, który prowadziłem w Kaggle. 68 00:02:58,320 --> 00:03:01,911 Zespół, którym kierował Geoffrey Hinton 69 00:03:01,911 --> 00:03:03,463 z Uniwersytetu w Toronto, 70 00:03:03,463 --> 00:03:06,140 wygrał konkurs na automatyczne odkrywanie leków. 71 00:03:06,140 --> 00:03:08,987 Co niezwykłe, nie tylko przebili wszystkie algorytmy 72 00:03:08,987 --> 00:03:13,011 firmy Merck i międzynarodowej społeczności akademickiej, 73 00:03:13,011 --> 00:03:16,230 ale też nikt w zespole nie miał żadnej wiedzy z chemii, biologii 74 00:03:16,260 --> 00:03:17,820 czy nauki o organizmach żywych, 75 00:03:17,820 --> 00:03:20,230 a zrobili to w dwa tygodnie. 76 00:03:20,230 --> 00:03:22,241 Jak im się to udało? 77 00:03:22,241 --> 00:03:25,342 Użyli niezwykłego algorytmu, zwanego uczeniem głębokim. 78 00:03:25,342 --> 00:03:28,191 To wydarzenie było tak ważne, że kilka tygodni później 79 00:03:28,191 --> 00:03:31,412 New York Times pisał o nim na stronie głównej. 80 00:03:31,412 --> 00:03:34,147 Po lewej stronie widoczny jest Geoffrey Hinton. 81 00:03:34,147 --> 00:03:39,278 Uczenie głębokie to algorytm zainspirowany sposobem działania ludzkiego mózgu, 82 00:03:39,278 --> 00:03:43,831 przez co nie ma żadnych teoretycznych ograniczeń. 83 00:03:43,831 --> 00:03:46,774 Im więcej dostaje danych, im więcej czasu obliczeniowego, 84 00:03:46,774 --> 00:03:48,456 tym staje się lepszy. 85 00:03:48,456 --> 00:03:50,615 New York Times przedstawił też w artykule 86 00:03:50,615 --> 00:03:53,187 inne niezwykłe osiągniecie uczenia głębokiego, 87 00:03:53,187 --> 00:03:55,129 które teraz zaprezentuję. 88 00:03:55,899 --> 00:04:00,090 Udowadnia ono, że komputery potrafią słuchać i rozumieć. 89 00:04:00,510 --> 00:04:03,221 (Wideo) Richard Rashid: Ostatni krok, 90 00:04:03,221 --> 00:04:06,246 który chciałbym wykonać w tym procesie, 91 00:04:06,246 --> 00:04:10,961 to przemówić do was po chińsku. 92 00:04:10,961 --> 00:04:13,596 Chodzi o to, że udało nam się 93 00:04:13,596 --> 00:04:18,598 wziąć dużą ilość informacji od osób mówiących po chińsku 94 00:04:18,598 --> 00:04:21,128 i stworzyć system syntezy mowy, 95 00:04:21,128 --> 00:04:25,801 który konwertuje chiński tekst na mowę. 96 00:04:25,801 --> 00:04:29,929 Potem wzięliśmy godzinne nagranie mojego głosu 97 00:04:29,929 --> 00:04:34,220 i użyliśmy go do zmodulowania standardowego systemu syntezy mowy, 98 00:04:34,220 --> 00:04:35,911 żeby brzmiał jak ja. 99 00:04:35,911 --> 00:04:38,904 Efekt nie jest bezbłędny. 100 00:04:38,904 --> 00:04:41,552 W sumie jest nawet sporo błędów. 101 00:04:41,552 --> 00:04:44,036 (Po chińsku) 102 00:04:44,036 --> 00:04:46,383 (Oklaski) 103 00:04:49,446 --> 00:04:53,022 Ta dziedzina wymaga jeszcze dużo pracy. 104 00:04:53,022 --> 00:04:56,667 (Po chińsku) 105 00:04:56,667 --> 00:04:59,090 (Oklaski) 106 00:05:00,735 --> 00:05:04,744 JH: To był fragment konferencji na temat uczenia maszynowego w Chinach. 107 00:05:04,744 --> 00:05:08,904 Na akademickich konferencjach rzadko słyszy się spontaniczny aplauz. 108 00:05:09,011 --> 00:05:11,177 Na konferencjach TEDx zdarza się to częściej, 109 00:05:11,177 --> 00:05:12,580 więc proszę się nie krępować. 110 00:05:12,580 --> 00:05:16,193 Wszystko, co tu widzieliście, osiągnięto przez uczenie głębokie. 111 00:05:16,193 --> 00:05:17,127 (Oklaski) Dziękuję. 112 00:05:17,127 --> 00:05:19,289 Transkrypcja na angielski to uczenie głębokie. 113 00:05:19,289 --> 00:05:22,701 Tłumaczenie na chiński i tekst w prawym górnym rogu - uczenie głębokie, 114 00:05:22,701 --> 00:05:26,008 synteza mowy to również uczenie głębokie. 115 00:05:26,008 --> 00:05:29,242 Uczenie głębokie jest niezwykłe. 116 00:05:29,242 --> 00:05:32,341 To pojedynczy algorytm, który jakby umie wszystko. 117 00:05:32,341 --> 00:05:35,452 Odkryłem, że rok wcześniej nauczył się również widzieć. 118 00:05:35,452 --> 00:05:37,548 W mało znanym konkursie w Niemczech 119 00:05:37,548 --> 00:05:40,295 na rozpoznawanie znaków drogowych 120 00:05:40,295 --> 00:05:42,009 uczenie głębokie nauczyło się 121 00:05:42,009 --> 00:05:43,723 rozpoznawać takie znaki drogowe. 122 00:05:43,723 --> 00:05:45,438 Nie tylko rozpoznawało znaki 123 00:05:45,438 --> 00:05:47,168 lepiej niż inne algorytmy, 124 00:05:47,168 --> 00:05:49,640 ale nawet lepiej niż ludzie, 125 00:05:49,640 --> 00:05:51,499 mniej więcej dwa razy lepiej. 126 00:05:51,811 --> 00:05:54,037 Czyli w 2011 r. mieliśmy pierwszy przykład 127 00:05:54,037 --> 00:05:57,442 komputerów widzących lepiej niż ludzie. 128 00:05:57,442 --> 00:05:59,491 Od tego czasu bardzo dużo się wydarzyło. 129 00:05:59,491 --> 00:06:03,005 W 2012 r. Google ogłosił, że ich algorytm uczenia głębokiego 130 00:06:03,005 --> 00:06:04,420 oglądał filmy na YouTube 131 00:06:04,420 --> 00:06:07,857 i przez miesiąc przetwarzał dane na 16 tysiącach serwerów, 132 00:06:07,857 --> 00:06:10,077 po czym samodzielnie nauczył się pojęć 133 00:06:10,077 --> 00:06:11,797 takich jak ludzie czy koty, 134 00:06:11,797 --> 00:06:13,767 tylko przez oglądanie filmów. 135 00:06:13,767 --> 00:06:16,489 W bardzo podobny sposób uczą się ludzie. 136 00:06:16,489 --> 00:06:19,329 Nie trzeba im mówić, na co patrzą, 137 00:06:19,329 --> 00:06:22,590 tylko sami się uczą się, czym są widziane obiekty. 138 00:06:22,590 --> 00:06:25,819 W 2012 roku Geoffrey Hinton, którego widzieliśmy wcześniej, 139 00:06:25,819 --> 00:06:28,677 wygrał bardzo popularny konkurs ImageNet, 140 00:06:28,677 --> 00:06:32,818 gdzie dla 1,5 miliona obrazków trzeba określić, 141 00:06:32,818 --> 00:06:34,256 co się na nich znajduje. 142 00:06:34,256 --> 00:06:38,892 Do 2014 r. proporcja błędów spadła do 6%. 143 00:06:38,892 --> 00:06:41,488 To znowu lepiej, niż ludzie. 144 00:06:41,488 --> 00:06:45,037 Maszyny są tu niesamowicie skuteczne 145 00:06:45,037 --> 00:06:47,306 i wykorzystuje się to już komercyjnie. 146 00:06:47,306 --> 00:06:50,348 Na przykład Google ogłosił w zeszłym roku, 147 00:06:50,348 --> 00:06:54,933 że znaleźli na mapie wszystkie adresy we Francji w dwie godziny 148 00:06:54,933 --> 00:06:58,380 przez dostarczenie zdjęć Street View 149 00:06:58,380 --> 00:07:02,699 algorytmowi uczenia głębokiego, który rozpoznał i odczytał numery domów. 150 00:07:02,699 --> 00:07:05,439 Wyobraźcie sobie, ile czasu zajęłoby to kiedyś: 151 00:07:05,439 --> 00:07:08,274 dziesiątki ludzi, wiele lat. 152 00:07:08,274 --> 00:07:10,185 To samo dzieje się w Chinach. 153 00:07:10,185 --> 00:07:14,221 Baidu jest czymś w rodzaju chińskiego Google. 154 00:07:14,221 --> 00:07:16,504 W lewym górnym rogu widać przykładowe zdjęcie, 155 00:07:16,504 --> 00:07:20,478 które wczytałem do systemu uczenia głębokiego Baidu, 156 00:07:20,478 --> 00:07:24,247 poniżej widać, że system zrozumiał, co jest na zdjęciu 157 00:07:24,247 --> 00:07:26,483 i znalazł podobne zdjęcia. 158 00:07:26,483 --> 00:07:29,219 Te zdjęcia mają podobne tło, 159 00:07:29,219 --> 00:07:30,877 podobny kierunek pysków, 160 00:07:30,877 --> 00:07:32,665 niektórym nawet wystają języki. 161 00:07:32,665 --> 00:07:35,695 Ten algorytm na pewno nie patrzy na tekst na stronie, 162 00:07:35,695 --> 00:07:37,107 wgrałem tylko zdjęcie. 163 00:07:37,107 --> 00:07:41,128 Czyli dzisiejsze komputery naprawdę rozumieją, co widzą, 164 00:07:41,128 --> 00:07:43,652 i na żywo umieją przeszukiwać bazy danych 165 00:07:43,652 --> 00:07:46,306 setek milionów zdjęć. 166 00:07:46,306 --> 00:07:48,976 Co to właściwie znaczy, że komputery mogą widzieć? 167 00:07:48,976 --> 00:07:51,553 Nie chodzi o samo widzenie. 168 00:07:51,553 --> 00:07:54,002 Uczenie głębokie dało znacznie więcej. 169 00:07:54,002 --> 00:07:56,570 Złożone i pełne niuansów zdania, jak to, 170 00:07:56,570 --> 00:07:59,394 są już zrozumiałe dla algorytmów uczenia głębokiego. 171 00:07:59,394 --> 00:08:00,697 Jak widać tutaj, 172 00:08:00,697 --> 00:08:02,645 system z Uniwersytetu Stanforda 173 00:08:02,645 --> 00:08:04,906 zaznaczył czerwoną kropką na górze, 174 00:08:04,906 --> 00:08:07,657 że to zdanie wyraża negację. 175 00:08:07,657 --> 00:08:10,790 Efektywność uczenia głębokiego jest zbliżona do ludzkiej 176 00:08:10,802 --> 00:08:15,923 w rozumieniu sensu zdania i analizie. 177 00:08:15,923 --> 00:08:18,651 Uczenie głębokie zastosowano do czytania chińskiego 178 00:08:18,651 --> 00:08:21,807 na poziomie zbliżonym do rodzimych użytkowników. 179 00:08:21,807 --> 00:08:23,975 Ten algorytm opracował szwajcarski zespół, 180 00:08:23,975 --> 00:08:27,711 którego członkowie nie znają chińskiego. 181 00:08:27,711 --> 00:08:29,382 Jak wspomniałem, uczenie głębokie 182 00:08:29,382 --> 00:08:31,601 jest w tym najlepsze, 183 00:08:31,601 --> 00:08:34,168 nawet w porównaniu z rozumieniem 184 00:08:34,168 --> 00:08:36,735 przez rodzimych użytkowników języka. 185 00:08:36,735 --> 00:08:39,302 Ten system zbudowaliśmy w mojej firmie. 186 00:08:39,302 --> 00:08:41,728 Pokazuje, jak można to wszystko połączyć w całość. 187 00:08:41,728 --> 00:08:44,189 To są zdjęcia bez żadnego opisu 188 00:08:44,189 --> 00:08:46,541 i w trakcie wpisywania zdań 189 00:08:46,541 --> 00:08:49,510 system na żywo rozpoznaje zdjęcia, 190 00:08:49,510 --> 00:08:51,189 ustala, co na nich jest, 191 00:08:51,189 --> 00:08:54,352 i znajduje zdjęcia podobne do opisu. 192 00:08:54,352 --> 00:08:57,108 Rzeczywiście rozumie, o czym piszę, 193 00:08:57,108 --> 00:08:59,332 i rozumie, co jest na zdjęciach. 194 00:08:59,332 --> 00:09:01,711 Pewnie znacie to z Google'a, 195 00:09:01,711 --> 00:09:05,286 który znajduje zdjęcia według wpisywanych słów, 196 00:09:05,286 --> 00:09:08,680 choć w rzeczywistości wyszukuje strony internetowe w oparciu o tekst. 197 00:09:08,680 --> 00:09:12,001 To co innego niż rozumienie samych zdjęć. 198 00:09:12,001 --> 00:09:16,383 Komputery potrafią to robić dopiero od kilku miesięcy. 199 00:09:17,091 --> 00:09:21,182 Czyli komputery potrafią nie tylko widzieć, ale też czytać, 200 00:09:21,182 --> 00:09:24,947 i potrafią też rozumieć, co słyszą. 201 00:09:24,947 --> 00:09:27,756 Pewnie was nie zaskoczy, że potrafią też pisać. 202 00:09:27,756 --> 00:09:31,882 Ten tekst wygenerowałem wczoraj przy pomocy uczenia głębokiego. 203 00:09:31,882 --> 00:09:34,346 "Miło mi być tu z wami w Brukseli!" 204 00:09:34,346 --> 00:09:37,050 Tę próbkę tekstu wygenerował algorytm ze Stanford. 205 00:09:37,050 --> 00:09:39,989 Uczenie głębokie wygenerowało te zdania, 206 00:09:39,989 --> 00:09:43,061 aby opisać każde z tych zdjęć. 207 00:09:43,061 --> 00:09:45,741 Ten algorytm nigdy przedtem nie widział 208 00:09:45,741 --> 00:09:48,363 mężczyzny w czarnej koszulce, grającego na gitarze. 209 00:09:48,363 --> 00:09:51,496 Widział mężczyznę, widział czerń lub gitarę, 210 00:09:51,496 --> 00:09:56,101 ale sam stworzył oryginalny opis zdjęcia. 211 00:09:56,101 --> 00:10:00,056 Nadal nie dorównuje ludziom, ale mało mu brakuje. 212 00:10:00,056 --> 00:10:03,351 W testach ludzie preferują opisy generowane przez komputer 213 00:10:03,351 --> 00:10:04,995 w co czwartym przypadku. 214 00:10:04,995 --> 00:10:06,831 Ten system powstał dwa tygodnie temu, 215 00:10:06,831 --> 00:10:08,902 więc w tym tempie 216 00:10:08,902 --> 00:10:11,594 algorytm komputerowy prześcignie człowieka, 217 00:10:11,594 --> 00:10:13,963 pewnie w ciągu kolejnego roku. 218 00:10:13,963 --> 00:10:17,048 Czyli komputery potrafią też pisać. 219 00:10:17,048 --> 00:10:19,990 Połączyliśmy to wszystko, co daje ekscytujące możliwości. 220 00:10:19,990 --> 00:10:21,485 Na przykład w medycynie: 221 00:10:21,485 --> 00:10:23,974 zespół z Bostonu ogłosił odkrycie 222 00:10:23,974 --> 00:10:28,310 dziesiątek nowych, istotnych klinicznie cech nowotworów, 223 00:10:28,310 --> 00:10:31,536 co pomoże lekarzom w prognozowaniu postępów raka. 224 00:10:33,096 --> 00:10:35,749 Grupa badaczy ze Stanford ogłosiła, 225 00:10:35,749 --> 00:10:38,810 że badając tkanki w powiększeniu, 226 00:10:38,810 --> 00:10:42,062 opracowali system wykorzystujący uczenie maszynowe, 227 00:10:42,062 --> 00:10:44,589 który lepiej niż patolodzy przewiduje 228 00:10:44,589 --> 00:10:47,481 przeżywalność chorych na raka. 229 00:10:47,481 --> 00:10:50,373 Prognozy były nie tylko trafniejsze, 230 00:10:50,373 --> 00:10:53,266 ale dostarczyły nowej, wnikliwej wiedzy. 231 00:10:53,276 --> 00:10:54,781 W przypadku radiologii 232 00:10:54,781 --> 00:10:57,876 były to nowe wskaźniki kliniczne, zrozumiałe dla ludzi. 233 00:10:57,876 --> 00:10:59,668 W przypadku patologii 234 00:10:59,668 --> 00:11:04,168 system komputerowy odkrył, że komórki otaczające nowotwór 235 00:11:04,168 --> 00:11:07,508 są tak samo istotne, jak komórki nowotworowe 236 00:11:07,508 --> 00:11:09,260 w postawieniu diagnozy. 237 00:11:09,260 --> 00:11:13,961 To całkowicie przeczy dotychczasowej wiedzy o patologii. 238 00:11:15,412 --> 00:11:18,313 Oba te systemy opracowali eksperci medyczni 239 00:11:18,313 --> 00:11:21,214 we współpracy z ekspertami od uczenia maszynowego. 240 00:11:21,214 --> 00:11:23,655 W zeszłym roku przekroczyliśmy i ten próg. 241 00:11:23,655 --> 00:11:27,824 To jest przykład identyfikacji zmian nowotworowych 242 00:11:27,824 --> 00:11:30,354 w ludzkiej tkance badanej pod mikroskopem. 243 00:11:30,354 --> 00:11:34,967 Prezentowany tu system potrafi rozpoznawać te zmiany dokładniej 244 00:11:34,967 --> 00:11:37,742 lub równie dokładnie, co patolog, 245 00:11:37,742 --> 00:11:40,174 ale został zbudowany przy użyciu uczenia głębokiego 246 00:11:40,174 --> 00:11:41,640 bez żadnej wiedzy medycznej, 247 00:11:41,640 --> 00:11:44,128 przez ludzi nie związanych z medycyną. 248 00:11:44,438 --> 00:11:46,416 Podobnie z segmentacją neuronów. 249 00:11:46,416 --> 00:11:50,234 Możemy segmentować neurony równie dokładnie, jak ludzie, 250 00:11:50,234 --> 00:11:52,658 przy użyciu systemu uczenia głębokiego, 251 00:11:52,658 --> 00:11:55,472 opracowanego przez ludzi bez wiedzy medycznej. 252 00:11:57,162 --> 00:12:00,058 Zatem ja, jako osoba bez żadnej wiedzy medycznej, 253 00:12:00,058 --> 00:12:03,243 mam dostateczne kwalifikacje, by założyć firmę medyczną, 254 00:12:03,243 --> 00:12:04,790 co też zrobiłem. 255 00:12:06,021 --> 00:12:07,761 Byłem tym dosyć przerażony, 256 00:12:07,761 --> 00:12:10,084 ale teoria wskazywała, że w medycynie 257 00:12:10,084 --> 00:12:15,477 można przydać się samą techniką analizy danych. 258 00:12:16,142 --> 00:12:18,622 Szczęśliwie, przyjęto nas fantastycznie, 259 00:12:18,622 --> 00:12:21,578 zarówno media, jak i społeczność medyczna, 260 00:12:21,578 --> 00:12:23,322 która bardzo wspierała ten projekt. 261 00:12:23,322 --> 00:12:27,471 W teorii możemy przejąć środkową część procesu medycznego 262 00:12:27,471 --> 00:12:30,494 i zastąpić ją daleko idącą analizą danych, 263 00:12:30,494 --> 00:12:33,429 pozwalając lekarzom zająć się tym, w czym są najlepsi. 264 00:12:33,429 --> 00:12:35,031 Pokażę państwu przykład. 265 00:12:35,031 --> 00:12:39,975 Generacja nowego testu diagnostycznego zajmuje 15 minut. 266 00:12:39,975 --> 00:12:41,929 Pokażę to teraz na żywo. 267 00:12:41,929 --> 00:12:45,416 Skompresowałem to do trzech minut, omijając pewne czynności. 268 00:12:45,416 --> 00:12:48,477 Zamiast nowego testu diagnostycznego w medycynie, 269 00:12:48,477 --> 00:12:51,846 pokażę test diagnostyczny samochodów, 270 00:12:51,846 --> 00:12:54,068 bo jest to coś, co wszyscy rozumiemy. 271 00:12:54,068 --> 00:12:57,269 Na początek mamy 1,5 mln zdjęć samochodów. 272 00:12:57,269 --> 00:13:00,475 Chcę stworzyć coś, co je pogrupuje według kąta, 273 00:13:00,475 --> 00:13:02,698 z jakiego zostały sfotografowane. 274 00:13:02,698 --> 00:13:06,586 To zdjęcia bez opisów, więc trzeba zacząć od zera. 275 00:13:06,586 --> 00:13:08,451 Nasz algorytm uczenia głębokiego 276 00:13:08,451 --> 00:13:12,158 potrafi automatycznie rozpoznawać struktury na zdjęciach. 277 00:13:12,158 --> 00:13:15,778 Człowiek i komputer mogą współpracować. 278 00:13:15,778 --> 00:13:17,956 Jak tu widać, 279 00:13:17,956 --> 00:13:20,631 człowiek mówi komputerowi o obszarach zainteresowań, 280 00:13:20,631 --> 00:13:25,281 których komputer ma użyć do ulepszenia swojego algorytmu. 281 00:13:25,281 --> 00:13:27,857 Ten system uczenia głębokiego operuje w przestrzeni 282 00:13:27,857 --> 00:13:30,433 o 16 tysiącach wymiarów. 283 00:13:30,433 --> 00:13:33,009 Widać, jak komputer obraca obiekty, 284 00:13:33,009 --> 00:13:35,001 próbując znaleźć nowe obszary struktur. 285 00:13:35,001 --> 00:13:36,782 Kiedy mu się to uda, 286 00:13:36,782 --> 00:13:40,786 operator może wskazać interesujące obszary. 287 00:13:40,786 --> 00:13:43,208 W tym przypadku komputer znalazł pewne obszary, 288 00:13:43,208 --> 00:13:45,770 na przykład kąt zdjęcia. 289 00:13:45,770 --> 00:13:47,376 Z biegiem tego procesu 290 00:13:47,376 --> 00:13:49,716 stopniowo mówimy komputerowi coraz więcej 291 00:13:49,716 --> 00:13:51,774 na temat rodzaju szukanych struktur. 292 00:13:51,774 --> 00:13:54,566 Można sobie wyobrazić, że w przypadku testu diagnostycznego 293 00:13:54,566 --> 00:13:57,266 patolog identyfikowałby obszary patologiczne, 294 00:13:57,266 --> 00:14:02,292 a radiolog wskazywałby na potencjalnie uciążliwe guzki. 295 00:14:02,292 --> 00:14:04,851 Czasami może być to trudne dla algorytmu. 296 00:14:04,851 --> 00:14:06,815 W tym przypadku, algorytm się zgubił. 297 00:14:06,815 --> 00:14:09,365 Przednie i tylne części samochodów są wymieszane. 298 00:14:09,365 --> 00:14:11,437 Musimy być trochę ostrożniejsi 299 00:14:11,437 --> 00:14:14,669 i ręcznie zaznaczyć przednie części, 300 00:14:14,669 --> 00:14:20,175 wskazując potem komputerowi, że o taką grupę chodzi. 301 00:14:21,523 --> 00:14:24,030 Robimy to przez jakiś czas, tu coś pominiemy, 302 00:14:24,030 --> 00:14:26,446 teraz uczymy algorytm uczenia maszynowego 303 00:14:26,446 --> 00:14:28,420 na podstawie tych kilkuset rzeczy 304 00:14:28,420 --> 00:14:30,445 mając nadzieję, że się udoskonali. 305 00:14:30,445 --> 00:14:33,518 Widać, że algorytm zaczął wygaszać niektóre zdjęcia, 306 00:14:33,518 --> 00:14:38,226 pokazując w ten sposób, że potrafi je już rozpoznawać. 307 00:14:38,226 --> 00:14:41,128 Możemy użyć koncepcji podobnych zdjęć 308 00:14:41,128 --> 00:14:43,852 i teraz widać, 309 00:14:43,852 --> 00:14:47,241 że komputer potrafi już znajdować maski samochodów. 310 00:14:47,241 --> 00:14:50,189 Teraz człowiek może powiedzieć komputerowi 311 00:14:50,189 --> 00:14:52,482 "Tak, świetnie się spisałeś". 312 00:14:53,652 --> 00:14:55,837 Czasem, oczywiście, nawet w tym momencie 313 00:14:55,837 --> 00:14:59,511 jest jeszcze trudno rozpoznawać grupy. 314 00:14:59,511 --> 00:15:03,395 W tym przypadku nawet jeżeli pozwolimy komputerowi obracać tym przez chwilę, 315 00:15:03,399 --> 00:15:07,694 widać, że zdjęcia z prawej i lewej strony są nadal wymieszane. 316 00:15:07,694 --> 00:15:10,142 Można dać komputerowi kolejne wskazówki 317 00:15:10,142 --> 00:15:12,698 i kazać mu znaleźć rzut, 318 00:15:12,698 --> 00:15:15,945 który najwyraźniej oddziela lewe i prawe boki, 319 00:15:15,945 --> 00:15:18,067 przy pomocy uczenia głębokiego. 320 00:15:18,067 --> 00:15:21,009 Po tej wskazówce - udało się. 321 00:15:21,009 --> 00:15:23,891 Potrafi już myśleć o obiektach w sposób, 322 00:15:23,891 --> 00:15:26,271 który oddziela te grupy. 323 00:15:26,271 --> 00:15:28,709 Rozumiecie koncepcję. 324 00:15:28,709 --> 00:15:36,906 Tutaj komputer współpracuje z człowiekiem, 325 00:15:36,906 --> 00:15:39,546 zamiast go zastępować. 326 00:15:39,546 --> 00:15:43,096 Udało się zastąpić proces, który kiedyś wymagał zespołu 327 00:15:43,096 --> 00:15:45,098 pięciu czy sześciu ludzi przez siedem lat 328 00:15:45,098 --> 00:15:47,703 procesem, który zajmuje 15 minut 329 00:15:47,703 --> 00:15:50,208 i wymaga jednej osoby. 330 00:15:50,208 --> 00:15:54,158 Ten proces wymaga czterech czy pięciu iteracji. 331 00:15:54,158 --> 00:15:56,017 Widać, że teraz 62% z 1,5 miliona zdjęć 332 00:15:56,017 --> 00:15:58,976 jest zaklasyfikowanych poprawnie. 333 00:15:58,976 --> 00:16:02,738 Teraz można szybko wziąć większe sekcje 334 00:16:02,745 --> 00:16:05,664 i sprawdzić, czy nie ma błędów. 335 00:16:05,664 --> 00:16:09,616 Jeżeli są błędy, można o nich powiedzieć komputerowi. 336 00:16:09,616 --> 00:16:12,661 Powtarzając tę czynność dla różnych grup, 337 00:16:12,661 --> 00:16:15,148 mamy już teraz 80% skuteczności 338 00:16:15,148 --> 00:16:17,563 w klasyfikowaniu 1,5 miliona zdjęć. 339 00:16:17,563 --> 00:16:19,641 Teraz trzeba już tylko znaleźć tych kilka, 340 00:16:19,641 --> 00:16:23,220 które nie są klasyfikowane poprawnie 341 00:16:23,220 --> 00:16:25,808 i zrozumieć przyczynę. 342 00:16:25,808 --> 00:16:32,001 W 15 minut można osiągnąć skuteczność 97%. 343 00:16:32,001 --> 00:16:36,482 Ta technika pozwoli być może rozwiązać poważny problem 344 00:16:36,482 --> 00:16:38,952 światowego niedoboru kompetencji medycznych. 345 00:16:38,952 --> 00:16:42,334 Światowe Forum Ekonomiczne szacuje 10- lub 20-krotny niedobór lekarzy 346 00:16:42,334 --> 00:16:45,433 w krajach rozwijających się, 347 00:16:45,433 --> 00:16:48,437 a wyszkolenie odpowiedniej liczby ludzi 348 00:16:48,437 --> 00:16:50,570 zajęłoby około 300 lat. 349 00:16:50,734 --> 00:16:53,619 A gdyby można było zwiększyć ich efektywność 350 00:16:53,619 --> 00:16:56,458 przy pomocy metod uczenia głębokiego? 351 00:16:56,458 --> 00:16:58,790 Bardzo mnie pociągają takie możliwości. 352 00:16:58,790 --> 00:17:01,279 Niepokoją mnie też problemy. 353 00:17:01,279 --> 00:17:04,933 Otóż każdy niebieski obszar na tej mapie 354 00:17:04,933 --> 00:17:07,882 to ponad 80% osób zatrudnionych w usługach. 355 00:17:07,882 --> 00:17:09,379 Co to są usługi? 356 00:17:09,379 --> 00:17:12,478 Oto usługi. [Kierowcy, kucharze, diagnostycy, prawnicy] 357 00:17:12,478 --> 00:17:15,917 Tak się składa, że właśnie to opanowały komputery. 358 00:17:15,917 --> 00:17:19,221 Zatem 80% zatrudnionych w krajach rozwiniętych 359 00:17:19,221 --> 00:17:21,903 robi rzeczy, których właśnie nauczyły się komputery. 360 00:17:21,903 --> 00:17:22,923 Co to oznacza? 361 00:17:22,923 --> 00:17:25,646 Nie szkodzi. Będą inne stanowiska. 362 00:17:25,646 --> 00:17:28,503 Na przykład przybędzie naukowców od analizy danych. 363 00:17:28,503 --> 00:17:29,370 Nie do końca. 364 00:17:29,370 --> 00:17:31,908 Analitykom danych nie trzeba dużo czasu 365 00:17:31,908 --> 00:17:33,190 na budowę takich systemów. 366 00:17:33,190 --> 00:17:36,246 Na przykład te cztery algorytmy opracował jeden człowiek. 367 00:17:36,246 --> 00:17:39,118 Myślicie, że to już było, 368 00:17:39,118 --> 00:17:41,840 widzieliśmy już w przeszłości, 369 00:17:41,840 --> 00:17:44,894 jak stare zawody ustępują nowym. 370 00:17:44,894 --> 00:17:46,875 Jakie będą te nowe zawody? 371 00:17:46,875 --> 00:17:49,374 Bardzo ciężko jest to oszacować, 372 00:17:49,374 --> 00:17:52,176 bo ludzkie osiągnięcia rosną stopniowo, 373 00:17:52,176 --> 00:17:54,373 a teraz mamy system, uczenie głębokie, 374 00:17:54,373 --> 00:17:57,348 którego zdolności rosną wykładniczo. 375 00:17:57,348 --> 00:17:58,939 A my jesteśmy tutaj. 376 00:17:58,939 --> 00:18:00,865 Widząc dzisiejsze realia mówimy: 377 00:18:00,865 --> 00:18:03,534 "Komputery są nadal dosyć głupie". 378 00:18:03,534 --> 00:18:07,069 Ale za pięć lat komputery będą poza skalą. 379 00:18:07,069 --> 00:18:11,079 Musimy zacząć myśleć o tych możliwościach już teraz. 380 00:18:11,079 --> 00:18:12,956 Oczywiście widzieliśmy to już kiedyś. 381 00:18:12,956 --> 00:18:14,532 Podczas rewolucji przemysłowej 382 00:18:14,532 --> 00:18:17,708 mieliśmy skokową zmianę możliwości dzięki silnikom. 383 00:18:17,708 --> 00:18:20,805 Tyle tylko, że po pewnym czasie rezultaty uległy spłaszczeniu. 384 00:18:20,805 --> 00:18:22,507 Nastąpiły zakłócenia społeczne, 385 00:18:22,507 --> 00:18:26,546 ale kiedy silnik zaczęto stosować do każdego rodzaju wytwarzania energii, 386 00:18:26,546 --> 00:18:28,300 wszystko się ustabilizowało. 387 00:18:28,300 --> 00:18:29,773 Rewolucja uczenia maszynowego 388 00:18:29,773 --> 00:18:32,302 będzie bardzo różna od rewolucji przemysłowej, 389 00:18:32,302 --> 00:18:35,632 bo rewolucja uczenia maszynowego nie ustabilizuje się nigdy. 390 00:18:35,632 --> 00:18:38,714 Im lepsza będzie aktywność intelektualna komputerów, 391 00:18:38,714 --> 00:18:40,942 tym lepsze zbudują komputery, 392 00:18:40,942 --> 00:18:43,420 o jeszcze większych zdolnościach intelektualnych. 393 00:18:43,420 --> 00:18:47,248 Będzie to zmiana, jakiej świat nigdy dotąd nie doświadczył, 394 00:18:47,248 --> 00:18:50,554 więc zmieniło się nasze wcześniejsze zrozumienie możliwości. 395 00:18:50,974 --> 00:18:52,754 Już odczuwamy ten wpływ. 396 00:18:52,754 --> 00:18:56,384 Przez ostatnie 25 lat produktywność kapitału wzrastała, 397 00:18:56,400 --> 00:19:00,588 wydajność pracy pozostała bez zmian, a nawet trochę spadła. 398 00:19:01,408 --> 00:19:04,149 Chcę więc już teraz zacząć tę dyskusję. 399 00:19:04,149 --> 00:19:07,176 Zwykle gdy opowiadam o tym problemie, 400 00:19:07,176 --> 00:19:08,666 napotykam lekceważenie. 401 00:19:08,666 --> 00:19:11,009 Przecież komputery nie potrafią naprawdę myśleć, 402 00:19:11,009 --> 00:19:13,367 nie mają uczuć, nie rozumieją poezji, 403 00:19:13,367 --> 00:19:15,888 nie do końca wiemy, jak działają. 404 00:19:15,888 --> 00:19:16,744 I co z tego? 405 00:19:16,744 --> 00:19:19,178 Komputery już teraz potrafią wykonywać czynności, 406 00:19:19,178 --> 00:19:21,897 z których utrzymują się ludzie, 407 00:19:21,897 --> 00:19:23,628 więc trzeba zacząć się zastanawiać, 408 00:19:23,628 --> 00:19:28,015 jak dostosujemy społeczne i gospodarcze struktury 409 00:19:28,015 --> 00:19:29,855 do tej nowej rzeczywistości. 410 00:19:29,855 --> 00:19:31,388 Dziękuję. 411 00:19:31,388 --> 00:19:32,190 (Oklaski)