Kiedyś było tak, że aby komputer coś zrobił, trzeba go było zaprogramować. Dla tych, którzy tego nie robili: programowanie wymaga drobiazgowego zdefiniowania każdego kroku, który komputer ma wykonać, by osiągnąć cel. Jeżeli chcemy, by komputer wykonał czynność, której sami nie potrafimy wykonać, stajemy przed dużym wyzwaniem. Stanął przed nim Artur Samuel. W 1956 roku stwierdził, że chciałby, aby komputer wygrał z nim w warcaby. Jak napisać program, drobiazgowo wyrazić, jak być lepszym w warcaby niż jest się samemu? Artur wpadł na następujący pomysł: kazał komputerowi grać z samym sobą tysiące razy i w ten sposób nauczyć się gry. Rzeczywiście się udało. W 1962 roku komputer pokonał mistrza stanu Connecticut. Artur Samuel był ojcem uczenia maszynowego. Mam wobec niego duży dług, bo sam zajmuję się uczeniem maszynowym. Byłem przewodniczącym Kaggle, społeczności zrzeszającej 200 tys. specjalistów od programowania maszynowego. Kaggle organizuje konkursy, podczas których członkowie próbują rozwiązać dotąd nierozwiązane problemy. Udało się to już setki razy. Z tej perspektywy wiele się dowiedziałem o dawnych i obecnych możliwościach uczenia maszynowego, i co będzie możliwe w przyszłości. Chyba pierwszym dużym sukcesem w komercyjnym zastosowaniu uczenia maszynowego był Google, który udowodnił, że da się szukać informacji przy pomocy algorytmu komputerowego, opartego o uczenie maszynowe. Odtąd było wiele udanych komercyjnych zastosowań. Firmy takie jak Amazon czy Netflix używają uczenia maszynowego do proponowania produktów lub filmów, które nas zaciekawią. Czasem przyprawia to o gęsią skórkę. Firmy jak LinkedIn czy Facebook mówią nam czasem, kogo znamy, i nie mamy pojęcia, jak to robią. Wykorzystują moc uczenia maszynowego. To algorytmy, które uczą się z danych, nie zaś przez ręczne programowanie. To również dlatego komputer Watson firmy IBM potrafił pokonać dwóch mistrzów świata w grze "Va Banque", odpowiadając na niezwykle subtelne i skomplikowane pytania takie jak to: Antyczny "Lew z Kalchu" zginął z muzeum w tym mieście w 2003 roku. Także dlatego mamy pierwsze samokierujące samochody. Możliwość odróżnienia, powiedzmy, drzewa i przechodnia, jest dosyć istotna. Nie wiemy, jak zaprogramować to ręcznie, ale potrafimy to zrobić przez uczenie maszynowe. Ten samochód przejechał już ponad 2 mln kilometrów po zwykłych drogach, bez wypadków. Czyli komputery potrafią się uczyć i potrafią uczyć się rzeczy, których czasem sami nie potrafimy robić, lub potrafią je robić lepiej niż my. Jeden z niezwykłych przykładów uczenia maszynowego zdarzył się w projekcie, który prowadziłem w Kaggle. Zespół, którym kierował Geoffrey Hinton z Uniwersytetu w Toronto, wygrał konkurs na automatyczne odkrywanie leków. Co niezwykłe, nie tylko przebili wszystkie algorytmy firmy Merck i międzynarodowej społeczności akademickiej, ale też nikt w zespole nie miał żadnej wiedzy z chemii, biologii czy nauki o organizmach żywych, a zrobili to w dwa tygodnie. Jak im się to udało? Użyli niezwykłego algorytmu, zwanego uczeniem głębokim. To wydarzenie było tak ważne, że kilka tygodni później New York Times pisał o nim na stronie głównej. Po lewej stronie widoczny jest Geoffrey Hinton. Uczenie głębokie to algorytm zainspirowany sposobem działania ludzkiego mózgu, przez co nie ma żadnych teoretycznych ograniczeń. Im więcej dostaje danych, im więcej czasu obliczeniowego, tym staje się lepszy. New York Times przedstawił też w artykule inne niezwykłe osiągniecie uczenia głębokiego, które teraz zaprezentuję. Udowadnia ono, że komputery potrafią słuchać i rozumieć. (Wideo) Richard Rashid: Ostatni krok, który chciałbym wykonać w tym procesie, to przemówić do was po chińsku. Chodzi o to, że udało nam się wziąć dużą ilość informacji od osób mówiących po chińsku i stworzyć system syntezy mowy, który konwertuje chiński tekst na mowę. Potem wzięliśmy godzinne nagranie mojego głosu i użyliśmy go do zmodulowania standardowego systemu syntezy mowy, żeby brzmiał jak ja. Efekt nie jest bezbłędny. W sumie jest nawet sporo błędów. (Po chińsku) (Oklaski) Ta dziedzina wymaga jeszcze dużo pracy. (Po chińsku) (Oklaski) JH: To był fragment konferencji na temat uczenia maszynowego w Chinach. Na akademickich konferencjach rzadko słyszy się spontaniczny aplauz. Na konferencjach TEDx zdarza się to częściej, więc proszę się nie krępować. Wszystko, co tu widzieliście, osiągnięto przez uczenie głębokie. (Oklaski) Dziękuję. Transkrypcja na angielski to uczenie głębokie. Tłumaczenie na chiński i tekst w prawym górnym rogu - uczenie głębokie, synteza mowy to również uczenie głębokie. Uczenie głębokie jest niezwykłe. To pojedynczy algorytm, który jakby umie wszystko. Odkryłem, że rok wcześniej nauczył się również widzieć. W mało znanym konkursie w Niemczech na rozpoznawanie znaków drogowych uczenie głębokie nauczyło się rozpoznawać takie znaki drogowe. Nie tylko rozpoznawało znaki lepiej niż inne algorytmy, ale nawet lepiej niż ludzie, mniej więcej dwa razy lepiej. Czyli w 2011 r. mieliśmy pierwszy przykład komputerów widzących lepiej niż ludzie. Od tego czasu bardzo dużo się wydarzyło. W 2012 r. Google ogłosił, że ich algorytm uczenia głębokiego oglądał filmy na YouTube i przez miesiąc przetwarzał dane na 16 tysiącach serwerów, po czym samodzielnie nauczył się pojęć takich jak ludzie czy koty, tylko przez oglądanie filmów. W bardzo podobny sposób uczą się ludzie. Nie trzeba im mówić, na co patrzą, tylko sami się uczą się, czym są widziane obiekty. W 2012 roku Geoffrey Hinton, którego widzieliśmy wcześniej, wygrał bardzo popularny konkurs ImageNet, gdzie dla 1,5 miliona obrazków trzeba określić, co się na nich znajduje. Do 2014 r. proporcja błędów spadła do 6%. To znowu lepiej, niż ludzie. Maszyny są tu niesamowicie skuteczne i wykorzystuje się to już komercyjnie. Na przykład Google ogłosił w zeszłym roku, że znaleźli na mapie wszystkie adresy we Francji w dwie godziny przez dostarczenie zdjęć Street View algorytmowi uczenia głębokiego, który rozpoznał i odczytał numery domów. Wyobraźcie sobie, ile czasu zajęłoby to kiedyś: dziesiątki ludzi, wiele lat. To samo dzieje się w Chinach. Baidu jest czymś w rodzaju chińskiego Google. W lewym górnym rogu widać przykładowe zdjęcie, które wczytałem do systemu uczenia głębokiego Baidu, poniżej widać, że system zrozumiał, co jest na zdjęciu i znalazł podobne zdjęcia. Te zdjęcia mają podobne tło, podobny kierunek pysków, niektórym nawet wystają języki. Ten algorytm na pewno nie patrzy na tekst na stronie, wgrałem tylko zdjęcie. Czyli dzisiejsze komputery naprawdę rozumieją, co widzą, i na żywo umieją przeszukiwać bazy danych setek milionów zdjęć. Co to właściwie znaczy, że komputery mogą widzieć? Nie chodzi o samo widzenie. Uczenie głębokie dało znacznie więcej. Złożone i pełne niuansów zdania, jak to, są już zrozumiałe dla algorytmów uczenia głębokiego. Jak widać tutaj, system z Uniwersytetu Stanforda zaznaczył czerwoną kropką na górze, że to zdanie wyraża negację. Efektywność uczenia głębokiego jest zbliżona do ludzkiej w rozumieniu sensu zdania i analizie. Uczenie głębokie zastosowano do czytania chińskiego na poziomie zbliżonym do rodzimych użytkowników. Ten algorytm opracował szwajcarski zespół, którego członkowie nie znają chińskiego. Jak wspomniałem, uczenie głębokie jest w tym najlepsze, nawet w porównaniu z rozumieniem przez rodzimych użytkowników języka. Ten system zbudowaliśmy w mojej firmie. Pokazuje, jak można to wszystko połączyć w całość. To są zdjęcia bez żadnego opisu i w trakcie wpisywania zdań system na żywo rozpoznaje zdjęcia, ustala, co na nich jest, i znajduje zdjęcia podobne do opisu. Rzeczywiście rozumie, o czym piszę, i rozumie, co jest na zdjęciach. Pewnie znacie to z Google'a, który znajduje zdjęcia według wpisywanych słów, choć w rzeczywistości wyszukuje strony internetowe w oparciu o tekst. To co innego niż rozumienie samych zdjęć. Komputery potrafią to robić dopiero od kilku miesięcy. Czyli komputery potrafią nie tylko widzieć, ale też czytać, i potrafią też rozumieć, co słyszą. Pewnie was nie zaskoczy, że potrafią też pisać. Ten tekst wygenerowałem wczoraj przy pomocy uczenia głębokiego. "Miło mi być tu z wami w Brukseli!" Tę próbkę tekstu wygenerował algorytm ze Stanford. Uczenie głębokie wygenerowało te zdania, aby opisać każde z tych zdjęć. Ten algorytm nigdy przedtem nie widział mężczyzny w czarnej koszulce, grającego na gitarze. Widział mężczyznę, widział czerń lub gitarę, ale sam stworzył oryginalny opis zdjęcia. Nadal nie dorównuje ludziom, ale mało mu brakuje. W testach ludzie preferują opisy generowane przez komputer w co czwartym przypadku. Ten system powstał dwa tygodnie temu, więc w tym tempie algorytm komputerowy prześcignie człowieka, pewnie w ciągu kolejnego roku. Czyli komputery potrafią też pisać. Połączyliśmy to wszystko, co daje ekscytujące możliwości. Na przykład w medycynie: zespół z Bostonu ogłosił odkrycie dziesiątek nowych, istotnych klinicznie cech nowotworów, co pomoże lekarzom w prognozowaniu postępów raka. Grupa badaczy ze Stanford ogłosiła, że badając tkanki w powiększeniu, opracowali system wykorzystujący uczenie maszynowe, który lepiej niż patolodzy przewiduje przeżywalność chorych na raka. Prognozy były nie tylko trafniejsze, ale dostarczyły nowej, wnikliwej wiedzy. W przypadku radiologii były to nowe wskaźniki kliniczne, zrozumiałe dla ludzi. W przypadku patologii system komputerowy odkrył, że komórki otaczające nowotwór są tak samo istotne, jak komórki nowotworowe w postawieniu diagnozy. To całkowicie przeczy dotychczasowej wiedzy o patologii. Oba te systemy opracowali eksperci medyczni we współpracy z ekspertami od uczenia maszynowego. W zeszłym roku przekroczyliśmy i ten próg. To jest przykład identyfikacji zmian nowotworowych w ludzkiej tkance badanej pod mikroskopem. Prezentowany tu system potrafi rozpoznawać te zmiany dokładniej lub równie dokładnie, co patolog, ale został zbudowany przy użyciu uczenia głębokiego bez żadnej wiedzy medycznej, przez ludzi nie związanych z medycyną. Podobnie z segmentacją neuronów. Możemy segmentować neurony równie dokładnie, jak ludzie, przy użyciu systemu uczenia głębokiego, opracowanego przez ludzi bez wiedzy medycznej. Zatem ja, jako osoba bez żadnej wiedzy medycznej, mam dostateczne kwalifikacje, by założyć firmę medyczną, co też zrobiłem. Byłem tym dosyć przerażony, ale teoria wskazywała, że w medycynie można przydać się samą techniką analizy danych. Szczęśliwie, przyjęto nas fantastycznie, zarówno media, jak i społeczność medyczna, która bardzo wspierała ten projekt. W teorii możemy przejąć środkową część procesu medycznego i zastąpić ją daleko idącą analizą danych, pozwalając lekarzom zająć się tym, w czym są najlepsi. Pokażę państwu przykład. Generacja nowego testu diagnostycznego zajmuje 15 minut. Pokażę to teraz na żywo. Skompresowałem to do trzech minut, omijając pewne czynności. Zamiast nowego testu diagnostycznego w medycynie, pokażę test diagnostyczny samochodów, bo jest to coś, co wszyscy rozumiemy. Na początek mamy 1,5 mln zdjęć samochodów. Chcę stworzyć coś, co je pogrupuje według kąta, z jakiego zostały sfotografowane. To zdjęcia bez opisów, więc trzeba zacząć od zera. Nasz algorytm uczenia głębokiego potrafi automatycznie rozpoznawać struktury na zdjęciach. Człowiek i komputer mogą współpracować. Jak tu widać, człowiek mówi komputerowi o obszarach zainteresowań, których komputer ma użyć do ulepszenia swojego algorytmu. Ten system uczenia głębokiego operuje w przestrzeni o 16 tysiącach wymiarów. Widać, jak komputer obraca obiekty, próbując znaleźć nowe obszary struktur. Kiedy mu się to uda, operator może wskazać interesujące obszary. W tym przypadku komputer znalazł pewne obszary, na przykład kąt zdjęcia. Z biegiem tego procesu stopniowo mówimy komputerowi coraz więcej na temat rodzaju szukanych struktur. Można sobie wyobrazić, że w przypadku testu diagnostycznego patolog identyfikowałby obszary patologiczne, a radiolog wskazywałby na potencjalnie uciążliwe guzki. Czasami może być to trudne dla algorytmu. W tym przypadku, algorytm się zgubił. Przednie i tylne części samochodów są wymieszane. Musimy być trochę ostrożniejsi i ręcznie zaznaczyć przednie części, wskazując potem komputerowi, że o taką grupę chodzi. Robimy to przez jakiś czas, tu coś pominiemy, teraz uczymy algorytm uczenia maszynowego na podstawie tych kilkuset rzeczy mając nadzieję, że się udoskonali. Widać, że algorytm zaczął wygaszać niektóre zdjęcia, pokazując w ten sposób, że potrafi je już rozpoznawać. Możemy użyć koncepcji podobnych zdjęć i teraz widać, że komputer potrafi już znajdować maski samochodów. Teraz człowiek może powiedzieć komputerowi "Tak, świetnie się spisałeś". Czasem, oczywiście, nawet w tym momencie jest jeszcze trudno rozpoznawać grupy. W tym przypadku nawet jeżeli pozwolimy komputerowi obracać tym przez chwilę, widać, że zdjęcia z prawej i lewej strony są nadal wymieszane. Można dać komputerowi kolejne wskazówki i kazać mu znaleźć rzut, który najwyraźniej oddziela lewe i prawe boki, przy pomocy uczenia głębokiego. Po tej wskazówce - udało się. Potrafi już myśleć o obiektach w sposób, który oddziela te grupy. Rozumiecie koncepcję. Tutaj komputer współpracuje z człowiekiem, zamiast go zastępować. Udało się zastąpić proces, który kiedyś wymagał zespołu pięciu czy sześciu ludzi przez siedem lat procesem, który zajmuje 15 minut i wymaga jednej osoby. Ten proces wymaga czterech czy pięciu iteracji. Widać, że teraz 62% z 1,5 miliona zdjęć jest zaklasyfikowanych poprawnie. Teraz można szybko wziąć większe sekcje i sprawdzić, czy nie ma błędów. Jeżeli są błędy, można o nich powiedzieć komputerowi. Powtarzając tę czynność dla różnych grup, mamy już teraz 80% skuteczności w klasyfikowaniu 1,5 miliona zdjęć. Teraz trzeba już tylko znaleźć tych kilka, które nie są klasyfikowane poprawnie i zrozumieć przyczynę. W 15 minut można osiągnąć skuteczność 97%. Ta technika pozwoli być może rozwiązać poważny problem światowego niedoboru kompetencji medycznych. Światowe Forum Ekonomiczne szacuje 10- lub 20-krotny niedobór lekarzy w krajach rozwijających się, a wyszkolenie odpowiedniej liczby ludzi zajęłoby około 300 lat. A gdyby można było zwiększyć ich efektywność przy pomocy metod uczenia głębokiego? Bardzo mnie pociągają takie możliwości. Niepokoją mnie też problemy. Otóż każdy niebieski obszar na tej mapie to ponad 80% osób zatrudnionych w usługach. Co to są usługi? Oto usługi. [Kierowcy, kucharze, diagnostycy, prawnicy] Tak się składa, że właśnie to opanowały komputery. Zatem 80% zatrudnionych w krajach rozwiniętych robi rzeczy, których właśnie nauczyły się komputery. Co to oznacza? Nie szkodzi. Będą inne stanowiska. Na przykład przybędzie naukowców od analizy danych. Nie do końca. Analitykom danych nie trzeba dużo czasu na budowę takich systemów. Na przykład te cztery algorytmy opracował jeden człowiek. Myślicie, że to już było, widzieliśmy już w przeszłości, jak stare zawody ustępują nowym. Jakie będą te nowe zawody? Bardzo ciężko jest to oszacować, bo ludzkie osiągnięcia rosną stopniowo, a teraz mamy system, uczenie głębokie, którego zdolności rosną wykładniczo. A my jesteśmy tutaj. Widząc dzisiejsze realia mówimy: "Komputery są nadal dosyć głupie". Ale za pięć lat komputery będą poza skalą. Musimy zacząć myśleć o tych możliwościach już teraz. Oczywiście widzieliśmy to już kiedyś. Podczas rewolucji przemysłowej mieliśmy skokową zmianę możliwości dzięki silnikom. Tyle tylko, że po pewnym czasie rezultaty uległy spłaszczeniu. Nastąpiły zakłócenia społeczne, ale kiedy silnik zaczęto stosować do każdego rodzaju wytwarzania energii, wszystko się ustabilizowało. Rewolucja uczenia maszynowego będzie bardzo różna od rewolucji przemysłowej, bo rewolucja uczenia maszynowego nie ustabilizuje się nigdy. Im lepsza będzie aktywność intelektualna komputerów, tym lepsze zbudują komputery, o jeszcze większych zdolnościach intelektualnych. Będzie to zmiana, jakiej świat nigdy dotąd nie doświadczył, więc zmieniło się nasze wcześniejsze zrozumienie możliwości. Już odczuwamy ten wpływ. Przez ostatnie 25 lat produktywność kapitału wzrastała, wydajność pracy pozostała bez zmian, a nawet trochę spadła. Chcę więc już teraz zacząć tę dyskusję. Zwykle gdy opowiadam o tym problemie, napotykam lekceważenie. Przecież komputery nie potrafią naprawdę myśleć, nie mają uczuć, nie rozumieją poezji, nie do końca wiemy, jak działają. I co z tego? Komputery już teraz potrafią wykonywać czynności, z których utrzymują się ludzie, więc trzeba zacząć się zastanawiać, jak dostosujemy społeczne i gospodarcze struktury do tej nowej rzeczywistości. Dziękuję. (Oklaski)