Kiedyś było tak,
że aby komputer coś zrobił,
trzeba go było zaprogramować.
Dla tych, którzy tego nie robili:
programowanie wymaga
drobiazgowego zdefiniowania
każdego kroku, który komputer ma wykonać,
by osiągnąć cel.
Jeżeli chcemy,
by komputer wykonał czynność,
której sami nie potrafimy wykonać,
stajemy przed dużym wyzwaniem.
Stanął przed nim Artur Samuel.
W 1956 roku stwierdził, że chciałby,
aby komputer wygrał z nim w warcaby.
Jak napisać program,
drobiazgowo wyrazić,
jak być lepszym w warcaby
niż jest się samemu?
Artur wpadł na następujący pomysł:
kazał komputerowi
grać z samym sobą tysiące razy
i w ten sposób nauczyć się gry.
Rzeczywiście się udało.
W 1962 roku komputer pokonał
mistrza stanu Connecticut.
Artur Samuel był ojcem
uczenia maszynowego.
Mam wobec niego duży dług,
bo sam zajmuję się
uczeniem maszynowym.
Byłem przewodniczącym Kaggle,
społeczności zrzeszającej
200 tys. specjalistów
od programowania maszynowego.
Kaggle organizuje konkursy,
podczas których członkowie próbują
rozwiązać dotąd nierozwiązane problemy.
Udało się to już setki razy.
Z tej perspektywy wiele się dowiedziałem
o dawnych i obecnych
możliwościach uczenia maszynowego,
i co będzie możliwe w przyszłości.
Chyba pierwszym dużym sukcesem
w komercyjnym zastosowaniu
uczenia maszynowego
był Google, który udowodnił,
że da się szukać informacji
przy pomocy algorytmu komputerowego,
opartego o uczenie maszynowe.
Odtąd było wiele udanych
komercyjnych zastosowań.
Firmy takie jak Amazon czy Netflix
używają uczenia maszynowego
do proponowania produktów
lub filmów, które nas zaciekawią.
Czasem przyprawia to o gęsią skórkę.
Firmy jak LinkedIn czy Facebook
mówią nam czasem, kogo znamy,
i nie mamy pojęcia, jak to robią.
Wykorzystują moc uczenia maszynowego.
To algorytmy, które uczą się z danych,
nie zaś przez ręczne programowanie.
To również dlatego
komputer Watson firmy IBM
potrafił pokonać dwóch
mistrzów świata w grze "Va Banque",
odpowiadając na niezwykle subtelne
i skomplikowane pytania takie jak to:
Antyczny "Lew z Kalchu" zginął z muzeum
w tym mieście w 2003 roku.
Także dlatego mamy pierwsze
samokierujące samochody.
Możliwość odróżnienia, powiedzmy,
drzewa i przechodnia,
jest dosyć istotna.
Nie wiemy, jak zaprogramować to ręcznie,
ale potrafimy to zrobić
przez uczenie maszynowe.
Ten samochód przejechał już
ponad 2 mln kilometrów
po zwykłych drogach, bez wypadków.
Czyli komputery potrafią się uczyć
i potrafią uczyć się rzeczy,
których czasem sami nie potrafimy robić,
lub potrafią je robić lepiej niż my.
Jeden z niezwykłych przykładów
uczenia maszynowego
zdarzył się w projekcie,
który prowadziłem w Kaggle.
Zespół, którym kierował Geoffrey Hinton
z Uniwersytetu w Toronto,
wygrał konkurs na automatyczne
odkrywanie leków.
Co niezwykłe,
nie tylko przebili wszystkie algorytmy
firmy Merck i międzynarodowej
społeczności akademickiej,
ale też nikt w zespole nie miał
żadnej wiedzy z chemii, biologii
czy nauki o organizmach żywych,
a zrobili to w dwa tygodnie.
Jak im się to udało?
Użyli niezwykłego algorytmu,
zwanego uczeniem głębokim.
To wydarzenie było tak ważne,
że kilka tygodni później
New York Times pisał o nim
na stronie głównej.
Po lewej stronie widoczny
jest Geoffrey Hinton.
Uczenie głębokie to algorytm zainspirowany
sposobem działania ludzkiego mózgu,
przez co nie ma żadnych
teoretycznych ograniczeń.
Im więcej dostaje danych,
im więcej czasu obliczeniowego,
tym staje się lepszy.
New York Times przedstawił też w artykule
inne niezwykłe osiągniecie
uczenia głębokiego,
które teraz zaprezentuję.
Udowadnia ono, że komputery
potrafią słuchać i rozumieć.
(Wideo) Richard Rashid: Ostatni krok,
który chciałbym wykonać w tym procesie,
to przemówić do was po chińsku.
Chodzi o to, że udało nam się
wziąć dużą ilość informacji
od osób mówiących po chińsku
i stworzyć system syntezy mowy,
który konwertuje chiński tekst na mowę.
Potem wzięliśmy godzinne
nagranie mojego głosu
i użyliśmy go do zmodulowania
standardowego systemu syntezy mowy,
żeby brzmiał jak ja.
Efekt nie jest bezbłędny.
W sumie jest nawet sporo błędów.
(Po chińsku)
(Oklaski)
Ta dziedzina wymaga jeszcze dużo pracy.
(Po chińsku)
(Oklaski)
JH: To był fragment konferencji
na temat uczenia maszynowego w Chinach.
Na akademickich konferencjach
rzadko słyszy się spontaniczny aplauz.
Na konferencjach TEDx
zdarza się to częściej,
więc proszę się nie krępować.
Wszystko, co tu widzieliście,
osiągnięto przez uczenie głębokie.
(Oklaski) Dziękuję.
Transkrypcja na angielski
to uczenie głębokie.
Tłumaczenie na chiński i tekst
w prawym górnym rogu - uczenie głębokie,
synteza mowy to również uczenie głębokie.
Uczenie głębokie jest niezwykłe.
To pojedynczy algorytm,
który jakby umie wszystko.
Odkryłem, że rok wcześniej
nauczył się również widzieć.
W mało znanym konkursie w Niemczech
na rozpoznawanie znaków drogowych
uczenie głębokie nauczyło się
rozpoznawać takie znaki drogowe.
Nie tylko rozpoznawało znaki
lepiej niż inne algorytmy,
ale nawet lepiej niż ludzie,
mniej więcej dwa razy lepiej.
Czyli w 2011 r. mieliśmy pierwszy przykład
komputerów widzących lepiej niż ludzie.
Od tego czasu bardzo dużo się wydarzyło.
W 2012 r. Google ogłosił,
że ich algorytm uczenia głębokiego
oglądał filmy na YouTube
i przez miesiąc przetwarzał dane
na 16 tysiącach serwerów,
po czym samodzielnie nauczył się pojęć
takich jak ludzie czy koty,
tylko przez oglądanie filmów.
W bardzo podobny sposób uczą się ludzie.
Nie trzeba im mówić, na co patrzą,
tylko sami się uczą się,
czym są widziane obiekty.
W 2012 roku Geoffrey Hinton,
którego widzieliśmy wcześniej,
wygrał bardzo popularny konkurs ImageNet,
gdzie dla 1,5 miliona obrazków
trzeba określić,
co się na nich znajduje.
Do 2014 r. proporcja błędów spadła do 6%.
To znowu lepiej, niż ludzie.
Maszyny są tu niesamowicie skuteczne
i wykorzystuje się to już komercyjnie.
Na przykład Google ogłosił w zeszłym roku,
że znaleźli na mapie wszystkie adresy
we Francji w dwie godziny
przez dostarczenie zdjęć Street View
algorytmowi uczenia głębokiego,
który rozpoznał i odczytał numery domów.
Wyobraźcie sobie,
ile czasu zajęłoby to kiedyś:
dziesiątki ludzi, wiele lat.
To samo dzieje się w Chinach.
Baidu jest czymś w rodzaju
chińskiego Google.
W lewym górnym rogu
widać przykładowe zdjęcie,
które wczytałem do systemu
uczenia głębokiego Baidu,
poniżej widać, że system zrozumiał,
co jest na zdjęciu
i znalazł podobne zdjęcia.
Te zdjęcia mają podobne tło,
podobny kierunek pysków,
niektórym nawet wystają języki.
Ten algorytm na pewno nie patrzy
na tekst na stronie,
wgrałem tylko zdjęcie.
Czyli dzisiejsze komputery
naprawdę rozumieją, co widzą,
i na żywo umieją przeszukiwać bazy danych
setek milionów zdjęć.
Co to właściwie znaczy,
że komputery mogą widzieć?
Nie chodzi o samo widzenie.
Uczenie głębokie dało znacznie więcej.
Złożone i pełne niuansów zdania, jak to,
są już zrozumiałe
dla algorytmów uczenia głębokiego.
Jak widać tutaj,
system z Uniwersytetu Stanforda
zaznaczył czerwoną kropką na górze,
że to zdanie wyraża negację.
Efektywność uczenia głębokiego
jest zbliżona do ludzkiej
w rozumieniu sensu zdania i analizie.
Uczenie głębokie zastosowano
do czytania chińskiego
na poziomie zbliżonym
do rodzimych użytkowników.
Ten algorytm opracował szwajcarski zespół,
którego członkowie nie znają chińskiego.
Jak wspomniałem, uczenie głębokie
jest w tym najlepsze,
nawet w porównaniu z rozumieniem
przez rodzimych użytkowników języka.
Ten system zbudowaliśmy w mojej firmie.
Pokazuje, jak można to wszystko
połączyć w całość.
To są zdjęcia bez żadnego opisu
i w trakcie wpisywania zdań
system na żywo rozpoznaje zdjęcia,
ustala, co na nich jest,
i znajduje zdjęcia podobne do opisu.
Rzeczywiście rozumie, o czym piszę,
i rozumie, co jest na zdjęciach.
Pewnie znacie to z Google'a,
który znajduje zdjęcia
według wpisywanych słów,
choć w rzeczywistości wyszukuje
strony internetowe w oparciu o tekst.
To co innego niż rozumienie samych zdjęć.
Komputery potrafią to robić
dopiero od kilku miesięcy.
Czyli komputery potrafią
nie tylko widzieć, ale też czytać,
i potrafią też rozumieć, co słyszą.
Pewnie was nie zaskoczy,
że potrafią też pisać.
Ten tekst wygenerowałem wczoraj
przy pomocy uczenia głębokiego.
"Miło mi być tu z wami w Brukseli!"
Tę próbkę tekstu
wygenerował algorytm ze Stanford.
Uczenie głębokie wygenerowało te zdania,
aby opisać każde z tych zdjęć.
Ten algorytm nigdy przedtem nie widział
mężczyzny w czarnej koszulce,
grającego na gitarze.
Widział mężczyznę,
widział czerń lub gitarę,
ale sam stworzył oryginalny opis zdjęcia.
Nadal nie dorównuje ludziom,
ale mało mu brakuje.
W testach ludzie preferują opisy
generowane przez komputer
w co czwartym przypadku.
Ten system powstał dwa tygodnie temu,
więc w tym tempie
algorytm komputerowy
prześcignie człowieka,
pewnie w ciągu kolejnego roku.
Czyli komputery potrafią też pisać.
Połączyliśmy to wszystko,
co daje ekscytujące możliwości.
Na przykład w medycynie:
zespół z Bostonu ogłosił odkrycie
dziesiątek nowych,
istotnych klinicznie cech nowotworów,
co pomoże lekarzom
w prognozowaniu postępów raka.
Grupa badaczy ze Stanford ogłosiła,
że badając tkanki w powiększeniu,
opracowali system
wykorzystujący uczenie maszynowe,
który lepiej niż patolodzy przewiduje
przeżywalność chorych na raka.
Prognozy były nie tylko trafniejsze,
ale dostarczyły nowej, wnikliwej wiedzy.
W przypadku radiologii
były to nowe wskaźniki kliniczne,
zrozumiałe dla ludzi.
W przypadku patologii
system komputerowy odkrył,
że komórki otaczające nowotwór
są tak samo istotne,
jak komórki nowotworowe
w postawieniu diagnozy.
To całkowicie przeczy
dotychczasowej wiedzy o patologii.
Oba te systemy
opracowali eksperci medyczni
we współpracy z ekspertami
od uczenia maszynowego.
W zeszłym roku
przekroczyliśmy i ten próg.
To jest przykład identyfikacji
zmian nowotworowych
w ludzkiej tkance badanej pod mikroskopem.
Prezentowany tu system potrafi
rozpoznawać te zmiany dokładniej
lub równie dokładnie, co patolog,
ale został zbudowany
przy użyciu uczenia głębokiego
bez żadnej wiedzy medycznej,
przez ludzi nie związanych z medycyną.
Podobnie z segmentacją neuronów.
Możemy segmentować neurony
równie dokładnie, jak ludzie,
przy użyciu systemu uczenia głębokiego,
opracowanego przez ludzi
bez wiedzy medycznej.
Zatem ja, jako osoba
bez żadnej wiedzy medycznej,
mam dostateczne kwalifikacje,
by założyć firmę medyczną,
co też zrobiłem.
Byłem tym dosyć przerażony,
ale teoria wskazywała, że w medycynie
można przydać się
samą techniką analizy danych.
Szczęśliwie, przyjęto nas fantastycznie,
zarówno media, jak i społeczność medyczna,
która bardzo wspierała ten projekt.
W teorii możemy przejąć
środkową część procesu medycznego
i zastąpić ją daleko idącą analizą danych,
pozwalając lekarzom zająć się tym,
w czym są najlepsi.
Pokażę państwu przykład.
Generacja nowego testu diagnostycznego
zajmuje 15 minut.
Pokażę to teraz na żywo.
Skompresowałem to do trzech minut,
omijając pewne czynności.
Zamiast nowego testu diagnostycznego
w medycynie,
pokażę test diagnostyczny samochodów,
bo jest to coś, co wszyscy rozumiemy.
Na początek mamy 1,5 mln zdjęć samochodów.
Chcę stworzyć coś,
co je pogrupuje według kąta,
z jakiego zostały sfotografowane.
To zdjęcia bez opisów,
więc trzeba zacząć od zera.
Nasz algorytm uczenia głębokiego
potrafi automatycznie rozpoznawać
struktury na zdjęciach.
Człowiek i komputer mogą współpracować.
Jak tu widać,
człowiek mówi komputerowi
o obszarach zainteresowań,
których komputer ma użyć
do ulepszenia swojego algorytmu.
Ten system uczenia głębokiego
operuje w przestrzeni
o 16 tysiącach wymiarów.
Widać, jak komputer obraca obiekty,
próbując znaleźć nowe obszary struktur.
Kiedy mu się to uda,
operator może wskazać
interesujące obszary.
W tym przypadku komputer
znalazł pewne obszary,
na przykład kąt zdjęcia.
Z biegiem tego procesu
stopniowo mówimy komputerowi coraz więcej
na temat rodzaju szukanych struktur.
Można sobie wyobrazić,
że w przypadku testu diagnostycznego
patolog identyfikowałby
obszary patologiczne,
a radiolog wskazywałby
na potencjalnie uciążliwe guzki.
Czasami może być to trudne dla algorytmu.
W tym przypadku, algorytm się zgubił.
Przednie i tylne części samochodów
są wymieszane.
Musimy być trochę ostrożniejsi
i ręcznie zaznaczyć przednie części,
wskazując potem komputerowi,
że o taką grupę chodzi.
Robimy to przez jakiś czas,
tu coś pominiemy,
teraz uczymy algorytm uczenia maszynowego
na podstawie tych kilkuset rzeczy
mając nadzieję, że się udoskonali.
Widać, że algorytm
zaczął wygaszać niektóre zdjęcia,
pokazując w ten sposób,
że potrafi je już rozpoznawać.
Możemy użyć koncepcji podobnych zdjęć
i teraz widać,
że komputer potrafi już
znajdować maski samochodów.
Teraz człowiek może powiedzieć komputerowi
"Tak, świetnie się spisałeś".
Czasem, oczywiście, nawet w tym momencie
jest jeszcze trudno rozpoznawać grupy.
W tym przypadku nawet jeżeli pozwolimy
komputerowi obracać tym przez chwilę,
widać, że zdjęcia z prawej i lewej strony
są nadal wymieszane.
Można dać komputerowi kolejne wskazówki
i kazać mu znaleźć rzut,
który najwyraźniej oddziela
lewe i prawe boki,
przy pomocy uczenia głębokiego.
Po tej wskazówce - udało się.
Potrafi już myśleć o obiektach w sposób,
który oddziela te grupy.
Rozumiecie koncepcję.
Tutaj komputer współpracuje z człowiekiem,
zamiast go zastępować.
Udało się zastąpić proces,
który kiedyś wymagał zespołu
pięciu czy sześciu ludzi przez siedem lat
procesem, który zajmuje 15 minut
i wymaga jednej osoby.
Ten proces wymaga
czterech czy pięciu iteracji.
Widać, że teraz 62% z 1,5 miliona zdjęć
jest zaklasyfikowanych poprawnie.
Teraz można szybko wziąć większe sekcje
i sprawdzić, czy nie ma błędów.
Jeżeli są błędy,
można o nich powiedzieć komputerowi.
Powtarzając tę czynność dla różnych grup,
mamy już teraz 80% skuteczności
w klasyfikowaniu 1,5 miliona zdjęć.
Teraz trzeba już tylko znaleźć tych kilka,
które nie są klasyfikowane poprawnie
i zrozumieć przyczynę.
W 15 minut można osiągnąć skuteczność 97%.
Ta technika pozwoli być może
rozwiązać poważny problem
światowego niedoboru
kompetencji medycznych.
Światowe Forum Ekonomiczne szacuje
10- lub 20-krotny niedobór lekarzy
w krajach rozwijających się,
a wyszkolenie odpowiedniej liczby ludzi
zajęłoby około 300 lat.
A gdyby można było
zwiększyć ich efektywność
przy pomocy metod uczenia głębokiego?
Bardzo mnie pociągają takie możliwości.
Niepokoją mnie też problemy.
Otóż każdy niebieski obszar na tej mapie
to ponad 80% osób
zatrudnionych w usługach.
Co to są usługi?
Oto usługi. [Kierowcy, kucharze,
diagnostycy, prawnicy]
Tak się składa,
że właśnie to opanowały komputery.
Zatem 80% zatrudnionych
w krajach rozwiniętych
robi rzeczy, których właśnie
nauczyły się komputery.
Co to oznacza?
Nie szkodzi. Będą inne stanowiska.
Na przykład przybędzie naukowców
od analizy danych.
Nie do końca.
Analitykom danych nie trzeba dużo czasu
na budowę takich systemów.
Na przykład te cztery algorytmy
opracował jeden człowiek.
Myślicie, że to już było,
widzieliśmy już w przeszłości,
jak stare zawody ustępują nowym.
Jakie będą te nowe zawody?
Bardzo ciężko jest to oszacować,
bo ludzkie osiągnięcia rosną stopniowo,
a teraz mamy system, uczenie głębokie,
którego zdolności rosną wykładniczo.
A my jesteśmy tutaj.
Widząc dzisiejsze realia mówimy:
"Komputery są nadal dosyć głupie".
Ale za pięć lat komputery będą poza skalą.
Musimy zacząć myśleć
o tych możliwościach już teraz.
Oczywiście widzieliśmy to już kiedyś.
Podczas rewolucji przemysłowej
mieliśmy skokową zmianę możliwości
dzięki silnikom.
Tyle tylko, że po pewnym czasie
rezultaty uległy spłaszczeniu.
Nastąpiły zakłócenia społeczne,
ale kiedy silnik zaczęto stosować
do każdego rodzaju wytwarzania energii,
wszystko się ustabilizowało.
Rewolucja uczenia maszynowego
będzie bardzo różna
od rewolucji przemysłowej,
bo rewolucja uczenia maszynowego
nie ustabilizuje się nigdy.
Im lepsza będzie
aktywność intelektualna komputerów,
tym lepsze zbudują komputery,
o jeszcze większych
zdolnościach intelektualnych.
Będzie to zmiana,
jakiej świat nigdy dotąd nie doświadczył,
więc zmieniło się nasze wcześniejsze
zrozumienie możliwości.
Już odczuwamy ten wpływ.
Przez ostatnie 25 lat
produktywność kapitału wzrastała,
wydajność pracy pozostała bez zmian,
a nawet trochę spadła.
Chcę więc już teraz zacząć tę dyskusję.
Zwykle gdy opowiadam o tym problemie,
napotykam lekceważenie.
Przecież komputery nie potrafią
naprawdę myśleć,
nie mają uczuć,
nie rozumieją poezji,
nie do końca wiemy, jak działają.
I co z tego?
Komputery już teraz potrafią
wykonywać czynności,
z których utrzymują się ludzie,
więc trzeba zacząć się zastanawiać,
jak dostosujemy
społeczne i gospodarcze struktury
do tej nowej rzeczywistości.
Dziękuję.
(Oklaski)