1
00:00:00,880 --> 00:00:02,735
Kiedyś było tak,

2
00:00:02,735 --> 00:00:04,590
że aby komputer coś zrobił,

3
00:00:04,590 --> 00:00:06,447
trzeba go było zaprogramować.

4
00:00:06,447 --> 00:00:09,398
Dla tych, którzy tego nie robili:

5
00:00:09,398 --> 00:00:13,470
programowanie wymaga
drobiazgowego zdefiniowania 


6
00:00:13,470 --> 00:00:16,727
każdego kroku, który komputer ma wykonać,

7
00:00:16,727 --> 00:00:18,614
by osiągnąć cel.

8
00:00:18,614 --> 00:00:21,221
Jeżeli chcemy,
by komputer wykonał czynność,

9
00:00:21,221 --> 00:00:23,070
której sami nie potrafimy wykonać,

10
00:00:23,079 --> 00:00:24,648
stajemy przed dużym wyzwaniem.

11
00:00:24,648 --> 00:00:28,131
Stanął przed nim Artur Samuel.

12
00:00:28,131 --> 00:00:31,348
W 1956 roku stwierdził, że chciałby,

13
00:00:31,348 --> 00:00:34,548
aby komputer wygrał z nim w warcaby.

14
00:00:34,548 --> 00:00:36,018
Jak napisać program,

15
00:00:36,018 --> 00:00:38,547
drobiazgowo wyrazić, 
jak być lepszym w warcaby

16
00:00:38,547 --> 00:00:40,196
niż jest się samemu?

17
00:00:40,196 --> 00:00:42,116
Artur wpadł na następujący pomysł:

18
00:00:42,116 --> 00:00:45,840
kazał komputerowi 
grać z samym sobą tysiące razy

19
00:00:45,840 --> 00:00:48,364
i w ten sposób nauczyć się gry.

20
00:00:48,364 --> 00:00:50,314
Rzeczywiście się udało.

21
00:00:50,314 --> 00:00:55,561
W 1962 roku komputer pokonał
mistrza stanu Connecticut.

22
00:00:55,561 --> 00:00:58,534
Artur Samuel był ojcem
uczenia maszynowego.

23
00:00:58,534 --> 00:01:00,251
Mam wobec niego duży dług,

24
00:01:00,251 --> 00:01:02,404
bo sam zajmuję się
uczeniem maszynowym.

25
00:01:02,404 --> 00:01:04,051
Byłem przewodniczącym Kaggle,

26
00:01:04,051 --> 00:01:06,888
społeczności zrzeszającej 
200 tys. specjalistów

27
00:01:06,888 --> 00:01:08,367
od programowania maszynowego.

28
00:01:08,367 --> 00:01:10,122
Kaggle organizuje konkursy,

29
00:01:10,122 --> 00:01:11,757
podczas których członkowie próbują

30
00:01:11,757 --> 00:01:13,833
rozwiązać dotąd nierozwiązane problemy.

31
00:01:13,833 --> 00:01:17,470
Udało się to już setki razy.

32
00:01:17,470 --> 00:01:20,120
Z tej perspektywy wiele się dowiedziałem

33
00:01:20,120 --> 00:01:23,950
o dawnych i obecnych 
możliwościach uczenia maszynowego,

34
00:01:23,950 --> 00:01:26,252
i co będzie możliwe w przyszłości.

35
00:01:26,252 --> 00:01:28,135
Chyba pierwszym dużym sukcesem

36
00:01:28,135 --> 00:01:30,571
w komercyjnym zastosowaniu
uczenia maszynowego

37
00:01:30,571 --> 00:01:33,944
był Google, który udowodnił,
że da się szukać informacji

38
00:01:33,944 --> 00:01:35,856
przy pomocy algorytmu komputerowego,

39
00:01:35,856 --> 00:01:37,802
opartego o uczenie maszynowe.

40
00:01:37,802 --> 00:01:41,928
Odtąd było wiele udanych
komercyjnych zastosowań.

41
00:01:41,928 --> 00:01:43,844
Firmy takie jak Amazon czy Netflix

42
00:01:43,844 --> 00:01:47,110
używają uczenia maszynowego
do proponowania produktów

43
00:01:47,110 --> 00:01:49,770
lub filmów, które nas zaciekawią.

44
00:01:49,776 --> 00:01:51,986
Czasem przyprawia to o gęsią skórkę.

45
00:01:51,986 --> 00:01:53,463
Firmy jak LinkedIn czy Facebook

46
00:01:53,463 --> 00:01:56,077
mówią nam czasem, kogo znamy,

47
00:01:56,077 --> 00:01:58,191
i nie mamy pojęcia, jak to robią.

48
00:01:58,191 --> 00:02:01,178
Wykorzystują moc uczenia maszynowego.

49
00:02:01,195 --> 00:02:04,302
To algorytmy, które uczą się z danych,

50
00:02:04,302 --> 00:02:07,399
nie zaś przez ręczne programowanie.

51
00:02:07,399 --> 00:02:11,225
To również dlatego
komputer Watson firmy IBM

52
00:02:11,225 --> 00:02:14,059
potrafił pokonać dwóch 
mistrzów świata w grze "Va Banque",

53
00:02:14,059 --> 00:02:17,484
odpowiadając na niezwykle subtelne
i skomplikowane pytania takie jak to:

54
00:02:17,484 --> 00:02:20,819
Antyczny "Lew z Kalchu" zginął z muzeum
w tym mieście w 2003 roku.

55
00:02:20,819 --> 00:02:23,514
Także dlatego mamy pierwsze
samokierujące samochody.

56
00:02:23,514 --> 00:02:26,936
Możliwość odróżnienia, powiedzmy,
drzewa i przechodnia,

57
00:02:26,936 --> 00:02:28,488
jest dosyć istotna.

58
00:02:28,488 --> 00:02:31,075
Nie wiemy, jak zaprogramować to ręcznie,

59
00:02:31,075 --> 00:02:34,072
ale potrafimy to zrobić
przez uczenie maszynowe.

60
00:02:34,072 --> 00:02:37,510
Ten samochód przejechał już
ponad 2 mln kilometrów

61
00:02:37,510 --> 00:02:40,186
po zwykłych drogach, bez wypadków.

62
00:02:40,196 --> 00:02:44,110
Czyli komputery potrafią się uczyć

63
00:02:44,110 --> 00:02:46,010
i potrafią uczyć się rzeczy,

64
00:02:46,010 --> 00:02:48,848
których czasem sami nie potrafimy robić,

65
00:02:48,848 --> 00:02:51,733
lub potrafią je robić lepiej niż my.

66
00:02:51,733 --> 00:02:55,348
Jeden z niezwykłych przykładów
uczenia maszynowego

67
00:02:55,348 --> 00:02:58,320
zdarzył się w projekcie,
który prowadziłem w Kaggle.

68
00:02:58,320 --> 00:03:01,911
Zespół, którym kierował Geoffrey Hinton

69
00:03:01,911 --> 00:03:03,463
z Uniwersytetu w Toronto,

70
00:03:03,463 --> 00:03:06,140
wygrał konkurs na automatyczne
odkrywanie leków.

71
00:03:06,140 --> 00:03:08,987
Co niezwykłe, 
nie tylko przebili wszystkie algorytmy

72
00:03:08,987 --> 00:03:13,011
firmy Merck i międzynarodowej 
społeczności akademickiej,

73
00:03:13,011 --> 00:03:16,230
ale też nikt w zespole nie miał
żadnej wiedzy z chemii, biologii

74
00:03:16,260 --> 00:03:17,820
czy nauki o organizmach żywych,

75
00:03:17,820 --> 00:03:20,230
a zrobili to w dwa tygodnie.

76
00:03:20,230 --> 00:03:22,241
Jak im się to udało?

77
00:03:22,241 --> 00:03:25,342
Użyli niezwykłego algorytmu,
zwanego uczeniem głębokim.

78
00:03:25,342 --> 00:03:28,191
To wydarzenie było tak ważne,
że kilka tygodni później

79
00:03:28,191 --> 00:03:31,412
New York Times pisał o nim
na stronie głównej.

80
00:03:31,412 --> 00:03:34,147
Po lewej stronie widoczny
jest Geoffrey Hinton.

81
00:03:34,147 --> 00:03:39,278
Uczenie głębokie to algorytm zainspirowany
sposobem działania ludzkiego mózgu,

82
00:03:39,278 --> 00:03:43,831
przez co nie ma żadnych 
teoretycznych ograniczeń.

83
00:03:43,831 --> 00:03:46,774
Im więcej dostaje danych,
im więcej czasu obliczeniowego,

84
00:03:46,774 --> 00:03:48,456
tym staje się lepszy.

85
00:03:48,456 --> 00:03:50,615
New York Times przedstawił też w artykule

86
00:03:50,615 --> 00:03:53,187
inne niezwykłe osiągniecie
uczenia głębokiego,

87
00:03:53,187 --> 00:03:55,129
które teraz zaprezentuję.

88
00:03:55,899 --> 00:04:00,090
Udowadnia ono, że komputery 
potrafią słuchać i rozumieć.

89
00:04:00,510 --> 00:04:03,221
(Wideo) Richard Rashid: Ostatni krok,

90
00:04:03,221 --> 00:04:06,246
który chciałbym wykonać w tym procesie,

91
00:04:06,246 --> 00:04:10,961
to przemówić do was po chińsku.

92
00:04:10,961 --> 00:04:13,596
Chodzi o to, że udało nam się

93
00:04:13,596 --> 00:04:18,598
wziąć dużą ilość informacji
od osób mówiących po chińsku

94
00:04:18,598 --> 00:04:21,128
i stworzyć system syntezy mowy,

95
00:04:21,128 --> 00:04:25,801
który konwertuje chiński tekst na mowę.

96
00:04:25,801 --> 00:04:29,929
Potem wzięliśmy godzinne
nagranie mojego głosu

97
00:04:29,929 --> 00:04:34,220
i użyliśmy go do zmodulowania 
standardowego systemu syntezy mowy,

98
00:04:34,220 --> 00:04:35,911
żeby brzmiał jak ja.

99
00:04:35,911 --> 00:04:38,904
Efekt nie jest bezbłędny.

100
00:04:38,904 --> 00:04:41,552
W sumie jest nawet sporo błędów.

101
00:04:41,552 --> 00:04:44,036
(Po chińsku)

102
00:04:44,036 --> 00:04:46,383
(Oklaski)

103
00:04:49,446 --> 00:04:53,022
Ta dziedzina wymaga jeszcze dużo pracy.

104
00:04:53,022 --> 00:04:56,667
(Po chińsku)

105
00:04:56,667 --> 00:04:59,090
(Oklaski)

106
00:05:00,735 --> 00:05:04,744
JH: To był fragment konferencji
na temat uczenia maszynowego w Chinach.

107
00:05:04,744 --> 00:05:08,904
Na akademickich konferencjach
rzadko słyszy się spontaniczny aplauz.

108
00:05:09,011 --> 00:05:11,177
Na konferencjach TEDx
zdarza się to częściej,

109
00:05:11,177 --> 00:05:12,580
więc proszę się nie krępować.


110
00:05:12,580 --> 00:05:16,193
Wszystko, co tu widzieliście, 
osiągnięto przez uczenie głębokie.

111
00:05:16,193 --> 00:05:17,127
(Oklaski) Dziękuję.

112
00:05:17,127 --> 00:05:19,289
Transkrypcja na angielski
to uczenie głębokie.

113
00:05:19,289 --> 00:05:22,701
Tłumaczenie na chiński i tekst
w prawym górnym rogu - uczenie głębokie,

114
00:05:22,701 --> 00:05:26,008
synteza mowy to również uczenie głębokie.

115
00:05:26,008 --> 00:05:29,242
Uczenie głębokie jest niezwykłe.

116
00:05:29,242 --> 00:05:32,341
To pojedynczy algorytm, 
który jakby umie wszystko.

117
00:05:32,341 --> 00:05:35,452
Odkryłem, że rok wcześniej 
nauczył się również widzieć.

118
00:05:35,452 --> 00:05:37,548
W mało znanym konkursie w Niemczech

119
00:05:37,548 --> 00:05:40,295
na rozpoznawanie znaków drogowych

120
00:05:40,295 --> 00:05:42,009
uczenie głębokie nauczyło się

121
00:05:42,009 --> 00:05:43,723
rozpoznawać takie znaki drogowe.

122
00:05:43,723 --> 00:05:45,438
Nie tylko rozpoznawało znaki

123
00:05:45,438 --> 00:05:47,168
lepiej niż inne algorytmy,

124
00:05:47,168 --> 00:05:49,640
ale nawet lepiej niż ludzie,

125
00:05:49,640 --> 00:05:51,499
mniej więcej dwa razy lepiej.

126
00:05:51,811 --> 00:05:54,037
Czyli w 2011 r. mieliśmy pierwszy przykład

127
00:05:54,037 --> 00:05:57,442
komputerów widzących lepiej niż ludzie.

128
00:05:57,442 --> 00:05:59,491
Od tego czasu bardzo dużo się wydarzyło.

129
00:05:59,491 --> 00:06:03,005
W 2012 r. Google ogłosił, 
że ich algorytm uczenia głębokiego

130
00:06:03,005 --> 00:06:04,420
oglądał filmy na YouTube

131
00:06:04,420 --> 00:06:07,857
i przez miesiąc przetwarzał dane 
na 16 tysiącach serwerów,

132
00:06:07,857 --> 00:06:10,077
po czym samodzielnie nauczył się pojęć

133
00:06:10,077 --> 00:06:11,797
takich jak ludzie czy koty,

134
00:06:11,797 --> 00:06:13,767
tylko przez oglądanie filmów.

135
00:06:13,767 --> 00:06:16,489
W bardzo podobny sposób uczą się ludzie.

136
00:06:16,489 --> 00:06:19,329
Nie trzeba im mówić, na co patrzą,

137
00:06:19,329 --> 00:06:22,590
tylko sami się uczą się,
czym są widziane obiekty.

138
00:06:22,590 --> 00:06:25,819
W 2012 roku Geoffrey Hinton,
którego widzieliśmy wcześniej,

139
00:06:25,819 --> 00:06:28,677
wygrał bardzo popularny konkurs ImageNet,

140
00:06:28,677 --> 00:06:32,818
gdzie dla 1,5 miliona obrazków 
trzeba określić,

141
00:06:32,818 --> 00:06:34,256
co się na nich znajduje.

142
00:06:34,256 --> 00:06:38,892
Do 2014 r. proporcja błędów spadła do 6%.

143
00:06:38,892 --> 00:06:41,488
To znowu lepiej, niż ludzie.

144
00:06:41,488 --> 00:06:45,037
Maszyny są tu niesamowicie skuteczne

145
00:06:45,037 --> 00:06:47,306
i wykorzystuje się to już komercyjnie.

146
00:06:47,306 --> 00:06:50,348
Na przykład Google ogłosił w zeszłym roku,

147
00:06:50,348 --> 00:06:54,933
że znaleźli na mapie wszystkie adresy
we Francji w dwie godziny

148
00:06:54,933 --> 00:06:58,380
przez dostarczenie zdjęć Street View

149
00:06:58,380 --> 00:07:02,699
algorytmowi uczenia głębokiego,
który rozpoznał i odczytał numery domów.

150
00:07:02,699 --> 00:07:05,439
Wyobraźcie sobie,
ile czasu zajęłoby to kiedyś:

151
00:07:05,439 --> 00:07:08,274
dziesiątki ludzi, wiele lat.

152
00:07:08,274 --> 00:07:10,185
To samo dzieje się w Chinach.

153
00:07:10,185 --> 00:07:14,221
Baidu jest czymś w rodzaju
chińskiego Google.

154
00:07:14,221 --> 00:07:16,504
W lewym górnym rogu 
widać przykładowe zdjęcie,

155
00:07:16,504 --> 00:07:20,478
które wczytałem do systemu 
uczenia głębokiego Baidu,

156
00:07:20,478 --> 00:07:24,247
poniżej widać, że system zrozumiał,
co jest na zdjęciu

157
00:07:24,247 --> 00:07:26,483
i znalazł podobne zdjęcia.

158
00:07:26,483 --> 00:07:29,219
Te zdjęcia mają podobne tło,

159
00:07:29,219 --> 00:07:30,877
podobny kierunek pysków,

160
00:07:30,877 --> 00:07:32,665
niektórym nawet wystają języki.

161
00:07:32,665 --> 00:07:35,695
Ten algorytm na pewno nie patrzy
na tekst na stronie,

162
00:07:35,695 --> 00:07:37,107
wgrałem tylko zdjęcie.

163
00:07:37,107 --> 00:07:41,128
Czyli dzisiejsze komputery
naprawdę rozumieją, co widzą,

164
00:07:41,128 --> 00:07:43,652
i na żywo umieją przeszukiwać bazy danych

165
00:07:43,652 --> 00:07:46,306
setek milionów zdjęć.

166
00:07:46,306 --> 00:07:48,976
Co to właściwie znaczy,
że komputery mogą widzieć?

167
00:07:48,976 --> 00:07:51,553
Nie chodzi o samo widzenie.

168
00:07:51,553 --> 00:07:54,002
Uczenie głębokie dało znacznie więcej.

169
00:07:54,002 --> 00:07:56,570
Złożone i pełne niuansów zdania, jak to,

170
00:07:56,570 --> 00:07:59,394
są już zrozumiałe 
dla algorytmów uczenia głębokiego.

171
00:07:59,394 --> 00:08:00,697
Jak widać tutaj,

172
00:08:00,697 --> 00:08:02,645
system z Uniwersytetu Stanforda

173
00:08:02,645 --> 00:08:04,906
zaznaczył czerwoną kropką na górze,


174
00:08:04,906 --> 00:08:07,657
że to zdanie wyraża negację.

175
00:08:07,657 --> 00:08:10,790
Efektywność uczenia głębokiego 
jest zbliżona do ludzkiej

176
00:08:10,802 --> 00:08:15,923
w rozumieniu sensu zdania i analizie.

177
00:08:15,923 --> 00:08:18,651
Uczenie głębokie zastosowano
do czytania chińskiego

178
00:08:18,651 --> 00:08:21,807
na poziomie zbliżonym 
do rodzimych użytkowników.

179
00:08:21,807 --> 00:08:23,975
Ten algorytm opracował szwajcarski zespół,

180
00:08:23,975 --> 00:08:27,711
którego członkowie nie znają chińskiego.

181
00:08:27,711 --> 00:08:29,382
Jak wspomniałem, uczenie głębokie

182
00:08:29,382 --> 00:08:31,601
jest w tym najlepsze,

183
00:08:31,601 --> 00:08:34,168
nawet w porównaniu z rozumieniem

184
00:08:34,168 --> 00:08:36,735
przez rodzimych użytkowników języka.

185
00:08:36,735 --> 00:08:39,302
Ten system zbudowaliśmy w mojej firmie.

186
00:08:39,302 --> 00:08:41,728
Pokazuje, jak można to wszystko
połączyć w całość.

187
00:08:41,728 --> 00:08:44,189
To są zdjęcia bez żadnego opisu

188
00:08:44,189 --> 00:08:46,541
i w trakcie wpisywania zdań

189
00:08:46,541 --> 00:08:49,510
system na żywo rozpoznaje zdjęcia,

190
00:08:49,510 --> 00:08:51,189
ustala, co na nich jest,

191
00:08:51,189 --> 00:08:54,352
i znajduje zdjęcia podobne do opisu.

192
00:08:54,352 --> 00:08:57,108
Rzeczywiście rozumie, o czym piszę,

193
00:08:57,108 --> 00:08:59,332
i rozumie, co jest na zdjęciach.

194
00:08:59,332 --> 00:09:01,711
Pewnie znacie to z Google'a,

195
00:09:01,711 --> 00:09:05,286
który znajduje zdjęcia 
według wpisywanych słów,

196
00:09:05,286 --> 00:09:08,680
choć w rzeczywistości wyszukuje
strony internetowe w oparciu o tekst.

197
00:09:08,680 --> 00:09:12,001
To co innego niż rozumienie samych zdjęć.

198
00:09:12,001 --> 00:09:16,383
Komputery potrafią to robić
dopiero od kilku miesięcy.

199
00:09:17,091 --> 00:09:21,182
Czyli komputery potrafią
nie tylko widzieć, ale też czytać,

200
00:09:21,182 --> 00:09:24,947
i potrafią też rozumieć, co słyszą.

201
00:09:24,947 --> 00:09:27,756
Pewnie was nie zaskoczy, 
że potrafią też pisać.

202
00:09:27,756 --> 00:09:31,882
Ten tekst wygenerowałem wczoraj
przy pomocy uczenia głębokiego.

203
00:09:31,882 --> 00:09:34,346
"Miło mi być tu z wami w Brukseli!"

204
00:09:34,346 --> 00:09:37,050
Tę próbkę tekstu 
wygenerował algorytm ze Stanford.

205
00:09:37,050 --> 00:09:39,989
Uczenie głębokie wygenerowało te zdania,

206
00:09:39,989 --> 00:09:43,061
aby opisać każde z tych zdjęć.

207
00:09:43,061 --> 00:09:45,741
Ten algorytm nigdy przedtem nie widział

208
00:09:45,741 --> 00:09:48,363
mężczyzny w czarnej koszulce, 
grającego na gitarze.

209
00:09:48,363 --> 00:09:51,496
Widział mężczyznę,
widział czerń lub gitarę,

210
00:09:51,496 --> 00:09:56,101
ale sam stworzył oryginalny opis zdjęcia.

211
00:09:56,101 --> 00:10:00,056
Nadal nie dorównuje ludziom, 
ale mało mu brakuje.

212
00:10:00,056 --> 00:10:03,351
W testach ludzie preferują opisy
generowane przez komputer

213
00:10:03,351 --> 00:10:04,995
w co czwartym przypadku.

214
00:10:04,995 --> 00:10:06,831
Ten system powstał dwa tygodnie temu,

215
00:10:06,831 --> 00:10:08,902
więc w tym tempie

216
00:10:08,902 --> 00:10:11,594
algorytm komputerowy 
prześcignie człowieka,

217
00:10:11,594 --> 00:10:13,963
pewnie w ciągu kolejnego roku.

218
00:10:13,963 --> 00:10:17,048
Czyli komputery potrafią też pisać.

219
00:10:17,048 --> 00:10:19,990
Połączyliśmy to wszystko,
co daje ekscytujące możliwości.

220
00:10:19,990 --> 00:10:21,485
Na przykład w medycynie:

221
00:10:21,485 --> 00:10:23,974
zespół z Bostonu ogłosił odkrycie

222
00:10:23,974 --> 00:10:28,310
dziesiątek nowych, 
istotnych klinicznie cech nowotworów,

223
00:10:28,310 --> 00:10:31,536
co pomoże lekarzom
w prognozowaniu postępów raka.

224
00:10:33,096 --> 00:10:35,749
Grupa badaczy ze Stanford ogłosiła,

225
00:10:35,749 --> 00:10:38,810
że badając tkanki w powiększeniu,

226
00:10:38,810 --> 00:10:42,062
opracowali system 
wykorzystujący uczenie maszynowe,

227
00:10:42,062 --> 00:10:44,589
który lepiej niż patolodzy przewiduje

228
00:10:44,589 --> 00:10:47,481
przeżywalność chorych na raka.

229
00:10:47,481 --> 00:10:50,373
Prognozy były nie tylko trafniejsze,

230
00:10:50,373 --> 00:10:53,266
ale dostarczyły nowej, wnikliwej wiedzy.

231
00:10:53,276 --> 00:10:54,781
W przypadku radiologii

232
00:10:54,781 --> 00:10:57,876
były to nowe wskaźniki kliniczne,
zrozumiałe dla ludzi.

233
00:10:57,876 --> 00:10:59,668
W przypadku patologii

234
00:10:59,668 --> 00:11:04,168
system komputerowy odkrył,
że komórki otaczające nowotwór

235
00:11:04,168 --> 00:11:07,508
są tak samo istotne,
jak komórki nowotworowe

236
00:11:07,508 --> 00:11:09,260
w postawieniu diagnozy.

237
00:11:09,260 --> 00:11:13,961
To całkowicie przeczy
dotychczasowej wiedzy o patologii.

238
00:11:15,412 --> 00:11:18,313
Oba te systemy
opracowali eksperci medyczni

239
00:11:18,313 --> 00:11:21,214
we współpracy z ekspertami
od uczenia maszynowego.

240
00:11:21,214 --> 00:11:23,655
W zeszłym roku 
przekroczyliśmy i ten próg.

241
00:11:23,655 --> 00:11:27,824
To jest przykład identyfikacji
zmian nowotworowych

242
00:11:27,824 --> 00:11:30,354
w ludzkiej tkance badanej pod mikroskopem.

243
00:11:30,354 --> 00:11:34,967
Prezentowany tu system potrafi
rozpoznawać te zmiany dokładniej

244
00:11:34,967 --> 00:11:37,742
lub równie dokładnie, co patolog,

245
00:11:37,742 --> 00:11:40,174
ale został zbudowany 
przy użyciu uczenia głębokiego

246
00:11:40,174 --> 00:11:41,640
bez żadnej wiedzy medycznej,

247
00:11:41,640 --> 00:11:44,128
przez ludzi nie związanych z medycyną.

248
00:11:44,438 --> 00:11:46,416
Podobnie z segmentacją neuronów.

249
00:11:46,416 --> 00:11:50,234
Możemy segmentować neurony
równie dokładnie, jak ludzie,

250
00:11:50,234 --> 00:11:52,658
przy użyciu systemu uczenia głębokiego,

251
00:11:52,658 --> 00:11:55,472
opracowanego przez ludzi 
bez wiedzy medycznej.

252
00:11:57,162 --> 00:12:00,058
Zatem ja, jako osoba 
bez żadnej wiedzy medycznej,

253
00:12:00,058 --> 00:12:03,243
mam dostateczne kwalifikacje,
by założyć firmę medyczną,

254
00:12:03,243 --> 00:12:04,790
co też zrobiłem.

255
00:12:06,021 --> 00:12:07,761
Byłem tym dosyć przerażony,

256
00:12:07,761 --> 00:12:10,084
ale teoria wskazywała, że w medycynie

257
00:12:10,084 --> 00:12:15,477
można przydać się 
samą techniką analizy danych.

258
00:12:16,142 --> 00:12:18,622
Szczęśliwie, przyjęto nas fantastycznie,

259
00:12:18,622 --> 00:12:21,578
zarówno media, jak i społeczność medyczna,

260
00:12:21,578 --> 00:12:23,322
która bardzo wspierała ten projekt.

261
00:12:23,322 --> 00:12:27,471
W teorii możemy przejąć 
środkową część procesu medycznego

262
00:12:27,471 --> 00:12:30,494
i zastąpić ją daleko idącą analizą danych,


263
00:12:30,494 --> 00:12:33,429
pozwalając lekarzom zająć się tym,
w czym są najlepsi.

264
00:12:33,429 --> 00:12:35,031
Pokażę państwu przykład.

265
00:12:35,031 --> 00:12:39,975
Generacja nowego testu diagnostycznego
zajmuje 15 minut.

266
00:12:39,975 --> 00:12:41,929
Pokażę to teraz na żywo.

267
00:12:41,929 --> 00:12:45,416
Skompresowałem to do trzech minut,
omijając pewne czynności.

268
00:12:45,416 --> 00:12:48,477
Zamiast nowego testu diagnostycznego 
w medycynie,

269
00:12:48,477 --> 00:12:51,846
pokażę test diagnostyczny samochodów,

270
00:12:51,846 --> 00:12:54,068
bo jest to coś, co wszyscy rozumiemy.

271
00:12:54,068 --> 00:12:57,269
Na początek mamy 1,5 mln zdjęć samochodów.

272
00:12:57,269 --> 00:13:00,475
Chcę stworzyć coś, 
co je pogrupuje według kąta,

273
00:13:00,475 --> 00:13:02,698
z jakiego zostały sfotografowane.

274
00:13:02,698 --> 00:13:06,586
To zdjęcia bez opisów, 
więc trzeba zacząć od zera.

275
00:13:06,586 --> 00:13:08,451
Nasz algorytm uczenia głębokiego

276
00:13:08,451 --> 00:13:12,158
potrafi automatycznie rozpoznawać
struktury na zdjęciach.

277
00:13:12,158 --> 00:13:15,778
Człowiek i komputer mogą współpracować.

278
00:13:15,778 --> 00:13:17,956
Jak tu widać,

279
00:13:17,956 --> 00:13:20,631
człowiek mówi komputerowi
o obszarach zainteresowań,

280
00:13:20,631 --> 00:13:25,281
których komputer ma użyć 
do ulepszenia swojego algorytmu.

281
00:13:25,281 --> 00:13:27,857
Ten system uczenia głębokiego
operuje w przestrzeni

282
00:13:27,857 --> 00:13:30,433
o 16 tysiącach wymiarów.

283
00:13:30,433 --> 00:13:33,009
Widać, jak komputer obraca obiekty,

284
00:13:33,009 --> 00:13:35,001
próbując znaleźć nowe obszary struktur.

285
00:13:35,001 --> 00:13:36,782
Kiedy mu się to uda,

286
00:13:36,782 --> 00:13:40,786
operator może wskazać 
interesujące obszary.

287
00:13:40,786 --> 00:13:43,208
W tym przypadku komputer
znalazł pewne obszary,

288
00:13:43,208 --> 00:13:45,770
na przykład kąt zdjęcia.

289
00:13:45,770 --> 00:13:47,376
Z biegiem tego procesu

290
00:13:47,376 --> 00:13:49,716
stopniowo mówimy komputerowi coraz więcej

291
00:13:49,716 --> 00:13:51,774
na temat rodzaju szukanych struktur.

292
00:13:51,774 --> 00:13:54,566
Można sobie wyobrazić,
że w przypadku testu diagnostycznego

293
00:13:54,566 --> 00:13:57,266
patolog identyfikowałby
obszary patologiczne,

294
00:13:57,266 --> 00:14:02,292
a radiolog wskazywałby 
na potencjalnie uciążliwe guzki.

295
00:14:02,292 --> 00:14:04,851
Czasami może być to trudne dla algorytmu.

296
00:14:04,851 --> 00:14:06,815
W tym przypadku, algorytm się zgubił.

297
00:14:06,815 --> 00:14:09,365
Przednie i tylne części samochodów
są wymieszane.

298
00:14:09,365 --> 00:14:11,437
Musimy być trochę ostrożniejsi

299
00:14:11,437 --> 00:14:14,669
i ręcznie zaznaczyć przednie części,

300
00:14:14,669 --> 00:14:20,175
wskazując potem komputerowi, 
że o taką grupę chodzi.

301
00:14:21,523 --> 00:14:24,030
Robimy to przez jakiś czas, 
tu coś pominiemy,

302
00:14:24,030 --> 00:14:26,446
teraz uczymy algorytm uczenia maszynowego

303
00:14:26,446 --> 00:14:28,420
na podstawie tych kilkuset rzeczy

304
00:14:28,420 --> 00:14:30,445
mając nadzieję, że się udoskonali.

305
00:14:30,445 --> 00:14:33,518
Widać, że algorytm 
zaczął wygaszać niektóre zdjęcia,

306
00:14:33,518 --> 00:14:38,226
pokazując w ten sposób,
że potrafi je już rozpoznawać.

307
00:14:38,226 --> 00:14:41,128
Możemy użyć koncepcji podobnych zdjęć

308
00:14:41,128 --> 00:14:43,852
i teraz widać,

309
00:14:43,852 --> 00:14:47,241
że komputer potrafi już
znajdować maski samochodów.

310
00:14:47,241 --> 00:14:50,189
Teraz człowiek może powiedzieć komputerowi

311
00:14:50,189 --> 00:14:52,482
"Tak, świetnie się spisałeś".

312
00:14:53,652 --> 00:14:55,837
Czasem, oczywiście, nawet w tym momencie

313
00:14:55,837 --> 00:14:59,511
jest jeszcze trudno rozpoznawać grupy.

314
00:14:59,511 --> 00:15:03,395
W tym przypadku nawet jeżeli pozwolimy
komputerowi obracać tym przez chwilę,

315
00:15:03,399 --> 00:15:07,694
widać, że zdjęcia z prawej i lewej strony 
są nadal wymieszane.

316
00:15:07,694 --> 00:15:10,142
Można dać komputerowi kolejne wskazówki

317
00:15:10,142 --> 00:15:12,698
i kazać mu znaleźć rzut,

318
00:15:12,698 --> 00:15:15,945
który najwyraźniej oddziela 
lewe i prawe boki,

319
00:15:15,945 --> 00:15:18,067
przy pomocy uczenia głębokiego.

320
00:15:18,067 --> 00:15:21,009
Po tej wskazówce - udało się.

321
00:15:21,009 --> 00:15:23,891
Potrafi już myśleć o obiektach w sposób,

322
00:15:23,891 --> 00:15:26,271
który oddziela te grupy.

323
00:15:26,271 --> 00:15:28,709
Rozumiecie koncepcję.

324
00:15:28,709 --> 00:15:36,906
Tutaj komputer współpracuje z człowiekiem,

325
00:15:36,906 --> 00:15:39,546
zamiast go zastępować.

326
00:15:39,546 --> 00:15:43,096
Udało się zastąpić proces, 
który kiedyś wymagał zespołu

327
00:15:43,096 --> 00:15:45,098
pięciu czy sześciu ludzi przez siedem lat

328
00:15:45,098 --> 00:15:47,703
procesem, który zajmuje 15 minut

329
00:15:47,703 --> 00:15:50,208
i wymaga jednej osoby.

330
00:15:50,208 --> 00:15:54,158
Ten proces wymaga
czterech czy pięciu iteracji.

331
00:15:54,158 --> 00:15:56,017
Widać, że teraz 62% z 1,5 miliona zdjęć

332
00:15:56,017 --> 00:15:58,976
jest zaklasyfikowanych poprawnie.

333
00:15:58,976 --> 00:16:02,738
Teraz można szybko wziąć większe sekcje

334
00:16:02,745 --> 00:16:05,664
i sprawdzić, czy nie ma błędów.

335
00:16:05,664 --> 00:16:09,616
Jeżeli są błędy, 
można o nich powiedzieć komputerowi.

336
00:16:09,616 --> 00:16:12,661
Powtarzając tę czynność dla różnych grup,

337
00:16:12,661 --> 00:16:15,148
mamy już teraz 80% skuteczności

338
00:16:15,148 --> 00:16:17,563
w klasyfikowaniu 1,5 miliona zdjęć.

339
00:16:17,563 --> 00:16:19,641
Teraz trzeba już tylko znaleźć tych kilka,

340
00:16:19,641 --> 00:16:23,220
które nie są klasyfikowane poprawnie

341
00:16:23,220 --> 00:16:25,808
i zrozumieć przyczynę.

342
00:16:25,808 --> 00:16:32,001
W 15 minut można osiągnąć skuteczność 97%.

343
00:16:32,001 --> 00:16:36,482
Ta technika pozwoli być może 
rozwiązać poważny problem

344
00:16:36,482 --> 00:16:38,952
światowego niedoboru 
kompetencji medycznych.

345
00:16:38,952 --> 00:16:42,334
Światowe Forum Ekonomiczne szacuje 
10- lub 20-krotny niedobór lekarzy

346
00:16:42,334 --> 00:16:45,433
w krajach rozwijających się,

347
00:16:45,433 --> 00:16:48,437
a wyszkolenie odpowiedniej liczby ludzi

348
00:16:48,437 --> 00:16:50,570
zajęłoby około 300 lat.

349
00:16:50,734 --> 00:16:53,619
A gdyby można było 
zwiększyć ich efektywność

350
00:16:53,619 --> 00:16:56,458
przy pomocy metod uczenia głębokiego?

351
00:16:56,458 --> 00:16:58,790
Bardzo mnie pociągają takie możliwości.

352
00:16:58,790 --> 00:17:01,279
Niepokoją mnie też problemy.

353
00:17:01,279 --> 00:17:04,933
Otóż każdy niebieski obszar na tej mapie

354
00:17:04,933 --> 00:17:07,882
to ponad 80% osób 
zatrudnionych w usługach.

355
00:17:07,882 --> 00:17:09,379
Co to są usługi?

356
00:17:09,379 --> 00:17:12,478
Oto usługi. [Kierowcy, kucharze, 
diagnostycy, prawnicy]

357
00:17:12,478 --> 00:17:15,917
Tak się składa, 
że właśnie to opanowały komputery.

358
00:17:15,917 --> 00:17:19,221
Zatem 80% zatrudnionych
w krajach rozwiniętych

359
00:17:19,221 --> 00:17:21,903
robi rzeczy, których właśnie 
nauczyły się komputery.

360
00:17:21,903 --> 00:17:22,923
Co to oznacza?

361
00:17:22,923 --> 00:17:25,646
Nie szkodzi. Będą inne stanowiska.

362
00:17:25,646 --> 00:17:28,503
Na przykład przybędzie naukowców 
od analizy danych.

363
00:17:28,503 --> 00:17:29,370
Nie do końca.

364
00:17:29,370 --> 00:17:31,908
Analitykom danych nie trzeba dużo czasu

365
00:17:31,908 --> 00:17:33,190
na budowę takich systemów.

366
00:17:33,190 --> 00:17:36,246
Na przykład te cztery algorytmy 
opracował jeden człowiek.

367
00:17:36,246 --> 00:17:39,118
Myślicie, że to już było,

368
00:17:39,118 --> 00:17:41,840
widzieliśmy już w przeszłości,

369
00:17:41,840 --> 00:17:44,894
jak stare zawody ustępują nowym.

370
00:17:44,894 --> 00:17:46,875
Jakie będą te nowe zawody?

371
00:17:46,875 --> 00:17:49,374
Bardzo ciężko jest to oszacować,

372
00:17:49,374 --> 00:17:52,176
bo ludzkie osiągnięcia rosną stopniowo,

373
00:17:52,176 --> 00:17:54,373
a teraz mamy system, uczenie głębokie,

374
00:17:54,373 --> 00:17:57,348
którego zdolności rosną wykładniczo.

375
00:17:57,348 --> 00:17:58,939
A my jesteśmy tutaj.

376
00:17:58,939 --> 00:18:00,865
Widząc dzisiejsze realia mówimy:

377
00:18:00,865 --> 00:18:03,534
"Komputery są nadal dosyć głupie".

378
00:18:03,534 --> 00:18:07,069
Ale za pięć lat komputery będą poza skalą.

379
00:18:07,069 --> 00:18:11,079
Musimy zacząć myśleć 
o tych możliwościach już teraz.

380
00:18:11,079 --> 00:18:12,956
Oczywiście widzieliśmy to już kiedyś.

381
00:18:12,956 --> 00:18:14,532
Podczas rewolucji przemysłowej

382
00:18:14,532 --> 00:18:17,708
mieliśmy skokową zmianę możliwości
dzięki silnikom.

383
00:18:17,708 --> 00:18:20,805
Tyle tylko, że po pewnym czasie
rezultaty uległy spłaszczeniu.

384
00:18:20,805 --> 00:18:22,507
Nastąpiły zakłócenia społeczne,

385
00:18:22,507 --> 00:18:26,546
ale kiedy silnik zaczęto stosować 
do każdego rodzaju wytwarzania energii,

386
00:18:26,546 --> 00:18:28,300
wszystko się ustabilizowało.

387
00:18:28,300 --> 00:18:29,773
Rewolucja uczenia maszynowego

388
00:18:29,773 --> 00:18:32,302
będzie bardzo różna
od rewolucji przemysłowej,

389
00:18:32,302 --> 00:18:35,632
bo rewolucja uczenia maszynowego
nie ustabilizuje się nigdy.

390
00:18:35,632 --> 00:18:38,714
Im lepsza będzie 
aktywność intelektualna komputerów,

391
00:18:38,714 --> 00:18:40,942
tym lepsze zbudują komputery, 


392
00:18:40,942 --> 00:18:43,420
o jeszcze większych 
zdolnościach intelektualnych.

393
00:18:43,420 --> 00:18:47,248
Będzie to zmiana,
jakiej świat nigdy dotąd nie doświadczył,

394
00:18:47,248 --> 00:18:50,554
więc zmieniło się nasze wcześniejsze 
zrozumienie możliwości.

395
00:18:50,974 --> 00:18:52,754
Już odczuwamy ten wpływ.

396
00:18:52,754 --> 00:18:56,384
Przez ostatnie 25 lat
produktywność kapitału wzrastała,

397
00:18:56,400 --> 00:19:00,588
wydajność pracy pozostała bez zmian,
a nawet trochę spadła.

398
00:19:01,408 --> 00:19:04,149
Chcę więc już teraz zacząć tę dyskusję.

399
00:19:04,149 --> 00:19:07,176
Zwykle gdy opowiadam o tym problemie,

400
00:19:07,176 --> 00:19:08,666
napotykam lekceważenie.

401
00:19:08,666 --> 00:19:11,009
Przecież komputery nie potrafią
naprawdę myśleć,

402
00:19:11,009 --> 00:19:13,367
nie mają uczuć,
nie rozumieją poezji,

403
00:19:13,367 --> 00:19:15,888
nie do końca wiemy, jak działają.

404
00:19:15,888 --> 00:19:16,744
I co z tego?

405
00:19:16,744 --> 00:19:19,178
Komputery już teraz potrafią 
wykonywać czynności,

406
00:19:19,178 --> 00:19:21,897
z których utrzymują się ludzie,

407
00:19:21,897 --> 00:19:23,628
więc trzeba zacząć się zastanawiać,

408
00:19:23,628 --> 00:19:28,015
jak dostosujemy 
społeczne i gospodarcze struktury

409
00:19:28,015 --> 00:19:29,855
do tej nowej rzeczywistości.

410
00:19:29,855 --> 00:19:31,388
Dziękuję.

411
00:19:31,388 --> 00:19:32,190
(Oklaski)