WEBVTT

00:00:00.880 --> 00:00:04.893
Wenn man früher wollte, 
dass ein Computer etwas Neues tat,

00:00:04.893 --> 00:00:06.827
musste man ihn programmieren.

00:00:06.827 --> 00:00:09.858
Für alle, die es noch nie
selbst probiert haben:

00:00:09.858 --> 00:00:13.360
Beim Programmieren 
muss man bis ins kleinste Detail

00:00:13.360 --> 00:00:16.727
jeden einzelnen Schritt definieren,
den der Computer erledigen soll,

00:00:16.727 --> 00:00:19.089
um sein Ziel zu erreichen.

00:00:19.089 --> 00:00:22.585
Will man also etwas tun, 
was man selbst noch nicht kann,

00:00:22.585 --> 00:00:24.648
dann wird das eine große Herausforderung.

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
Dieser Herausforderung stellte sich 
dieser Mann, Arthur Samuel.

00:00:28.131 --> 00:00:32.208
1956 wollte er diesem Computer beibringen,

00:00:32.208 --> 00:00:34.548
ihn im Spiel Dame zu schlagen.

00:00:34.548 --> 00:00:36.588
Wie kann man ein Programm schreiben

00:00:36.588 --> 00:00:40.394
und bis ins kleinste Detail definieren, 
wie man sich selbst in Dame übertrifft?

00:00:40.394 --> 00:00:42.116
Also hatte er eine Idee:

00:00:42.116 --> 00:00:45.840
Er ließ den Computer tausende Male 
gegen sich selbst spielen,

00:00:45.840 --> 00:00:48.364
sodass er Dame spielen lernte.

00:00:48.364 --> 00:00:51.544
Das funktionierte wirklich, und schon 1962

00:00:51.544 --> 00:00:55.561
besiegte dieser Computer 
den Landesmeister von Connecticut.

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
Arthur Samuel war also 
der Urvater des Maschinellen Lernens

00:00:58.534 --> 00:01:00.251
und ich schulde ihm viel,

00:01:00.251 --> 00:01:03.014
denn ich bin ein Fachmann 
im Maschinellen Lernen.

00:01:03.014 --> 00:01:04.479
Ich war Präsident von Kaggle,

00:01:04.479 --> 00:01:07.867
einer Plattform von über 200 000 
Fachleuten für Maschinelles Lernen.

00:01:07.867 --> 00:01:09.925
Kaggle veranstaltet Wettbewerbe,

00:01:09.925 --> 00:01:13.633
bei denen bisher ungelöste Probleme 
gelöst werden sollen,

00:01:13.633 --> 00:01:17.470
und das war schon 
hunderte Male erfolgreich.

00:01:17.470 --> 00:01:19.940
Aus dieser Warte habe 
ich viel darüber gelernt,

00:01:19.940 --> 00:01:23.890
was Maschinelles Lernen
früher konnte, was es heute kann

00:01:23.890 --> 00:01:26.252
und was es zukünftig vollbringen könnte.

00:01:26.252 --> 00:01:30.675
Der vielleicht erste kommerzielle Erfolg 
im Maschinellen Lernen war Google.

00:01:30.675 --> 00:01:33.384
Google hat bewiesen, 
dass man Informationen

00:01:33.384 --> 00:01:36.066
über einen Computeralgorithmus
finden kann,

00:01:36.066 --> 00:01:38.437
der auf Maschinellem Lernen basiert.

00:01:38.437 --> 00:01:42.323
Seitdem gab es viele kommerzielle Erfolge 
im Maschinellen Lernen.

00:01:42.323 --> 00:01:44.270
Firmen wie Amazon oder Netflix

00:01:44.270 --> 00:01:47.876
nutzen Maschinelles Lernen
für Kaufempfehlungen

00:01:47.876 --> 00:01:49.896
oder Filmvorschläge.

00:01:49.896 --> 00:01:51.703
Manchmal ist das beinahe gruselig.

00:01:51.703 --> 00:01:53.657
Firmen wie LinkedIn oder Facebook

00:01:53.657 --> 00:01:56.251
schlagen Ihnen manchmal neue Freunde vor

00:01:56.251 --> 00:01:58.228
und Sie haben keine Ahnung, wie das geht,

00:01:58.228 --> 00:02:01.195
und genau das ist die Macht 
des Maschinellen Lernens.

00:02:01.195 --> 00:02:04.152
Diese Algorithmen haben
anhand vorhandener Daten gelernt,

00:02:04.152 --> 00:02:07.399
anstatt von Hand programmiert zu werden.

NOTE Paragraph

00:02:07.399 --> 00:02:10.507
So konnte auch IBM Watson dazu bringen,

00:02:10.507 --> 00:02:13.539
die zwei Weltmeister
der Quizshow "Jeopardy" zu schlagen,

00:02:13.539 --> 00:02:16.414
wo man knifflige, komplexe Fragen
beantworten musste, z. B.:

00:02:16.414 --> 00:02:18.927
["2003 verschwand u. a. 
der antike 'Löwe von Nimrud'

00:02:18.927 --> 00:02:20.510
aus dem Museum dieser Stadt."]

00:02:20.510 --> 00:02:23.164
Daher gibt es nun
erste selbstfahrende Autos.

00:02:23.164 --> 00:02:25.036
Will man den Unterschied

00:02:25.036 --> 00:02:28.488
etwa zwischen Baum und
Fußgänger erkennen, ist das wichtig.

00:02:28.488 --> 00:02:31.075
Wir wissen nicht, wie man 
solche Programme schreibt,

00:02:31.075 --> 00:02:34.072
aber durch Maschinelles Lernen 
ist das jetzt möglich.

00:02:34.072 --> 00:02:36.680
Dieses Auto ist schon über 1 Mio. km

00:02:36.680 --> 00:02:40.186
ohne den kleinsten Unfall 
auf normalen Straßen gefahren.

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
Wir wissen also, 
dass Computer lernen können

00:02:44.110 --> 00:02:46.010
und dass sie auch Dinge lernen können,

00:02:46.010 --> 00:02:48.848
von denen wir nicht wissen, 
wie sie funktionieren,

00:02:48.848 --> 00:02:51.733
und manchmal sogar besser als wir.

00:02:51.733 --> 00:02:55.928
Eines der faszinierendsten Beispiele 
für Maschinelles Lernen

00:02:55.928 --> 00:02:58.320
habe ich bei einem meiner 
Kaggle-Projekte gesehen,

00:02:58.320 --> 00:03:01.911
als ein Team unter der Leitung
von Geoffrey Hinton

00:03:01.911 --> 00:03:03.463
von der Universität Toronto

00:03:03.463 --> 00:03:06.140
den Wettstreit für automatische 
Drogenerkennung gewann.

00:03:06.140 --> 00:03:08.987
Außergewöhnlich war 
daran nicht nur ihr Sieg

00:03:08.987 --> 00:03:13.000
gegen all die Algorithmen von Merck 
und der internationalen akademischen Welt,

00:03:13.000 --> 00:03:18.061
sondern, dass das Team kein Vorwissen
zu Chemie oder Biowissenschaften hatte

00:03:18.061 --> 00:03:20.230
und nur zwei Wochen brauchte.

00:03:20.230 --> 00:03:22.111
Wie haben sie das gemacht?

00:03:22.111 --> 00:03:25.342
Sie nutzten einen besonderen
Algorithmus namens Deep Learning.

00:03:25.342 --> 00:03:27.701
Ihr Erfolg war so bedeutend,

00:03:27.701 --> 00:03:31.412
dass er wenig später auf der Titelseite 
der NY Times erschien.

00:03:31.412 --> 00:03:34.147
Hier auf der linken Seite 
sehen Sie Geoffrey Hinton.

00:03:34.147 --> 00:03:38.488
Deep Learning basiert auf der Funktion 
des menschlichen Gehirns

00:03:38.488 --> 00:03:40.300
und deswegen ist es ein Algorithmus,

00:03:40.300 --> 00:03:44.141
dessen Funktion theoretisch 
keine Grenzen gesetzt sind.

00:03:44.141 --> 00:03:46.964
Je mehr Daten und Rechenzeit man hat,

00:03:46.964 --> 00:03:48.276
desto besser wird er.

NOTE Paragraph

00:03:48.276 --> 00:03:50.615
Die New York Times zeigte in ihrem Artikel

00:03:50.615 --> 00:03:52.857
noch ein Resultat des Deep Learning,

00:03:52.857 --> 00:03:55.569
das ich Ihnen jetzt vorstellen will.

00:03:55.569 --> 00:04:00.510
Es beweist, dass Computer 
zuhören und verstehen können.

NOTE Paragraph

00:04:00.510 --> 00:04:06.251
Richard Rashid (Video):
Als letzten Schritt in diesem Prozess

00:04:06.251 --> 00:04:10.961
werde ich Chinesisch mit Ihnen sprechen.

00:04:10.961 --> 00:04:13.596
Als wichtigsten Schritt haben wir

00:04:13.596 --> 00:04:18.598
anhand großer Informationsmengen
von vielen Chinesisch-Sprechern

00:04:18.598 --> 00:04:21.128
ein Text-zu-Sprache-System gebaut,

00:04:21.128 --> 00:04:26.061
das chinesischen Text
in chinesche Sprache umwandelt,

00:04:26.401 --> 00:04:31.220
und dann haben wir eine etwa einstündige 
Aufnahme meiner Stimme benutzt,

00:04:31.220 --> 00:04:36.364
um das Text-zu-Sprache-System 
so zu ändern, dass es wie ich klingt.

00:04:36.364 --> 00:04:38.904
Wieder ist das Ergebnis nicht perfekt.

00:04:38.904 --> 00:04:41.552
Eigentlich hat es sogar 
ganz schön viele Fehler.

00:04:41.552 --> 00:04:44.036
(Auf Chinesisch)

00:04:44.036 --> 00:04:47.403
(Applaus)

00:04:49.446 --> 00:04:53.022
In diesem Bereich ist noch viel zu tun.

00:04:53.022 --> 00:04:56.667
(Chinesisch)

00:04:56.667 --> 00:05:00.100
(Applaus)

NOTE Paragraph

00:05:01.345 --> 00:05:04.744
Jeremy Howard: Das war eine Konferenz
zu Maschinellem Lernen in China.

00:05:04.744 --> 00:05:07.114
Übrigens hört man 
bei akademischen Konferenzen

00:05:07.114 --> 00:05:09.011
nur ganz selten Zwischenapplaus,

00:05:09.011 --> 00:05:12.687
obwohl das bei TEDx-Konferenzen 
durchaus erwünscht sein kann.

00:05:12.687 --> 00:05:15.482
Was Sie eben gesehen haben,
basiert auf Deep Learning.

00:05:15.482 --> 00:05:17.007
(Applaus) Danke!

00:05:17.007 --> 00:05:19.289
Die englische Transkription 
war Deep Learning.

00:05:19.289 --> 00:05:22.701
Die Übersetzung ins Chinesische und
der Text rechts oben – Deep Learning

00:05:22.701 --> 00:05:26.008
und die Modellierung der Stimme
-- ebenfalls Deep Learning.

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
Deep Learning ist also 
eine außergewöhnliche Sache.

00:05:29.242 --> 00:05:32.341
Es ist ein einziger Algorithmus, 
der scheinbar fast alles kann

00:05:32.341 --> 00:05:35.452
und ich fand heraus, dass er 
ein Jahr zuvor sehen gelernt hatte.

00:05:35.452 --> 00:05:38.388
Bei einem obskuren Wettbewerb 
der Ruhr-Universität Bochum

00:05:38.388 --> 00:05:40.225
zum Erkennen von Verkehrszeichen

00:05:40.225 --> 00:05:43.618
hat Deep Learning gelernt, 
Verkehrszeichen wie dieses zu erkennen.

00:05:43.618 --> 00:05:45.462
Er konnte Verkehrszeichen nicht nur

00:05:45.462 --> 00:05:47.470
besser als andere Algorithmen erkennen;

00:05:47.470 --> 00:05:50.189
die Rangliste zeigte, 
dass er sogar Menschen übertraf

00:05:50.189 --> 00:05:52.041
und zwar um das Doppelte.

00:05:52.041 --> 00:05:54.037
2011 gab es also das erste Beispiel

00:05:54.037 --> 00:05:57.442
für Computer, die besser 
sehen können als Menschen.

00:05:57.442 --> 00:05:59.491
Seitdem ist viel passiert.

00:05:59.491 --> 00:06:03.005
2012 gab Google bekannt, 
dass sie einen Deep-Learning-Algorithmus

00:06:03.005 --> 00:06:04.420
Youtube Videos schauen ließen

00:06:04.420 --> 00:06:07.857
und die Daten auf 16 000 Computern 
einen Monat lang berechnen ließen

00:06:07.857 --> 00:06:11.618
und dass der Computer allein 
Konzepte wie Menschen oder Katzen

00:06:11.618 --> 00:06:14.157
einzig durch das Betrachten 
von Videos erkannt hat.

00:06:14.157 --> 00:06:16.379
Menschen lernen sehr ähnlich.

00:06:16.379 --> 00:06:19.119
Sie lernen nicht, indem man
ihnen sagt, was sie sehen,

00:06:19.119 --> 00:06:22.450
sondern sie lernen selbst, 
was diese Dinge sind.

00:06:22.450 --> 00:06:25.819
Übrigens hat 2012 Geoffrey Hinton, 
den wir vorher gesehen haben,

00:06:25.819 --> 00:06:30.474
den beliebten ImageNet-Wettbewerb
mit seinem Versuch gewonnen,

00:06:30.474 --> 00:06:34.751
auf 1,5 Mio. Bildern 
die Motive zu erkennen.

00:06:34.751 --> 00:06:37.789
2014 sind wir mittlerweile
nur noch bei einer 6%igen Fehlerrate

00:06:37.789 --> 00:06:39.242
bei der Bilderkennung.

00:06:39.242 --> 00:06:41.728
Das ist wiederum besser als Menschen.

NOTE Paragraph

00:06:41.728 --> 00:06:45.037
Maschinen sind dabei 
also außergewöhnlich gut

00:06:45.037 --> 00:06:47.586
und das wird nun auch 
in der Wirtschaft genutzt.

00:06:47.586 --> 00:06:50.348
Zum Beispiel hat Google
letztes Jahr bekanntgegeben,

00:06:50.348 --> 00:06:54.933
dass sie jeden Ort Frankreichs 
in nur 2 Stunden kartografiert hätten,

00:06:54.933 --> 00:06:59.933
indem sie Street-View-Bilder in einen 
Deep-Learning-Algorithmus einspeisten,

00:06:59.933 --> 00:07:02.919
der dann Hausnummern 
erkennen und lesen konnte.

00:07:02.919 --> 00:07:08.274
Davor hätte es dutzende Leute 
und viele Jahre gebraucht.

00:07:08.274 --> 00:07:10.185
Dasselbe passiert in China.

00:07:10.185 --> 00:07:14.221
Baidu ist sowas wie 
das chinesische Google,

00:07:14.221 --> 00:07:16.504
und was Sie hier oben links sehen,

00:07:16.504 --> 00:07:20.478
ist z. B. ein Bild, das ich in Baidus
Deep-Learning-System hochgeladen habe.

00:07:20.478 --> 00:07:24.247
Darunter sehen Sie, 
dass das System das Bild verstanden

00:07:24.247 --> 00:07:26.483
und ähnliche Bilder gefunden hat.

00:07:26.483 --> 00:07:29.219
Die ähnlichen Bilder haben 
ähnliche Hintergründe,

00:07:29.219 --> 00:07:30.877
ähnliche Gesichts-Ausrichtung,

00:07:30.877 --> 00:07:32.665
manche sogar die rausgestreckte Zunge.

00:07:32.665 --> 00:07:35.695
Das System schaut eindeutig nicht
auf den Text einer Website.

00:07:35.695 --> 00:07:37.107
Es hatte nur ein Bild.

00:07:37.107 --> 00:07:41.128
Also haben wir jetzt Computer, 
die wirklich verstehen, was sie sehen,

00:07:41.128 --> 00:07:42.752
und daher Datenbanken

00:07:42.752 --> 00:07:46.306
mit vielen Millionen Bildern 
in Echtzeit durchsuchen können.

NOTE Paragraph

00:07:46.306 --> 00:07:49.536
Aber was bedeutet es nun, 
dass Computer sehen können?

00:07:49.536 --> 00:07:51.553
Tja, es ist nicht nur so, dass sie sehen.

00:07:51.553 --> 00:07:53.622
Genau genommen kann
Deep Leaning noch mehr.

00:07:53.622 --> 00:07:56.570
Komplexe, differenzierte Sätze wie dieser

00:07:56.570 --> 00:07:59.394
können nun mit Deep-Learning-Algorithmen 
verstanden werden.

00:07:59.394 --> 00:08:00.697
Wie Sie hier sehen können,

00:08:00.697 --> 00:08:03.465
zeigt dieses System aus Stanford
mit dem roten Punkt oben,

00:08:03.465 --> 00:08:07.384
dass es die negative Botschaft 
des Satzes erkannt hat.

00:08:07.384 --> 00:08:11.280
Deep Learning ist jetzt 
fast so gut wie Menschen

00:08:11.280 --> 00:08:15.923
im Verstehen, worum es in Sätzen 
geht und was gesagt wird.

00:08:15.923 --> 00:08:18.991
Deep Learning wird auch genutzt,
um Chinesisch zu lesen

00:08:18.991 --> 00:08:21.807
wieder fast auf Muttersprachler-Niveau.

00:08:21.807 --> 00:08:24.645
Der Algorithmus dafür 
stammt von Leuten aus der Schweiz,

00:08:24.645 --> 00:08:27.621
die allesamt kein Chinesisch 
sprechen oder verstehen.

00:08:27.621 --> 00:08:29.812
Wie ich schon sagte: Deep Learning

00:08:29.812 --> 00:08:32.611
ist so ziemlich das beste 
System der Welt dafür,

00:08:32.611 --> 00:08:36.718
sogar im Vergleich mit 
dem Wissen von Muttersprachlern.

NOTE Paragraph

00:08:36.718 --> 00:08:39.682
Dieses System haben wir 
in meiner Firma entworfen,

00:08:39.682 --> 00:08:41.728
das all diesen Kram zusammenfügt.

00:08:41.728 --> 00:08:44.189
Das sind Bilder ohne angehängten Text

00:08:44.189 --> 00:08:46.541
und während ich diese Sätze hier eintippe,

00:08:46.541 --> 00:08:49.510
versteht das System die Bilder in Echtzeit

00:08:49.510 --> 00:08:51.189
und erkennt, was sie zeigen,

00:08:51.189 --> 00:08:54.352
und findet ähnliche Bilder 
zu dem eingetippten Text.

00:08:54.352 --> 00:08:57.108
Sie sehen also, 
es versteht wirklich meine Sätze

00:08:57.108 --> 00:08:59.332
und ebenso diese Bilder.

00:08:59.332 --> 00:09:01.891
Ich weiß, dass Sie 
sowas Ähnliches von Google kennen,

00:09:01.891 --> 00:09:04.666
wo man Text eingeben kann 
und einem Bilder gezeigt werden,

00:09:04.666 --> 00:09:08.090
aber da wird nur die Website 
nach dem Text durchsucht.

00:09:08.090 --> 00:09:11.091
Das ist ein großer Unterschied dazu,
die Bilder zu verstehen.

00:09:11.091 --> 00:09:13.843
Letzteres haben Computer erst

00:09:13.843 --> 00:09:17.091
vor ein paar Monaten gelernt.

NOTE Paragraph

00:09:17.091 --> 00:09:21.182
Wir haben gesehen, dass Computer nicht
nur sehen, sondern auch lesen können.

00:09:21.182 --> 00:09:24.947
Wir haben natürlich auch gesehen, 
dass sie verstehen, was sie hören.

00:09:24.947 --> 00:09:28.389
Vielleicht sind Sie nicht überrascht, 
dass sie auch schreiben können.

00:09:28.389 --> 00:09:33.172
Diesen Text habe ich gestern mit einem
Deep-Learning-Algorithmus erzeugt.

00:09:33.172 --> 00:09:37.096
Diesen Text hier hat 
ein Algorithmus aus Stanford erzeugt.

00:09:37.096 --> 00:09:40.730
Jeder dieser Sätze wurde mit
einem Deep-Learning-Algorithmus erzeugt,

00:09:40.730 --> 00:09:43.109
um das jeweilige Bild zu beschreiben.

00:09:43.109 --> 00:09:47.581
Vorher hat der Algorithmus nie einen Mann 
im schwarzen Hemd Gitarre spielen sehen.

00:09:47.581 --> 00:09:49.801
Er hat einen Mann, die Farbe Schwarz,

00:09:49.801 --> 00:09:51.400
und eine Gitarre gesehen,

00:09:51.400 --> 00:09:55.694
aber er hat selbstständig 
diese neue Bildbeschreibung erstellt.

00:09:55.694 --> 00:09:59.196
Menschliche Leistung ist das 
noch nicht, aber nah dran.

00:09:59.196 --> 00:10:03.264
In Tests bevorzugen Menschen 
die computer-generierte Bildbeschreibung

00:10:03.264 --> 00:10:04.791
nur eines von vier Malen.

00:10:04.791 --> 00:10:06.855
Aber das System ist jetzt
erst 2 Wochen alt,

00:10:06.855 --> 00:10:08.671
sodass wahrscheinlich im nächsten Jahr

00:10:08.671 --> 00:10:11.502
der Computeralgorithmus
die menschliche Leistung übertrifft,

00:10:11.502 --> 00:10:13.564
so schnell wie die Dinge gerade gehen.

00:10:13.774 --> 00:10:16.093
Computer können also auch schreiben.

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
Wenn wir das alles kombinieren,
kriegen wir sehr spannenden Möglichkeiten.

00:10:19.888 --> 00:10:21.380
In der Medizin, zum Beispiel,

00:10:21.380 --> 00:10:23.905
hat ein Team aus Boston verkündet,

00:10:23.905 --> 00:10:26.854
dass es Dutzende 
neue klinisch relevante Merkmale

00:10:26.854 --> 00:10:31.630
von Tumoren entdeckt hätte,
die Ärzten bei der Krebsprognose helfen.

00:10:32.220 --> 00:10:35.256
Ähnlich hat in Stanford
eine Gruppe bekanntgegeben,

00:10:35.256 --> 00:10:38.179
dass sie für die Gewebeanalyse
in vergrößerter Aufnahme

00:10:38.179 --> 00:10:40.690
ein Maschinelles Lernsystem 
entwickelt haben,

00:10:40.690 --> 00:10:44.292
das menschliche Pathologen 
tatsächlich dabei übertrifft,

00:10:44.292 --> 00:10:47.519
die Überlebenschancen von 
Krebspatienten vorherzusagen.

00:10:47.519 --> 00:10:50.614
In beiden Fällen waren 
die Vorhersagen nicht nur genauer,

00:10:50.614 --> 00:10:53.266
sie förderten auch neue
wissenschaftliche Erkenntnisse.

00:10:53.276 --> 00:10:54.781
Im Fall der Radiologie

00:10:54.781 --> 00:10:57.876
waren es neue klinische Indikatoren,
die Menschen verstehen.

00:10:57.876 --> 00:10:59.668
Im Fall der Pathologie

00:10:59.668 --> 00:11:04.428
hat das Computersystem herausgefunden, 
dass die Zellen rund um den Krebs

00:11:04.428 --> 00:11:07.508
genauso wichtig sind 
wie die Krebszellen selbst

00:11:07.508 --> 00:11:09.260
beim Erstellen der Diagnose.

00:11:09.260 --> 00:11:14.331
Das ist das Gegenteil davon, was man 
Pathologen jahrzehntelang beibrachte.

00:11:14.901 --> 00:11:17.413
In beiden Fällen wurden die Systeme

00:11:17.413 --> 00:11:21.534
gemeinsam von Experten der Medizin 
und des Maschinellen Lernens entwickelt,

00:11:21.534 --> 00:11:24.275
aber seit letztem Jahr haben 
wir auch das überwunden.

00:11:24.275 --> 00:11:27.634
Das hier ist ein Beispiel, 
wie man krebsgeschädigte Bereiche

00:11:27.634 --> 00:11:30.604
menschlichen Gewebes
unter dem Mikroskop erkennt.

00:11:30.604 --> 00:11:34.967
Das hier gezeigte System 
erkennt solche Bereiche genauer,

00:11:34.967 --> 00:11:37.742
oder etwa gleich genau, 
wie menschliche Pathologen,

00:11:37.742 --> 00:11:41.134
aber es wurde allein mit Deep Learning, 
ohne medizinisches Wissen,

00:11:41.134 --> 00:11:44.230
von Leuten ohne Ausbildung 
in diesem Feld entwickelt.

00:11:44.730 --> 00:11:47.285
Ähnlich ist es bei dieser 
Neuronen-Segmentierung.

00:11:47.285 --> 00:11:51.193
Neuronen können jetzt damit etwa so genau
wie durch Menschen segmentieren werden,

00:11:51.193 --> 00:11:53.670
aber dieses System wurde 
mit Deep Learning

00:11:53.670 --> 00:11:56.921
von Leuten ohne 
medizinisches Vorwissen entwickelt.

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
Sogar ich, als jemand 
ohne medizinische Ausbildung,

00:12:00.148 --> 00:12:03.875
scheine nun genug für die Gründung
eines medizinisches Unternehmens zu wissen

00:12:03.875 --> 00:12:06.021
-- und das habe ich auch.

00:12:06.021 --> 00:12:07.761
Ich hatte irgendwie Angst davor,

00:12:07.761 --> 00:12:10.650
aber theoretisch 
schien es möglich zu sein,

00:12:10.650 --> 00:12:16.142
in der Medizin sehr nützliche Dinge allein
mit solchen Datenanalysen zu bewirken.

00:12:16.142 --> 00:12:18.622
Glücklicherweise war 
das Feedback fantastisch,

00:12:18.622 --> 00:12:21.268
sowohl von den Medien 
als auch von Medizinern,

00:12:21.268 --> 00:12:23.322
die mich sehr unterstützt haben.

00:12:23.322 --> 00:12:27.471
Theoretisch können wir den Mittelteil 
des medizinischen Vorgangs

00:12:27.471 --> 00:12:30.364
so viel wie möglich 
der Datenanalyse überlassen,

00:12:30.364 --> 00:12:33.359
sodass Ärzte nur noch tun müssen, 
was sie am besten können.

00:12:33.359 --> 00:12:35.031
Ich will Ihnen ein Beispiel geben.

00:12:35.031 --> 00:12:39.825
Aktuell brauchen wir 15 Minuten, um einen 
neuen medizinischen Diagnosetest zu bauen.

00:12:39.825 --> 00:12:41.929
Das zeige ich Ihnen jetzt in Echtzeit,

00:12:41.929 --> 00:12:45.416
aber ich habe es durch Zusammenschneiden 
auf 3 Minuten gekürzt.

00:12:45.416 --> 00:12:48.477
Anstatt Ihnen das Erstellen eines
medizinischen Tests zu zeigen,

00:12:48.477 --> 00:12:52.206
zeige ich Ihnen einen
Diagnosetest für Autobilder,

00:12:52.206 --> 00:12:54.068
denn das verstehen wir alle.

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
Hier fangen wir mit ungefähr 
1,5 Mio. Autobildern an,

00:12:57.269 --> 00:13:00.475
und ich möchte etwas bauen,
das sie nach dem Winkel sortiert,

00:13:00.475 --> 00:13:02.698
in dem das Foto gemacht wurde.

00:13:02.698 --> 00:13:06.586
Diese Bilder sind jetzt noch 
nicht benannt, ich fange bei Null an.

00:13:06.586 --> 00:13:08.451
Unser Deep-Learning-Algorithmus

00:13:08.451 --> 00:13:12.158
erkennt automatisch
Strukturflächen auf den Bildern.

00:13:12.158 --> 00:13:15.778
Das Schöne ist, dass Mensch und Computer
jetzt zusammenarbeiten können.

00:13:15.778 --> 00:13:17.956
Wie Sie hier sehen,

00:13:17.956 --> 00:13:20.631
gibt der Mensch dem Computer 
Zielbereiche vor,

00:13:20.631 --> 00:13:25.281
womit der Computer dann versuchen soll,
seinem Algorithmus zu verbessern.

00:13:25.281 --> 00:13:29.577
Eigentlich sind diese Deep-Learning-
Systeme im 16 000-dimensionalen Raum,

00:13:29.577 --> 00:13:32.179
hier können Sie den Computer
das durch den Raum

00:13:32.179 --> 00:13:35.001
auf der Suche nach neuen 
Strukturflächen rotieren sehen.

00:13:35.001 --> 00:13:36.782
Wenn er dabei Erfolg hat,

00:13:36.782 --> 00:13:40.786
kann der menschliche Betreiber 
dann die interessanten Bereiche festlegen.

00:13:40.786 --> 00:13:43.208
Hier hat der Computer Bereiche gefunden,

00:13:43.208 --> 00:13:45.770
zum Beispiel Winkel.

00:13:45.770 --> 00:13:47.376
Im Verlauf des Prozesses

00:13:47.376 --> 00:13:49.716
sagen wir dem Computer immer mehr

00:13:49.716 --> 00:13:52.144
über die gesuchten Strukturen.

00:13:52.144 --> 00:13:53.916
Bei einem Diagnose-Test zum Beispiel

00:13:53.916 --> 00:13:57.266
würde das dem Pathologen helfen,
kranke Bereiche zu identifizieren,

00:13:57.266 --> 00:14:02.292
oder dem Radiologen bei 
potentiell gefährlichen Knoten.

00:14:02.292 --> 00:14:04.851
Manchmal wird es 
schwer für den Algorithmus.

00:14:04.851 --> 00:14:06.815
In diesem Fall war er etwas verwirrt.

00:14:06.815 --> 00:14:09.365
Die Vorder- und Rückseiten 
der Autos sind vermischt.

00:14:09.365 --> 00:14:11.437
Wir müssen hier also sorgfältiger sein,

00:14:11.437 --> 00:14:14.669
und die Vorderseiten manuell 
von den Rückseiten trennen,

00:14:14.669 --> 00:14:20.175
um dann dem Computer zu sagen, 
dass das Teil einer Gruppe ist,

00:14:20.175 --> 00:14:21.523
die uns interessiert.

NOTE Paragraph

00:14:21.523 --> 00:14:24.420
Das machen wir für eine Weile,
wir springen ein wenig weiter,

00:14:24.420 --> 00:14:26.446
und dann trainieren wir den Algorithmus,

00:14:26.446 --> 00:14:28.420
basierend auf diesen paar hundert Sachen,

00:14:28.420 --> 00:14:30.445
und hoffen, dass er besser geworden ist.

00:14:30.445 --> 00:14:33.518
Wie Sie sehen, lässt er 
einige dieser Bilder jetzt verblassen

00:14:33.518 --> 00:14:38.226
und zeigt uns, dass er schon jetzt 
ein wenig selbst erkennt.

00:14:38.226 --> 00:14:41.128
Wir können das Konzept 
der ähnlichen Bilder nutzen

00:14:41.128 --> 00:14:43.222
und dabei sehen Sie,

00:14:43.222 --> 00:14:47.241
dass der Computer jetzt in der Lage ist, 
nur die Vorderseiten der Autos zu finden.

00:14:47.241 --> 00:14:50.189
Also kann der Mensch dem 
Computer an diesem Punkt sagen,

00:14:50.189 --> 00:14:52.482
okay, du hast gute Arbeit geleistet.

NOTE Paragraph

00:14:53.652 --> 00:14:56.847
Natürlich ist es manchmal
selbst hier schwer,

00:14:56.847 --> 00:14:59.511
die einzelnen Gruppen zu unterscheiden.

00:14:59.511 --> 00:15:03.395
Selbst nachdem der Computer 
die Bilder eine Weile rotiert hat,

00:15:03.399 --> 00:15:06.744
sind die rechten und linken Seiten 
der Bilder immer noch

00:15:06.744 --> 00:15:08.222
komplett durcheinander.

00:15:08.222 --> 00:15:10.672
Wieder können wir dem
Computer Hinweise geben

00:15:10.672 --> 00:15:13.178
und sagen, okay, jetzt 
versuch mal einen Weg,

00:15:13.178 --> 00:15:15.945
der die rechte und linke Seite
so gut wie möglich

00:15:15.945 --> 00:15:18.067
mit dem Deep-Learning-Algorithmus trennt.

00:15:18.067 --> 00:15:21.009
Und mit diesem Hinweis -- 
ah, okay, jetzt hat er Erfolg.

00:15:21.009 --> 00:15:23.891
Er hat einen Weg gefunden, 
diese Objekte so sehen,

00:15:23.891 --> 00:15:26.271
der diese hier aussortiert hat.

NOTE Paragraph

00:15:26.271 --> 00:15:28.709
Sie haben jetzt einen Eindruck davon.

00:15:28.709 --> 00:15:36.906
Das ist kein Fall, wo der Mensch 
von einem Computer ersetzt wird,

00:15:36.906 --> 00:15:39.546
sondern sie arbeiten zusammen.

00:15:39.546 --> 00:15:43.556
Wir ersetzen hier etwas, wofür man 
früher ein Team von fünf oder sechs Leuten

00:15:43.556 --> 00:15:45.098
7 Jahre beschäftigt hat,

00:15:45.098 --> 00:15:47.703
durch etwas, das 15 Minuten

00:15:47.703 --> 00:15:50.208
für eine einzige Person braucht.

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
Dieser Vorgang braucht ungefähr 
vier oder fünf Durchgänge.

00:15:54.158 --> 00:15:56.017
Wie Sie sehen, sind wir nun bei 62 %

00:15:56.017 --> 00:15:58.976
korrekt klassifizierten Bildern
aus 1,5 Millionen.

00:15:58.976 --> 00:16:01.448
An dieser Stelle können 
wir anfangen, sehr schnell

00:16:01.448 --> 00:16:02.745
große Bereiche zu erfassen,

00:16:02.745 --> 00:16:05.664
und sie auf Fehler zu überprüfen.

00:16:05.664 --> 00:16:09.616
Wenn es Fehler gibt, lassen wir 
das den Computer wissen.

00:16:09.616 --> 00:16:12.661
Indem wir diesen Vorgang auf jede
der einzelnen Gruppen anwenden,

00:16:12.661 --> 00:16:15.148
sind wir jetzt bei 
einer 80%igen Erfolgsrate

00:16:15.148 --> 00:16:17.563
beim Klassifizieren der 1,5 Mio. Bilder.

00:16:17.563 --> 00:16:19.641
An diesem Punkt müssen wir nur noch

00:16:19.641 --> 00:16:23.220
die kleine Zahl der 
falsch klassifizierten Bilder finden

00:16:23.220 --> 00:16:26.108
und versuchen, die Ursache zu verstehen.

00:16:26.108 --> 00:16:27.851
Wenden wir das an,

00:16:27.851 --> 00:16:31.972
sind wir nach 15 Minuten 
bei einer Erfolgsquote von 97 %.

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
Also könnten wir mit dieser Technik 
ein großes Problem beheben,

00:16:36.578 --> 00:16:39.614
nämlich, das Fehlen medizinischen 
Fachwissens in der Welt.

00:16:39.614 --> 00:16:43.103
Laut Weltwirtschaftsforum gibt es 
zwischen 10x und 20x

00:16:43.103 --> 00:16:45.727
zu wenige Ärzte in Entwicklungsländern

00:16:45.727 --> 00:16:47.840
und es würde etwa 300 Jahre dauern,

00:16:47.840 --> 00:16:50.734
genug Leute auszubilden, 
um das Problem zu beheben.

00:16:50.734 --> 00:16:53.619
Können Sie sich vorstellen, 
dass wir ihre Effizienz

00:16:53.619 --> 00:16:56.458
mit diesen Deep-Learning-Ansätzen
steigern können?

NOTE Paragraph

00:16:56.458 --> 00:16:58.900
Ich bin ganz begeistert
von den Möglichkeiten.

00:16:58.900 --> 00:17:01.279
Ich mache mir auch 
Sorgen über die Probleme.

00:17:01.279 --> 00:17:04.403
Das Problem hierbei ist, 
in jedem blauen Bereich auf der Karte

00:17:04.403 --> 00:17:08.172
machen Dienstleistungen 
über 80 % der Beschäftigung aus.

00:17:08.172 --> 00:17:09.959
Was sind Dienstleistungen?

00:17:09.959 --> 00:17:11.473
Das sind Dienstleistungen.

00:17:11.473 --> 00:17:15.627
Das sind außerdem genau die Dinge, 
die Computer gerade gelernt haben.

00:17:15.627 --> 00:17:19.431
Also sind 80 % der Beschäftigung 
der entwickelten Welt Dinge,

00:17:19.431 --> 00:17:21.963
die Computer gerade gelernt haben.

00:17:21.963 --> 00:17:23.403
Was bedeutet das?

00:17:23.403 --> 00:17:25.986
Naja, es wird alles gut. 
Andere Jobs ersetzen diese.

00:17:25.986 --> 00:17:28.693
Zum Beispiel wird es 
mehr Jobs für Informatiker geben.

00:17:28.693 --> 00:17:29.510
Nun, nicht ganz.

00:17:29.510 --> 00:17:32.628
Informatiker brauchen nicht lange, 
diese Dinge zu bauen.

00:17:32.628 --> 00:17:35.880
Zum Beispiel wurden diese 4 
Algorithmen vom selben Typen gebaut.

00:17:35.880 --> 00:17:38.318
Wenn Sie also denken, oh,
das ist alles nicht neu,

00:17:38.318 --> 00:17:42.126
wir haben in der Vergangenheit gesehen, 
wenn etwas Neues kommt,

00:17:42.126 --> 00:17:44.378
werden sie durch neue Jobs ersetzt,

00:17:44.378 --> 00:17:46.494
was also sind diese neuen Jobs?

00:17:46.494 --> 00:17:48.365
Das ist sehr schwer einzuschätzen,

00:17:48.365 --> 00:17:51.104
weil menschliche Leistung 
schrittweise wächst,

00:17:51.104 --> 00:17:53.666
aber wir haben jetzt ein System, 
Deep Learning,

00:17:53.666 --> 00:17:56.893
das seine Leistung 
nachweislich exponentiell steigert.

00:17:56.893 --> 00:17:58.498
Und da sind wir.

00:17:58.498 --> 00:18:00.559
Zurzeit sehen wir die Dinge um uns herum

00:18:00.559 --> 00:18:03.235
und sagen "Computer sind
immer noch ziemlich dumm." Oder?

00:18:03.235 --> 00:18:06.664
Aber in fünf Jahren werden Computer
nicht mehr Teil dieser Tabelle sein.

00:18:06.664 --> 00:18:10.529
Wir müssen also schon jetzt anfangen, 
über diese Leistung nachzudenken.

NOTE Paragraph

00:18:10.529 --> 00:18:12.579
Wir haben das natürlich schon mal gesehen.

00:18:12.579 --> 00:18:14.296
Die Industrielle Revolution

00:18:14.296 --> 00:18:17.387
bewirkte einen Evolutionssprung
der Leistung durch Motoren.

00:18:17.667 --> 00:18:20.805
Aber nach einer Weile 
beruhigten sich die Dinge.

00:18:20.805 --> 00:18:22.507
Es gab soziale Umbrüche,

00:18:22.507 --> 00:18:25.946
aber sobald die Motoren damals
zur Energiegewinnung genutzt wurden,

00:18:25.946 --> 00:18:28.300
beruhigten sich die Dinge.

00:18:28.300 --> 00:18:30.293
Die Revolution des Maschinellen Lernens

00:18:30.293 --> 00:18:32.682
wird ganz anders 
als die Industrielle Revolution,

00:18:32.682 --> 00:18:35.632
weil die Revolution nie zu Ende ist.

00:18:35.632 --> 00:18:38.614
Je besser Computer 
bei intellektuellen Aktivitäten werden,

00:18:38.614 --> 00:18:40.602
desto bessere Computer können sie bauen,

00:18:40.602 --> 00:18:42.862
die intellektuell noch 
leistungsfähiger sind,

00:18:42.862 --> 00:18:44.970
also wird das eine Art Wandel,

00:18:44.970 --> 00:18:47.248
den die Welt nie zuvor gesehen hat,

00:18:47.248 --> 00:18:50.554
sodass sich Ihr Verständnis 
des Möglichen ändert.

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
Das beeinflusst uns schon jetzt.

00:18:52.754 --> 00:18:56.384
In den letzten 25 Jahren ist
die Produktivität des Kapitals gestiegen,

00:18:56.400 --> 00:19:00.908
aber die Produktivität der Arbeit 
blieb gleich und sank sogar ein bisschen.

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
Deswegen will ich, dass wir
diese Diskussion jetzt führen.

00:19:04.149 --> 00:19:07.176
Wenn ich Leuten 
von dieser Situation erzähle,

00:19:07.176 --> 00:19:08.666
sind sie oft sehr abschätzig.

00:19:08.666 --> 00:19:10.339
Computer denken nicht wirklich,

00:19:10.339 --> 00:19:13.367
sie fühlen nichts, 
sie verstehen Lyrik nicht,

00:19:13.367 --> 00:19:15.888
wir verstehen nicht wirklich, 
wie sie funktionieren.

00:19:15.888 --> 00:19:17.374
Ja, und?

00:19:17.374 --> 00:19:18.978
Computer können jetzt Dinge tun,

00:19:18.978 --> 00:19:22.087
für die Menschen ihre meiste Zeit 
gegen Bezahlung aufwenden.

00:19:22.087 --> 00:19:24.098
Wir sollten also jetzt überlegen,

00:19:24.098 --> 00:19:28.015
wie wir unsere sozialen und 
wirtschaftlichen Strukturen anpassen,

00:19:28.015 --> 00:19:30.385
um diese neue Realität zu erkennen.

00:19:30.385 --> 00:19:31.388
Danke.

00:19:31.388 --> 00:19:32.190
(Applaus)