WEBVTT 00:00:00.880 --> 00:00:04.893 Wenn man früher wollte, dass ein Computer etwas Neues tat, 00:00:04.893 --> 00:00:06.827 musste man ihn programmieren. 00:00:06.827 --> 00:00:09.858 Für alle, die es noch nie selbst probiert haben: 00:00:09.858 --> 00:00:13.360 Beim Programmieren muss man bis ins kleinste Detail 00:00:13.360 --> 00:00:16.727 jeden einzelnen Schritt definieren, den der Computer erledigen soll, 00:00:16.727 --> 00:00:19.089 um sein Ziel zu erreichen. 00:00:19.089 --> 00:00:22.585 Will man also etwas tun, was man selbst noch nicht kann, 00:00:22.585 --> 00:00:24.648 dann wird das eine große Herausforderung. NOTE Paragraph 00:00:24.648 --> 00:00:28.131 Dieser Herausforderung stellte sich dieser Mann, Arthur Samuel. 00:00:28.131 --> 00:00:32.208 1956 wollte er diesem Computer beibringen, 00:00:32.208 --> 00:00:34.548 ihn im Spiel Dame zu schlagen. 00:00:34.548 --> 00:00:36.588 Wie kann man ein Programm schreiben 00:00:36.588 --> 00:00:40.394 und bis ins kleinste Detail definieren, wie man sich selbst in Dame übertrifft? 00:00:40.394 --> 00:00:42.116 Also hatte er eine Idee: 00:00:42.116 --> 00:00:45.840 Er ließ den Computer tausende Male gegen sich selbst spielen, 00:00:45.840 --> 00:00:48.364 sodass er Dame spielen lernte. 00:00:48.364 --> 00:00:51.544 Das funktionierte wirklich, und schon 1962 00:00:51.544 --> 00:00:55.561 besiegte dieser Computer den Landesmeister von Connecticut. NOTE Paragraph 00:00:55.561 --> 00:00:58.534 Arthur Samuel war also der Urvater des Maschinellen Lernens 00:00:58.534 --> 00:01:00.251 und ich schulde ihm viel, 00:01:00.251 --> 00:01:03.014 denn ich bin ein Fachmann im Maschinellen Lernen. 00:01:03.014 --> 00:01:04.479 Ich war Präsident von Kaggle, 00:01:04.479 --> 00:01:07.867 einer Plattform von über 200 000 Fachleuten für Maschinelles Lernen. 00:01:07.867 --> 00:01:09.925 Kaggle veranstaltet Wettbewerbe, 00:01:09.925 --> 00:01:13.633 bei denen bisher ungelöste Probleme gelöst werden sollen, 00:01:13.633 --> 00:01:17.470 und das war schon hunderte Male erfolgreich. 00:01:17.470 --> 00:01:19.940 Aus dieser Warte habe ich viel darüber gelernt, 00:01:19.940 --> 00:01:23.890 was Maschinelles Lernen früher konnte, was es heute kann 00:01:23.890 --> 00:01:26.252 und was es zukünftig vollbringen könnte. 00:01:26.252 --> 00:01:30.675 Der vielleicht erste kommerzielle Erfolg im Maschinellen Lernen war Google. 00:01:30.675 --> 00:01:33.384 Google hat bewiesen, dass man Informationen 00:01:33.384 --> 00:01:36.066 über einen Computeralgorithmus finden kann, 00:01:36.066 --> 00:01:38.437 der auf Maschinellem Lernen basiert. 00:01:38.437 --> 00:01:42.323 Seitdem gab es viele kommerzielle Erfolge im Maschinellen Lernen. 00:01:42.323 --> 00:01:44.270 Firmen wie Amazon oder Netflix 00:01:44.270 --> 00:01:47.876 nutzen Maschinelles Lernen für Kaufempfehlungen 00:01:47.876 --> 00:01:49.896 oder Filmvorschläge. 00:01:49.896 --> 00:01:51.703 Manchmal ist das beinahe gruselig. 00:01:51.703 --> 00:01:53.657 Firmen wie LinkedIn oder Facebook 00:01:53.657 --> 00:01:56.251 schlagen Ihnen manchmal neue Freunde vor 00:01:56.251 --> 00:01:58.228 und Sie haben keine Ahnung, wie das geht, 00:01:58.228 --> 00:02:01.195 und genau das ist die Macht des Maschinellen Lernens. 00:02:01.195 --> 00:02:04.152 Diese Algorithmen haben anhand vorhandener Daten gelernt, 00:02:04.152 --> 00:02:07.399 anstatt von Hand programmiert zu werden. NOTE Paragraph 00:02:07.399 --> 00:02:10.507 So konnte auch IBM Watson dazu bringen, 00:02:10.507 --> 00:02:13.539 die zwei Weltmeister der Quizshow "Jeopardy" zu schlagen, 00:02:13.539 --> 00:02:16.414 wo man knifflige, komplexe Fragen beantworten musste, z. B.: 00:02:16.414 --> 00:02:18.927 ["2003 verschwand u. a. der antike 'Löwe von Nimrud' 00:02:18.927 --> 00:02:20.510 aus dem Museum dieser Stadt."] 00:02:20.510 --> 00:02:23.164 Daher gibt es nun erste selbstfahrende Autos. 00:02:23.164 --> 00:02:25.036 Will man den Unterschied 00:02:25.036 --> 00:02:28.488 etwa zwischen Baum und Fußgänger erkennen, ist das wichtig. 00:02:28.488 --> 00:02:31.075 Wir wissen nicht, wie man solche Programme schreibt, 00:02:31.075 --> 00:02:34.072 aber durch Maschinelles Lernen ist das jetzt möglich. 00:02:34.072 --> 00:02:36.680 Dieses Auto ist schon über 1 Mio. km 00:02:36.680 --> 00:02:40.186 ohne den kleinsten Unfall auf normalen Straßen gefahren. NOTE Paragraph 00:02:40.196 --> 00:02:44.110 Wir wissen also, dass Computer lernen können 00:02:44.110 --> 00:02:46.010 und dass sie auch Dinge lernen können, 00:02:46.010 --> 00:02:48.848 von denen wir nicht wissen, wie sie funktionieren, 00:02:48.848 --> 00:02:51.733 und manchmal sogar besser als wir. 00:02:51.733 --> 00:02:55.928 Eines der faszinierendsten Beispiele für Maschinelles Lernen 00:02:55.928 --> 00:02:58.320 habe ich bei einem meiner Kaggle-Projekte gesehen, 00:02:58.320 --> 00:03:01.911 als ein Team unter der Leitung von Geoffrey Hinton 00:03:01.911 --> 00:03:03.463 von der Universität Toronto 00:03:03.463 --> 00:03:06.140 den Wettstreit für automatische Drogenerkennung gewann. 00:03:06.140 --> 00:03:08.987 Außergewöhnlich war daran nicht nur ihr Sieg 00:03:08.987 --> 00:03:13.000 gegen all die Algorithmen von Merck und der internationalen akademischen Welt, 00:03:13.000 --> 00:03:18.061 sondern, dass das Team kein Vorwissen zu Chemie oder Biowissenschaften hatte 00:03:18.061 --> 00:03:20.230 und nur zwei Wochen brauchte. 00:03:20.230 --> 00:03:22.111 Wie haben sie das gemacht? 00:03:22.111 --> 00:03:25.342 Sie nutzten einen besonderen Algorithmus namens Deep Learning. 00:03:25.342 --> 00:03:27.701 Ihr Erfolg war so bedeutend, 00:03:27.701 --> 00:03:31.412 dass er wenig später auf der Titelseite der NY Times erschien. 00:03:31.412 --> 00:03:34.147 Hier auf der linken Seite sehen Sie Geoffrey Hinton. 00:03:34.147 --> 00:03:38.488 Deep Learning basiert auf der Funktion des menschlichen Gehirns 00:03:38.488 --> 00:03:40.300 und deswegen ist es ein Algorithmus, 00:03:40.300 --> 00:03:44.141 dessen Funktion theoretisch keine Grenzen gesetzt sind. 00:03:44.141 --> 00:03:46.964 Je mehr Daten und Rechenzeit man hat, 00:03:46.964 --> 00:03:48.276 desto besser wird er. NOTE Paragraph 00:03:48.276 --> 00:03:50.615 Die New York Times zeigte in ihrem Artikel 00:03:50.615 --> 00:03:52.857 noch ein Resultat des Deep Learning, 00:03:52.857 --> 00:03:55.569 das ich Ihnen jetzt vorstellen will. 00:03:55.569 --> 00:04:00.510 Es beweist, dass Computer zuhören und verstehen können. NOTE Paragraph 00:04:00.510 --> 00:04:06.251 Richard Rashid (Video): Als letzten Schritt in diesem Prozess 00:04:06.251 --> 00:04:10.961 werde ich Chinesisch mit Ihnen sprechen. 00:04:10.961 --> 00:04:13.596 Als wichtigsten Schritt haben wir 00:04:13.596 --> 00:04:18.598 anhand großer Informationsmengen von vielen Chinesisch-Sprechern 00:04:18.598 --> 00:04:21.128 ein Text-zu-Sprache-System gebaut, 00:04:21.128 --> 00:04:26.061 das chinesischen Text in chinesche Sprache umwandelt, 00:04:26.401 --> 00:04:31.220 und dann haben wir eine etwa einstündige Aufnahme meiner Stimme benutzt, 00:04:31.220 --> 00:04:36.364 um das Text-zu-Sprache-System so zu ändern, dass es wie ich klingt. 00:04:36.364 --> 00:04:38.904 Wieder ist das Ergebnis nicht perfekt. 00:04:38.904 --> 00:04:41.552 Eigentlich hat es sogar ganz schön viele Fehler. 00:04:41.552 --> 00:04:44.036 (Auf Chinesisch) 00:04:44.036 --> 00:04:47.403 (Applaus) 00:04:49.446 --> 00:04:53.022 In diesem Bereich ist noch viel zu tun. 00:04:53.022 --> 00:04:56.667 (Chinesisch) 00:04:56.667 --> 00:05:00.100 (Applaus) NOTE Paragraph 00:05:01.345 --> 00:05:04.744 Jeremy Howard: Das war eine Konferenz zu Maschinellem Lernen in China. 00:05:04.744 --> 00:05:07.114 Übrigens hört man bei akademischen Konferenzen 00:05:07.114 --> 00:05:09.011 nur ganz selten Zwischenapplaus, 00:05:09.011 --> 00:05:12.687 obwohl das bei TEDx-Konferenzen durchaus erwünscht sein kann. 00:05:12.687 --> 00:05:15.482 Was Sie eben gesehen haben, basiert auf Deep Learning. 00:05:15.482 --> 00:05:17.007 (Applaus) Danke! 00:05:17.007 --> 00:05:19.289 Die englische Transkription war Deep Learning. 00:05:19.289 --> 00:05:22.701 Die Übersetzung ins Chinesische und der Text rechts oben – Deep Learning 00:05:22.701 --> 00:05:26.008 und die Modellierung der Stimme -- ebenfalls Deep Learning. NOTE Paragraph 00:05:26.008 --> 00:05:29.242 Deep Learning ist also eine außergewöhnliche Sache. 00:05:29.242 --> 00:05:32.341 Es ist ein einziger Algorithmus, der scheinbar fast alles kann 00:05:32.341 --> 00:05:35.452 und ich fand heraus, dass er ein Jahr zuvor sehen gelernt hatte. 00:05:35.452 --> 00:05:38.388 Bei einem obskuren Wettbewerb der Ruhr-Universität Bochum 00:05:38.388 --> 00:05:40.225 zum Erkennen von Verkehrszeichen 00:05:40.225 --> 00:05:43.618 hat Deep Learning gelernt, Verkehrszeichen wie dieses zu erkennen. 00:05:43.618 --> 00:05:45.462 Er konnte Verkehrszeichen nicht nur 00:05:45.462 --> 00:05:47.470 besser als andere Algorithmen erkennen; 00:05:47.470 --> 00:05:50.189 die Rangliste zeigte, dass er sogar Menschen übertraf 00:05:50.189 --> 00:05:52.041 und zwar um das Doppelte. 00:05:52.041 --> 00:05:54.037 2011 gab es also das erste Beispiel 00:05:54.037 --> 00:05:57.442 für Computer, die besser sehen können als Menschen. 00:05:57.442 --> 00:05:59.491 Seitdem ist viel passiert. 00:05:59.491 --> 00:06:03.005 2012 gab Google bekannt, dass sie einen Deep-Learning-Algorithmus 00:06:03.005 --> 00:06:04.420 Youtube Videos schauen ließen 00:06:04.420 --> 00:06:07.857 und die Daten auf 16 000 Computern einen Monat lang berechnen ließen 00:06:07.857 --> 00:06:11.618 und dass der Computer allein Konzepte wie Menschen oder Katzen 00:06:11.618 --> 00:06:14.157 einzig durch das Betrachten von Videos erkannt hat. 00:06:14.157 --> 00:06:16.379 Menschen lernen sehr ähnlich. 00:06:16.379 --> 00:06:19.119 Sie lernen nicht, indem man ihnen sagt, was sie sehen, 00:06:19.119 --> 00:06:22.450 sondern sie lernen selbst, was diese Dinge sind. 00:06:22.450 --> 00:06:25.819 Übrigens hat 2012 Geoffrey Hinton, den wir vorher gesehen haben, 00:06:25.819 --> 00:06:30.474 den beliebten ImageNet-Wettbewerb mit seinem Versuch gewonnen, 00:06:30.474 --> 00:06:34.751 auf 1,5 Mio. Bildern die Motive zu erkennen. 00:06:34.751 --> 00:06:37.789 2014 sind wir mittlerweile nur noch bei einer 6%igen Fehlerrate 00:06:37.789 --> 00:06:39.242 bei der Bilderkennung. 00:06:39.242 --> 00:06:41.728 Das ist wiederum besser als Menschen. NOTE Paragraph 00:06:41.728 --> 00:06:45.037 Maschinen sind dabei also außergewöhnlich gut 00:06:45.037 --> 00:06:47.586 und das wird nun auch in der Wirtschaft genutzt. 00:06:47.586 --> 00:06:50.348 Zum Beispiel hat Google letztes Jahr bekanntgegeben, 00:06:50.348 --> 00:06:54.933 dass sie jeden Ort Frankreichs in nur 2 Stunden kartografiert hätten, 00:06:54.933 --> 00:06:59.933 indem sie Street-View-Bilder in einen Deep-Learning-Algorithmus einspeisten, 00:06:59.933 --> 00:07:02.919 der dann Hausnummern erkennen und lesen konnte. 00:07:02.919 --> 00:07:08.274 Davor hätte es dutzende Leute und viele Jahre gebraucht. 00:07:08.274 --> 00:07:10.185 Dasselbe passiert in China. 00:07:10.185 --> 00:07:14.221 Baidu ist sowas wie das chinesische Google, 00:07:14.221 --> 00:07:16.504 und was Sie hier oben links sehen, 00:07:16.504 --> 00:07:20.478 ist z. B. ein Bild, das ich in Baidus Deep-Learning-System hochgeladen habe. 00:07:20.478 --> 00:07:24.247 Darunter sehen Sie, dass das System das Bild verstanden 00:07:24.247 --> 00:07:26.483 und ähnliche Bilder gefunden hat. 00:07:26.483 --> 00:07:29.219 Die ähnlichen Bilder haben ähnliche Hintergründe, 00:07:29.219 --> 00:07:30.877 ähnliche Gesichts-Ausrichtung, 00:07:30.877 --> 00:07:32.665 manche sogar die rausgestreckte Zunge. 00:07:32.665 --> 00:07:35.695 Das System schaut eindeutig nicht auf den Text einer Website. 00:07:35.695 --> 00:07:37.107 Es hatte nur ein Bild. 00:07:37.107 --> 00:07:41.128 Also haben wir jetzt Computer, die wirklich verstehen, was sie sehen, 00:07:41.128 --> 00:07:42.752 und daher Datenbanken 00:07:42.752 --> 00:07:46.306 mit vielen Millionen Bildern in Echtzeit durchsuchen können. NOTE Paragraph 00:07:46.306 --> 00:07:49.536 Aber was bedeutet es nun, dass Computer sehen können? 00:07:49.536 --> 00:07:51.553 Tja, es ist nicht nur so, dass sie sehen. 00:07:51.553 --> 00:07:53.622 Genau genommen kann Deep Leaning noch mehr. 00:07:53.622 --> 00:07:56.570 Komplexe, differenzierte Sätze wie dieser 00:07:56.570 --> 00:07:59.394 können nun mit Deep-Learning-Algorithmen verstanden werden. 00:07:59.394 --> 00:08:00.697 Wie Sie hier sehen können, 00:08:00.697 --> 00:08:03.465 zeigt dieses System aus Stanford mit dem roten Punkt oben, 00:08:03.465 --> 00:08:07.384 dass es die negative Botschaft des Satzes erkannt hat. 00:08:07.384 --> 00:08:11.280 Deep Learning ist jetzt fast so gut wie Menschen 00:08:11.280 --> 00:08:15.923 im Verstehen, worum es in Sätzen geht und was gesagt wird. 00:08:15.923 --> 00:08:18.991 Deep Learning wird auch genutzt, um Chinesisch zu lesen 00:08:18.991 --> 00:08:21.807 wieder fast auf Muttersprachler-Niveau. 00:08:21.807 --> 00:08:24.645 Der Algorithmus dafür stammt von Leuten aus der Schweiz, 00:08:24.645 --> 00:08:27.621 die allesamt kein Chinesisch sprechen oder verstehen. 00:08:27.621 --> 00:08:29.812 Wie ich schon sagte: Deep Learning 00:08:29.812 --> 00:08:32.611 ist so ziemlich das beste System der Welt dafür, 00:08:32.611 --> 00:08:36.718 sogar im Vergleich mit dem Wissen von Muttersprachlern. NOTE Paragraph 00:08:36.718 --> 00:08:39.682 Dieses System haben wir in meiner Firma entworfen, 00:08:39.682 --> 00:08:41.728 das all diesen Kram zusammenfügt. 00:08:41.728 --> 00:08:44.189 Das sind Bilder ohne angehängten Text 00:08:44.189 --> 00:08:46.541 und während ich diese Sätze hier eintippe, 00:08:46.541 --> 00:08:49.510 versteht das System die Bilder in Echtzeit 00:08:49.510 --> 00:08:51.189 und erkennt, was sie zeigen, 00:08:51.189 --> 00:08:54.352 und findet ähnliche Bilder zu dem eingetippten Text. 00:08:54.352 --> 00:08:57.108 Sie sehen also, es versteht wirklich meine Sätze 00:08:57.108 --> 00:08:59.332 und ebenso diese Bilder. 00:08:59.332 --> 00:09:01.891 Ich weiß, dass Sie sowas Ähnliches von Google kennen, 00:09:01.891 --> 00:09:04.666 wo man Text eingeben kann und einem Bilder gezeigt werden, 00:09:04.666 --> 00:09:08.090 aber da wird nur die Website nach dem Text durchsucht. 00:09:08.090 --> 00:09:11.091 Das ist ein großer Unterschied dazu, die Bilder zu verstehen. 00:09:11.091 --> 00:09:13.843 Letzteres haben Computer erst 00:09:13.843 --> 00:09:17.091 vor ein paar Monaten gelernt. NOTE Paragraph 00:09:17.091 --> 00:09:21.182 Wir haben gesehen, dass Computer nicht nur sehen, sondern auch lesen können. 00:09:21.182 --> 00:09:24.947 Wir haben natürlich auch gesehen, dass sie verstehen, was sie hören. 00:09:24.947 --> 00:09:28.389 Vielleicht sind Sie nicht überrascht, dass sie auch schreiben können. 00:09:28.389 --> 00:09:33.172 Diesen Text habe ich gestern mit einem Deep-Learning-Algorithmus erzeugt. 00:09:33.172 --> 00:09:37.096 Diesen Text hier hat ein Algorithmus aus Stanford erzeugt. 00:09:37.096 --> 00:09:40.730 Jeder dieser Sätze wurde mit einem Deep-Learning-Algorithmus erzeugt, 00:09:40.730 --> 00:09:43.109 um das jeweilige Bild zu beschreiben. 00:09:43.109 --> 00:09:47.581 Vorher hat der Algorithmus nie einen Mann im schwarzen Hemd Gitarre spielen sehen. 00:09:47.581 --> 00:09:49.801 Er hat einen Mann, die Farbe Schwarz, 00:09:49.801 --> 00:09:51.400 und eine Gitarre gesehen, 00:09:51.400 --> 00:09:55.694 aber er hat selbstständig diese neue Bildbeschreibung erstellt. 00:09:55.694 --> 00:09:59.196 Menschliche Leistung ist das noch nicht, aber nah dran. 00:09:59.196 --> 00:10:03.264 In Tests bevorzugen Menschen die computer-generierte Bildbeschreibung 00:10:03.264 --> 00:10:04.791 nur eines von vier Malen. 00:10:04.791 --> 00:10:06.855 Aber das System ist jetzt erst 2 Wochen alt, 00:10:06.855 --> 00:10:08.671 sodass wahrscheinlich im nächsten Jahr 00:10:08.671 --> 00:10:11.502 der Computeralgorithmus die menschliche Leistung übertrifft, 00:10:11.502 --> 00:10:13.564 so schnell wie die Dinge gerade gehen. 00:10:13.774 --> 00:10:16.093 Computer können also auch schreiben. NOTE Paragraph 00:10:16.413 --> 00:10:19.888 Wenn wir das alles kombinieren, kriegen wir sehr spannenden Möglichkeiten. 00:10:19.888 --> 00:10:21.380 In der Medizin, zum Beispiel, 00:10:21.380 --> 00:10:23.905 hat ein Team aus Boston verkündet, 00:10:23.905 --> 00:10:26.854 dass es Dutzende neue klinisch relevante Merkmale 00:10:26.854 --> 00:10:31.630 von Tumoren entdeckt hätte, die Ärzten bei der Krebsprognose helfen. 00:10:32.220 --> 00:10:35.256 Ähnlich hat in Stanford eine Gruppe bekanntgegeben, 00:10:35.256 --> 00:10:38.179 dass sie für die Gewebeanalyse in vergrößerter Aufnahme 00:10:38.179 --> 00:10:40.690 ein Maschinelles Lernsystem entwickelt haben, 00:10:40.690 --> 00:10:44.292 das menschliche Pathologen tatsächlich dabei übertrifft, 00:10:44.292 --> 00:10:47.519 die Überlebenschancen von Krebspatienten vorherzusagen. 00:10:47.519 --> 00:10:50.614 In beiden Fällen waren die Vorhersagen nicht nur genauer, 00:10:50.614 --> 00:10:53.266 sie förderten auch neue wissenschaftliche Erkenntnisse. 00:10:53.276 --> 00:10:54.781 Im Fall der Radiologie 00:10:54.781 --> 00:10:57.876 waren es neue klinische Indikatoren, die Menschen verstehen. 00:10:57.876 --> 00:10:59.668 Im Fall der Pathologie 00:10:59.668 --> 00:11:04.428 hat das Computersystem herausgefunden, dass die Zellen rund um den Krebs 00:11:04.428 --> 00:11:07.508 genauso wichtig sind wie die Krebszellen selbst 00:11:07.508 --> 00:11:09.260 beim Erstellen der Diagnose. 00:11:09.260 --> 00:11:14.331 Das ist das Gegenteil davon, was man Pathologen jahrzehntelang beibrachte. 00:11:14.901 --> 00:11:17.413 In beiden Fällen wurden die Systeme 00:11:17.413 --> 00:11:21.534 gemeinsam von Experten der Medizin und des Maschinellen Lernens entwickelt, 00:11:21.534 --> 00:11:24.275 aber seit letztem Jahr haben wir auch das überwunden. 00:11:24.275 --> 00:11:27.634 Das hier ist ein Beispiel, wie man krebsgeschädigte Bereiche 00:11:27.634 --> 00:11:30.604 menschlichen Gewebes unter dem Mikroskop erkennt. 00:11:30.604 --> 00:11:34.967 Das hier gezeigte System erkennt solche Bereiche genauer, 00:11:34.967 --> 00:11:37.742 oder etwa gleich genau, wie menschliche Pathologen, 00:11:37.742 --> 00:11:41.134 aber es wurde allein mit Deep Learning, ohne medizinisches Wissen, 00:11:41.134 --> 00:11:44.230 von Leuten ohne Ausbildung in diesem Feld entwickelt. 00:11:44.730 --> 00:11:47.285 Ähnlich ist es bei dieser Neuronen-Segmentierung. 00:11:47.285 --> 00:11:51.193 Neuronen können jetzt damit etwa so genau wie durch Menschen segmentieren werden, 00:11:51.193 --> 00:11:53.670 aber dieses System wurde mit Deep Learning 00:11:53.670 --> 00:11:56.921 von Leuten ohne medizinisches Vorwissen entwickelt. NOTE Paragraph 00:11:56.921 --> 00:12:00.148 Sogar ich, als jemand ohne medizinische Ausbildung, 00:12:00.148 --> 00:12:03.875 scheine nun genug für die Gründung eines medizinisches Unternehmens zu wissen 00:12:03.875 --> 00:12:06.021 -- und das habe ich auch. 00:12:06.021 --> 00:12:07.761 Ich hatte irgendwie Angst davor, 00:12:07.761 --> 00:12:10.650 aber theoretisch schien es möglich zu sein, 00:12:10.650 --> 00:12:16.142 in der Medizin sehr nützliche Dinge allein mit solchen Datenanalysen zu bewirken. 00:12:16.142 --> 00:12:18.622 Glücklicherweise war das Feedback fantastisch, 00:12:18.622 --> 00:12:21.268 sowohl von den Medien als auch von Medizinern, 00:12:21.268 --> 00:12:23.322 die mich sehr unterstützt haben. 00:12:23.322 --> 00:12:27.471 Theoretisch können wir den Mittelteil des medizinischen Vorgangs 00:12:27.471 --> 00:12:30.364 so viel wie möglich der Datenanalyse überlassen, 00:12:30.364 --> 00:12:33.359 sodass Ärzte nur noch tun müssen, was sie am besten können. 00:12:33.359 --> 00:12:35.031 Ich will Ihnen ein Beispiel geben. 00:12:35.031 --> 00:12:39.825 Aktuell brauchen wir 15 Minuten, um einen neuen medizinischen Diagnosetest zu bauen. 00:12:39.825 --> 00:12:41.929 Das zeige ich Ihnen jetzt in Echtzeit, 00:12:41.929 --> 00:12:45.416 aber ich habe es durch Zusammenschneiden auf 3 Minuten gekürzt. 00:12:45.416 --> 00:12:48.477 Anstatt Ihnen das Erstellen eines medizinischen Tests zu zeigen, 00:12:48.477 --> 00:12:52.206 zeige ich Ihnen einen Diagnosetest für Autobilder, 00:12:52.206 --> 00:12:54.068 denn das verstehen wir alle. NOTE Paragraph 00:12:54.068 --> 00:12:57.269 Hier fangen wir mit ungefähr 1,5 Mio. Autobildern an, 00:12:57.269 --> 00:13:00.475 und ich möchte etwas bauen, das sie nach dem Winkel sortiert, 00:13:00.475 --> 00:13:02.698 in dem das Foto gemacht wurde. 00:13:02.698 --> 00:13:06.586 Diese Bilder sind jetzt noch nicht benannt, ich fange bei Null an. 00:13:06.586 --> 00:13:08.451 Unser Deep-Learning-Algorithmus 00:13:08.451 --> 00:13:12.158 erkennt automatisch Strukturflächen auf den Bildern. 00:13:12.158 --> 00:13:15.778 Das Schöne ist, dass Mensch und Computer jetzt zusammenarbeiten können. 00:13:15.778 --> 00:13:17.956 Wie Sie hier sehen, 00:13:17.956 --> 00:13:20.631 gibt der Mensch dem Computer Zielbereiche vor, 00:13:20.631 --> 00:13:25.281 womit der Computer dann versuchen soll, seinem Algorithmus zu verbessern. 00:13:25.281 --> 00:13:29.577 Eigentlich sind diese Deep-Learning- Systeme im 16 000-dimensionalen Raum, 00:13:29.577 --> 00:13:32.179 hier können Sie den Computer das durch den Raum 00:13:32.179 --> 00:13:35.001 auf der Suche nach neuen Strukturflächen rotieren sehen. 00:13:35.001 --> 00:13:36.782 Wenn er dabei Erfolg hat, 00:13:36.782 --> 00:13:40.786 kann der menschliche Betreiber dann die interessanten Bereiche festlegen. 00:13:40.786 --> 00:13:43.208 Hier hat der Computer Bereiche gefunden, 00:13:43.208 --> 00:13:45.770 zum Beispiel Winkel. 00:13:45.770 --> 00:13:47.376 Im Verlauf des Prozesses 00:13:47.376 --> 00:13:49.716 sagen wir dem Computer immer mehr 00:13:49.716 --> 00:13:52.144 über die gesuchten Strukturen. 00:13:52.144 --> 00:13:53.916 Bei einem Diagnose-Test zum Beispiel 00:13:53.916 --> 00:13:57.266 würde das dem Pathologen helfen, kranke Bereiche zu identifizieren, 00:13:57.266 --> 00:14:02.292 oder dem Radiologen bei potentiell gefährlichen Knoten. 00:14:02.292 --> 00:14:04.851 Manchmal wird es schwer für den Algorithmus. 00:14:04.851 --> 00:14:06.815 In diesem Fall war er etwas verwirrt. 00:14:06.815 --> 00:14:09.365 Die Vorder- und Rückseiten der Autos sind vermischt. 00:14:09.365 --> 00:14:11.437 Wir müssen hier also sorgfältiger sein, 00:14:11.437 --> 00:14:14.669 und die Vorderseiten manuell von den Rückseiten trennen, 00:14:14.669 --> 00:14:20.175 um dann dem Computer zu sagen, dass das Teil einer Gruppe ist, 00:14:20.175 --> 00:14:21.523 die uns interessiert. NOTE Paragraph 00:14:21.523 --> 00:14:24.420 Das machen wir für eine Weile, wir springen ein wenig weiter, 00:14:24.420 --> 00:14:26.446 und dann trainieren wir den Algorithmus, 00:14:26.446 --> 00:14:28.420 basierend auf diesen paar hundert Sachen, 00:14:28.420 --> 00:14:30.445 und hoffen, dass er besser geworden ist. 00:14:30.445 --> 00:14:33.518 Wie Sie sehen, lässt er einige dieser Bilder jetzt verblassen 00:14:33.518 --> 00:14:38.226 und zeigt uns, dass er schon jetzt ein wenig selbst erkennt. 00:14:38.226 --> 00:14:41.128 Wir können das Konzept der ähnlichen Bilder nutzen 00:14:41.128 --> 00:14:43.222 und dabei sehen Sie, 00:14:43.222 --> 00:14:47.241 dass der Computer jetzt in der Lage ist, nur die Vorderseiten der Autos zu finden. 00:14:47.241 --> 00:14:50.189 Also kann der Mensch dem Computer an diesem Punkt sagen, 00:14:50.189 --> 00:14:52.482 okay, du hast gute Arbeit geleistet. NOTE Paragraph 00:14:53.652 --> 00:14:56.847 Natürlich ist es manchmal selbst hier schwer, 00:14:56.847 --> 00:14:59.511 die einzelnen Gruppen zu unterscheiden. 00:14:59.511 --> 00:15:03.395 Selbst nachdem der Computer die Bilder eine Weile rotiert hat, 00:15:03.399 --> 00:15:06.744 sind die rechten und linken Seiten der Bilder immer noch 00:15:06.744 --> 00:15:08.222 komplett durcheinander. 00:15:08.222 --> 00:15:10.672 Wieder können wir dem Computer Hinweise geben 00:15:10.672 --> 00:15:13.178 und sagen, okay, jetzt versuch mal einen Weg, 00:15:13.178 --> 00:15:15.945 der die rechte und linke Seite so gut wie möglich 00:15:15.945 --> 00:15:18.067 mit dem Deep-Learning-Algorithmus trennt. 00:15:18.067 --> 00:15:21.009 Und mit diesem Hinweis -- ah, okay, jetzt hat er Erfolg. 00:15:21.009 --> 00:15:23.891 Er hat einen Weg gefunden, diese Objekte so sehen, 00:15:23.891 --> 00:15:26.271 der diese hier aussortiert hat. NOTE Paragraph 00:15:26.271 --> 00:15:28.709 Sie haben jetzt einen Eindruck davon. 00:15:28.709 --> 00:15:36.906 Das ist kein Fall, wo der Mensch von einem Computer ersetzt wird, 00:15:36.906 --> 00:15:39.546 sondern sie arbeiten zusammen. 00:15:39.546 --> 00:15:43.556 Wir ersetzen hier etwas, wofür man früher ein Team von fünf oder sechs Leuten 00:15:43.556 --> 00:15:45.098 7 Jahre beschäftigt hat, 00:15:45.098 --> 00:15:47.703 durch etwas, das 15 Minuten 00:15:47.703 --> 00:15:50.208 für eine einzige Person braucht. NOTE Paragraph 00:15:50.208 --> 00:15:54.158 Dieser Vorgang braucht ungefähr vier oder fünf Durchgänge. 00:15:54.158 --> 00:15:56.017 Wie Sie sehen, sind wir nun bei 62 % 00:15:56.017 --> 00:15:58.976 korrekt klassifizierten Bildern aus 1,5 Millionen. 00:15:58.976 --> 00:16:01.448 An dieser Stelle können wir anfangen, sehr schnell 00:16:01.448 --> 00:16:02.745 große Bereiche zu erfassen, 00:16:02.745 --> 00:16:05.664 und sie auf Fehler zu überprüfen. 00:16:05.664 --> 00:16:09.616 Wenn es Fehler gibt, lassen wir das den Computer wissen. 00:16:09.616 --> 00:16:12.661 Indem wir diesen Vorgang auf jede der einzelnen Gruppen anwenden, 00:16:12.661 --> 00:16:15.148 sind wir jetzt bei einer 80%igen Erfolgsrate 00:16:15.148 --> 00:16:17.563 beim Klassifizieren der 1,5 Mio. Bilder. 00:16:17.563 --> 00:16:19.641 An diesem Punkt müssen wir nur noch 00:16:19.641 --> 00:16:23.220 die kleine Zahl der falsch klassifizierten Bilder finden 00:16:23.220 --> 00:16:26.108 und versuchen, die Ursache zu verstehen. 00:16:26.108 --> 00:16:27.851 Wenden wir das an, 00:16:27.851 --> 00:16:31.972 sind wir nach 15 Minuten bei einer Erfolgsquote von 97 %. NOTE Paragraph 00:16:31.972 --> 00:16:36.572 Also könnten wir mit dieser Technik ein großes Problem beheben, 00:16:36.578 --> 00:16:39.614 nämlich, das Fehlen medizinischen Fachwissens in der Welt. 00:16:39.614 --> 00:16:43.103 Laut Weltwirtschaftsforum gibt es zwischen 10x und 20x 00:16:43.103 --> 00:16:45.727 zu wenige Ärzte in Entwicklungsländern 00:16:45.727 --> 00:16:47.840 und es würde etwa 300 Jahre dauern, 00:16:47.840 --> 00:16:50.734 genug Leute auszubilden, um das Problem zu beheben. 00:16:50.734 --> 00:16:53.619 Können Sie sich vorstellen, dass wir ihre Effizienz 00:16:53.619 --> 00:16:56.458 mit diesen Deep-Learning-Ansätzen steigern können? NOTE Paragraph 00:16:56.458 --> 00:16:58.900 Ich bin ganz begeistert von den Möglichkeiten. 00:16:58.900 --> 00:17:01.279 Ich mache mir auch Sorgen über die Probleme. 00:17:01.279 --> 00:17:04.403 Das Problem hierbei ist, in jedem blauen Bereich auf der Karte 00:17:04.403 --> 00:17:08.172 machen Dienstleistungen über 80 % der Beschäftigung aus. 00:17:08.172 --> 00:17:09.959 Was sind Dienstleistungen? 00:17:09.959 --> 00:17:11.473 Das sind Dienstleistungen. 00:17:11.473 --> 00:17:15.627 Das sind außerdem genau die Dinge, die Computer gerade gelernt haben. 00:17:15.627 --> 00:17:19.431 Also sind 80 % der Beschäftigung der entwickelten Welt Dinge, 00:17:19.431 --> 00:17:21.963 die Computer gerade gelernt haben. 00:17:21.963 --> 00:17:23.403 Was bedeutet das? 00:17:23.403 --> 00:17:25.986 Naja, es wird alles gut. Andere Jobs ersetzen diese. 00:17:25.986 --> 00:17:28.693 Zum Beispiel wird es mehr Jobs für Informatiker geben. 00:17:28.693 --> 00:17:29.510 Nun, nicht ganz. 00:17:29.510 --> 00:17:32.628 Informatiker brauchen nicht lange, diese Dinge zu bauen. 00:17:32.628 --> 00:17:35.880 Zum Beispiel wurden diese 4 Algorithmen vom selben Typen gebaut. 00:17:35.880 --> 00:17:38.318 Wenn Sie also denken, oh, das ist alles nicht neu, 00:17:38.318 --> 00:17:42.126 wir haben in der Vergangenheit gesehen, wenn etwas Neues kommt, 00:17:42.126 --> 00:17:44.378 werden sie durch neue Jobs ersetzt, 00:17:44.378 --> 00:17:46.494 was also sind diese neuen Jobs? 00:17:46.494 --> 00:17:48.365 Das ist sehr schwer einzuschätzen, 00:17:48.365 --> 00:17:51.104 weil menschliche Leistung schrittweise wächst, 00:17:51.104 --> 00:17:53.666 aber wir haben jetzt ein System, Deep Learning, 00:17:53.666 --> 00:17:56.893 das seine Leistung nachweislich exponentiell steigert. 00:17:56.893 --> 00:17:58.498 Und da sind wir. 00:17:58.498 --> 00:18:00.559 Zurzeit sehen wir die Dinge um uns herum 00:18:00.559 --> 00:18:03.235 und sagen "Computer sind immer noch ziemlich dumm." Oder? 00:18:03.235 --> 00:18:06.664 Aber in fünf Jahren werden Computer nicht mehr Teil dieser Tabelle sein. 00:18:06.664 --> 00:18:10.529 Wir müssen also schon jetzt anfangen, über diese Leistung nachzudenken. NOTE Paragraph 00:18:10.529 --> 00:18:12.579 Wir haben das natürlich schon mal gesehen. 00:18:12.579 --> 00:18:14.296 Die Industrielle Revolution 00:18:14.296 --> 00:18:17.387 bewirkte einen Evolutionssprung der Leistung durch Motoren. 00:18:17.667 --> 00:18:20.805 Aber nach einer Weile beruhigten sich die Dinge. 00:18:20.805 --> 00:18:22.507 Es gab soziale Umbrüche, 00:18:22.507 --> 00:18:25.946 aber sobald die Motoren damals zur Energiegewinnung genutzt wurden, 00:18:25.946 --> 00:18:28.300 beruhigten sich die Dinge. 00:18:28.300 --> 00:18:30.293 Die Revolution des Maschinellen Lernens 00:18:30.293 --> 00:18:32.682 wird ganz anders als die Industrielle Revolution, 00:18:32.682 --> 00:18:35.632 weil die Revolution nie zu Ende ist. 00:18:35.632 --> 00:18:38.614 Je besser Computer bei intellektuellen Aktivitäten werden, 00:18:38.614 --> 00:18:40.602 desto bessere Computer können sie bauen, 00:18:40.602 --> 00:18:42.862 die intellektuell noch leistungsfähiger sind, 00:18:42.862 --> 00:18:44.970 also wird das eine Art Wandel, 00:18:44.970 --> 00:18:47.248 den die Welt nie zuvor gesehen hat, 00:18:47.248 --> 00:18:50.554 sodass sich Ihr Verständnis des Möglichen ändert. NOTE Paragraph 00:18:50.974 --> 00:18:52.754 Das beeinflusst uns schon jetzt. 00:18:52.754 --> 00:18:56.384 In den letzten 25 Jahren ist die Produktivität des Kapitals gestiegen, 00:18:56.400 --> 00:19:00.908 aber die Produktivität der Arbeit blieb gleich und sank sogar ein bisschen. NOTE Paragraph 00:19:01.408 --> 00:19:04.149 Deswegen will ich, dass wir diese Diskussion jetzt führen. 00:19:04.149 --> 00:19:07.176 Wenn ich Leuten von dieser Situation erzähle, 00:19:07.176 --> 00:19:08.666 sind sie oft sehr abschätzig. 00:19:08.666 --> 00:19:10.339 Computer denken nicht wirklich, 00:19:10.339 --> 00:19:13.367 sie fühlen nichts, sie verstehen Lyrik nicht, 00:19:13.367 --> 00:19:15.888 wir verstehen nicht wirklich, wie sie funktionieren. 00:19:15.888 --> 00:19:17.374 Ja, und? 00:19:17.374 --> 00:19:18.978 Computer können jetzt Dinge tun, 00:19:18.978 --> 00:19:22.087 für die Menschen ihre meiste Zeit gegen Bezahlung aufwenden. 00:19:22.087 --> 00:19:24.098 Wir sollten also jetzt überlegen, 00:19:24.098 --> 00:19:28.015 wie wir unsere sozialen und wirtschaftlichen Strukturen anpassen, 00:19:28.015 --> 00:19:30.385 um diese neue Realität zu erkennen. 00:19:30.385 --> 00:19:31.388 Danke. 00:19:31.388 --> 00:19:32.190 (Applaus)