1 00:00:00,880 --> 00:00:04,893 Wenn man früher wollte, dass ein Computer etwas Neues tat, 2 00:00:04,893 --> 00:00:06,827 musste man ihn programmieren. 3 00:00:06,827 --> 00:00:09,858 Für alle, die es noch nie selbst probiert haben: 4 00:00:09,858 --> 00:00:13,360 Beim Programmieren muss man bis ins kleinste Detail 5 00:00:13,360 --> 00:00:16,727 jeden einzelnen Schritt definieren, den der Computer erledigen soll, 6 00:00:16,727 --> 00:00:19,089 um sein Ziel zu erreichen. 7 00:00:19,089 --> 00:00:22,585 Will man also etwas tun, was man selbst noch nicht kann, 8 00:00:22,585 --> 00:00:24,648 dann wird das eine große Herausforderung. 9 00:00:24,648 --> 00:00:28,131 Dieser Herausforderung stellte sich dieser Mann, Arthur Samuel. 10 00:00:28,131 --> 00:00:32,208 1956 wollte er diesem Computer beibringen, 11 00:00:32,208 --> 00:00:34,548 ihn im Spiel Dame zu schlagen. 12 00:00:34,548 --> 00:00:36,588 Wie kann man ein Programm schreiben 13 00:00:36,588 --> 00:00:40,394 und bis ins kleinste Detail definieren, wie man sich selbst in Dame übertrifft? 14 00:00:40,394 --> 00:00:42,116 Also hatte er eine Idee: 15 00:00:42,116 --> 00:00:45,840 Er ließ den Computer tausende Male gegen sich selbst spielen, 16 00:00:45,840 --> 00:00:48,364 sodass er Dame spielen lernte. 17 00:00:48,364 --> 00:00:51,544 Das funktionierte wirklich, und schon 1962 18 00:00:51,544 --> 00:00:55,561 besiegte dieser Computer den Landesmeister von Connecticut. 19 00:00:55,561 --> 00:00:58,534 Arthur Samuel war also der Urvater des Maschinellen Lernens 20 00:00:58,534 --> 00:01:00,251 und ich schulde ihm viel, 21 00:01:00,251 --> 00:01:03,014 denn ich bin ein Fachmann im Maschinellen Lernen. 22 00:01:03,014 --> 00:01:04,479 Ich war Präsident von Kaggle, 23 00:01:04,479 --> 00:01:07,867 einer Plattform von über 200 000 Fachleuten für Maschinelles Lernen. 24 00:01:07,867 --> 00:01:09,925 Kaggle veranstaltet Wettbewerbe, 25 00:01:09,925 --> 00:01:13,633 bei denen bisher ungelöste Probleme gelöst werden sollen, 26 00:01:13,633 --> 00:01:17,470 und das war schon hunderte Male erfolgreich. 27 00:01:17,470 --> 00:01:19,940 Aus dieser Warte habe ich viel darüber gelernt, 28 00:01:19,940 --> 00:01:23,890 was Maschinelles Lernen früher konnte, was es heute kann 29 00:01:23,890 --> 00:01:26,252 und was es zukünftig vollbringen könnte. 30 00:01:26,252 --> 00:01:30,675 Der vielleicht erste kommerzielle Erfolg im Maschinellen Lernen war Google. 31 00:01:30,675 --> 00:01:33,384 Google hat bewiesen, dass man Informationen 32 00:01:33,384 --> 00:01:36,066 über einen Computeralgorithmus finden kann, 33 00:01:36,066 --> 00:01:38,437 der auf Maschinellem Lernen basiert. 34 00:01:38,437 --> 00:01:42,323 Seitdem gab es viele kommerzielle Erfolge im Maschinellen Lernen. 35 00:01:42,323 --> 00:01:44,270 Firmen wie Amazon oder Netflix 36 00:01:44,270 --> 00:01:47,876 nutzen Maschinelles Lernen für Kaufempfehlungen 37 00:01:47,876 --> 00:01:49,896 oder Filmvorschläge. 38 00:01:49,896 --> 00:01:51,703 Manchmal ist das beinahe gruselig. 39 00:01:51,703 --> 00:01:53,657 Firmen wie LinkedIn oder Facebook 40 00:01:53,657 --> 00:01:56,251 schlagen Ihnen manchmal neue Freunde vor 41 00:01:56,251 --> 00:01:58,228 und Sie haben keine Ahnung, wie das geht, 42 00:01:58,228 --> 00:02:01,195 und genau das ist die Macht des Maschinellen Lernens. 43 00:02:01,195 --> 00:02:04,152 Diese Algorithmen haben anhand vorhandener Daten gelernt, 44 00:02:04,152 --> 00:02:07,399 anstatt von Hand programmiert zu werden. 45 00:02:07,399 --> 00:02:10,507 So konnte auch IBM Watson dazu bringen, 46 00:02:10,507 --> 00:02:13,539 die zwei Weltmeister der Quizshow "Jeopardy" zu schlagen, 47 00:02:13,539 --> 00:02:16,414 wo man knifflige, komplexe Fragen beantworten musste, z. B.: 48 00:02:16,414 --> 00:02:18,927 ["2003 verschwand u. a. der antike 'Löwe von Nimrud' 49 00:02:18,927 --> 00:02:20,510 aus dem Museum dieser Stadt."] 50 00:02:20,510 --> 00:02:23,164 Daher gibt es nun erste selbstfahrende Autos. 51 00:02:23,164 --> 00:02:25,036 Will man den Unterschied 52 00:02:25,036 --> 00:02:28,488 etwa zwischen Baum und Fußgänger erkennen, ist das wichtig. 53 00:02:28,488 --> 00:02:31,075 Wir wissen nicht, wie man solche Programme schreibt, 54 00:02:31,075 --> 00:02:34,072 aber durch Maschinelles Lernen ist das jetzt möglich. 55 00:02:34,072 --> 00:02:36,680 Dieses Auto ist schon über 1 Mio. km 56 00:02:36,680 --> 00:02:40,186 ohne den kleinsten Unfall auf normalen Straßen gefahren. 57 00:02:40,196 --> 00:02:44,110 Wir wissen also, dass Computer lernen können 58 00:02:44,110 --> 00:02:46,010 und dass sie auch Dinge lernen können, 59 00:02:46,010 --> 00:02:48,848 von denen wir nicht wissen, wie sie funktionieren, 60 00:02:48,848 --> 00:02:51,733 und manchmal sogar besser als wir. 61 00:02:51,733 --> 00:02:55,928 Eines der faszinierendsten Beispiele für Maschinelles Lernen 62 00:02:55,928 --> 00:02:58,320 habe ich bei einem meiner Kaggle-Projekte gesehen, 63 00:02:58,320 --> 00:03:01,911 als ein Team unter der Leitung von Geoffrey Hinton 64 00:03:01,911 --> 00:03:03,463 von der Universität Toronto 65 00:03:03,463 --> 00:03:06,140 den Wettstreit für automatische Drogenerkennung gewann. 66 00:03:06,140 --> 00:03:08,987 Außergewöhnlich war daran nicht nur ihr Sieg 67 00:03:08,987 --> 00:03:13,000 gegen all die Algorithmen von Merck und der internationalen akademischen Welt, 68 00:03:13,000 --> 00:03:18,061 sondern, dass das Team kein Vorwissen zu Chemie oder Biowissenschaften hatte 69 00:03:18,061 --> 00:03:20,230 und nur zwei Wochen brauchte. 70 00:03:20,230 --> 00:03:22,111 Wie haben sie das gemacht? 71 00:03:22,111 --> 00:03:25,342 Sie nutzten einen besonderen Algorithmus namens Deep Learning. 72 00:03:25,342 --> 00:03:27,701 Ihr Erfolg war so bedeutend, 73 00:03:27,701 --> 00:03:31,412 dass er wenig später auf der Titelseite der NY Times erschien. 74 00:03:31,412 --> 00:03:34,147 Hier auf der linken Seite sehen Sie Geoffrey Hinton. 75 00:03:34,147 --> 00:03:38,488 Deep Learning basiert auf der Funktion des menschlichen Gehirns 76 00:03:38,488 --> 00:03:40,300 und deswegen ist es ein Algorithmus, 77 00:03:40,300 --> 00:03:44,141 dessen Funktion theoretisch keine Grenzen gesetzt sind. 78 00:03:44,141 --> 00:03:46,964 Je mehr Daten und Rechenzeit man hat, 79 00:03:46,964 --> 00:03:48,276 desto besser wird er. 80 00:03:48,276 --> 00:03:50,615 Die New York Times zeigte in ihrem Artikel 81 00:03:50,615 --> 00:03:52,857 noch ein Resultat des Deep Learning, 82 00:03:52,857 --> 00:03:55,569 das ich Ihnen jetzt vorstellen will. 83 00:03:55,569 --> 00:04:00,510 Es beweist, dass Computer zuhören und verstehen können. 84 00:04:00,510 --> 00:04:06,251 Richard Rashid (Video): Als letzten Schritt in diesem Prozess 85 00:04:06,251 --> 00:04:10,961 werde ich Chinesisch mit Ihnen sprechen. 86 00:04:10,961 --> 00:04:13,596 Als wichtigsten Schritt haben wir 87 00:04:13,596 --> 00:04:18,598 anhand großer Informationsmengen von vielen Chinesisch-Sprechern 88 00:04:18,598 --> 00:04:21,128 ein Text-zu-Sprache-System gebaut, 89 00:04:21,128 --> 00:04:26,061 das chinesischen Text in chinesche Sprache umwandelt, 90 00:04:26,401 --> 00:04:31,220 und dann haben wir eine etwa einstündige Aufnahme meiner Stimme benutzt, 91 00:04:31,220 --> 00:04:36,364 um das Text-zu-Sprache-System so zu ändern, dass es wie ich klingt. 92 00:04:36,364 --> 00:04:38,904 Wieder ist das Ergebnis nicht perfekt. 93 00:04:38,904 --> 00:04:41,552 Eigentlich hat es sogar ganz schön viele Fehler. 94 00:04:41,552 --> 00:04:44,036 (Auf Chinesisch) 95 00:04:44,036 --> 00:04:47,403 (Applaus) 96 00:04:49,446 --> 00:04:53,022 In diesem Bereich ist noch viel zu tun. 97 00:04:53,022 --> 00:04:56,667 (Chinesisch) 98 00:04:56,667 --> 00:05:00,100 (Applaus) 99 00:05:01,345 --> 00:05:04,744 Jeremy Howard: Das war eine Konferenz zu Maschinellem Lernen in China. 100 00:05:04,744 --> 00:05:07,114 Übrigens hört man bei akademischen Konferenzen 101 00:05:07,114 --> 00:05:09,011 nur ganz selten Zwischenapplaus, 102 00:05:09,011 --> 00:05:12,687 obwohl das bei TEDx-Konferenzen durchaus erwünscht sein kann. 103 00:05:12,687 --> 00:05:15,482 Was Sie eben gesehen haben, basiert auf Deep Learning. 104 00:05:15,482 --> 00:05:17,007 (Applaus) Danke! 105 00:05:17,007 --> 00:05:19,289 Die englische Transkription war Deep Learning. 106 00:05:19,289 --> 00:05:22,701 Die Übersetzung ins Chinesische und der Text rechts oben – Deep Learning 107 00:05:22,701 --> 00:05:26,008 und die Modellierung der Stimme -- ebenfalls Deep Learning. 108 00:05:26,008 --> 00:05:29,242 Deep Learning ist also eine außergewöhnliche Sache. 109 00:05:29,242 --> 00:05:32,341 Es ist ein einziger Algorithmus, der scheinbar fast alles kann 110 00:05:32,341 --> 00:05:35,452 und ich fand heraus, dass er ein Jahr zuvor sehen gelernt hatte. 111 00:05:35,452 --> 00:05:38,388 Bei einem obskuren Wettbewerb der Ruhr-Universität Bochum 112 00:05:38,388 --> 00:05:40,225 zum Erkennen von Verkehrszeichen 113 00:05:40,225 --> 00:05:43,618 hat Deep Learning gelernt, Verkehrszeichen wie dieses zu erkennen. 114 00:05:43,618 --> 00:05:45,462 Er konnte Verkehrszeichen nicht nur 115 00:05:45,462 --> 00:05:47,470 besser als andere Algorithmen erkennen; 116 00:05:47,470 --> 00:05:50,189 die Rangliste zeigte, dass er sogar Menschen übertraf 117 00:05:50,189 --> 00:05:52,041 und zwar um das Doppelte. 118 00:05:52,041 --> 00:05:54,037 2011 gab es also das erste Beispiel 119 00:05:54,037 --> 00:05:57,442 für Computer, die besser sehen können als Menschen. 120 00:05:57,442 --> 00:05:59,491 Seitdem ist viel passiert. 121 00:05:59,491 --> 00:06:03,005 2012 gab Google bekannt, dass sie einen Deep-Learning-Algorithmus 122 00:06:03,005 --> 00:06:04,420 Youtube Videos schauen ließen 123 00:06:04,420 --> 00:06:07,857 und die Daten auf 16 000 Computern einen Monat lang berechnen ließen 124 00:06:07,857 --> 00:06:11,618 und dass der Computer allein Konzepte wie Menschen oder Katzen 125 00:06:11,618 --> 00:06:14,157 einzig durch das Betrachten von Videos erkannt hat. 126 00:06:14,157 --> 00:06:16,379 Menschen lernen sehr ähnlich. 127 00:06:16,379 --> 00:06:19,119 Sie lernen nicht, indem man ihnen sagt, was sie sehen, 128 00:06:19,119 --> 00:06:22,450 sondern sie lernen selbst, was diese Dinge sind. 129 00:06:22,450 --> 00:06:25,819 Übrigens hat 2012 Geoffrey Hinton, den wir vorher gesehen haben, 130 00:06:25,819 --> 00:06:30,474 den beliebten ImageNet-Wettbewerb mit seinem Versuch gewonnen, 131 00:06:30,474 --> 00:06:34,751 auf 1,5 Mio. Bildern die Motive zu erkennen. 132 00:06:34,751 --> 00:06:37,789 2014 sind wir mittlerweile nur noch bei einer 6%igen Fehlerrate 133 00:06:37,789 --> 00:06:39,242 bei der Bilderkennung. 134 00:06:39,242 --> 00:06:41,728 Das ist wiederum besser als Menschen. 135 00:06:41,728 --> 00:06:45,037 Maschinen sind dabei also außergewöhnlich gut 136 00:06:45,037 --> 00:06:47,586 und das wird nun auch in der Wirtschaft genutzt. 137 00:06:47,586 --> 00:06:50,348 Zum Beispiel hat Google letztes Jahr bekanntgegeben, 138 00:06:50,348 --> 00:06:54,933 dass sie jeden Ort Frankreichs in nur 2 Stunden kartografiert hätten, 139 00:06:54,933 --> 00:06:59,933 indem sie Street-View-Bilder in einen Deep-Learning-Algorithmus einspeisten, 140 00:06:59,933 --> 00:07:02,919 der dann Hausnummern erkennen und lesen konnte. 141 00:07:02,919 --> 00:07:08,274 Davor hätte es dutzende Leute und viele Jahre gebraucht. 142 00:07:08,274 --> 00:07:10,185 Dasselbe passiert in China. 143 00:07:10,185 --> 00:07:14,221 Baidu ist sowas wie das chinesische Google, 144 00:07:14,221 --> 00:07:16,504 und was Sie hier oben links sehen, 145 00:07:16,504 --> 00:07:20,478 ist z. B. ein Bild, das ich in Baidus Deep-Learning-System hochgeladen habe. 146 00:07:20,478 --> 00:07:24,247 Darunter sehen Sie, dass das System das Bild verstanden 147 00:07:24,247 --> 00:07:26,483 und ähnliche Bilder gefunden hat. 148 00:07:26,483 --> 00:07:29,219 Die ähnlichen Bilder haben ähnliche Hintergründe, 149 00:07:29,219 --> 00:07:30,877 ähnliche Gesichts-Ausrichtung, 150 00:07:30,877 --> 00:07:32,665 manche sogar die rausgestreckte Zunge. 151 00:07:32,665 --> 00:07:35,695 Das System schaut eindeutig nicht auf den Text einer Website. 152 00:07:35,695 --> 00:07:37,107 Es hatte nur ein Bild. 153 00:07:37,107 --> 00:07:41,128 Also haben wir jetzt Computer, die wirklich verstehen, was sie sehen, 154 00:07:41,128 --> 00:07:42,752 und daher Datenbanken 155 00:07:42,752 --> 00:07:46,306 mit vielen Millionen Bildern in Echtzeit durchsuchen können. 156 00:07:46,306 --> 00:07:49,536 Aber was bedeutet es nun, dass Computer sehen können? 157 00:07:49,536 --> 00:07:51,553 Tja, es ist nicht nur so, dass sie sehen. 158 00:07:51,553 --> 00:07:53,622 Genau genommen kann Deep Leaning noch mehr. 159 00:07:53,622 --> 00:07:56,570 Komplexe, differenzierte Sätze wie dieser 160 00:07:56,570 --> 00:07:59,394 können nun mit Deep-Learning-Algorithmen verstanden werden. 161 00:07:59,394 --> 00:08:00,697 Wie Sie hier sehen können, 162 00:08:00,697 --> 00:08:03,465 zeigt dieses System aus Stanford mit dem roten Punkt oben, 163 00:08:03,465 --> 00:08:07,384 dass es die negative Botschaft des Satzes erkannt hat. 164 00:08:07,384 --> 00:08:11,280 Deep Learning ist jetzt fast so gut wie Menschen 165 00:08:11,280 --> 00:08:15,923 im Verstehen, worum es in Sätzen geht und was gesagt wird. 166 00:08:15,923 --> 00:08:18,991 Deep Learning wird auch genutzt, um Chinesisch zu lesen 167 00:08:18,991 --> 00:08:21,807 wieder fast auf Muttersprachler-Niveau. 168 00:08:21,807 --> 00:08:24,645 Der Algorithmus dafür stammt von Leuten aus der Schweiz, 169 00:08:24,645 --> 00:08:27,621 die allesamt kein Chinesisch sprechen oder verstehen. 170 00:08:27,621 --> 00:08:29,812 Wie ich schon sagte: Deep Learning 171 00:08:29,812 --> 00:08:32,611 ist so ziemlich das beste System der Welt dafür, 172 00:08:32,611 --> 00:08:36,718 sogar im Vergleich mit dem Wissen von Muttersprachlern. 173 00:08:36,718 --> 00:08:39,682 Dieses System haben wir in meiner Firma entworfen, 174 00:08:39,682 --> 00:08:41,728 das all diesen Kram zusammenfügt. 175 00:08:41,728 --> 00:08:44,189 Das sind Bilder ohne angehängten Text 176 00:08:44,189 --> 00:08:46,541 und während ich diese Sätze hier eintippe, 177 00:08:46,541 --> 00:08:49,510 versteht das System die Bilder in Echtzeit 178 00:08:49,510 --> 00:08:51,189 und erkennt, was sie zeigen, 179 00:08:51,189 --> 00:08:54,352 und findet ähnliche Bilder zu dem eingetippten Text. 180 00:08:54,352 --> 00:08:57,108 Sie sehen also, es versteht wirklich meine Sätze 181 00:08:57,108 --> 00:08:59,332 und ebenso diese Bilder. 182 00:08:59,332 --> 00:09:01,891 Ich weiß, dass Sie sowas Ähnliches von Google kennen, 183 00:09:01,891 --> 00:09:04,666 wo man Text eingeben kann und einem Bilder gezeigt werden, 184 00:09:04,666 --> 00:09:08,090 aber da wird nur die Website nach dem Text durchsucht. 185 00:09:08,090 --> 00:09:11,091 Das ist ein großer Unterschied dazu, die Bilder zu verstehen. 186 00:09:11,091 --> 00:09:13,843 Letzteres haben Computer erst 187 00:09:13,843 --> 00:09:17,091 vor ein paar Monaten gelernt. 188 00:09:17,091 --> 00:09:21,182 Wir haben gesehen, dass Computer nicht nur sehen, sondern auch lesen können. 189 00:09:21,182 --> 00:09:24,947 Wir haben natürlich auch gesehen, dass sie verstehen, was sie hören. 190 00:09:24,947 --> 00:09:28,389 Vielleicht sind Sie nicht überrascht, dass sie auch schreiben können. 191 00:09:28,389 --> 00:09:33,172 Diesen Text habe ich gestern mit einem Deep-Learning-Algorithmus erzeugt. 192 00:09:33,172 --> 00:09:37,096 Diesen Text hier hat ein Algorithmus aus Stanford erzeugt. 193 00:09:37,096 --> 00:09:40,730 Jeder dieser Sätze wurde mit einem Deep-Learning-Algorithmus erzeugt, 194 00:09:40,730 --> 00:09:43,109 um das jeweilige Bild zu beschreiben. 195 00:09:43,109 --> 00:09:47,581 Vorher hat der Algorithmus nie einen Mann im schwarzen Hemd Gitarre spielen sehen. 196 00:09:47,581 --> 00:09:49,801 Er hat einen Mann, die Farbe Schwarz, 197 00:09:49,801 --> 00:09:51,400 und eine Gitarre gesehen, 198 00:09:51,400 --> 00:09:55,694 aber er hat selbstständig diese neue Bildbeschreibung erstellt. 199 00:09:55,694 --> 00:09:59,196 Menschliche Leistung ist das noch nicht, aber nah dran. 200 00:09:59,196 --> 00:10:03,264 In Tests bevorzugen Menschen die computer-generierte Bildbeschreibung 201 00:10:03,264 --> 00:10:04,791 nur eines von vier Malen. 202 00:10:04,791 --> 00:10:06,855 Aber das System ist jetzt erst 2 Wochen alt, 203 00:10:06,855 --> 00:10:08,671 sodass wahrscheinlich im nächsten Jahr 204 00:10:08,671 --> 00:10:11,502 der Computeralgorithmus die menschliche Leistung übertrifft, 205 00:10:11,502 --> 00:10:13,564 so schnell wie die Dinge gerade gehen. 206 00:10:13,774 --> 00:10:16,093 Computer können also auch schreiben. 207 00:10:16,413 --> 00:10:19,888 Wenn wir das alles kombinieren, kriegen wir sehr spannenden Möglichkeiten. 208 00:10:19,888 --> 00:10:21,380 In der Medizin, zum Beispiel, 209 00:10:21,380 --> 00:10:23,905 hat ein Team aus Boston verkündet, 210 00:10:23,905 --> 00:10:26,854 dass es Dutzende neue klinisch relevante Merkmale 211 00:10:26,854 --> 00:10:31,630 von Tumoren entdeckt hätte, die Ärzten bei der Krebsprognose helfen. 212 00:10:32,220 --> 00:10:35,256 Ähnlich hat in Stanford eine Gruppe bekanntgegeben, 213 00:10:35,256 --> 00:10:38,179 dass sie für die Gewebeanalyse in vergrößerter Aufnahme 214 00:10:38,179 --> 00:10:40,690 ein Maschinelles Lernsystem entwickelt haben, 215 00:10:40,690 --> 00:10:44,292 das menschliche Pathologen tatsächlich dabei übertrifft, 216 00:10:44,292 --> 00:10:47,519 die Überlebenschancen von Krebspatienten vorherzusagen. 217 00:10:47,519 --> 00:10:50,614 In beiden Fällen waren die Vorhersagen nicht nur genauer, 218 00:10:50,614 --> 00:10:53,266 sie förderten auch neue wissenschaftliche Erkenntnisse. 219 00:10:53,276 --> 00:10:54,781 Im Fall der Radiologie 220 00:10:54,781 --> 00:10:57,876 waren es neue klinische Indikatoren, die Menschen verstehen. 221 00:10:57,876 --> 00:10:59,668 Im Fall der Pathologie 222 00:10:59,668 --> 00:11:04,428 hat das Computersystem herausgefunden, dass die Zellen rund um den Krebs 223 00:11:04,428 --> 00:11:07,508 genauso wichtig sind wie die Krebszellen selbst 224 00:11:07,508 --> 00:11:09,260 beim Erstellen der Diagnose. 225 00:11:09,260 --> 00:11:14,331 Das ist das Gegenteil davon, was man Pathologen jahrzehntelang beibrachte. 226 00:11:14,901 --> 00:11:17,413 In beiden Fällen wurden die Systeme 227 00:11:17,413 --> 00:11:21,534 gemeinsam von Experten der Medizin und des Maschinellen Lernens entwickelt, 228 00:11:21,534 --> 00:11:24,275 aber seit letztem Jahr haben wir auch das überwunden. 229 00:11:24,275 --> 00:11:27,634 Das hier ist ein Beispiel, wie man krebsgeschädigte Bereiche 230 00:11:27,634 --> 00:11:30,604 menschlichen Gewebes unter dem Mikroskop erkennt. 231 00:11:30,604 --> 00:11:34,967 Das hier gezeigte System erkennt solche Bereiche genauer, 232 00:11:34,967 --> 00:11:37,742 oder etwa gleich genau, wie menschliche Pathologen, 233 00:11:37,742 --> 00:11:41,134 aber es wurde allein mit Deep Learning, ohne medizinisches Wissen, 234 00:11:41,134 --> 00:11:44,230 von Leuten ohne Ausbildung in diesem Feld entwickelt. 235 00:11:44,730 --> 00:11:47,285 Ähnlich ist es bei dieser Neuronen-Segmentierung. 236 00:11:47,285 --> 00:11:51,193 Neuronen können jetzt damit etwa so genau wie durch Menschen segmentieren werden, 237 00:11:51,193 --> 00:11:53,670 aber dieses System wurde mit Deep Learning 238 00:11:53,670 --> 00:11:56,921 von Leuten ohne medizinisches Vorwissen entwickelt. 239 00:11:56,921 --> 00:12:00,148 Sogar ich, als jemand ohne medizinische Ausbildung, 240 00:12:00,148 --> 00:12:03,875 scheine nun genug für die Gründung eines medizinisches Unternehmens zu wissen 241 00:12:03,875 --> 00:12:06,021 -- und das habe ich auch. 242 00:12:06,021 --> 00:12:07,761 Ich hatte irgendwie Angst davor, 243 00:12:07,761 --> 00:12:10,650 aber theoretisch schien es möglich zu sein, 244 00:12:10,650 --> 00:12:16,142 in der Medizin sehr nützliche Dinge allein mit solchen Datenanalysen zu bewirken. 245 00:12:16,142 --> 00:12:18,622 Glücklicherweise war das Feedback fantastisch, 246 00:12:18,622 --> 00:12:21,268 sowohl von den Medien als auch von Medizinern, 247 00:12:21,268 --> 00:12:23,322 die mich sehr unterstützt haben. 248 00:12:23,322 --> 00:12:27,471 Theoretisch können wir den Mittelteil des medizinischen Vorgangs 249 00:12:27,471 --> 00:12:30,364 so viel wie möglich der Datenanalyse überlassen, 250 00:12:30,364 --> 00:12:33,359 sodass Ärzte nur noch tun müssen, was sie am besten können. 251 00:12:33,359 --> 00:12:35,031 Ich will Ihnen ein Beispiel geben. 252 00:12:35,031 --> 00:12:39,825 Aktuell brauchen wir 15 Minuten, um einen neuen medizinischen Diagnosetest zu bauen. 253 00:12:39,825 --> 00:12:41,929 Das zeige ich Ihnen jetzt in Echtzeit, 254 00:12:41,929 --> 00:12:45,416 aber ich habe es durch Zusammenschneiden auf 3 Minuten gekürzt. 255 00:12:45,416 --> 00:12:48,477 Anstatt Ihnen das Erstellen eines medizinischen Tests zu zeigen, 256 00:12:48,477 --> 00:12:52,206 zeige ich Ihnen einen Diagnosetest für Autobilder, 257 00:12:52,206 --> 00:12:54,068 denn das verstehen wir alle. 258 00:12:54,068 --> 00:12:57,269 Hier fangen wir mit ungefähr 1,5 Mio. Autobildern an, 259 00:12:57,269 --> 00:13:00,475 und ich möchte etwas bauen, das sie nach dem Winkel sortiert, 260 00:13:00,475 --> 00:13:02,698 in dem das Foto gemacht wurde. 261 00:13:02,698 --> 00:13:06,586 Diese Bilder sind jetzt noch nicht benannt, ich fange bei Null an. 262 00:13:06,586 --> 00:13:08,451 Unser Deep-Learning-Algorithmus 263 00:13:08,451 --> 00:13:12,158 erkennt automatisch Strukturflächen auf den Bildern. 264 00:13:12,158 --> 00:13:15,778 Das Schöne ist, dass Mensch und Computer jetzt zusammenarbeiten können. 265 00:13:15,778 --> 00:13:17,956 Wie Sie hier sehen, 266 00:13:17,956 --> 00:13:20,631 gibt der Mensch dem Computer Zielbereiche vor, 267 00:13:20,631 --> 00:13:25,281 womit der Computer dann versuchen soll, seinem Algorithmus zu verbessern. 268 00:13:25,281 --> 00:13:29,577 Eigentlich sind diese Deep-Learning- Systeme im 16 000-dimensionalen Raum, 269 00:13:29,577 --> 00:13:32,179 hier können Sie den Computer das durch den Raum 270 00:13:32,179 --> 00:13:35,001 auf der Suche nach neuen Strukturflächen rotieren sehen. 271 00:13:35,001 --> 00:13:36,782 Wenn er dabei Erfolg hat, 272 00:13:36,782 --> 00:13:40,786 kann der menschliche Betreiber dann die interessanten Bereiche festlegen. 273 00:13:40,786 --> 00:13:43,208 Hier hat der Computer Bereiche gefunden, 274 00:13:43,208 --> 00:13:45,770 zum Beispiel Winkel. 275 00:13:45,770 --> 00:13:47,376 Im Verlauf des Prozesses 276 00:13:47,376 --> 00:13:49,716 sagen wir dem Computer immer mehr 277 00:13:49,716 --> 00:13:52,144 über die gesuchten Strukturen. 278 00:13:52,144 --> 00:13:53,916 Bei einem Diagnose-Test zum Beispiel 279 00:13:53,916 --> 00:13:57,266 würde das dem Pathologen helfen, kranke Bereiche zu identifizieren, 280 00:13:57,266 --> 00:14:02,292 oder dem Radiologen bei potentiell gefährlichen Knoten. 281 00:14:02,292 --> 00:14:04,851 Manchmal wird es schwer für den Algorithmus. 282 00:14:04,851 --> 00:14:06,815 In diesem Fall war er etwas verwirrt. 283 00:14:06,815 --> 00:14:09,365 Die Vorder- und Rückseiten der Autos sind vermischt. 284 00:14:09,365 --> 00:14:11,437 Wir müssen hier also sorgfältiger sein, 285 00:14:11,437 --> 00:14:14,669 und die Vorderseiten manuell von den Rückseiten trennen, 286 00:14:14,669 --> 00:14:20,175 um dann dem Computer zu sagen, dass das Teil einer Gruppe ist, 287 00:14:20,175 --> 00:14:21,523 die uns interessiert. 288 00:14:21,523 --> 00:14:24,420 Das machen wir für eine Weile, wir springen ein wenig weiter, 289 00:14:24,420 --> 00:14:26,446 und dann trainieren wir den Algorithmus, 290 00:14:26,446 --> 00:14:28,420 basierend auf diesen paar hundert Sachen, 291 00:14:28,420 --> 00:14:30,445 und hoffen, dass er besser geworden ist. 292 00:14:30,445 --> 00:14:33,518 Wie Sie sehen, lässt er einige dieser Bilder jetzt verblassen 293 00:14:33,518 --> 00:14:38,226 und zeigt uns, dass er schon jetzt ein wenig selbst erkennt. 294 00:14:38,226 --> 00:14:41,128 Wir können das Konzept der ähnlichen Bilder nutzen 295 00:14:41,128 --> 00:14:43,222 und dabei sehen Sie, 296 00:14:43,222 --> 00:14:47,241 dass der Computer jetzt in der Lage ist, nur die Vorderseiten der Autos zu finden. 297 00:14:47,241 --> 00:14:50,189 Also kann der Mensch dem Computer an diesem Punkt sagen, 298 00:14:50,189 --> 00:14:52,482 okay, du hast gute Arbeit geleistet. 299 00:14:53,652 --> 00:14:56,847 Natürlich ist es manchmal selbst hier schwer, 300 00:14:56,847 --> 00:14:59,511 die einzelnen Gruppen zu unterscheiden. 301 00:14:59,511 --> 00:15:03,395 Selbst nachdem der Computer die Bilder eine Weile rotiert hat, 302 00:15:03,399 --> 00:15:06,744 sind die rechten und linken Seiten der Bilder immer noch 303 00:15:06,744 --> 00:15:08,222 komplett durcheinander. 304 00:15:08,222 --> 00:15:10,672 Wieder können wir dem Computer Hinweise geben 305 00:15:10,672 --> 00:15:13,178 und sagen, okay, jetzt versuch mal einen Weg, 306 00:15:13,178 --> 00:15:15,945 der die rechte und linke Seite so gut wie möglich 307 00:15:15,945 --> 00:15:18,067 mit dem Deep-Learning-Algorithmus trennt. 308 00:15:18,067 --> 00:15:21,009 Und mit diesem Hinweis -- ah, okay, jetzt hat er Erfolg. 309 00:15:21,009 --> 00:15:23,891 Er hat einen Weg gefunden, diese Objekte so sehen, 310 00:15:23,891 --> 00:15:26,271 der diese hier aussortiert hat. 311 00:15:26,271 --> 00:15:28,709 Sie haben jetzt einen Eindruck davon. 312 00:15:28,709 --> 00:15:36,906 Das ist kein Fall, wo der Mensch von einem Computer ersetzt wird, 313 00:15:36,906 --> 00:15:39,546 sondern sie arbeiten zusammen. 314 00:15:39,546 --> 00:15:43,556 Wir ersetzen hier etwas, wofür man früher ein Team von fünf oder sechs Leuten 315 00:15:43,556 --> 00:15:45,098 7 Jahre beschäftigt hat, 316 00:15:45,098 --> 00:15:47,703 durch etwas, das 15 Minuten 317 00:15:47,703 --> 00:15:50,208 für eine einzige Person braucht. 318 00:15:50,208 --> 00:15:54,158 Dieser Vorgang braucht ungefähr vier oder fünf Durchgänge. 319 00:15:54,158 --> 00:15:56,017 Wie Sie sehen, sind wir nun bei 62 % 320 00:15:56,017 --> 00:15:58,976 korrekt klassifizierten Bildern aus 1,5 Millionen. 321 00:15:58,976 --> 00:16:01,448 An dieser Stelle können wir anfangen, sehr schnell 322 00:16:01,448 --> 00:16:02,745 große Bereiche zu erfassen, 323 00:16:02,745 --> 00:16:05,664 und sie auf Fehler zu überprüfen. 324 00:16:05,664 --> 00:16:09,616 Wenn es Fehler gibt, lassen wir das den Computer wissen. 325 00:16:09,616 --> 00:16:12,661 Indem wir diesen Vorgang auf jede der einzelnen Gruppen anwenden, 326 00:16:12,661 --> 00:16:15,148 sind wir jetzt bei einer 80%igen Erfolgsrate 327 00:16:15,148 --> 00:16:17,563 beim Klassifizieren der 1,5 Mio. Bilder. 328 00:16:17,563 --> 00:16:19,641 An diesem Punkt müssen wir nur noch 329 00:16:19,641 --> 00:16:23,220 die kleine Zahl der falsch klassifizierten Bilder finden 330 00:16:23,220 --> 00:16:26,108 und versuchen, die Ursache zu verstehen. 331 00:16:26,108 --> 00:16:27,851 Wenden wir das an, 332 00:16:27,851 --> 00:16:31,972 sind wir nach 15 Minuten bei einer Erfolgsquote von 97 %. 333 00:16:31,972 --> 00:16:36,572 Also könnten wir mit dieser Technik ein großes Problem beheben, 334 00:16:36,578 --> 00:16:39,614 nämlich, das Fehlen medizinischen Fachwissens in der Welt. 335 00:16:39,614 --> 00:16:43,103 Laut Weltwirtschaftsforum gibt es zwischen 10x und 20x 336 00:16:43,103 --> 00:16:45,727 zu wenige Ärzte in Entwicklungsländern 337 00:16:45,727 --> 00:16:47,840 und es würde etwa 300 Jahre dauern, 338 00:16:47,840 --> 00:16:50,734 genug Leute auszubilden, um das Problem zu beheben. 339 00:16:50,734 --> 00:16:53,619 Können Sie sich vorstellen, dass wir ihre Effizienz 340 00:16:53,619 --> 00:16:56,458 mit diesen Deep-Learning-Ansätzen steigern können? 341 00:16:56,458 --> 00:16:58,900 Ich bin ganz begeistert von den Möglichkeiten. 342 00:16:58,900 --> 00:17:01,279 Ich mache mir auch Sorgen über die Probleme. 343 00:17:01,279 --> 00:17:04,403 Das Problem hierbei ist, in jedem blauen Bereich auf der Karte 344 00:17:04,403 --> 00:17:08,172 machen Dienstleistungen über 80 % der Beschäftigung aus. 345 00:17:08,172 --> 00:17:09,959 Was sind Dienstleistungen? 346 00:17:09,959 --> 00:17:11,473 Das sind Dienstleistungen. 347 00:17:11,473 --> 00:17:15,627 Das sind außerdem genau die Dinge, die Computer gerade gelernt haben. 348 00:17:15,627 --> 00:17:19,431 Also sind 80 % der Beschäftigung der entwickelten Welt Dinge, 349 00:17:19,431 --> 00:17:21,963 die Computer gerade gelernt haben. 350 00:17:21,963 --> 00:17:23,403 Was bedeutet das? 351 00:17:23,403 --> 00:17:25,986 Naja, es wird alles gut. Andere Jobs ersetzen diese. 352 00:17:25,986 --> 00:17:28,693 Zum Beispiel wird es mehr Jobs für Informatiker geben. 353 00:17:28,693 --> 00:17:29,510 Nun, nicht ganz. 354 00:17:29,510 --> 00:17:32,628 Informatiker brauchen nicht lange, diese Dinge zu bauen. 355 00:17:32,628 --> 00:17:35,880 Zum Beispiel wurden diese 4 Algorithmen vom selben Typen gebaut. 356 00:17:35,880 --> 00:17:38,318 Wenn Sie also denken, oh, das ist alles nicht neu, 357 00:17:38,318 --> 00:17:42,126 wir haben in der Vergangenheit gesehen, wenn etwas Neues kommt, 358 00:17:42,126 --> 00:17:44,378 werden sie durch neue Jobs ersetzt, 359 00:17:44,378 --> 00:17:46,494 was also sind diese neuen Jobs? 360 00:17:46,494 --> 00:17:48,365 Das ist sehr schwer einzuschätzen, 361 00:17:48,365 --> 00:17:51,104 weil menschliche Leistung schrittweise wächst, 362 00:17:51,104 --> 00:17:53,666 aber wir haben jetzt ein System, Deep Learning, 363 00:17:53,666 --> 00:17:56,893 das seine Leistung nachweislich exponentiell steigert. 364 00:17:56,893 --> 00:17:58,498 Und da sind wir. 365 00:17:58,498 --> 00:18:00,559 Zurzeit sehen wir die Dinge um uns herum 366 00:18:00,559 --> 00:18:03,235 und sagen "Computer sind immer noch ziemlich dumm." Oder? 367 00:18:03,235 --> 00:18:06,664 Aber in fünf Jahren werden Computer nicht mehr Teil dieser Tabelle sein. 368 00:18:06,664 --> 00:18:10,529 Wir müssen also schon jetzt anfangen, über diese Leistung nachzudenken. 369 00:18:10,529 --> 00:18:12,579 Wir haben das natürlich schon mal gesehen. 370 00:18:12,579 --> 00:18:14,296 Die Industrielle Revolution 371 00:18:14,296 --> 00:18:17,387 bewirkte einen Evolutionssprung der Leistung durch Motoren. 372 00:18:17,667 --> 00:18:20,805 Aber nach einer Weile beruhigten sich die Dinge. 373 00:18:20,805 --> 00:18:22,507 Es gab soziale Umbrüche, 374 00:18:22,507 --> 00:18:25,946 aber sobald die Motoren damals zur Energiegewinnung genutzt wurden, 375 00:18:25,946 --> 00:18:28,300 beruhigten sich die Dinge. 376 00:18:28,300 --> 00:18:30,293 Die Revolution des Maschinellen Lernens 377 00:18:30,293 --> 00:18:32,682 wird ganz anders als die Industrielle Revolution, 378 00:18:32,682 --> 00:18:35,632 weil die Revolution nie zu Ende ist. 379 00:18:35,632 --> 00:18:38,614 Je besser Computer bei intellektuellen Aktivitäten werden, 380 00:18:38,614 --> 00:18:40,602 desto bessere Computer können sie bauen, 381 00:18:40,602 --> 00:18:42,862 die intellektuell noch leistungsfähiger sind, 382 00:18:42,862 --> 00:18:44,970 also wird das eine Art Wandel, 383 00:18:44,970 --> 00:18:47,248 den die Welt nie zuvor gesehen hat, 384 00:18:47,248 --> 00:18:50,554 sodass sich Ihr Verständnis des Möglichen ändert. 385 00:18:50,974 --> 00:18:52,754 Das beeinflusst uns schon jetzt. 386 00:18:52,754 --> 00:18:56,384 In den letzten 25 Jahren ist die Produktivität des Kapitals gestiegen, 387 00:18:56,400 --> 00:19:00,908 aber die Produktivität der Arbeit blieb gleich und sank sogar ein bisschen. 388 00:19:01,408 --> 00:19:04,149 Deswegen will ich, dass wir diese Diskussion jetzt führen. 389 00:19:04,149 --> 00:19:07,176 Wenn ich Leuten von dieser Situation erzähle, 390 00:19:07,176 --> 00:19:08,666 sind sie oft sehr abschätzig. 391 00:19:08,666 --> 00:19:10,339 Computer denken nicht wirklich, 392 00:19:10,339 --> 00:19:13,367 sie fühlen nichts, sie verstehen Lyrik nicht, 393 00:19:13,367 --> 00:19:15,888 wir verstehen nicht wirklich, wie sie funktionieren. 394 00:19:15,888 --> 00:19:17,374 Ja, und? 395 00:19:17,374 --> 00:19:18,978 Computer können jetzt Dinge tun, 396 00:19:18,978 --> 00:19:22,087 für die Menschen ihre meiste Zeit gegen Bezahlung aufwenden. 397 00:19:22,087 --> 00:19:24,098 Wir sollten also jetzt überlegen, 398 00:19:24,098 --> 00:19:28,015 wie wir unsere sozialen und wirtschaftlichen Strukturen anpassen, 399 00:19:28,015 --> 00:19:30,385 um diese neue Realität zu erkennen. 400 00:19:30,385 --> 00:19:31,388 Danke. 401 00:19:31,388 --> 00:19:32,190 (Applaus)