0:00:03.476,0:00:05.182 Ich möchte Ihnen etwas zeigen. 0:00:05.964,0:00:09.585 (Video) Mädchen: Okay. Das ist[br]eine Katze, die auf einem Bett sitzt. 0:00:10.205,0:00:12.568 Der Junge streichelt den Elefanten. 0:00:14.220,0:00:17.319 Das sind Menschen,[br]die ein Flugzeug besteigen. 0:00:18.285,0:00:20.021 Das ist ein großes Flugzeug. 0:00:21.173,0:00:23.551 Fei-Fei Li: Das ist ein dreijähiges Kind, 0:00:23.551,0:00:26.795 das beschreibt, was es[br]auf einigen Fotos sieht. 0:00:27.307,0:00:30.585 Sie muss wahrscheinlich[br]noch viel über diese Welt lernen, 0:00:30.585,0:00:34.743 aber sie ist bereits Expertin hinsichtlich[br]einer sehr wichtigen Aufgabe: 0:00:34.953,0:00:37.799 Sie versteht, was sie sieht. 0:00:38.029,0:00:42.455 Unsere Gesellschaft ist technologisch[br]fortgeschrittener als je zuvor. 0:00:42.455,0:00:46.773 Wir schicken Menschen zum Mond,[br]stellen Telefone her, die mit uns reden 0:00:46.773,0:00:51.030 oder stellen Radiosender auf unseren[br]individuellen Musikgeschmack ein. 0:00:51.030,0:00:55.085 Dennoch haben selbst unsere[br]fortschrittlichsten Maschinen und Computer 0:00:55.085,0:00:57.988 immer noch Probleme mit dieser Aufgabe. 0:00:57.988,0:01:01.447 Ich werde Ihnen heute[br]von den Fortschritten erzählen, 0:01:01.447,0:01:05.494 die wir in unserem Forschungsgebiet[br]der Computer Vision gemacht haben, 0:01:05.494,0:01:09.795 einer der bahnbrechendsten und vielleicht[br]revolutionärsten Technologien 0:01:09.795,0:01:12.861 in der Informatik. 0:01:12.861,0:01:17.412 Wir haben Autos entwickelt,[br]die eigenständig fahren können, 0:01:17.412,0:01:21.265 aber ohne intelligentes Sehvermögen[br]können sie nicht unterscheiden, 0:01:21.265,0:01:25.373 ob auf der Straße eine zerknitterte[br]Papiertüte liegt, die man überfahren kann, 0:01:25.373,0:01:28.575 oder ein Stein von gleicher Größe,[br]dem man ausgeweichen muss. 0:01:29.285,0:01:32.735 Wir haben sagenhaft[br]hochauflösende Kameras entwickelt, 0:01:32.805,0:01:35.940 aber wir können Blinde nicht[br]wieder sehen lassen. 0:01:36.420,0:01:39.575 Drohnen können über riesige[br]Distanzen fliegen, 0:01:39.575,0:01:42.302 besitzen aber nicht[br]die nötige Sichttechnologie, 0:01:42.302,0:01:45.320 um die Veränderungen[br]der Regenwälder nachzuverfolgen. 0:01:45.320,0:01:48.270 Überwachungskameras sind überall, 0:01:48.270,0:01:53.337 aber warnen uns nicht,[br]wenn ein Kind im Schwimmbad ertrinkt. 0:01:54.167,0:01:59.762 Bilder und Videos werden immer mehr[br]zu einem festen Bestandteil des Lebens. 0:01:59.762,0:02:03.849 Sie werden in einer Geschwindigkeit[br]erzeugt, die weit jenseits dessen liegt, 0:02:03.849,0:02:06.632 was Menschen sich auch nur[br]erhoffen könnten zu sichten. 0:02:06.632,0:02:10.553 Sie und ich tragen mit diesem[br]TED Talk gerade dazu bei. 0:02:10.553,0:02:15.785 Unsere fortschrittlichste Software[br]hat noch immer Probleme 0:02:15.785,0:02:19.661 beim Verstehen und Verwalten[br]dieser enormen Masse an Inhalten. 0:02:19.661,0:02:24.008 Man kann soweit gehen und sagen,[br]dass wir als Gesellschaft 0:02:24.008,0:02:26.298 nahezu blind sind, 0:02:26.423,0:02:29.806 weil unsere klügsten Maschinen[br]immer noch blind sind. 0:02:31.356,0:02:34.302 "Warum ist das so schwierig?",[br]fragen Sie sich vielleicht. 0:02:34.302,0:02:37.145 Kameras können solche Bilder schießen, 0:02:37.145,0:02:41.139 indem sie Licht in eine zweidimensionale[br]Matrix aus Zahlen umwandeln, 0:02:41.139,0:02:42.789 besser bekannt als Pixel. 0:02:42.789,0:02:45.040 Aber das sind nur leblose Zahlen. 0:02:45.040,0:02:47.961 Sie sind an sich bedeutungslos. 0:02:48.061,0:02:52.494 Hören ist nicht dasselbe wie Verstehen. 0:02:52.494,0:02:56.344 Ebenso ist Fotografieren[br]nicht dasselbe wie Sehen. 0:02:56.344,0:03:00.363 Mit Sehen meinen wir[br]genauer gesagt Verstehen. 0:03:01.293,0:03:06.870 Tatsächlich hat Mutter Natur[br]540 Millionen Jahre gebraucht, 0:03:06.890,0:03:09.443 um diese Aufgabe zu lösen. 0:03:09.443,0:03:11.324 Ein Großteil des Aufwands 0:03:11.324,0:03:16.595 war die Entwicklung der visuellen[br]Verarbeitungskapazität unseres Gehirns, 0:03:16.595,0:03:19.242 gar nicht der Augen an sich. 0:03:19.242,0:03:21.989 Das Sehen beginnt mit den Augen, 0:03:21.989,0:03:25.507 geschieht aber eigentlich im Gehirn. 0:03:26.287,0:03:31.347 Vor 15 Jahren begann ich[br]meine Doktorarbeit am Caltech, 0:03:31.347,0:03:34.273 danach leitete ich[br]das Vision Lab in Stanford. 0:03:34.273,0:03:38.669 Die ganze Zeit arbeitete ich mit Mentoren,[br]Mitarbeitern und Studenten daran, 0:03:38.669,0:03:41.558 Computern das Sehen beizubringen. 0:03:42.258,0:03:45.952 Unser Forschungsgebiet nennt sich[br]Computer Vision und Maschinelles Lernen. 0:03:45.952,0:03:49.830 Es gehört zum allgemeinen Gebiet[br]der Künstlichen Intelligenz. 0:03:51.000,0:03:56.493 Schlussendlich wollen wir Geräten[br]beibringen, so wie wir zu sehen: 0:03:56.493,0:04:01.880 Objekte benennen, Menschen erkennen,[br]Dreidimensionalität von Objekten erfassen, 0:04:01.880,0:04:07.568 Beziehungen, Emotionen, Handlungen[br]und Absichten verstehen. 0:04:07.568,0:04:13.631 Sie und ich begreifen ganze Geschichten[br]zwischen Menschen, Orten und Dingen 0:04:13.631,0:04:16.603 in Sekundenschnelle, wenn wir[br]einen Blick darauf werfen. 0:04:16.954,0:04:22.538 Der erste Schritt ist es, Computern[br]die Objekterkennung beizubringen, 0:04:22.538,0:04:25.906 einzelne Bausteine der visuellen Welt. 0:04:25.906,0:04:30.340 Grundsätzlich können Sie sich[br]diesen Lehrprozess so vorstellen, 0:04:30.340,0:04:34.005 dass wir den Computern[br]einige Trainingsbilder 0:04:34.005,0:04:37.341 von bestimmten Objekten zeigen,[br]zum Beispiel von Katzen, 0:04:37.341,0:04:41.163 und ein Modell entwerfen,[br]das von diesen Trainingsbildern lernt. 0:04:41.193,0:04:43.317 Wie schwer kann das schon sein? 0:04:43.347,0:04:47.489 Im Grunde besteht eine Katze aus einer[br]Reihe verschiedener Formen und Farben. 0:04:47.489,0:04:51.575 Genau das waren unsere ersten Schritte[br]in der Objektmodellierung. 0:04:51.575,0:04:55.197 Wir sagten dem Computeralgorithmus[br]in einer mathematischen Sprache, 0:04:55.197,0:04:58.540 dass eine Katze ein rundes Gesicht,[br]einen pummeligen Körper, 0:04:58.540,0:05:00.839 zwei spitze Ohren[br]und einen langen Schwanz hat. 0:05:00.839,0:05:02.249 Das sah ganz gut aus. 0:05:02.859,0:05:04.972 Aber wie ist es mit dieser Katze? 0:05:04.972,0:05:06.063 (Lachen) 0:05:06.063,0:05:07.689 Sie ist ganz zusammengekuschelt. 0:05:07.689,0:05:12.408 Jetzt muss man eine andere Form und eine[br]Perspektive zum Objektmodell hinzufügen. 0:05:12.408,0:05:14.570 Wie sieht es mit versteckten Katzen aus? 0:05:15.143,0:05:17.362 Was ist mit diesen albernen Katzen? 0:05:19.112,0:05:21.529 Jetzt verstehen Sie mich sicherlich. 0:05:21.529,0:05:24.896 Sogar etwas so Einfaches wie ein Haustier 0:05:24.896,0:05:29.150 kann für das Objektmodell[br]unendlich viele Variationen annehmen. 0:05:29.150,0:05:31.633 Und das ist nur ein Objekt. 0:05:32.573,0:05:35.065 Vor etwa acht Jahren 0:05:35.065,0:05:40.095 veränderte eine sehr einfache[br]und grundlegende Beobachtung mein Denken. 0:05:41.425,0:05:44.110 Niemand sagt einem Kind,[br]wie es zu sehen hat, 0:05:44.110,0:05:46.371 erst recht nicht am Anfang. 0:05:46.371,0:05:51.371 Sie lernen durch eigene[br]Erfahrungen und Beispiele. 0:05:51.371,0:05:54.111 Wenn man sich die Augen eines Kindes 0:05:54.111,0:05:56.665 als ein Paar biologischer[br]Kameras vorstellt, 0:05:56.665,0:06:00.685 schießen diese alle 200[br]Millisekunden ein Bild. 0:06:00.725,0:06:03.799 Das ist die durchschnittliche[br]Dauer einer Augenbewegung. 0:06:03.979,0:06:09.529 Mit drei Jahren hat ein Kind also[br]mehrere hundert Millionen Bilder 0:06:09.529,0:06:11.363 der realen Welt gesehen. 0:06:11.363,0:06:13.643 Das sind sehr viel Übungsbeispiele. 0:06:14.383,0:06:20.372 Ich erkannte, dass der Fokus nicht auf[br]immer besseren Algorithmen liegen muss, 0:06:20.372,0:06:25.644 sondern dass wir den Algorithmen[br]die Art von Übungsdaten geben müssen, 0:06:25.644,0:06:28.843 die ein Kind durch seine[br]Erfahrungen sammelt, 0:06:28.843,0:06:32.841 sowohl quantitativ und qualitativ. 0:06:32.841,0:06:34.699 Mit dieser Erkenntnis 0:06:34.699,0:06:38.255 war es unsere Aufgabe,[br]einen Datensatz zusammenzustellen, 0:06:38.255,0:06:42.129 der weit mehr Bilder beinhaltete,[br]als alles bisher Dagewesene. 0:06:42.129,0:06:44.706 Vielleicht tausendfach mehr Bilder. 0:06:44.706,0:06:48.817 Zusammen mit Professor Kai Li[br]von der Princeton University 0:06:48.817,0:06:53.569 starteten wir 2007 das ImageNet Projekt. 0:06:53.569,0:06:57.407 Zum Glück mussten wir keine Kameras[br]an unseren Köpfen anbringen 0:06:57.407,0:06:59.171 und viele Jahre warten. 0:06:59.171,0:07:00.634 Wir nutzten das Internet, 0:07:00.634,0:07:05.070 die größte Fundgrube für Bilder,[br]die die Menschheit erschaffen hat. 0:07:05.070,0:07:08.111 Wir haben fast eine Milliarde[br]Bilder heruntergeladen 0:07:08.111,0:07:13.751 und mithilfe von Crowdsourcing[br]wie der Amazon Mechanical Turk Plattform 0:07:13.751,0:07:16.330 all diese Bilder kategorisiert. 0:07:16.330,0:07:21.230 Zu Spitzenzeiten war ImageNet[br]einer der größten Arbeitgeber 0:07:21.230,0:07:24.226 für Amazon Mechanical Turk Mitarbeiter: 0:07:24.226,0:07:28.080 Insgesamt bekamen wir Hilfe[br]von fast 50.000 Arbeitern 0:07:28.080,0:07:32.120 aus 167 Ländern weltweit 0:07:32.120,0:07:36.067 beim Bereinigen, Sortieren und Benennen 0:07:36.067,0:07:39.642 von fast einer Milliarde Bildern. 0:07:40.612,0:07:43.265 Das zeigt, wieviel Aufwand nötig war, 0:07:43.265,0:07:47.165 um auch nur einen Bruchteil[br]der Bilder zu erfassen, 0:07:47.165,0:07:51.336 die ein Kind in den frühen Jahren[br]seiner Entwicklung verarbeitet. 0:07:51.908,0:07:56.050 Rückblickend wirkt die Idee,[br]riesengroße Datensätze zu nutzen, 0:07:56.050,0:08:00.420 um Computeralgorithmen zu trainieren,[br]absolut naheliegend. 0:08:00.420,0:08:04.500 Doch 2007 war das nicht so offensichtlich. 0:08:04.570,0:08:08.588 Wir waren auf dieser Reise[br]lange Zeit ziemlich allein. 0:08:08.588,0:08:13.591 Einige Kollegen rieten mir, mit meiner[br]Anstellung etwas Sinnvolleres zu tun 0:08:13.591,0:08:17.933 und wir kämpften ständig[br]um die Finanzierung der Forschung. 0:08:17.933,0:08:20.574 Einmal scherzte ich[br]mit meinen Studenten darüber, 0:08:20.574,0:08:24.481 meine alte Textilreinigung wieder[br]zu öffnen, um ImageNet zu finanzieren. 0:08:24.481,0:08:29.242 Immerhin hatte ich so auch[br]mein Studium finanziert. 0:08:29.242,0:08:31.098 Also machten wir weiter. 0:08:31.098,0:08:34.813 2009 lieferte das ImageNet-Projekt 0:08:34.813,0:08:38.855 eine Datenbank mit[br]über 15 Millionen Bildern, 0:08:38.855,0:08:43.659 die 22.000 Objektkategorien umfassten 0:08:43.659,0:08:46.980 und nach englischen[br]Alltagsbegriffen geordnet waren. 0:08:46.980,0:08:49.906 Sowohl quantitativ, als auch qualitativ 0:08:49.906,0:08:52.878 war das ein noch nie dagewesener Umfang. 0:08:52.878,0:08:56.339 Zurück zum Katzenbeispiel: 0:08:56.339,0:08:59.148 Wir haben mehr als 62.000 Katzen 0:08:59.148,0:09:03.258 mit verschiedenstem Aussehen[br]und in allerlei Posen 0:09:03.258,0:09:08.481 über alle Rassen von[br]Haus- und Wildkatzen hinweg. 0:09:08.481,0:09:11.825 Wir waren begeistert,[br]ImageNet aufgebaut zu haben, 0:09:11.825,0:09:15.563 und wollten, dass die ganze[br]Forschungswelt davon profitiert. 0:09:15.563,0:09:19.604 Ganz nach TED-Art machten wir daher[br]unseren kompletten Datensatz 0:09:19.604,0:09:23.196 für Wissenschaftler aus aller Welt[br]kostenlos verfügbar. 0:09:23.526,0:09:26.496 (Applaus) 0:09:29.416,0:09:33.954 Da wir nun die Daten haben,[br]um unser Computerhirn zu füttern, 0:09:33.954,0:09:37.691 können wir jetzt[br]zu den Algorithmen zurückkommen. 0:09:37.691,0:09:42.869 Es stellte sich heraus,[br]dass die Informationsfülle auf ImageNet 0:09:42.869,0:09:47.535 perfekt zu einer bestimmten Art[br]von Machine Learning-Algorithmen passte, 0:09:47.575,0:09:50.090 sogenannte "faltende neuronale Netzwerke", 0:09:50.090,0:09:55.338 entwickelt von Kunihiko Fukushima,[br]Geoff Hinton und Yann LeCun 0:09:55.338,0:09:58.983 und das schon in den 70er und 80er Jahren. 0:09:58.983,0:10:04.602 So wie unser Gehirn aus Milliarden von[br]stark vernetzten Neuronen besteht, 0:10:04.602,0:10:08.456 ist die einfachste Betriebseinheit[br]eines neuronalen Netzwerks 0:10:08.456,0:10:10.871 ein neuronenähnlicher Knotenpunkt. 0:10:10.871,0:10:13.425 Er erhält Input von anderen Knotenpunkten 0:10:13.425,0:10:16.143 und sendet Output an andere. 0:10:16.143,0:10:20.856 Zusätzlich sind diese hunderttausende[br]oder sogar Millionen von Knotenpunkten 0:10:20.856,0:10:24.083 in hierarchischen Schichten organisiert, 0:10:24.083,0:10:26.637 auch das ähnlich wie im Gehirn. 0:10:26.637,0:10:31.420 Ein typisches Neuronales Netz, das[br]unser Objekterkennungsmodell trainiert, 0:10:31.420,0:10:34.601 besitzt 24 Millionen Knotenpunkte, 0:10:34.601,0:10:37.668 140 Millionen Parameter 0:10:37.668,0:10:40.371 und 15 Milliarden Verbindungen. 0:10:40.371,0:10:43.076 Das ist ein riesiges Modell. 0:10:43.076,0:10:46.977 Dank der immensen Datenmenge von ImageNet 0:10:46.977,0:10:52.410 und der modernen CPUs und GPUs, auf denen[br]wir dieses gigantische Modell trainieren, 0:10:52.410,0:10:54.779 blühte das faltende neuronale Netzwerk 0:10:54.779,0:10:58.215 auf eine Weise auf,[br]die niemand erwartet hatte. 0:10:58.215,0:11:00.723 Es wurde die erfolgreichste Struktur, 0:11:00.723,0:11:06.063 um spannende neue Ergebnisse[br]in der Objekterkennung zu generieren. 0:11:06.063,0:11:08.873 Das ist ein Computer, der uns sagt, 0:11:08.873,0:11:11.173 dass auf diesem Bild[br]eine Katze zu sehen ist 0:11:11.173,0:11:13.076 und wo sich diese Katze befindet. 0:11:13.076,0:11:15.188 Natürlich gibt es noch mehr[br]als nur Katzen. 0:11:15.188,0:11:18.182 Hier sehen Sie einen[br]Computeralgorithmus, der uns sagt, 0:11:18.182,0:11:20.900 dass auf dem Bild ein Junge[br]und ein Teddybär sind; 0:11:20.900,0:11:25.266 hier ein Hund, eine Person[br]und ein kleiner Drachen im Hintergrund; 0:11:25.266,0:11:28.401 oder dieses sehr überladene Bild: 0:11:28.401,0:11:33.045 ein Mann, ein Skateboard,[br]Geländer, eine Laterne und so weiter. 0:11:33.045,0:11:39.398 Manchmal weiß der Computer[br]nicht genau, was er sieht, 0:11:39.408,0:11:42.153 und wir haben ihm beigebracht,[br]schlau genug zu sein, 0:11:42.153,0:11:45.652 uns eine sichere Antwort zu geben,[br]statt sich zu sehr festzulegen, 0:11:45.652,0:11:48.203 genau so wie wir es auch machen würden. 0:11:48.463,0:11:53.129 Manchmal ist der Algorithmus dagegen[br]bemerkenswert gut darin, uns zu sagen, 0:11:53.129,0:11:55.382 was genau die Objekte sind, 0:11:55.382,0:11:58.818 wie die Marke, das Modell[br]und das Baujahr eines Autos. 0:11:58.818,0:12:04.204 Wir haben diesen Algorithmus auf Millionen[br]von Google Street View Bilder angewendet 0:12:04.204,0:12:07.339 in hunderten amerikanischen Städten 0:12:07.339,0:12:10.265 und fanden dabei etwas[br]sehr Interessantes heraus: 0:12:10.265,0:12:13.585 Zunächst bestätigte sich unsere Vermutung, 0:12:13.585,0:12:16.875 dass Fahrzeugpreise in direktem Bezug 0:12:16.875,0:12:19.070 zu Haushaltseinkommen stehen. 0:12:19.070,0:12:23.747 Überraschenderweise korrelieren[br]die Fahrzeugpreise auch stark 0:12:23.747,0:12:26.047 mit den Kriminalitätsraten einer Stadt 0:12:27.007,0:12:30.970 oder den Wahlergebnissen[br]nach Postleitzahlen. 0:12:31.620,0:12:34.266 Aber Moment mal. War es das schon? 0:12:34.266,0:12:39.419 Sind Computer mit dem Menschen gleich[br]gezogen oder haben ihn sogar übertroffen? 0:12:39.419,0:12:41.557 Nicht so schnell. 0:12:41.557,0:12:46.480 Bisher haben wir dem Computer[br]lediglich beigebracht, Objekte zu sehen. 0:12:46.480,0:12:51.124 Das ist wie ein kleines Kind, das gerade[br]seine ersten Substantive zu sagen lernt. 0:12:51.124,0:12:53.794 Das ist eine beachtliche Leistung, 0:12:53.794,0:12:56.254 aber doch nur der erste Schritt. 0:12:56.254,0:13:00.016 Bald wird das nächste[br]Entwicklungsziel erreicht 0:13:00.016,0:13:03.477 und Kinder fangen an,[br]in ganzen Sätzen zu kommunizieren. 0:13:03.477,0:13:07.701 Anstatt zu sagen,[br]dass auf dem Bild eine Katze ist, 0:13:07.701,0:13:12.903 sagte uns das kleine Mädchen schon,[br]dass die Katze auf einem Bett liegt. 0:13:12.903,0:13:18.498 Um einem Computer beizubringen,[br]ein Bild zu sehen und Sätze zu bilden, 0:13:18.498,0:13:22.446 muss die Ehe zwischen Big Data[br]und dem Machine Learning-Algorithmus 0:13:22.446,0:13:24.491 den nächsten Schritt gehen. 0:13:24.491,0:13:28.877 Nun muss der Computer sowohl von Bildern 0:13:28.877,0:13:31.733 als auch von natürlichsprachlichen[br]Sätzen lernen, 0:13:31.733,0:13:34.885 die Menschen erzeugen. 0:13:35.055,0:13:38.908 Wie auch das Gehirn das Sehen[br]mit der Sprache verbindet, 0:13:38.908,0:13:44.109 entwickelten wir ein Modell,[br]das einen Teil der visuellen Dinge 0:13:44.109,0:13:46.013 wie visuelle Ausschnitte 0:13:46.013,0:13:50.216 mit Wörtern und Ausdrücken[br]in Sätzen vereint. 0:13:50.216,0:13:52.979 Vor etwa vier Monaten 0:13:52.979,0:13:55.626 haben wir das alles endlich[br]miteinander verbunden 0:13:55.626,0:13:59.410 und eines der ersten[br]Computer Vision-Modelle erzeugt, 0:13:59.410,0:14:03.404 das in der Lage ist, einen[br]menschenähnlichen Satz zu generieren, 0:14:03.404,0:14:06.910 wenn es ein Bild zum ersten Mal sieht. 0:14:06.910,0:14:11.554 Jetzt kann ich Ihnen zeigen,[br]was der Computer sagt, 0:14:11.554,0:14:13.529 wenn er die Bilder sieht, 0:14:13.529,0:14:17.359 die das kleine Mädchen am Anfang[br]dieser Präsentation sah. 0:14:19.099,0:14:22.443 (Video) Computer: Ein Mann steht[br]neben einem Elefanten. 0:14:24.393,0:14:28.027 Ein großes Flugzeug steht auf[br]einer Landebahn. 0:14:29.057,0:14:33.269 FFL: Natürlich arbeiten wir noch eifrig[br]daran, diese Algorithmen zu verbessern 0:14:33.269,0:14:35.685 und sie müssen noch immer viel lernen. 0:14:35.685,0:14:38.156 (Applaus) 0:14:39.536,0:14:42.857 Der Computer macht immer noch Fehler. 0:14:42.877,0:14:46.268 (Video) Computer: Eine Katze liegt[br]unter einer Decke auf dem Bett. 0:14:46.268,0:14:48.821 FFL: Wenn er zu viele Katzen sieht, 0:14:48.821,0:14:51.747 denkt er, alles könnte eine Katze sein. 0:14:53.317,0:14:56.431 (Video) Computer: Ein kleiner Junge[br]hält einen Baseballschläger. 0:14:56.431,0:14:57.946 (Lachen) 0:14:57.946,0:15:02.529 Wenn er noch nie eine Zahnbürste gesehen[br]hat, ist es für ihn ein Baseballschläger. 0:15:03.169,0:15:07.163 (Video) Computer: Ein Mann reitet[br]auf einem Pferd die Straße hinunter. 0:15:07.163,0:15:08.766 (Lachen) 0:15:08.766,0:15:12.711 FFL: Wir haben den Computern das[br]Konzept der Kunst noch nicht beigebracht. 0:15:13.768,0:15:16.652 (Video) Computer: Ein Zebra[br]steht auf einer Wiese. 0:15:16.652,0:15:20.991 FFL: Er hat die phantastische Schönheit[br]der Natur noch nicht schätzen gelernt, 0:15:20.991,0:15:22.457 so wie Sie und ich es tun. 0:15:22.637,0:15:25.289 Wir haben einen langen Weg hinter uns. 0:15:25.289,0:15:29.515 Es war schwer von null bis zu unserem[br]dritten Lebensjahr zu kommen. 0:15:29.515,0:15:35.111 Die echte Herausforderung ist es aber,[br]von 3 bis 13 und noch weiter zu kommen. 0:15:35.111,0:15:39.476 Erinnern Sie sich an das Bild[br]mit dem Jungen und dem Kuchen. 0:15:39.476,0:15:43.540 Bisher haben wir dem Computer[br]beigebracht, Objekte zu sehen 0:15:43.540,0:15:47.998 oder uns eine einfache Geschichte[br]zu den Bildern zu erzählen. 0:15:47.998,0:15:51.574 (Video) Computer: Eine Person sitzt[br]an einem Tisch mit einem Kuchen. 0:15:51.574,0:15:54.204 FFL: Aber es steckt[br]viel mehr in diesem Bild 0:15:54.204,0:15:56.474 als nur eine Person und ein Kuchen. 0:15:56.474,0:16:00.791 Der Computer erkennt nicht, dass es[br]ein spezieller italienischer Kuchen ist, 0:16:00.791,0:16:04.058 der nur zu Ostern gebacken wird. 0:16:04.158,0:16:07.363 Der Junge trägt sein Lieblingsshirt, 0:16:07.363,0:16:11.333 das ihm sein Vater von einer Reise[br]nach Sydney mitgebracht hat. 0:16:11.333,0:16:15.141 Sie und ich können sehen,[br]wie glücklich er ist 0:16:15.141,0:16:18.344 und was genau in diesem Moment[br]in seinem Kopf vor sich geht. 0:16:19.134,0:16:22.199 Das ist mein Sohn Leo. 0:16:22.269,0:16:24.963 Auf meiner Suche nach[br]visueller Intelligenz 0:16:24.963,0:16:27.354 denke ich ständig an Leo 0:16:27.354,0:16:30.077 und an die Welt der Zukunft,[br]in der er leben wird. 0:16:30.077,0:16:34.088 Wenn Maschinen sehen können,[br]werden Ärzte und Krankenschwestern 0:16:34.088,0:16:36.990 ein zusätzliches Paar[br]unermüdlicher Augen haben, 0:16:36.990,0:16:41.082 um ihnen bei der Diagnose[br]und Behandlung von Patienten zu helfen. 0:16:41.082,0:16:45.325 Autos werden klüger und sicherer[br]durch die Straßen fahren. 0:16:45.465,0:16:48.679 Roboter, nicht nur Menschen,[br]werden uns dabei helfen, 0:16:48.679,0:16:53.008 in Katastrophengebiete vorzudringen,[br]um Verschüttete und Verwundete zu retten. 0:16:53.538,0:16:57.594 Wir werden neue Arten[br]und bessere Materialien entdecken 0:16:57.594,0:17:02.103 und ungesehene Grenzen erkunden,[br]mit Hilfe von Maschinen. 0:17:03.113,0:17:07.280 Schritt für Schritt bringen wir[br]Maschinen das Sehen bei. 0:17:07.280,0:17:10.078 Erst bringen wir es ihnen bei. 0:17:10.078,0:17:12.840 Später helfen sie uns dabei,[br]besser zu sehen. 0:17:12.840,0:17:16.886 Zum ersten Mal werden unsere Augen[br]nicht die einzigen sein, 0:17:16.886,0:17:19.940 die unsere Welt studieren und erkunden. 0:17:19.940,0:17:23.540 Wir werden Maschinen nicht nur[br]wegen ihrer Intelligenz nutzen, 0:17:23.540,0:17:29.579 wir werden mit ihnen zusammenarbeiten,[br]wie es jetzt noch unvorstellbar scheint. 0:17:29.579,0:17:31.740 Das ist mein Ziel: 0:17:31.740,0:17:34.452 Ich möchte Computern[br]visuelle Intelligenz geben 0:17:34.452,0:17:39.583 und damit eine bessere Zukunft für Leo[br]und die ganze Welt gestalten. 0:17:39.583,0:17:41.394 Danke. 0:17:41.394,0:17:44.379 (Applaus)