1 00:00:00,800 --> 00:00:03,924 Ich bin Teamleiter bei Google im Bereich Maschinenintelligenz, 2 00:00:03,948 --> 00:00:08,598 das ist die Ingenieurdisziplin, mit der man Computern und Geräten 3 00:00:08,622 --> 00:00:11,431 etwas von dem beibringen kann, was Gehirne können. 4 00:00:11,439 --> 00:00:14,532 Deshalb interessieren wir uns auch für echte Gehirne 5 00:00:14,532 --> 00:00:15,901 und Neurowissenschaften, 6 00:00:15,901 --> 00:00:20,047 und besonders für die Dinge, die unsere Gehirne können, 7 00:00:20,071 --> 00:00:24,443 die noch weit über die Fähigkeiten von Computern hinausgehen. 8 00:00:25,209 --> 00:00:28,818 Ein Teilbereich unserer Arbeit war schon immer die Wahrnehmung, 9 00:00:28,842 --> 00:00:31,881 also der Vorgang, durch den die Dinge auf der Welt -- 10 00:00:31,905 --> 00:00:33,489 Geräusche und Bilder -- 11 00:00:33,513 --> 00:00:35,931 in unserem Kopf zu Konzepten werden. 12 00:00:36,235 --> 00:00:38,752 Das ist entscheidend für unsere Gehirne 13 00:00:38,776 --> 00:00:41,650 und auch ziemlich nützlich für Computer. 14 00:00:41,650 --> 00:00:44,986 Unser Team schreibt Algorithmen für maschinelle Wahrnehmung, 15 00:00:45,010 --> 00:00:48,158 die etwa ermöglichen, dass Ihre Bilder auf Google Fotos 16 00:00:48,158 --> 00:00:51,275 basierend auf dem Bildinhalt gesucht werden können. 17 00:00:51,594 --> 00:00:55,087 Das Gegenstück zur Wahrnehmung ist die Kreativität, 18 00:00:55,111 --> 00:00:58,143 also das Schaffen einer Sache auf Grundlage eines Konzepts. 19 00:00:58,143 --> 00:01:01,748 Letztes Jahr kam zwischen unserer Arbeit an maschineller Wahrnehmung, 20 00:01:01,752 --> 00:01:06,305 dem Feld der maschinellen Kreativität sowie der maschinellen Kunst 21 00:01:06,305 --> 00:01:08,085 unerwartet eine Verbindung zustande. 22 00:01:08,086 --> 00:01:11,840 Ich glaube, Michelangelo hatte einen scharfen Blick 23 00:01:11,864 --> 00:01:15,520 für das duale Verhältnis zwischen Wahrnehmung und Kreativität. 24 00:01:16,023 --> 00:01:18,029 Ein berühmtes Zitat von ihm lautet: 25 00:01:18,053 --> 00:01:21,376 "Jeder rohe Stein hat eine Figur in sich, 26 00:01:22,036 --> 00:01:25,038 der Bildhauer muss sie nur entdecken." 27 00:01:26,029 --> 00:01:29,245 Ich glaube, Michelangelo wollte sagen, 28 00:01:29,269 --> 00:01:32,449 dass wir durch Wahrnehmung erschaffen. 29 00:01:32,453 --> 00:01:35,516 Die Wahrnehmung ist ein Akt der Vorstellung, 30 00:01:35,520 --> 00:01:38,181 die Grundlage für Kreativität. 31 00:01:38,691 --> 00:01:42,616 Das Organ, das all das Denken, Wahrnehmen und Vorstellen erledigt, 32 00:01:42,640 --> 00:01:44,608 ist natürlich das Gehirn. 33 00:01:45,089 --> 00:01:47,944 Jetzt möchte ich kurz historisch betrachten, 34 00:01:47,958 --> 00:01:50,080 was wir über Gehirne wissen. 35 00:01:50,436 --> 00:01:52,792 Denn anders als über das Herz oder die Eingeweide 36 00:01:52,792 --> 00:01:56,180 kann man nur durch Betrachten nicht viel über Gehirne herausfinden, 37 00:01:56,180 --> 00:01:57,976 zumindest nicht mit bloßem Auge. 38 00:01:57,983 --> 00:02:00,399 Die ersten Anatomen, die sich Gehirne ansahen, 39 00:02:00,423 --> 00:02:04,230 gaben der oberflächlichen Struktur eine ganze Reihe fantasievoller Namen, 40 00:02:04,254 --> 00:02:06,687 wie Hippocampus, was "kleiner Shrimp" bedeutet. 41 00:02:06,711 --> 00:02:09,475 Doch so etwas verrät uns natürlich nicht viel darüber, 42 00:02:09,499 --> 00:02:12,227 was im Inneren wirklich vor sich geht. 43 00:02:12,780 --> 00:02:16,393 Die erste Person, die meiner Meinung nach wirklich eine Art Einblick 44 00:02:16,417 --> 00:02:18,417 in die inneren Vorgänge des Gehirns gewann, 45 00:02:18,447 --> 00:02:22,291 war der große spanische Neuroanatom Santiago Ramón y Cajal 46 00:02:22,315 --> 00:02:23,859 im 19. Jahrhundert, 47 00:02:23,883 --> 00:02:27,638 der mit Mikroskopie und Spezialfarbe 48 00:02:27,662 --> 00:02:31,832 die einzelnen Gehirnzellen selektiv ausfüllte 49 00:02:31,856 --> 00:02:33,864 oder kontrastreich darstellte, 50 00:02:33,888 --> 00:02:37,042 um die Morphologie der Zellen zu verstehen. 51 00:02:37,872 --> 00:02:39,537 Das sind die Zeichnungen, 52 00:02:39,537 --> 00:02:42,116 die er im 19. Jahrhundert von Neuronen anfertigte. 53 00:02:42,120 --> 00:02:44,004 Diese zeigt ein Vogelgehirn. 54 00:02:44,028 --> 00:02:47,219 Sie sehen eine unglaubliche Vielfalt verschiedener Zellarten. 55 00:02:47,239 --> 00:02:50,538 Sogar die Zelltheorie selbst war damals ziemlich neu. 56 00:02:50,538 --> 00:02:54,166 Diese Strukturen, diese verzweigten Zellen, 57 00:02:54,166 --> 00:02:56,761 diese Äste, die sehr, sehr weit reichen können -- 58 00:02:56,765 --> 00:02:58,428 das war damals völlig neu. 59 00:02:58,779 --> 00:03:01,682 Sie erinnern ganz klar an Kabel. 60 00:03:01,706 --> 00:03:05,163 Das mag für manch einen im 19. Jh. offensichtlich gewesen sein, 61 00:03:05,187 --> 00:03:09,501 als gerade die Revolution der Elektrizität und Verkabelung begann. 62 00:03:09,964 --> 00:03:11,212 Doch in vielerlei Hinsicht 63 00:03:11,226 --> 00:03:14,423 wurden Ramón y Cajals mikroanatomische Zeichnungen 64 00:03:14,423 --> 00:03:16,835 wie diese hier, nie wirklich übertroffen. 65 00:03:16,859 --> 00:03:18,713 Jetzt, mehr als hundert Jahre später, 66 00:03:18,737 --> 00:03:21,562 versuchen wir immer noch, Ramón y Cajals Werk zu vollenden. 67 00:03:21,586 --> 00:03:24,720 Das sind die Rohdaten unserer Mitarbeiter 68 00:03:24,744 --> 00:03:27,625 am Max-Planck-Institut für Neurobiologie. 69 00:03:27,649 --> 00:03:30,009 Unsere Mitarbeiter bilden also 70 00:03:30,009 --> 00:03:34,464 kleine Teile von Gehirngewebe ab. 71 00:03:34,488 --> 00:03:37,814 Diese ganze Probe hier misst ungefähr einen Kubikmillimeter. 72 00:03:37,838 --> 00:03:40,459 Hier zeige ich Ihnen ein winziges Stück davon. 73 00:03:40,483 --> 00:03:42,823 Der Strich links misst circa ein Mikron. 74 00:03:42,823 --> 00:03:45,322 Die Strukturen, die Sie sehen, sind Mitochondrien, 75 00:03:45,322 --> 00:03:47,304 die so groß wie Bakterien sind. 76 00:03:47,304 --> 00:03:49,475 Das sind aufeinanderfolgende Schnitte 77 00:03:49,475 --> 00:03:52,077 durch diesen sehr, sehr dünnen Gewebeblock. 78 00:03:52,101 --> 00:03:54,504 Nur zum Vergleich, 79 00:03:54,528 --> 00:03:58,320 der Durchmesser einer durchschnittlichen Haarsträhne beträgt circa 100 Mikronen. 80 00:03:58,344 --> 00:04:00,618 Wir sehen hier also etwas noch viel kleineres 81 00:04:00,642 --> 00:04:02,070 als eine einzelne Haarsträhne. 82 00:04:02,070 --> 00:04:06,095 Basierend auf den Serien aus Elektronenmikroskopscheiben 83 00:04:06,119 --> 00:04:11,127 kann man 3D-Nachbildungen von Neuronen wie diese hier erstellen. 84 00:04:11,131 --> 00:04:14,292 Diese haben in etwa den Stil von Ramón y Cajal. 85 00:04:14,292 --> 00:04:15,874 Nur ein paar Neutronen leuchten, 86 00:04:15,878 --> 00:04:18,623 weil wir hier sonst nichts sehen könnten. 87 00:04:18,623 --> 00:04:19,965 Es wäre so unübersichtlich, 88 00:04:19,989 --> 00:04:22,299 so überfüllt mit Kabelstrukturen, 89 00:04:22,299 --> 00:04:24,437 die die Neuronen verbinden. 90 00:04:25,293 --> 00:04:28,097 Ramón y Cajal war seiner Zeit also etwas voraus. 91 00:04:28,121 --> 00:04:30,676 Die Fortschritte beim Verstehen des Gehirns 92 00:04:30,700 --> 00:04:33,461 geschahen in den folgenden Jahrzehnten nur langsam. 93 00:04:33,461 --> 00:04:36,308 Aber wir wussten, dass Neuronen Elektrizität nutzen. 94 00:04:36,332 --> 00:04:38,752 Im Zweiten Weltkrieg war unsere Technologie 95 00:04:38,752 --> 00:04:42,058 für elektronische Experimente an lebenden Neuronen 96 00:04:42,058 --> 00:04:44,708 zur Erforschung ihrer Funktionsweise ausgereift genug. 97 00:04:44,708 --> 00:04:48,987 Genau damals wurden auch Computer erfunden, 98 00:04:49,011 --> 00:04:52,111 hauptsächlich auf Basis von Nachbildungen des Gehirns -- 99 00:04:52,135 --> 00:04:55,220 "intelligente Maschinen", wie sie Alan Turing nannte, 100 00:04:55,244 --> 00:04:57,235 einer der Urväter der Infomatik. 101 00:04:57,923 --> 00:05:02,555 Warren McCulloch und Walter Pitts betrachteten Ramón y Cajals Zeichnung 102 00:05:02,579 --> 00:05:03,896 eines visuellen Cortex, 103 00:05:03,920 --> 00:05:05,482 die ich Ihnen hier zeige. 104 00:05:05,506 --> 00:05:09,948 Das ist der Cortex, der Bilder verarbeitet, die das Auge sieht. 105 00:05:10,424 --> 00:05:13,932 Sie fanden, dass es wie ein Schaltplan aussah. 106 00:05:14,353 --> 00:05:18,188 Im Schaltplan von McCulloch und Pitts gibt es viele Details, 107 00:05:18,212 --> 00:05:19,564 die nicht ganz stimmen. 108 00:05:19,588 --> 00:05:20,823 Doch der Grundgedanke, 109 00:05:20,837 --> 00:05:24,899 dass der visuelle Cortex wie eine Reihe Computerelemente funktioniert, 110 00:05:24,899 --> 00:05:27,819 die Informationen stufenartig nacheinander weiterreichen, 111 00:05:27,819 --> 00:05:29,235 stimmt im Grunde. 112 00:05:29,239 --> 00:05:31,629 Besprechen wir kurz, 113 00:05:31,633 --> 00:05:36,235 was ein Modell für die Verarbeitung visueller Informationen machen müsste. 114 00:05:36,235 --> 00:05:39,269 Die Grundaufgabe der Wahrnehmung ist es, 115 00:05:39,269 --> 00:05:43,187 bei einem solchen Bild zu sagen: 116 00:05:43,211 --> 00:05:44,387 "Das ist ein Vogel", 117 00:05:44,411 --> 00:05:47,285 für unsere Gehirne ist das sehr einfach. 118 00:05:47,309 --> 00:05:50,730 Sie müssen aber bedenken, dass das für einen Computer 119 00:05:50,754 --> 00:05:53,825 noch vor ein paar Jahren völlig unmöglich war. 120 00:05:53,825 --> 00:05:55,961 Für ein klassisches Rechensystem 121 00:05:55,961 --> 00:05:58,312 ist das nicht einfach. 122 00:05:59,366 --> 00:06:01,918 Was zwischen den Pixeln, 123 00:06:01,942 --> 00:06:05,970 dem Bild eines Vogels und dem Wort "Vogel" passiert, 124 00:06:05,994 --> 00:06:08,758 ist im Grunde eine Gruppe miteinander verbundener Neuronen 125 00:06:08,772 --> 00:06:10,167 in einem neuronalen Netzwerk, 126 00:06:10,177 --> 00:06:11,274 wie in meinem Diagramm. 127 00:06:11,274 --> 00:06:14,880 Dieses neuronale Netzwerk kann ein natürliches in unserer Sehrinde sein. 128 00:06:14,880 --> 00:06:16,816 Heute können wir beginnen, 129 00:06:16,816 --> 00:06:19,844 solche neuronalen Netzwerke in Computern nachbauen. 130 00:06:19,844 --> 00:06:22,187 Ich gebe Ihnen eine Vorstellung davon. 131 00:06:22,211 --> 00:06:25,647 Die Pixel können Sie sich als erste Neuronenschicht vorstellen. 132 00:06:25,651 --> 00:06:28,084 Genau so funktioniert das im Prinzip auch im Auge -- 133 00:06:28,094 --> 00:06:29,697 mit den Neuronen in der Netzhaut. 134 00:06:29,737 --> 00:06:31,101 Die Neuronen leiten weiter, 135 00:06:31,125 --> 00:06:34,512 Schicht für Schicht durch die Neuronenschichten, 136 00:06:34,512 --> 00:06:37,605 die alle über Synapsen verschiedener Gewichtung verbunden sind. 137 00:06:37,609 --> 00:06:39,124 Das Verhalten dieses Netzwerks 138 00:06:39,124 --> 00:06:42,252 wird durch die Stärke all dieser Synapsen bestimmt. 139 00:06:42,256 --> 00:06:45,594 Diese bestimmen die rechnerischen Eigenschaften des Netzwerks. 140 00:06:45,594 --> 00:06:47,772 Schlussendlich leuchtet dann ein Neuron 141 00:06:47,772 --> 00:06:50,009 oder eine kleine Gruppe Neuronen auf 142 00:06:50,009 --> 00:06:51,430 und sagt "Vogel". 143 00:06:51,824 --> 00:06:54,956 Jetzt werde ich diese drei Dinge -- 144 00:06:54,980 --> 00:06:59,676 die Pixel als Input, die Synapsen im neuronalen Netzwerk 145 00:06:59,700 --> 00:07:01,285 und den Vogel als Output 146 00:07:01,309 --> 00:07:04,366 durch drei Variablen ersetzen: x, w und y. 147 00:07:04,853 --> 00:07:06,664 Es kann eine Million x geben -- 148 00:07:06,688 --> 00:07:08,641 eine Million Pixel in einem Bild. 149 00:07:08,665 --> 00:07:11,111 Es gibt Milliarden oder Billiarden w, 150 00:07:11,135 --> 00:07:14,556 die für die Gewichtung der Synapsen im neuronalen Netzwerk stehen. 151 00:07:14,580 --> 00:07:16,455 Es gibt nur ganz wenige y, 152 00:07:16,479 --> 00:07:18,337 also Outputs des Netzwerks. 153 00:07:18,361 --> 00:07:20,360 "Vogel" hat nur fünf Buchstaben. 154 00:07:21,088 --> 00:07:24,514 Dann tun wir doch einfach so, als sei es nur eine einfache Formel: 155 00:07:24,538 --> 00:07:26,541 x "x" w = y. 156 00:07:26,575 --> 00:07:28,941 Ich setze das "Mal"-Zeichen in Anführungszeichen, 157 00:07:28,965 --> 00:07:31,065 denn der eigentliche Vorgang hier 158 00:07:31,089 --> 00:07:34,625 ist eine komplizierte Abfolge mathematischer Vorgänge. 159 00:07:35,172 --> 00:07:36,393 Das ist eine Gleichung. 160 00:07:36,417 --> 00:07:38,063 Es gibt drei Variablen. 161 00:07:38,063 --> 00:07:42,219 Bekanntlich kann man eine Variable einer Gleichung lösen, 162 00:07:42,219 --> 00:07:45,145 wenn man die anderen beiden kennt. 163 00:07:45,145 --> 00:07:48,472 Das Problem mit der Schlussfolgerung, 164 00:07:48,472 --> 00:07:51,435 also das Herausfinden, dass das Bild einen Vogel zeigt, 165 00:07:51,459 --> 00:07:52,733 ist das folgende: 166 00:07:52,757 --> 00:07:56,216 Y ist unbekannt, und w und x sind bekannt. 167 00:07:56,240 --> 00:07:58,569 Wir kennen das neuronale Netzwerk und die Pixel. 168 00:07:58,593 --> 00:08:01,974 Es scheint ein recht einfaches Problem zu sein. 169 00:08:02,004 --> 00:08:04,260 Wir rechnen zwei mal drei und sind fertig. 170 00:08:04,862 --> 00:08:08,385 Ich zeige Ihnen jetzt ein neu entwickeltes künstliches neuronales Netzwerk, 171 00:08:08,385 --> 00:08:09,645 das genau das tut. 172 00:08:09,645 --> 00:08:12,494 Es läuft in Echtzeit auf einem Mobiltelefon, 173 00:08:12,518 --> 00:08:15,831 und das an sich ist natürlich schon erstaunlich, 174 00:08:15,855 --> 00:08:19,107 dass Mobiltelefone so viele Milliarden und Billiarden Vorgänge 175 00:08:19,107 --> 00:08:20,595 pro Sekunde verarbeiten können. 176 00:08:20,619 --> 00:08:22,234 Sie sehen hier ein Telefon, 177 00:08:22,258 --> 00:08:25,789 das Bilder von einem Vogel nacheinander ansieht, 178 00:08:25,789 --> 00:08:28,564 und sogar nicht nur "Ja, es ist ein Vogel" sagt, 179 00:08:28,568 --> 00:08:32,329 sondern mit einem solchen Netzwerk auch die Vogelart bestimmt. 180 00:08:32,890 --> 00:08:34,660 Bei diesem Bild 181 00:08:34,660 --> 00:08:38,542 kennen wir das x und das w, und das y ist unbekannt. 182 00:08:38,566 --> 00:08:41,074 Ich lasse hier natürlich den schwierigen Teil aus, 183 00:08:41,098 --> 00:08:44,959 also wie um alles in der Welt wir das w finden können, 184 00:08:44,983 --> 00:08:47,170 wie das Gehirn so etwas kann. 185 00:08:47,194 --> 00:08:49,378 Wie können wir jemals so ein Modell erlernen? 186 00:08:49,418 --> 00:08:52,651 Wenn wir diesen Lernvorgang, also wie man nach w auflösen kann, 187 00:08:52,675 --> 00:08:55,322 wenn wir das bei der einfachen Gleichung anwenden, 188 00:08:55,346 --> 00:08:57,346 in der wir sie uns als Zahlen vorstellen, 189 00:08:57,370 --> 00:09:00,057 wissen wir genau, was zu tun ist: 6 = 2 x w, 190 00:09:00,081 --> 00:09:03,393 wir teilen durch zwei und fertig. 191 00:09:04,001 --> 00:09:06,821 Das Problem ist dieses Rechenzeichen. 192 00:09:06,823 --> 00:09:07,974 Division -- 193 00:09:07,998 --> 00:09:11,379 wir wählen die Division, weil sie das Gegenteil der Multiplikation ist, 194 00:09:11,379 --> 00:09:12,583 aber wie gesagt, 195 00:09:12,607 --> 00:09:15,056 Mulitplikation stimmt hier nicht ganz. 196 00:09:15,080 --> 00:09:18,406 Es handelt sich um einen sehr komplizierten, nichtlinearen Vorgang 197 00:09:18,430 --> 00:09:20,134 ohne Umkehrung. 198 00:09:20,158 --> 00:09:22,032 Wir müssen also herausfinden, 199 00:09:22,032 --> 00:09:25,356 wie wir die Gleichung ohne Divisionszeichen lösen können. 200 00:09:25,380 --> 00:09:27,723 Eigentlich ist es ganz einfach: 201 00:09:27,747 --> 00:09:30,418 Wir zaubern einfach ein wenig mit der Algebra. 202 00:09:30,442 --> 00:09:33,348 Wir ziehen die 6 auf die rechte Seite der Gleichung. 203 00:09:33,372 --> 00:09:35,198 Wir multiplizieren immer noch. 204 00:09:35,675 --> 00:09:39,255 Diese Null -- betrachten wir einfach als Fehler. 205 00:09:39,279 --> 00:09:41,794 Anders gesagt, wenn wir korrekt nach w auflösen, 206 00:09:41,818 --> 00:09:43,474 dann ist der Fehler null. 207 00:09:43,498 --> 00:09:45,436 Wenn wir einen Fehler machen, 208 00:09:45,460 --> 00:09:47,209 ist der Fehler größer als null. 209 00:09:47,233 --> 00:09:50,599 Jetzt können wir einfach raten, um den Fehler zu minimieren. 210 00:09:50,623 --> 00:09:53,310 Computer können das ausgezeichnet. 211 00:09:53,334 --> 00:09:54,531 Sie raten also ins Blaue: 212 00:09:54,531 --> 00:09:56,611 Was, wenn w = 0? Dann ist der Fehler 6. 213 00:09:56,625 --> 00:09:58,841 Wenn w = 1? Dann ist der Fehler 4. 214 00:09:58,841 --> 00:10:01,232 Dann kann der Computer Marco Polo spielen 215 00:10:01,256 --> 00:10:03,623 und den Fehler gegen Null gehen lassen. 216 00:10:03,647 --> 00:10:07,021 Dabei nähert er sich immer mehr dem w an. 217 00:10:07,045 --> 00:10:10,701 Meist schafft er es nicht ganz, aber nach ungefähr einem Dutzend Schritten 218 00:10:10,725 --> 00:10:15,349 liegen wir bei w = 2,999, und das ist genau genug. 219 00:10:16,302 --> 00:10:18,116 Das ist der Lernprozess. 220 00:10:18,140 --> 00:10:20,694 Erinnern Sie sich daran, 221 00:10:20,694 --> 00:10:25,272 dass wir gerade viele bekannte x und bekannte y genommen haben. 222 00:10:25,296 --> 00:10:28,970 Wir lösten das w in der Mitte durch ein Wiederholungsverfahren. 223 00:10:28,970 --> 00:10:32,330 Genauso lernen auch wir. 224 00:10:32,354 --> 00:10:34,584 Als Babys sehen wir sehr viele Bilder. 225 00:10:34,608 --> 00:10:37,701 Jemand sagt: "Das ist ein Vogel; das ist kein Vogel." 226 00:10:37,714 --> 00:10:39,812 Mit der Zeit und durch Wiederholung 227 00:10:39,836 --> 00:10:43,104 lösen wir nach w und diesen neuronalen Verbindungen auf. 228 00:10:43,460 --> 00:10:47,270 Jetzt haben wir mit x und w nach y aufgelöst. 229 00:10:47,270 --> 00:10:49,447 Die alltägliche, schnelle Wahrnehmung. 230 00:10:49,447 --> 00:10:51,744 Herauszufinden, wie man nach w auflösen kann, 231 00:10:51,748 --> 00:10:53,265 ist Lernen und viel schwerer, 232 00:10:53,265 --> 00:10:54,524 weil wir die Fehler 233 00:10:54,524 --> 00:10:56,881 nur über viele Übungsbeispiele minimieren können. 234 00:10:56,881 --> 00:10:58,285 Vor ungefähr einem Jahr 235 00:10:58,285 --> 00:11:01,106 wollte Alex Mordvintsev aus unserem Team herausfinden, 236 00:11:01,106 --> 00:11:03,636 was passiert, wenn wir nach x auflösen 237 00:11:03,660 --> 00:11:05,697 und w und y bekannt sind. 238 00:11:06,074 --> 00:11:06,995 Anders ausgedrückt: 239 00:11:06,995 --> 00:11:08,651 Sie wissen, dass es ein Vogel ist. 240 00:11:08,675 --> 00:11:12,268 Ihr neuronales Netzwerk ist schon auf Vögel trainiert, 241 00:11:12,268 --> 00:11:14,596 doch was ist das Bild eines Vogels? 242 00:11:15,034 --> 00:11:20,058 Tatsächlich kann man die gleiche Fehlerminimierungsstrategie 243 00:11:20,082 --> 00:11:23,512 bei Netzwerken zum Erkennen von Vögeln anwenden. 244 00:11:23,536 --> 00:11:26,924 Das Ergebnis ist ... 245 00:11:30,400 --> 00:11:32,105 ein Bild von Vögeln. 246 00:11:32,724 --> 00:11:36,545 Dieses Bild von Vögeln wurde von einem neuronalen Netzwerk erschaffen, 247 00:11:36,545 --> 00:11:38,621 das auf das Vogelerkennen trainiert wurde, 248 00:11:38,621 --> 00:11:41,857 und zwar nur durch Auflösen nach x, nicht durch Auflösen nach y. 249 00:11:41,857 --> 00:11:43,835 All das passiert durch Wiederholungen. 250 00:11:43,835 --> 00:11:45,579 Noch ein lustiges Beispiel. 251 00:11:45,603 --> 00:11:49,040 Dies ist die Arbeit unseres Teammitglieds Mike Tyka, 252 00:11:49,064 --> 00:11:51,372 der es "Animal Parade" nennt. 253 00:11:51,396 --> 00:11:54,272 Es erinnert mich etwas an Kunstwerke von William Kentridge, 254 00:11:54,296 --> 00:11:56,819 der Skizzen macht, sie dann wegradiert, 255 00:11:56,819 --> 00:11:58,249 Skizzen macht, sie wegradiert, 256 00:11:58,263 --> 00:11:59,691 und so einen Film erschafft. 257 00:11:59,715 --> 00:12:00,866 In diesem Fall 258 00:12:00,890 --> 00:12:04,177 setzt Mike für y verschiedene Tiere in ein Netzwerk ein, 259 00:12:04,191 --> 00:12:08,163 das verschiedene Tiere erkennen und unterscheiden kann. 260 00:12:08,163 --> 00:12:12,762 Heraus kommt dieser seltsame Übergang von Tier zu Tier im Stil Eschers. 261 00:12:14,221 --> 00:12:18,729 Hier haben Mike und Alex gemeinsam versucht, 262 00:12:18,729 --> 00:12:21,618 das y auf nur zwei Dimensionen einzuschränken 263 00:12:21,642 --> 00:12:25,080 und so eine Karte von allen Dingen im Raum zu erstellen, 264 00:12:25,104 --> 00:12:26,823 die dieses Netzwerk erkennt. 265 00:12:26,847 --> 00:12:28,734 Durch diese Darstellung 266 00:12:28,734 --> 00:12:31,276 oder Bildgenerierung auf der gesamten Oberfläche, 267 00:12:31,280 --> 00:12:34,466 wobei y auf der Oberfläche variiert, wird eine Art Karte erstellt -- 268 00:12:34,466 --> 00:12:37,621 eine visuelle Karte all der Dinge, die das Netzwerk erkennen kann. 269 00:12:37,621 --> 00:12:40,910 Alle Tiere sind da, "armadillo" ist genau an dieser Stelle. 270 00:12:40,919 --> 00:12:43,438 Dasselbe kann man auch mit anderen Netzwerken machen. 271 00:12:43,452 --> 00:12:46,296 Dieses Netzwerk erkennt Gesichter 272 00:12:46,320 --> 00:12:48,320 und unterscheidet sie voneinander. 273 00:12:48,344 --> 00:12:51,593 Hier setzten wir ein y ein, das "ich" sagt, 274 00:12:51,617 --> 00:12:53,292 also die Parameter meines Gesichts. 275 00:12:53,312 --> 00:12:54,922 Wenn das Netzwerk nach x auflöst, 276 00:12:54,946 --> 00:12:57,564 generiert es dieses verrückte, 277 00:12:57,588 --> 00:13:02,016 kubistisch angehauchte, surreale, psychedelische Bild von mir 278 00:13:02,040 --> 00:13:03,846 aus verschiedenen Blickwinkeln. 279 00:13:03,870 --> 00:13:06,824 Es wirkt wie eine Betrachtung aus verschiedenen Blickwinkeln, 280 00:13:06,824 --> 00:13:10,485 weil das Netzwerk so aufgebaut ist, dass es die Vieldeutigkeit umgehen kann, 281 00:13:10,485 --> 00:13:13,295 die durch Gesichter in verschiedenen Posen 282 00:13:13,295 --> 00:13:16,215 oder verschiedene Belichtungen entsteht. 283 00:13:16,239 --> 00:13:18,318 Wenn man bei dieser Art Rekonstruktion 284 00:13:18,318 --> 00:13:22,222 nun keinerlei Musterbild oder Hilfsstatistiken verwendet, 285 00:13:22,222 --> 00:13:25,676 vermischen sich die Ansichten aus den verschiedenen Blickwinkeln 286 00:13:25,700 --> 00:13:27,448 aufgrund der Vieldeutigkeit. 287 00:13:27,786 --> 00:13:32,009 Das passert, wenn Alex während des Optimierungsprozesses 288 00:13:32,033 --> 00:13:36,274 zur Rekonstruktion meines Gesichts sein eigenes Gesicht als Muster verwendet. 289 00:13:36,284 --> 00:13:38,612 Sie sehen also, es ist nicht perfekt. 290 00:13:38,636 --> 00:13:40,064 Wir müssen noch hart arbeiten, 291 00:13:40,064 --> 00:13:43,257 um diesen Optimierungsprozess optimieren zu können. 292 00:13:43,257 --> 00:13:45,838 Aber langsam entstehen stimmigere Gesichter, 293 00:13:45,862 --> 00:13:48,396 da mein Gesicht als Muster diente. 294 00:13:48,892 --> 00:13:51,087 Man muss nicht bei Null 295 00:13:51,097 --> 00:13:52,573 oder weißem Rauschen beginnen. 296 00:13:52,597 --> 00:13:53,901 Wenn man nach x auflöst, 297 00:13:53,925 --> 00:13:57,814 kann man mit einem x anfangen, das selbst schon ein anderes Bild ist. 298 00:13:57,838 --> 00:14:00,394 Das soll diese Vorführung zeigen. 299 00:14:00,418 --> 00:14:03,784 Das ist ein Netzwerk, das verschiedenste Objekte -- 300 00:14:03,784 --> 00:14:07,683 menschgemachte Strukturen, Tiere usw. -- kategorisieren können soll. 301 00:14:07,707 --> 00:14:10,300 Wir beginnen nur mit einem Wolkenbild, 302 00:14:10,324 --> 00:14:11,995 und während der Optimierung 303 00:14:12,019 --> 00:14:16,505 findet das Netzwerk quasi heraus, was es in den Wolken sieht. 304 00:14:16,931 --> 00:14:19,251 Je länger man zusieht, 305 00:14:19,275 --> 00:14:22,548 desto mehr sieht man in den Wolken. 306 00:14:23,004 --> 00:14:26,323 Man kann mit dem Gesichtsnetzwerk Halluzinationen einfügen, 307 00:14:26,323 --> 00:14:28,545 und ganz schön verrücktes Zeug machen. 308 00:14:28,545 --> 00:14:29,589 (Lachen) 309 00:14:30,401 --> 00:14:33,145 Mike hat noch mehr Experimente gemacht, 310 00:14:33,169 --> 00:14:37,074 bei denen er ein Wolkenbild nimmt, 311 00:14:37,078 --> 00:14:40,695 halluziniert, heranzoomt, halluziniert, heranzoomt, halluziniert und zoomt. 312 00:14:40,695 --> 00:14:42,400 Auf diese Weise kann man vielleicht 313 00:14:42,400 --> 00:14:45,479 eine Art Fluchtzustand des Netzwerks 314 00:14:45,503 --> 00:14:48,867 oder eine Art freie Assoziation erzeugen, 315 00:14:48,867 --> 00:14:51,434 bei der sich das Netzwerk selbst in den Schwanz beißt. 316 00:14:51,458 --> 00:14:54,879 Jedes Bild ist nun die Grundlage für: 317 00:14:54,903 --> 00:14:56,804 "Was glaube ich, als nächstes zu sehen? 318 00:14:56,814 --> 00:14:59,531 Was erwarte ich als nächstes, und danach und danach?" 319 00:14:59,531 --> 00:15:02,423 Öffentlich habe ich dies das erste Mal 320 00:15:02,447 --> 00:15:07,884 einer Vorlesungsgruppe namens "Higher Education" in Seattle gezeigt, 321 00:15:07,908 --> 00:15:10,725 kurz nachdem Marihuana legalisiert wurde. 322 00:15:10,725 --> 00:15:12,784 (Lachen) 323 00:15:14,627 --> 00:15:16,731 Ich möchte nun zum Ende kommen 324 00:15:16,755 --> 00:15:21,010 und festhalten, dass dieser Technologie keine Grenzen gesetzt sind. 325 00:15:21,034 --> 00:15:24,699 Ich habe Ihnen nur visuelle Beispiele gezeigt, einfach, weil es Spaß macht. 326 00:15:24,723 --> 00:15:27,174 Aber es ist keine rein visuelle Technologie. 327 00:15:27,198 --> 00:15:29,191 Ross Goodwin, künstlerischer Mitarbeiter, 328 00:15:29,215 --> 00:15:32,886 hat Experimente gemacht, bei denen eine Kamera ein Bild schießt 329 00:15:32,910 --> 00:15:37,254 und ein Comuter in seinem Rucksack ein Gedicht mit einem neuronalen Netzwerk 330 00:15:37,294 --> 00:15:39,112 basierend auf dem Bildinhalt schreibt. 331 00:15:39,136 --> 00:15:42,577 Trainiert wurde das neuronale Gedichtenetzwerk mit den Werken 332 00:15:42,587 --> 00:15:44,351 der Dichtungen des 20. Jahrhunderts. 333 00:15:44,365 --> 00:15:45,864 Die Gedichte sind, naja, 334 00:15:45,888 --> 00:15:47,862 also ich finde sie gar nicht so schlecht. 335 00:15:47,862 --> 00:15:49,210 (Lachen) 336 00:15:49,234 --> 00:15:50,523 Zurück zu 337 00:15:50,523 --> 00:15:52,433 Michelangelo, 338 00:15:52,433 --> 00:15:53,881 ich denke, der lag richtig: 339 00:15:53,881 --> 00:15:57,617 Wahrnehmung und Kreativität sind sehr eng miteinander verbunden. 340 00:15:57,617 --> 00:16:00,245 Gerade haben wir neuronale Netzwerke gesehen, 341 00:16:00,269 --> 00:16:01,912 die nur darauf trainiert sind, 342 00:16:01,912 --> 00:16:04,838 verschiedene Dinge zu unterscheiden oder zu erkennen, 343 00:16:04,862 --> 00:16:08,023 und umgekehrt werden können, um etwas zu erschaffen. 344 00:16:08,047 --> 00:16:09,830 Daraus schließe ich nicht nur, 345 00:16:09,854 --> 00:16:14,752 dass Michelangelo die Skulptur im Stein wirklich sehen konnte, 346 00:16:14,752 --> 00:16:18,390 sondern auch, dass jedes Wesen, jedes Geschöpf, jedes Alien, 347 00:16:18,414 --> 00:16:22,071 das zu solchen Wahrnehmungen fähig ist, 348 00:16:22,075 --> 00:16:23,490 auch Dinge erschaffen kann, 349 00:16:23,494 --> 00:16:26,718 denn in beiden Fällen kommt die gleiche Maschinerie zum Einsatz. 350 00:16:26,742 --> 00:16:30,558 Ich denke auch, dass keinesfalls nur Menschen 351 00:16:30,588 --> 00:16:32,508 wahrnehmen und kreativ sein können. 352 00:16:32,532 --> 00:16:36,240 Langsam gibt es Computermodelle, die genau das Gleiche können. 353 00:16:36,264 --> 00:16:39,692 Das sollte keine Überraschung sein, denn das Gehirn basiert auf Rechnen. 354 00:16:39,702 --> 00:16:41,273 Schließlich entstanden Computer 355 00:16:41,297 --> 00:16:45,965 aus den Versuchen, intelligente Maschinen zu bauen. 356 00:16:45,989 --> 00:16:48,451 Sie sind Modelle unserer Vorstellung dessen, 357 00:16:48,475 --> 00:16:51,488 wie wir Maschinen intelligent machen können. 358 00:16:51,512 --> 00:16:53,674 Jetzt erfüllen wir langsam 359 00:16:53,698 --> 00:16:56,104 ein paar der Versprechen der ersten Vorreiter, 360 00:16:56,128 --> 00:16:57,841 von Turing und von Neumann 361 00:16:57,865 --> 00:17:00,130 und McCulloch und Pitts. 362 00:17:00,154 --> 00:17:04,252 Ich denke, beim Rechnen geht es nicht nur um Buchhaltung 363 00:17:04,276 --> 00:17:06,423 oder Candy Crush oder so etwas. 364 00:17:06,447 --> 00:17:09,515 Von Anfang an haben wir sie als Abbild unseres Verstands gebaut. 365 00:17:09,519 --> 00:17:12,432 Mit ihnen können wir unseren eigenen Verstand besser verstehen 366 00:17:12,442 --> 00:17:14,631 und unsere Fähigkeiten erweitern. 367 00:17:14,631 --> 00:17:15,914 Vielen Dank. 368 00:17:15,914 --> 00:17:20,337 (Applaus)