Ich bin Teamleiter bei Google
im Bereich Maschinenintelligenz,
das ist die Ingenieurdisziplin,
mit der man Computern und Geräten
etwas von dem beibringen kann,
was Gehirne können.
Deshalb interessieren wir uns
auch für echte Gehirne
und Neurowissenschaften,
und besonders für die Dinge,
die unsere Gehirne können,
die noch weit über die Fähigkeiten
von Computern hinausgehen.
Ein Teilbereich unserer Arbeit war
schon immer die Wahrnehmung,
also der Vorgang, durch den
die Dinge auf der Welt --
Geräusche und Bilder --
in unserem Kopf zu Konzepten werden.
Das ist entscheidend für unsere Gehirne
und auch ziemlich nützlich für Computer.
Unser Team schreibt Algorithmen
für maschinelle Wahrnehmung,
die etwa ermöglichen, dass
Ihre Bilder auf Google Fotos
basierend auf dem Bildinhalt
gesucht werden können.
Das Gegenstück zur Wahrnehmung
ist die Kreativität,
also das Schaffen einer Sache
auf Grundlage eines Konzepts.
Letztes Jahr kam zwischen unserer
Arbeit an maschineller Wahrnehmung,
dem Feld der maschinellen Kreativität
sowie der maschinellen Kunst
unerwartet eine Verbindung zustande.
Ich glaube, Michelangelo hatte
einen scharfen Blick
für das duale Verhältnis zwischen
Wahrnehmung und Kreativität.
Ein berühmtes Zitat von ihm lautet:
"Jeder rohe Stein hat eine Figur in sich,
der Bildhauer muss sie nur entdecken."
Ich glaube, Michelangelo wollte sagen,
dass wir durch Wahrnehmung erschaffen.
Die Wahrnehmung ist
ein Akt der Vorstellung,
die Grundlage für Kreativität.
Das Organ, das all das Denken,
Wahrnehmen und Vorstellen erledigt,
ist natürlich das Gehirn.
Jetzt möchte ich kurz
historisch betrachten,
was wir über Gehirne wissen.
Denn anders als über
das Herz oder die Eingeweide
kann man nur durch Betrachten
nicht viel über Gehirne herausfinden,
zumindest nicht mit bloßem Auge.
Die ersten Anatomen,
die sich Gehirne ansahen,
gaben der oberflächlichen Struktur
eine ganze Reihe fantasievoller Namen,
wie Hippocampus, was
"kleiner Shrimp" bedeutet.
Doch so etwas verrät uns
natürlich nicht viel darüber,
was im Inneren wirklich vor sich geht.
Die erste Person, die meiner Meinung nach
wirklich eine Art Einblick
in die inneren Vorgänge
des Gehirns gewann,
war der große spanische Neuroanatom
Santiago Ramón y Cajal
im 19. Jahrhundert,
der mit Mikroskopie und Spezialfarbe
die einzelnen Gehirnzellen
selektiv ausfüllte
oder kontrastreich darstellte,
um die Morphologie
der Zellen zu verstehen.
Das sind die Zeichnungen,
die er im 19. Jahrhundert
von Neuronen anfertigte.
Diese zeigt ein Vogelgehirn.
Sie sehen eine unglaubliche
Vielfalt verschiedener Zellarten.
Sogar die Zelltheorie selbst
war damals ziemlich neu.
Diese Strukturen,
diese verzweigten Zellen,
diese Äste, die sehr,
sehr weit reichen können --
das war damals völlig neu.
Sie erinnern ganz klar an Kabel.
Das mag für manch einen im 19. Jh.
offensichtlich gewesen sein,
als gerade die Revolution
der Elektrizität und Verkabelung begann.
Doch in vielerlei Hinsicht
wurden Ramón y Cajals
mikroanatomische Zeichnungen
wie diese hier, nie wirklich übertroffen.
Jetzt, mehr als hundert Jahre später,
versuchen wir immer noch,
Ramón y Cajals Werk zu vollenden.
Das sind die Rohdaten unserer Mitarbeiter
am Max-Planck-Institut für Neurobiologie.
Unsere Mitarbeiter bilden also
kleine Teile von Gehirngewebe ab.
Diese ganze Probe hier misst
ungefähr einen Kubikmillimeter.
Hier zeige ich Ihnen
ein winziges Stück davon.
Der Strich links misst circa ein Mikron.
Die Strukturen, die Sie sehen,
sind Mitochondrien,
die so groß wie Bakterien sind.
Das sind aufeinanderfolgende Schnitte
durch diesen sehr, sehr
dünnen Gewebeblock.
Nur zum Vergleich,
der Durchmesser einer durchschnittlichen
Haarsträhne beträgt circa 100 Mikronen.
Wir sehen hier also etwas
noch viel kleineres
als eine einzelne Haarsträhne.
Basierend auf den Serien aus
Elektronenmikroskopscheiben
kann man 3D-Nachbildungen
von Neuronen wie diese hier erstellen.
Diese haben in etwa den Stil
von Ramón y Cajal.
Nur ein paar Neutronen leuchten,
weil wir hier sonst nichts sehen könnten.
Es wäre so unübersichtlich,
so überfüllt mit Kabelstrukturen,
die die Neuronen verbinden.
Ramón y Cajal war seiner Zeit
also etwas voraus.
Die Fortschritte beim
Verstehen des Gehirns
geschahen in den folgenden
Jahrzehnten nur langsam.
Aber wir wussten,
dass Neuronen Elektrizität nutzen.
Im Zweiten Weltkrieg
war unsere Technologie
für elektronische Experimente
an lebenden Neuronen
zur Erforschung ihrer
Funktionsweise ausgereift genug.
Genau damals wurden auch
Computer erfunden,
hauptsächlich auf Basis von
Nachbildungen des Gehirns --
"intelligente Maschinen",
wie sie Alan Turing nannte,
einer der Urväter der Infomatik.
Warren McCulloch und Walter Pitts
betrachteten Ramón y Cajals Zeichnung
eines visuellen Cortex,
die ich Ihnen hier zeige.
Das ist der Cortex, der Bilder
verarbeitet, die das Auge sieht.
Sie fanden, dass es
wie ein Schaltplan aussah.
Im Schaltplan von McCulloch
und Pitts gibt es viele Details,
die nicht ganz stimmen.
Doch der Grundgedanke,
dass der visuelle Cortex wie eine
Reihe Computerelemente funktioniert,
die Informationen stufenartig
nacheinander weiterreichen,
stimmt im Grunde.
Besprechen wir kurz,
was ein Modell für die Verarbeitung
visueller Informationen machen müsste.
Die Grundaufgabe der Wahrnehmung ist es,
bei einem solchen Bild zu sagen:
"Das ist ein Vogel",
für unsere Gehirne ist das sehr einfach.
Sie müssen aber bedenken,
dass das für einen Computer
noch vor ein paar Jahren
völlig unmöglich war.
Für ein klassisches Rechensystem
ist das nicht einfach.
Was zwischen den Pixeln,
dem Bild eines Vogels
und dem Wort "Vogel" passiert,
ist im Grunde eine Gruppe
miteinander verbundener Neuronen
in einem neuronalen Netzwerk,
wie in meinem Diagramm.
Dieses neuronale Netzwerk kann
ein natürliches in unserer Sehrinde sein.
Heute können wir beginnen,
solche neuronalen Netzwerke
in Computern nachbauen.
Ich gebe Ihnen eine Vorstellung davon.
Die Pixel können Sie sich als
erste Neuronenschicht vorstellen.
Genau so funktioniert das
im Prinzip auch im Auge --
mit den Neuronen in der Netzhaut.
Die Neuronen leiten weiter,
Schicht für Schicht
durch die Neuronenschichten,
die alle über Synapsen verschiedener
Gewichtung verbunden sind.
Das Verhalten dieses Netzwerks
wird durch die Stärke
all dieser Synapsen bestimmt.
Diese bestimmen die rechnerischen
Eigenschaften des Netzwerks.
Schlussendlich leuchtet dann ein Neuron
oder eine kleine Gruppe Neuronen auf
und sagt "Vogel".
Jetzt werde ich diese drei Dinge --
die Pixel als Input, die Synapsen
im neuronalen Netzwerk
und den Vogel als Output
durch drei Variablen ersetzen: x, w und y.
Es kann eine Million x geben --
eine Million Pixel in einem Bild.
Es gibt Milliarden oder Billiarden w,
die für die Gewichtung der Synapsen
im neuronalen Netzwerk stehen.
Es gibt nur ganz wenige y,
also Outputs des Netzwerks.
"Vogel" hat nur fünf Buchstaben.
Dann tun wir doch einfach so,
als sei es nur eine einfache Formel:
x "x" w = y.
Ich setze das "Mal"-Zeichen
in Anführungszeichen,
denn der eigentliche Vorgang hier
ist eine komplizierte Abfolge
mathematischer Vorgänge.
Das ist eine Gleichung.
Es gibt drei Variablen.
Bekanntlich kann man eine Variable
einer Gleichung lösen,
wenn man die anderen beiden kennt.
Das Problem mit der Schlussfolgerung,
also das Herausfinden,
dass das Bild einen Vogel zeigt,
ist das folgende:
Y ist unbekannt,
und w und x sind bekannt.
Wir kennen das neuronale
Netzwerk und die Pixel.
Es scheint ein recht
einfaches Problem zu sein.
Wir rechnen zwei mal drei und sind fertig.
Ich zeige Ihnen jetzt ein neu entwickeltes
künstliches neuronales Netzwerk,
das genau das tut.
Es läuft in Echtzeit
auf einem Mobiltelefon,
und das an sich ist
natürlich schon erstaunlich,
dass Mobiltelefone so viele
Milliarden und Billiarden Vorgänge
pro Sekunde verarbeiten können.
Sie sehen hier ein Telefon,
das Bilder von einem Vogel
nacheinander ansieht,
und sogar nicht nur
"Ja, es ist ein Vogel" sagt,
sondern mit einem solchen Netzwerk
auch die Vogelart bestimmt.
Bei diesem Bild
kennen wir das x und das w,
und das y ist unbekannt.
Ich lasse hier natürlich
den schwierigen Teil aus,
also wie um alles in der Welt
wir das w finden können,
wie das Gehirn so etwas kann.
Wie können wir jemals
so ein Modell erlernen?
Wenn wir diesen Lernvorgang,
also wie man nach w auflösen kann,
wenn wir das bei der
einfachen Gleichung anwenden,
in der wir sie uns als Zahlen vorstellen,
wissen wir genau, was zu tun ist:
6 = 2 x w,
wir teilen durch zwei und fertig.
Das Problem ist dieses Rechenzeichen.
Division --
wir wählen die Division, weil sie
das Gegenteil der Multiplikation ist,
aber wie gesagt,
Mulitplikation stimmt hier nicht ganz.
Es handelt sich um einen sehr
komplizierten, nichtlinearen Vorgang
ohne Umkehrung.
Wir müssen also herausfinden,
wie wir die Gleichung
ohne Divisionszeichen lösen können.
Eigentlich ist es ganz einfach:
Wir zaubern einfach
ein wenig mit der Algebra.
Wir ziehen die 6 auf
die rechte Seite der Gleichung.
Wir multiplizieren immer noch.
Diese Null -- betrachten
wir einfach als Fehler.
Anders gesagt, wenn wir
korrekt nach w auflösen,
dann ist der Fehler null.
Wenn wir einen Fehler machen,
ist der Fehler größer als null.
Jetzt können wir einfach raten,
um den Fehler zu minimieren.
Computer können das ausgezeichnet.
Sie raten also ins Blaue:
Was, wenn w = 0?
Dann ist der Fehler 6.
Wenn w = 1? Dann ist der Fehler 4.
Dann kann der Computer Marco Polo spielen
und den Fehler gegen Null gehen lassen.
Dabei nähert er sich immer mehr dem w an.
Meist schafft er es nicht ganz,
aber nach ungefähr einem Dutzend Schritten
liegen wir bei w = 2,999,
und das ist genau genug.
Das ist der Lernprozess.
Erinnern Sie sich daran,
dass wir gerade viele bekannte x
und bekannte y genommen haben.
Wir lösten das w in der Mitte
durch ein Wiederholungsverfahren.
Genauso lernen auch wir.
Als Babys sehen wir sehr viele Bilder.
Jemand sagt: "Das ist ein Vogel;
das ist kein Vogel."
Mit der Zeit und durch Wiederholung
lösen wir nach w und diesen
neuronalen Verbindungen auf.
Jetzt haben wir mit x und w
nach y aufgelöst.
Die alltägliche, schnelle Wahrnehmung.
Herauszufinden, wie man
nach w auflösen kann,
ist Lernen und viel schwerer,
weil wir die Fehler
nur über viele Übungsbeispiele
minimieren können.
Vor ungefähr einem Jahr
wollte Alex Mordvintsev
aus unserem Team herausfinden,
was passiert, wenn wir nach x auflösen
und w und y bekannt sind.
Anders ausgedrückt:
Sie wissen, dass es ein Vogel ist.
Ihr neuronales Netzwerk
ist schon auf Vögel trainiert,
doch was ist das Bild eines Vogels?
Tatsächlich kann man die gleiche
Fehlerminimierungsstrategie
bei Netzwerken zum Erkennen
von Vögeln anwenden.
Das Ergebnis ist ...
ein Bild von Vögeln.
Dieses Bild von Vögeln wurde von einem
neuronalen Netzwerk erschaffen,
das auf das Vogelerkennen trainiert wurde,
und zwar nur durch Auflösen nach x,
nicht durch Auflösen nach y.
All das passiert durch Wiederholungen.
Noch ein lustiges Beispiel.
Dies ist die Arbeit unseres
Teammitglieds Mike Tyka,
der es "Animal Parade" nennt.
Es erinnert mich etwas an
Kunstwerke von William Kentridge,
der Skizzen macht, sie dann wegradiert,
Skizzen macht, sie wegradiert,
und so einen Film erschafft.
In diesem Fall
setzt Mike für y verschiedene Tiere
in ein Netzwerk ein,
das verschiedene Tiere
erkennen und unterscheiden kann.
Heraus kommt dieser seltsame
Übergang von Tier zu Tier im Stil Eschers.
Hier haben Mike und Alex
gemeinsam versucht,
das y auf nur zwei
Dimensionen einzuschränken
und so eine Karte von
allen Dingen im Raum zu erstellen,
die dieses Netzwerk erkennt.
Durch diese Darstellung
oder Bildgenerierung
auf der gesamten Oberfläche,
wobei y auf der Oberfläche variiert,
wird eine Art Karte erstellt --
eine visuelle Karte all der Dinge,
die das Netzwerk erkennen kann.
Alle Tiere sind da, "armadillo"
ist genau an dieser Stelle.
Dasselbe kann man auch
mit anderen Netzwerken machen.
Dieses Netzwerk erkennt Gesichter
und unterscheidet sie voneinander.
Hier setzten wir
ein y ein, das "ich" sagt,
also die Parameter meines Gesichts.
Wenn das Netzwerk nach x auflöst,
generiert es dieses verrückte,
kubistisch angehauchte, surreale,
psychedelische Bild von mir
aus verschiedenen Blickwinkeln.
Es wirkt wie eine Betrachtung
aus verschiedenen Blickwinkeln,
weil das Netzwerk so aufgebaut ist,
dass es die Vieldeutigkeit umgehen kann,
die durch Gesichter in verschiedenen Posen
oder verschiedene Belichtungen entsteht.
Wenn man bei dieser Art Rekonstruktion
nun keinerlei Musterbild
oder Hilfsstatistiken verwendet,
vermischen sich die Ansichten
aus den verschiedenen Blickwinkeln
aufgrund der Vieldeutigkeit.
Das passert, wenn Alex
während des Optimierungsprozesses
zur Rekonstruktion meines Gesichts
sein eigenes Gesicht als Muster verwendet.
Sie sehen also, es ist nicht perfekt.
Wir müssen noch hart arbeiten,
um diesen Optimierungsprozess
optimieren zu können.
Aber langsam entstehen
stimmigere Gesichter,
da mein Gesicht als Muster diente.
Man muss nicht bei Null
oder weißem Rauschen beginnen.
Wenn man nach x auflöst,
kann man mit einem x anfangen,
das selbst schon ein anderes Bild ist.
Das soll diese Vorführung zeigen.
Das ist ein Netzwerk,
das verschiedenste Objekte --
menschgemachte Strukturen, Tiere usw. --
kategorisieren können soll.
Wir beginnen nur mit einem Wolkenbild,
und während der Optimierung
findet das Netzwerk quasi heraus,
was es in den Wolken sieht.
Je länger man zusieht,
desto mehr sieht man in den Wolken.
Man kann mit dem Gesichtsnetzwerk
Halluzinationen einfügen,
und ganz schön verrücktes Zeug machen.
(Lachen)
Mike hat noch mehr Experimente gemacht,
bei denen er ein Wolkenbild nimmt,
halluziniert, heranzoomt, halluziniert,
heranzoomt, halluziniert und zoomt.
Auf diese Weise kann man vielleicht
eine Art Fluchtzustand des Netzwerks
oder eine Art freie Assoziation erzeugen,
bei der sich das Netzwerk selbst
in den Schwanz beißt.
Jedes Bild ist nun die Grundlage für:
"Was glaube ich, als nächstes zu sehen?
Was erwarte ich als nächstes,
und danach und danach?"
Öffentlich habe ich dies das erste Mal
einer Vorlesungsgruppe namens
"Higher Education" in Seattle gezeigt,
kurz nachdem Marihuana legalisiert wurde.
(Lachen)
Ich möchte nun zum Ende kommen
und festhalten, dass dieser Technologie
keine Grenzen gesetzt sind.
Ich habe Ihnen nur visuelle Beispiele
gezeigt, einfach, weil es Spaß macht.
Aber es ist keine
rein visuelle Technologie.
Ross Goodwin, künstlerischer Mitarbeiter,
hat Experimente gemacht, bei denen
eine Kamera ein Bild schießt
und ein Comuter in seinem Rucksack
ein Gedicht mit einem neuronalen Netzwerk
basierend auf dem Bildinhalt schreibt.
Trainiert wurde das neuronale
Gedichtenetzwerk mit den Werken
der Dichtungen des 20. Jahrhunderts.
Die Gedichte sind, naja,
also ich finde sie gar nicht so schlecht.
(Lachen)
Zurück zu
Michelangelo,
ich denke, der lag richtig:
Wahrnehmung und Kreativität
sind sehr eng miteinander verbunden.
Gerade haben wir
neuronale Netzwerke gesehen,
die nur darauf trainiert sind,
verschiedene Dinge
zu unterscheiden oder zu erkennen,
und umgekehrt werden können,
um etwas zu erschaffen.
Daraus schließe ich nicht nur,
dass Michelangelo die Skulptur
im Stein wirklich sehen konnte,
sondern auch, dass jedes Wesen,
jedes Geschöpf, jedes Alien,
das zu solchen Wahrnehmungen fähig ist,
auch Dinge erschaffen kann,
denn in beiden Fällen kommt die
gleiche Maschinerie zum Einsatz.
Ich denke auch,
dass keinesfalls nur Menschen
wahrnehmen und kreativ sein können.
Langsam gibt es Computermodelle,
die genau das Gleiche können.
Das sollte keine Überraschung sein,
denn das Gehirn basiert auf Rechnen.
Schließlich entstanden Computer
aus den Versuchen,
intelligente Maschinen zu bauen.
Sie sind Modelle unserer
Vorstellung dessen,
wie wir Maschinen
intelligent machen können.
Jetzt erfüllen wir langsam
ein paar der Versprechen
der ersten Vorreiter,
von Turing und von Neumann
und McCulloch und Pitts.
Ich denke, beim Rechnen
geht es nicht nur um Buchhaltung
oder Candy Crush oder so etwas.
Von Anfang an haben wir sie als
Abbild unseres Verstands gebaut.
Mit ihnen können wir unseren
eigenen Verstand besser verstehen
und unsere Fähigkeiten erweitern.
Vielen Dank.
(Applaus)