36C3 Vorspannmusik
Herald: Ich freue mich ganz besonders,
jetzt den nächsten Vortrag ankündigen zu
können, der zwei Themen vereint, die ich
beide interessant finde. Zwar geht es zum
einen um Machine Learning, im Speziellen
Deep Learning, aber auch gleichzeitig um
Nachhaltigkeit. Wie das Ganze verbunden
werden kann und ob vielleicht der Deep
Learning Hype irgendwie doch zu groß ist,
erklären uns Nadja Geisler und Benjamin
Hättasch, die an der TU Darmstadt arbeiten
und forschen oder irgendwo zwischendrin
sind. Und deswegen will ich jetzt gar
nicht weiter groß reden und freue mich auf
den Talk. Herzlich willkommen, Nadja und
Benjamin!
Applaus
Nadja Geisler: Herzlichen Dank! Hallo
erstmal und schön, dass wir hier sein
können, schön das ihr alle hier seid. Wir
freuen uns wirklich wahnsinnig. Es ist für
uns beide auch der erste Kongress, und das
ist etwas ganz Besonderes dann auch gleich
hier oben zu stehen. Ich bin Nadja und wie
er schon gesagt hat, bin ich mit dem
Master-Studium an der TU Darmstadt fertig
und werde wahrscheinlich demnächst dort
anfangen zu promovieren.
Benjamin Hättasch: Ich mache das schon
seit zwei Jahren und habe festgestellt:
Ich will mich nicht nur damit
beschäftigen, irgendwie toll Deep Learning
anzuwenden, sondern ein bisschen drüber
nachzudenken, was das alles so bedeutet.
Und weil wir da einiges herausgefunden
haben, sind wir heute hier, um euch das
auch zu erzählen.
Nadja: Unser Talk ist so zustande
gekommen, dass wir das 36C3 Motto gesehen
haben und uns dachten: Nachhaltigkeit
vereint doch eigentlich mehrere Aspekte,
die wir schon immer spannend fanden, was
das Thema Deep Learning und maschinelles
Lernen angeht. Aspekte, die sich unter dem
Stichwort zusammenfassen lassen, obwohl
sie an sich sehr unterschiedlich sind und
mit dem wir uns in verschiedene Art schon
beschäftigt hatten. Zu den Aspekten wollen
wir euch heute was erzählen, weil gerade
das Thema Nachhaltigkeit momentan
besonders aktuell, besonders wichtig und
besonders relevant für unsere Zukunft ist.
Bevor wir aber auf die drei verschiedenen
Ebenen von Nachhaltigkeit, über die wir
reden wollen, eingehen, das ist die
wissenschaftliche Ebene, die
gesellschaftliche Ebene und die Umwelt-
Ebene, müssen wir zuerst klären: Wovon
reden wir, wenn wir Deep Learning sagen?
Was sind die absoluten Basics für das, was
wir die nächsten 30, 45 Minuten reden
werden? Was müsst ihr wissen, damit wir
euch gut mitnehmen können? Und das wollen
wir jetzt machen. Das beinhaltet unter
anderem: was meinen Sie damit, wenn wir
Deep Learning sagen? Wie funktioniert das
auf einer intuitiven Ebene, nicht so sehr
auf einer detailreichen technischen Ebene?
Und wozu wird das aktuell jetzt schon
angewendet? Und wenn Deep Learning sagen,
dann vor allem dieses Konstrukt, was sich
dann neuronales Netz nennt, Artificial
Neural Network auf Englisch. Das sind so
Machine Learning Konstrukte, die es schon
sehr lange gibt, die dann zwischendurch
mal eine starke Flaute in der Beliebtheit
haben, weil sie eben doch nicht die
Ergebnisse gebracht haben, die man sich
erhofft hatte. Inzwischen sind sie wieder
extrem beliebt, um alle möglichen
Probleme, Aufgaben im maschinellen Lernen
anzugehen. Dabei bezeichnet ein neuronales
Netz im Wesentlichen eine Verknüpfung von
Knoten. Diese Knoten können je nach
Architektur verschieden miteinander
vernetzt und durch verschiedene
mathematische Funktionen verbunden sein.
Jeder Knoten wiederum repräsentiert
eigentlich nur eine nichtlineare
Berechnungsfunktion. So weit, so logisch.
Wir berechnen also sehr, sehr viel. Und
wenn diese Gewichte zwischen den
Berechnungen erst einmal fertig bestimmt
sind, sprich wenn das neuronale Netz
trainiert ist, dann lässt sich für jede
numerische Eingabe, die man im Netz gibt,
auch eine entsprechende Ausgabe bestimmen.
Diese Ausgabe macht dann Aussagen über
irgendwelche Größen, über irgendwelche
Klassifizierungen oder irgendwelche
Zuordnungen. Die wichtigste Voraussetzung
für viele, wenn auch nicht alle Arten von
neuronalen Netzen, sind entsprechende
Trainingsdaten und die auch noch in großer
Menge. Ob diese Trainingsdaten gelabelt
sein müssen, also so etwas wie schon eine
Bezeichnung der eigentlichen Zielgröße
haben müssen vorher oder nicht, das kann
unterschiedlich sein, ist aber an der
Stelle auch gar nicht so relevant. Was wir
brauchen, sind wahrscheinlich sehr, sehr
viele Daten, wenn wir mit neuronalen
Netzwerken arbeiten wollen. Anhand dieser
Daten, die möglichst vielfältig, möglichst
repräsentativ sein sollten für die spätere
Wirklichkeit oder das, was wir dann damit
bearbeiten und einfangen wollen, daran
wird das Modell gelernt. Um das Modell
später einzusetzen, das sieht man hier
ganz gut, wenn man einmal von links nach
rechts schaut, braucht man zunächst
Inputdaten. Die müssen in einem
numerischen Format sein. Wie man da
hinkommt? Das sind sehr viele verschiedene
Methoden, aber an dieser Stelle auch gar
nicht so weit relevant. Diese Inputdaten
gehen dann zu diesen Knoten, zu den
Neuronen, und jedes Neuron repräsentiert
irgendwo an bestimmte eine bestimmte
Eigenschaft, ein bestimmtes Feature. Bei
einer Bilderkennung könnte das eine Kante
sein oder eine Ecke oder ein
Helligkeitsunterschied, ganz verschiedene
Dinge. Je weiter wir in das neuronalen
Netz reingehen, je tiefer die Ebenen
werden, desto höher-levelig sind die
Eigenschaften, die wir repräsentieren. Das
Problem bei der ganzen Sache ist
normalerweise, dass wir gar nicht so genau
wissen, was dieses Neuron repräsentiert.
Bei einem Algorithmus, der Bilder
klassifiziert, der zum Beispiel Hunde und
Wölfe voneinander entscheiden kann, können
wir uns nicht ein Neuron anschauen und
können sagen: Aha! Das da schaut, ob da
eine Kante ist, die einen Schwanz
repräsentieren könnte. Sondern es sind für
uns einfach irgendwelche Zahlenwerte, die
wir nicht weiter interpretieren können.
Das bedeutet, wir haben Black Box Modelle.
Wir verstehen also nicht im Detail,
welches Gewicht wofür steht, was wir
eigentlich gelernt haben. Und im
Endeffekt, wenn ein Input reingeht, warum
der Output rauskommt, der am Ende
tatsächlich herauskommt. Das bildet also
im Prinzip die Basis für alle Systeme, die
irgendwie als Teil von Deep Learning
bezeichnet werden.
Benjamin: Was wir da an der Stelle also
haben, ist: Wir nehmen Mathe, wir nehmen
große Mengen von Daten und wenden einfach
Tricks aus der Statistik an. Wir nutzen
aus, dass bestimmte Dinge, wenn man es nur
oft genug betrachtet, wenn man es nur oft
genug anwendet, durchführt, dann eine
gewisse Systematik ergeben, dass man
Muster erkennen kann. Wir generalisieren.
Wie man hier also sieht, werden einfach
Tricks übernommen, die es in der Statistik
schon seit vielen hundert Jahren gibt. Und
dafür angewandt, um jetzt irgendwie zu
versuchen, aus einem Haufen Daten, ohne
ihn wirklich zu verstehen, ohne genau zu
wissen, was da drinsteckt, einfach durch
schiere Masse, Muster zu erkennen und
dann hoffentlich zu wissen: Okay, wenn ich
jetzt weit genug generalisiert habe, wird
mein System schon irgendwie gut genug sein
für mein Anwendungszweck. Das hat aber,
obwohl der Name Deep Learning und
Künstliche Intelligenz, alles nicht so
wahnsinnig viel damit zu tun, was wir als
Intelligenz verstehen, was wir als Lernen
verstehen. Der Tweet hier fasst das ganz
gut zusammen. Er sagt, das menschliche
Hirn funktioniert ganz anders. Wenn das
menschliche Hirn so wie Deep Learning
funktionieren würde, dann müssten wir
einfach 200 mal ins Gesicht geschlagen
werden, bevor wir überhaupt raffen, dass
wir das nicht mögen. So ist das
tatsächlich wenn ich bei Deep Learning,
wenn ich ihm 50, 100, 200 Wölfe und Hunde
zeige, dann weiß das System noch gar
nichts, weil es nicht schnell genug
interpretieren kann, nicht genug Kontext-
Informationen einbeziehen kann, nicht
genug von all dem nutzen können, was das
menschliche Hirn, was wir können, wenn wir
irgendwas machen, um irgendwie
Entscheidungen zu treffen. Und das ist ein
großes Problem. Warum genau, werden wir
gleich nochmal im Detail besprechen. Sorgt
aber dafür, dass wir einfach nur auf Masse
gehen und dadurch einfach eine bestimmte
Genauigkeit so leicht nicht erreichen
können, wie wir sie gerne hätten.
Nadja: Die intuitive Ursprungsidee hinter
neuronalen Netzen war tatsächlich mal
sozusagen die Funktionalität des Gehirns
nachzubauen. Unsere Neuronen feuern auch,
sind miteinander vernetzt, können
irgendwelche Dinge auslösen. Das ist aber
heutzutage nicht mehr wie Neuronale Netze
funktionieren. Wir bilden damit nicht
wirklich die Funktion organischer Gehirne
nach, sondern und das war zwar die
Intuition dahinter, das funktioniert aber
tatsächlich sehr anders. Der für uns
interessante Teil ist aber inzwischen, wie
wird das Ganze eigentlich angewendet, wo
begegnet uns das im Alltag, nicht nur in
Forschungslabors, nicht nur in
akademischen Institutionen, sondern auch
tatsächlich in Systemen, die wir jeden Tag
benutzen, die inzwischen weit verbreitet
sind. Mit allen Nach- und Vorteilen, nach
der großen Flaute, von der wir es eben
schon kurz hatten, erlebt das Feld gerade
wieder ein riesiges Hoch, und sie sind in
so vielen Bereichen im Einsatz, dass einen
kurzen Überblick davon zu verschaffen
quasi unmöglich ist. Extrem weit
verbreitet sind Sachen wie
Sprachassistenten. In den letzten Jahren
Siri, Alexa, Echo, all das. Sie müssen so
etwas können, wie Sprachverarbeitung, die
müssen so etwas können wie
Textverarbeitung, die müssen
Sprachsynthese beherrschen, sie müssen
auch irgendwo Information Retrieval
beherrschen und tatsächlich auch die
Informationen aus dem riesigen
Informationscluster, der das Internet nun
mal ist, hervorzuholen. Aber auch weit
verbreitet durch solche Unternehmen wie
Tesla oder Uber sind inzwischen die
Bereiche des autonomen Fahrens oder
generell des autonomen Transports, die
sich dann eher mit vielleicht
Bilderkennung bearbeiten müssen, mit
Navigation, mit Fein-Kontrolle an
motorischen Bauteilen etc. Nicht ganz so
offensichtlich, aber dennoch, wenn man
darüber nachdenkt oder wenn man es gesagt
bekommt, dann doch sehr gut sichtbar: Für
alle Menschen im Alltag sind
Recommendation Systems, so etwas wie
"Amazon Kunden kauften auch", "Sie könnte
interessieren", alles, was uns irgendwie
Vorschläge generiert. Die Sortierung von
Google Ergebnissen oder generell von
Suchmaschinen, wie mir Ergebnisse
angezeigt werden, was wie gerankt wird.
Aber auch sowas wie, was zeigt mir mein
Facebook Newsfeed überhaupt an? Wer
bekommt was, wann und wie oft zu sehen?
Das ist bei weitem nicht so
straightforward, nicht so offensichtlich,
wie sich das viele Leute denken. Deutlich
weniger bekannt sind dann schon Systeme,
die sowas wie
Rückfälligkeitseinschätzungen für
straffällig gewordene machen, die in
Gerichtsverfahren dazu verwendet werden,
um anhand von irgendwelchen Scores
Strafmaße zu vergeben. Das geschieht in
den USA schon seit Jahren. Aber auch
Sachen, die anhand von Gesichtserkennung
versuchen, verdächtige Personen zu
identifizieren, oder die Scoring
Algorithmen, die für irgendwelche sozialen
Systeme verwendet werden oder zur
Einschätzung für Versicherungen verwendet
werden. Aber auch Einstellungsverfahren,
die anhand von Stichwörtern, von
Lebensläufen, noch bevor jemals jemand auf
die Unterlagen drauf geschaut hat,
Kandidatinnen aussortieren.
Benjamin: Diese Systeme arbeiten auch da
wieder so, dass wir häufig nicht
verstehen, genau was sie tun. Teilweise
so, dass man im Nachhinein denkt: Um
Gottes Willen, wie können die so
funktionieren? Das heißt, sowohl diese
Einstellung bei Gesichtsinterpretation
oder für Bewerbungsverfahren, wo ein 15
sekündiges Video analysiert wird,
übernimmt regelmäßig solche Systeme wie,
wir messen jetzt Abstand zwischen Augen,
Nase, Mund, was weiß ich, was wir leider,
wenn man ganz ehrlich ist, kennen aus
irgendwelcher Genetik, die die Nazis
betrieben haben, um irgendwelche
überlegenen Rassen zu identifizieren. Und
solche Dinge werden in Systemen heutzutage
eingesetzt. Nicht unbedingt absichtlich.
Aber wenn man sich die Mühe macht zu
verstehen, was das System eigentlich
tut, stellt man plötzlich mit großem
Bedauern fest, dass es genau das tut.
Nadja: In all diesen Bereichen, in allen
Unteraufgaben davon und noch viel mehr
kommen diese Deep Learning Systeme mit all
ihren Nachteilen und oftmals mit
unbeabsichtigten Nebenwirkungen aktuell
zum Einsatz. Und es werden immer mehr.
Genug dazu, was die Grundlage ist, genug
dazu, was wir unter Deep Learning
verstehen und wo es angewendet wird. Wir
wollen uns als nächstes mit
wissenschaftlicher Nachhaltigkeit
beschäftigen. Und die erste Frage, die
sich die meisten Leute dazu stellen: Was
bedeutet denn wissenschaftliche
Nachhaltigkeit eigentlich? Wenn wir das
sagen, meinen wir solche Fragen wie, wie
relevant ist eigentlich das Thema, an dem
wir forschen? Wie relevant sind meine
Ergebnisse für die Zukunft, für die
weitere Entwicklung des Feldes, für den
Alltag der Menschen, um die es
letztendlich geht? Wir fragen uns aber
auch: Können wir diese Ergebnisse
überhaupt reproduzieren? Kann irgendjemand
anderes, wenn er dieses Paper gelesen hat,
zu den gleichen Zahlen, zu dem gleichen
Ergebnis oder zumindest zu der gleichen
Größenordnung kommen? Haben wir die dazu
notwendigen Mittel? Haben wir die Details
publiziert? Und sind die Ergebnisse so
verlässlich, dass es möglich ist? Wir
meinen auch: Können wir Dinge, die in der
Forschung entwickelt werden,
wiederverwenden? Oder sind sie nur für
diese eine sehr spezielle Aufgabe
relevant? Wir meinen auch: Sind wir
konkurrenzfähig? Oder sind andere Systeme,
die mit den gleichen oder sogar weniger
Aufwand entwickelbar, einsetzbar sind,
nicht vielleicht sogar besser? Wir meinen
auch: Mit welcher Systematik wurde dieses
System gebaut? Nach welchem System wurde
untersucht, was an dieser Stelle hilfreich
ist und was nicht? Oder war das völlig
willkürlich? Und schlussendlich meinen wir
auch: Was ist die Aussagekraft meiner
Ergebnisse? Wie war die
Evaluationsmethodik? Was ist dabei am Ende
rausgekommen, was tatsächlich relevant,
nennenswert, statistisch signifikant ist?
Benjamin: Und an der Stelle überlegen wir
uns kurz, ich weiß nicht, einige von euch
kommen sicherlich aus dem
wissenschaftlichen Bereich, andere aus der
Industrie, ist völlig egal, wie man sich
eigentlich wünschen würde, dass
Wissenschaft funktioniert, nämlich
irgendwie systematisch. Menschen denken
sich Dinge aus, überprüfen sie, stellen
fest, sie stimmen, und alles ist gut.
Tatsächlich haben wir in diesem Bereich
häufig, sehr häufig, ein völlig anderes
Verfahren. Es gibt Publikationen zu
irgendwelchen Arten: Wie
kann man diese
Neuronen, die wir vorhin hatten,
wie kann man diese Modelle
aufbauen? Was kann man
da machen? Dass die Daten dadurch fließen?
Dazu denken sich Leute was aus. Dann
publizieren sie das, veröffentlichen das,
und andere Leute denken sich, okay, das
klingt doch spannend. Lass das mal nehmen,
um daraus jetzt irgendwie für meinen
Anwendungsfall ein neues System zu bauen.
Das heißt, Sie nehmen dieses Modell, was
man irgendwo gehört hat, was gerade durch
die Fachwelt geistert. Dann überlegt man
sich grob: Wie baut man das auf? Wie nehme
ich das? Ich packe jetzt so viele
Schichten von diesem Typ hintereinander.
Sagen wir mal so und so viele, und die
Schichten machen wir so groß, wir arbeiten
jetzt mit so und so vielen dimensionalen
Vektoren. Das denkt man sich einfach aus,
was irgendwie plausibel klingt.
Dann guckt man,
dass man die Daten noch
irgendwie so lange schlägt,
bis sie irgendwie halbwegs
in das Format reinpassen, was man gerade
haben will, macht da irgendwelche
numerischen Werte draus, auf teilweise
sehr fragwürdige Art und Weise. Und dann
wird das Ganze in das Netzwerk gepackt,
und das ganze Ding nennt sich ja Deep
Learning. Das heißt, jetzt kommt das
Lernen. Das basiert halt darauf, dass man
die Daten reinschiebt, guckt, wie gut es
passt. Wie gut war die Vorhersage. Dann
anhand dessen das System anpasst, die
Daten wieder durchfließen lässt und das
Ganze immer und immer wiederholt, bis man
am Ende irgendwie schön Gewichte in diesen
Funktionen, die man im Prinzip
konstruiert, geraten hat oder gelernt hat,
die plausibel erscheinen für den Zweck,
den man braucht. Das ergibt dann das
Modell. Wenn die Zahlen, die dann
rauskommen, auf den Daten mit dem man das
testet, ganz gut aussehen, dann nehmen die
Leute das und schreiben ihr Paper darüber
und sagen Okay, für Klassifikationen von
Wölfen gegen Hunde haben wir jetzt
folgende Architektur, folgendes Dings.
Hier sind unsere Daten. Das sind die
Werte, die wir haben. Bitteschön, dass ist
jetzt das tolle neue Forschungsergebnis.
Wenn die Werte nicht so gut aussehen, dann
hat man wohl vielleicht die falsche State
of the Art System genommen, was gerade
jemand veröffentlicht hat. Oder man hat
eine Schlicht zu wenig, eine Schicht zu
viel, die Vektoren haben die falsche
Dimensionierung. Na naja, gut, dann rate
ich eben neue Parameter. Ist ja alles nur
Strom und Zeit, lässt das Ganze weiter
trainieren. Da laufen die GPUs heiß. Und
dann fängt man von vorne an damit und
guckt, ob jetzt gute Zahlen rauskommen.
Und je nachdem sagt man dann, Okay, ich
mache weiter, oder ich fall wieder durch.
Dazu kommt dann noch, das Ganze ist jetzt
ja schon irgendwie ziemlich
unwissenschaftlich. Das ist nicht mal mehr
empirische Forschung. Das ist wirklich
ausprobieren und hoffen, dass etwas Gutes
rauskommt. Aber danach kann man jetzt ja
noch die üblichen Schönungs-Methoden
anwenden, die es natürlich in der
Wissenschaft gibt, die man auch so leicht
gar nicht finden kann. Leider. Man kann
natürlich jetzt sagen, ich zeige nur die
Ergebnisse auf den Datensets, bei denen
die Zahlen gut aussehen, und auf dem
zweiten Datensets mit den Fotos aus einer
anderen Perspektive oder mit einem anderen
Hintergrund jetzt leider nicht gut
funktioniert hat, das muss ich ja
niemandem erzählen. Das veröffentliche ich
einfach nicht mit. Das bleibt bei mir, und
meinen anderen Zahlen sehen ja gut aus,
und das muss man jetzt erst mal jemand
nachmachen und zeigen, dass es mit etwas
anderem nicht funktioniert. Selbst wenn
nicht: Ich habe ja eine Publikation. Und
das ist leider in vielen Feldern
heutzutage was, was wichtig ist. Irgendwo
bei einer wichtigen Konferenz ein Paper zu
veröffentlichen, mit der man eine
minimale Verbesserung gegenüber dem
bisherigen State of the Art gezeigt hat.
Natürlich kann ich außerdem, eigentlich
sollte ich solche Experimente mehrfach
wiederholen und Mittelwerte bilden. Aber
ich kann natürlich Experimente mehrfach
wiederholen und einfach nur den besten
Score veröffentlichen. Und weitere solche
Tricks anwenden. Das heißt, wir haben
sowieso schon einen schlechten Prozess,
der dann auch noch teilweise missbraucht
wird, um schneller bessere Ergebnisse zu
kriegen und das dann zu publizieren. Das
ist das, was wir viel in diesen Feldern
sehen. Definitiv nicht bei allen Papern.
Gerade die Grundlagen Paper sind
sicherlich gut erforscht. Aber die vielen
Anwendungspaper können an der Stelle, und
allein schon indem, wie sie entstanden
sind, begründet, keinen wirklichen
Mehrwert liefern. Was ihre Relevanz und
ihren Vorteil, der daraus entsteht,
ergibt.
Nadja: Das Ganze ist natürlich plakativ
formuliert und natürlich bringen wir das
Ganze ein bisschen auf den Punkt, um zu
überspitzen. Aber Tatsache ist, wenn man
sich in einem Feld bewegt, was sehr viel
Druck hat, wenn man sich in einem Feld
bewegt, was so viele mögliche Gründe und
so viele Dinge hat, die diese
Fallstricke begünstigen, dann werden sie
auch immer mehr genutzt.
Benjamin: Genau. Wir sehen natürlich
besonders, es gibt gerade im Deep Learning
diese Möglichkeiten. Denn wir haben schon
gesagt: wir verstehen nicht, was diese
Modelle tun normalerweise. Es gibt ein
Forschungsfeld, was daran arbeitet. Aber
normalerweise verstehen wir nicht, was
diese Systeme tun. Das sind Blackbox
Modelle, die kriegen Daten rein, damit
wird irgendwas damit gemacht. Am Ende
kommen Daten raus. Das Ganze geht noch
über mehrere Schritte. Wir haben die
Daten, die werden irgendwie
vorverarbeitet. Dann kommen die Daten
rein, gehen durch dieses System, dann
werden sie eventuell nachverarbeitet. Am
Ende muss noch evaluiert werden,
entschieden werden: Was ist jetzt richtig?
Was ist exakt richtig? Was ist gerade so
richtig? Reicht mir das vielleicht, um es
als als wahr, stimmt es schon so, um es in
meinem Paper zu publizieren? Was ich genau
gemessen habe, wird häufig gar nicht erst
angegeben. Das heißt, dort ist es extrem
leicht möglich, auf diese Art und Weise zu
arbeiten. Und gerade dadurch, dass überall
heutzutage Expertinnen für dieses Feld
gesucht werden, dass überall jemand
Anwendungen haben möchte für Deep
Learning, kommt man damit eben ganz gut
durch. Deswegen passiert das dort
besonders. Man muss auf der anderen Seite,
wenn man die guten Jobs kriegen will, auch
solche Publikationen vorweisen. Also wird
das entsprechend gemacht. Und genauso: es
sind halt sehr viele Low Hanging Fruits
dabei. Das heißt Dinge, wo man weiß, okay,
mit wenig eigenen, großartigen Ideen und
mehr anwenden von Handwerkszeug kann ich
irgendwo was bauen, was es noch nicht
gibt. Und solange ich der Erste dazu bin,
kriege ich das leichter hin. Ich muss mich
nicht mit irgendwem vergleichen. Ich zeige
Okay, mein System kann das mit einer
akzeptablen Genauigkeit, exakte Zahlen und
Ergebnissen. Damit bin ich die erste
Person, die das geschafft hat, und kann
das entsprechend veröffentlichen. Deswegen
versuchen möglichst viele Leute, möglichst
schnell solche Dinge rauszuhauen, neue
Publikationen in diesen Bereichen zu
veröffentlichen. Wenn wir jetzt wissen
wollen, wie gut eigentlich ein System ist,
was vorgestellt wird, wäre es natürlich
schön, wenn wir die Experimente einfach
wiederholen könnten. Das ist allerdings
leider gar nicht so trivial. Denn auch
wenn die Systeme, die eingesetzt werden,
die Grundlagen-Systeme, häufig ein
gewisser Standard sind und irgendwie auch
als Open Source existieren, gilt das eben
nicht für die ganzen Anpassungen, die
ganzen Details, die die Personen einbauen.
Das gilt also nicht für den eigentlichen
Code, für die Pipeline, aber auch für die
Pre-Processing, für die Evaluierung. Das
gilt nicht unbedingt für die Daten. Häufig
sind Daten nicht verfügbar. Wir wissen,
Daten sind wertvoll, deswegen will man sie
nicht aus der Hand geben. Aber so
funktioniert Wissenschaft nicht. Ich kann
nicht auf meinen Daten, die ich für mich
behalte, arbeiten, sie niemandem zeigen
und sagen: Aber mein System ist gut, ich
habe es ja selbst getestet. Das ihr es
nicht überprüft könnt, Pech gehabt. Ich
habe in diesen Systemen enorm viele Hyper-
Parameter, die wir haben es ja gesagt,
erst einmal häufig geraten werden oder
durch durch grobes Ausprobieren bestimmt
werden. Wenn ich diese Parameter und diese
Hyper-Parameter nicht weiß, habe ich keine
Chance, das System nachzubauen. Ich weiß
auch nicht, mit welchen Initialisierungen,
die zufällig geschehen und
mit welchen Reihenfolgen
und Aufteilung der Daten
das Ganze geschehen ist.
Das heißt, wenn ich diese
ganzen Details nicht habe, habe ich
erst mal keine Chance, genau ein System
nachzubauen. Ich brauche aber genau diese
exakten Werte, weil diese Systeme enorm
fragil sind. Das heißt, wenn ich
Kleinigkeiten ändere, ein bisschen die
Dimensionen verändere, die Größe der
Schichten, gar so gar die Funktionen, die
da aneinandergekettet werden, ein bisschen
ändere, kriege ich völlig andere
Ergebnisse und weiß nicht mehr, ob das
andere System wirklich schlecht oder gut
war oder ob es eben nur daran liegt, dass
ich es nicht genau nachbauen kann.
Problem: Aktuell gibt es zwar
Bestrebungen, dass das so etwas besser
wird, aber keinen Zwang oder so dafür. Das
heißt, wenn ich ein Paper publiziere auf
einer der großen Konferenzen, in meinem
Anwendungsgebiet oder auch im Kern Machine
Learning Bereich, dann ist es gewünscht,
dass sie reproduzierbar sind. Es ist aber
nicht erzwungen. Das heißt, es gibt
zusätzlich nochmal das, ich möchte möchte,
dass mein Paper so ein Siegel kriegt, das
ist reproduzierbar. Dann muss ich dafür
ein paar Dinge machen. Da muss ich im
Prinzip diese Dinge hier bereitstellen,
die wir ja aufgelistet haben. Und dann
versuchen andere Leute nachzuvollziehen,
ob das, was ich mache, auch stimmt. Und
dann ich halt so ein Häkchen. Aber wenn
ich das nicht tue, dann mache ich es eben
nicht. Und das ist sicherlich eine Stelle,
die man hinterfragen muss, wo auch zum
Glück schon Dinge geschehen. Diese
Reproduzierbarkeit wird, rückt mehr in den
Fokus der Konferenzen. Der Effekt von dem
Ganzen ist natürlich dadurch: Wir haben
ganz viel Forschung, die nicht genutzt
werden kann von anderen Leuten. Das heißt,
ich muss natürlich Forschung an der Stelle
wiederholen. Andere Leute müssen sie
wiederholen und zusätzlich durch das,
sowohl durch diesen Effekt als auch durch
den Drang, möglichst viel und möglichst
schnell zu publizieren, wird halt extrem
viel Forschung auch so wiederholt und an
ähnlichen Problemen immer wieder
gearbeitet, um minimale Verbesserung zu
bekommen, weil man ja auch schon ein "Mein
System ist 0,5 Prozentpunkte besser als
das bisherige State of the Art System"
wieder publizieren kann. Das heißt,
wünschenswert wäre es, wir hätten überall
diese Reproduzierbarkeit. Das heißt, das
Wichtigste wäre natürlich wir alle immer,
wenn wir hier sitzen und wenn wir
irgendwas erforschen. Wir müssen unseren
Source Code veröffentlichen. Guck mal, da
ein Eichhörnchen.
Nadja: Das ist leider, was uns viel zu
häufig passiert, wenn es einen
wissenschaftlichen Code geht. Das heißt,
selbst die Autorinnen, die vorhatten ihren
Code zu publizieren, das Ganze öffentlich
zu machen, Open Source zu machen, werden
viel zu schnell vom nächsten Projekt, von
der größeren Deadline, von den
beschäftigten Doktorandinnen oder von der
Tatsache, dass der Code immer noch nicht
aufgeräumt ist, wenn man einfach nicht
dazu gekommen ist vor der Deadline,
abgelenkt. Wir haben einen extrem hohen
Publikationsdruck im Bereich Deep
Learning. Die Publikationen steigen
effektiv exponentiell. Man muss immer
schneller sein, um
wirklich noch state of
the art zu sein, um
selbst die eigene
Verbesserung noch an den
Markt bringen zu können.
Das sorgt dafür, dass
irgendwo unsauber
gearbeitet wird. Mein Code wird
nicht dokumentiert, da wird Spaghetti Code
geschrieben. Er wird irgendwie hingehackt,
Hauptsache, es funktioniert. Und danach
müsste ich mich hinsetzen und das Ganze
wieder aufarbeiten. Und das ist ein Riesen-
stück Arbeit. Und eigentlich steht ja
schon die nächste Publikation an. Und alles
ist es plötzlich interessanter, als den
Code zugänglich zu machen. Das gilt wieder
nicht für alle Paper. Natürlich gibt es
Leute, die das machen. Wir versuchen es
zum Beispiel auch. Aber es funktioniert
leider immer noch viel zu selten.
Tatsächlich gab es dazu oder gibt es doch
immer noch von einer großen Konferenz in
dem Bereich, die Reproducibility
Challenge, wo im wesentlichen
Wissenschaftler aufgefordert werden, sich
ein akzeptiertes Paper aus der Konferenz
2018 oder jetzt 2019 rauszusuchen und mit
allen Mitteln und Wegen zu versuchen, die
Ergebnisse nachzuvollziehen. Teilweise
oder im Detail, komplett, erst mal
rausfinden, was kann ich überhaupt? Die
Autoren sind angehalten, kurz publizieren
und zu kooperieren. Die Leute versuchen
wirklich, auch Zeitaufwand, mit dem
entsprechenden Fachwissen, die Ergebnisse
nachvollziehbar und erklärbar und
reproduzierbar zu machen. Die Erfolgsrate?
Ja, ein Teil können wir nachvollziehen,
immerhin 50 Prozent. Immerhin ein
Großteil, das nachvollziehen konnten 30
Prozent, gar nicht reproduzieren waren
aber immer noch 10 Prozent. Jetzt
ist das interessante aber ja der
Schwierigkeitsgrad, dass man das irgendwie
reproduzieren kann, ist an sich
schon mal gut, aber noch
nicht ausreichend. Wenn
ich die komplette
Forschung dafür neu machen
muss, dann lohnt das den Aufwand schlicht
und einfach nicht. Reasonable difficulty
ist in dem Fall sagen wir ein nicht sehr
konkretes Wort. Aber Tatsache ist, dass es
bei mindestens 20 Prozent der Paper sehr,
sehr schwierig war und überhaupt keine
Probleme aufgetreten sind bei einem
absolut vernachlässigbaren Teil. Was Sie
dabei noch gemacht haben, ist Sie haben
gefragt, diese Wissenschaftlerinnen, denen
diese Challenge gestellt wurde, haben wir
momentan eine Reproducibility Crisis im
Bereich Maschinenlearning? Seht ihr hier ein
Problem? Und die Anzahl der Leute, die ein
Problem sehen, ist über diese Challenge um
diverse Prozentpunkte gestiegen. Das
heißt, einfach mal selbst zu versuchen,
hat nochmal 15 Prozentpunkte mehr der
befragten Wissenschaftlerinnen ungefähr,
davon überzeugt, dass da tatsächlich
Probleme existiert und dazu geführt, dass
drei Viertel der befragten
Wissenschaftlerinnen ein Problem sehen, in
unterschiedlichem Ausmaße.
Benjamin: Noch ein Beispiel. Das ist
jetzt, es gibt tatsächlich inzwischen
Paper, die sich damit beschäftigen, wie
gut andere Paper reproduzierbar sind. In
dem Fall aus dem Bereich von
Recommendation. Es geht darum, aus einer
Menge von Dokumenten bestimmte Dokumente
für eine Anfrage oder Frage, oder was
weiss ich, vorzuschlagen. Da gab es in den
letzten Jahren 18 Publikationen, die alle
auf Deep Learning setzen, bei großen
Konferenzen. Und dann haben sich die Leute
mal hingesetzt und geguckt, wieviel können
wir davon reproduzieren? Inklusive, wir
schicken erst einmal dem Autor in eine
E-Mail, ob sie uns vielleicht ihren Code
geben können, bitten nochmal nach und
versuchen, die Sachen zum Laufen zu
bringen, versuchen irgendwie, teilweise
sogar ähnliche Hardware zu beschaffen, wie
die verwendet haben und bauen das nach.
Insgesamt haben sich von diesen, für
dieses Beispiel, von diesen 18 Papern,
ganze 7 Paper wirklich reproduzieren
können. Das heißt, bei denen können sie
die ganzen Sachen nachbauen, können es
laufen lassen und kommen dann auf ähnliche
Ergebnisse.
Nadja: Aber wichtig, erst nachdem Sie die
Arbeit investiert haben, erst nachdem Sie
nachgefragt haben, erst nachdem Sie
versucht haben, die Dinge aufzutreiben,
die nicht von sich aus herausgegeben
wurden.
Benjamin: Das ist nicht der Standard
Prozess. Also normalerweise, wenn ich
irgendwo auf der Konferenz ein Paper
schicke und sage, Okay, das möchte ich
veröffentlichen. Dann lesen Leute nur
dieses Paper. Gucken Sie sich eventuell
noch ein Video an oder vielleicht sogar
ganze zusätzliche Datensätze, die
hochgeladen werden. Aber normalerweise
lesen Sie nur dieses Paper, diese 6, 8,
10, manchmal 12 Seiten mit eng
geschriebenen Ergebnissen und entscheiden
nur anhand des Textes, der dort dann
steht, und anhand der Zahlen, die die
Autorin selbst herausgegeben haben, ob
diese Arbeit relevant, richtig und
irgendwie nutzbar erscheint. Und dann wird
entschieden, ob sie veröffentlicht wird
oder nicht. Aber sie können normalerweise
nicht in irgendeiner Form überprüfen, ob
das wirklich so ist. Sie müssen komplett
auf den Text vertrauen, ohne. Das ist
der Standardfall, wenn wir nicht explizit
Reproduzierbarkeit fordern für
irgendwelche Konferenzen. Und wie gesagt,
die bisherigen großen Konferenzen. Es gibt
keine, die einen von den angewandten
Konferenzen, die Reproduzierbarkeit
explizit fordert. Es ist immer nur ein
zusätzliches Challenge, oder ein
zusätzliches Siegel, oder was weiß ich.
Bisher basiert die Annahme und die
Veröffentlichung von irgendwelchen Papern
komplett nur auf dem Reviewen von den
eingereichten Sachen, ohne den Versuch es
auch zu reproduzieren. Noch zu dem
Beispiel, um es noch demotivierender zu
machen. Von diesen 7 Ergebnissen, die sie
reproduzieren konnten, haben sie dann
außerdem nochmal nicht Deep Learning
basierte Ansätze genommen, die damit
verglichen und festgestellt, dass wenn man
da sich ein bisschen Mühe gibt, sie von 6
von diesen 7 Paper noch besserere,
trotzdem noch bessere Ergebnisse kriegen.
Das heißt, von diesen 18 Publikationen hat
eine für externe Leute messbaren
wissenschaftlichen Fortschritt gebracht.
Und genau diese anderen Ansätze sind
nämlich leider etwas, was sehr stark durch
diesen Hype, der ja offensichtlich
funktioniert, so voll wie sie heute ist,
das Wort Deep Learning zieht, werden die
verdrängt. Der Rest sind häufig nur
Baselines. Ich muss ja nur im Paper
irgendwas angeben, was ein anderes System
ist, mit dem ich es vergleiche, damit ich
zeige, dass mein neues System besser ist
als das, was bisher da ist. Dann gebe ich
mir auch keine Mühe, dass ich diesen
Anteil, dieses andere System besonders gut
dastehen lasse. Denn dann wird es
schwieriger, dass mein neues System besser
abschneidet. Das heisst, es wird
hauptsächlich eben an diesem Deep
Learnings Krams geforscht, und alles
andere wird vernachlässigt, obwohl man da
noch sehr viel rausholen könnte, wenn man
es denn wollte und irgendeinen Vorteil
davon hätte. Und es wird wirklich alles
andere nur als Baseline betrachtet. Ganz
kurz noch Exkurs, das ist ein Foundation
Talk. Baseline, ich brauche irgendein
System, mit dem ich zeige, dass meine
Daten valide sind. Das ist irgendwie
Plausible ist, was ich raus kriege. Im
simpelsten Fall ist ein Baseline Ansatz
für eine binäre Entscheidung einfach ein
Münzwurf. Wenn ich ein System baue, was
zwischen Hund oder Wolf entscheiden muss
und es hat nur 5 Prozent Genauigkeit, dann
hätte ich mal lieber eine Münze geworfen.
Da würde ich mit 50 Prozent Genauigkeit
kriegen. Dann ist mein System
außerordentlich schlecht. Sobald ich über
diese 50 Prozent drüber kommen über diese
Baseline, kann ich in diesem Paper
inhaltlich begründen, warum mein neues
System besser ist als diese Baseline. Nun
gebe es vielleicht bessere, klügere
Ansätze als einen reinen Münzwurf. Aber
wenn ich den halt möglichst low halte,
habe ich es an der
anderen Stelle leichter.
Nadja: Dazu ganz kurz, um das in Zahlen zu
fassen. Kaggle ist eine Plattform, die
Daten-
wissenschaftliche Challenges
stellt, an der jeder
dann mitarbeiten kann und
einen Versuch einreichen kann, diese
Challenge zu schlagen. Z.B. im Bereich
Bilderkennung, aber eigentlich alles, was
da ist, an wissenschaftliche oder
maschinelles Lernen in Worte fasst. Das
ist der Unterschied zur akademischen
Forschung, dass wir uns nicht so sehr am
State of the art orientieren, sondern die
Leute versuchen, oftmals sind es auch
Privatpersonen, das zu nehmen, was
funktioniert. Da ist auch viel Deep
Learning dabei. Weil Deep Learning, halt
ein paar Sachens sind, wo viel entwickelt
wird, wo es viele fertige Frameworks gibt
und was verrufen ist als das, was
irgendwie mit allem funktioniert, unter
gewissen Voraussetzungen. Aber trotzdem
sehen wir das auch., dass klassische
Ansätze hier sehr, sehr hohen Anteil
einnehmen, einen höheren Anteil als
manchmal bei entsprechenden Konferenzen zu
finden ist. Das heißt, wenn es mir nur
darum geht, dass jetzt etwas funktioniert
und ich nicht maximalen Aufwand
reinstecken will, ich nicht unbedingt die
Buzzwords unterbringen will, ist Deep
Learning plötzlich nicht mehr ganz so
beliebt. Und dafür gibt's mit Sicherheit
ein Grund. Wir wollen aber noch zu zwei
weiteren Aspekten kommen. Und der nächste,
der der gesellschaftlichen Auswirkungen.
Weil auch, was unsere Gesamtgesellschaft
betrifft, müssen wir in der Forschung, was
das maschinelle Lernen und Deep Learning
angeht, ein bisschen auf Nachhaltigkeit
achten. Gerade das Thema Erklärbarkeit und
Transparenz, das Thema kann nicht das
System, was vielleicht sogar
lebenswichtige Entscheidungen trifft,
irgendwie verstehen. Dieses inzwischen
relativ weit verbreitete Beispiel kommt
aus der Software Compass, ich habe es
schon erwähnt, die wird verwendet, um bei
straffällig gewordene Menschen in
Gerichtsverfahren einen Score zu
ermitteln, mit welcher Wahrscheinlichkeit
sie rückfällig werden im weiteren Verlauf
ihres Lebens. Dieser Score wird vom
Richter dann verwendet, um das Strafmaß zu
bestimmen. Wenn wir uns jetzt den
Hintergrund der Hautfarbe, Hautfarbe
dieser Menschen anschauen, für die diese
Scores bestimmt wurden, erkennen wir eine
sehr unterschiedliche Verteilung zwischen
Menschen mit weißer Hautfarbe und Menschen
mit anderer Hautfarbe. Das heißt, oben
links sehen wir, dass hohe und niedrige
Scores annähernd gleichmäßig verteilt
werden, während wir eben bei Menschen mit
eindeutig weißer Hautfarbe oder die so
wahrgenommen werden eine sehr starke
Häufung niedrigen Scores haben. Das hat
sich an vielen Einzelbeispiele inzwischen
gezeigt, dass das schlicht und einfach
falsch ist. Dass für ähnliche Verbrechen
sehr unterschiedliche Strafen vergeben
wurden und das nicht der Fall ist, dass
die Personen mit dem höheren Score auch
zwangsläufig eher rückfällig geworden ist.
In einigen Fällen haben auch Menschen, die
in dem Bereich tätig sind, drauf geschaut
und haben gesagt, eigentlich hätte anhand
der Vorstrafen gerade andersherum
verteilt. Das ist ein Riesenproblem, weil
das System sind, die hier aktuell zum
Einsatz kommen und die für Menschen
lebenswichtige Entscheidungen
treffen müssen. Für niemanden er
sichtlich, warum dieser Score gegeben
wird. Die Firma sagt von sich, und das ist
insofern auch korrekt, wenn man es
wörtlich nimmt, dass der Hintergrund und
die Hautfarbe dieser Menschen nicht
eingegangen ist in das Training. Aber das
korreliert mit so vielen Dingen in den
USA, mit dem Einkommen, mit dem Wohnort
etc., dass das gar nicht der entscheidende
Faktor ist. Als weiteres Beispiel können
wir mal drüber nachdenken, was wir dann
mit dem Begriff eindeutige Handlungs-
Vorschrift meinen. Viele Menschen
bezeichnen damit Algorithmen, was sie
damit nicht bezeichnen wollen, dass wir
alles, was algorithmische System uns
vorschlagen, auch als Handlungs-Vorschrift
zu behandeln haben. Das ist nicht, wie wir
das gemeint haben, sondern wir müssen mit
diesem System immer reflektiert und
kritisierend umgehen. Ob jetzt Deep
Learning überhaupt noch auf diesen Begriff
passt, auf diese eindeutige Handlungs-
Vorschrift ist schon wieder extrem
fragwürdig. Denn wir reden hier von sehr
stark statistisch geprägten Systemen, wo
sehr viel Zufall mitspielt. Man könnte
sie, wie es in diesem Thread geschehen
ist, vielleicht eher als
maschinelles Bauchgefühl bezeichnen,
als eindeutige Handlungs-Vorschrift.
Benjamin: Das heißt, was wir hier
eigentlich erleben, ist eine wahnsinnige
Generalisierung nur. Wir nehmen
Datenpunkte aus der Vergangenheit, die wir
schon kennen. Wir wenden sie an, wir
trainieren darauf und danach versuchen wir
einfach und hoffen, dass, wenn wir diese
Sachen, die wir, die wir haben, wenn wir
nur weit genug generalisieren, wenn wir
irgendwo versuchen auf Teufel komm raus
und das System muss immer was liefern.
Normalerweise liefern die Systeme immer
einfach ein Ergebnis, egal, ob sie einen
guten Grund dafür sehen oder nicht. Sie
versuchen einfach, ein Muster zu finden
und dann liefern sie ein Ergebnis. Und das
bedeutet, dass das, was immer landläufig
als die KI sagt etwas vorher oder denkt
sich etwas aus oder was weiß ich, im
Prinzip nur ein auswendig lernen und
generalisieren und das Ergebnis irgendwie
wieder raushauen ist.
Nadja: Bei gelernten Systemen reden wir
oft von Prediction oder Vorhersage. Was
wir aber eigentlich getan haben, ist nicht
über die Zukunft nachzudenken, sondern
ausschließlich über die Vergangenheit. Und
dann ist es die interessante Frage, ob
wirklich Dinge vorhersagen oder eigentlich
nur reproduzieren.
Benjamin: Das Problem ist aber auch, dass
die Menschen den Computern vertrauen. Das
trifft vermutlich jetzt nicht auf alle
Leute hier im Raum zu. Das ist sehr
angenehm, aber in der Gesellschaft ist das
enorm verbreitet inzwischen. KI ist
irgendwas Tolles, KI ist super, KI wird
uns retten. KI kann das, was wir nicht
können. Beispiele: Wir haben diese große
Forschungsinitiative, überall muss KI
gemacht werden. Wenn ich KI in meine
Anträge schreibe, kriege ich Geld. Wenn
ich auf meine Hautcreme draufschreiben,
dass sie mit KI optimiert wurde, kann ich
sie besser verkaufen. Und wenn ich will,
dass mein System und ich als Firma gut
dastehe, dann kann es sich sogar lohnen,
was geschieht, was Google aber auch viele
andere machen, kann es sich lohnen, Leute
einzustellen, die so tun, als wären sie
Computer, zum Beispiel, die irgendwo
anrufen, weil der Computer dazu noch nicht
in der Lage ist und dann die Restaurant
Reservierung oder was weiß ich
durchführen, nur damit man dann am Ende
rausschreiben kann, dass die eigenen KI-
Systeme ja so wahnsinnig toll sind. Und
weil es ja kein Mensch ist, sondern der
Computer, der ja bestimmt viel weiser sein
muss, kann man dadurch sich Vorteile
verschaffen.
Nadja: Ein ganz besonders beunruhigendes
Beispiel haben wir uns außerdem noch
mitgebracht.
Musik
Dialog der Maschine und dem Mann auf japanisch
Um die Frage direkt vorwegzunehmen, ja,
das gibt es wirklich. Und ich hoffe
ehrlich gesagt, ich muss gar nicht
erklären, warum das so unglaublich
kritisch ist. Aber ich frag einfach mal,
was passiert mit uns Menschen so rein
soziologisch, so rein psychologisch, wenn
wir mit Maschinen interagieren, als wären
sie Menschen, als hätten sie Gefühle, wenn
sie Muster imitieren, wie sie in der
Beziehung und zwischenmenschlicher
Kommunikation stattfinden. Was passiert da
mit uns? Worauf lassen wir uns ein? Wie
viel Bios, den wir nicht haben sollten,
akzeptieren wir? Um noch zu einem ganz
anderen Thema zu kommen. Ich hoffe, das
müssen wir hier nur kurz anschneiden, denn
ich habe keine Antwort auf die Frage, die
ich gerade gestellt habe. Daten. Ich
glaube, das ist ein Rahmen, in dem ich
wenig erklären muss, warum
Datensparsamkeit wichtig ist. Wir haben
aber mit Deep Learning ein fundamentales
Problem. Wir brauchen nämlich extrem viele
Daten. Und das beißt sich ganz, ganz stark
mit unseren gesellschaftlichen Interessen.
Das ist aber ein Thema, über das könnte
man mindestens einen eigenen Talk halten.
Außerdem Beispiele wie das: Wie viele
werden es auch schon gesehen haben, eine
KI, die sich gefühlte 15 Minuten im Netz
bewegt hat. Und plötzlich überaus
rassistisch und anderweitig inakzeptable
Äußerungen gebracht hat, weil sie nun mal
aus dem Internet gelernt hat. Und die
interessante Frage stellt sich an der
Stelle ganz krass, sollten wir wirklich
versuchen, mit maschinellen Systemen
Menschen nachzubilden? Oder ist das
vielleicht eine sehr schlechte Idee?
Benjamin: Ein weiterer Punkt, den wir uns,
dem wir uns stellen müssen, der für uns
alle relevant ist, denn wir arbeiten in
irgendeiner Form an Systemen, die
irgendwie was in der Welt bewegen sollen.
Wer ist für all das verantwortlich? Ganz
typisches Beispiel haben wir bei den
autonomen Fahrzeugen. Da wird es schon x
mal diskutiert, wer ist dafür
verantwortlich, wenn ein Unfall passiert?
Aber bei jedem weiteren System gilt das
auch. Es gibt so viele Stellen, die daran
beteiligt sind. Wir haben die Person, die
das Ganze programmieren. Die Personen, die
es in Auftrag gegeben haben. Die Firma,
die das Ganze kauft, vermarktet.
Vielleicht öffentliche Stellen, die
entsprechende Regularien dafür
veröffentlichen. Wir haben
Versicherungskonzerne. Wir haben
Privatpersonen, die ein autonomes Fahrzeug
oder irgendein anderes intelligentes
System besitzen. Wer ist schuld? Wer kann
belangt werden, wenn irgendetwas passiert?
Und welche Auswirkungen hat das? Denn, je
nachdem, wer dafür belangt werden kann,
ergeben sich völlig unterschiedliche
Entscheidungen von den beteiligten
Personen, wogegen sie ihre Systeme
absichern, wie sie ihre Systeme designen.
Und diesen Punkt, dazu gibt es keine
befriedigende Antwort. Eine Umfrage unter
den Amerikaner sagt, dass sie, die
Mehrheit das inakzeptabel findet, dass ein
Computersystem oder algorithmische Systeme
genutzt werden, um in bestimmten
Bereichen, zum Beispiel bei der
Einschätzung von Strafmaßen oder für den
Bewerbungsprozess von Menschen, dass der
Computer wesentliche Entscheidungen dafür
trifft. Blöd nur, all das wird heutzutage
schon gemacht, und zwar eben mit immer
stärker werdenden Ausmaß.
Nadja: Und als Drittes kommen wir jetzt zu
einem Punkt, der oft vernachlässigt wird,
wenn es um Deep Learning geht. Ja, das
werden die alle, die wir heute gesagt
haben, aber der ganz besonders. Und wir
glauben, dass der trotzdem relevant ist.
Nämlich gerade zu Zeiten, wo das Thema
Klimawandel wieder mehr in den Medien
kommt, wo sowohl die Gegner als auch die
Befürworter von irgendwelchen Maßnahmen
stärker werden, ist das ein Thema über das
wir auch nachdenken müssen, auch
wenn es auf den ersten Blick
nichts mit unserer Arbeit zu tun hat.
Benjamin: Wir haben natürlich, bekannt ist
es im Bereich, z. B. von den
Cryptocurrencies, dass die enormen
Stromverbrauch haben, zum Beispiel ein
Bitcoin Transaktion verbraucht ungefähr so
viel Strom wie 500.000 Visa Transaktionen,
eine einzige! Und das entspricht ungefähr
dem Stromverbrauch eines Kühlschranks für
8 Jahre für eine Transaktion. Aber
Bitcoins ist nicht der einzige Bereich, wo
wir Probleme kriegen, in der Hinsicht. Wir
haben auch das generell in allen Formen,
wo wir große Daten haben. Deep Learning
braucht große Datenmengen, Datenmengen
müssen wir speichern, verarbeiten,
transportieren und dafür haben wir
weltweit inzwischen eine relativ groß
steigende Anzahl an Rechenzentren, die
zwischen 200 und 500 Milliarden
Kilowattstunden pro Jahr gerade
verbrauchen. Ganz genau kann man das
natürlich nicht sagen, weil die Firmen
auch diese Daten als Geheimnis betrachten.
Wenn man alle Rechenzentren zusammen als
Land betrachten würde, hätten wir fünf
Länder auf der Erde, die mehr Strom
verbrauchen, dann kommen die
Rechenzentren, dann kommen alle anderen
Länder, und auch das wird weiterhin
steigen. Wir haben, wenn man jetzt noch
kleiner guckt auf das, was wir jetzt
beschrieben haben, den Trainingsprozess
von einzelnen Modellen, auch da schon
einen erschreckend hohen Stromverbrauch,
der auch dort leider nicht linear, sondern
sondern deutlich darüber ansteigt. Wenn
wir also ein einzelnes, einzelne Modelle
trainieren wollen, sehen wir, dass die
großen State of the Art Systeme, die dann
natürlich von Firmen wie Google und
Facebook AI und anderen
Forschungsinstitute, Einrichtungen von
großen, großen Firmen vorgeschlagen
werden, dass dort Strom verbraucht wird
für hunderttausende teilweise Millionen an
Euro. Dass dort auch inzwischen natürlich
zusätzlich noch GPUs, CPUs eingesetzt
werden, die schwer zu bekommen sind, die
teuer anzuschaffen sind, sodass wir
natürlich auch sowohl durch den
Stromverbrauch als auch durch die
Infrastruktur. Erstens haben wir diesen
Umwelteffekt. Zweitens, wenn wir den
Effekt, dass immer weniger Firmen, immer
weniger große Einrichtungen in der Lage
sind, Deep Learning auf dem State of the
Art durchzuführen. Der Rest wird
abgehängt. Das heißt auch da
gesellschaftliche Auswirkungen ---
problematisch, Umweltauswirkungen ---
problematisch und leider ein Trend, der
offensichtlich genau in die falsche
Richtung geht. Wenn man sich das nochmal
hier anguckt, was das auch für den
CO2-Ausstoß bedeutet, sehen wir, dass das
Training von einem einzigen Modell, wie es
dann veröffentlicht wird am Ende, von so
einem großen Modell ungefähr so viel CO2
ausstößt wie fünf Autos in ihrer ganzen
Lebensdauer, inklusive Produktion und
inklusive sämtlichen Sprit, der dann darin
verbrannt wird. Und solche Forschung
findet ständig weiterhin statt, weil man
ja weiter publizieren will, wie wir am
Anfang schon erzählt haben. Das heißt,
dauerhaft werden solche Modelle gerade auf
der Welt trainiert, um dann irgendwo in
irgendeinem kleinen Teilbereich eine neue
Publikationen machen zu können.
Nadja: Jetzt komme ich und bringe die
Frohbotschaft. Nein, es ist nicht alles
ganz so schlimm, wie es jetzt gerade
scheint, wenn wir die Nachteile auflisten.
Tatsächlich kann der ganze Bereich des
maschinellen Lernen auch Vorteile mit sich
bringen und hier in diesem Beispiel sogar
auch tatsächlich das Deep Learning. Es
geht darum, dass Google über Jahre hinweg
versucht hatte, mithilfe von maschinellen
Lernen die Betriebe ihrer Datenzentren zu
optimieren. Da eine Einsparung im
Stromverbrauch zu erreichen. Wir reden
hier von Reinforsment Learning für die,
denen es was sagt. Was die Kühlungsteuerung,
die Abschaltung von Servernet et cetera
beeinflussen konnte und damit der
Stromverbrauch um bis zu 40 Prozent
gesenkt hat. Das ist auf jeden Fall eine
gute Nachricht. Natürlich ist auch mir die
Ironie klar, dass wir hier den
Stromverbrauch von Datenzentren sprechen,
ohne das Feld auch gar nicht so sehr nötig
wären. Trotzdem Man kann diese
Wissenschaft, man kann diesen Bereich auch
durchaus für gute Sachen nutzen, die uns
allen was helfen kann. Das lässt sich
natürlich nicht auf alle großen Strom und
CO2 Produzenten übertragen, die wir in
unserer Industrie so haben. In der
Autoindustrie wird das schon sehr viel
schwieriger, wenn wir von Montagerozessen
reden, von Produktionsprozessen reden. Da
kann man nicht einfach wild durch die
Gegend tauschen, welcher Task denn
ausgeführt wird. Wenn die Server
vielleicht nicht ausgelastet sind oder sie
nicht direkt ausführen, damit der Server
noch mal abgeschaltet bleiben kann. Aber
ist das was, womit wir uns auf jeden Fall
beschäftigen sollten. Mit Strom und CO2
ist das Lied um die Umweltauswirkungen
noch nicht zu Ende. Es geht auch darum,
wie wir unsere Infrastruktur belasten, wie
wir Straßen, Städte, Gebäude und so weiter
beanspruchen für den Bau, für den Betrieb,
für den Transport. Für die Vernetzung von
den ganzen Systemen, die wir für diesen
Forschungszweig brauchen. Es geht darum,
was wir für Platz beanspruchen mit
Forschungszentren, mit Datenzentren, mit
Supercomputern und GPU Produktion. Es geht
darum, wie viel Arbeitskraft und wie viel
Zeitaufwand gebunden ist. Nur um ein neues
Netz zu forschen. Es geht darum, wie viel
Forschungsgelder darin investiert werden,
mit denen man noch andere Dinge tun
könnte. Es geht um endliche Ressourcen
unserer Erde wie Metalle wie die
sogenannten Seltenen Erden oder wie Erdöl,
die dafür gebraucht werden. Und es gibt
noch so viel mehr. Das war nur ein ganz
kleiner Einblick in das Thema, und es ist
ganz wichtig: Es geht nicht nur um den
Stromverbrauch. Die Awareness an der
Stelle ist noch viel zu niedrig, um
darüber quantitativ Aussagen treffen zu
können. Aber es ist auf jeden Fall ein
Faktor. So viel wissen wir. Wir kommen
damit auch schon zur Frage: Wie kann es
eigentlich weitergehen?
Benjamin: Wichtig ist, dass wir alle uns
bewusst sind, dass wir die Verantwortung
tragen, wie es in dem Bereich weitergeht.
Denn sowohl die Leute, die in diesem Land
arbeiten, aber auch in allen Bereichen,
die damit verbunden sind. Wir forschen.
Wir bauen Systeme. Wir sorgen dafür, dass
solche Systeme weiter entstehen, dass sie
wichtiger werden, dass sie, obwohl wir
wissen, dass zum Beispiel das alles der
Generalisierung, aus Vereinfachungen
besteht. Dass sie trotzdem für Dinge
eingesetzt werden. Wir sorgen dafür, dass
unsere Sensorik, die wir in Autos
verbauen, irgendwelche 25 Gigabyte pro
Stunde an Daten produzieren, die man dann
wieder auswerten, um daraus etwas machen
kann. Wir sorgen dafür, dass Systeme
optimiert werden. Wir sorgen dafür, dass
das gebaut werden für die Industrie, damit
das komische Hautpflegeprodukten
plötzlich KI optimiert ist. Das kann
man natürlich alles einfach so machen,
weil man in dem Bereich gut Geld verdienen
kann. Ist aber vermutlich keine gute Idee,
sondern man sollte sich wirklich
überlegen: Was sind die Konsequenzen von
dem Ganzen, und was müssten wir eigentlich
alle ändern, um dieses ganze Feld
weiterzutreiben? Denn, das ist das Schöne,
zumindest im Forschungssektor. Es ist
alles von der Community angetrieben. Es
ist immer eine Entscheidung von allen
Forscher in den ganzen Bereichen, ob sie
genauso weitermachen oder ob sie ihre
Arten schieben, ob sie anders agieren, ob
sie mehr und mehr auf solche Dinge achten
oder eben nicht.
Nadja: Grundsätzlich um weiterzumachen,
gerade um die gesellschaftlichen
Auswirkungen des Themas zu beeinflussen.
Was müssen wir anstreben? Wir müssen
Diskurs anstreben. Wir müssen mit der
gesamten Gesellschaft, mit einer riesigen
Breite an Menschen darüber reden. Was
wollen wir von diesen Systemen? Unter
welchen Umständen machen wir das System?
Was sind die Auflagen, die wir stellen,
was akzeptabel und was nicht? Das
funktioniert nicht, wenn diese
Entscheidungen getroffen werden von fünf
Leuten, die irgendwie ihre eigenen
Interessen vertreten müssen. Das ist ein
Diskurs, der auf jeden Fall in die
gesellschaftliche Breite gehen muss. Es
gibt einfach keine klare Antwort, und die
Antworten, die wir brauchen, die müssen
wir zusammen finden. Wir müssen aber auch
Bildung auf allen Ebenen vorantreiben.
Weil ich muss als Informatikerin auch die
ethischen Auswirkungen eines Handelns
bedenken. Ich muss auch dem Enduser sagen
können, was das bedeutet, wenn er etwas
einsetzt. Auch wenn er die technischen
Details nicht versteht, muss er in der
Lage sein einzuschätzen, ob der Einsatz an
der Stelle sinnvoll ist und gerade auch
die Menschen, die die Legislatur
vorantreiben. Diese Menschen sollte es auf
jeden Fall geben müssen, genug davon
verstehen und auch wirklich einschätzen
können, was sie da gerade erlauben oder
nicht erlauben, damit wir auch die
positiven Aspekte solcher Felder mitnehmen
können. Awareness ist ganz besonders
wichtig, damit wir diesen Diskurs führen
können. Damit wir diese Bildung
vorantreiben kann, müssen wir darüber
reden: Wie funktionieren unsere Daten?
Unter welchen Umständen verwenden wir sie?
Wo kommen die Modelle her? Wie
funktionieren Erklärbarkeit und
Reproduzierbarkeit? Aber auch wer trägt
die Verantwortung? Was sind die
Konsequenzen? Und wie führen wir diesen
Diskurs? Am Ende gilt: Wir müssen
umdenken, statt nur zu folgen. Es
funktioniert nicht, wenn wir einfach so
weitermachen wie bisher. Sondern wir
müssen in manchen Dingen einfach
grundlegend auch nochmal nachdenken. Viele
dieser Maßnahmen sind tatsächlich doppelt
hilfreich, begünstigen sich gegenseitig.
Wir stecken da nicht unbedingt in einem
Teufelskreis. Wenn wir systematisch
arbeiten, dann tun wir der
Reproduzierbarkeit gefallen. Aber auch
unseren Ressourcenverbrauch, weil wir viel
weniger nochmal machen müssen, wenn wir
die Alternativen zu Deep Learning auch
nutzen, tun wir der Erklärbarkeit
Gefallen, aber auch der Datensparsamkeit.
Wahrscheinlich, wenn wir den Publications
Druck senken und damit die Qualität in die
Höhe schreiben. Dann fördern wir den
wissenschaftlichen Anspruch, und wir
helfen unserem Ressourcenverbrauch. Aber
insgesamt ist unsere große Herausforderung
momentan in der Gesellschaft verbreitete
Unwissenheit, und das nicht richtig
reflektiert wird, was das für Auswirkungen
hat, was wir machen und in welchen Skalen
bewegen. Damit sagen wir fürs Erste auch
schon Danke, schön, dass Sie hier waren.
Wir haben uns wirklich gefreut gesagt. So
dürfen wir hoffen. Wir geben ein paar
Denkanstöße mit. Wir können dieses Thema
nur sehr, sehr oberflächlich einsteigen in
50 Minuten. Wir sind jetzt schon relativ
weit in der Zeit. Trotzdem haben wir noch
ein paar Minuten für Fragen, aber auch
über den Vortrag hinaus. Sind wir da froh,
wenn Leute sich informieren,
recherchieren, selbst kritisieren und
reflektieren oder auf uns zukommen.
Dankeschön.
Applaus
Herald: Okay, alles klar. Wir haben noch
ein paar Minuten Zeit für Fragen.
Damit wir auch möglichst viele und zügig
durchkommen. Bewegt euch doch bitte direkt
zu den Mikrofonen. Und wir fangen direkt
hier mit Mikrofon 4 and.
Mik 4: Ich versuche, mich kurz zu halten.
KI für Autos ist ziemlich faszinierend,
die unterscheidet zuverlässig zwischen
einem Baum und einem Verkehrsschild. Ich
bin immer wieder enttäuscht, wenn ich KI
sehe für Suchmaschinenoptimierung, was ich
da angeboten bekomme. Ich glaube, das
Problem ist die Datengrundlage. Ein Baum,
da gibts keine Diskussion. Das ist ein
Baum. Was ist die schönste Website ist
oder das nächstbeste Video? Das ist eine
Geschmacksfrage. Worauf ich hinaus möchte:
wäre es nicht sinnvoll oder dringend
notwendig, darüber nachzudenken, wie die
Trainingsdaten qualifiziert sind, ob man
die qualitativ einsortieren sollte?
Nadja: Ich stimme soweit absolut zu,
Trainingstagendiskussion steht an. Müssen
wir führen? Qualität ist extrem wichtig.
Das Problem geht aber noch darüber hinaus.
Zum einen die Frage mit dem Auto und dem
Fußgänger, wie uns der Überkräsch 2018
gezeigt hat, gar nicht so trivial.
Festgestellt haben die Annahme, dass
Fußgänger nur auf dem Fußgängerüberweg zu
finden ist, das vielleicht gar nicht so
realistisch. Trivial ist es also nicht.
Natürlich sind Suchmaschinen auch eine
subjektive Entscheidung. Weil was ich
suche, weiß am Ende nur ich. Jemand mit
der gleichen Suchanfrage sucht vielleicht
etwas anderes. Natürlich ist das Internet
einfach eine extrem riesige Datenbasis mit
sehr unsauberen Daten. Das heißt, dass es
eine völlig andere Herausforderung als
Bildklassifikation von autonomen
Fahrzeugen. Grundsätzlich Trainingstagen,
Diskussionen, aber auch über das Monopol
von solchen Unternehmen, wie Google.
Gerade was Suchmaschinen angeht, müssen
wir definitiv reden. Herald: Alles was,
dann machen wir direkt weiter mit einer
Frage vom Signal-Engel aus dem Internet.
Signal-Engel: Das Internet fragt: Sollen
wir das mit dem Deep Learning dann
eigentlich lieber lassen? Oder seht ihr
auch sinnvolle Anwendungen, zum Beispiel
um irgendeinen hohen Datenaufwand für
freigiebige Nutzer irgendwie zu reduzieren
zum Beispiel.
Benjamin: Es sein zu lassen, ist
sicherlich nicht der richtige Ansatz. Das
zeigt sich ja, dass Deep Learming für
bestimmte Dinge sehr wertvoll ist. Wir
haben jetzt Beispiele gezeigt, wo es gut
funktioniert, schlechter funktioniert.
Gerade bei komplexen Dingen haben wir
wenig Ansätze, die anders gut
funktionieren. Die Verarbeitung
menschlicher Sprache zum Beispiel hat
einen Riesenschritt nach vorne gemacht
durch die Deep Learning, weil menschliche
Sprache so unglaublich komplex ist, dass
ich mit allen bisherigen Ansatz, bei denen
ich Silben zähle und Buchstaben vergleiche
oder so etwas nicht so wirklich
weiterkomme. Da brauche ich ganz viel
Wissen rein. Das heißt, man muss, aber man
muss sich eben überlegen. Ist es für
diesen Zweck der richtige Ansatz? Also,
ich will das jetzt nicht pauschal
beantworten. Das muss man sich gründlich
überlegen. Das sollte sicher Message sein.
Nadja: Wir stellen im Prinzip nicht die
Frage: Sollten wir die Planung verwenden,
sondern Wofür sollten wir es verwenden?
Und was müssen wir vorher bedenken?
Herald: Ich versuche, es mit den Fragen
hier im Raum so halbwegs chronologisch zu
machen. Aber mit Mikro 1 weiter.
Mik 1: Eine Frage zur Reproduzierbarkeit.
Ich saß gerade in einem Lightening Talk,
Da hatte jemand genau das Problem, das
nicht reproduzieren konnte. Eine seiner
Hauptforderungen, um das zu beheben, war,
das alles, was man braucht, zum
Reproduzieren zur Verfügung gestellt wird
und dass das auch von Journals enforced
wird. Über Reviews oder über irgendwelche
andere Sachen. Sieht Ihr, dass es
irgendwelche Bestrebungen in diese
Richtung gibt. Oder es ist ein zu großer
Hype, als dass man da irgendwie eingreifen
könnte sinnvoll.
Benjamin: Es gibt, wie
gesagt,
diese Sigel bei vielen Konferenzen,
sicherlich auch bei Journals. Je nach Feld
in dem Bereich, hier wird gar nicht so
viel in Journals publiziert, weil man
Konferenzen leichter hinkriegt. Und alles
geht schneller, Journals dauert irgendwie
immer zu lang. Es wäre
wünschenswert, dass da mehr passiert.
Dafür müssen sich aber quasi
diese Ältestenrates, die sich
zusammensetzen und diese Konferenzen
planen, organisieren, dafür entscheiden,
dass für sie das auf der Liste auch so
weit oben ist, dass sie das erzwingen.
Bisher ist es alles optional.
Wünschenswert wäre es definitiv.
Nadja: Sicherlich reden wir doch in
irgendeiner Form über Regularien. Und
dabei müssen wir dann immer noch
unterscheiden zwischen öffentlich
geförderten Forschungseinrichtungen und
privater Forschung. Das ist nämlich sehr
unterschiedliche Herausforderungen.
Herald: Okay, dann gehen wir gerade mal
kurz zum Mikro Nr. 7 da ganz am Rand.
Mik 7: Hallo, danke für den Vortrag.
Haltet ihr AGI für möglich? Und wann
könnte es soweit sein?
Nadja: AGI Omnipotenz, Intelligenz oder
...
Mik 7: Artifical General Intelligence.
Nadja: Momentaner Forschungsstand "Hell
know". Das war eine relativ
unprofessionelle Antwort. Aber momentan
haben wir hauptsächlich sehr
spezialisierte Expertensysteme, die genau
ein detailreichen Task machen kann. Selbst
bei Sprachassistenzsystemen, die irgendwie
ein Paar Tasks, die noch immer eine sehr
eingeschränkte Menge machen, haben in
aktuellen Forschungsstand zwar große
Fortschritte, aber man kann sie ja sehr
einfach die Schwächen ausnutzen. Es gibt
eine total spannende Professorin in USA,
die sagt, gibt mir irgendeinen
Sprachverarbeitungsystem, in drei Fragen
mache ich spätestens kaputt, und sie hat
es bisher immer geschafft. Wir haben
momentan mit dem aktuellen Stand der
Technik ziemlich krasse Limitationen in
den nächsten Jahren. Ich persönlich nicht
kommen. Grundsätzlich ist die künstliche
Intelligenz aber auf allen Ebenen etwas,
das sie im Auge behalten sollen. Also ich
würde auch wiederum nicht behaupten, dass
davon keinerlei Gefahr ausgeht.
Benjamin: Es ist aber
auch nicht der
zentrale Punkt zur Zeit.
Das meiste, was, woran die Leute
forschen, sind spezialisierte Systeme und
vielleicht noch zusätzliche Systeme, die
vorne dran gestellt werden, die dann
entscheiden, an welches Teilsystem das
Ganze weitergereicht wird. Aber daran zu
forschen, ein weltverstehendes System, was
irgendwie auch noch beliebige Formate von
Antworten geben kann, so sowas zu bauen,
das gibt es sicherlich die Forschung. Aber
es ist nicht das, was irgendwie auch in
den Publikationen Platz findet, weil man
dort überhaupt nicht soweit wäre und das
andere einfach viel einfacher ist und man
da vielleicht was veröffentlichen kann.
Wen das Fachliche interessiert, wäre das ein
schönes Einstiegspunt in das ein semantische
Modellierung. Weil wir bei vielen
Künstliche Intelligenzen darüber sprechen,
ist das Allgemeinwissen,
Hintergrundwissen, diese ganzen Sachen
fehlen und die Darstellung dafür auch. Das
ist eine der großen Herausforderungen,
so als Stichwort.
Herald: Okay. Nehmen wir doch eine Frage
aus dem Internet.
Signal-Engel: Ich sage erst mal Liebe
Grüße aus D. 120, das wisst ihr jetzt
besser als ich. Nadja lacht Die Frage
ist Ist die Reproduzierbarkeit nur oder
gerade im Deep Learning ein Problem, oder
betrifft das nicht sogar große Teile der
machienelearning Forschung?
Nadja: Definitiv große Teile
der machiene learning
Forschung. Ehrlich gesagt auch
darüber hinaus.
Reproduzierbarkeit ist bei
fast allen wissenschaftlichen
Publikationen ein Faktor, es gibt nur die
Sachen, die dafür anfälliger und weniger
anfällig sind. Gerade wenn man über
digitale Themen reden. Aber an sich
Reproduzierbarkeit ist immer in der
Forschung gewünscht und leider nicht weit
genug verbreitet. Also defintiv die
gesamte Informatik generell.
Benjamin: Generell vieles, was wir hier
gesagt haben, trifft auf machiene learning
im Allgemeinen zu. Aber das Deep Learning,
gerade durch diese riesigen Datenmengen
und so weiter. Da treten die Effekte
verstärken besonders auf. Deswegen haben
wir uns hier darauf konzentriert. Aber man
kann es auch beliebig...
Nadja: Und gerade weil es ein Passwort
ist, macht es auch nochmal
anfälliger dafür .
Herald: Ok, dann Mikrophon Nr. 8.
Mik 8: Daran anschließend. Ich hab
irgendwie das Gefühl, dass es ein großer
Teil auch Publicationsbios ist, wo so
lange gespielt wird an den Daten, bis
irgendwie ein Ergebnis raus kommt. Und ich
hab, es ist so einen Trend in der Psychologie, wo
die das Problem ganz massiv hatten. Und
die haben das dadurch gelöst, dass die
sagen, Hey, ich muss die Studien bei
manchen Journals vorregistrieren, so: Dass
sind meine. Das möchte ich machen. Und
dann kommt am Ende vielleicht ein
negativer Ergebnis raus. Gibt es da
Bemühungen, machiene learning, sodass man
sagt: Ich publiziere den Korpus vorher,
den ich auf dem ich lernen will, und wenn
dann nichts funktioniert, dann ist das
halt so.
Nadja: Ich würde
sagen, es ist relativ schwer
zu beantworten für den Bereich,
weil es vielleicht nicht ganz so
funktioniert. Ein Datenkorpus zu
publizieren an sich. Es gibt zum Daten
Konferenzen, die sich einfach auf sowas
konzentrieren. Aber auf einem Korpus kann
ich sehr viele Dinge tun, und dadurch
hilft mir das noch nicht unbedingt. Ich
glaube, dass da die Fragestellung einfach
komplexer ist. Ich kenne keine konkreten
Bemühungen, die jetzt in eine Richtung
gehen. Ich fände es wünschenswert...
Benjamin: Es wäre definitiv wünschenswert.
Aber es wird in der Form kaum gemacht. Es
sind eben keine. Ich bin bisher fast
nirgendwo. Oder bei den großen
Konferenzen bin ich niemals gezwungen,
vorher zu sagen, was ich glaube, wie es
ausgeht, sondern ich liefere erst wenn ich
mein Ergebnis vorstelle, sage ich, was da
rauskommt und welche Fehlschläge ich hatte
und ob ich überhaupt verklausuliert ins
Paper reinschreiben oder ob es komplett
sein lasse. Da zwingt mich niemand zu.
Nadja: Es gibt ein paar Bestrebungen, die
Publikation von Fehlschlägen oder
Messergebnissen zu machen. Aber auch das
wird immer noch von so vielen Leuten
belächelt, so als Unterhaltungsmedium mehr
als ernst zu nehmende Wissenschaft. Das
glaube ich auch ein Problem, weil
dadurch die gleichen
Fehler z.B. im machiene learning,
gerade wo wir nicht
systematisch arbeiten,
sondern auch ein bisschen nach
Bauchgefühl gehen müssen, wiederholt
werden, was eigentlich unmöglich ist.
Dieser typische Satz, das weiß man doch,
dass der Ansatz da nicht funktioniert.
Woher soll man das wissen, wenn
man noch studiert?
Herald: Okay, wir haben noch Zeit für eine
kurze Frage und gehen zum Mikrofon 5.
Mik 5: Ich will ein paar Details zu dieser
Beschreibung von Black Box Wissen. Ich
weiß, dass man durch featuremaps das
Netzwerk untersuchen kann, und wollte
wissen, was hier eine Blackbox, weil es
ist nicht so Black entscheidend.
Nadja: Es kommt drauf an wie die Systeme
gebaut sind. Es gibt zum Beispiel einen
Ansatz von Explainable Neural Netz (ExNN),
durchaus Valides Konzepts, und es wird
auch eingesetzt. Es gibt aber auch
Architekturen, die per se erst einmal
völlig unlesbar sind, und die Ansätze, die
darauf existierende Erklärbarkeit
reinzubringen, sind noch sehr beschränkt.
Es gibt sie. Sie tun auch sinnvolle Dinge
im Bereich, aber zum Beispiel beschränken
sie sich oft nur auf den Bereich des
eigentlichen Modells, was trainiert wurde.
Die Pipeline der Maschinenlearning ist aber
viel länger. Die beginnt ja schon bei der
Datenerhebung, bei der Auswahl, bei der
Verarbeitung. Bei der Auswahl der
Features, aber auch beim PostProcessing,
bei Evaluationsmetriken und so weiter.
Das sind alles irgendwo Stellschrauben für
Erklärbarkeit. Wir haben da auf jeden Fall
noch einen weiten Weg vor uns. Aber klar,
es gibt Bestrebungen in die Richtung, die
auch durchaus funktionieren
für das, wofür Sie gedacht sind.
Herald: Okay, dann sind wir am Ende der
Zeit angekommen. Vielen Dank nochmal Nadja
und Benjamin.
Applaus
36c3 Abspannmusik
Untertitel erstellt von c3subtitles.de
im Jahr 2020. Mach mit und hilf uns!