WEBVTT
00:00:00.000 --> 00:00:18.660
36C3 Vorspannmusik
00:00:18.660 --> 00:00:25.180
Herald: Ich freue mich ganz besonders,
jetzt den nächsten Vortrag ankündigen zu
00:00:25.180 --> 00:00:29.720
können, der zwei Themen vereint, die ich
beide interessant finde. Zwar geht es zum
00:00:29.720 --> 00:00:33.822
einen um Machine Learning, im Speziellen
Deep Learning, aber auch gleichzeitig um
00:00:33.822 --> 00:00:40.280
Nachhaltigkeit. Wie das Ganze verbunden
werden kann und ob vielleicht der Deep
00:00:40.280 --> 00:00:44.591
Learning Hype irgendwie doch zu groß ist,
erklären uns Nadja Geisler und Benjamin
00:00:44.591 --> 00:00:48.910
Hättasch, die an der TU Darmstadt arbeiten
und forschen oder irgendwo zwischendrin
00:00:48.910 --> 00:00:55.290
sind. Und deswegen will ich jetzt gar
nicht weiter groß reden und freue mich auf
00:00:55.290 --> 00:00:57.739
den Talk. Herzlich willkommen, Nadja und
Benjamin!
00:00:57.739 --> 00:01:04.189
Applaus
00:01:04.189 --> 00:01:07.120
Nadja Geisler: Herzlichen Dank! Hallo
erstmal und schön, dass wir hier sein
00:01:07.120 --> 00:01:10.740
können, schön das ihr alle hier seid. Wir
freuen uns wirklich wahnsinnig. Es ist für
00:01:10.740 --> 00:01:13.770
uns beide auch der erste Kongress, und das
ist etwas ganz Besonderes dann auch gleich
00:01:13.770 --> 00:01:18.100
hier oben zu stehen. Ich bin Nadja und wie
er schon gesagt hat, bin ich mit dem
00:01:18.100 --> 00:01:20.300
Master-Studium an der TU Darmstadt fertig
und werde wahrscheinlich demnächst dort
00:01:20.300 --> 00:01:25.010
anfangen zu promovieren.
Benjamin Hättasch: Ich mache das schon
00:01:25.010 --> 00:01:29.320
seit zwei Jahren und habe festgestellt:
Ich will mich nicht nur damit
00:01:29.320 --> 00:01:32.810
beschäftigen, irgendwie toll Deep Learning
anzuwenden, sondern ein bisschen drüber
00:01:32.810 --> 00:01:36.229
nachzudenken, was das alles so bedeutet.
Und weil wir da einiges herausgefunden
00:01:36.229 --> 00:01:38.920
haben, sind wir heute hier, um euch das
auch zu erzählen.
00:01:38.920 --> 00:01:42.970
Nadja: Unser Talk ist so zustande
gekommen, dass wir das 36C3 Motto gesehen
00:01:42.970 --> 00:01:47.590
haben und uns dachten: Nachhaltigkeit
vereint doch eigentlich mehrere Aspekte,
00:01:47.590 --> 00:01:50.240
die wir schon immer spannend fanden, was
das Thema Deep Learning und maschinelles
00:01:50.240 --> 00:01:53.960
Lernen angeht. Aspekte, die sich unter dem
Stichwort zusammenfassen lassen, obwohl
00:01:53.960 --> 00:01:56.829
sie an sich sehr unterschiedlich sind und
mit dem wir uns in verschiedene Art schon
00:01:56.829 --> 00:02:00.539
beschäftigt hatten. Zu den Aspekten wollen
wir euch heute was erzählen, weil gerade
00:02:00.539 --> 00:02:04.299
das Thema Nachhaltigkeit momentan
besonders aktuell, besonders wichtig und
00:02:04.299 --> 00:02:09.520
besonders relevant für unsere Zukunft ist.
Bevor wir aber auf die drei verschiedenen
00:02:09.520 --> 00:02:12.370
Ebenen von Nachhaltigkeit, über die wir
reden wollen, eingehen, das ist die
00:02:12.370 --> 00:02:15.550
wissenschaftliche Ebene, die
gesellschaftliche Ebene und die Umwelt-
00:02:15.550 --> 00:02:19.790
Ebene, müssen wir zuerst klären: Wovon
reden wir, wenn wir Deep Learning sagen?
00:02:19.790 --> 00:02:23.770
Was sind die absoluten Basics für das, was
wir die nächsten 30, 45 Minuten reden
00:02:23.770 --> 00:02:28.370
werden? Was müsst ihr wissen, damit wir
euch gut mitnehmen können? Und das wollen
00:02:28.370 --> 00:02:31.190
wir jetzt machen. Das beinhaltet unter
anderem: was meinen Sie damit, wenn wir
00:02:31.190 --> 00:02:34.430
Deep Learning sagen? Wie funktioniert das
auf einer intuitiven Ebene, nicht so sehr
00:02:34.430 --> 00:02:38.360
auf einer detailreichen technischen Ebene?
Und wozu wird das aktuell jetzt schon
00:02:38.360 --> 00:02:44.920
angewendet? Und wenn Deep Learning sagen,
dann vor allem dieses Konstrukt, was sich
00:02:44.920 --> 00:02:50.290
dann neuronales Netz nennt, Artificial
Neural Network auf Englisch. Das sind so
00:02:50.290 --> 00:02:53.500
Machine Learning Konstrukte, die es schon
sehr lange gibt, die dann zwischendurch
00:02:53.500 --> 00:02:56.360
mal eine starke Flaute in der Beliebtheit
haben, weil sie eben doch nicht die
00:02:56.360 --> 00:03:00.070
Ergebnisse gebracht haben, die man sich
erhofft hatte. Inzwischen sind sie wieder
00:03:00.070 --> 00:03:04.670
extrem beliebt, um alle möglichen
Probleme, Aufgaben im maschinellen Lernen
00:03:04.670 --> 00:03:09.790
anzugehen. Dabei bezeichnet ein neuronales
Netz im Wesentlichen eine Verknüpfung von
00:03:09.790 --> 00:03:13.510
Knoten. Diese Knoten können je nach
Architektur verschieden miteinander
00:03:13.510 --> 00:03:16.210
vernetzt und durch verschiedene
mathematische Funktionen verbunden sein.
00:03:16.210 --> 00:03:20.730
Jeder Knoten wiederum repräsentiert
eigentlich nur eine nichtlineare
00:03:20.730 --> 00:03:25.500
Berechnungsfunktion. So weit, so logisch.
Wir berechnen also sehr, sehr viel. Und
00:03:25.500 --> 00:03:28.820
wenn diese Gewichte zwischen den
Berechnungen erst einmal fertig bestimmt
00:03:28.820 --> 00:03:32.340
sind, sprich wenn das neuronale Netz
trainiert ist, dann lässt sich für jede
00:03:32.340 --> 00:03:37.030
numerische Eingabe, die man im Netz gibt,
auch eine entsprechende Ausgabe bestimmen.
00:03:37.030 --> 00:03:40.640
Diese Ausgabe macht dann Aussagen über
irgendwelche Größen, über irgendwelche
00:03:40.640 --> 00:03:44.330
Klassifizierungen oder irgendwelche
Zuordnungen. Die wichtigste Voraussetzung
00:03:44.330 --> 00:03:47.860
für viele, wenn auch nicht alle Arten von
neuronalen Netzen, sind entsprechende
00:03:47.860 --> 00:03:51.660
Trainingsdaten und die auch noch in großer
Menge. Ob diese Trainingsdaten gelabelt
00:03:51.660 --> 00:03:55.280
sein müssen, also so etwas wie schon eine
Bezeichnung der eigentlichen Zielgröße
00:03:55.280 --> 00:03:59.310
haben müssen vorher oder nicht, das kann
unterschiedlich sein, ist aber an der
00:03:59.310 --> 00:04:02.310
Stelle auch gar nicht so relevant. Was wir
brauchen, sind wahrscheinlich sehr, sehr
00:04:02.310 --> 00:04:05.880
viele Daten, wenn wir mit neuronalen
Netzwerken arbeiten wollen. Anhand dieser
00:04:05.880 --> 00:04:09.970
Daten, die möglichst vielfältig, möglichst
repräsentativ sein sollten für die spätere
00:04:09.970 --> 00:04:14.560
Wirklichkeit oder das, was wir dann damit
bearbeiten und einfangen wollen, daran
00:04:14.560 --> 00:04:19.230
wird das Modell gelernt. Um das Modell
später einzusetzen, das sieht man hier
00:04:19.230 --> 00:04:22.449
ganz gut, wenn man einmal von links nach
rechts schaut, braucht man zunächst
00:04:22.449 --> 00:04:25.430
Inputdaten. Die müssen in einem
numerischen Format sein. Wie man da
00:04:25.430 --> 00:04:27.840
hinkommt? Das sind sehr viele verschiedene
Methoden, aber an dieser Stelle auch gar
00:04:27.840 --> 00:04:31.410
nicht so weit relevant. Diese Inputdaten
gehen dann zu diesen Knoten, zu den
00:04:31.410 --> 00:04:35.570
Neuronen, und jedes Neuron repräsentiert
irgendwo an bestimmte eine bestimmte
00:04:35.570 --> 00:04:39.320
Eigenschaft, ein bestimmtes Feature. Bei
einer Bilderkennung könnte das eine Kante
00:04:39.320 --> 00:04:42.160
sein oder eine Ecke oder ein
Helligkeitsunterschied, ganz verschiedene
00:04:42.160 --> 00:04:46.710
Dinge. Je weiter wir in das neuronalen
Netz reingehen, je tiefer die Ebenen
00:04:46.710 --> 00:04:49.860
werden, desto höher-levelig sind die
Eigenschaften, die wir repräsentieren. Das
00:04:49.860 --> 00:04:52.850
Problem bei der ganzen Sache ist
normalerweise, dass wir gar nicht so genau
00:04:52.850 --> 00:04:56.850
wissen, was dieses Neuron repräsentiert.
Bei einem Algorithmus, der Bilder
00:04:56.850 --> 00:05:00.330
klassifiziert, der zum Beispiel Hunde und
Wölfe voneinander entscheiden kann, können
00:05:00.330 --> 00:05:03.310
wir uns nicht ein Neuron anschauen und
können sagen: Aha! Das da schaut, ob da
00:05:03.310 --> 00:05:06.650
eine Kante ist, die einen Schwanz
repräsentieren könnte. Sondern es sind für
00:05:06.650 --> 00:05:10.110
uns einfach irgendwelche Zahlenwerte, die
wir nicht weiter interpretieren können.
00:05:10.110 --> 00:05:13.200
Das bedeutet, wir haben Black Box Modelle.
Wir verstehen also nicht im Detail,
00:05:13.200 --> 00:05:15.830
welches Gewicht wofür steht, was wir
eigentlich gelernt haben. Und im
00:05:15.830 --> 00:05:19.820
Endeffekt, wenn ein Input reingeht, warum
der Output rauskommt, der am Ende
00:05:19.820 --> 00:05:27.030
tatsächlich herauskommt. Das bildet also
im Prinzip die Basis für alle Systeme, die
00:05:27.030 --> 00:05:29.240
irgendwie als Teil von Deep Learning
bezeichnet werden.
00:05:29.240 --> 00:05:35.650
Benjamin: Was wir da an der Stelle also
haben, ist: Wir nehmen Mathe, wir nehmen
00:05:35.650 --> 00:05:43.010
große Mengen von Daten und wenden einfach
Tricks aus der Statistik an. Wir nutzen
00:05:43.010 --> 00:05:47.240
aus, dass bestimmte Dinge, wenn man es nur
oft genug betrachtet, wenn man es nur oft
00:05:47.240 --> 00:05:52.400
genug anwendet, durchführt, dann eine
gewisse Systematik ergeben, dass man
00:05:52.400 --> 00:05:58.590
Muster erkennen kann. Wir generalisieren.
Wie man hier also sieht, werden einfach
00:05:58.590 --> 00:06:06.880
Tricks übernommen, die es in der Statistik
schon seit vielen hundert Jahren gibt. Und
00:06:06.880 --> 00:06:11.050
dafür angewandt, um jetzt irgendwie zu
versuchen, aus einem Haufen Daten, ohne
00:06:11.050 --> 00:06:15.370
ihn wirklich zu verstehen, ohne genau zu
wissen, was da drinsteckt, einfach durch
00:06:15.370 --> 00:06:21.053
schiere Masse, Muster zu erkennen und
dann hoffentlich zu wissen: Okay, wenn ich
00:06:21.053 --> 00:06:25.610
jetzt weit genug generalisiert habe, wird
mein System schon irgendwie gut genug sein
00:06:25.610 --> 00:06:34.940
für mein Anwendungszweck. Das hat aber,
obwohl der Name Deep Learning und
00:06:34.940 --> 00:06:41.250
Künstliche Intelligenz, alles nicht so
wahnsinnig viel damit zu tun, was wir als
00:06:41.250 --> 00:06:47.160
Intelligenz verstehen, was wir als Lernen
verstehen. Der Tweet hier fasst das ganz
00:06:47.160 --> 00:06:52.690
gut zusammen. Er sagt, das menschliche
Hirn funktioniert ganz anders. Wenn das
00:06:52.690 --> 00:06:55.990
menschliche Hirn so wie Deep Learning
funktionieren würde, dann müssten wir
00:06:55.990 --> 00:07:01.160
einfach 200 mal ins Gesicht geschlagen
werden, bevor wir überhaupt raffen, dass
00:07:01.160 --> 00:07:04.370
wir das nicht mögen. So ist das
tatsächlich wenn ich bei Deep Learning,
00:07:04.370 --> 00:07:09.040
wenn ich ihm 50, 100, 200 Wölfe und Hunde
zeige, dann weiß das System noch gar
00:07:09.040 --> 00:07:14.139
nichts, weil es nicht schnell genug
interpretieren kann, nicht genug Kontext-
00:07:14.139 --> 00:07:17.870
Informationen einbeziehen kann, nicht
genug von all dem nutzen können, was das
00:07:17.870 --> 00:07:22.690
menschliche Hirn, was wir können, wenn wir
irgendwas machen, um irgendwie
00:07:22.690 --> 00:07:27.910
Entscheidungen zu treffen. Und das ist ein
großes Problem. Warum genau, werden wir
00:07:27.910 --> 00:07:36.370
gleich nochmal im Detail besprechen. Sorgt
aber dafür, dass wir einfach nur auf Masse
00:07:36.370 --> 00:07:39.699
gehen und dadurch einfach eine bestimmte
Genauigkeit so leicht nicht erreichen
00:07:39.699 --> 00:07:43.410
können, wie wir sie gerne hätten.
Nadja: Die intuitive Ursprungsidee hinter
00:07:43.410 --> 00:07:47.870
neuronalen Netzen war tatsächlich mal
sozusagen die Funktionalität des Gehirns
00:07:47.870 --> 00:07:51.060
nachzubauen. Unsere Neuronen feuern auch,
sind miteinander vernetzt, können
00:07:51.060 --> 00:07:55.570
irgendwelche Dinge auslösen. Das ist aber
heutzutage nicht mehr wie Neuronale Netze
00:07:55.570 --> 00:07:58.639
funktionieren. Wir bilden damit nicht
wirklich die Funktion organischer Gehirne
00:07:58.639 --> 00:08:01.919
nach, sondern und das war zwar die
Intuition dahinter, das funktioniert aber
00:08:01.919 --> 00:08:08.030
tatsächlich sehr anders. Der für uns
interessante Teil ist aber inzwischen, wie
00:08:08.030 --> 00:08:11.920
wird das Ganze eigentlich angewendet, wo
begegnet uns das im Alltag, nicht nur in
00:08:11.920 --> 00:08:15.480
Forschungslabors, nicht nur in
akademischen Institutionen, sondern auch
00:08:15.480 --> 00:08:18.970
tatsächlich in Systemen, die wir jeden Tag
benutzen, die inzwischen weit verbreitet
00:08:18.970 --> 00:08:23.620
sind. Mit allen Nach- und Vorteilen, nach
der großen Flaute, von der wir es eben
00:08:23.620 --> 00:08:28.470
schon kurz hatten, erlebt das Feld gerade
wieder ein riesiges Hoch, und sie sind in
00:08:28.470 --> 00:08:31.610
so vielen Bereichen im Einsatz, dass einen
kurzen Überblick davon zu verschaffen
00:08:31.610 --> 00:08:35.519
quasi unmöglich ist. Extrem weit
verbreitet sind Sachen wie
00:08:35.519 --> 00:08:39.370
Sprachassistenten. In den letzten Jahren
Siri, Alexa, Echo, all das. Sie müssen so
00:08:39.370 --> 00:08:42.199
etwas können, wie Sprachverarbeitung, die
müssen so etwas können wie
00:08:42.199 --> 00:08:45.370
Textverarbeitung, die müssen
Sprachsynthese beherrschen, sie müssen
00:08:45.370 --> 00:08:47.710
auch irgendwo Information Retrieval
beherrschen und tatsächlich auch die
00:08:47.710 --> 00:08:52.599
Informationen aus dem riesigen
Informationscluster, der das Internet nun
00:08:52.599 --> 00:08:57.860
mal ist, hervorzuholen. Aber auch weit
verbreitet durch solche Unternehmen wie
00:08:57.860 --> 00:09:01.050
Tesla oder Uber sind inzwischen die
Bereiche des autonomen Fahrens oder
00:09:01.050 --> 00:09:04.779
generell des autonomen Transports, die
sich dann eher mit vielleicht
00:09:04.779 --> 00:09:08.730
Bilderkennung bearbeiten müssen, mit
Navigation, mit Fein-Kontrolle an
00:09:08.730 --> 00:09:12.600
motorischen Bauteilen etc. Nicht ganz so
offensichtlich, aber dennoch, wenn man
00:09:12.600 --> 00:09:16.509
darüber nachdenkt oder wenn man es gesagt
bekommt, dann doch sehr gut sichtbar: Für
00:09:16.509 --> 00:09:20.410
alle Menschen im Alltag sind
Recommendation Systems, so etwas wie
00:09:20.410 --> 00:09:23.750
"Amazon Kunden kauften auch", "Sie könnte
interessieren", alles, was uns irgendwie
00:09:23.750 --> 00:09:28.660
Vorschläge generiert. Die Sortierung von
Google Ergebnissen oder generell von
00:09:28.660 --> 00:09:32.339
Suchmaschinen, wie mir Ergebnisse
angezeigt werden, was wie gerankt wird.
00:09:32.339 --> 00:09:36.360
Aber auch sowas wie, was zeigt mir mein
Facebook Newsfeed überhaupt an? Wer
00:09:36.360 --> 00:09:40.119
bekommt was, wann und wie oft zu sehen?
Das ist bei weitem nicht so
00:09:40.119 --> 00:09:44.529
straightforward, nicht so offensichtlich,
wie sich das viele Leute denken. Deutlich
00:09:44.529 --> 00:09:48.279
weniger bekannt sind dann schon Systeme,
die sowas wie
00:09:48.279 --> 00:09:52.020
Rückfälligkeitseinschätzungen für
straffällig gewordene machen, die in
00:09:52.020 --> 00:09:55.589
Gerichtsverfahren dazu verwendet werden,
um anhand von irgendwelchen Scores
00:09:55.589 --> 00:10:02.100
Strafmaße zu vergeben. Das geschieht in
den USA schon seit Jahren. Aber auch
00:10:02.100 --> 00:10:05.770
Sachen, die anhand von Gesichtserkennung
versuchen, verdächtige Personen zu
00:10:05.770 --> 00:10:12.279
identifizieren, oder die Scoring
Algorithmen, die für irgendwelche sozialen
00:10:12.279 --> 00:10:16.810
Systeme verwendet werden oder zur
Einschätzung für Versicherungen verwendet
00:10:16.810 --> 00:10:21.939
werden. Aber auch Einstellungsverfahren,
die anhand von Stichwörtern, von
00:10:21.939 --> 00:10:26.160
Lebensläufen, noch bevor jemals jemand auf
die Unterlagen drauf geschaut hat,
00:10:26.160 --> 00:10:31.589
Kandidatinnen aussortieren.
Benjamin: Diese Systeme arbeiten auch da
00:10:31.589 --> 00:10:35.140
wieder so, dass wir häufig nicht
verstehen, genau was sie tun. Teilweise
00:10:35.140 --> 00:10:38.889
so, dass man im Nachhinein denkt: Um
Gottes Willen, wie können die so
00:10:38.889 --> 00:10:43.480
funktionieren? Das heißt, sowohl diese
Einstellung bei Gesichtsinterpretation
00:10:43.480 --> 00:10:49.819
oder für Bewerbungsverfahren, wo ein 15
sekündiges Video analysiert wird,
00:10:49.819 --> 00:10:54.499
übernimmt regelmäßig solche Systeme wie,
wir messen jetzt Abstand zwischen Augen,
00:10:54.499 --> 00:10:58.561
Nase, Mund, was weiß ich, was wir leider,
wenn man ganz ehrlich ist, kennen aus
00:10:58.561 --> 00:11:03.660
irgendwelcher Genetik, die die Nazis
betrieben haben, um irgendwelche
00:11:03.660 --> 00:11:10.139
überlegenen Rassen zu identifizieren. Und
solche Dinge werden in Systemen heutzutage
00:11:10.139 --> 00:11:14.230
eingesetzt. Nicht unbedingt absichtlich.
Aber wenn man sich die Mühe macht zu
00:11:14.230 --> 00:11:17.379
verstehen, was das System eigentlich
tut, stellt man plötzlich mit großem
00:11:17.379 --> 00:11:21.119
Bedauern fest, dass es genau das tut.
Nadja: In all diesen Bereichen, in allen
00:11:21.119 --> 00:11:24.620
Unteraufgaben davon und noch viel mehr
kommen diese Deep Learning Systeme mit all
00:11:24.620 --> 00:11:28.300
ihren Nachteilen und oftmals mit
unbeabsichtigten Nebenwirkungen aktuell
00:11:28.300 --> 00:11:34.379
zum Einsatz. Und es werden immer mehr.
Genug dazu, was die Grundlage ist, genug
00:11:34.379 --> 00:11:37.300
dazu, was wir unter Deep Learning
verstehen und wo es angewendet wird. Wir
00:11:37.300 --> 00:11:39.389
wollen uns als nächstes mit
wissenschaftlicher Nachhaltigkeit
00:11:39.389 --> 00:11:44.190
beschäftigen. Und die erste Frage, die
sich die meisten Leute dazu stellen: Was
00:11:44.190 --> 00:11:47.699
bedeutet denn wissenschaftliche
Nachhaltigkeit eigentlich? Wenn wir das
00:11:47.699 --> 00:11:51.999
sagen, meinen wir solche Fragen wie, wie
relevant ist eigentlich das Thema, an dem
00:11:51.999 --> 00:11:56.100
wir forschen? Wie relevant sind meine
Ergebnisse für die Zukunft, für die
00:11:56.100 --> 00:12:00.079
weitere Entwicklung des Feldes, für den
Alltag der Menschen, um die es
00:12:00.079 --> 00:12:04.529
letztendlich geht? Wir fragen uns aber
auch: Können wir diese Ergebnisse
00:12:04.529 --> 00:12:09.129
überhaupt reproduzieren? Kann irgendjemand
anderes, wenn er dieses Paper gelesen hat,
00:12:09.129 --> 00:12:11.879
zu den gleichen Zahlen, zu dem gleichen
Ergebnis oder zumindest zu der gleichen
00:12:11.879 --> 00:12:16.399
Größenordnung kommen? Haben wir die dazu
notwendigen Mittel? Haben wir die Details
00:12:16.399 --> 00:12:21.450
publiziert? Und sind die Ergebnisse so
verlässlich, dass es möglich ist? Wir
00:12:21.450 --> 00:12:24.399
meinen auch: Können wir Dinge, die in der
Forschung entwickelt werden,
00:12:24.399 --> 00:12:28.110
wiederverwenden? Oder sind sie nur für
diese eine sehr spezielle Aufgabe
00:12:28.110 --> 00:12:32.559
relevant? Wir meinen auch: Sind wir
konkurrenzfähig? Oder sind andere Systeme,
00:12:32.559 --> 00:12:36.709
die mit den gleichen oder sogar weniger
Aufwand entwickelbar, einsetzbar sind,
00:12:36.709 --> 00:12:41.300
nicht vielleicht sogar besser? Wir meinen
auch: Mit welcher Systematik wurde dieses
00:12:41.300 --> 00:12:45.889
System gebaut? Nach welchem System wurde
untersucht, was an dieser Stelle hilfreich
00:12:45.889 --> 00:12:49.920
ist und was nicht? Oder war das völlig
willkürlich? Und schlussendlich meinen wir
00:12:49.920 --> 00:12:52.660
auch: Was ist die Aussagekraft meiner
Ergebnisse? Wie war die
00:12:52.660 --> 00:12:57.910
Evaluationsmethodik? Was ist dabei am Ende
rausgekommen, was tatsächlich relevant,
00:12:57.910 --> 00:13:07.999
nennenswert, statistisch signifikant ist?
Benjamin: Und an der Stelle überlegen wir
00:13:07.999 --> 00:13:11.149
uns kurz, ich weiß nicht, einige von euch
kommen sicherlich aus dem
00:13:11.149 --> 00:13:16.320
wissenschaftlichen Bereich, andere aus der
Industrie, ist völlig egal, wie man sich
00:13:16.320 --> 00:13:20.459
eigentlich wünschen würde, dass
Wissenschaft funktioniert, nämlich
00:13:20.459 --> 00:13:24.260
irgendwie systematisch. Menschen denken
sich Dinge aus, überprüfen sie, stellen
00:13:24.260 --> 00:13:28.239
fest, sie stimmen, und alles ist gut.
Tatsächlich haben wir in diesem Bereich
00:13:28.239 --> 00:13:34.910
häufig, sehr häufig, ein völlig anderes
Verfahren. Es gibt Publikationen zu
00:13:34.910 --> 00:13:37.154
irgendwelchen Arten: Wie
kann man diese
00:13:37.154 --> 00:13:38.154
Neuronen, die wir vorhin hatten,
wie kann man diese Modelle
00:13:38.154 --> 00:13:41.769
aufbauen? Was kann man
da machen? Dass die Daten dadurch fließen?
00:13:41.769 --> 00:13:47.149
Dazu denken sich Leute was aus. Dann
publizieren sie das, veröffentlichen das,
00:13:47.149 --> 00:13:51.249
und andere Leute denken sich, okay, das
klingt doch spannend. Lass das mal nehmen,
00:13:51.249 --> 00:13:55.449
um daraus jetzt irgendwie für meinen
Anwendungsfall ein neues System zu bauen.
00:13:55.449 --> 00:13:59.639
Das heißt, Sie nehmen dieses Modell, was
man irgendwo gehört hat, was gerade durch
00:13:59.639 --> 00:14:07.450
die Fachwelt geistert. Dann überlegt man
sich grob: Wie baut man das auf? Wie nehme
00:14:07.450 --> 00:14:12.540
ich das? Ich packe jetzt so viele
Schichten von diesem Typ hintereinander.
00:14:12.540 --> 00:14:17.440
Sagen wir mal so und so viele, und die
Schichten machen wir so groß, wir arbeiten
00:14:17.440 --> 00:14:21.540
jetzt mit so und so vielen dimensionalen
Vektoren. Das denkt man sich einfach aus,
00:14:21.540 --> 00:14:24.019
was irgendwie plausibel klingt.
Dann guckt man,
00:14:24.019 --> 00:14:25.019
dass man die Daten noch
irgendwie so lange schlägt,
00:14:25.019 --> 00:14:28.410
bis sie irgendwie halbwegs
in das Format reinpassen, was man gerade
00:14:28.410 --> 00:14:31.579
haben will, macht da irgendwelche
numerischen Werte draus, auf teilweise
00:14:31.579 --> 00:14:36.579
sehr fragwürdige Art und Weise. Und dann
wird das Ganze in das Netzwerk gepackt,
00:14:36.579 --> 00:14:39.749
und das ganze Ding nennt sich ja Deep
Learning. Das heißt, jetzt kommt das
00:14:39.749 --> 00:14:44.119
Lernen. Das basiert halt darauf, dass man
die Daten reinschiebt, guckt, wie gut es
00:14:44.119 --> 00:14:50.199
passt. Wie gut war die Vorhersage. Dann
anhand dessen das System anpasst, die
00:14:50.199 --> 00:14:53.649
Daten wieder durchfließen lässt und das
Ganze immer und immer wiederholt, bis man
00:14:53.649 --> 00:14:59.180
am Ende irgendwie schön Gewichte in diesen
Funktionen, die man im Prinzip
00:14:59.180 --> 00:15:04.610
konstruiert, geraten hat oder gelernt hat,
die plausibel erscheinen für den Zweck,
00:15:04.610 --> 00:15:08.449
den man braucht. Das ergibt dann das
Modell. Wenn die Zahlen, die dann
00:15:08.449 --> 00:15:12.910
rauskommen, auf den Daten mit dem man das
testet, ganz gut aussehen, dann nehmen die
00:15:12.910 --> 00:15:19.250
Leute das und schreiben ihr Paper darüber
und sagen Okay, für Klassifikationen von
00:15:19.250 --> 00:15:24.079
Wölfen gegen Hunde haben wir jetzt
folgende Architektur, folgendes Dings.
00:15:24.079 --> 00:15:28.089
Hier sind unsere Daten. Das sind die
Werte, die wir haben. Bitteschön, dass ist
00:15:28.089 --> 00:15:32.089
jetzt das tolle neue Forschungsergebnis.
Wenn die Werte nicht so gut aussehen, dann
00:15:32.089 --> 00:15:37.199
hat man wohl vielleicht die falsche State
of the Art System genommen, was gerade
00:15:37.199 --> 00:15:40.939
jemand veröffentlicht hat. Oder man hat
eine Schlicht zu wenig, eine Schicht zu
00:15:40.939 --> 00:15:44.939
viel, die Vektoren haben die falsche
Dimensionierung. Na naja, gut, dann rate
00:15:44.939 --> 00:15:50.080
ich eben neue Parameter. Ist ja alles nur
Strom und Zeit, lässt das Ganze weiter
00:15:50.080 --> 00:15:56.129
trainieren. Da laufen die GPUs heiß. Und
dann fängt man von vorne an damit und
00:15:56.129 --> 00:16:01.959
guckt, ob jetzt gute Zahlen rauskommen.
Und je nachdem sagt man dann, Okay, ich
00:16:01.959 --> 00:16:07.161
mache weiter, oder ich fall wieder durch.
Dazu kommt dann noch, das Ganze ist jetzt
00:16:07.161 --> 00:16:11.419
ja schon irgendwie ziemlich
unwissenschaftlich. Das ist nicht mal mehr
00:16:11.419 --> 00:16:16.159
empirische Forschung. Das ist wirklich
ausprobieren und hoffen, dass etwas Gutes
00:16:16.159 --> 00:16:21.809
rauskommt. Aber danach kann man jetzt ja
noch die üblichen Schönungs-Methoden
00:16:21.809 --> 00:16:27.359
anwenden, die es natürlich in der
Wissenschaft gibt, die man auch so leicht
00:16:27.359 --> 00:16:31.699
gar nicht finden kann. Leider. Man kann
natürlich jetzt sagen, ich zeige nur die
00:16:31.699 --> 00:16:34.990
Ergebnisse auf den Datensets, bei denen
die Zahlen gut aussehen, und auf dem
00:16:34.990 --> 00:16:38.450
zweiten Datensets mit den Fotos aus einer
anderen Perspektive oder mit einem anderen
00:16:38.450 --> 00:16:42.269
Hintergrund jetzt leider nicht gut
funktioniert hat, das muss ich ja
00:16:42.269 --> 00:16:46.879
niemandem erzählen. Das veröffentliche ich
einfach nicht mit. Das bleibt bei mir, und
00:16:46.879 --> 00:16:49.459
meinen anderen Zahlen sehen ja gut aus,
und das muss man jetzt erst mal jemand
00:16:49.459 --> 00:16:52.649
nachmachen und zeigen, dass es mit etwas
anderem nicht funktioniert. Selbst wenn
00:16:52.649 --> 00:16:56.839
nicht: Ich habe ja eine Publikation. Und
das ist leider in vielen Feldern
00:16:56.839 --> 00:17:00.669
heutzutage was, was wichtig ist. Irgendwo
bei einer wichtigen Konferenz ein Paper zu
00:17:00.669 --> 00:17:04.829
veröffentlichen, mit der man eine
minimale Verbesserung gegenüber dem
00:17:04.829 --> 00:17:10.080
bisherigen State of the Art gezeigt hat.
Natürlich kann ich außerdem, eigentlich
00:17:10.080 --> 00:17:13.790
sollte ich solche Experimente mehrfach
wiederholen und Mittelwerte bilden. Aber
00:17:13.790 --> 00:17:16.959
ich kann natürlich Experimente mehrfach
wiederholen und einfach nur den besten
00:17:16.959 --> 00:17:26.720
Score veröffentlichen. Und weitere solche
Tricks anwenden. Das heißt, wir haben
00:17:26.720 --> 00:17:32.360
sowieso schon einen schlechten Prozess,
der dann auch noch teilweise missbraucht
00:17:32.360 --> 00:17:37.510
wird, um schneller bessere Ergebnisse zu
kriegen und das dann zu publizieren. Das
00:17:37.510 --> 00:17:41.929
ist das, was wir viel in diesen Feldern
sehen. Definitiv nicht bei allen Papern.
00:17:41.929 --> 00:17:47.470
Gerade die Grundlagen Paper sind
sicherlich gut erforscht. Aber die vielen
00:17:47.470 --> 00:17:53.809
Anwendungspaper können an der Stelle, und
allein schon indem, wie sie entstanden
00:17:53.809 --> 00:17:57.519
sind, begründet, keinen wirklichen
Mehrwert liefern. Was ihre Relevanz und
00:17:57.519 --> 00:18:01.000
ihren Vorteil, der daraus entsteht,
ergibt.
00:18:01.000 --> 00:18:07.230
Nadja: Das Ganze ist natürlich plakativ
formuliert und natürlich bringen wir das
00:18:07.230 --> 00:18:10.850
Ganze ein bisschen auf den Punkt, um zu
überspitzen. Aber Tatsache ist, wenn man
00:18:10.850 --> 00:18:13.409
sich in einem Feld bewegt, was sehr viel
Druck hat, wenn man sich in einem Feld
00:18:13.409 --> 00:18:17.069
bewegt, was so viele mögliche Gründe und
so viele Dinge hat, die diese
00:18:17.069 --> 00:18:20.500
Fallstricke begünstigen, dann werden sie
auch immer mehr genutzt.
00:18:20.500 --> 00:18:29.679
Benjamin: Genau. Wir sehen natürlich
besonders, es gibt gerade im Deep Learning
00:18:29.679 --> 00:18:33.590
diese Möglichkeiten. Denn wir haben schon
gesagt: wir verstehen nicht, was diese
00:18:33.590 --> 00:18:36.850
Modelle tun normalerweise. Es gibt ein
Forschungsfeld, was daran arbeitet. Aber
00:18:36.850 --> 00:18:40.919
normalerweise verstehen wir nicht, was
diese Systeme tun. Das sind Blackbox
00:18:40.919 --> 00:18:43.890
Modelle, die kriegen Daten rein, damit
wird irgendwas damit gemacht. Am Ende
00:18:43.890 --> 00:18:49.950
kommen Daten raus. Das Ganze geht noch
über mehrere Schritte. Wir haben die
00:18:49.950 --> 00:18:53.520
Daten, die werden irgendwie
vorverarbeitet. Dann kommen die Daten
00:18:53.520 --> 00:18:57.730
rein, gehen durch dieses System, dann
werden sie eventuell nachverarbeitet. Am
00:18:57.730 --> 00:19:00.960
Ende muss noch evaluiert werden,
entschieden werden: Was ist jetzt richtig?
00:19:00.960 --> 00:19:04.260
Was ist exakt richtig? Was ist gerade so
richtig? Reicht mir das vielleicht, um es
00:19:04.260 --> 00:19:09.841
als als wahr, stimmt es schon so, um es in
meinem Paper zu publizieren? Was ich genau
00:19:09.841 --> 00:19:14.549
gemessen habe, wird häufig gar nicht erst
angegeben. Das heißt, dort ist es extrem
00:19:14.549 --> 00:19:21.260
leicht möglich, auf diese Art und Weise zu
arbeiten. Und gerade dadurch, dass überall
00:19:21.260 --> 00:19:27.570
heutzutage Expertinnen für dieses Feld
gesucht werden, dass überall jemand
00:19:27.570 --> 00:19:31.250
Anwendungen haben möchte für Deep
Learning, kommt man damit eben ganz gut
00:19:31.250 --> 00:19:34.950
durch. Deswegen passiert das dort
besonders. Man muss auf der anderen Seite,
00:19:34.950 --> 00:19:39.529
wenn man die guten Jobs kriegen will, auch
solche Publikationen vorweisen. Also wird
00:19:39.529 --> 00:19:44.389
das entsprechend gemacht. Und genauso: es
sind halt sehr viele Low Hanging Fruits
00:19:44.389 --> 00:19:50.179
dabei. Das heißt Dinge, wo man weiß, okay,
mit wenig eigenen, großartigen Ideen und
00:19:50.179 --> 00:19:56.549
mehr anwenden von Handwerkszeug kann ich
irgendwo was bauen, was es noch nicht
00:19:56.549 --> 00:20:02.690
gibt. Und solange ich der Erste dazu bin,
kriege ich das leichter hin. Ich muss mich
00:20:02.690 --> 00:20:06.019
nicht mit irgendwem vergleichen. Ich zeige
Okay, mein System kann das mit einer
00:20:06.019 --> 00:20:10.590
akzeptablen Genauigkeit, exakte Zahlen und
Ergebnissen. Damit bin ich die erste
00:20:10.590 --> 00:20:13.980
Person, die das geschafft hat, und kann
das entsprechend veröffentlichen. Deswegen
00:20:13.980 --> 00:20:19.980
versuchen möglichst viele Leute, möglichst
schnell solche Dinge rauszuhauen, neue
00:20:19.980 --> 00:20:30.210
Publikationen in diesen Bereichen zu
veröffentlichen. Wenn wir jetzt wissen
00:20:30.210 --> 00:20:35.990
wollen, wie gut eigentlich ein System ist,
was vorgestellt wird, wäre es natürlich
00:20:35.990 --> 00:20:40.120
schön, wenn wir die Experimente einfach
wiederholen könnten. Das ist allerdings
00:20:40.120 --> 00:20:47.559
leider gar nicht so trivial. Denn auch
wenn die Systeme, die eingesetzt werden,
00:20:47.559 --> 00:20:50.980
die Grundlagen-Systeme, häufig ein
gewisser Standard sind und irgendwie auch
00:20:50.980 --> 00:20:57.380
als Open Source existieren, gilt das eben
nicht für die ganzen Anpassungen, die
00:20:57.380 --> 00:21:00.880
ganzen Details, die die Personen einbauen.
Das gilt also nicht für den eigentlichen
00:21:00.880 --> 00:21:06.870
Code, für die Pipeline, aber auch für die
Pre-Processing, für die Evaluierung. Das
00:21:06.870 --> 00:21:12.320
gilt nicht unbedingt für die Daten. Häufig
sind Daten nicht verfügbar. Wir wissen,
00:21:12.320 --> 00:21:16.669
Daten sind wertvoll, deswegen will man sie
nicht aus der Hand geben. Aber so
00:21:16.669 --> 00:21:19.889
funktioniert Wissenschaft nicht. Ich kann
nicht auf meinen Daten, die ich für mich
00:21:19.889 --> 00:21:23.309
behalte, arbeiten, sie niemandem zeigen
und sagen: Aber mein System ist gut, ich
00:21:23.309 --> 00:21:29.919
habe es ja selbst getestet. Das ihr es
nicht überprüft könnt, Pech gehabt. Ich
00:21:29.919 --> 00:21:35.110
habe in diesen Systemen enorm viele Hyper-
Parameter, die wir haben es ja gesagt,
00:21:35.110 --> 00:21:39.940
erst einmal häufig geraten werden oder
durch durch grobes Ausprobieren bestimmt
00:21:39.940 --> 00:21:44.179
werden. Wenn ich diese Parameter und diese
Hyper-Parameter nicht weiß, habe ich keine
00:21:44.179 --> 00:21:49.410
Chance, das System nachzubauen. Ich weiß
auch nicht, mit welchen Initialisierungen,
00:21:49.410 --> 00:21:51.420
die zufällig geschehen und
mit welchen Reihenfolgen
00:21:51.420 --> 00:21:52.830
und Aufteilung der Daten
das Ganze geschehen ist.
00:21:52.830 --> 00:21:55.679
Das heißt, wenn ich diese
ganzen Details nicht habe, habe ich
00:21:55.679 --> 00:22:01.870
erst mal keine Chance, genau ein System
nachzubauen. Ich brauche aber genau diese
00:22:01.870 --> 00:22:06.940
exakten Werte, weil diese Systeme enorm
fragil sind. Das heißt, wenn ich
00:22:06.940 --> 00:22:12.300
Kleinigkeiten ändere, ein bisschen die
Dimensionen verändere, die Größe der
00:22:12.300 --> 00:22:15.610
Schichten, gar so gar die Funktionen, die
da aneinandergekettet werden, ein bisschen
00:22:15.610 --> 00:22:19.261
ändere, kriege ich völlig andere
Ergebnisse und weiß nicht mehr, ob das
00:22:19.261 --> 00:22:23.549
andere System wirklich schlecht oder gut
war oder ob es eben nur daran liegt, dass
00:22:23.549 --> 00:22:32.020
ich es nicht genau nachbauen kann.
Problem: Aktuell gibt es zwar
00:22:32.020 --> 00:22:36.250
Bestrebungen, dass das so etwas besser
wird, aber keinen Zwang oder so dafür. Das
00:22:36.250 --> 00:22:40.220
heißt, wenn ich ein Paper publiziere auf
einer der großen Konferenzen, in meinem
00:22:40.220 --> 00:22:45.750
Anwendungsgebiet oder auch im Kern Machine
Learning Bereich, dann ist es gewünscht,
00:22:45.750 --> 00:22:50.960
dass sie reproduzierbar sind. Es ist aber
nicht erzwungen. Das heißt, es gibt
00:22:50.960 --> 00:22:56.090
zusätzlich nochmal das, ich möchte möchte,
dass mein Paper so ein Siegel kriegt, das
00:22:56.090 --> 00:22:58.760
ist reproduzierbar. Dann muss ich dafür
ein paar Dinge machen. Da muss ich im
00:22:58.760 --> 00:23:03.900
Prinzip diese Dinge hier bereitstellen,
die wir ja aufgelistet haben. Und dann
00:23:03.900 --> 00:23:08.799
versuchen andere Leute nachzuvollziehen,
ob das, was ich mache, auch stimmt. Und
00:23:08.799 --> 00:23:12.230
dann ich halt so ein Häkchen. Aber wenn
ich das nicht tue, dann mache ich es eben
00:23:12.230 --> 00:23:18.259
nicht. Und das ist sicherlich eine Stelle,
die man hinterfragen muss, wo auch zum
00:23:18.259 --> 00:23:22.899
Glück schon Dinge geschehen. Diese
Reproduzierbarkeit wird, rückt mehr in den
00:23:22.899 --> 00:23:30.169
Fokus der Konferenzen. Der Effekt von dem
Ganzen ist natürlich dadurch: Wir haben
00:23:30.169 --> 00:23:34.480
ganz viel Forschung, die nicht genutzt
werden kann von anderen Leuten. Das heißt,
00:23:34.480 --> 00:23:37.190
ich muss natürlich Forschung an der Stelle
wiederholen. Andere Leute müssen sie
00:23:37.190 --> 00:23:43.830
wiederholen und zusätzlich durch das,
sowohl durch diesen Effekt als auch durch
00:23:43.830 --> 00:23:47.529
den Drang, möglichst viel und möglichst
schnell zu publizieren, wird halt extrem
00:23:47.529 --> 00:23:51.330
viel Forschung auch so wiederholt und an
ähnlichen Problemen immer wieder
00:23:51.330 --> 00:23:56.210
gearbeitet, um minimale Verbesserung zu
bekommen, weil man ja auch schon ein "Mein
00:23:56.210 --> 00:24:00.130
System ist 0,5 Prozentpunkte besser als
das bisherige State of the Art System"
00:24:00.130 --> 00:24:08.690
wieder publizieren kann. Das heißt,
wünschenswert wäre es, wir hätten überall
00:24:08.690 --> 00:24:13.649
diese Reproduzierbarkeit. Das heißt, das
Wichtigste wäre natürlich wir alle immer,
00:24:13.649 --> 00:24:17.269
wenn wir hier sitzen und wenn wir
irgendwas erforschen. Wir müssen unseren
00:24:17.269 --> 00:24:19.460
Source Code veröffentlichen. Guck mal, da
ein Eichhörnchen.
00:24:19.460 --> 00:24:23.830
Nadja: Das ist leider, was uns viel zu
häufig passiert, wenn es einen
00:24:23.830 --> 00:24:27.700
wissenschaftlichen Code geht. Das heißt,
selbst die Autorinnen, die vorhatten ihren
00:24:27.700 --> 00:24:31.000
Code zu publizieren, das Ganze öffentlich
zu machen, Open Source zu machen, werden
00:24:31.000 --> 00:24:35.029
viel zu schnell vom nächsten Projekt, von
der größeren Deadline, von den
00:24:35.029 --> 00:24:38.389
beschäftigten Doktorandinnen oder von der
Tatsache, dass der Code immer noch nicht
00:24:38.389 --> 00:24:41.279
aufgeräumt ist, wenn man einfach nicht
dazu gekommen ist vor der Deadline,
00:24:41.279 --> 00:24:45.330
abgelenkt. Wir haben einen extrem hohen
Publikationsdruck im Bereich Deep
00:24:45.330 --> 00:24:49.330
Learning. Die Publikationen steigen
effektiv exponentiell. Man muss immer
00:24:49.330 --> 00:24:51.060
schneller sein, um
wirklich noch state of
00:24:51.060 --> 00:24:52.460
the art zu sein, um
selbst die eigene
00:24:52.460 --> 00:24:54.300
Verbesserung noch an den
Markt bringen zu können.
00:24:54.300 --> 00:24:55.300
Das sorgt dafür, dass
irgendwo unsauber
00:24:55.300 --> 00:24:58.539
gearbeitet wird. Mein Code wird
nicht dokumentiert, da wird Spaghetti Code
00:24:58.539 --> 00:25:02.350
geschrieben. Er wird irgendwie hingehackt,
Hauptsache, es funktioniert. Und danach
00:25:02.350 --> 00:25:06.100
müsste ich mich hinsetzen und das Ganze
wieder aufarbeiten. Und das ist ein Riesen-
00:25:06.100 --> 00:25:09.789
stück Arbeit. Und eigentlich steht ja
schon die nächste Publikation an. Und alles
00:25:09.789 --> 00:25:12.539
ist es plötzlich interessanter, als den
Code zugänglich zu machen. Das gilt wieder
00:25:12.539 --> 00:25:15.469
nicht für alle Paper. Natürlich gibt es
Leute, die das machen. Wir versuchen es
00:25:15.469 --> 00:25:19.960
zum Beispiel auch. Aber es funktioniert
leider immer noch viel zu selten.
00:25:19.960 --> 00:25:25.169
Tatsächlich gab es dazu oder gibt es doch
immer noch von einer großen Konferenz in
00:25:25.169 --> 00:25:28.860
dem Bereich, die Reproducibility
Challenge, wo im wesentlichen
00:25:28.860 --> 00:25:32.409
Wissenschaftler aufgefordert werden, sich
ein akzeptiertes Paper aus der Konferenz
00:25:32.409 --> 00:25:37.180
2018 oder jetzt 2019 rauszusuchen und mit
allen Mitteln und Wegen zu versuchen, die
00:25:37.180 --> 00:25:41.260
Ergebnisse nachzuvollziehen. Teilweise
oder im Detail, komplett, erst mal
00:25:41.260 --> 00:25:44.960
rausfinden, was kann ich überhaupt? Die
Autoren sind angehalten, kurz publizieren
00:25:44.960 --> 00:25:48.909
und zu kooperieren. Die Leute versuchen
wirklich, auch Zeitaufwand, mit dem
00:25:48.909 --> 00:25:52.639
entsprechenden Fachwissen, die Ergebnisse
nachvollziehbar und erklärbar und
00:25:52.639 --> 00:25:58.600
reproduzierbar zu machen. Die Erfolgsrate?
Ja, ein Teil können wir nachvollziehen,
00:25:58.600 --> 00:26:03.480
immerhin 50 Prozent. Immerhin ein
Großteil, das nachvollziehen konnten 30
00:26:03.480 --> 00:26:08.800
Prozent, gar nicht reproduzieren waren
aber immer noch 10 Prozent. Jetzt
00:26:08.800 --> 00:26:12.510
ist das interessante aber ja der
Schwierigkeitsgrad, dass man das irgendwie
00:26:12.510 --> 00:26:15.250
reproduzieren kann, ist an sich
schon mal gut, aber noch
00:26:15.250 --> 00:26:17.370
nicht ausreichend. Wenn
ich die komplette
00:26:17.370 --> 00:26:19.339
Forschung dafür neu machen
muss, dann lohnt das den Aufwand schlicht
00:26:19.339 --> 00:26:24.929
und einfach nicht. Reasonable difficulty
ist in dem Fall sagen wir ein nicht sehr
00:26:24.929 --> 00:26:28.909
konkretes Wort. Aber Tatsache ist, dass es
bei mindestens 20 Prozent der Paper sehr,
00:26:28.909 --> 00:26:33.309
sehr schwierig war und überhaupt keine
Probleme aufgetreten sind bei einem
00:26:33.309 --> 00:26:37.460
absolut vernachlässigbaren Teil. Was Sie
dabei noch gemacht haben, ist Sie haben
00:26:37.460 --> 00:26:41.549
gefragt, diese Wissenschaftlerinnen, denen
diese Challenge gestellt wurde, haben wir
00:26:41.549 --> 00:26:45.971
momentan eine Reproducibility Crisis im
Bereich Maschinenlearning? Seht ihr hier ein
00:26:45.971 --> 00:26:52.470
Problem? Und die Anzahl der Leute, die ein
Problem sehen, ist über diese Challenge um
00:26:52.470 --> 00:26:57.350
diverse Prozentpunkte gestiegen. Das
heißt, einfach mal selbst zu versuchen,
00:26:57.350 --> 00:27:01.409
hat nochmal 15 Prozentpunkte mehr der
befragten Wissenschaftlerinnen ungefähr,
00:27:01.409 --> 00:27:04.500
davon überzeugt, dass da tatsächlich
Probleme existiert und dazu geführt, dass
00:27:04.500 --> 00:27:07.790
drei Viertel der befragten
Wissenschaftlerinnen ein Problem sehen, in
00:27:07.790 --> 00:27:16.559
unterschiedlichem Ausmaße.
Benjamin: Noch ein Beispiel. Das ist
00:27:16.559 --> 00:27:20.320
jetzt, es gibt tatsächlich inzwischen
Paper, die sich damit beschäftigen, wie
00:27:20.320 --> 00:27:26.610
gut andere Paper reproduzierbar sind. In
dem Fall aus dem Bereich von
00:27:26.610 --> 00:27:31.809
Recommendation. Es geht darum, aus einer
Menge von Dokumenten bestimmte Dokumente
00:27:31.809 --> 00:27:35.820
für eine Anfrage oder Frage, oder was
weiss ich, vorzuschlagen. Da gab es in den
00:27:35.820 --> 00:27:40.100
letzten Jahren 18 Publikationen, die alle
auf Deep Learning setzen, bei großen
00:27:40.100 --> 00:27:46.440
Konferenzen. Und dann haben sich die Leute
mal hingesetzt und geguckt, wieviel können
00:27:46.440 --> 00:27:50.200
wir davon reproduzieren? Inklusive, wir
schicken erst einmal dem Autor in eine
00:27:50.200 --> 00:27:54.919
E-Mail, ob sie uns vielleicht ihren Code
geben können, bitten nochmal nach und
00:27:54.919 --> 00:27:57.700
versuchen, die Sachen zum Laufen zu
bringen, versuchen irgendwie, teilweise
00:27:57.700 --> 00:28:01.889
sogar ähnliche Hardware zu beschaffen, wie
die verwendet haben und bauen das nach.
00:28:01.889 --> 00:28:07.019
Insgesamt haben sich von diesen, für
dieses Beispiel, von diesen 18 Papern,
00:28:07.019 --> 00:28:11.490
ganze 7 Paper wirklich reproduzieren
können. Das heißt, bei denen können sie
00:28:11.490 --> 00:28:15.630
die ganzen Sachen nachbauen, können es
laufen lassen und kommen dann auf ähnliche
00:28:15.630 --> 00:28:18.870
Ergebnisse.
Nadja: Aber wichtig, erst nachdem Sie die
00:28:18.870 --> 00:28:21.849
Arbeit investiert haben, erst nachdem Sie
nachgefragt haben, erst nachdem Sie
00:28:21.849 --> 00:28:25.330
versucht haben, die Dinge aufzutreiben,
die nicht von sich aus herausgegeben
00:28:25.330 --> 00:28:27.330
wurden.
Benjamin: Das ist nicht der Standard
00:28:27.330 --> 00:28:30.779
Prozess. Also normalerweise, wenn ich
irgendwo auf der Konferenz ein Paper
00:28:30.779 --> 00:28:34.490
schicke und sage, Okay, das möchte ich
veröffentlichen. Dann lesen Leute nur
00:28:34.490 --> 00:28:38.960
dieses Paper. Gucken Sie sich eventuell
noch ein Video an oder vielleicht sogar
00:28:38.960 --> 00:28:42.700
ganze zusätzliche Datensätze, die
hochgeladen werden. Aber normalerweise
00:28:42.700 --> 00:28:47.200
lesen Sie nur dieses Paper, diese 6, 8,
10, manchmal 12 Seiten mit eng
00:28:47.200 --> 00:28:51.450
geschriebenen Ergebnissen und entscheiden
nur anhand des Textes, der dort dann
00:28:51.450 --> 00:28:55.720
steht, und anhand der Zahlen, die die
Autorin selbst herausgegeben haben, ob
00:28:55.720 --> 00:29:02.329
diese Arbeit relevant, richtig und
irgendwie nutzbar erscheint. Und dann wird
00:29:02.329 --> 00:29:06.929
entschieden, ob sie veröffentlicht wird
oder nicht. Aber sie können normalerweise
00:29:06.929 --> 00:29:11.169
nicht in irgendeiner Form überprüfen, ob
das wirklich so ist. Sie müssen komplett
00:29:11.169 --> 00:29:17.920
auf den Text vertrauen, ohne. Das ist
der Standardfall, wenn wir nicht explizit
00:29:17.920 --> 00:29:22.700
Reproduzierbarkeit fordern für
irgendwelche Konferenzen. Und wie gesagt,
00:29:22.700 --> 00:29:27.740
die bisherigen großen Konferenzen. Es gibt
keine, die einen von den angewandten
00:29:27.740 --> 00:29:32.129
Konferenzen, die Reproduzierbarkeit
explizit fordert. Es ist immer nur ein
00:29:32.129 --> 00:29:36.519
zusätzliches Challenge, oder ein
zusätzliches Siegel, oder was weiß ich.
00:29:36.519 --> 00:29:40.560
Bisher basiert die Annahme und die
Veröffentlichung von irgendwelchen Papern
00:29:40.560 --> 00:29:44.789
komplett nur auf dem Reviewen von den
eingereichten Sachen, ohne den Versuch es
00:29:44.789 --> 00:29:51.350
auch zu reproduzieren. Noch zu dem
Beispiel, um es noch demotivierender zu
00:29:51.350 --> 00:29:57.710
machen. Von diesen 7 Ergebnissen, die sie
reproduzieren konnten, haben sie dann
00:29:57.710 --> 00:30:03.750
außerdem nochmal nicht Deep Learning
basierte Ansätze genommen, die damit
00:30:03.750 --> 00:30:09.299
verglichen und festgestellt, dass wenn man
da sich ein bisschen Mühe gibt, sie von 6
00:30:09.299 --> 00:30:12.820
von diesen 7 Paper noch besserere,
trotzdem noch bessere Ergebnisse kriegen.
00:30:12.820 --> 00:30:20.070
Das heißt, von diesen 18 Publikationen hat
eine für externe Leute messbaren
00:30:20.070 --> 00:30:28.340
wissenschaftlichen Fortschritt gebracht.
Und genau diese anderen Ansätze sind
00:30:28.340 --> 00:30:34.059
nämlich leider etwas, was sehr stark durch
diesen Hype, der ja offensichtlich
00:30:34.059 --> 00:30:39.620
funktioniert, so voll wie sie heute ist,
das Wort Deep Learning zieht, werden die
00:30:39.620 --> 00:30:43.710
verdrängt. Der Rest sind häufig nur
Baselines. Ich muss ja nur im Paper
00:30:43.710 --> 00:30:48.590
irgendwas angeben, was ein anderes System
ist, mit dem ich es vergleiche, damit ich
00:30:48.590 --> 00:30:52.590
zeige, dass mein neues System besser ist
als das, was bisher da ist. Dann gebe ich
00:30:52.590 --> 00:30:57.249
mir auch keine Mühe, dass ich diesen
Anteil, dieses andere System besonders gut
00:30:57.249 --> 00:31:00.340
dastehen lasse. Denn dann wird es
schwieriger, dass mein neues System besser
00:31:00.340 --> 00:31:04.610
abschneidet. Das heisst, es wird
hauptsächlich eben an diesem Deep
00:31:04.610 --> 00:31:09.701
Learnings Krams geforscht, und alles
andere wird vernachlässigt, obwohl man da
00:31:09.701 --> 00:31:13.679
noch sehr viel rausholen könnte, wenn man
es denn wollte und irgendeinen Vorteil
00:31:13.679 --> 00:31:20.500
davon hätte. Und es wird wirklich alles
andere nur als Baseline betrachtet. Ganz
00:31:20.500 --> 00:31:24.830
kurz noch Exkurs, das ist ein Foundation
Talk. Baseline, ich brauche irgendein
00:31:24.830 --> 00:31:27.739
System, mit dem ich zeige, dass meine
Daten valide sind. Das ist irgendwie
00:31:27.739 --> 00:31:31.080
Plausible ist, was ich raus kriege. Im
simpelsten Fall ist ein Baseline Ansatz
00:31:31.080 --> 00:31:34.740
für eine binäre Entscheidung einfach ein
Münzwurf. Wenn ich ein System baue, was
00:31:34.740 --> 00:31:39.080
zwischen Hund oder Wolf entscheiden muss
und es hat nur 5 Prozent Genauigkeit, dann
00:31:39.080 --> 00:31:42.321
hätte ich mal lieber eine Münze geworfen.
Da würde ich mit 50 Prozent Genauigkeit
00:31:42.321 --> 00:31:45.679
kriegen. Dann ist mein System
außerordentlich schlecht. Sobald ich über
00:31:45.679 --> 00:31:49.240
diese 50 Prozent drüber kommen über diese
Baseline, kann ich in diesem Paper
00:31:49.240 --> 00:31:54.639
inhaltlich begründen, warum mein neues
System besser ist als diese Baseline. Nun
00:31:54.639 --> 00:31:57.610
gebe es vielleicht bessere, klügere
Ansätze als einen reinen Münzwurf. Aber
00:31:57.610 --> 00:32:00.420
wenn ich den halt möglichst low halte,
habe ich es an der
00:32:00.420 --> 00:32:04.179
anderen Stelle leichter.
Nadja: Dazu ganz kurz, um das in Zahlen zu
00:32:04.179 --> 00:32:06.730
fassen. Kaggle ist eine Plattform, die
Daten-
00:32:06.730 --> 00:32:07.730
wissenschaftliche Challenges
stellt, an der jeder
00:32:07.730 --> 00:32:11.130
dann mitarbeiten kann und
einen Versuch einreichen kann, diese
00:32:11.130 --> 00:32:14.379
Challenge zu schlagen. Z.B. im Bereich
Bilderkennung, aber eigentlich alles, was
00:32:14.379 --> 00:32:17.870
da ist, an wissenschaftliche oder
maschinelles Lernen in Worte fasst. Das
00:32:17.870 --> 00:32:20.659
ist der Unterschied zur akademischen
Forschung, dass wir uns nicht so sehr am
00:32:20.659 --> 00:32:23.740
State of the art orientieren, sondern die
Leute versuchen, oftmals sind es auch
00:32:23.740 --> 00:32:27.580
Privatpersonen, das zu nehmen, was
funktioniert. Da ist auch viel Deep
00:32:27.580 --> 00:32:30.230
Learning dabei. Weil Deep Learning, halt
ein paar Sachens sind, wo viel entwickelt
00:32:30.230 --> 00:32:33.450
wird, wo es viele fertige Frameworks gibt
und was verrufen ist als das, was
00:32:33.450 --> 00:32:38.010
irgendwie mit allem funktioniert, unter
gewissen Voraussetzungen. Aber trotzdem
00:32:38.010 --> 00:32:42.850
sehen wir das auch., dass klassische
Ansätze hier sehr, sehr hohen Anteil
00:32:42.850 --> 00:32:47.369
einnehmen, einen höheren Anteil als
manchmal bei entsprechenden Konferenzen zu
00:32:47.369 --> 00:32:50.630
finden ist. Das heißt, wenn es mir nur
darum geht, dass jetzt etwas funktioniert
00:32:50.630 --> 00:32:53.080
und ich nicht maximalen Aufwand
reinstecken will, ich nicht unbedingt die
00:32:53.080 --> 00:32:56.000
Buzzwords unterbringen will, ist Deep
Learning plötzlich nicht mehr ganz so
00:32:56.000 --> 00:33:00.621
beliebt. Und dafür gibt's mit Sicherheit
ein Grund. Wir wollen aber noch zu zwei
00:33:00.621 --> 00:33:03.450
weiteren Aspekten kommen. Und der nächste,
der der gesellschaftlichen Auswirkungen.
00:33:03.450 --> 00:33:07.340
Weil auch, was unsere Gesamtgesellschaft
betrifft, müssen wir in der Forschung, was
00:33:07.340 --> 00:33:10.440
das maschinelle Lernen und Deep Learning
angeht, ein bisschen auf Nachhaltigkeit
00:33:10.440 --> 00:33:15.299
achten. Gerade das Thema Erklärbarkeit und
Transparenz, das Thema kann nicht das
00:33:15.299 --> 00:33:18.539
System, was vielleicht sogar
lebenswichtige Entscheidungen trifft,
00:33:18.539 --> 00:33:22.730
irgendwie verstehen. Dieses inzwischen
relativ weit verbreitete Beispiel kommt
00:33:22.730 --> 00:33:26.850
aus der Software Compass, ich habe es
schon erwähnt, die wird verwendet, um bei
00:33:26.850 --> 00:33:29.620
straffällig gewordene Menschen in
Gerichtsverfahren einen Score zu
00:33:29.620 --> 00:33:32.249
ermitteln, mit welcher Wahrscheinlichkeit
sie rückfällig werden im weiteren Verlauf
00:33:32.249 --> 00:33:37.370
ihres Lebens. Dieser Score wird vom
Richter dann verwendet, um das Strafmaß zu
00:33:37.370 --> 00:33:43.110
bestimmen. Wenn wir uns jetzt den
Hintergrund der Hautfarbe, Hautfarbe
00:33:43.110 --> 00:33:47.041
dieser Menschen anschauen, für die diese
Scores bestimmt wurden, erkennen wir eine
00:33:47.041 --> 00:33:50.899
sehr unterschiedliche Verteilung zwischen
Menschen mit weißer Hautfarbe und Menschen
00:33:50.899 --> 00:33:55.570
mit anderer Hautfarbe. Das heißt, oben
links sehen wir, dass hohe und niedrige
00:33:55.570 --> 00:34:00.019
Scores annähernd gleichmäßig verteilt
werden, während wir eben bei Menschen mit
00:34:00.019 --> 00:34:03.249
eindeutig weißer Hautfarbe oder die so
wahrgenommen werden eine sehr starke
00:34:03.249 --> 00:34:07.929
Häufung niedrigen Scores haben. Das hat
sich an vielen Einzelbeispiele inzwischen
00:34:07.929 --> 00:34:11.950
gezeigt, dass das schlicht und einfach
falsch ist. Dass für ähnliche Verbrechen
00:34:11.950 --> 00:34:15.480
sehr unterschiedliche Strafen vergeben
wurden und das nicht der Fall ist, dass
00:34:15.480 --> 00:34:19.070
die Personen mit dem höheren Score auch
zwangsläufig eher rückfällig geworden ist.
00:34:19.070 --> 00:34:22.780
In einigen Fällen haben auch Menschen, die
in dem Bereich tätig sind, drauf geschaut
00:34:22.780 --> 00:34:24.530
und haben gesagt, eigentlich hätte anhand
der Vorstrafen gerade andersherum
00:34:24.530 --> 00:34:29.120
verteilt. Das ist ein Riesenproblem, weil
das System sind, die hier aktuell zum
00:34:29.120 --> 00:34:31.690
Einsatz kommen und die für Menschen
lebenswichtige Entscheidungen
00:34:31.690 --> 00:34:35.140
treffen müssen. Für niemanden er
sichtlich, warum dieser Score gegeben
00:34:35.140 --> 00:34:38.810
wird. Die Firma sagt von sich, und das ist
insofern auch korrekt, wenn man es
00:34:38.810 --> 00:34:43.110
wörtlich nimmt, dass der Hintergrund und
die Hautfarbe dieser Menschen nicht
00:34:43.110 --> 00:34:47.179
eingegangen ist in das Training. Aber das
korreliert mit so vielen Dingen in den
00:34:47.179 --> 00:34:50.480
USA, mit dem Einkommen, mit dem Wohnort
etc., dass das gar nicht der entscheidende
00:34:50.480 --> 00:34:56.400
Faktor ist. Als weiteres Beispiel können
wir mal drüber nachdenken, was wir dann
00:34:56.400 --> 00:35:00.230
mit dem Begriff eindeutige Handlungs-
Vorschrift meinen. Viele Menschen
00:35:00.230 --> 00:35:04.620
bezeichnen damit Algorithmen, was sie
damit nicht bezeichnen wollen, dass wir
00:35:04.620 --> 00:35:07.910
alles, was algorithmische System uns
vorschlagen, auch als Handlungs-Vorschrift
00:35:07.910 --> 00:35:12.260
zu behandeln haben. Das ist nicht, wie wir
das gemeint haben, sondern wir müssen mit
00:35:12.260 --> 00:35:17.280
diesem System immer reflektiert und
kritisierend umgehen. Ob jetzt Deep
00:35:17.280 --> 00:35:20.570
Learning überhaupt noch auf diesen Begriff
passt, auf diese eindeutige Handlungs-
00:35:20.570 --> 00:35:23.720
Vorschrift ist schon wieder extrem
fragwürdig. Denn wir reden hier von sehr
00:35:23.720 --> 00:35:28.200
stark statistisch geprägten Systemen, wo
sehr viel Zufall mitspielt. Man könnte
00:35:28.200 --> 00:35:31.390
sie, wie es in diesem Thread geschehen
ist, vielleicht eher als
00:35:31.390 --> 00:35:34.290
maschinelles Bauchgefühl bezeichnen,
als eindeutige Handlungs-Vorschrift.
00:35:34.290 --> 00:35:40.820
Benjamin: Das heißt, was wir hier
eigentlich erleben, ist eine wahnsinnige
00:35:40.820 --> 00:35:44.680
Generalisierung nur. Wir nehmen
Datenpunkte aus der Vergangenheit, die wir
00:35:44.680 --> 00:35:50.330
schon kennen. Wir wenden sie an, wir
trainieren darauf und danach versuchen wir
00:35:50.330 --> 00:35:54.560
einfach und hoffen, dass, wenn wir diese
Sachen, die wir, die wir haben, wenn wir
00:35:54.560 --> 00:35:59.370
nur weit genug generalisieren, wenn wir
irgendwo versuchen auf Teufel komm raus
00:35:59.370 --> 00:36:03.550
und das System muss immer was liefern.
Normalerweise liefern die Systeme immer
00:36:03.550 --> 00:36:08.810
einfach ein Ergebnis, egal, ob sie einen
guten Grund dafür sehen oder nicht. Sie
00:36:08.810 --> 00:36:12.550
versuchen einfach, ein Muster zu finden
und dann liefern sie ein Ergebnis. Und das
00:36:12.550 --> 00:36:18.870
bedeutet, dass das, was immer landläufig
als die KI sagt etwas vorher oder denkt
00:36:18.870 --> 00:36:22.580
sich etwas aus oder was weiß ich, im
Prinzip nur ein auswendig lernen und
00:36:22.580 --> 00:36:25.740
generalisieren und das Ergebnis irgendwie
wieder raushauen ist.
00:36:25.740 --> 00:36:30.140
Nadja: Bei gelernten Systemen reden wir
oft von Prediction oder Vorhersage. Was
00:36:30.140 --> 00:36:32.510
wir aber eigentlich getan haben, ist nicht
über die Zukunft nachzudenken, sondern
00:36:32.510 --> 00:36:35.880
ausschließlich über die Vergangenheit. Und
dann ist es die interessante Frage, ob
00:36:35.880 --> 00:36:40.740
wirklich Dinge vorhersagen oder eigentlich
nur reproduzieren.
00:36:40.740 --> 00:36:47.770
Benjamin: Das Problem ist aber auch, dass
die Menschen den Computern vertrauen. Das
00:36:47.770 --> 00:36:50.510
trifft vermutlich jetzt nicht auf alle
Leute hier im Raum zu. Das ist sehr
00:36:50.510 --> 00:36:55.770
angenehm, aber in der Gesellschaft ist das
enorm verbreitet inzwischen. KI ist
00:36:55.770 --> 00:37:00.770
irgendwas Tolles, KI ist super, KI wird
uns retten. KI kann das, was wir nicht
00:37:00.770 --> 00:37:07.860
können. Beispiele: Wir haben diese große
Forschungsinitiative, überall muss KI
00:37:07.860 --> 00:37:12.100
gemacht werden. Wenn ich KI in meine
Anträge schreibe, kriege ich Geld. Wenn
00:37:12.100 --> 00:37:16.730
ich auf meine Hautcreme draufschreiben,
dass sie mit KI optimiert wurde, kann ich
00:37:16.730 --> 00:37:21.910
sie besser verkaufen. Und wenn ich will,
dass mein System und ich als Firma gut
00:37:21.910 --> 00:37:26.180
dastehe, dann kann es sich sogar lohnen,
was geschieht, was Google aber auch viele
00:37:26.180 --> 00:37:31.490
andere machen, kann es sich lohnen, Leute
einzustellen, die so tun, als wären sie
00:37:31.490 --> 00:37:35.400
Computer, zum Beispiel, die irgendwo
anrufen, weil der Computer dazu noch nicht
00:37:35.400 --> 00:37:39.600
in der Lage ist und dann die Restaurant
Reservierung oder was weiß ich
00:37:39.600 --> 00:37:43.290
durchführen, nur damit man dann am Ende
rausschreiben kann, dass die eigenen KI-
00:37:43.290 --> 00:37:50.050
Systeme ja so wahnsinnig toll sind. Und
weil es ja kein Mensch ist, sondern der
00:37:50.050 --> 00:37:55.700
Computer, der ja bestimmt viel weiser sein
muss, kann man dadurch sich Vorteile
00:37:55.700 --> 00:37:58.430
verschaffen.
Nadja: Ein ganz besonders beunruhigendes
00:37:58.430 --> 00:38:00.280
Beispiel haben wir uns außerdem noch
mitgebracht.
00:38:00.280 --> 00:40:03.540
Musik
Dialog der Maschine und dem Mann auf japanisch
00:40:03.540 --> 00:40:07.870
Um die Frage direkt vorwegzunehmen, ja,
das gibt es wirklich. Und ich hoffe
00:40:07.870 --> 00:40:10.510
ehrlich gesagt, ich muss gar nicht
erklären, warum das so unglaublich
00:40:10.510 --> 00:40:14.421
kritisch ist. Aber ich frag einfach mal,
was passiert mit uns Menschen so rein
00:40:14.421 --> 00:40:18.230
soziologisch, so rein psychologisch, wenn
wir mit Maschinen interagieren, als wären
00:40:18.230 --> 00:40:21.750
sie Menschen, als hätten sie Gefühle, wenn
sie Muster imitieren, wie sie in der
00:40:21.750 --> 00:40:25.370
Beziehung und zwischenmenschlicher
Kommunikation stattfinden. Was passiert da
00:40:25.370 --> 00:40:28.970
mit uns? Worauf lassen wir uns ein? Wie
viel Bios, den wir nicht haben sollten,
00:40:28.970 --> 00:40:35.511
akzeptieren wir? Um noch zu einem ganz
anderen Thema zu kommen. Ich hoffe, das
00:40:35.511 --> 00:40:37.670
müssen wir hier nur kurz anschneiden, denn
ich habe keine Antwort auf die Frage, die
00:40:37.670 --> 00:40:41.050
ich gerade gestellt habe. Daten. Ich
glaube, das ist ein Rahmen, in dem ich
00:40:41.050 --> 00:40:44.560
wenig erklären muss, warum
Datensparsamkeit wichtig ist. Wir haben
00:40:44.560 --> 00:40:48.580
aber mit Deep Learning ein fundamentales
Problem. Wir brauchen nämlich extrem viele
00:40:48.580 --> 00:40:53.450
Daten. Und das beißt sich ganz, ganz stark
mit unseren gesellschaftlichen Interessen.
00:40:53.450 --> 00:40:57.640
Das ist aber ein Thema, über das könnte
man mindestens einen eigenen Talk halten.
00:40:57.640 --> 00:41:01.320
Außerdem Beispiele wie das: Wie viele
werden es auch schon gesehen haben, eine
00:41:01.320 --> 00:41:05.040
KI, die sich gefühlte 15 Minuten im Netz
bewegt hat. Und plötzlich überaus
00:41:05.040 --> 00:41:08.060
rassistisch und anderweitig inakzeptable
Äußerungen gebracht hat, weil sie nun mal
00:41:08.060 --> 00:41:11.440
aus dem Internet gelernt hat. Und die
interessante Frage stellt sich an der
00:41:11.440 --> 00:41:15.030
Stelle ganz krass, sollten wir wirklich
versuchen, mit maschinellen Systemen
00:41:15.030 --> 00:41:18.790
Menschen nachzubilden? Oder ist das
vielleicht eine sehr schlechte Idee?
00:41:18.790 --> 00:41:27.080
Benjamin: Ein weiterer Punkt, den wir uns,
dem wir uns stellen müssen, der für uns
00:41:27.080 --> 00:41:31.310
alle relevant ist, denn wir arbeiten in
irgendeiner Form an Systemen, die
00:41:31.310 --> 00:41:36.860
irgendwie was in der Welt bewegen sollen.
Wer ist für all das verantwortlich? Ganz
00:41:36.860 --> 00:41:41.860
typisches Beispiel haben wir bei den
autonomen Fahrzeugen. Da wird es schon x
00:41:41.860 --> 00:41:47.140
mal diskutiert, wer ist dafür
verantwortlich, wenn ein Unfall passiert?
00:41:47.140 --> 00:41:51.220
Aber bei jedem weiteren System gilt das
auch. Es gibt so viele Stellen, die daran
00:41:51.220 --> 00:41:54.850
beteiligt sind. Wir haben die Person, die
das Ganze programmieren. Die Personen, die
00:41:54.850 --> 00:41:58.800
es in Auftrag gegeben haben. Die Firma,
die das Ganze kauft, vermarktet.
00:41:58.800 --> 00:42:02.080
Vielleicht öffentliche Stellen, die
entsprechende Regularien dafür
00:42:02.080 --> 00:42:05.520
veröffentlichen. Wir haben
Versicherungskonzerne. Wir haben
00:42:05.520 --> 00:42:09.680
Privatpersonen, die ein autonomes Fahrzeug
oder irgendein anderes intelligentes
00:42:09.680 --> 00:42:16.640
System besitzen. Wer ist schuld? Wer kann
belangt werden, wenn irgendetwas passiert?
00:42:16.640 --> 00:42:20.510
Und welche Auswirkungen hat das? Denn, je
nachdem, wer dafür belangt werden kann,
00:42:20.510 --> 00:42:25.230
ergeben sich völlig unterschiedliche
Entscheidungen von den beteiligten
00:42:25.230 --> 00:42:30.040
Personen, wogegen sie ihre Systeme
absichern, wie sie ihre Systeme designen.
00:42:30.040 --> 00:42:37.060
Und diesen Punkt, dazu gibt es keine
befriedigende Antwort. Eine Umfrage unter
00:42:37.060 --> 00:42:44.640
den Amerikaner sagt, dass sie, die
Mehrheit das inakzeptabel findet, dass ein
00:42:44.640 --> 00:42:48.920
Computersystem oder algorithmische Systeme
genutzt werden, um in bestimmten
00:42:48.920 --> 00:42:55.160
Bereichen, zum Beispiel bei der
Einschätzung von Strafmaßen oder für den
00:42:55.160 --> 00:42:58.460
Bewerbungsprozess von Menschen, dass der
Computer wesentliche Entscheidungen dafür
00:42:58.460 --> 00:43:04.610
trifft. Blöd nur, all das wird heutzutage
schon gemacht, und zwar eben mit immer
00:43:04.610 --> 00:43:10.110
stärker werdenden Ausmaß.
Nadja: Und als Drittes kommen wir jetzt zu
00:43:10.110 --> 00:43:14.000
einem Punkt, der oft vernachlässigt wird,
wenn es um Deep Learning geht. Ja, das
00:43:14.000 --> 00:43:17.120
werden die alle, die wir heute gesagt
haben, aber der ganz besonders. Und wir
00:43:17.120 --> 00:43:20.580
glauben, dass der trotzdem relevant ist.
Nämlich gerade zu Zeiten, wo das Thema
00:43:20.580 --> 00:43:24.380
Klimawandel wieder mehr in den Medien
kommt, wo sowohl die Gegner als auch die
00:43:24.380 --> 00:43:27.570
Befürworter von irgendwelchen Maßnahmen
stärker werden, ist das ein Thema über das
00:43:27.570 --> 00:43:30.420
wir auch nachdenken müssen, auch
wenn es auf den ersten Blick
00:43:30.420 --> 00:43:34.380
nichts mit unserer Arbeit zu tun hat.
Benjamin: Wir haben natürlich, bekannt ist
00:43:34.380 --> 00:43:37.590
es im Bereich, z. B. von den
Cryptocurrencies, dass die enormen
00:43:37.590 --> 00:43:43.810
Stromverbrauch haben, zum Beispiel ein
Bitcoin Transaktion verbraucht ungefähr so
00:43:43.810 --> 00:43:52.620
viel Strom wie 500.000 Visa Transaktionen,
eine einzige! Und das entspricht ungefähr
00:43:52.620 --> 00:43:58.060
dem Stromverbrauch eines Kühlschranks für
8 Jahre für eine Transaktion. Aber
00:43:58.060 --> 00:44:04.230
Bitcoins ist nicht der einzige Bereich, wo
wir Probleme kriegen, in der Hinsicht. Wir
00:44:04.230 --> 00:44:11.690
haben auch das generell in allen Formen,
wo wir große Daten haben. Deep Learning
00:44:11.690 --> 00:44:15.040
braucht große Datenmengen, Datenmengen
müssen wir speichern, verarbeiten,
00:44:15.040 --> 00:44:20.340
transportieren und dafür haben wir
weltweit inzwischen eine relativ groß
00:44:20.340 --> 00:44:25.280
steigende Anzahl an Rechenzentren, die
zwischen 200 und 500 Milliarden
00:44:25.280 --> 00:44:28.270
Kilowattstunden pro Jahr gerade
verbrauchen. Ganz genau kann man das
00:44:28.270 --> 00:44:33.230
natürlich nicht sagen, weil die Firmen
auch diese Daten als Geheimnis betrachten.
00:44:33.230 --> 00:44:38.200
Wenn man alle Rechenzentren zusammen als
Land betrachten würde, hätten wir fünf
00:44:38.200 --> 00:44:41.200
Länder auf der Erde, die mehr Strom
verbrauchen, dann kommen die
00:44:41.200 --> 00:44:44.720
Rechenzentren, dann kommen alle anderen
Länder, und auch das wird weiterhin
00:44:44.720 --> 00:44:55.821
steigen. Wir haben, wenn man jetzt noch
kleiner guckt auf das, was wir jetzt
00:44:55.821 --> 00:45:00.160
beschrieben haben, den Trainingsprozess
von einzelnen Modellen, auch da schon
00:45:00.160 --> 00:45:05.780
einen erschreckend hohen Stromverbrauch,
der auch dort leider nicht linear, sondern
00:45:05.780 --> 00:45:12.720
sondern deutlich darüber ansteigt. Wenn
wir also ein einzelnes, einzelne Modelle
00:45:12.720 --> 00:45:16.850
trainieren wollen, sehen wir, dass die
großen State of the Art Systeme, die dann
00:45:16.850 --> 00:45:21.670
natürlich von Firmen wie Google und
Facebook AI und anderen
00:45:21.670 --> 00:45:25.200
Forschungsinstitute, Einrichtungen von
großen, großen Firmen vorgeschlagen
00:45:25.200 --> 00:45:34.250
werden, dass dort Strom verbraucht wird
für hunderttausende teilweise Millionen an
00:45:34.250 --> 00:45:42.650
Euro. Dass dort auch inzwischen natürlich
zusätzlich noch GPUs, CPUs eingesetzt
00:45:42.650 --> 00:45:47.510
werden, die schwer zu bekommen sind, die
teuer anzuschaffen sind, sodass wir
00:45:47.510 --> 00:45:50.561
natürlich auch sowohl durch den
Stromverbrauch als auch durch die
00:45:50.561 --> 00:45:56.250
Infrastruktur. Erstens haben wir diesen
Umwelteffekt. Zweitens, wenn wir den
00:45:56.250 --> 00:46:01.270
Effekt, dass immer weniger Firmen, immer
weniger große Einrichtungen in der Lage
00:46:01.270 --> 00:46:06.570
sind, Deep Learning auf dem State of the
Art durchzuführen. Der Rest wird
00:46:06.570 --> 00:46:10.210
abgehängt. Das heißt auch da
gesellschaftliche Auswirkungen ---
00:46:10.210 --> 00:46:14.950
problematisch, Umweltauswirkungen ---
problematisch und leider ein Trend, der
00:46:14.950 --> 00:46:19.740
offensichtlich genau in die falsche
Richtung geht. Wenn man sich das nochmal
00:46:19.740 --> 00:46:26.760
hier anguckt, was das auch für den
CO2-Ausstoß bedeutet, sehen wir, dass das
00:46:26.760 --> 00:46:33.300
Training von einem einzigen Modell, wie es
dann veröffentlicht wird am Ende, von so
00:46:33.300 --> 00:46:38.360
einem großen Modell ungefähr so viel CO2
ausstößt wie fünf Autos in ihrer ganzen
00:46:38.360 --> 00:46:43.210
Lebensdauer, inklusive Produktion und
inklusive sämtlichen Sprit, der dann darin
00:46:43.210 --> 00:46:47.600
verbrannt wird. Und solche Forschung
findet ständig weiterhin statt, weil man
00:46:47.600 --> 00:46:51.320
ja weiter publizieren will, wie wir am
Anfang schon erzählt haben. Das heißt,
00:46:51.320 --> 00:46:55.030
dauerhaft werden solche Modelle gerade auf
der Welt trainiert, um dann irgendwo in
00:46:55.030 --> 00:46:58.090
irgendeinem kleinen Teilbereich eine neue
Publikationen machen zu können.
00:46:58.090 --> 00:47:02.800
Nadja: Jetzt komme ich und bringe die
Frohbotschaft. Nein, es ist nicht alles
00:47:02.800 --> 00:47:06.200
ganz so schlimm, wie es jetzt gerade
scheint, wenn wir die Nachteile auflisten.
00:47:06.200 --> 00:47:09.070
Tatsächlich kann der ganze Bereich des
maschinellen Lernen auch Vorteile mit sich
00:47:09.070 --> 00:47:11.880
bringen und hier in diesem Beispiel sogar
auch tatsächlich das Deep Learning. Es
00:47:11.880 --> 00:47:16.700
geht darum, dass Google über Jahre hinweg
versucht hatte, mithilfe von maschinellen
00:47:16.700 --> 00:47:22.700
Lernen die Betriebe ihrer Datenzentren zu
optimieren. Da eine Einsparung im
00:47:22.700 --> 00:47:25.220
Stromverbrauch zu erreichen. Wir reden
hier von Reinforsment Learning für die,
00:47:25.220 --> 00:47:29.760
denen es was sagt. Was die Kühlungsteuerung,
die Abschaltung von Servernet et cetera
00:47:29.760 --> 00:47:32.920
beeinflussen konnte und damit der
Stromverbrauch um bis zu 40 Prozent
00:47:32.920 --> 00:47:36.840
gesenkt hat. Das ist auf jeden Fall eine
gute Nachricht. Natürlich ist auch mir die
00:47:36.840 --> 00:47:40.130
Ironie klar, dass wir hier den
Stromverbrauch von Datenzentren sprechen,
00:47:40.130 --> 00:47:44.300
ohne das Feld auch gar nicht so sehr nötig
wären. Trotzdem Man kann diese
00:47:44.300 --> 00:47:49.250
Wissenschaft, man kann diesen Bereich auch
durchaus für gute Sachen nutzen, die uns
00:47:49.250 --> 00:47:54.160
allen was helfen kann. Das lässt sich
natürlich nicht auf alle großen Strom und
00:47:54.160 --> 00:47:58.440
CO2 Produzenten übertragen, die wir in
unserer Industrie so haben. In der
00:47:58.440 --> 00:48:01.560
Autoindustrie wird das schon sehr viel
schwieriger, wenn wir von Montagerozessen
00:48:01.560 --> 00:48:04.720
reden, von Produktionsprozessen reden. Da
kann man nicht einfach wild durch die
00:48:04.720 --> 00:48:07.820
Gegend tauschen, welcher Task denn
ausgeführt wird. Wenn die Server
00:48:07.820 --> 00:48:11.850
vielleicht nicht ausgelastet sind oder sie
nicht direkt ausführen, damit der Server
00:48:11.850 --> 00:48:16.300
noch mal abgeschaltet bleiben kann. Aber
ist das was, womit wir uns auf jeden Fall
00:48:16.300 --> 00:48:22.000
beschäftigen sollten. Mit Strom und CO2
ist das Lied um die Umweltauswirkungen
00:48:22.000 --> 00:48:25.540
noch nicht zu Ende. Es geht auch darum,
wie wir unsere Infrastruktur belasten, wie
00:48:25.540 --> 00:48:30.040
wir Straßen, Städte, Gebäude und so weiter
beanspruchen für den Bau, für den Betrieb,
00:48:30.040 --> 00:48:33.390
für den Transport. Für die Vernetzung von
den ganzen Systemen, die wir für diesen
00:48:33.390 --> 00:48:36.420
Forschungszweig brauchen. Es geht darum,
was wir für Platz beanspruchen mit
00:48:36.420 --> 00:48:41.240
Forschungszentren, mit Datenzentren, mit
Supercomputern und GPU Produktion. Es geht
00:48:41.240 --> 00:48:45.040
darum, wie viel Arbeitskraft und wie viel
Zeitaufwand gebunden ist. Nur um ein neues
00:48:45.040 --> 00:48:48.120
Netz zu forschen. Es geht darum, wie viel
Forschungsgelder darin investiert werden,
00:48:48.120 --> 00:48:51.160
mit denen man noch andere Dinge tun
könnte. Es geht um endliche Ressourcen
00:48:51.160 --> 00:48:55.330
unserer Erde wie Metalle wie die
sogenannten Seltenen Erden oder wie Erdöl,
00:48:55.330 --> 00:48:59.990
die dafür gebraucht werden. Und es gibt
noch so viel mehr. Das war nur ein ganz
00:48:59.990 --> 00:49:03.010
kleiner Einblick in das Thema, und es ist
ganz wichtig: Es geht nicht nur um den
00:49:03.010 --> 00:49:07.290
Stromverbrauch. Die Awareness an der
Stelle ist noch viel zu niedrig, um
00:49:07.290 --> 00:49:11.700
darüber quantitativ Aussagen treffen zu
können. Aber es ist auf jeden Fall ein
00:49:11.700 --> 00:49:15.530
Faktor. So viel wissen wir. Wir kommen
damit auch schon zur Frage: Wie kann es
00:49:15.530 --> 00:49:21.890
eigentlich weitergehen?
Benjamin: Wichtig ist, dass wir alle uns
00:49:21.890 --> 00:49:26.010
bewusst sind, dass wir die Verantwortung
tragen, wie es in dem Bereich weitergeht.
00:49:26.010 --> 00:49:30.010
Denn sowohl die Leute, die in diesem Land
arbeiten, aber auch in allen Bereichen,
00:49:30.010 --> 00:49:35.580
die damit verbunden sind. Wir forschen.
Wir bauen Systeme. Wir sorgen dafür, dass
00:49:35.580 --> 00:49:40.290
solche Systeme weiter entstehen, dass sie
wichtiger werden, dass sie, obwohl wir
00:49:40.290 --> 00:49:43.240
wissen, dass zum Beispiel das alles der
Generalisierung, aus Vereinfachungen
00:49:43.240 --> 00:49:47.760
besteht. Dass sie trotzdem für Dinge
eingesetzt werden. Wir sorgen dafür, dass
00:49:47.760 --> 00:49:54.180
unsere Sensorik, die wir in Autos
verbauen, irgendwelche 25 Gigabyte pro
00:49:54.180 --> 00:49:57.261
Stunde an Daten produzieren, die man dann
wieder auswerten, um daraus etwas machen
00:49:57.261 --> 00:50:02.930
kann. Wir sorgen dafür, dass Systeme
optimiert werden. Wir sorgen dafür, dass
00:50:02.930 --> 00:50:09.260
das gebaut werden für die Industrie, damit
das komische Hautpflegeprodukten
00:50:09.260 --> 00:50:14.280
plötzlich KI optimiert ist. Das kann
man natürlich alles einfach so machen,
00:50:14.280 --> 00:50:18.690
weil man in dem Bereich gut Geld verdienen
kann. Ist aber vermutlich keine gute Idee,
00:50:18.690 --> 00:50:22.910
sondern man sollte sich wirklich
überlegen: Was sind die Konsequenzen von
00:50:22.910 --> 00:50:27.490
dem Ganzen, und was müssten wir eigentlich
alle ändern, um dieses ganze Feld
00:50:27.490 --> 00:50:33.980
weiterzutreiben? Denn, das ist das Schöne,
zumindest im Forschungssektor. Es ist
00:50:33.980 --> 00:50:38.250
alles von der Community angetrieben. Es
ist immer eine Entscheidung von allen
00:50:38.250 --> 00:50:44.010
Forscher in den ganzen Bereichen, ob sie
genauso weitermachen oder ob sie ihre
00:50:44.010 --> 00:50:50.530
Arten schieben, ob sie anders agieren, ob
sie mehr und mehr auf solche Dinge achten
00:50:50.530 --> 00:50:54.030
oder eben nicht.
Nadja: Grundsätzlich um weiterzumachen,
00:50:54.030 --> 00:50:56.380
gerade um die gesellschaftlichen
Auswirkungen des Themas zu beeinflussen.
00:50:56.380 --> 00:51:00.040
Was müssen wir anstreben? Wir müssen
Diskurs anstreben. Wir müssen mit der
00:51:00.040 --> 00:51:03.160
gesamten Gesellschaft, mit einer riesigen
Breite an Menschen darüber reden. Was
00:51:03.160 --> 00:51:05.770
wollen wir von diesen Systemen? Unter
welchen Umständen machen wir das System?
00:51:05.770 --> 00:51:09.530
Was sind die Auflagen, die wir stellen,
was akzeptabel und was nicht? Das
00:51:09.530 --> 00:51:12.350
funktioniert nicht, wenn diese
Entscheidungen getroffen werden von fünf
00:51:12.350 --> 00:51:15.030
Leuten, die irgendwie ihre eigenen
Interessen vertreten müssen. Das ist ein
00:51:15.030 --> 00:51:17.600
Diskurs, der auf jeden Fall in die
gesellschaftliche Breite gehen muss. Es
00:51:17.600 --> 00:51:20.870
gibt einfach keine klare Antwort, und die
Antworten, die wir brauchen, die müssen
00:51:20.870 --> 00:51:24.110
wir zusammen finden. Wir müssen aber auch
Bildung auf allen Ebenen vorantreiben.
00:51:24.110 --> 00:51:28.080
Weil ich muss als Informatikerin auch die
ethischen Auswirkungen eines Handelns
00:51:28.080 --> 00:51:33.020
bedenken. Ich muss auch dem Enduser sagen
können, was das bedeutet, wenn er etwas
00:51:33.020 --> 00:51:36.590
einsetzt. Auch wenn er die technischen
Details nicht versteht, muss er in der
00:51:36.590 --> 00:51:40.220
Lage sein einzuschätzen, ob der Einsatz an
der Stelle sinnvoll ist und gerade auch
00:51:40.220 --> 00:51:43.290
die Menschen, die die Legislatur
vorantreiben. Diese Menschen sollte es auf
00:51:43.290 --> 00:51:46.270
jeden Fall geben müssen, genug davon
verstehen und auch wirklich einschätzen
00:51:46.270 --> 00:51:49.311
können, was sie da gerade erlauben oder
nicht erlauben, damit wir auch die
00:51:49.311 --> 00:51:54.020
positiven Aspekte solcher Felder mitnehmen
können. Awareness ist ganz besonders
00:51:54.020 --> 00:51:57.120
wichtig, damit wir diesen Diskurs führen
können. Damit wir diese Bildung
00:51:57.120 --> 00:52:00.150
vorantreiben kann, müssen wir darüber
reden: Wie funktionieren unsere Daten?
00:52:00.150 --> 00:52:03.010
Unter welchen Umständen verwenden wir sie?
Wo kommen die Modelle her? Wie
00:52:03.010 --> 00:52:05.990
funktionieren Erklärbarkeit und
Reproduzierbarkeit? Aber auch wer trägt
00:52:05.990 --> 00:52:08.990
die Verantwortung? Was sind die
Konsequenzen? Und wie führen wir diesen
00:52:08.990 --> 00:52:13.780
Diskurs? Am Ende gilt: Wir müssen
umdenken, statt nur zu folgen. Es
00:52:13.780 --> 00:52:17.060
funktioniert nicht, wenn wir einfach so
weitermachen wie bisher. Sondern wir
00:52:17.060 --> 00:52:21.010
müssen in manchen Dingen einfach
grundlegend auch nochmal nachdenken. Viele
00:52:21.010 --> 00:52:24.430
dieser Maßnahmen sind tatsächlich doppelt
hilfreich, begünstigen sich gegenseitig.
00:52:24.430 --> 00:52:27.320
Wir stecken da nicht unbedingt in einem
Teufelskreis. Wenn wir systematisch
00:52:27.320 --> 00:52:30.260
arbeiten, dann tun wir der
Reproduzierbarkeit gefallen. Aber auch
00:52:30.260 --> 00:52:33.910
unseren Ressourcenverbrauch, weil wir viel
weniger nochmal machen müssen, wenn wir
00:52:33.910 --> 00:52:36.940
die Alternativen zu Deep Learning auch
nutzen, tun wir der Erklärbarkeit
00:52:36.940 --> 00:52:39.820
Gefallen, aber auch der Datensparsamkeit.
Wahrscheinlich, wenn wir den Publications
00:52:39.820 --> 00:52:44.050
Druck senken und damit die Qualität in die
Höhe schreiben. Dann fördern wir den
00:52:44.050 --> 00:52:46.620
wissenschaftlichen Anspruch, und wir
helfen unserem Ressourcenverbrauch. Aber
00:52:46.620 --> 00:52:50.120
insgesamt ist unsere große Herausforderung
momentan in der Gesellschaft verbreitete
00:52:50.120 --> 00:52:53.150
Unwissenheit, und das nicht richtig
reflektiert wird, was das für Auswirkungen
00:52:53.150 --> 00:52:57.500
hat, was wir machen und in welchen Skalen
bewegen. Damit sagen wir fürs Erste auch
00:52:57.500 --> 00:53:01.240
schon Danke, schön, dass Sie hier waren.
Wir haben uns wirklich gefreut gesagt. So
00:53:01.240 --> 00:53:04.240
dürfen wir hoffen. Wir geben ein paar
Denkanstöße mit. Wir können dieses Thema
00:53:04.240 --> 00:53:07.070
nur sehr, sehr oberflächlich einsteigen in
50 Minuten. Wir sind jetzt schon relativ
00:53:07.070 --> 00:53:10.061
weit in der Zeit. Trotzdem haben wir noch
ein paar Minuten für Fragen, aber auch
00:53:10.061 --> 00:53:13.270
über den Vortrag hinaus. Sind wir da froh,
wenn Leute sich informieren,
00:53:13.270 --> 00:53:18.510
recherchieren, selbst kritisieren und
reflektieren oder auf uns zukommen.
00:53:18.510 --> 00:53:19.190
Dankeschön.
00:53:19.190 --> 00:53:25.010
Applaus
00:53:25.010 --> 00:53:28.830
Herald: Okay, alles klar. Wir haben noch
ein paar Minuten Zeit für Fragen.
00:53:28.830 --> 00:53:33.210
Damit wir auch möglichst viele und zügig
durchkommen. Bewegt euch doch bitte direkt
00:53:33.210 --> 00:53:37.520
zu den Mikrofonen. Und wir fangen direkt
hier mit Mikrofon 4 and.
00:53:37.520 --> 00:53:46.320
Mik 4: Ich versuche, mich kurz zu halten.
KI für Autos ist ziemlich faszinierend,
00:53:46.320 --> 00:53:51.200
die unterscheidet zuverlässig zwischen
einem Baum und einem Verkehrsschild. Ich
00:53:51.200 --> 00:53:55.660
bin immer wieder enttäuscht, wenn ich KI
sehe für Suchmaschinenoptimierung, was ich
00:53:55.660 --> 00:54:01.760
da angeboten bekomme. Ich glaube, das
Problem ist die Datengrundlage. Ein Baum,
00:54:01.760 --> 00:54:05.590
da gibts keine Diskussion. Das ist ein
Baum. Was ist die schönste Website ist
00:54:05.590 --> 00:54:12.620
oder das nächstbeste Video? Das ist eine
Geschmacksfrage. Worauf ich hinaus möchte:
00:54:12.620 --> 00:54:18.620
wäre es nicht sinnvoll oder dringend
notwendig, darüber nachzudenken, wie die
00:54:18.620 --> 00:54:24.500
Trainingsdaten qualifiziert sind, ob man
die qualitativ einsortieren sollte?
00:54:24.500 --> 00:54:30.280
Nadja: Ich stimme soweit absolut zu,
Trainingstagendiskussion steht an. Müssen
00:54:30.280 --> 00:54:34.450
wir führen? Qualität ist extrem wichtig.
Das Problem geht aber noch darüber hinaus.
00:54:34.450 --> 00:54:38.660
Zum einen die Frage mit dem Auto und dem
Fußgänger, wie uns der Überkräsch 2018
00:54:38.660 --> 00:54:41.740
gezeigt hat, gar nicht so trivial.
Festgestellt haben die Annahme, dass
00:54:41.740 --> 00:54:45.150
Fußgänger nur auf dem Fußgängerüberweg zu
finden ist, das vielleicht gar nicht so
00:54:45.150 --> 00:54:49.600
realistisch. Trivial ist es also nicht.
Natürlich sind Suchmaschinen auch eine
00:54:49.600 --> 00:54:53.520
subjektive Entscheidung. Weil was ich
suche, weiß am Ende nur ich. Jemand mit
00:54:53.520 --> 00:54:56.370
der gleichen Suchanfrage sucht vielleicht
etwas anderes. Natürlich ist das Internet
00:54:56.370 --> 00:55:00.200
einfach eine extrem riesige Datenbasis mit
sehr unsauberen Daten. Das heißt, dass es
00:55:00.200 --> 00:55:02.640
eine völlig andere Herausforderung als
Bildklassifikation von autonomen
00:55:02.640 --> 00:55:06.470
Fahrzeugen. Grundsätzlich Trainingstagen,
Diskussionen, aber auch über das Monopol
00:55:06.470 --> 00:55:09.641
von solchen Unternehmen, wie Google.
Gerade was Suchmaschinen angeht, müssen
00:55:09.641 --> 00:55:14.440
wir definitiv reden. Herald: Alles was,
dann machen wir direkt weiter mit einer
00:55:14.440 --> 00:55:18.640
Frage vom Signal-Engel aus dem Internet.
Signal-Engel: Das Internet fragt: Sollen
00:55:18.640 --> 00:55:22.650
wir das mit dem Deep Learning dann
eigentlich lieber lassen? Oder seht ihr
00:55:22.650 --> 00:55:26.820
auch sinnvolle Anwendungen, zum Beispiel
um irgendeinen hohen Datenaufwand für
00:55:26.820 --> 00:55:31.030
freigiebige Nutzer irgendwie zu reduzieren
zum Beispiel.
00:55:31.030 --> 00:55:35.080
Benjamin: Es sein zu lassen, ist
sicherlich nicht der richtige Ansatz. Das
00:55:35.080 --> 00:55:39.340
zeigt sich ja, dass Deep Learming für
bestimmte Dinge sehr wertvoll ist. Wir
00:55:39.340 --> 00:55:43.430
haben jetzt Beispiele gezeigt, wo es gut
funktioniert, schlechter funktioniert.
00:55:43.430 --> 00:55:48.340
Gerade bei komplexen Dingen haben wir
wenig Ansätze, die anders gut
00:55:48.340 --> 00:55:52.180
funktionieren. Die Verarbeitung
menschlicher Sprache zum Beispiel hat
00:55:52.180 --> 00:55:55.710
einen Riesenschritt nach vorne gemacht
durch die Deep Learning, weil menschliche
00:55:55.710 --> 00:55:59.250
Sprache so unglaublich komplex ist, dass
ich mit allen bisherigen Ansatz, bei denen
00:55:59.250 --> 00:56:02.470
ich Silben zähle und Buchstaben vergleiche
oder so etwas nicht so wirklich
00:56:02.470 --> 00:56:07.291
weiterkomme. Da brauche ich ganz viel
Wissen rein. Das heißt, man muss, aber man
00:56:07.291 --> 00:56:12.000
muss sich eben überlegen. Ist es für
diesen Zweck der richtige Ansatz? Also,
00:56:12.000 --> 00:56:17.180
ich will das jetzt nicht pauschal
beantworten. Das muss man sich gründlich
00:56:17.180 --> 00:56:21.580
überlegen. Das sollte sicher Message sein.
Nadja: Wir stellen im Prinzip nicht die
00:56:21.580 --> 00:56:24.150
Frage: Sollten wir die Planung verwenden,
sondern Wofür sollten wir es verwenden?
00:56:24.150 --> 00:56:29.150
Und was müssen wir vorher bedenken?
Herald: Ich versuche, es mit den Fragen
00:56:29.150 --> 00:56:33.040
hier im Raum so halbwegs chronologisch zu
machen. Aber mit Mikro 1 weiter.
00:56:33.040 --> 00:56:38.020
Mik 1: Eine Frage zur Reproduzierbarkeit.
Ich saß gerade in einem Lightening Talk,
00:56:38.020 --> 00:56:43.750
Da hatte jemand genau das Problem, das
nicht reproduzieren konnte. Eine seiner
00:56:43.750 --> 00:56:47.710
Hauptforderungen, um das zu beheben, war,
das alles, was man braucht, zum
00:56:47.710 --> 00:56:51.570
Reproduzieren zur Verfügung gestellt wird
und dass das auch von Journals enforced
00:56:51.570 --> 00:56:56.920
wird. Über Reviews oder über irgendwelche
andere Sachen. Sieht Ihr, dass es
00:56:56.920 --> 00:57:00.840
irgendwelche Bestrebungen in diese
Richtung gibt. Oder es ist ein zu großer
00:57:00.840 --> 00:57:05.280
Hype, als dass man da irgendwie eingreifen
könnte sinnvoll.
00:57:05.280 --> 00:57:07.680
Benjamin: Es gibt, wie
gesagt,
00:57:07.680 --> 00:57:14.450
diese Sigel bei vielen Konferenzen,
sicherlich auch bei Journals. Je nach Feld
00:57:14.450 --> 00:57:17.260
in dem Bereich, hier wird gar nicht so
viel in Journals publiziert, weil man
00:57:17.260 --> 00:57:21.420
Konferenzen leichter hinkriegt. Und alles
geht schneller, Journals dauert irgendwie
00:57:21.420 --> 00:57:25.280
immer zu lang. Es wäre
wünschenswert, dass da mehr passiert.
00:57:25.280 --> 00:57:29.770
Dafür müssen sich aber quasi
diese Ältestenrates, die sich
00:57:29.770 --> 00:57:33.140
zusammensetzen und diese Konferenzen
planen, organisieren, dafür entscheiden,
00:57:33.140 --> 00:57:38.030
dass für sie das auf der Liste auch so
weit oben ist, dass sie das erzwingen.
00:57:38.030 --> 00:57:41.440
Bisher ist es alles optional.
Wünschenswert wäre es definitiv.
00:57:41.440 --> 00:57:44.400
Nadja: Sicherlich reden wir doch in
irgendeiner Form über Regularien. Und
00:57:44.400 --> 00:57:46.620
dabei müssen wir dann immer noch
unterscheiden zwischen öffentlich
00:57:46.620 --> 00:57:50.290
geförderten Forschungseinrichtungen und
privater Forschung. Das ist nämlich sehr
00:57:50.290 --> 00:57:54.930
unterschiedliche Herausforderungen.
Herald: Okay, dann gehen wir gerade mal
00:57:54.930 --> 00:58:01.370
kurz zum Mikro Nr. 7 da ganz am Rand.
Mik 7: Hallo, danke für den Vortrag.
00:58:01.370 --> 00:58:05.820
Haltet ihr AGI für möglich? Und wann
könnte es soweit sein?
00:58:05.820 --> 00:58:09.240
Nadja: AGI Omnipotenz, Intelligenz oder
...
00:58:09.240 --> 00:58:14.030
Mik 7: Artifical General Intelligence.
Nadja: Momentaner Forschungsstand "Hell
00:58:14.030 --> 00:58:18.220
know". Das war eine relativ
unprofessionelle Antwort. Aber momentan
00:58:18.220 --> 00:58:20.531
haben wir hauptsächlich sehr
spezialisierte Expertensysteme, die genau
00:58:20.531 --> 00:58:25.460
ein detailreichen Task machen kann. Selbst
bei Sprachassistenzsystemen, die irgendwie
00:58:25.460 --> 00:58:29.530
ein Paar Tasks, die noch immer eine sehr
eingeschränkte Menge machen, haben in
00:58:29.530 --> 00:58:32.890
aktuellen Forschungsstand zwar große
Fortschritte, aber man kann sie ja sehr
00:58:32.890 --> 00:58:36.800
einfach die Schwächen ausnutzen. Es gibt
eine total spannende Professorin in USA,
00:58:36.800 --> 00:58:39.890
die sagt, gibt mir irgendeinen
Sprachverarbeitungsystem, in drei Fragen
00:58:39.890 --> 00:58:43.460
mache ich spätestens kaputt, und sie hat
es bisher immer geschafft. Wir haben
00:58:43.460 --> 00:58:47.470
momentan mit dem aktuellen Stand der
Technik ziemlich krasse Limitationen in
00:58:47.470 --> 00:58:51.980
den nächsten Jahren. Ich persönlich nicht
kommen. Grundsätzlich ist die künstliche
00:58:51.980 --> 00:58:55.480
Intelligenz aber auf allen Ebenen etwas,
das sie im Auge behalten sollen. Also ich
00:58:55.480 --> 00:58:57.770
würde auch wiederum nicht behaupten, dass
davon keinerlei Gefahr ausgeht.
00:58:57.770 --> 00:58:59.210
Benjamin: Es ist aber
auch nicht der
00:58:59.210 --> 00:59:01.990
zentrale Punkt zur Zeit.
Das meiste, was, woran die Leute
00:59:01.990 --> 00:59:05.680
forschen, sind spezialisierte Systeme und
vielleicht noch zusätzliche Systeme, die
00:59:05.680 --> 00:59:09.250
vorne dran gestellt werden, die dann
entscheiden, an welches Teilsystem das
00:59:09.250 --> 00:59:14.190
Ganze weitergereicht wird. Aber daran zu
forschen, ein weltverstehendes System, was
00:59:14.190 --> 00:59:18.160
irgendwie auch noch beliebige Formate von
Antworten geben kann, so sowas zu bauen,
00:59:18.160 --> 00:59:21.890
das gibt es sicherlich die Forschung. Aber
es ist nicht das, was irgendwie auch in
00:59:21.890 --> 00:59:25.770
den Publikationen Platz findet, weil man
dort überhaupt nicht soweit wäre und das
00:59:25.770 --> 00:59:29.240
andere einfach viel einfacher ist und man
da vielleicht was veröffentlichen kann.
00:59:29.240 --> 00:59:31.850
Wen das Fachliche interessiert, wäre das ein
schönes Einstiegspunt in das ein semantische
00:59:31.850 --> 00:59:34.820
Modellierung. Weil wir bei vielen
Künstliche Intelligenzen darüber sprechen,
00:59:34.820 --> 00:59:37.720
ist das Allgemeinwissen,
Hintergrundwissen, diese ganzen Sachen
00:59:37.720 --> 00:59:40.780
fehlen und die Darstellung dafür auch. Das
ist eine der großen Herausforderungen,
00:59:40.780 --> 00:59:44.320
so als Stichwort.
Herald: Okay. Nehmen wir doch eine Frage
00:59:44.320 --> 00:59:47.640
aus dem Internet.
Signal-Engel: Ich sage erst mal Liebe
00:59:47.640 --> 00:59:53.740
Grüße aus D. 120, das wisst ihr jetzt
besser als ich. Nadja lacht Die Frage
00:59:53.740 --> 00:59:58.370
ist Ist die Reproduzierbarkeit nur oder
gerade im Deep Learning ein Problem, oder
00:59:58.370 --> 01:00:01.550
betrifft das nicht sogar große Teile der
machienelearning Forschung?
01:00:01.550 --> 01:00:03.450
Nadja: Definitiv große Teile
der machiene learning
01:00:03.450 --> 01:00:05.430
Forschung. Ehrlich gesagt auch
darüber hinaus.
01:00:05.430 --> 01:00:09.080
Reproduzierbarkeit ist bei
fast allen wissenschaftlichen
01:00:09.080 --> 01:00:12.270
Publikationen ein Faktor, es gibt nur die
Sachen, die dafür anfälliger und weniger
01:00:12.270 --> 01:00:15.270
anfällig sind. Gerade wenn man über
digitale Themen reden. Aber an sich
01:00:15.270 --> 01:00:17.961
Reproduzierbarkeit ist immer in der
Forschung gewünscht und leider nicht weit
01:00:17.961 --> 01:00:20.870
genug verbreitet. Also defintiv die
gesamte Informatik generell.
01:00:20.870 --> 01:00:28.030
Benjamin: Generell vieles, was wir hier
gesagt haben, trifft auf machiene learning
01:00:28.030 --> 01:00:31.571
im Allgemeinen zu. Aber das Deep Learning,
gerade durch diese riesigen Datenmengen
01:00:31.571 --> 01:00:35.580
und so weiter. Da treten die Effekte
verstärken besonders auf. Deswegen haben
01:00:35.580 --> 01:00:38.640
wir uns hier darauf konzentriert. Aber man
kann es auch beliebig...
01:00:38.640 --> 01:00:41.770
Nadja: Und gerade weil es ein Passwort
ist, macht es auch nochmal
01:00:41.770 --> 01:00:45.750
anfälliger dafür .
Herald: Ok, dann Mikrophon Nr. 8.
01:00:45.750 --> 01:00:51.170
Mik 8: Daran anschließend. Ich hab
irgendwie das Gefühl, dass es ein großer
01:00:51.170 --> 01:00:56.480
Teil auch Publicationsbios ist, wo so
lange gespielt wird an den Daten, bis
01:00:56.480 --> 01:01:02.781
irgendwie ein Ergebnis raus kommt. Und ich
hab, es ist so einen Trend in der Psychologie, wo
01:01:02.781 --> 01:01:06.080
die das Problem ganz massiv hatten. Und
die haben das dadurch gelöst, dass die
01:01:06.080 --> 01:01:10.510
sagen, Hey, ich muss die Studien bei
manchen Journals vorregistrieren, so: Dass
01:01:10.510 --> 01:01:14.520
sind meine. Das möchte ich machen. Und
dann kommt am Ende vielleicht ein
01:01:14.520 --> 01:01:19.560
negativer Ergebnis raus. Gibt es da
Bemühungen, machiene learning, sodass man
01:01:19.560 --> 01:01:24.731
sagt: Ich publiziere den Korpus vorher,
den ich auf dem ich lernen will, und wenn
01:01:24.731 --> 01:01:28.020
dann nichts funktioniert, dann ist das
halt so.
01:01:28.020 --> 01:01:29.490
Nadja: Ich würde
sagen, es ist relativ schwer
01:01:29.490 --> 01:01:32.510
zu beantworten für den Bereich,
weil es vielleicht nicht ganz so
01:01:32.510 --> 01:01:36.750
funktioniert. Ein Datenkorpus zu
publizieren an sich. Es gibt zum Daten
01:01:36.750 --> 01:01:40.801
Konferenzen, die sich einfach auf sowas
konzentrieren. Aber auf einem Korpus kann
01:01:40.801 --> 01:01:46.460
ich sehr viele Dinge tun, und dadurch
hilft mir das noch nicht unbedingt. Ich
01:01:46.460 --> 01:01:50.900
glaube, dass da die Fragestellung einfach
komplexer ist. Ich kenne keine konkreten
01:01:50.900 --> 01:01:53.450
Bemühungen, die jetzt in eine Richtung
gehen. Ich fände es wünschenswert...
01:01:53.450 --> 01:01:58.770
Benjamin: Es wäre definitiv wünschenswert.
Aber es wird in der Form kaum gemacht. Es
01:01:58.770 --> 01:02:03.200
sind eben keine. Ich bin bisher fast
nirgendwo. Oder bei den großen
01:02:03.200 --> 01:02:08.070
Konferenzen bin ich niemals gezwungen,
vorher zu sagen, was ich glaube, wie es
01:02:08.070 --> 01:02:13.141
ausgeht, sondern ich liefere erst wenn ich
mein Ergebnis vorstelle, sage ich, was da
01:02:13.141 --> 01:02:17.510
rauskommt und welche Fehlschläge ich hatte
und ob ich überhaupt verklausuliert ins
01:02:17.510 --> 01:02:20.540
Paper reinschreiben oder ob es komplett
sein lasse. Da zwingt mich niemand zu.
01:02:20.540 --> 01:02:24.200
Nadja: Es gibt ein paar Bestrebungen, die
Publikation von Fehlschlägen oder
01:02:24.200 --> 01:02:28.231
Messergebnissen zu machen. Aber auch das
wird immer noch von so vielen Leuten
01:02:28.231 --> 01:02:31.510
belächelt, so als Unterhaltungsmedium mehr
als ernst zu nehmende Wissenschaft. Das
01:02:31.510 --> 01:02:34.110
glaube ich auch ein Problem, weil
dadurch die gleichen
01:02:34.110 --> 01:02:36.190
Fehler z.B. im machiene learning,
gerade wo wir nicht
01:02:36.190 --> 01:02:38.440
systematisch arbeiten,
sondern auch ein bisschen nach
01:02:38.440 --> 01:02:42.190
Bauchgefühl gehen müssen, wiederholt
werden, was eigentlich unmöglich ist.
01:02:42.190 --> 01:02:46.050
Dieser typische Satz, das weiß man doch,
dass der Ansatz da nicht funktioniert.
01:02:46.050 --> 01:02:48.010
Woher soll man das wissen, wenn
man noch studiert?
01:02:48.010 --> 01:02:54.240
Herald: Okay, wir haben noch Zeit für eine
kurze Frage und gehen zum Mikrofon 5.
01:02:54.240 --> 01:03:01.570
Mik 5: Ich will ein paar Details zu dieser
Beschreibung von Black Box Wissen. Ich
01:03:01.570 --> 01:03:08.560
weiß, dass man durch featuremaps das
Netzwerk untersuchen kann, und wollte
01:03:08.560 --> 01:03:14.370
wissen, was hier eine Blackbox, weil es
ist nicht so Black entscheidend.
01:03:14.370 --> 01:03:18.390
Nadja: Es kommt drauf an wie die Systeme
gebaut sind. Es gibt zum Beispiel einen
01:03:18.390 --> 01:03:23.620
Ansatz von Explainable Neural Netz (ExNN),
durchaus Valides Konzepts, und es wird
01:03:23.620 --> 01:03:28.920
auch eingesetzt. Es gibt aber auch
Architekturen, die per se erst einmal
01:03:28.920 --> 01:03:33.540
völlig unlesbar sind, und die Ansätze, die
darauf existierende Erklärbarkeit
01:03:33.540 --> 01:03:37.350
reinzubringen, sind noch sehr beschränkt.
Es gibt sie. Sie tun auch sinnvolle Dinge
01:03:37.350 --> 01:03:41.220
im Bereich, aber zum Beispiel beschränken
sie sich oft nur auf den Bereich des
01:03:41.220 --> 01:03:44.650
eigentlichen Modells, was trainiert wurde.
Die Pipeline der Maschinenlearning ist aber
01:03:44.650 --> 01:03:49.090
viel länger. Die beginnt ja schon bei der
Datenerhebung, bei der Auswahl, bei der
01:03:49.090 --> 01:03:52.080
Verarbeitung. Bei der Auswahl der
Features, aber auch beim PostProcessing,
01:03:52.080 --> 01:03:56.200
bei Evaluationsmetriken und so weiter.
Das sind alles irgendwo Stellschrauben für
01:03:56.200 --> 01:04:00.420
Erklärbarkeit. Wir haben da auf jeden Fall
noch einen weiten Weg vor uns. Aber klar,
01:04:00.420 --> 01:04:03.200
es gibt Bestrebungen in die Richtung, die
auch durchaus funktionieren
01:04:03.200 --> 01:04:05.660
für das, wofür Sie gedacht sind.
Herald: Okay, dann sind wir am Ende der
01:04:05.660 --> 01:04:11.200
Zeit angekommen. Vielen Dank nochmal Nadja
und Benjamin.
01:04:11.200 --> 01:04:15.556
Applaus
01:04:15.556 --> 01:04:34.640
36c3 Abspannmusik
01:04:34.640 --> 01:04:38.785
Untertitel erstellt von c3subtitles.de
im Jahr 2020. Mach mit und hilf uns!