WEBVTT

00:00:00.000 --> 00:00:18.660
<i>36C3 Vorspannmusik</i>

00:00:18.660 --> 00:00:25.180
Herald: Ich freue mich ganz besonders,
jetzt den nächsten Vortrag ankündigen zu

00:00:25.180 --> 00:00:29.720
können, der zwei Themen vereint, die ich
beide interessant finde. Zwar geht es zum

00:00:29.720 --> 00:00:33.822
einen um Machine Learning, im Speziellen
Deep Learning, aber auch gleichzeitig um

00:00:33.822 --> 00:00:40.280
Nachhaltigkeit. Wie das Ganze verbunden
werden kann und ob vielleicht der Deep

00:00:40.280 --> 00:00:44.591
Learning Hype irgendwie doch zu groß ist,
erklären uns Nadja Geisler und Benjamin

00:00:44.591 --> 00:00:48.910
Hättasch, die an der TU Darmstadt arbeiten
und forschen oder irgendwo zwischendrin

00:00:48.910 --> 00:00:55.290
sind. Und deswegen will ich jetzt gar
nicht weiter groß reden und freue mich auf

00:00:55.290 --> 00:00:57.739
den Talk. Herzlich willkommen, Nadja und
Benjamin!

00:00:57.739 --> 00:01:04.189
<i>Applaus</i>

00:01:04.189 --> 00:01:07.120
Nadja Geisler: Herzlichen Dank! Hallo
erstmal und schön, dass wir hier sein

00:01:07.120 --> 00:01:10.740
können, schön das ihr alle hier seid. Wir
freuen uns wirklich wahnsinnig. Es ist für

00:01:10.740 --> 00:01:13.770
uns beide auch der erste Kongress, und das
ist etwas ganz Besonderes dann auch gleich

00:01:13.770 --> 00:01:18.100
hier oben zu stehen. Ich bin Nadja und wie
er schon gesagt hat, bin ich mit dem

00:01:18.100 --> 00:01:20.300
Master-Studium an der TU Darmstadt fertig
und werde wahrscheinlich demnächst dort

00:01:20.300 --> 00:01:25.010
anfangen zu promovieren.
Benjamin Hättasch: Ich mache das schon

00:01:25.010 --> 00:01:29.320
seit zwei Jahren und habe festgestellt:
Ich will mich nicht nur damit

00:01:29.320 --> 00:01:32.810
beschäftigen, irgendwie toll Deep Learning
anzuwenden, sondern ein bisschen drüber

00:01:32.810 --> 00:01:36.229
nachzudenken, was das alles so bedeutet.
Und weil wir da einiges herausgefunden

00:01:36.229 --> 00:01:38.920
haben, sind wir heute hier, um euch das
auch zu erzählen.

00:01:38.920 --> 00:01:42.970
Nadja: Unser Talk ist so zustande
gekommen, dass wir das 36C3 Motto gesehen

00:01:42.970 --> 00:01:47.590
haben und uns dachten: Nachhaltigkeit
vereint doch eigentlich mehrere Aspekte,

00:01:47.590 --> 00:01:50.240
die wir schon immer spannend fanden, was
das Thema Deep Learning und maschinelles

00:01:50.240 --> 00:01:53.960
Lernen angeht. Aspekte, die sich unter dem
Stichwort zusammenfassen lassen, obwohl

00:01:53.960 --> 00:01:56.829
sie an sich sehr unterschiedlich sind und
mit dem wir uns in verschiedene Art schon

00:01:56.829 --> 00:02:00.539
beschäftigt hatten. Zu den Aspekten wollen
wir euch heute was erzählen, weil gerade

00:02:00.539 --> 00:02:04.299
das Thema Nachhaltigkeit momentan
besonders aktuell, besonders wichtig und

00:02:04.299 --> 00:02:09.520
besonders relevant für unsere Zukunft ist.
Bevor wir aber auf die drei verschiedenen

00:02:09.520 --> 00:02:12.370
Ebenen von Nachhaltigkeit, über die wir
reden wollen, eingehen, das ist die

00:02:12.370 --> 00:02:15.550
wissenschaftliche Ebene, die
gesellschaftliche Ebene und die Umwelt-

00:02:15.550 --> 00:02:19.790
Ebene, müssen wir zuerst klären: Wovon
reden wir, wenn wir Deep Learning sagen?

00:02:19.790 --> 00:02:23.770
Was sind die absoluten Basics für das, was
wir die nächsten 30, 45 Minuten reden

00:02:23.770 --> 00:02:28.370
werden? Was müsst ihr wissen, damit wir
euch gut mitnehmen können? Und das wollen

00:02:28.370 --> 00:02:31.190
wir jetzt machen. Das beinhaltet unter
anderem: was meinen Sie damit, wenn wir

00:02:31.190 --> 00:02:34.430
Deep Learning sagen? Wie funktioniert das
auf einer intuitiven Ebene, nicht so sehr

00:02:34.430 --> 00:02:38.360
auf einer detailreichen technischen Ebene?
Und wozu wird das aktuell jetzt schon

00:02:38.360 --> 00:02:44.920
angewendet? Und wenn Deep Learning sagen,
dann vor allem dieses Konstrukt, was sich

00:02:44.920 --> 00:02:50.290
dann neuronales Netz nennt, Artificial
Neural Network auf Englisch. Das sind so

00:02:50.290 --> 00:02:53.500
Machine Learning Konstrukte, die es schon
sehr lange gibt, die dann zwischendurch

00:02:53.500 --> 00:02:56.360
mal eine starke Flaute in der Beliebtheit
haben, weil sie eben doch nicht die

00:02:56.360 --> 00:03:00.070
Ergebnisse gebracht haben, die man sich
erhofft hatte. Inzwischen sind sie wieder

00:03:00.070 --> 00:03:04.670
extrem beliebt, um alle möglichen
Probleme, Aufgaben im maschinellen Lernen

00:03:04.670 --> 00:03:09.790
anzugehen. Dabei bezeichnet ein neuronales
Netz im Wesentlichen eine Verknüpfung von

00:03:09.790 --> 00:03:13.510
Knoten. Diese Knoten können je nach
Architektur verschieden miteinander

00:03:13.510 --> 00:03:16.210
vernetzt und durch verschiedene
mathematische Funktionen verbunden sein.

00:03:16.210 --> 00:03:20.730
Jeder Knoten wiederum repräsentiert
eigentlich nur eine nichtlineare

00:03:20.730 --> 00:03:25.500
Berechnungsfunktion. So weit, so logisch.
Wir berechnen also sehr, sehr viel. Und

00:03:25.500 --> 00:03:28.820
wenn diese Gewichte zwischen den
Berechnungen erst einmal fertig bestimmt

00:03:28.820 --> 00:03:32.340
sind, sprich wenn das neuronale Netz
trainiert ist, dann lässt sich für jede

00:03:32.340 --> 00:03:37.030
numerische Eingabe, die man im Netz gibt,
auch eine entsprechende Ausgabe bestimmen.

00:03:37.030 --> 00:03:40.640
Diese Ausgabe macht dann Aussagen über
irgendwelche Größen, über irgendwelche

00:03:40.640 --> 00:03:44.330
Klassifizierungen oder irgendwelche
Zuordnungen. Die wichtigste Voraussetzung

00:03:44.330 --> 00:03:47.860
für viele, wenn auch nicht alle Arten von
neuronalen Netzen, sind entsprechende

00:03:47.860 --> 00:03:51.660
Trainingsdaten und die auch noch in großer
Menge. Ob diese Trainingsdaten gelabelt

00:03:51.660 --> 00:03:55.280
sein müssen, also so etwas wie schon eine
Bezeichnung der eigentlichen Zielgröße

00:03:55.280 --> 00:03:59.310
haben müssen vorher oder nicht, das kann
unterschiedlich sein, ist aber an der

00:03:59.310 --> 00:04:02.310
Stelle auch gar nicht so relevant. Was wir
brauchen, sind wahrscheinlich sehr, sehr

00:04:02.310 --> 00:04:05.880
viele Daten, wenn wir mit neuronalen
Netzwerken arbeiten wollen. Anhand dieser

00:04:05.880 --> 00:04:09.970
Daten, die möglichst vielfältig, möglichst
repräsentativ sein sollten für die spätere

00:04:09.970 --> 00:04:14.560
Wirklichkeit oder das, was wir dann damit
bearbeiten und einfangen wollen, daran

00:04:14.560 --> 00:04:19.230
wird das Modell gelernt. Um das Modell
später einzusetzen, das sieht man hier

00:04:19.230 --> 00:04:22.449
ganz gut, wenn man einmal von links nach
rechts schaut, braucht man zunächst

00:04:22.449 --> 00:04:25.430
Inputdaten. Die müssen in einem
numerischen Format sein. Wie man da

00:04:25.430 --> 00:04:27.840
hinkommt? Das sind sehr viele verschiedene
Methoden, aber an dieser Stelle auch gar

00:04:27.840 --> 00:04:31.410
nicht so weit relevant. Diese Inputdaten
gehen dann zu diesen Knoten, zu den

00:04:31.410 --> 00:04:35.570
Neuronen, und jedes Neuron repräsentiert
irgendwo an bestimmte eine bestimmte

00:04:35.570 --> 00:04:39.320
Eigenschaft, ein bestimmtes Feature. Bei
einer Bilderkennung könnte das eine Kante

00:04:39.320 --> 00:04:42.160
sein oder eine Ecke oder ein
Helligkeitsunterschied, ganz verschiedene

00:04:42.160 --> 00:04:46.710
Dinge. Je weiter wir in das neuronalen
Netz reingehen, je tiefer die Ebenen

00:04:46.710 --> 00:04:49.860
werden, desto höher-levelig sind die
Eigenschaften, die wir repräsentieren. Das

00:04:49.860 --> 00:04:52.850
Problem bei der ganzen Sache ist
normalerweise, dass wir gar nicht so genau

00:04:52.850 --> 00:04:56.850
wissen, was dieses Neuron repräsentiert.
Bei einem Algorithmus, der Bilder

00:04:56.850 --> 00:05:00.330
klassifiziert, der zum Beispiel Hunde und
Wölfe voneinander entscheiden kann, können

00:05:00.330 --> 00:05:03.310
wir uns nicht ein Neuron anschauen und
können sagen: Aha! Das da schaut, ob da

00:05:03.310 --> 00:05:06.650
eine Kante ist, die einen Schwanz
repräsentieren könnte. Sondern es sind für

00:05:06.650 --> 00:05:10.110
uns einfach irgendwelche Zahlenwerte, die
wir nicht weiter interpretieren können.

00:05:10.110 --> 00:05:13.200
Das bedeutet, wir haben Black Box Modelle.
Wir verstehen also nicht im Detail,

00:05:13.200 --> 00:05:15.830
welches Gewicht wofür steht, was wir
eigentlich gelernt haben. Und im

00:05:15.830 --> 00:05:19.820
Endeffekt, wenn ein Input reingeht, warum
der Output rauskommt, der am Ende

00:05:19.820 --> 00:05:27.030
tatsächlich herauskommt. Das bildet also
im Prinzip die Basis für alle Systeme, die

00:05:27.030 --> 00:05:29.240
irgendwie als Teil von Deep Learning
bezeichnet werden.

00:05:29.240 --> 00:05:35.650
Benjamin: Was wir da an der Stelle also
haben, ist: Wir nehmen Mathe, wir nehmen

00:05:35.650 --> 00:05:43.010
große Mengen von Daten und wenden einfach
Tricks aus der Statistik an. Wir nutzen

00:05:43.010 --> 00:05:47.240
aus, dass bestimmte Dinge, wenn man es nur
oft genug betrachtet, wenn man es nur oft

00:05:47.240 --> 00:05:52.400
genug anwendet, durchführt, dann eine
gewisse Systematik ergeben, dass man

00:05:52.400 --> 00:05:58.590
Muster erkennen kann. Wir generalisieren.
Wie man hier also sieht, werden einfach

00:05:58.590 --> 00:06:06.880
Tricks übernommen, die es in der Statistik
schon seit vielen hundert Jahren gibt. Und

00:06:06.880 --> 00:06:11.050
dafür angewandt, um jetzt irgendwie zu
versuchen, aus einem Haufen Daten, ohne

00:06:11.050 --> 00:06:15.370
ihn wirklich zu verstehen, ohne genau zu
wissen, was da drinsteckt, einfach durch

00:06:15.370 --> 00:06:21.053
schiere Masse, Muster zu erkennen und
dann hoffentlich zu wissen: Okay, wenn ich

00:06:21.053 --> 00:06:25.610
jetzt weit genug generalisiert habe, wird
mein System schon irgendwie gut genug sein

00:06:25.610 --> 00:06:34.940
für mein Anwendungszweck. Das hat aber,
obwohl der Name Deep Learning und

00:06:34.940 --> 00:06:41.250
Künstliche Intelligenz, alles nicht so
wahnsinnig viel damit zu tun, was wir als

00:06:41.250 --> 00:06:47.160
Intelligenz verstehen, was wir als Lernen
verstehen. Der Tweet hier fasst das ganz

00:06:47.160 --> 00:06:52.690
gut zusammen. Er sagt, das menschliche
Hirn funktioniert ganz anders. Wenn das

00:06:52.690 --> 00:06:55.990
menschliche Hirn so wie Deep Learning
funktionieren würde, dann müssten wir

00:06:55.990 --> 00:07:01.160
einfach 200 mal ins Gesicht geschlagen
werden, bevor wir überhaupt raffen, dass

00:07:01.160 --> 00:07:04.370
wir das nicht mögen. So ist das
tatsächlich wenn ich bei Deep Learning,

00:07:04.370 --> 00:07:09.040
wenn ich ihm 50, 100, 200 Wölfe und Hunde
zeige, dann weiß das System noch gar

00:07:09.040 --> 00:07:14.139
nichts, weil es nicht schnell genug
interpretieren kann, nicht genug Kontext-

00:07:14.139 --> 00:07:17.870
Informationen einbeziehen kann, nicht
genug von all dem nutzen können, was das

00:07:17.870 --> 00:07:22.690
menschliche Hirn, was wir können, wenn wir
irgendwas machen, um irgendwie

00:07:22.690 --> 00:07:27.910
Entscheidungen zu treffen. Und das ist ein
großes Problem. Warum genau, werden wir

00:07:27.910 --> 00:07:36.370
gleich nochmal im Detail besprechen. Sorgt
aber dafür, dass wir einfach nur auf Masse

00:07:36.370 --> 00:07:39.699
gehen und dadurch einfach eine bestimmte
Genauigkeit so leicht nicht erreichen

00:07:39.699 --> 00:07:43.410
können, wie wir sie gerne hätten.
Nadja: Die intuitive Ursprungsidee hinter

00:07:43.410 --> 00:07:47.870
neuronalen Netzen war tatsächlich mal
sozusagen die Funktionalität des Gehirns

00:07:47.870 --> 00:07:51.060
nachzubauen. Unsere Neuronen feuern auch,
sind miteinander vernetzt, können

00:07:51.060 --> 00:07:55.570
irgendwelche Dinge auslösen. Das ist aber
heutzutage nicht mehr wie Neuronale Netze

00:07:55.570 --> 00:07:58.639
funktionieren. Wir bilden damit nicht
wirklich die Funktion organischer Gehirne

00:07:58.639 --> 00:08:01.919
nach, sondern und das war zwar die
Intuition dahinter, das funktioniert aber

00:08:01.919 --> 00:08:08.030
tatsächlich sehr anders. Der für uns
interessante Teil ist aber inzwischen, wie

00:08:08.030 --> 00:08:11.920
wird das Ganze eigentlich angewendet, wo
begegnet uns das im Alltag, nicht nur in

00:08:11.920 --> 00:08:15.480
Forschungslabors, nicht nur in
akademischen Institutionen, sondern auch

00:08:15.480 --> 00:08:18.970
tatsächlich in Systemen, die wir jeden Tag
benutzen, die inzwischen weit verbreitet

00:08:18.970 --> 00:08:23.620
sind. Mit allen Nach- und Vorteilen, nach
der großen Flaute, von der wir es eben

00:08:23.620 --> 00:08:28.470
schon kurz hatten, erlebt das Feld gerade
wieder ein riesiges Hoch, und sie sind in

00:08:28.470 --> 00:08:31.610
so vielen Bereichen im Einsatz, dass einen
kurzen Überblick davon zu verschaffen

00:08:31.610 --> 00:08:35.519
quasi unmöglich ist. Extrem weit
verbreitet sind Sachen wie

00:08:35.519 --> 00:08:39.370
Sprachassistenten. In den letzten Jahren
Siri, Alexa, Echo, all das. Sie müssen so

00:08:39.370 --> 00:08:42.199
etwas können, wie Sprachverarbeitung, die
müssen so etwas können wie

00:08:42.199 --> 00:08:45.370
Textverarbeitung, die müssen
Sprachsynthese beherrschen, sie müssen

00:08:45.370 --> 00:08:47.710
auch irgendwo Information Retrieval
beherrschen und tatsächlich auch die

00:08:47.710 --> 00:08:52.599
Informationen aus dem riesigen
Informationscluster, der das Internet nun

00:08:52.599 --> 00:08:57.860
mal ist, hervorzuholen. Aber auch weit
verbreitet durch solche Unternehmen wie

00:08:57.860 --> 00:09:01.050
Tesla oder Uber sind inzwischen die
Bereiche des autonomen Fahrens oder

00:09:01.050 --> 00:09:04.779
generell des autonomen Transports, die
sich dann eher mit vielleicht

00:09:04.779 --> 00:09:08.730
Bilderkennung bearbeiten müssen, mit
Navigation, mit Fein-Kontrolle an

00:09:08.730 --> 00:09:12.600
motorischen Bauteilen etc. Nicht ganz so
offensichtlich, aber dennoch, wenn man

00:09:12.600 --> 00:09:16.509
darüber nachdenkt oder wenn man es gesagt
bekommt, dann doch sehr gut sichtbar: Für

00:09:16.509 --> 00:09:20.410
alle Menschen im Alltag sind
Recommendation Systems, so etwas wie

00:09:20.410 --> 00:09:23.750
"Amazon Kunden kauften auch", "Sie könnte
interessieren", alles, was uns irgendwie

00:09:23.750 --> 00:09:28.660
Vorschläge generiert. Die Sortierung von
Google Ergebnissen oder generell von

00:09:28.660 --> 00:09:32.339
Suchmaschinen, wie mir Ergebnisse
angezeigt werden, was wie gerankt wird.

00:09:32.339 --> 00:09:36.360
Aber auch sowas wie, was zeigt mir mein
Facebook Newsfeed überhaupt an? Wer

00:09:36.360 --> 00:09:40.119
bekommt was, wann und wie oft zu sehen?
Das ist bei weitem nicht so

00:09:40.119 --> 00:09:44.529
straightforward, nicht so offensichtlich,
wie sich das viele Leute denken. Deutlich

00:09:44.529 --> 00:09:48.279
weniger bekannt sind dann schon Systeme,
die sowas wie

00:09:48.279 --> 00:09:52.020
Rückfälligkeitseinschätzungen für
straffällig gewordene machen, die in

00:09:52.020 --> 00:09:55.589
Gerichtsverfahren dazu verwendet werden,
um anhand von irgendwelchen Scores

00:09:55.589 --> 00:10:02.100
Strafmaße zu vergeben. Das geschieht in
den USA schon seit Jahren. Aber auch

00:10:02.100 --> 00:10:05.770
Sachen, die anhand von Gesichtserkennung
versuchen, verdächtige Personen zu

00:10:05.770 --> 00:10:12.279
identifizieren, oder die Scoring
Algorithmen, die für irgendwelche sozialen

00:10:12.279 --> 00:10:16.810
Systeme verwendet werden oder zur
Einschätzung für Versicherungen verwendet

00:10:16.810 --> 00:10:21.939
werden. Aber auch Einstellungsverfahren,
die anhand von Stichwörtern, von

00:10:21.939 --> 00:10:26.160
Lebensläufen, noch bevor jemals jemand auf
die Unterlagen drauf geschaut hat,

00:10:26.160 --> 00:10:31.589
Kandidatinnen aussortieren.
Benjamin: Diese Systeme arbeiten auch da

00:10:31.589 --> 00:10:35.140
wieder so, dass wir häufig nicht
verstehen, genau was sie tun. Teilweise

00:10:35.140 --> 00:10:38.889
so, dass man im Nachhinein denkt: Um
Gottes Willen, wie können die so

00:10:38.889 --> 00:10:43.480
funktionieren? Das heißt, sowohl diese
Einstellung bei Gesichtsinterpretation

00:10:43.480 --> 00:10:49.819
oder für Bewerbungsverfahren, wo ein 15
sekündiges Video analysiert wird,

00:10:49.819 --> 00:10:54.499
übernimmt regelmäßig solche Systeme wie,
wir messen jetzt Abstand zwischen Augen,

00:10:54.499 --> 00:10:58.561
Nase, Mund, was weiß ich, was wir leider,
wenn man ganz ehrlich ist, kennen aus

00:10:58.561 --> 00:11:03.660
irgendwelcher Genetik, die die Nazis
betrieben haben, um irgendwelche

00:11:03.660 --> 00:11:10.139
überlegenen Rassen zu identifizieren. Und
solche Dinge werden in Systemen heutzutage

00:11:10.139 --> 00:11:14.230
eingesetzt. Nicht unbedingt absichtlich.
Aber wenn man sich die Mühe macht zu

00:11:14.230 --> 00:11:17.379
verstehen, was das System eigentlich
tut, stellt man plötzlich mit großem

00:11:17.379 --> 00:11:21.119
Bedauern fest, dass es genau das tut.
Nadja: In all diesen Bereichen, in allen

00:11:21.119 --> 00:11:24.620
Unteraufgaben davon und noch viel mehr
kommen diese Deep Learning Systeme mit all

00:11:24.620 --> 00:11:28.300
ihren Nachteilen und oftmals mit
unbeabsichtigten Nebenwirkungen aktuell

00:11:28.300 --> 00:11:34.379
zum Einsatz. Und es werden immer mehr.
Genug dazu, was die Grundlage ist, genug

00:11:34.379 --> 00:11:37.300
dazu, was wir unter Deep Learning
verstehen und wo es angewendet wird. Wir

00:11:37.300 --> 00:11:39.389
wollen uns als nächstes mit
wissenschaftlicher Nachhaltigkeit

00:11:39.389 --> 00:11:44.190
beschäftigen. Und die erste Frage, die
sich die meisten Leute dazu stellen: Was

00:11:44.190 --> 00:11:47.699
bedeutet denn wissenschaftliche
Nachhaltigkeit eigentlich? Wenn wir das

00:11:47.699 --> 00:11:51.999
sagen, meinen wir solche Fragen wie, wie
relevant ist eigentlich das Thema, an dem

00:11:51.999 --> 00:11:56.100
wir forschen? Wie relevant sind meine
Ergebnisse für die Zukunft, für die

00:11:56.100 --> 00:12:00.079
weitere Entwicklung des Feldes, für den
Alltag der Menschen, um die es

00:12:00.079 --> 00:12:04.529
letztendlich geht? Wir fragen uns aber
auch: Können wir diese Ergebnisse

00:12:04.529 --> 00:12:09.129
überhaupt reproduzieren? Kann irgendjemand
anderes, wenn er dieses Paper gelesen hat,

00:12:09.129 --> 00:12:11.879
zu den gleichen Zahlen, zu dem gleichen
Ergebnis oder zumindest zu der gleichen

00:12:11.879 --> 00:12:16.399
Größenordnung kommen? Haben wir die dazu
notwendigen Mittel? Haben wir die Details

00:12:16.399 --> 00:12:21.450
publiziert? Und sind die Ergebnisse so
verlässlich, dass es möglich ist? Wir

00:12:21.450 --> 00:12:24.399
meinen auch: Können wir Dinge, die in der
Forschung entwickelt werden,

00:12:24.399 --> 00:12:28.110
wiederverwenden? Oder sind sie nur für
diese eine sehr spezielle Aufgabe

00:12:28.110 --> 00:12:32.559
relevant? Wir meinen auch: Sind wir
konkurrenzfähig? Oder sind andere Systeme,

00:12:32.559 --> 00:12:36.709
die mit den gleichen oder sogar weniger
Aufwand entwickelbar, einsetzbar sind,

00:12:36.709 --> 00:12:41.300
nicht vielleicht sogar besser? Wir meinen
auch: Mit welcher Systematik wurde dieses

00:12:41.300 --> 00:12:45.889
System gebaut? Nach welchem System wurde
untersucht, was an dieser Stelle hilfreich

00:12:45.889 --> 00:12:49.920
ist und was nicht? Oder war das völlig
willkürlich? Und schlussendlich meinen wir

00:12:49.920 --> 00:12:52.660
auch: Was ist die Aussagekraft meiner
Ergebnisse? Wie war die

00:12:52.660 --> 00:12:57.910
Evaluationsmethodik? Was ist dabei am Ende
rausgekommen, was tatsächlich relevant,

00:12:57.910 --> 00:13:07.999
nennenswert, statistisch signifikant ist?
Benjamin: Und an der Stelle überlegen wir

00:13:07.999 --> 00:13:11.149
uns kurz, ich weiß nicht, einige von euch
kommen sicherlich aus dem

00:13:11.149 --> 00:13:16.320
wissenschaftlichen Bereich, andere aus der
Industrie, ist völlig egal, wie man sich

00:13:16.320 --> 00:13:20.459
eigentlich wünschen würde, dass
Wissenschaft funktioniert, nämlich

00:13:20.459 --> 00:13:24.260
irgendwie systematisch. Menschen denken
sich Dinge aus, überprüfen sie, stellen

00:13:24.260 --> 00:13:28.239
fest, sie stimmen, und alles ist gut.
Tatsächlich haben wir in diesem Bereich

00:13:28.239 --> 00:13:34.910
häufig, sehr häufig, ein völlig anderes
Verfahren. Es gibt Publikationen zu

00:13:34.910 --> 00:13:37.154
irgendwelchen Arten: Wie 
kann man diese

00:13:37.154 --> 00:13:38.154
Neuronen, die wir vorhin hatten, 
wie kann man diese Modelle

00:13:38.154 --> 00:13:41.769
aufbauen? Was kann man
da machen? Dass die Daten dadurch fließen?

00:13:41.769 --> 00:13:47.149
Dazu denken sich Leute was aus. Dann
publizieren sie das, veröffentlichen das,

00:13:47.149 --> 00:13:51.249
und andere Leute denken sich, okay, das
klingt doch spannend. Lass das mal nehmen,

00:13:51.249 --> 00:13:55.449
um daraus jetzt irgendwie für meinen
Anwendungsfall ein neues System zu bauen.

00:13:55.449 --> 00:13:59.639
Das heißt, Sie nehmen dieses Modell, was
man irgendwo gehört hat, was gerade durch

00:13:59.639 --> 00:14:07.450
die Fachwelt geistert. Dann überlegt man
sich grob: Wie baut man das auf? Wie nehme

00:14:07.450 --> 00:14:12.540
ich das? Ich packe jetzt so viele
Schichten von diesem Typ hintereinander.

00:14:12.540 --> 00:14:17.440
Sagen wir mal so und so viele, und die
Schichten machen wir so groß, wir arbeiten

00:14:17.440 --> 00:14:21.540
jetzt mit so und so vielen dimensionalen
Vektoren. Das denkt man sich einfach aus,

00:14:21.540 --> 00:14:24.019
was irgendwie plausibel klingt. 
Dann guckt man,

00:14:24.019 --> 00:14:25.019
dass man die Daten noch
irgendwie so lange schlägt,

00:14:25.019 --> 00:14:28.410
bis sie irgendwie halbwegs
in das Format reinpassen, was man gerade

00:14:28.410 --> 00:14:31.579
haben will, macht da irgendwelche
numerischen Werte draus, auf teilweise

00:14:31.579 --> 00:14:36.579
sehr fragwürdige Art und Weise. Und dann
wird das Ganze in das Netzwerk gepackt,

00:14:36.579 --> 00:14:39.749
und das ganze Ding nennt sich ja Deep
Learning. Das heißt, jetzt kommt das

00:14:39.749 --> 00:14:44.119
Lernen. Das basiert halt darauf, dass man
die Daten reinschiebt, guckt, wie gut es

00:14:44.119 --> 00:14:50.199
passt. Wie gut war die Vorhersage. Dann
anhand dessen das System anpasst, die

00:14:50.199 --> 00:14:53.649
Daten wieder durchfließen lässt und das
Ganze immer und immer wiederholt, bis man

00:14:53.649 --> 00:14:59.180
am Ende irgendwie schön Gewichte in diesen
Funktionen, die man im Prinzip

00:14:59.180 --> 00:15:04.610
konstruiert, geraten hat oder gelernt hat,
die plausibel erscheinen für den Zweck,

00:15:04.610 --> 00:15:08.449
den man braucht. Das ergibt dann das
Modell. Wenn die Zahlen, die dann

00:15:08.449 --> 00:15:12.910
rauskommen, auf den Daten mit dem man das
testet, ganz gut aussehen, dann nehmen die

00:15:12.910 --> 00:15:19.250
Leute das und schreiben ihr Paper darüber
und sagen Okay, für Klassifikationen von

00:15:19.250 --> 00:15:24.079
Wölfen gegen Hunde haben wir jetzt
folgende Architektur, folgendes Dings.

00:15:24.079 --> 00:15:28.089
Hier sind unsere Daten. Das sind die
Werte, die wir haben. Bitteschön, dass ist

00:15:28.089 --> 00:15:32.089
jetzt das tolle neue Forschungsergebnis.
Wenn die Werte nicht so gut aussehen, dann

00:15:32.089 --> 00:15:37.199
hat man wohl vielleicht die falsche State
of the Art System genommen, was gerade

00:15:37.199 --> 00:15:40.939
jemand veröffentlicht hat. Oder man hat
eine Schlicht zu wenig, eine Schicht zu

00:15:40.939 --> 00:15:44.939
viel, die Vektoren haben die falsche
Dimensionierung. Na naja, gut, dann rate

00:15:44.939 --> 00:15:50.080
ich eben neue Parameter. Ist ja alles nur
Strom und Zeit, lässt das Ganze weiter

00:15:50.080 --> 00:15:56.129
trainieren. Da laufen die GPUs heiß. Und
dann fängt man von vorne an damit und

00:15:56.129 --> 00:16:01.959
guckt, ob jetzt gute Zahlen rauskommen.
Und je nachdem sagt man dann, Okay, ich

00:16:01.959 --> 00:16:07.161
mache weiter, oder ich fall wieder durch.
Dazu kommt dann noch, das Ganze ist jetzt

00:16:07.161 --> 00:16:11.419
ja schon irgendwie ziemlich
unwissenschaftlich. Das ist nicht mal mehr

00:16:11.419 --> 00:16:16.159
empirische Forschung. Das ist wirklich
ausprobieren und hoffen, dass etwas Gutes

00:16:16.159 --> 00:16:21.809
rauskommt. Aber danach kann man jetzt ja
noch die üblichen Schönungs-Methoden

00:16:21.809 --> 00:16:27.359
anwenden, die es natürlich in der
Wissenschaft gibt, die man auch so leicht

00:16:27.359 --> 00:16:31.699
gar nicht finden kann. Leider. Man kann
natürlich jetzt sagen, ich zeige nur die

00:16:31.699 --> 00:16:34.990
Ergebnisse auf den Datensets, bei denen
die Zahlen gut aussehen, und auf dem

00:16:34.990 --> 00:16:38.450
zweiten Datensets mit den Fotos aus einer
anderen Perspektive oder mit einem anderen

00:16:38.450 --> 00:16:42.269
Hintergrund jetzt leider nicht gut
funktioniert hat, das muss ich ja

00:16:42.269 --> 00:16:46.879
niemandem erzählen. Das veröffentliche ich
einfach nicht mit. Das bleibt bei mir, und

00:16:46.879 --> 00:16:49.459
meinen anderen Zahlen sehen ja gut aus,
und das muss man jetzt erst mal jemand

00:16:49.459 --> 00:16:52.649
nachmachen und zeigen, dass es mit etwas
anderem nicht funktioniert. Selbst wenn

00:16:52.649 --> 00:16:56.839
nicht: Ich habe ja eine Publikation. Und
das ist leider in vielen Feldern

00:16:56.839 --> 00:17:00.669
heutzutage was, was wichtig ist. Irgendwo
bei einer wichtigen Konferenz ein Paper zu

00:17:00.669 --> 00:17:04.829
veröffentlichen, mit der man eine
minimale Verbesserung gegenüber dem

00:17:04.829 --> 00:17:10.080
bisherigen State of the Art gezeigt hat.
Natürlich kann ich außerdem, eigentlich

00:17:10.080 --> 00:17:13.790
sollte ich solche Experimente mehrfach
wiederholen und Mittelwerte bilden. Aber

00:17:13.790 --> 00:17:16.959
ich kann natürlich Experimente mehrfach
wiederholen und einfach nur den besten

00:17:16.959 --> 00:17:26.720
Score veröffentlichen. Und weitere solche
Tricks anwenden. Das heißt, wir haben

00:17:26.720 --> 00:17:32.360
sowieso schon einen schlechten Prozess,
der dann auch noch teilweise missbraucht

00:17:32.360 --> 00:17:37.510
wird, um schneller bessere Ergebnisse zu
kriegen und das dann zu publizieren. Das

00:17:37.510 --> 00:17:41.929
ist das, was wir viel in diesen Feldern
sehen. Definitiv nicht bei allen Papern.

00:17:41.929 --> 00:17:47.470
Gerade die Grundlagen Paper sind
sicherlich gut erforscht. Aber die vielen

00:17:47.470 --> 00:17:53.809
Anwendungspaper können an der Stelle, und
allein schon indem, wie sie entstanden

00:17:53.809 --> 00:17:57.519
sind, begründet, keinen wirklichen
Mehrwert liefern. Was ihre Relevanz und

00:17:57.519 --> 00:18:01.000
ihren Vorteil, der daraus entsteht,
ergibt.

00:18:01.000 --> 00:18:07.230
Nadja: Das Ganze ist natürlich plakativ
formuliert und natürlich bringen wir das

00:18:07.230 --> 00:18:10.850
Ganze ein bisschen auf den Punkt, um zu
überspitzen. Aber Tatsache ist, wenn man

00:18:10.850 --> 00:18:13.409
sich in einem Feld bewegt, was sehr viel
Druck hat, wenn man sich in einem Feld

00:18:13.409 --> 00:18:17.069
bewegt, was so viele mögliche Gründe und
so viele Dinge hat, die diese

00:18:17.069 --> 00:18:20.500
Fallstricke begünstigen, dann werden sie
auch immer mehr genutzt.

00:18:20.500 --> 00:18:29.679
Benjamin: Genau. Wir sehen natürlich
besonders, es gibt gerade im Deep Learning

00:18:29.679 --> 00:18:33.590
diese Möglichkeiten. Denn wir haben schon
gesagt: wir verstehen nicht, was diese

00:18:33.590 --> 00:18:36.850
Modelle tun normalerweise. Es gibt ein
Forschungsfeld, was daran arbeitet. Aber

00:18:36.850 --> 00:18:40.919
normalerweise verstehen wir nicht, was
diese Systeme tun. Das sind Blackbox

00:18:40.919 --> 00:18:43.890
Modelle, die kriegen Daten rein, damit
wird irgendwas damit gemacht. Am Ende

00:18:43.890 --> 00:18:49.950
kommen Daten raus. Das Ganze geht noch
über mehrere Schritte. Wir haben die

00:18:49.950 --> 00:18:53.520
Daten, die werden irgendwie
vorverarbeitet. Dann kommen die Daten

00:18:53.520 --> 00:18:57.730
rein, gehen durch dieses System, dann
werden sie eventuell nachverarbeitet. Am

00:18:57.730 --> 00:19:00.960
Ende muss noch evaluiert werden,
entschieden werden: Was ist jetzt richtig?

00:19:00.960 --> 00:19:04.260
Was ist exakt richtig? Was ist gerade so
richtig? Reicht mir das vielleicht, um es

00:19:04.260 --> 00:19:09.841
als als wahr, stimmt es schon so, um es in
meinem Paper zu publizieren? Was ich genau

00:19:09.841 --> 00:19:14.549
gemessen habe, wird häufig gar nicht erst
angegeben. Das heißt, dort ist es extrem

00:19:14.549 --> 00:19:21.260
leicht möglich, auf diese Art und Weise zu
arbeiten. Und gerade dadurch, dass überall

00:19:21.260 --> 00:19:27.570
heutzutage Expertinnen für dieses Feld
gesucht werden, dass überall jemand

00:19:27.570 --> 00:19:31.250
Anwendungen haben möchte für Deep
Learning, kommt man damit eben ganz gut

00:19:31.250 --> 00:19:34.950
durch. Deswegen passiert das dort
besonders. Man muss auf der anderen Seite,

00:19:34.950 --> 00:19:39.529
wenn man die guten Jobs kriegen will, auch
solche Publikationen vorweisen. Also wird

00:19:39.529 --> 00:19:44.389
das entsprechend gemacht. Und genauso: es
sind halt sehr viele Low Hanging Fruits

00:19:44.389 --> 00:19:50.179
dabei. Das heißt Dinge, wo man weiß, okay,
mit wenig eigenen, großartigen Ideen und

00:19:50.179 --> 00:19:56.549
mehr anwenden von Handwerkszeug kann ich
irgendwo was bauen, was es noch nicht

00:19:56.549 --> 00:20:02.690
gibt. Und solange ich der Erste dazu bin,
kriege ich das leichter hin. Ich muss mich

00:20:02.690 --> 00:20:06.019
nicht mit irgendwem vergleichen. Ich zeige
Okay, mein System kann das mit einer

00:20:06.019 --> 00:20:10.590
akzeptablen Genauigkeit, exakte Zahlen und
Ergebnissen. Damit bin ich die erste

00:20:10.590 --> 00:20:13.980
Person, die das geschafft hat, und kann
das entsprechend veröffentlichen. Deswegen

00:20:13.980 --> 00:20:19.980
versuchen möglichst viele Leute, möglichst
schnell solche Dinge rauszuhauen, neue

00:20:19.980 --> 00:20:30.210
Publikationen in diesen Bereichen zu
veröffentlichen. Wenn wir jetzt wissen

00:20:30.210 --> 00:20:35.990
wollen, wie gut eigentlich ein System ist,
was vorgestellt wird, wäre es natürlich

00:20:35.990 --> 00:20:40.120
schön, wenn wir die Experimente einfach
wiederholen könnten. Das ist allerdings

00:20:40.120 --> 00:20:47.559
leider gar nicht so trivial. Denn auch
wenn die Systeme, die eingesetzt werden,

00:20:47.559 --> 00:20:50.980
die Grundlagen-Systeme, häufig ein
gewisser Standard sind und irgendwie auch

00:20:50.980 --> 00:20:57.380
als Open Source existieren, gilt das eben
nicht für die ganzen Anpassungen, die

00:20:57.380 --> 00:21:00.880
ganzen Details, die die Personen einbauen.
Das gilt also nicht für den eigentlichen

00:21:00.880 --> 00:21:06.870
Code, für die Pipeline, aber auch für die
Pre-Processing, für die Evaluierung. Das

00:21:06.870 --> 00:21:12.320
gilt nicht unbedingt für die Daten. Häufig
sind Daten nicht verfügbar. Wir wissen,

00:21:12.320 --> 00:21:16.669
Daten sind wertvoll, deswegen will man sie
nicht aus der Hand geben. Aber so

00:21:16.669 --> 00:21:19.889
funktioniert Wissenschaft nicht. Ich kann
nicht auf meinen Daten, die ich für mich

00:21:19.889 --> 00:21:23.309
behalte, arbeiten, sie niemandem zeigen
und sagen: Aber mein System ist gut, ich

00:21:23.309 --> 00:21:29.919
habe es ja selbst getestet. Das ihr es
nicht überprüft könnt, Pech gehabt. Ich

00:21:29.919 --> 00:21:35.110
habe in diesen Systemen enorm viele Hyper-
Parameter, die wir haben es ja gesagt,

00:21:35.110 --> 00:21:39.940
erst einmal häufig geraten werden oder
durch durch grobes Ausprobieren bestimmt

00:21:39.940 --> 00:21:44.179
werden. Wenn ich diese Parameter und diese
Hyper-Parameter nicht weiß, habe ich keine

00:21:44.179 --> 00:21:49.410
Chance, das System nachzubauen. Ich weiß
auch nicht, mit welchen Initialisierungen,

00:21:49.410 --> 00:21:51.420
die zufällig geschehen und 
mit welchen Reihenfolgen

00:21:51.420 --> 00:21:52.830
und Aufteilung der Daten
das Ganze geschehen ist.

00:21:52.830 --> 00:21:55.679
Das heißt, wenn ich diese 
ganzen Details nicht habe, habe ich

00:21:55.679 --> 00:22:01.870
erst mal keine Chance, genau ein System
nachzubauen. Ich brauche aber genau diese

00:22:01.870 --> 00:22:06.940
exakten Werte, weil diese Systeme enorm
fragil sind. Das heißt, wenn ich

00:22:06.940 --> 00:22:12.300
Kleinigkeiten ändere, ein bisschen die
Dimensionen verändere, die Größe der

00:22:12.300 --> 00:22:15.610
Schichten, gar so gar die Funktionen, die
da aneinandergekettet werden, ein bisschen

00:22:15.610 --> 00:22:19.261
ändere, kriege ich völlig andere
Ergebnisse und weiß nicht mehr, ob das

00:22:19.261 --> 00:22:23.549
andere System wirklich schlecht oder gut
war oder ob es eben nur daran liegt, dass

00:22:23.549 --> 00:22:32.020
ich es nicht genau nachbauen kann.
Problem: Aktuell gibt es zwar

00:22:32.020 --> 00:22:36.250
Bestrebungen, dass das so etwas besser
wird, aber keinen Zwang oder so dafür. Das

00:22:36.250 --> 00:22:40.220
heißt, wenn ich ein Paper publiziere auf
einer der großen Konferenzen, in meinem

00:22:40.220 --> 00:22:45.750
Anwendungsgebiet oder auch im Kern Machine
Learning Bereich, dann ist es gewünscht,

00:22:45.750 --> 00:22:50.960
dass sie reproduzierbar sind. Es ist aber
nicht erzwungen. Das heißt, es gibt

00:22:50.960 --> 00:22:56.090
zusätzlich nochmal das, ich möchte möchte,
dass mein Paper so ein Siegel kriegt, das

00:22:56.090 --> 00:22:58.760
ist reproduzierbar. Dann muss ich dafür
ein paar Dinge machen. Da muss ich im

00:22:58.760 --> 00:23:03.900
Prinzip diese Dinge hier bereitstellen,
die wir ja aufgelistet haben. Und dann

00:23:03.900 --> 00:23:08.799
versuchen andere Leute nachzuvollziehen,
ob das, was ich mache, auch stimmt. Und

00:23:08.799 --> 00:23:12.230
dann ich halt so ein Häkchen. Aber wenn
ich das nicht tue, dann mache ich es eben

00:23:12.230 --> 00:23:18.259
nicht. Und das ist sicherlich eine Stelle,
die man hinterfragen muss, wo auch zum

00:23:18.259 --> 00:23:22.899
Glück schon Dinge geschehen. Diese
Reproduzierbarkeit wird, rückt mehr in den

00:23:22.899 --> 00:23:30.169
Fokus der Konferenzen. Der Effekt von dem
Ganzen ist natürlich dadurch: Wir haben

00:23:30.169 --> 00:23:34.480
ganz viel Forschung, die nicht genutzt
werden kann von anderen Leuten. Das heißt,

00:23:34.480 --> 00:23:37.190
ich muss natürlich Forschung an der Stelle
wiederholen. Andere Leute müssen sie

00:23:37.190 --> 00:23:43.830
wiederholen und zusätzlich durch das,
sowohl durch diesen Effekt als auch durch

00:23:43.830 --> 00:23:47.529
den Drang, möglichst viel und möglichst
schnell zu publizieren, wird halt extrem

00:23:47.529 --> 00:23:51.330
viel Forschung auch so wiederholt und an
ähnlichen Problemen immer wieder

00:23:51.330 --> 00:23:56.210
gearbeitet, um minimale Verbesserung zu
bekommen, weil man ja auch schon ein "Mein

00:23:56.210 --> 00:24:00.130
System ist 0,5 Prozentpunkte besser als
das bisherige State of the Art System"

00:24:00.130 --> 00:24:08.690
wieder publizieren kann. Das heißt,
wünschenswert wäre es, wir hätten überall

00:24:08.690 --> 00:24:13.649
diese Reproduzierbarkeit. Das heißt, das
Wichtigste wäre natürlich wir alle immer,

00:24:13.649 --> 00:24:17.269
wenn wir hier sitzen und wenn wir
irgendwas erforschen. Wir müssen unseren

00:24:17.269 --> 00:24:19.460
Source Code veröffentlichen. Guck mal, da
ein Eichhörnchen.

00:24:19.460 --> 00:24:23.830
Nadja: Das ist leider, was uns viel zu
häufig passiert, wenn es einen

00:24:23.830 --> 00:24:27.700
wissenschaftlichen Code geht. Das heißt,
selbst die Autorinnen, die vorhatten ihren

00:24:27.700 --> 00:24:31.000
Code zu publizieren, das Ganze öffentlich
zu machen, Open Source zu machen, werden

00:24:31.000 --> 00:24:35.029
viel zu schnell vom nächsten Projekt, von
der größeren Deadline, von den

00:24:35.029 --> 00:24:38.389
beschäftigten Doktorandinnen oder von der
Tatsache, dass der Code immer noch nicht

00:24:38.389 --> 00:24:41.279
aufgeräumt ist, wenn man einfach nicht
dazu gekommen ist vor der Deadline,

00:24:41.279 --> 00:24:45.330
abgelenkt. Wir haben einen extrem hohen
Publikationsdruck im Bereich Deep

00:24:45.330 --> 00:24:49.330
Learning. Die Publikationen steigen
effektiv exponentiell. Man muss immer

00:24:49.330 --> 00:24:51.060
schneller sein, um 
wirklich noch state of

00:24:51.060 --> 00:24:52.460
the art zu sein, um 
selbst die eigene

00:24:52.460 --> 00:24:54.300
Verbesserung noch an den 
Markt bringen zu können.

00:24:54.300 --> 00:24:55.300
Das sorgt dafür, dass
irgendwo unsauber

00:24:55.300 --> 00:24:58.539
gearbeitet wird. Mein Code wird
nicht dokumentiert, da wird Spaghetti Code

00:24:58.539 --> 00:25:02.350
geschrieben. Er wird irgendwie hingehackt,
Hauptsache, es funktioniert. Und danach

00:25:02.350 --> 00:25:06.100
müsste ich mich hinsetzen und das Ganze
wieder aufarbeiten. Und das ist ein Riesen-

00:25:06.100 --> 00:25:09.789
stück Arbeit. Und eigentlich steht ja
schon die nächste Publikation an. Und alles

00:25:09.789 --> 00:25:12.539
ist es plötzlich interessanter, als den
Code zugänglich zu machen. Das gilt wieder

00:25:12.539 --> 00:25:15.469
nicht für alle Paper. Natürlich gibt es
Leute, die das machen. Wir versuchen es

00:25:15.469 --> 00:25:19.960
zum Beispiel auch. Aber es funktioniert
leider immer noch viel zu selten.

00:25:19.960 --> 00:25:25.169
Tatsächlich gab es dazu oder gibt es doch
immer noch von einer großen Konferenz in

00:25:25.169 --> 00:25:28.860
dem Bereich, die Reproducibility
Challenge, wo im wesentlichen

00:25:28.860 --> 00:25:32.409
Wissenschaftler aufgefordert werden, sich
ein akzeptiertes Paper aus der Konferenz

00:25:32.409 --> 00:25:37.180
2018 oder jetzt 2019 rauszusuchen und mit
allen Mitteln und Wegen zu versuchen, die

00:25:37.180 --> 00:25:41.260
Ergebnisse nachzuvollziehen. Teilweise
oder im Detail, komplett, erst mal

00:25:41.260 --> 00:25:44.960
rausfinden, was kann ich überhaupt? Die
Autoren sind angehalten, kurz publizieren

00:25:44.960 --> 00:25:48.909
und zu kooperieren. Die Leute versuchen
wirklich, auch Zeitaufwand, mit dem

00:25:48.909 --> 00:25:52.639
entsprechenden Fachwissen, die Ergebnisse
nachvollziehbar und erklärbar und

00:25:52.639 --> 00:25:58.600
reproduzierbar zu machen. Die Erfolgsrate?
Ja, ein Teil können wir nachvollziehen,

00:25:58.600 --> 00:26:03.480
immerhin 50 Prozent. Immerhin ein
Großteil, das nachvollziehen konnten 30

00:26:03.480 --> 00:26:08.800
Prozent, gar nicht reproduzieren waren 
aber immer noch 10 Prozent. Jetzt

00:26:08.800 --> 00:26:12.510
ist das interessante aber ja der
Schwierigkeitsgrad, dass man das irgendwie

00:26:12.510 --> 00:26:15.250
reproduzieren kann, ist an sich 
schon mal gut, aber noch

00:26:15.250 --> 00:26:17.370
nicht ausreichend. Wenn 
ich die komplette

00:26:17.370 --> 00:26:19.339
Forschung dafür neu machen
muss, dann lohnt das den Aufwand schlicht

00:26:19.339 --> 00:26:24.929
und einfach nicht. Reasonable difficulty
ist in dem Fall sagen wir ein nicht sehr

00:26:24.929 --> 00:26:28.909
konkretes Wort. Aber Tatsache ist, dass es
bei mindestens 20 Prozent der Paper sehr,

00:26:28.909 --> 00:26:33.309
sehr schwierig war und überhaupt keine
Probleme aufgetreten sind bei einem

00:26:33.309 --> 00:26:37.460
absolut vernachlässigbaren Teil. Was Sie
dabei noch gemacht haben, ist Sie haben

00:26:37.460 --> 00:26:41.549
gefragt, diese Wissenschaftlerinnen, denen
diese Challenge gestellt wurde, haben wir

00:26:41.549 --> 00:26:45.971
momentan eine Reproducibility Crisis im
Bereich Maschinenlearning? Seht ihr hier ein

00:26:45.971 --> 00:26:52.470
Problem? Und die Anzahl der Leute, die ein
Problem sehen, ist über diese Challenge um

00:26:52.470 --> 00:26:57.350
diverse Prozentpunkte gestiegen. Das
heißt, einfach mal selbst zu versuchen,

00:26:57.350 --> 00:27:01.409
hat nochmal 15 Prozentpunkte mehr der
befragten Wissenschaftlerinnen ungefähr,

00:27:01.409 --> 00:27:04.500
davon überzeugt, dass da tatsächlich
Probleme existiert und dazu geführt, dass

00:27:04.500 --> 00:27:07.790
drei Viertel der befragten
Wissenschaftlerinnen ein Problem sehen, in

00:27:07.790 --> 00:27:16.559
unterschiedlichem Ausmaße.
Benjamin: Noch ein Beispiel. Das ist

00:27:16.559 --> 00:27:20.320
jetzt, es gibt tatsächlich inzwischen
Paper, die sich damit beschäftigen, wie

00:27:20.320 --> 00:27:26.610
gut andere Paper reproduzierbar sind. In
dem Fall aus dem Bereich von

00:27:26.610 --> 00:27:31.809
Recommendation. Es geht darum, aus einer
Menge von Dokumenten bestimmte Dokumente

00:27:31.809 --> 00:27:35.820
für eine Anfrage oder Frage, oder was
weiss ich, vorzuschlagen. Da gab es in den

00:27:35.820 --> 00:27:40.100
letzten Jahren 18 Publikationen, die alle
auf Deep Learning setzen, bei großen

00:27:40.100 --> 00:27:46.440
Konferenzen. Und dann haben sich die Leute
mal hingesetzt und geguckt, wieviel können

00:27:46.440 --> 00:27:50.200
wir davon reproduzieren? Inklusive, wir
schicken erst einmal dem Autor in eine

00:27:50.200 --> 00:27:54.919
E-Mail, ob sie uns vielleicht ihren Code
geben können, bitten nochmal nach und

00:27:54.919 --> 00:27:57.700
versuchen, die Sachen zum Laufen zu
bringen, versuchen irgendwie, teilweise

00:27:57.700 --> 00:28:01.889
sogar ähnliche Hardware zu beschaffen, wie
die verwendet haben und bauen das nach.

00:28:01.889 --> 00:28:07.019
Insgesamt haben sich von diesen, für
dieses Beispiel, von diesen 18 Papern,

00:28:07.019 --> 00:28:11.490
ganze 7 Paper wirklich reproduzieren
können. Das heißt, bei denen können sie

00:28:11.490 --> 00:28:15.630
die ganzen Sachen nachbauen, können es
laufen lassen und kommen dann auf ähnliche

00:28:15.630 --> 00:28:18.870
Ergebnisse.
Nadja: Aber wichtig, erst nachdem Sie die

00:28:18.870 --> 00:28:21.849
Arbeit investiert haben, erst nachdem Sie
nachgefragt haben, erst nachdem Sie

00:28:21.849 --> 00:28:25.330
versucht haben, die Dinge aufzutreiben,
die nicht von sich aus herausgegeben

00:28:25.330 --> 00:28:27.330
wurden.
Benjamin: Das ist nicht der Standard

00:28:27.330 --> 00:28:30.779
Prozess. Also normalerweise, wenn ich
irgendwo auf der Konferenz ein Paper

00:28:30.779 --> 00:28:34.490
schicke und sage, Okay, das möchte ich
veröffentlichen. Dann lesen Leute nur

00:28:34.490 --> 00:28:38.960
dieses Paper. Gucken Sie sich eventuell
noch ein Video an oder vielleicht sogar

00:28:38.960 --> 00:28:42.700
ganze zusätzliche Datensätze, die
hochgeladen werden. Aber normalerweise

00:28:42.700 --> 00:28:47.200
lesen Sie nur dieses Paper, diese 6, 8,
10, manchmal 12 Seiten mit eng

00:28:47.200 --> 00:28:51.450
geschriebenen Ergebnissen und entscheiden
nur anhand des Textes, der dort dann

00:28:51.450 --> 00:28:55.720
steht, und anhand der Zahlen, die die
Autorin selbst herausgegeben haben, ob

00:28:55.720 --> 00:29:02.329
diese Arbeit relevant, richtig und
irgendwie nutzbar erscheint. Und dann wird

00:29:02.329 --> 00:29:06.929
entschieden, ob sie veröffentlicht wird
oder nicht. Aber sie können normalerweise

00:29:06.929 --> 00:29:11.169
nicht in irgendeiner Form überprüfen, ob
das wirklich so ist. Sie müssen komplett

00:29:11.169 --> 00:29:17.920
auf den Text vertrauen, ohne. Das ist
der Standardfall, wenn wir nicht explizit

00:29:17.920 --> 00:29:22.700
Reproduzierbarkeit fordern für
irgendwelche Konferenzen. Und wie gesagt,

00:29:22.700 --> 00:29:27.740
die bisherigen großen Konferenzen. Es gibt
keine, die einen von den angewandten

00:29:27.740 --> 00:29:32.129
Konferenzen, die Reproduzierbarkeit
explizit fordert. Es ist immer nur ein

00:29:32.129 --> 00:29:36.519
zusätzliches Challenge, oder ein
zusätzliches Siegel, oder was weiß ich.

00:29:36.519 --> 00:29:40.560
Bisher basiert die Annahme und die
Veröffentlichung von irgendwelchen Papern

00:29:40.560 --> 00:29:44.789
komplett nur auf dem Reviewen von den
eingereichten Sachen, ohne den Versuch es

00:29:44.789 --> 00:29:51.350
auch zu reproduzieren. Noch zu dem
Beispiel, um es noch demotivierender zu

00:29:51.350 --> 00:29:57.710
machen. Von diesen 7 Ergebnissen, die sie
reproduzieren konnten, haben sie dann

00:29:57.710 --> 00:30:03.750
außerdem nochmal nicht Deep Learning
basierte Ansätze genommen, die damit

00:30:03.750 --> 00:30:09.299
verglichen und festgestellt, dass wenn man
da sich ein bisschen Mühe gibt, sie von 6

00:30:09.299 --> 00:30:12.820
von diesen 7 Paper noch besserere,
trotzdem noch bessere Ergebnisse kriegen.

00:30:12.820 --> 00:30:20.070
Das heißt, von diesen 18 Publikationen hat
eine für externe Leute messbaren

00:30:20.070 --> 00:30:28.340
wissenschaftlichen Fortschritt gebracht.
Und genau diese anderen Ansätze sind

00:30:28.340 --> 00:30:34.059
nämlich leider etwas, was sehr stark durch
diesen Hype, der ja offensichtlich

00:30:34.059 --> 00:30:39.620
funktioniert, so voll wie sie heute ist,
das Wort Deep Learning zieht, werden die

00:30:39.620 --> 00:30:43.710
verdrängt. Der Rest sind häufig nur
Baselines. Ich muss ja nur im Paper

00:30:43.710 --> 00:30:48.590
irgendwas angeben, was ein anderes System
ist, mit dem ich es vergleiche, damit ich

00:30:48.590 --> 00:30:52.590
zeige, dass mein neues System besser ist
als das, was bisher da ist. Dann gebe ich

00:30:52.590 --> 00:30:57.249
mir auch keine Mühe, dass ich diesen
Anteil, dieses andere System besonders gut

00:30:57.249 --> 00:31:00.340
dastehen lasse. Denn dann wird es
schwieriger, dass mein neues System besser

00:31:00.340 --> 00:31:04.610
abschneidet. Das heisst, es wird
hauptsächlich eben an diesem Deep

00:31:04.610 --> 00:31:09.701
Learnings Krams geforscht, und alles
andere wird vernachlässigt, obwohl man da

00:31:09.701 --> 00:31:13.679
noch sehr viel rausholen könnte, wenn man
es denn wollte und irgendeinen Vorteil

00:31:13.679 --> 00:31:20.500
davon hätte. Und es wird wirklich alles
andere nur als Baseline betrachtet. Ganz

00:31:20.500 --> 00:31:24.830
kurz noch Exkurs, das ist ein Foundation
Talk. Baseline, ich brauche irgendein

00:31:24.830 --> 00:31:27.739
System, mit dem ich zeige, dass meine
Daten valide sind. Das ist irgendwie

00:31:27.739 --> 00:31:31.080
Plausible ist, was ich raus kriege. Im
simpelsten Fall ist ein Baseline Ansatz

00:31:31.080 --> 00:31:34.740
für eine binäre Entscheidung einfach ein
Münzwurf. Wenn ich ein System baue, was

00:31:34.740 --> 00:31:39.080
zwischen Hund oder Wolf entscheiden muss
und es hat nur 5 Prozent Genauigkeit, dann

00:31:39.080 --> 00:31:42.321
hätte ich mal lieber eine Münze geworfen.
Da würde ich mit 50 Prozent Genauigkeit

00:31:42.321 --> 00:31:45.679
kriegen. Dann ist mein System
außerordentlich schlecht. Sobald ich über

00:31:45.679 --> 00:31:49.240
diese 50 Prozent drüber kommen über diese
Baseline, kann ich in diesem Paper

00:31:49.240 --> 00:31:54.639
inhaltlich begründen, warum mein neues
System besser ist als diese Baseline. Nun

00:31:54.639 --> 00:31:57.610
gebe es vielleicht bessere, klügere
Ansätze als einen reinen Münzwurf. Aber

00:31:57.610 --> 00:32:00.420
wenn ich den halt möglichst low halte,
habe ich es an der

00:32:00.420 --> 00:32:04.179
anderen Stelle leichter.
Nadja: Dazu ganz kurz, um das in Zahlen zu

00:32:04.179 --> 00:32:06.730
fassen. Kaggle ist eine Plattform, die
Daten-

00:32:06.730 --> 00:32:07.730
wissenschaftliche Challenges
stellt, an der jeder

00:32:07.730 --> 00:32:11.130
dann mitarbeiten kann und
einen Versuch einreichen kann, diese

00:32:11.130 --> 00:32:14.379
Challenge zu schlagen. Z.B. im Bereich
Bilderkennung, aber eigentlich alles, was

00:32:14.379 --> 00:32:17.870
da ist, an wissenschaftliche oder
maschinelles Lernen in Worte fasst. Das

00:32:17.870 --> 00:32:20.659
ist der Unterschied zur akademischen
Forschung, dass wir uns nicht so sehr am

00:32:20.659 --> 00:32:23.740
State of the art orientieren, sondern die
Leute versuchen, oftmals sind es auch

00:32:23.740 --> 00:32:27.580
Privatpersonen, das zu nehmen, was
funktioniert. Da ist auch viel Deep

00:32:27.580 --> 00:32:30.230
Learning dabei. Weil Deep Learning, halt
ein paar Sachens sind, wo viel entwickelt

00:32:30.230 --> 00:32:33.450
wird, wo es viele fertige Frameworks gibt
und was verrufen ist als das, was

00:32:33.450 --> 00:32:38.010
irgendwie mit allem funktioniert, unter
gewissen Voraussetzungen. Aber trotzdem

00:32:38.010 --> 00:32:42.850
sehen wir das auch., dass klassische
Ansätze hier sehr, sehr hohen Anteil

00:32:42.850 --> 00:32:47.369
einnehmen, einen höheren Anteil als
manchmal bei entsprechenden Konferenzen zu

00:32:47.369 --> 00:32:50.630
finden ist. Das heißt, wenn es mir nur
darum geht, dass jetzt etwas funktioniert

00:32:50.630 --> 00:32:53.080
und ich nicht maximalen Aufwand
reinstecken will, ich nicht unbedingt die

00:32:53.080 --> 00:32:56.000
Buzzwords unterbringen will, ist Deep
Learning plötzlich nicht mehr ganz so

00:32:56.000 --> 00:33:00.621
beliebt. Und dafür gibt's mit Sicherheit
ein Grund. Wir wollen aber noch zu zwei

00:33:00.621 --> 00:33:03.450
weiteren Aspekten kommen. Und der nächste,
der der gesellschaftlichen Auswirkungen.

00:33:03.450 --> 00:33:07.340
Weil auch, was unsere Gesamtgesellschaft
betrifft, müssen wir in der Forschung, was

00:33:07.340 --> 00:33:10.440
das maschinelle Lernen und Deep Learning
angeht, ein bisschen auf Nachhaltigkeit

00:33:10.440 --> 00:33:15.299
achten. Gerade das Thema Erklärbarkeit und
Transparenz, das Thema kann nicht das

00:33:15.299 --> 00:33:18.539
System, was vielleicht sogar
lebenswichtige Entscheidungen trifft,

00:33:18.539 --> 00:33:22.730
irgendwie verstehen. Dieses inzwischen
relativ weit verbreitete Beispiel kommt

00:33:22.730 --> 00:33:26.850
aus der Software Compass, ich habe es
schon erwähnt, die wird verwendet, um bei

00:33:26.850 --> 00:33:29.620
straffällig gewordene Menschen in
Gerichtsverfahren einen Score zu

00:33:29.620 --> 00:33:32.249
ermitteln, mit welcher Wahrscheinlichkeit
sie rückfällig werden im weiteren Verlauf

00:33:32.249 --> 00:33:37.370
ihres Lebens. Dieser Score wird vom
Richter dann verwendet, um das Strafmaß zu

00:33:37.370 --> 00:33:43.110
bestimmen. Wenn wir uns jetzt den
Hintergrund der Hautfarbe, Hautfarbe

00:33:43.110 --> 00:33:47.041
dieser Menschen anschauen, für die diese
Scores bestimmt wurden, erkennen wir eine

00:33:47.041 --> 00:33:50.899
sehr unterschiedliche Verteilung zwischen
Menschen mit weißer Hautfarbe und Menschen

00:33:50.899 --> 00:33:55.570
mit anderer Hautfarbe. Das heißt, oben
links sehen wir, dass hohe und niedrige

00:33:55.570 --> 00:34:00.019
Scores annähernd gleichmäßig verteilt
werden, während wir eben bei Menschen mit

00:34:00.019 --> 00:34:03.249
eindeutig weißer Hautfarbe oder die so
wahrgenommen werden eine sehr starke

00:34:03.249 --> 00:34:07.929
Häufung niedrigen Scores haben. Das hat
sich an vielen Einzelbeispiele inzwischen

00:34:07.929 --> 00:34:11.950
gezeigt, dass das schlicht und einfach
falsch ist. Dass für ähnliche Verbrechen

00:34:11.950 --> 00:34:15.480
sehr unterschiedliche Strafen vergeben
wurden und das nicht der Fall ist, dass

00:34:15.480 --> 00:34:19.070
die Personen mit dem höheren Score auch
zwangsläufig eher rückfällig geworden ist.

00:34:19.070 --> 00:34:22.780
In einigen Fällen haben auch Menschen, die
in dem Bereich tätig sind, drauf geschaut

00:34:22.780 --> 00:34:24.530
und haben gesagt, eigentlich hätte anhand
der Vorstrafen gerade andersherum

00:34:24.530 --> 00:34:29.120
verteilt. Das ist ein Riesenproblem, weil
das System sind, die hier aktuell zum

00:34:29.120 --> 00:34:31.690
Einsatz kommen und die für Menschen 
lebenswichtige Entscheidungen

00:34:31.690 --> 00:34:35.140
treffen müssen. Für niemanden er
sichtlich, warum dieser Score gegeben

00:34:35.140 --> 00:34:38.810
wird. Die Firma sagt von sich, und das ist
insofern auch korrekt, wenn man es

00:34:38.810 --> 00:34:43.110
wörtlich nimmt, dass der Hintergrund und
die Hautfarbe dieser Menschen nicht

00:34:43.110 --> 00:34:47.179
eingegangen ist in das Training. Aber das
korreliert mit so vielen Dingen in den

00:34:47.179 --> 00:34:50.480
USA, mit dem Einkommen, mit dem Wohnort
etc., dass das gar nicht der entscheidende

00:34:50.480 --> 00:34:56.400
Faktor ist. Als weiteres Beispiel können
wir mal drüber nachdenken, was wir dann

00:34:56.400 --> 00:35:00.230
mit dem Begriff eindeutige Handlungs-
Vorschrift meinen. Viele Menschen

00:35:00.230 --> 00:35:04.620
bezeichnen damit Algorithmen, was sie
damit nicht bezeichnen wollen, dass wir

00:35:04.620 --> 00:35:07.910
alles, was algorithmische System uns
vorschlagen, auch als Handlungs-Vorschrift

00:35:07.910 --> 00:35:12.260
zu behandeln haben. Das ist nicht, wie wir
das gemeint haben, sondern wir müssen mit

00:35:12.260 --> 00:35:17.280
diesem System immer reflektiert und
kritisierend umgehen. Ob jetzt Deep

00:35:17.280 --> 00:35:20.570
Learning überhaupt noch auf diesen Begriff
passt, auf diese eindeutige Handlungs-

00:35:20.570 --> 00:35:23.720
Vorschrift ist schon wieder extrem
fragwürdig. Denn wir reden hier von sehr

00:35:23.720 --> 00:35:28.200
stark statistisch geprägten Systemen, wo
sehr viel Zufall mitspielt. Man könnte

00:35:28.200 --> 00:35:31.390
sie, wie es in diesem Thread geschehen
ist, vielleicht eher als

00:35:31.390 --> 00:35:34.290
maschinelles Bauchgefühl bezeichnen, 
als eindeutige Handlungs-Vorschrift.

00:35:34.290 --> 00:35:40.820
Benjamin: Das heißt, was wir hier
eigentlich erleben, ist eine wahnsinnige

00:35:40.820 --> 00:35:44.680
Generalisierung nur. Wir nehmen
Datenpunkte aus der Vergangenheit, die wir

00:35:44.680 --> 00:35:50.330
schon kennen. Wir wenden sie an, wir
trainieren darauf und danach versuchen wir

00:35:50.330 --> 00:35:54.560
einfach und hoffen, dass, wenn wir diese
Sachen, die wir, die wir haben, wenn wir

00:35:54.560 --> 00:35:59.370
nur weit genug generalisieren, wenn wir
irgendwo versuchen auf Teufel komm raus

00:35:59.370 --> 00:36:03.550
und das System muss immer was liefern.
Normalerweise liefern die Systeme immer

00:36:03.550 --> 00:36:08.810
einfach ein Ergebnis, egal, ob sie einen
guten Grund dafür sehen oder nicht. Sie

00:36:08.810 --> 00:36:12.550
versuchen einfach, ein Muster zu finden
und dann liefern sie ein Ergebnis. Und das

00:36:12.550 --> 00:36:18.870
bedeutet, dass das, was immer landläufig
als die KI sagt etwas vorher oder denkt

00:36:18.870 --> 00:36:22.580
sich etwas aus oder was weiß ich, im
Prinzip nur ein auswendig lernen und

00:36:22.580 --> 00:36:25.740
generalisieren und das Ergebnis irgendwie
wieder raushauen ist.

00:36:25.740 --> 00:36:30.140
Nadja: Bei gelernten Systemen reden wir
oft von Prediction oder Vorhersage. Was

00:36:30.140 --> 00:36:32.510
wir aber eigentlich getan haben, ist nicht
über die Zukunft nachzudenken, sondern

00:36:32.510 --> 00:36:35.880
ausschließlich über die Vergangenheit. Und
dann ist es die interessante Frage, ob

00:36:35.880 --> 00:36:40.740
wirklich Dinge vorhersagen oder eigentlich
nur reproduzieren.

00:36:40.740 --> 00:36:47.770
Benjamin: Das Problem ist aber auch, dass
die Menschen den Computern vertrauen. Das

00:36:47.770 --> 00:36:50.510
trifft vermutlich jetzt nicht auf alle
Leute hier im Raum zu. Das ist sehr

00:36:50.510 --> 00:36:55.770
angenehm, aber in der Gesellschaft ist das
enorm verbreitet inzwischen. KI ist

00:36:55.770 --> 00:37:00.770
irgendwas Tolles, KI ist super, KI wird
uns retten. KI kann das, was wir nicht

00:37:00.770 --> 00:37:07.860
können. Beispiele: Wir haben diese große
Forschungsinitiative, überall muss KI

00:37:07.860 --> 00:37:12.100
gemacht werden. Wenn ich KI in meine
Anträge schreibe, kriege ich Geld. Wenn

00:37:12.100 --> 00:37:16.730
ich auf meine Hautcreme draufschreiben,
dass sie mit KI optimiert wurde, kann ich

00:37:16.730 --> 00:37:21.910
sie besser verkaufen. Und wenn ich will,
dass mein System und ich als Firma gut

00:37:21.910 --> 00:37:26.180
dastehe, dann kann es sich sogar lohnen,
was geschieht, was Google aber auch viele

00:37:26.180 --> 00:37:31.490
andere machen, kann es sich lohnen, Leute
einzustellen, die so tun, als wären sie

00:37:31.490 --> 00:37:35.400
Computer, zum Beispiel, die irgendwo
anrufen, weil der Computer dazu noch nicht

00:37:35.400 --> 00:37:39.600
in der Lage ist und dann die Restaurant
Reservierung oder was weiß ich

00:37:39.600 --> 00:37:43.290
durchführen, nur damit man dann am Ende
rausschreiben kann, dass die eigenen KI-

00:37:43.290 --> 00:37:50.050
Systeme ja so wahnsinnig toll sind. Und
weil es ja kein Mensch ist, sondern der

00:37:50.050 --> 00:37:55.700
Computer, der ja bestimmt viel weiser sein
muss, kann man dadurch sich Vorteile

00:37:55.700 --> 00:37:58.430
verschaffen.
Nadja: Ein ganz besonders beunruhigendes

00:37:58.430 --> 00:38:00.280
Beispiel haben wir uns außerdem noch
mitgebracht.

00:38:00.280 --> 00:40:03.540
<i>Musik</i>
<i>Dialog der Maschine und dem Mann auf japanisch</i>

00:40:03.540 --> 00:40:07.870
Um die Frage direkt vorwegzunehmen, ja,
das gibt es wirklich. Und ich hoffe

00:40:07.870 --> 00:40:10.510
ehrlich gesagt, ich muss gar nicht
erklären, warum das so unglaublich

00:40:10.510 --> 00:40:14.421
kritisch ist. Aber ich frag einfach mal,
was passiert mit uns Menschen so rein

00:40:14.421 --> 00:40:18.230
soziologisch, so rein psychologisch, wenn
wir mit Maschinen interagieren, als wären

00:40:18.230 --> 00:40:21.750
sie Menschen, als hätten sie Gefühle, wenn
sie Muster imitieren, wie sie in der

00:40:21.750 --> 00:40:25.370
Beziehung und zwischenmenschlicher
Kommunikation stattfinden. Was passiert da

00:40:25.370 --> 00:40:28.970
mit uns? Worauf lassen wir uns ein? Wie
viel Bios, den wir nicht haben sollten,

00:40:28.970 --> 00:40:35.511
akzeptieren wir? Um noch zu einem ganz
anderen Thema zu kommen. Ich hoffe, das

00:40:35.511 --> 00:40:37.670
müssen wir hier nur kurz anschneiden, denn
ich habe keine Antwort auf die Frage, die

00:40:37.670 --> 00:40:41.050
ich gerade gestellt habe. Daten. Ich
glaube, das ist ein Rahmen, in dem ich

00:40:41.050 --> 00:40:44.560
wenig erklären muss, warum
Datensparsamkeit wichtig ist. Wir haben

00:40:44.560 --> 00:40:48.580
aber mit Deep Learning ein fundamentales
Problem. Wir brauchen nämlich extrem viele

00:40:48.580 --> 00:40:53.450
Daten. Und das beißt sich ganz, ganz stark
mit unseren gesellschaftlichen Interessen.

00:40:53.450 --> 00:40:57.640
Das ist aber ein Thema, über das könnte
man mindestens einen eigenen Talk halten.

00:40:57.640 --> 00:41:01.320
Außerdem Beispiele wie das: Wie viele
werden es auch schon gesehen haben, eine

00:41:01.320 --> 00:41:05.040
KI, die sich gefühlte 15 Minuten im Netz
bewegt hat. Und plötzlich überaus

00:41:05.040 --> 00:41:08.060
rassistisch und anderweitig inakzeptable
Äußerungen gebracht hat, weil sie nun mal

00:41:08.060 --> 00:41:11.440
aus dem Internet gelernt hat. Und die
interessante Frage stellt sich an der

00:41:11.440 --> 00:41:15.030
Stelle ganz krass, sollten wir wirklich
versuchen, mit maschinellen Systemen

00:41:15.030 --> 00:41:18.790
Menschen nachzubilden? Oder ist das
vielleicht eine sehr schlechte Idee?

00:41:18.790 --> 00:41:27.080
Benjamin: Ein weiterer Punkt, den wir uns,
dem wir uns stellen müssen, der für uns

00:41:27.080 --> 00:41:31.310
alle relevant ist, denn wir arbeiten in
irgendeiner Form an Systemen, die

00:41:31.310 --> 00:41:36.860
irgendwie was in der Welt bewegen sollen.
Wer ist für all das verantwortlich? Ganz

00:41:36.860 --> 00:41:41.860
typisches Beispiel haben wir bei den
autonomen Fahrzeugen. Da wird es schon x

00:41:41.860 --> 00:41:47.140
mal diskutiert, wer ist dafür
verantwortlich, wenn ein Unfall passiert?

00:41:47.140 --> 00:41:51.220
Aber bei jedem weiteren System gilt das
auch. Es gibt so viele Stellen, die daran

00:41:51.220 --> 00:41:54.850
beteiligt sind. Wir haben die Person, die
das Ganze programmieren. Die Personen, die

00:41:54.850 --> 00:41:58.800
es in Auftrag gegeben haben. Die Firma,
die das Ganze kauft, vermarktet.

00:41:58.800 --> 00:42:02.080
Vielleicht öffentliche Stellen, die
entsprechende Regularien dafür

00:42:02.080 --> 00:42:05.520
veröffentlichen. Wir haben
Versicherungskonzerne. Wir haben

00:42:05.520 --> 00:42:09.680
Privatpersonen, die ein autonomes Fahrzeug
oder irgendein anderes intelligentes

00:42:09.680 --> 00:42:16.640
System besitzen. Wer ist schuld? Wer kann
belangt werden, wenn irgendetwas passiert?

00:42:16.640 --> 00:42:20.510
Und welche Auswirkungen hat das? Denn, je
nachdem, wer dafür belangt werden kann,

00:42:20.510 --> 00:42:25.230
ergeben sich völlig unterschiedliche
Entscheidungen von den beteiligten

00:42:25.230 --> 00:42:30.040
Personen, wogegen sie ihre Systeme
absichern, wie sie ihre Systeme designen.

00:42:30.040 --> 00:42:37.060
Und diesen Punkt, dazu gibt es keine
befriedigende Antwort. Eine Umfrage unter

00:42:37.060 --> 00:42:44.640
den Amerikaner sagt, dass sie, die
Mehrheit das inakzeptabel findet, dass ein

00:42:44.640 --> 00:42:48.920
Computersystem oder algorithmische Systeme
genutzt werden, um in bestimmten

00:42:48.920 --> 00:42:55.160
Bereichen, zum Beispiel bei der
Einschätzung von Strafmaßen oder für den

00:42:55.160 --> 00:42:58.460
Bewerbungsprozess von Menschen, dass der
Computer wesentliche Entscheidungen dafür

00:42:58.460 --> 00:43:04.610
trifft. Blöd nur, all das wird heutzutage
schon gemacht, und zwar eben mit immer

00:43:04.610 --> 00:43:10.110
stärker werdenden Ausmaß.
Nadja: Und als Drittes kommen wir jetzt zu

00:43:10.110 --> 00:43:14.000
einem Punkt, der oft vernachlässigt wird,
wenn es um Deep Learning geht. Ja, das

00:43:14.000 --> 00:43:17.120
werden die alle, die wir heute gesagt
haben, aber der ganz besonders. Und wir

00:43:17.120 --> 00:43:20.580
glauben, dass der trotzdem relevant ist.
Nämlich gerade zu Zeiten, wo das Thema

00:43:20.580 --> 00:43:24.380
Klimawandel wieder mehr in den Medien
kommt, wo sowohl die Gegner als auch die

00:43:24.380 --> 00:43:27.570
Befürworter von irgendwelchen Maßnahmen
stärker werden, ist das ein Thema über das

00:43:27.570 --> 00:43:30.420
wir auch nachdenken müssen, auch
wenn es auf den ersten Blick

00:43:30.420 --> 00:43:34.380
nichts mit unserer Arbeit zu tun hat.
Benjamin: Wir haben natürlich, bekannt ist

00:43:34.380 --> 00:43:37.590
es im Bereich, z. B. von den
Cryptocurrencies, dass die enormen

00:43:37.590 --> 00:43:43.810
Stromverbrauch haben, zum Beispiel ein
Bitcoin Transaktion verbraucht ungefähr so

00:43:43.810 --> 00:43:52.620
viel Strom wie 500.000 Visa Transaktionen,
eine einzige! Und das entspricht ungefähr

00:43:52.620 --> 00:43:58.060
dem Stromverbrauch eines Kühlschranks für
8 Jahre für eine Transaktion. Aber

00:43:58.060 --> 00:44:04.230
Bitcoins ist nicht der einzige Bereich, wo
wir Probleme kriegen, in der Hinsicht. Wir

00:44:04.230 --> 00:44:11.690
haben auch das generell in allen Formen,
wo wir große Daten haben. Deep Learning

00:44:11.690 --> 00:44:15.040
braucht große Datenmengen, Datenmengen
müssen wir speichern, verarbeiten,

00:44:15.040 --> 00:44:20.340
transportieren und dafür haben wir
weltweit inzwischen eine relativ groß

00:44:20.340 --> 00:44:25.280
steigende Anzahl an Rechenzentren, die
zwischen 200 und 500 Milliarden

00:44:25.280 --> 00:44:28.270
Kilowattstunden pro Jahr gerade
verbrauchen. Ganz genau kann man das

00:44:28.270 --> 00:44:33.230
natürlich nicht sagen, weil die Firmen
auch diese Daten als Geheimnis betrachten.

00:44:33.230 --> 00:44:38.200
Wenn man alle Rechenzentren zusammen als
Land betrachten würde, hätten wir fünf

00:44:38.200 --> 00:44:41.200
Länder auf der Erde, die mehr Strom
verbrauchen, dann kommen die

00:44:41.200 --> 00:44:44.720
Rechenzentren, dann kommen alle anderen
Länder, und auch das wird weiterhin

00:44:44.720 --> 00:44:55.821
steigen. Wir haben, wenn man jetzt noch
kleiner guckt auf das, was wir jetzt

00:44:55.821 --> 00:45:00.160
beschrieben haben, den Trainingsprozess
von einzelnen Modellen, auch da schon

00:45:00.160 --> 00:45:05.780
einen erschreckend hohen Stromverbrauch,
der auch dort leider nicht linear, sondern

00:45:05.780 --> 00:45:12.720
sondern deutlich darüber ansteigt. Wenn
wir also ein einzelnes, einzelne Modelle

00:45:12.720 --> 00:45:16.850
trainieren wollen, sehen wir, dass die
großen State of the Art Systeme, die dann

00:45:16.850 --> 00:45:21.670
natürlich von Firmen wie Google und
Facebook AI und anderen

00:45:21.670 --> 00:45:25.200
Forschungsinstitute, Einrichtungen von
großen, großen Firmen vorgeschlagen

00:45:25.200 --> 00:45:34.250
werden, dass dort Strom verbraucht wird
für hunderttausende teilweise Millionen an

00:45:34.250 --> 00:45:42.650
Euro. Dass dort auch inzwischen natürlich
zusätzlich noch GPUs, CPUs eingesetzt

00:45:42.650 --> 00:45:47.510
werden, die schwer zu bekommen sind, die
teuer anzuschaffen sind, sodass wir

00:45:47.510 --> 00:45:50.561
natürlich auch sowohl durch den
Stromverbrauch als auch durch die

00:45:50.561 --> 00:45:56.250
Infrastruktur. Erstens haben wir diesen
Umwelteffekt. Zweitens, wenn wir den

00:45:56.250 --> 00:46:01.270
Effekt, dass immer weniger Firmen, immer
weniger große Einrichtungen in der Lage

00:46:01.270 --> 00:46:06.570
sind, Deep Learning auf dem State of the
Art durchzuführen. Der Rest wird

00:46:06.570 --> 00:46:10.210
abgehängt. Das heißt auch da
gesellschaftliche Auswirkungen ---

00:46:10.210 --> 00:46:14.950
problematisch, Umweltauswirkungen ---
problematisch und leider ein Trend, der

00:46:14.950 --> 00:46:19.740
offensichtlich genau in die falsche
Richtung geht. Wenn man sich das nochmal

00:46:19.740 --> 00:46:26.760
hier anguckt, was das auch für den
CO2-Ausstoß bedeutet, sehen wir, dass das

00:46:26.760 --> 00:46:33.300
Training von einem einzigen Modell, wie es
dann veröffentlicht wird am Ende, von so

00:46:33.300 --> 00:46:38.360
einem großen Modell ungefähr so viel CO2
ausstößt wie fünf Autos in ihrer ganzen

00:46:38.360 --> 00:46:43.210
Lebensdauer, inklusive Produktion und
inklusive sämtlichen Sprit, der dann darin

00:46:43.210 --> 00:46:47.600
verbrannt wird. Und solche Forschung
findet ständig weiterhin statt, weil man

00:46:47.600 --> 00:46:51.320
ja weiter publizieren will, wie wir am
Anfang schon erzählt haben. Das heißt,

00:46:51.320 --> 00:46:55.030
dauerhaft werden solche Modelle gerade auf
der Welt trainiert, um dann irgendwo in

00:46:55.030 --> 00:46:58.090
irgendeinem kleinen Teilbereich eine neue
Publikationen machen zu können.

00:46:58.090 --> 00:47:02.800
Nadja: Jetzt komme ich und bringe die
Frohbotschaft. Nein, es ist nicht alles

00:47:02.800 --> 00:47:06.200
ganz so schlimm, wie es jetzt gerade
scheint, wenn wir die Nachteile auflisten.

00:47:06.200 --> 00:47:09.070
Tatsächlich kann der ganze Bereich des
maschinellen Lernen auch Vorteile mit sich

00:47:09.070 --> 00:47:11.880
bringen und hier in diesem Beispiel sogar
auch tatsächlich das Deep Learning. Es

00:47:11.880 --> 00:47:16.700
geht darum, dass Google über Jahre hinweg
versucht hatte, mithilfe von maschinellen

00:47:16.700 --> 00:47:22.700
Lernen die Betriebe ihrer Datenzentren zu
optimieren. Da eine Einsparung im

00:47:22.700 --> 00:47:25.220
Stromverbrauch zu erreichen. Wir reden
hier von Reinforsment Learning für die,

00:47:25.220 --> 00:47:29.760
denen es was sagt. Was die Kühlungsteuerung,
die Abschaltung von Servernet et cetera

00:47:29.760 --> 00:47:32.920
beeinflussen konnte und damit der
Stromverbrauch um bis zu 40 Prozent

00:47:32.920 --> 00:47:36.840
gesenkt hat. Das ist auf jeden Fall eine
gute Nachricht. Natürlich ist auch mir die

00:47:36.840 --> 00:47:40.130
Ironie klar, dass wir hier den
Stromverbrauch von Datenzentren sprechen,

00:47:40.130 --> 00:47:44.300
ohne das Feld auch gar nicht so sehr nötig
wären. Trotzdem Man kann diese

00:47:44.300 --> 00:47:49.250
Wissenschaft, man kann diesen Bereich auch
durchaus für gute Sachen nutzen, die uns

00:47:49.250 --> 00:47:54.160
allen was helfen kann. Das lässt sich
natürlich nicht auf alle großen Strom und

00:47:54.160 --> 00:47:58.440
CO2 Produzenten übertragen, die wir in
unserer Industrie so haben. In der

00:47:58.440 --> 00:48:01.560
Autoindustrie wird das schon sehr viel
schwieriger, wenn wir von Montagerozessen

00:48:01.560 --> 00:48:04.720
reden, von Produktionsprozessen reden. Da
kann man nicht einfach wild durch die

00:48:04.720 --> 00:48:07.820
Gegend tauschen, welcher Task denn
ausgeführt wird. Wenn die Server

00:48:07.820 --> 00:48:11.850
vielleicht nicht ausgelastet sind oder sie
nicht direkt ausführen, damit der Server

00:48:11.850 --> 00:48:16.300
noch mal abgeschaltet bleiben kann. Aber
ist das was, womit wir uns auf jeden Fall

00:48:16.300 --> 00:48:22.000
beschäftigen sollten. Mit Strom und CO2
ist das Lied um die Umweltauswirkungen

00:48:22.000 --> 00:48:25.540
noch nicht zu Ende. Es geht auch darum,
wie wir unsere Infrastruktur belasten, wie

00:48:25.540 --> 00:48:30.040
wir Straßen, Städte, Gebäude und so weiter
beanspruchen für den Bau, für den Betrieb,

00:48:30.040 --> 00:48:33.390
für den Transport. Für die Vernetzung von
den ganzen Systemen, die wir für diesen

00:48:33.390 --> 00:48:36.420
Forschungszweig brauchen. Es geht darum,
was wir für Platz beanspruchen mit

00:48:36.420 --> 00:48:41.240
Forschungszentren, mit Datenzentren, mit
Supercomputern und GPU Produktion. Es geht

00:48:41.240 --> 00:48:45.040
darum, wie viel Arbeitskraft und wie viel
Zeitaufwand gebunden ist. Nur um ein neues

00:48:45.040 --> 00:48:48.120
Netz zu forschen. Es geht darum, wie viel
Forschungsgelder darin investiert werden,

00:48:48.120 --> 00:48:51.160
mit denen man noch andere Dinge tun
könnte. Es geht um endliche Ressourcen

00:48:51.160 --> 00:48:55.330
unserer Erde wie Metalle wie die
sogenannten Seltenen Erden oder wie Erdöl,

00:48:55.330 --> 00:48:59.990
die dafür gebraucht werden. Und es gibt
noch so viel mehr. Das war nur ein ganz

00:48:59.990 --> 00:49:03.010
kleiner Einblick in das Thema, und es ist
ganz wichtig: Es geht nicht nur um den

00:49:03.010 --> 00:49:07.290
Stromverbrauch. Die Awareness an der
Stelle ist noch viel zu niedrig, um

00:49:07.290 --> 00:49:11.700
darüber quantitativ Aussagen treffen zu
können. Aber es ist auf jeden Fall ein

00:49:11.700 --> 00:49:15.530
Faktor. So viel wissen wir. Wir kommen
damit auch schon zur Frage: Wie kann es

00:49:15.530 --> 00:49:21.890
eigentlich weitergehen?
Benjamin: Wichtig ist, dass wir alle uns

00:49:21.890 --> 00:49:26.010
bewusst sind, dass wir die Verantwortung
tragen, wie es in dem Bereich weitergeht.

00:49:26.010 --> 00:49:30.010
Denn sowohl die Leute, die in diesem Land
arbeiten, aber auch in allen Bereichen,

00:49:30.010 --> 00:49:35.580
die damit verbunden sind. Wir forschen.
Wir bauen Systeme. Wir sorgen dafür, dass

00:49:35.580 --> 00:49:40.290
solche Systeme weiter entstehen, dass sie
wichtiger werden, dass sie, obwohl wir

00:49:40.290 --> 00:49:43.240
wissen, dass zum Beispiel das alles der
Generalisierung, aus Vereinfachungen

00:49:43.240 --> 00:49:47.760
besteht. Dass sie trotzdem für Dinge
eingesetzt werden. Wir sorgen dafür, dass

00:49:47.760 --> 00:49:54.180
unsere Sensorik, die wir in Autos
verbauen, irgendwelche 25 Gigabyte pro

00:49:54.180 --> 00:49:57.261
Stunde an Daten produzieren, die man dann
wieder auswerten, um daraus etwas machen

00:49:57.261 --> 00:50:02.930
kann. Wir sorgen dafür, dass Systeme
optimiert werden. Wir sorgen dafür, dass

00:50:02.930 --> 00:50:09.260
das gebaut werden für die Industrie, damit
das komische Hautpflegeprodukten

00:50:09.260 --> 00:50:14.280
plötzlich KI optimiert ist. Das kann
man natürlich alles einfach so machen,

00:50:14.280 --> 00:50:18.690
weil man in dem Bereich gut Geld verdienen
kann. Ist aber vermutlich keine gute Idee,

00:50:18.690 --> 00:50:22.910
sondern man sollte sich wirklich
überlegen: Was sind die Konsequenzen von

00:50:22.910 --> 00:50:27.490
dem Ganzen, und was müssten wir eigentlich
alle ändern, um dieses ganze Feld

00:50:27.490 --> 00:50:33.980
weiterzutreiben? Denn, das ist das Schöne,
zumindest im Forschungssektor. Es ist

00:50:33.980 --> 00:50:38.250
alles von der Community angetrieben. Es
ist immer eine Entscheidung von allen

00:50:38.250 --> 00:50:44.010
Forscher in den ganzen Bereichen, ob sie
genauso weitermachen oder ob sie ihre

00:50:44.010 --> 00:50:50.530
Arten schieben, ob sie anders agieren, ob
sie mehr und mehr auf solche Dinge achten

00:50:50.530 --> 00:50:54.030
oder eben nicht.
Nadja: Grundsätzlich um weiterzumachen,

00:50:54.030 --> 00:50:56.380
gerade um die gesellschaftlichen
Auswirkungen des Themas zu beeinflussen.

00:50:56.380 --> 00:51:00.040
Was müssen wir anstreben? Wir müssen
Diskurs anstreben. Wir müssen mit der

00:51:00.040 --> 00:51:03.160
gesamten Gesellschaft, mit einer riesigen
Breite an Menschen darüber reden. Was

00:51:03.160 --> 00:51:05.770
wollen wir von diesen Systemen? Unter
welchen Umständen machen wir das System?

00:51:05.770 --> 00:51:09.530
Was sind die Auflagen, die wir stellen,
was akzeptabel und was nicht? Das

00:51:09.530 --> 00:51:12.350
funktioniert nicht, wenn diese
Entscheidungen getroffen werden von fünf

00:51:12.350 --> 00:51:15.030
Leuten, die irgendwie ihre eigenen
Interessen vertreten müssen. Das ist ein

00:51:15.030 --> 00:51:17.600
Diskurs, der auf jeden Fall in die
gesellschaftliche Breite gehen muss. Es

00:51:17.600 --> 00:51:20.870
gibt einfach keine klare Antwort, und die
Antworten, die wir brauchen, die müssen

00:51:20.870 --> 00:51:24.110
wir zusammen finden. Wir müssen aber auch
Bildung auf allen Ebenen vorantreiben.

00:51:24.110 --> 00:51:28.080
Weil ich muss als Informatikerin auch die
ethischen Auswirkungen eines Handelns

00:51:28.080 --> 00:51:33.020
bedenken. Ich muss auch dem Enduser sagen
können, was das bedeutet, wenn er etwas

00:51:33.020 --> 00:51:36.590
einsetzt. Auch wenn er die technischen
Details nicht versteht, muss er in der

00:51:36.590 --> 00:51:40.220
Lage sein einzuschätzen, ob der Einsatz an
der Stelle sinnvoll ist und gerade auch

00:51:40.220 --> 00:51:43.290
die Menschen, die die Legislatur
vorantreiben. Diese Menschen sollte es auf

00:51:43.290 --> 00:51:46.270
jeden Fall geben müssen, genug davon
verstehen und auch wirklich einschätzen

00:51:46.270 --> 00:51:49.311
können, was sie da gerade erlauben oder
nicht erlauben, damit wir auch die

00:51:49.311 --> 00:51:54.020
positiven Aspekte solcher Felder mitnehmen
können. Awareness ist ganz besonders

00:51:54.020 --> 00:51:57.120
wichtig, damit wir diesen Diskurs führen
können. Damit wir diese Bildung

00:51:57.120 --> 00:52:00.150
vorantreiben kann, müssen wir darüber
reden: Wie funktionieren unsere Daten?

00:52:00.150 --> 00:52:03.010
Unter welchen Umständen verwenden wir sie?
Wo kommen die Modelle her? Wie

00:52:03.010 --> 00:52:05.990
funktionieren Erklärbarkeit und
Reproduzierbarkeit? Aber auch wer trägt

00:52:05.990 --> 00:52:08.990
die Verantwortung? Was sind die
Konsequenzen? Und wie führen wir diesen

00:52:08.990 --> 00:52:13.780
Diskurs? Am Ende gilt: Wir müssen
umdenken, statt nur zu folgen. Es

00:52:13.780 --> 00:52:17.060
funktioniert nicht, wenn wir einfach so
weitermachen wie bisher. Sondern wir

00:52:17.060 --> 00:52:21.010
müssen in manchen Dingen einfach
grundlegend auch nochmal nachdenken. Viele

00:52:21.010 --> 00:52:24.430
dieser Maßnahmen sind tatsächlich doppelt
hilfreich, begünstigen sich gegenseitig.

00:52:24.430 --> 00:52:27.320
Wir stecken da nicht unbedingt in einem
Teufelskreis. Wenn wir systematisch

00:52:27.320 --> 00:52:30.260
arbeiten, dann tun wir der
Reproduzierbarkeit gefallen. Aber auch

00:52:30.260 --> 00:52:33.910
unseren Ressourcenverbrauch, weil wir viel
weniger nochmal machen müssen, wenn wir

00:52:33.910 --> 00:52:36.940
die Alternativen zu Deep Learning auch
nutzen, tun wir der Erklärbarkeit

00:52:36.940 --> 00:52:39.820
Gefallen, aber auch der Datensparsamkeit.
Wahrscheinlich, wenn wir den Publications

00:52:39.820 --> 00:52:44.050
Druck senken und damit die Qualität in die
Höhe schreiben. Dann fördern wir den

00:52:44.050 --> 00:52:46.620
wissenschaftlichen Anspruch, und wir
helfen unserem Ressourcenverbrauch. Aber

00:52:46.620 --> 00:52:50.120
insgesamt ist unsere große Herausforderung
momentan in der Gesellschaft verbreitete

00:52:50.120 --> 00:52:53.150
Unwissenheit, und das nicht richtig
reflektiert wird, was das für Auswirkungen

00:52:53.150 --> 00:52:57.500
hat, was wir machen und in welchen Skalen
bewegen. Damit sagen wir fürs Erste auch

00:52:57.500 --> 00:53:01.240
schon Danke, schön, dass Sie hier waren.
Wir haben uns wirklich gefreut gesagt. So

00:53:01.240 --> 00:53:04.240
dürfen wir hoffen. Wir geben ein paar
Denkanstöße mit. Wir können dieses Thema

00:53:04.240 --> 00:53:07.070
nur sehr, sehr oberflächlich einsteigen in
50 Minuten. Wir sind jetzt schon relativ

00:53:07.070 --> 00:53:10.061
weit in der Zeit. Trotzdem haben wir noch
ein paar Minuten für Fragen, aber auch

00:53:10.061 --> 00:53:13.270
über den Vortrag hinaus. Sind wir da froh,
wenn Leute sich informieren,

00:53:13.270 --> 00:53:18.510
recherchieren, selbst kritisieren und
reflektieren oder auf uns zukommen.

00:53:18.510 --> 00:53:19.190
Dankeschön.

00:53:19.190 --> 00:53:25.010
<i>Applaus</i>

00:53:25.010 --> 00:53:28.830
Herald: Okay, alles klar. Wir haben noch
ein paar Minuten Zeit für Fragen.

00:53:28.830 --> 00:53:33.210
Damit wir auch möglichst viele und zügig
durchkommen. Bewegt euch doch bitte direkt

00:53:33.210 --> 00:53:37.520
zu den Mikrofonen. Und wir fangen direkt
hier mit Mikrofon 4 and.

00:53:37.520 --> 00:53:46.320
Mik 4: Ich versuche, mich kurz zu halten.
KI für Autos ist ziemlich faszinierend,

00:53:46.320 --> 00:53:51.200
die unterscheidet zuverlässig zwischen
einem Baum und einem Verkehrsschild. Ich

00:53:51.200 --> 00:53:55.660
bin immer wieder enttäuscht, wenn ich KI
sehe für Suchmaschinenoptimierung, was ich

00:53:55.660 --> 00:54:01.760
da angeboten bekomme. Ich glaube, das
Problem ist die Datengrundlage. Ein Baum,

00:54:01.760 --> 00:54:05.590
da gibts keine Diskussion. Das ist ein
Baum. Was ist die schönste Website ist

00:54:05.590 --> 00:54:12.620
oder das nächstbeste Video? Das ist eine
Geschmacksfrage. Worauf ich hinaus möchte:

00:54:12.620 --> 00:54:18.620
wäre es nicht sinnvoll oder dringend
notwendig, darüber nachzudenken, wie die

00:54:18.620 --> 00:54:24.500
Trainingsdaten qualifiziert sind, ob man
die qualitativ einsortieren sollte?

00:54:24.500 --> 00:54:30.280
Nadja: Ich stimme soweit absolut zu,
Trainingstagendiskussion steht an. Müssen

00:54:30.280 --> 00:54:34.450
wir führen? Qualität ist extrem wichtig.
Das Problem geht aber noch darüber hinaus.

00:54:34.450 --> 00:54:38.660
Zum einen die Frage mit dem Auto und dem
Fußgänger, wie uns der Überkräsch 2018

00:54:38.660 --> 00:54:41.740
gezeigt hat, gar nicht so trivial.
Festgestellt haben die Annahme, dass

00:54:41.740 --> 00:54:45.150
Fußgänger nur auf dem Fußgängerüberweg zu
finden ist, das vielleicht gar nicht so

00:54:45.150 --> 00:54:49.600
realistisch. Trivial ist es also nicht.
Natürlich sind Suchmaschinen auch eine

00:54:49.600 --> 00:54:53.520
subjektive Entscheidung. Weil was ich
suche, weiß am Ende nur ich. Jemand mit

00:54:53.520 --> 00:54:56.370
der gleichen Suchanfrage sucht vielleicht
etwas anderes. Natürlich ist das Internet

00:54:56.370 --> 00:55:00.200
einfach eine extrem riesige Datenbasis mit
sehr unsauberen Daten. Das heißt, dass es

00:55:00.200 --> 00:55:02.640
eine völlig andere Herausforderung als
Bildklassifikation von autonomen

00:55:02.640 --> 00:55:06.470
Fahrzeugen. Grundsätzlich Trainingstagen,
Diskussionen, aber auch über das Monopol

00:55:06.470 --> 00:55:09.641
von solchen Unternehmen, wie Google.
Gerade was Suchmaschinen angeht, müssen

00:55:09.641 --> 00:55:14.440
wir definitiv reden. Herald: Alles was,
dann machen wir direkt weiter mit einer

00:55:14.440 --> 00:55:18.640
Frage vom Signal-Engel aus dem Internet.
Signal-Engel: Das Internet fragt: Sollen

00:55:18.640 --> 00:55:22.650
wir das mit dem Deep Learning dann
eigentlich lieber lassen? Oder seht ihr

00:55:22.650 --> 00:55:26.820
auch sinnvolle Anwendungen, zum Beispiel
um irgendeinen hohen Datenaufwand für

00:55:26.820 --> 00:55:31.030
freigiebige Nutzer irgendwie zu reduzieren
zum Beispiel.

00:55:31.030 --> 00:55:35.080
Benjamin: Es sein zu lassen, ist
sicherlich nicht der richtige Ansatz. Das

00:55:35.080 --> 00:55:39.340
zeigt sich ja, dass Deep Learming für
bestimmte Dinge sehr wertvoll ist. Wir

00:55:39.340 --> 00:55:43.430
haben jetzt Beispiele gezeigt, wo es gut
funktioniert, schlechter funktioniert.

00:55:43.430 --> 00:55:48.340
Gerade bei komplexen Dingen haben wir
wenig Ansätze, die anders gut

00:55:48.340 --> 00:55:52.180
funktionieren. Die Verarbeitung
menschlicher Sprache zum Beispiel hat

00:55:52.180 --> 00:55:55.710
einen Riesenschritt nach vorne gemacht
durch die Deep Learning, weil menschliche

00:55:55.710 --> 00:55:59.250
Sprache so unglaublich komplex ist, dass
ich mit allen bisherigen Ansatz, bei denen

00:55:59.250 --> 00:56:02.470
ich Silben zähle und Buchstaben vergleiche
oder so etwas nicht so wirklich

00:56:02.470 --> 00:56:07.291
weiterkomme. Da brauche ich ganz viel
Wissen rein. Das heißt, man muss, aber man

00:56:07.291 --> 00:56:12.000
muss sich eben überlegen. Ist es für
diesen Zweck der richtige Ansatz? Also,

00:56:12.000 --> 00:56:17.180
ich will das jetzt nicht pauschal
beantworten. Das muss man sich gründlich

00:56:17.180 --> 00:56:21.580
überlegen. Das sollte sicher Message sein.
Nadja: Wir stellen im Prinzip nicht die

00:56:21.580 --> 00:56:24.150
Frage: Sollten wir die Planung verwenden,
sondern Wofür sollten wir es verwenden?

00:56:24.150 --> 00:56:29.150
Und was müssen wir vorher bedenken?
Herald: Ich versuche, es mit den Fragen

00:56:29.150 --> 00:56:33.040
hier im Raum so halbwegs chronologisch zu
machen. Aber mit Mikro 1 weiter.

00:56:33.040 --> 00:56:38.020
Mik 1: Eine Frage zur Reproduzierbarkeit.
Ich saß gerade in einem Lightening Talk,

00:56:38.020 --> 00:56:43.750
Da hatte jemand genau das Problem, das
nicht reproduzieren konnte. Eine seiner

00:56:43.750 --> 00:56:47.710
Hauptforderungen, um das zu beheben, war,
das alles, was man braucht, zum

00:56:47.710 --> 00:56:51.570
Reproduzieren zur Verfügung gestellt wird
und dass das auch von Journals enforced

00:56:51.570 --> 00:56:56.920
wird. Über Reviews oder über irgendwelche
andere Sachen. Sieht Ihr, dass es

00:56:56.920 --> 00:57:00.840
irgendwelche Bestrebungen in diese
Richtung gibt. Oder es ist ein zu großer

00:57:00.840 --> 00:57:05.280
Hype, als dass man da irgendwie eingreifen
könnte sinnvoll.

00:57:05.280 --> 00:57:07.680
Benjamin: Es gibt, wie
gesagt,

00:57:07.680 --> 00:57:14.450
diese Sigel bei vielen Konferenzen,
sicherlich auch bei Journals. Je nach Feld

00:57:14.450 --> 00:57:17.260
in dem Bereich, hier wird gar nicht so
viel in Journals publiziert, weil man

00:57:17.260 --> 00:57:21.420
Konferenzen leichter hinkriegt. Und alles
geht schneller, Journals dauert irgendwie

00:57:21.420 --> 00:57:25.280
immer zu lang. Es wäre
wünschenswert, dass da mehr passiert.

00:57:25.280 --> 00:57:29.770
Dafür müssen sich aber quasi
diese Ältestenrates, die sich

00:57:29.770 --> 00:57:33.140
zusammensetzen und diese Konferenzen
planen, organisieren, dafür entscheiden,

00:57:33.140 --> 00:57:38.030
dass für sie das auf der Liste auch so
weit oben ist, dass sie das erzwingen.

00:57:38.030 --> 00:57:41.440
Bisher ist es alles optional.
Wünschenswert wäre es definitiv.

00:57:41.440 --> 00:57:44.400
Nadja: Sicherlich reden wir doch in
irgendeiner Form über Regularien. Und

00:57:44.400 --> 00:57:46.620
dabei müssen wir dann immer noch
unterscheiden zwischen öffentlich

00:57:46.620 --> 00:57:50.290
geförderten Forschungseinrichtungen und
privater Forschung. Das ist nämlich sehr

00:57:50.290 --> 00:57:54.930
unterschiedliche Herausforderungen.
Herald: Okay, dann gehen wir gerade mal

00:57:54.930 --> 00:58:01.370
kurz zum Mikro Nr. 7 da ganz am Rand.
Mik 7: Hallo, danke für den Vortrag.

00:58:01.370 --> 00:58:05.820
Haltet ihr AGI für möglich? Und wann
könnte es soweit sein?

00:58:05.820 --> 00:58:09.240
Nadja: AGI Omnipotenz, Intelligenz oder
...

00:58:09.240 --> 00:58:14.030
Mik 7: Artifical General Intelligence.
Nadja: Momentaner Forschungsstand "Hell

00:58:14.030 --> 00:58:18.220
know". Das war eine relativ
unprofessionelle Antwort. Aber momentan

00:58:18.220 --> 00:58:20.531
haben wir hauptsächlich sehr
spezialisierte Expertensysteme, die genau

00:58:20.531 --> 00:58:25.460
ein detailreichen Task machen kann. Selbst
bei Sprachassistenzsystemen, die irgendwie

00:58:25.460 --> 00:58:29.530
ein Paar Tasks, die noch immer eine sehr
eingeschränkte Menge machen, haben in

00:58:29.530 --> 00:58:32.890
aktuellen Forschungsstand zwar große
Fortschritte, aber man kann sie ja sehr

00:58:32.890 --> 00:58:36.800
einfach die Schwächen ausnutzen. Es gibt
eine total spannende Professorin in USA,

00:58:36.800 --> 00:58:39.890
die sagt, gibt mir irgendeinen
Sprachverarbeitungsystem, in drei Fragen

00:58:39.890 --> 00:58:43.460
mache ich spätestens kaputt, und sie hat
es bisher immer geschafft. Wir haben

00:58:43.460 --> 00:58:47.470
momentan mit dem aktuellen Stand der
Technik ziemlich krasse Limitationen in

00:58:47.470 --> 00:58:51.980
den nächsten Jahren. Ich persönlich nicht
kommen. Grundsätzlich ist die künstliche

00:58:51.980 --> 00:58:55.480
Intelligenz aber auf allen Ebenen etwas,
das sie im Auge behalten sollen. Also ich

00:58:55.480 --> 00:58:57.770
würde auch wiederum nicht behaupten, dass
davon keinerlei Gefahr ausgeht.

00:58:57.770 --> 00:58:59.210
Benjamin: Es ist aber
auch nicht der

00:58:59.210 --> 00:59:01.990
zentrale Punkt zur Zeit. 
Das meiste, was, woran die Leute

00:59:01.990 --> 00:59:05.680
forschen, sind spezialisierte Systeme und
vielleicht noch zusätzliche Systeme, die

00:59:05.680 --> 00:59:09.250
vorne dran gestellt werden, die dann
entscheiden, an welches Teilsystem das

00:59:09.250 --> 00:59:14.190
Ganze weitergereicht wird. Aber daran zu
forschen, ein weltverstehendes System, was

00:59:14.190 --> 00:59:18.160
irgendwie auch noch beliebige Formate von
Antworten geben kann, so sowas zu bauen,

00:59:18.160 --> 00:59:21.890
das gibt es sicherlich die Forschung. Aber
es ist nicht das, was irgendwie auch in

00:59:21.890 --> 00:59:25.770
den Publikationen Platz findet, weil man
dort überhaupt nicht soweit wäre und das

00:59:25.770 --> 00:59:29.240
andere einfach viel einfacher ist und man
da vielleicht was veröffentlichen kann.

00:59:29.240 --> 00:59:31.850
Wen das Fachliche interessiert, wäre das ein 
schönes Einstiegspunt in das ein semantische

00:59:31.850 --> 00:59:34.820
Modellierung. Weil wir bei vielen
Künstliche Intelligenzen darüber sprechen,

00:59:34.820 --> 00:59:37.720
ist das Allgemeinwissen,
Hintergrundwissen, diese ganzen Sachen

00:59:37.720 --> 00:59:40.780
fehlen und die Darstellung dafür auch. Das
ist eine der großen Herausforderungen,

00:59:40.780 --> 00:59:44.320
so als Stichwort.
Herald: Okay. Nehmen wir doch eine Frage

00:59:44.320 --> 00:59:47.640
aus dem Internet.
Signal-Engel: Ich sage erst mal Liebe

00:59:47.640 --> 00:59:53.740
Grüße aus D. 120, das wisst ihr jetzt
besser als ich. <i>Nadja lacht</i> Die Frage

00:59:53.740 --> 00:59:58.370
ist Ist die Reproduzierbarkeit nur oder
gerade im Deep Learning ein Problem, oder

00:59:58.370 --> 01:00:01.550
betrifft das nicht sogar große Teile der
machienelearning Forschung?

01:00:01.550 --> 01:00:03.450
Nadja: Definitiv große Teile
der machiene learning

01:00:03.450 --> 01:00:05.430
Forschung. Ehrlich gesagt auch
darüber hinaus.

01:00:05.430 --> 01:00:09.080
Reproduzierbarkeit ist bei
fast allen wissenschaftlichen

01:00:09.080 --> 01:00:12.270
Publikationen ein Faktor, es gibt nur die
Sachen, die dafür anfälliger und weniger

01:00:12.270 --> 01:00:15.270
anfällig sind. Gerade wenn man über
digitale Themen reden. Aber an sich

01:00:15.270 --> 01:00:17.961
Reproduzierbarkeit ist immer in der
Forschung gewünscht und leider nicht weit

01:00:17.961 --> 01:00:20.870
genug verbreitet. Also defintiv die
gesamte Informatik generell.

01:00:20.870 --> 01:00:28.030
Benjamin: Generell vieles, was wir hier
gesagt haben, trifft auf machiene learning

01:00:28.030 --> 01:00:31.571
im Allgemeinen zu. Aber das Deep Learning,
gerade durch diese riesigen Datenmengen

01:00:31.571 --> 01:00:35.580
und so weiter. Da treten die Effekte
verstärken besonders auf. Deswegen haben

01:00:35.580 --> 01:00:38.640
wir uns hier darauf konzentriert. Aber man
kann es auch beliebig...

01:00:38.640 --> 01:00:41.770
Nadja: Und gerade weil es ein Passwort
ist, macht es auch nochmal

01:00:41.770 --> 01:00:45.750
anfälliger dafür .
Herald: Ok, dann Mikrophon Nr. 8.

01:00:45.750 --> 01:00:51.170
Mik 8: Daran anschließend. Ich hab
irgendwie das Gefühl, dass es ein großer

01:00:51.170 --> 01:00:56.480
Teil auch Publicationsbios ist, wo so
lange gespielt wird an den Daten, bis

01:00:56.480 --> 01:01:02.781
irgendwie ein Ergebnis raus kommt. Und ich
hab, es ist so einen Trend in der Psychologie, wo

01:01:02.781 --> 01:01:06.080
die das Problem ganz massiv hatten. Und
die haben das dadurch gelöst, dass die

01:01:06.080 --> 01:01:10.510
sagen, Hey, ich muss die Studien bei
manchen Journals vorregistrieren, so: Dass

01:01:10.510 --> 01:01:14.520
sind meine. Das möchte ich machen. Und
dann kommt am Ende vielleicht ein

01:01:14.520 --> 01:01:19.560
negativer Ergebnis raus. Gibt es da
Bemühungen, machiene learning, sodass man

01:01:19.560 --> 01:01:24.731
sagt: Ich publiziere den Korpus vorher,
den ich auf dem ich lernen will, und wenn

01:01:24.731 --> 01:01:28.020
dann nichts funktioniert, dann ist das
halt so.

01:01:28.020 --> 01:01:29.490
Nadja: Ich würde 
sagen, es ist relativ schwer

01:01:29.490 --> 01:01:32.510
zu beantworten für den Bereich,
weil es vielleicht nicht ganz so

01:01:32.510 --> 01:01:36.750
funktioniert. Ein Datenkorpus zu
publizieren an sich. Es gibt zum Daten

01:01:36.750 --> 01:01:40.801
Konferenzen, die sich einfach auf sowas
konzentrieren. Aber auf einem Korpus kann

01:01:40.801 --> 01:01:46.460
ich sehr viele Dinge tun, und dadurch
hilft mir das noch nicht unbedingt. Ich

01:01:46.460 --> 01:01:50.900
glaube, dass da die Fragestellung einfach
komplexer ist. Ich kenne keine konkreten

01:01:50.900 --> 01:01:53.450
Bemühungen, die jetzt in eine Richtung
gehen. Ich fände es wünschenswert...

01:01:53.450 --> 01:01:58.770
Benjamin: Es wäre definitiv wünschenswert.
Aber es wird in der Form kaum gemacht. Es

01:01:58.770 --> 01:02:03.200
sind eben keine. Ich bin bisher fast
nirgendwo. Oder bei den großen

01:02:03.200 --> 01:02:08.070
Konferenzen bin ich niemals gezwungen,
vorher zu sagen, was ich glaube, wie es

01:02:08.070 --> 01:02:13.141
ausgeht, sondern ich liefere erst wenn ich
mein Ergebnis vorstelle, sage ich, was da

01:02:13.141 --> 01:02:17.510
rauskommt und welche Fehlschläge ich hatte
und ob ich überhaupt verklausuliert ins

01:02:17.510 --> 01:02:20.540
Paper reinschreiben oder ob es komplett
sein lasse. Da zwingt mich niemand zu.

01:02:20.540 --> 01:02:24.200
Nadja: Es gibt ein paar Bestrebungen, die
Publikation von Fehlschlägen oder

01:02:24.200 --> 01:02:28.231
Messergebnissen zu machen. Aber auch das
wird immer noch von so vielen Leuten

01:02:28.231 --> 01:02:31.510
belächelt, so als Unterhaltungsmedium mehr
als ernst zu nehmende Wissenschaft. Das

01:02:31.510 --> 01:02:34.110
glaube ich auch ein Problem, weil 
dadurch die gleichen

01:02:34.110 --> 01:02:36.190
Fehler z.B. im machiene learning, 
gerade wo wir nicht

01:02:36.190 --> 01:02:38.440
systematisch arbeiten,
sondern auch ein bisschen nach

01:02:38.440 --> 01:02:42.190
Bauchgefühl gehen müssen, wiederholt
werden, was eigentlich unmöglich ist.

01:02:42.190 --> 01:02:46.050
Dieser typische Satz, das weiß man doch,
dass der Ansatz da nicht funktioniert.

01:02:46.050 --> 01:02:48.010
Woher soll man das wissen, wenn 
man noch studiert?

01:02:48.010 --> 01:02:54.240
Herald: Okay, wir haben noch Zeit für eine
kurze Frage und gehen zum Mikrofon 5.

01:02:54.240 --> 01:03:01.570
Mik 5: Ich will ein paar Details zu dieser
Beschreibung von Black Box Wissen. Ich

01:03:01.570 --> 01:03:08.560
weiß, dass man durch featuremaps das
Netzwerk untersuchen kann, und wollte

01:03:08.560 --> 01:03:14.370
wissen, was hier eine Blackbox, weil es
ist nicht so Black entscheidend.

01:03:14.370 --> 01:03:18.390
Nadja: Es kommt drauf an wie die Systeme
gebaut sind. Es gibt zum Beispiel einen

01:03:18.390 --> 01:03:23.620
Ansatz von Explainable Neural Netz (ExNN),
durchaus Valides Konzepts, und es wird

01:03:23.620 --> 01:03:28.920
auch eingesetzt. Es gibt aber auch
Architekturen, die per se erst einmal

01:03:28.920 --> 01:03:33.540
völlig unlesbar sind, und die Ansätze, die
darauf existierende Erklärbarkeit

01:03:33.540 --> 01:03:37.350
reinzubringen, sind noch sehr beschränkt.
Es gibt sie. Sie tun auch sinnvolle Dinge

01:03:37.350 --> 01:03:41.220
im Bereich, aber zum Beispiel beschränken
sie sich oft nur auf den Bereich des

01:03:41.220 --> 01:03:44.650
eigentlichen Modells, was trainiert wurde.
Die Pipeline der Maschinenlearning ist aber

01:03:44.650 --> 01:03:49.090
viel länger. Die beginnt ja schon bei der
Datenerhebung, bei der Auswahl, bei der

01:03:49.090 --> 01:03:52.080
Verarbeitung. Bei der Auswahl der
Features, aber auch beim PostProcessing,

01:03:52.080 --> 01:03:56.200
bei Evaluationsmetriken und so weiter. 
Das sind alles irgendwo Stellschrauben für

01:03:56.200 --> 01:04:00.420
Erklärbarkeit. Wir haben da auf jeden Fall
noch einen weiten Weg vor uns. Aber klar,

01:04:00.420 --> 01:04:03.200
es gibt Bestrebungen in die Richtung, die
auch durchaus funktionieren

01:04:03.200 --> 01:04:05.660
für das, wofür Sie gedacht sind.
Herald: Okay, dann sind wir am Ende der

01:04:05.660 --> 01:04:11.200
Zeit angekommen. Vielen Dank nochmal Nadja
und Benjamin.

01:04:11.200 --> 01:04:15.556
<i>Applaus</i>

01:04:15.556 --> 01:04:34.640
<i>36c3 Abspannmusik</i>

01:04:34.640 --> 01:04:38.785
Untertitel erstellt von c3subtitles.de
im Jahr 2020. Mach mit und hilf uns!