WEBVTT 00:00:00.000 --> 00:00:18.660 36C3 Vorspannmusik 00:00:18.660 --> 00:00:25.180 Herald: Ich freue mich ganz besonders, jetzt den nächsten Vortrag ankündigen zu 00:00:25.180 --> 00:00:29.720 können, der zwei Themen vereint, die ich beide interessant finde. Zwar geht es zum 00:00:29.720 --> 00:00:33.822 einen um Machine Learning, im Speziellen Deep Learning, aber auch gleichzeitig um 00:00:33.822 --> 00:00:40.280 Nachhaltigkeit. Wie das Ganze verbunden werden kann und ob vielleicht der Deep 00:00:40.280 --> 00:00:44.591 Learning Hype irgendwie doch zu groß ist, erklären uns Nadja Geisler und Benjamin 00:00:44.591 --> 00:00:48.910 Hättasch, die an der TU Darmstadt arbeiten und forschen oder irgendwo zwischendrin 00:00:48.910 --> 00:00:55.290 sind. Und deswegen will ich jetzt gar nicht weiter groß reden und freue mich auf 00:00:55.290 --> 00:00:57.739 den Talk. Herzlich willkommen, Nadja und Benjamin! 00:00:57.739 --> 00:01:04.189 Applaus 00:01:04.189 --> 00:01:07.120 Nadja Geisler: Herzlichen Dank! Hallo erstmal und schön, dass wir hier sein 00:01:07.120 --> 00:01:10.740 können, schön das ihr alle hier seid. Wir freuen uns wirklich wahnsinnig. Es ist für 00:01:10.740 --> 00:01:13.770 uns beide auch der erste Kongress, und das ist etwas ganz Besonderes dann auch gleich 00:01:13.770 --> 00:01:18.100 hier oben zu stehen. Ich bin Nadja und wie er schon gesagt hat, bin ich mit dem 00:01:18.100 --> 00:01:20.300 Master-Studium an der TU Darmstadt fertig und werde wahrscheinlich demnächst dort 00:01:20.300 --> 00:01:25.010 anfangen zu promovieren. Benjamin Hättasch: Ich mache das schon 00:01:25.010 --> 00:01:29.320 seit zwei Jahren und habe festgestellt: Ich will mich nicht nur damit 00:01:29.320 --> 00:01:32.810 beschäftigen, irgendwie toll Deep Learning anzuwenden, sondern ein bisschen drüber 00:01:32.810 --> 00:01:36.229 nachzudenken, was das alles so bedeutet. Und weil wir da einiges herausgefunden 00:01:36.229 --> 00:01:38.920 haben, sind wir heute hier, um euch das auch zu erzählen. 00:01:38.920 --> 00:01:42.970 Nadja: Unser Talk ist so zustande gekommen, dass wir das 36C3 Motto gesehen 00:01:42.970 --> 00:01:47.590 haben und uns dachten: Nachhaltigkeit vereint doch eigentlich mehrere Aspekte, 00:01:47.590 --> 00:01:50.240 die wir schon immer spannend fanden, was das Thema Deep Learning und maschinelles 00:01:50.240 --> 00:01:53.960 Lernen angeht. Aspekte, die sich unter dem Stichwort zusammenfassen lassen, obwohl 00:01:53.960 --> 00:01:56.829 sie an sich sehr unterschiedlich sind und mit dem wir uns in verschiedene Art schon 00:01:56.829 --> 00:02:00.539 beschäftigt hatten. Zu den Aspekten wollen wir euch heute was erzählen, weil gerade 00:02:00.539 --> 00:02:04.299 das Thema Nachhaltigkeit momentan besonders aktuell, besonders wichtig und 00:02:04.299 --> 00:02:09.520 besonders relevant für unsere Zukunft ist. Bevor wir aber auf die drei verschiedenen 00:02:09.520 --> 00:02:12.370 Ebenen von Nachhaltigkeit, über die wir reden wollen, eingehen, das ist die 00:02:12.370 --> 00:02:15.550 wissenschaftliche Ebene, die gesellschaftliche Ebene und die Umwelt- 00:02:15.550 --> 00:02:19.790 Ebene, müssen wir zuerst klären: Wovon reden wir, wenn wir Deep Learning sagen? 00:02:19.790 --> 00:02:23.770 Was sind die absoluten Basics für das, was wir die nächsten 30, 45 Minuten reden 00:02:23.770 --> 00:02:28.370 werden? Was müsst ihr wissen, damit wir euch gut mitnehmen können? Und das wollen 00:02:28.370 --> 00:02:31.190 wir jetzt machen. Das beinhaltet unter anderem: was meinen Sie damit, wenn wir 00:02:31.190 --> 00:02:34.430 Deep Learning sagen? Wie funktioniert das auf einer intuitiven Ebene, nicht so sehr 00:02:34.430 --> 00:02:38.360 auf einer detailreichen technischen Ebene? Und wozu wird das aktuell jetzt schon 00:02:38.360 --> 00:02:44.920 angewendet? Und wenn Deep Learning sagen, dann vor allem dieses Konstrukt, was sich 00:02:44.920 --> 00:02:50.290 dann neuronales Netz nennt, Artificial Neural Network auf Englisch. Das sind so 00:02:50.290 --> 00:02:53.500 Machine Learning Konstrukte, die es schon sehr lange gibt, die dann zwischendurch 00:02:53.500 --> 00:02:56.360 mal eine starke Flaute in der Beliebtheit haben, weil sie eben doch nicht die 00:02:56.360 --> 00:03:00.070 Ergebnisse gebracht haben, die man sich erhofft hatte. Inzwischen sind sie wieder 00:03:00.070 --> 00:03:04.670 extrem beliebt, um alle möglichen Probleme, Aufgaben im maschinellen Lernen 00:03:04.670 --> 00:03:09.790 anzugehen. Dabei bezeichnet ein neuronales Netz im Wesentlichen eine Verknüpfung von 00:03:09.790 --> 00:03:13.510 Knoten. Diese Knoten können je nach Architektur verschieden miteinander 00:03:13.510 --> 00:03:16.210 vernetzt und durch verschiedene mathematische Funktionen verbunden sein. 00:03:16.210 --> 00:03:20.730 Jeder Knoten wiederum repräsentiert eigentlich nur eine nichtlineare 00:03:20.730 --> 00:03:25.500 Berechnungsfunktion. So weit, so logisch. Wir berechnen also sehr, sehr viel. Und 00:03:25.500 --> 00:03:28.820 wenn diese Gewichte zwischen den Berechnungen erst einmal fertig bestimmt 00:03:28.820 --> 00:03:32.340 sind, sprich wenn das neuronale Netz trainiert ist, dann lässt sich für jede 00:03:32.340 --> 00:03:37.030 numerische Eingabe, die man im Netz gibt, auch eine entsprechende Ausgabe bestimmen. 00:03:37.030 --> 00:03:40.640 Diese Ausgabe macht dann Aussagen über irgendwelche Größen, über irgendwelche 00:03:40.640 --> 00:03:44.330 Klassifizierungen oder irgendwelche Zuordnungen. Die wichtigste Voraussetzung 00:03:44.330 --> 00:03:47.860 für viele, wenn auch nicht alle Arten von neuronalen Netzen, sind entsprechende 00:03:47.860 --> 00:03:51.660 Trainingsdaten und die auch noch in großer Menge. Ob diese Trainingsdaten gelabelt 00:03:51.660 --> 00:03:55.280 sein müssen, also so etwas wie schon eine Bezeichnung der eigentlichen Zielgröße 00:03:55.280 --> 00:03:59.310 haben müssen vorher oder nicht, das kann unterschiedlich sein, ist aber an der 00:03:59.310 --> 00:04:02.310 Stelle auch gar nicht so relevant. Was wir brauchen, sind wahrscheinlich sehr, sehr 00:04:02.310 --> 00:04:05.880 viele Daten, wenn wir mit neuronalen Netzwerken arbeiten wollen. Anhand dieser 00:04:05.880 --> 00:04:09.970 Daten, die möglichst vielfältig, möglichst repräsentativ sein sollten für die spätere 00:04:09.970 --> 00:04:14.560 Wirklichkeit oder das, was wir dann damit bearbeiten und einfangen wollen, daran 00:04:14.560 --> 00:04:19.230 wird das Modell gelernt. Um das Modell später einzusetzen, das sieht man hier 00:04:19.230 --> 00:04:22.449 ganz gut, wenn man einmal von links nach rechts schaut, braucht man zunächst 00:04:22.449 --> 00:04:25.430 Inputdaten. Die müssen in einem numerischen Format sein. Wie man da 00:04:25.430 --> 00:04:27.840 hinkommt? Das sind sehr viele verschiedene Methoden, aber an dieser Stelle auch gar 00:04:27.840 --> 00:04:31.410 nicht so weit relevant. Diese Inputdaten gehen dann zu diesen Knoten, zu den 00:04:31.410 --> 00:04:35.570 Neuronen, und jedes Neuron repräsentiert irgendwo an bestimmte eine bestimmte 00:04:35.570 --> 00:04:39.320 Eigenschaft, ein bestimmtes Feature. Bei einer Bilderkennung könnte das eine Kante 00:04:39.320 --> 00:04:42.160 sein oder eine Ecke oder ein Helligkeitsunterschied, ganz verschiedene 00:04:42.160 --> 00:04:46.710 Dinge. Je weiter wir in das neuronalen Netz reingehen, je tiefer die Ebenen 00:04:46.710 --> 00:04:49.860 werden, desto höher-levelig sind die Eigenschaften, die wir repräsentieren. Das 00:04:49.860 --> 00:04:52.850 Problem bei der ganzen Sache ist normalerweise, dass wir gar nicht so genau 00:04:52.850 --> 00:04:56.850 wissen, was dieses Neuron repräsentiert. Bei einem Algorithmus, der Bilder 00:04:56.850 --> 00:05:00.330 klassifiziert, der zum Beispiel Hunde und Wölfe voneinander entscheiden kann, können 00:05:00.330 --> 00:05:03.310 wir uns nicht ein Neuron anschauen und können sagen: Aha! Das da schaut, ob da 00:05:03.310 --> 00:05:06.650 eine Kante ist, die einen Schwanz repräsentieren könnte. Sondern es sind für 00:05:06.650 --> 00:05:10.110 uns einfach irgendwelche Zahlenwerte, die wir nicht weiter interpretieren können. 00:05:10.110 --> 00:05:13.200 Das bedeutet, wir haben Black Box Modelle. Wir verstehen also nicht im Detail, 00:05:13.200 --> 00:05:15.830 welches Gewicht wofür steht, was wir eigentlich gelernt haben. Und im 00:05:15.830 --> 00:05:19.820 Endeffekt, wenn ein Input reingeht, warum der Output rauskommt, der am Ende 00:05:19.820 --> 00:05:27.030 tatsächlich herauskommt. Das bildet also im Prinzip die Basis für alle Systeme, die 00:05:27.030 --> 00:05:29.240 irgendwie als Teil von Deep Learning bezeichnet werden. 00:05:29.240 --> 00:05:35.650 Benjamin: Was wir da an der Stelle also haben, ist: Wir nehmen Mathe, wir nehmen 00:05:35.650 --> 00:05:43.010 große Mengen von Daten und wenden einfach Tricks aus der Statistik an. Wir nutzen 00:05:43.010 --> 00:05:47.240 aus, dass bestimmte Dinge, wenn man es nur oft genug betrachtet, wenn man es nur oft 00:05:47.240 --> 00:05:52.400 genug anwendet, durchführt, dann eine gewisse Systematik ergeben, dass man 00:05:52.400 --> 00:05:58.590 Muster erkennen kann. Wir generalisieren. Wie man hier also sieht, werden einfach 00:05:58.590 --> 00:06:06.880 Tricks übernommen, die es in der Statistik schon seit vielen hundert Jahren gibt. Und 00:06:06.880 --> 00:06:11.050 dafür angewandt, um jetzt irgendwie zu versuchen, aus einem Haufen Daten, ohne 00:06:11.050 --> 00:06:15.370 ihn wirklich zu verstehen, ohne genau zu wissen, was da drinsteckt, einfach durch 00:06:15.370 --> 00:06:21.053 schiere Masse, Muster zu erkennen und dann hoffentlich zu wissen: Okay, wenn ich 00:06:21.053 --> 00:06:25.610 jetzt weit genug generalisiert habe, wird mein System schon irgendwie gut genug sein 00:06:25.610 --> 00:06:34.940 für mein Anwendungszweck. Das hat aber, obwohl der Name Deep Learning und 00:06:34.940 --> 00:06:41.250 Künstliche Intelligenz, alles nicht so wahnsinnig viel damit zu tun, was wir als 00:06:41.250 --> 00:06:47.160 Intelligenz verstehen, was wir als Lernen verstehen. Der Tweet hier fasst das ganz 00:06:47.160 --> 00:06:52.690 gut zusammen. Er sagt, das menschliche Hirn funktioniert ganz anders. Wenn das 00:06:52.690 --> 00:06:55.990 menschliche Hirn so wie Deep Learning funktionieren würde, dann müssten wir 00:06:55.990 --> 00:07:01.160 einfach 200 mal ins Gesicht geschlagen werden, bevor wir überhaupt raffen, dass 00:07:01.160 --> 00:07:04.370 wir das nicht mögen. So ist das tatsächlich wenn ich bei Deep Learning, 00:07:04.370 --> 00:07:09.040 wenn ich ihm 50, 100, 200 Wölfe und Hunde zeige, dann weiß das System noch gar 00:07:09.040 --> 00:07:14.139 nichts, weil es nicht schnell genug interpretieren kann, nicht genug Kontext- 00:07:14.139 --> 00:07:17.870 Informationen einbeziehen kann, nicht genug von all dem nutzen können, was das 00:07:17.870 --> 00:07:22.690 menschliche Hirn, was wir können, wenn wir irgendwas machen, um irgendwie 00:07:22.690 --> 00:07:27.910 Entscheidungen zu treffen. Und das ist ein großes Problem. Warum genau, werden wir 00:07:27.910 --> 00:07:36.370 gleich nochmal im Detail besprechen. Sorgt aber dafür, dass wir einfach nur auf Masse 00:07:36.370 --> 00:07:39.699 gehen und dadurch einfach eine bestimmte Genauigkeit so leicht nicht erreichen 00:07:39.699 --> 00:07:43.410 können, wie wir sie gerne hätten. Nadja: Die intuitive Ursprungsidee hinter 00:07:43.410 --> 00:07:47.870 neuronalen Netzen war tatsächlich mal sozusagen die Funktionalität des Gehirns 00:07:47.870 --> 00:07:51.060 nachzubauen. Unsere Neuronen feuern auch, sind miteinander vernetzt, können 00:07:51.060 --> 00:07:55.570 irgendwelche Dinge auslösen. Das ist aber heutzutage nicht mehr wie Neuronale Netze 00:07:55.570 --> 00:07:58.639 funktionieren. Wir bilden damit nicht wirklich die Funktion organischer Gehirne 00:07:58.639 --> 00:08:01.919 nach, sondern und das war zwar die Intuition dahinter, das funktioniert aber 00:08:01.919 --> 00:08:08.030 tatsächlich sehr anders. Der für uns interessante Teil ist aber inzwischen, wie 00:08:08.030 --> 00:08:11.920 wird das Ganze eigentlich angewendet, wo begegnet uns das im Alltag, nicht nur in 00:08:11.920 --> 00:08:15.480 Forschungslabors, nicht nur in akademischen Institutionen, sondern auch 00:08:15.480 --> 00:08:18.970 tatsächlich in Systemen, die wir jeden Tag benutzen, die inzwischen weit verbreitet 00:08:18.970 --> 00:08:23.620 sind. Mit allen Nach- und Vorteilen, nach der großen Flaute, von der wir es eben 00:08:23.620 --> 00:08:28.470 schon kurz hatten, erlebt das Feld gerade wieder ein riesiges Hoch, und sie sind in 00:08:28.470 --> 00:08:31.610 so vielen Bereichen im Einsatz, dass einen kurzen Überblick davon zu verschaffen 00:08:31.610 --> 00:08:35.519 quasi unmöglich ist. Extrem weit verbreitet sind Sachen wie 00:08:35.519 --> 00:08:39.370 Sprachassistenten. In den letzten Jahren Siri, Alexa, Echo, all das. Sie müssen so 00:08:39.370 --> 00:08:42.199 etwas können, wie Sprachverarbeitung, die müssen so etwas können wie 00:08:42.199 --> 00:08:45.370 Textverarbeitung, die müssen Sprachsynthese beherrschen, sie müssen 00:08:45.370 --> 00:08:47.710 auch irgendwo Information Retrieval beherrschen und tatsächlich auch die 00:08:47.710 --> 00:08:52.599 Informationen aus dem riesigen Informationscluster, der das Internet nun 00:08:52.599 --> 00:08:57.860 mal ist, hervorzuholen. Aber auch weit verbreitet durch solche Unternehmen wie 00:08:57.860 --> 00:09:01.050 Tesla oder Uber sind inzwischen die Bereiche des autonomen Fahrens oder 00:09:01.050 --> 00:09:04.779 generell des autonomen Transports, die sich dann eher mit vielleicht 00:09:04.779 --> 00:09:08.730 Bilderkennung bearbeiten müssen, mit Navigation, mit Fein-Kontrolle an 00:09:08.730 --> 00:09:12.600 motorischen Bauteilen etc. Nicht ganz so offensichtlich, aber dennoch, wenn man 00:09:12.600 --> 00:09:16.509 darüber nachdenkt oder wenn man es gesagt bekommt, dann doch sehr gut sichtbar: Für 00:09:16.509 --> 00:09:20.410 alle Menschen im Alltag sind Recommendation Systems, so etwas wie 00:09:20.410 --> 00:09:23.750 "Amazon Kunden kauften auch", "Sie könnte interessieren", alles, was uns irgendwie 00:09:23.750 --> 00:09:28.660 Vorschläge generiert. Die Sortierung von Google Ergebnissen oder generell von 00:09:28.660 --> 00:09:32.339 Suchmaschinen, wie mir Ergebnisse angezeigt werden, was wie gerankt wird. 00:09:32.339 --> 00:09:36.360 Aber auch sowas wie, was zeigt mir mein Facebook Newsfeed überhaupt an? Wer 00:09:36.360 --> 00:09:40.119 bekommt was, wann und wie oft zu sehen? Das ist bei weitem nicht so 00:09:40.119 --> 00:09:44.529 straightforward, nicht so offensichtlich, wie sich das viele Leute denken. Deutlich 00:09:44.529 --> 00:09:48.279 weniger bekannt sind dann schon Systeme, die sowas wie 00:09:48.279 --> 00:09:52.020 Rückfälligkeitseinschätzungen für straffällig gewordene machen, die in 00:09:52.020 --> 00:09:55.589 Gerichtsverfahren dazu verwendet werden, um anhand von irgendwelchen Scores 00:09:55.589 --> 00:10:02.100 Strafmaße zu vergeben. Das geschieht in den USA schon seit Jahren. Aber auch 00:10:02.100 --> 00:10:05.770 Sachen, die anhand von Gesichtserkennung versuchen, verdächtige Personen zu 00:10:05.770 --> 00:10:12.279 identifizieren, oder die Scoring Algorithmen, die für irgendwelche sozialen 00:10:12.279 --> 00:10:16.810 Systeme verwendet werden oder zur Einschätzung für Versicherungen verwendet 00:10:16.810 --> 00:10:21.939 werden. Aber auch Einstellungsverfahren, die anhand von Stichwörtern, von 00:10:21.939 --> 00:10:26.160 Lebensläufen, noch bevor jemals jemand auf die Unterlagen drauf geschaut hat, 00:10:26.160 --> 00:10:31.589 Kandidatinnen aussortieren. Benjamin: Diese Systeme arbeiten auch da 00:10:31.589 --> 00:10:35.140 wieder so, dass wir häufig nicht verstehen, genau was sie tun. Teilweise 00:10:35.140 --> 00:10:38.889 so, dass man im Nachhinein denkt: Um Gottes Willen, wie können die so 00:10:38.889 --> 00:10:43.480 funktionieren? Das heißt, sowohl diese Einstellung bei Gesichtsinterpretation 00:10:43.480 --> 00:10:49.819 oder für Bewerbungsverfahren, wo ein 15 sekündiges Video analysiert wird, 00:10:49.819 --> 00:10:54.499 übernimmt regelmäßig solche Systeme wie, wir messen jetzt Abstand zwischen Augen, 00:10:54.499 --> 00:10:58.561 Nase, Mund, was weiß ich, was wir leider, wenn man ganz ehrlich ist, kennen aus 00:10:58.561 --> 00:11:03.660 irgendwelcher Genetik, die die Nazis betrieben haben, um irgendwelche 00:11:03.660 --> 00:11:10.139 überlegenen Rassen zu identifizieren. Und solche Dinge werden in Systemen heutzutage 00:11:10.139 --> 00:11:14.230 eingesetzt. Nicht unbedingt absichtlich. Aber wenn man sich die Mühe macht zu 00:11:14.230 --> 00:11:17.379 verstehen, was das System eigentlich tut, stellt man plötzlich mit großem 00:11:17.379 --> 00:11:21.119 Bedauern fest, dass es genau das tut. Nadja: In all diesen Bereichen, in allen 00:11:21.119 --> 00:11:24.620 Unteraufgaben davon und noch viel mehr kommen diese Deep Learning Systeme mit all 00:11:24.620 --> 00:11:28.300 ihren Nachteilen und oftmals mit unbeabsichtigten Nebenwirkungen aktuell 00:11:28.300 --> 00:11:34.379 zum Einsatz. Und es werden immer mehr. Genug dazu, was die Grundlage ist, genug 00:11:34.379 --> 00:11:37.300 dazu, was wir unter Deep Learning verstehen und wo es angewendet wird. Wir 00:11:37.300 --> 00:11:39.389 wollen uns als nächstes mit wissenschaftlicher Nachhaltigkeit 00:11:39.389 --> 00:11:44.190 beschäftigen. Und die erste Frage, die sich die meisten Leute dazu stellen: Was 00:11:44.190 --> 00:11:47.699 bedeutet denn wissenschaftliche Nachhaltigkeit eigentlich? Wenn wir das 00:11:47.699 --> 00:11:51.999 sagen, meinen wir solche Fragen wie, wie relevant ist eigentlich das Thema, an dem 00:11:51.999 --> 00:11:56.100 wir forschen? Wie relevant sind meine Ergebnisse für die Zukunft, für die 00:11:56.100 --> 00:12:00.079 weitere Entwicklung des Feldes, für den Alltag der Menschen, um die es 00:12:00.079 --> 00:12:04.529 letztendlich geht? Wir fragen uns aber auch: Können wir diese Ergebnisse 00:12:04.529 --> 00:12:09.129 überhaupt reproduzieren? Kann irgendjemand anderes, wenn er dieses Paper gelesen hat, 00:12:09.129 --> 00:12:11.879 zu den gleichen Zahlen, zu dem gleichen Ergebnis oder zumindest zu der gleichen 00:12:11.879 --> 00:12:16.399 Größenordnung kommen? Haben wir die dazu notwendigen Mittel? Haben wir die Details 00:12:16.399 --> 00:12:21.450 publiziert? Und sind die Ergebnisse so verlässlich, dass es möglich ist? Wir 00:12:21.450 --> 00:12:24.399 meinen auch: Können wir Dinge, die in der Forschung entwickelt werden, 00:12:24.399 --> 00:12:28.110 wiederverwenden? Oder sind sie nur für diese eine sehr spezielle Aufgabe 00:12:28.110 --> 00:12:32.559 relevant? Wir meinen auch: Sind wir konkurrenzfähig? Oder sind andere Systeme, 00:12:32.559 --> 00:12:36.709 die mit den gleichen oder sogar weniger Aufwand entwickelbar, einsetzbar sind, 00:12:36.709 --> 00:12:41.300 nicht vielleicht sogar besser? Wir meinen auch: Mit welcher Systematik wurde dieses 00:12:41.300 --> 00:12:45.889 System gebaut? Nach welchem System wurde untersucht, was an dieser Stelle hilfreich 00:12:45.889 --> 00:12:49.920 ist und was nicht? Oder war das völlig willkürlich? Und schlussendlich meinen wir 00:12:49.920 --> 00:12:52.660 auch: Was ist die Aussagekraft meiner Ergebnisse? Wie war die 00:12:52.660 --> 00:12:57.910 Evaluationsmethodik? Was ist dabei am Ende rausgekommen, was tatsächlich relevant, 00:12:57.910 --> 00:13:07.999 nennenswert, statistisch signifikant ist? Benjamin: Und an der Stelle überlegen wir 00:13:07.999 --> 00:13:11.149 uns kurz, ich weiß nicht, einige von euch kommen sicherlich aus dem 00:13:11.149 --> 00:13:16.320 wissenschaftlichen Bereich, andere aus der Industrie, ist völlig egal, wie man sich 00:13:16.320 --> 00:13:20.459 eigentlich wünschen würde, dass Wissenschaft funktioniert, nämlich 00:13:20.459 --> 00:13:24.260 irgendwie systematisch. Menschen denken sich Dinge aus, überprüfen sie, stellen 00:13:24.260 --> 00:13:28.239 fest, sie stimmen, und alles ist gut. Tatsächlich haben wir in diesem Bereich 00:13:28.239 --> 00:13:34.910 häufig, sehr häufig, ein völlig anderes Verfahren. Es gibt Publikationen zu 00:13:34.910 --> 00:13:37.154 irgendwelchen Arten: Wie kann man diese 00:13:37.154 --> 00:13:38.154 Neuronen, die wir vorhin hatten, wie kann man diese Modelle 00:13:38.154 --> 00:13:41.769 aufbauen? Was kann man da machen? Dass die Daten dadurch fließen? 00:13:41.769 --> 00:13:47.149 Dazu denken sich Leute was aus. Dann publizieren sie das, veröffentlichen das, 00:13:47.149 --> 00:13:51.249 und andere Leute denken sich, okay, das klingt doch spannend. Lass das mal nehmen, 00:13:51.249 --> 00:13:55.449 um daraus jetzt irgendwie für meinen Anwendungsfall ein neues System zu bauen. 00:13:55.449 --> 00:13:59.639 Das heißt, Sie nehmen dieses Modell, was man irgendwo gehört hat, was gerade durch 00:13:59.639 --> 00:14:07.450 die Fachwelt geistert. Dann überlegt man sich grob: Wie baut man das auf? Wie nehme 00:14:07.450 --> 00:14:12.540 ich das? Ich packe jetzt so viele Schichten von diesem Typ hintereinander. 00:14:12.540 --> 00:14:17.440 Sagen wir mal so und so viele, und die Schichten machen wir so groß, wir arbeiten 00:14:17.440 --> 00:14:21.540 jetzt mit so und so vielen dimensionalen Vektoren. Das denkt man sich einfach aus, 00:14:21.540 --> 00:14:24.019 was irgendwie plausibel klingt. Dann guckt man, 00:14:24.019 --> 00:14:25.019 dass man die Daten noch irgendwie so lange schlägt, 00:14:25.019 --> 00:14:28.410 bis sie irgendwie halbwegs in das Format reinpassen, was man gerade 00:14:28.410 --> 00:14:31.579 haben will, macht da irgendwelche numerischen Werte draus, auf teilweise 00:14:31.579 --> 00:14:36.579 sehr fragwürdige Art und Weise. Und dann wird das Ganze in das Netzwerk gepackt, 00:14:36.579 --> 00:14:39.749 und das ganze Ding nennt sich ja Deep Learning. Das heißt, jetzt kommt das 00:14:39.749 --> 00:14:44.119 Lernen. Das basiert halt darauf, dass man die Daten reinschiebt, guckt, wie gut es 00:14:44.119 --> 00:14:50.199 passt. Wie gut war die Vorhersage. Dann anhand dessen das System anpasst, die 00:14:50.199 --> 00:14:53.649 Daten wieder durchfließen lässt und das Ganze immer und immer wiederholt, bis man 00:14:53.649 --> 00:14:59.180 am Ende irgendwie schön Gewichte in diesen Funktionen, die man im Prinzip 00:14:59.180 --> 00:15:04.610 konstruiert, geraten hat oder gelernt hat, die plausibel erscheinen für den Zweck, 00:15:04.610 --> 00:15:08.449 den man braucht. Das ergibt dann das Modell. Wenn die Zahlen, die dann 00:15:08.449 --> 00:15:12.910 rauskommen, auf den Daten mit dem man das testet, ganz gut aussehen, dann nehmen die 00:15:12.910 --> 00:15:19.250 Leute das und schreiben ihr Paper darüber und sagen Okay, für Klassifikationen von 00:15:19.250 --> 00:15:24.079 Wölfen gegen Hunde haben wir jetzt folgende Architektur, folgendes Dings. 00:15:24.079 --> 00:15:28.089 Hier sind unsere Daten. Das sind die Werte, die wir haben. Bitteschön, dass ist 00:15:28.089 --> 00:15:32.089 jetzt das tolle neue Forschungsergebnis. Wenn die Werte nicht so gut aussehen, dann 00:15:32.089 --> 00:15:37.199 hat man wohl vielleicht die falsche State of the Art System genommen, was gerade 00:15:37.199 --> 00:15:40.939 jemand veröffentlicht hat. Oder man hat eine Schlicht zu wenig, eine Schicht zu 00:15:40.939 --> 00:15:44.939 viel, die Vektoren haben die falsche Dimensionierung. Na naja, gut, dann rate 00:15:44.939 --> 00:15:50.080 ich eben neue Parameter. Ist ja alles nur Strom und Zeit, lässt das Ganze weiter 00:15:50.080 --> 00:15:56.129 trainieren. Da laufen die GPUs heiß. Und dann fängt man von vorne an damit und 00:15:56.129 --> 00:16:01.959 guckt, ob jetzt gute Zahlen rauskommen. Und je nachdem sagt man dann, Okay, ich 00:16:01.959 --> 00:16:07.161 mache weiter, oder ich fall wieder durch. Dazu kommt dann noch, das Ganze ist jetzt 00:16:07.161 --> 00:16:11.419 ja schon irgendwie ziemlich unwissenschaftlich. Das ist nicht mal mehr 00:16:11.419 --> 00:16:16.159 empirische Forschung. Das ist wirklich ausprobieren und hoffen, dass etwas Gutes 00:16:16.159 --> 00:16:21.809 rauskommt. Aber danach kann man jetzt ja noch die üblichen Schönungs-Methoden 00:16:21.809 --> 00:16:27.359 anwenden, die es natürlich in der Wissenschaft gibt, die man auch so leicht 00:16:27.359 --> 00:16:31.699 gar nicht finden kann. Leider. Man kann natürlich jetzt sagen, ich zeige nur die 00:16:31.699 --> 00:16:34.990 Ergebnisse auf den Datensets, bei denen die Zahlen gut aussehen, und auf dem 00:16:34.990 --> 00:16:38.450 zweiten Datensets mit den Fotos aus einer anderen Perspektive oder mit einem anderen 00:16:38.450 --> 00:16:42.269 Hintergrund jetzt leider nicht gut funktioniert hat, das muss ich ja 00:16:42.269 --> 00:16:46.879 niemandem erzählen. Das veröffentliche ich einfach nicht mit. Das bleibt bei mir, und 00:16:46.879 --> 00:16:49.459 meinen anderen Zahlen sehen ja gut aus, und das muss man jetzt erst mal jemand 00:16:49.459 --> 00:16:52.649 nachmachen und zeigen, dass es mit etwas anderem nicht funktioniert. Selbst wenn 00:16:52.649 --> 00:16:56.839 nicht: Ich habe ja eine Publikation. Und das ist leider in vielen Feldern 00:16:56.839 --> 00:17:00.669 heutzutage was, was wichtig ist. Irgendwo bei einer wichtigen Konferenz ein Paper zu 00:17:00.669 --> 00:17:04.829 veröffentlichen, mit der man eine minimale Verbesserung gegenüber dem 00:17:04.829 --> 00:17:10.080 bisherigen State of the Art gezeigt hat. Natürlich kann ich außerdem, eigentlich 00:17:10.080 --> 00:17:13.790 sollte ich solche Experimente mehrfach wiederholen und Mittelwerte bilden. Aber 00:17:13.790 --> 00:17:16.959 ich kann natürlich Experimente mehrfach wiederholen und einfach nur den besten 00:17:16.959 --> 00:17:26.720 Score veröffentlichen. Und weitere solche Tricks anwenden. Das heißt, wir haben 00:17:26.720 --> 00:17:32.360 sowieso schon einen schlechten Prozess, der dann auch noch teilweise missbraucht 00:17:32.360 --> 00:17:37.510 wird, um schneller bessere Ergebnisse zu kriegen und das dann zu publizieren. Das 00:17:37.510 --> 00:17:41.929 ist das, was wir viel in diesen Feldern sehen. Definitiv nicht bei allen Papern. 00:17:41.929 --> 00:17:47.470 Gerade die Grundlagen Paper sind sicherlich gut erforscht. Aber die vielen 00:17:47.470 --> 00:17:53.809 Anwendungspaper können an der Stelle, und allein schon indem, wie sie entstanden 00:17:53.809 --> 00:17:57.519 sind, begründet, keinen wirklichen Mehrwert liefern. Was ihre Relevanz und 00:17:57.519 --> 00:18:01.000 ihren Vorteil, der daraus entsteht, ergibt. 00:18:01.000 --> 00:18:07.230 Nadja: Das Ganze ist natürlich plakativ formuliert und natürlich bringen wir das 00:18:07.230 --> 00:18:10.850 Ganze ein bisschen auf den Punkt, um zu überspitzen. Aber Tatsache ist, wenn man 00:18:10.850 --> 00:18:13.409 sich in einem Feld bewegt, was sehr viel Druck hat, wenn man sich in einem Feld 00:18:13.409 --> 00:18:17.069 bewegt, was so viele mögliche Gründe und so viele Dinge hat, die diese 00:18:17.069 --> 00:18:20.500 Fallstricke begünstigen, dann werden sie auch immer mehr genutzt. 00:18:20.500 --> 00:18:29.679 Benjamin: Genau. Wir sehen natürlich besonders, es gibt gerade im Deep Learning 00:18:29.679 --> 00:18:33.590 diese Möglichkeiten. Denn wir haben schon gesagt: wir verstehen nicht, was diese 00:18:33.590 --> 00:18:36.850 Modelle tun normalerweise. Es gibt ein Forschungsfeld, was daran arbeitet. Aber 00:18:36.850 --> 00:18:40.919 normalerweise verstehen wir nicht, was diese Systeme tun. Das sind Blackbox 00:18:40.919 --> 00:18:43.890 Modelle, die kriegen Daten rein, damit wird irgendwas damit gemacht. Am Ende 00:18:43.890 --> 00:18:49.950 kommen Daten raus. Das Ganze geht noch über mehrere Schritte. Wir haben die 00:18:49.950 --> 00:18:53.520 Daten, die werden irgendwie vorverarbeitet. Dann kommen die Daten 00:18:53.520 --> 00:18:57.730 rein, gehen durch dieses System, dann werden sie eventuell nachverarbeitet. Am 00:18:57.730 --> 00:19:00.960 Ende muss noch evaluiert werden, entschieden werden: Was ist jetzt richtig? 00:19:00.960 --> 00:19:04.260 Was ist exakt richtig? Was ist gerade so richtig? Reicht mir das vielleicht, um es 00:19:04.260 --> 00:19:09.841 als als wahr, stimmt es schon so, um es in meinem Paper zu publizieren? Was ich genau 00:19:09.841 --> 00:19:14.549 gemessen habe, wird häufig gar nicht erst angegeben. Das heißt, dort ist es extrem 00:19:14.549 --> 00:19:21.260 leicht möglich, auf diese Art und Weise zu arbeiten. Und gerade dadurch, dass überall 00:19:21.260 --> 00:19:27.570 heutzutage Expertinnen für dieses Feld gesucht werden, dass überall jemand 00:19:27.570 --> 00:19:31.250 Anwendungen haben möchte für Deep Learning, kommt man damit eben ganz gut 00:19:31.250 --> 00:19:34.950 durch. Deswegen passiert das dort besonders. Man muss auf der anderen Seite, 00:19:34.950 --> 00:19:39.529 wenn man die guten Jobs kriegen will, auch solche Publikationen vorweisen. Also wird 00:19:39.529 --> 00:19:44.389 das entsprechend gemacht. Und genauso: es sind halt sehr viele Low Hanging Fruits 00:19:44.389 --> 00:19:50.179 dabei. Das heißt Dinge, wo man weiß, okay, mit wenig eigenen, großartigen Ideen und 00:19:50.179 --> 00:19:56.549 mehr anwenden von Handwerkszeug kann ich irgendwo was bauen, was es noch nicht 00:19:56.549 --> 00:20:02.690 gibt. Und solange ich der Erste dazu bin, kriege ich das leichter hin. Ich muss mich 00:20:02.690 --> 00:20:06.019 nicht mit irgendwem vergleichen. Ich zeige Okay, mein System kann das mit einer 00:20:06.019 --> 00:20:10.590 akzeptablen Genauigkeit, exakte Zahlen und Ergebnissen. Damit bin ich die erste 00:20:10.590 --> 00:20:13.980 Person, die das geschafft hat, und kann das entsprechend veröffentlichen. Deswegen 00:20:13.980 --> 00:20:19.980 versuchen möglichst viele Leute, möglichst schnell solche Dinge rauszuhauen, neue 00:20:19.980 --> 00:20:30.210 Publikationen in diesen Bereichen zu veröffentlichen. Wenn wir jetzt wissen 00:20:30.210 --> 00:20:35.990 wollen, wie gut eigentlich ein System ist, was vorgestellt wird, wäre es natürlich 00:20:35.990 --> 00:20:40.120 schön, wenn wir die Experimente einfach wiederholen könnten. Das ist allerdings 00:20:40.120 --> 00:20:47.559 leider gar nicht so trivial. Denn auch wenn die Systeme, die eingesetzt werden, 00:20:47.559 --> 00:20:50.980 die Grundlagen-Systeme, häufig ein gewisser Standard sind und irgendwie auch 00:20:50.980 --> 00:20:57.380 als Open Source existieren, gilt das eben nicht für die ganzen Anpassungen, die 00:20:57.380 --> 00:21:00.880 ganzen Details, die die Personen einbauen. Das gilt also nicht für den eigentlichen 00:21:00.880 --> 00:21:06.870 Code, für die Pipeline, aber auch für die Pre-Processing, für die Evaluierung. Das 00:21:06.870 --> 00:21:12.320 gilt nicht unbedingt für die Daten. Häufig sind Daten nicht verfügbar. Wir wissen, 00:21:12.320 --> 00:21:16.669 Daten sind wertvoll, deswegen will man sie nicht aus der Hand geben. Aber so 00:21:16.669 --> 00:21:19.889 funktioniert Wissenschaft nicht. Ich kann nicht auf meinen Daten, die ich für mich 00:21:19.889 --> 00:21:23.309 behalte, arbeiten, sie niemandem zeigen und sagen: Aber mein System ist gut, ich 00:21:23.309 --> 00:21:29.919 habe es ja selbst getestet. Das ihr es nicht überprüft könnt, Pech gehabt. Ich 00:21:29.919 --> 00:21:35.110 habe in diesen Systemen enorm viele Hyper- Parameter, die wir haben es ja gesagt, 00:21:35.110 --> 00:21:39.940 erst einmal häufig geraten werden oder durch durch grobes Ausprobieren bestimmt 00:21:39.940 --> 00:21:44.179 werden. Wenn ich diese Parameter und diese Hyper-Parameter nicht weiß, habe ich keine 00:21:44.179 --> 00:21:49.410 Chance, das System nachzubauen. Ich weiß auch nicht, mit welchen Initialisierungen, 00:21:49.410 --> 00:21:51.420 die zufällig geschehen und mit welchen Reihenfolgen 00:21:51.420 --> 00:21:52.830 und Aufteilung der Daten das Ganze geschehen ist. 00:21:52.830 --> 00:21:55.679 Das heißt, wenn ich diese ganzen Details nicht habe, habe ich 00:21:55.679 --> 00:22:01.870 erst mal keine Chance, genau ein System nachzubauen. Ich brauche aber genau diese 00:22:01.870 --> 00:22:06.940 exakten Werte, weil diese Systeme enorm fragil sind. Das heißt, wenn ich 00:22:06.940 --> 00:22:12.300 Kleinigkeiten ändere, ein bisschen die Dimensionen verändere, die Größe der 00:22:12.300 --> 00:22:15.610 Schichten, gar so gar die Funktionen, die da aneinandergekettet werden, ein bisschen 00:22:15.610 --> 00:22:19.261 ändere, kriege ich völlig andere Ergebnisse und weiß nicht mehr, ob das 00:22:19.261 --> 00:22:23.549 andere System wirklich schlecht oder gut war oder ob es eben nur daran liegt, dass 00:22:23.549 --> 00:22:32.020 ich es nicht genau nachbauen kann. Problem: Aktuell gibt es zwar 00:22:32.020 --> 00:22:36.250 Bestrebungen, dass das so etwas besser wird, aber keinen Zwang oder so dafür. Das 00:22:36.250 --> 00:22:40.220 heißt, wenn ich ein Paper publiziere auf einer der großen Konferenzen, in meinem 00:22:40.220 --> 00:22:45.750 Anwendungsgebiet oder auch im Kern Machine Learning Bereich, dann ist es gewünscht, 00:22:45.750 --> 00:22:50.960 dass sie reproduzierbar sind. Es ist aber nicht erzwungen. Das heißt, es gibt 00:22:50.960 --> 00:22:56.090 zusätzlich nochmal das, ich möchte möchte, dass mein Paper so ein Siegel kriegt, das 00:22:56.090 --> 00:22:58.760 ist reproduzierbar. Dann muss ich dafür ein paar Dinge machen. Da muss ich im 00:22:58.760 --> 00:23:03.900 Prinzip diese Dinge hier bereitstellen, die wir ja aufgelistet haben. Und dann 00:23:03.900 --> 00:23:08.799 versuchen andere Leute nachzuvollziehen, ob das, was ich mache, auch stimmt. Und 00:23:08.799 --> 00:23:12.230 dann ich halt so ein Häkchen. Aber wenn ich das nicht tue, dann mache ich es eben 00:23:12.230 --> 00:23:18.259 nicht. Und das ist sicherlich eine Stelle, die man hinterfragen muss, wo auch zum 00:23:18.259 --> 00:23:22.899 Glück schon Dinge geschehen. Diese Reproduzierbarkeit wird, rückt mehr in den 00:23:22.899 --> 00:23:30.169 Fokus der Konferenzen. Der Effekt von dem Ganzen ist natürlich dadurch: Wir haben 00:23:30.169 --> 00:23:34.480 ganz viel Forschung, die nicht genutzt werden kann von anderen Leuten. Das heißt, 00:23:34.480 --> 00:23:37.190 ich muss natürlich Forschung an der Stelle wiederholen. Andere Leute müssen sie 00:23:37.190 --> 00:23:43.830 wiederholen und zusätzlich durch das, sowohl durch diesen Effekt als auch durch 00:23:43.830 --> 00:23:47.529 den Drang, möglichst viel und möglichst schnell zu publizieren, wird halt extrem 00:23:47.529 --> 00:23:51.330 viel Forschung auch so wiederholt und an ähnlichen Problemen immer wieder 00:23:51.330 --> 00:23:56.210 gearbeitet, um minimale Verbesserung zu bekommen, weil man ja auch schon ein "Mein 00:23:56.210 --> 00:24:00.130 System ist 0,5 Prozentpunkte besser als das bisherige State of the Art System" 00:24:00.130 --> 00:24:08.690 wieder publizieren kann. Das heißt, wünschenswert wäre es, wir hätten überall 00:24:08.690 --> 00:24:13.649 diese Reproduzierbarkeit. Das heißt, das Wichtigste wäre natürlich wir alle immer, 00:24:13.649 --> 00:24:17.269 wenn wir hier sitzen und wenn wir irgendwas erforschen. Wir müssen unseren 00:24:17.269 --> 00:24:19.460 Source Code veröffentlichen. Guck mal, da ein Eichhörnchen. 00:24:19.460 --> 00:24:23.830 Nadja: Das ist leider, was uns viel zu häufig passiert, wenn es einen 00:24:23.830 --> 00:24:27.700 wissenschaftlichen Code geht. Das heißt, selbst die Autorinnen, die vorhatten ihren 00:24:27.700 --> 00:24:31.000 Code zu publizieren, das Ganze öffentlich zu machen, Open Source zu machen, werden 00:24:31.000 --> 00:24:35.029 viel zu schnell vom nächsten Projekt, von der größeren Deadline, von den 00:24:35.029 --> 00:24:38.389 beschäftigten Doktorandinnen oder von der Tatsache, dass der Code immer noch nicht 00:24:38.389 --> 00:24:41.279 aufgeräumt ist, wenn man einfach nicht dazu gekommen ist vor der Deadline, 00:24:41.279 --> 00:24:45.330 abgelenkt. Wir haben einen extrem hohen Publikationsdruck im Bereich Deep 00:24:45.330 --> 00:24:49.330 Learning. Die Publikationen steigen effektiv exponentiell. Man muss immer 00:24:49.330 --> 00:24:51.060 schneller sein, um wirklich noch state of 00:24:51.060 --> 00:24:52.460 the art zu sein, um selbst die eigene 00:24:52.460 --> 00:24:54.300 Verbesserung noch an den Markt bringen zu können. 00:24:54.300 --> 00:24:55.300 Das sorgt dafür, dass irgendwo unsauber 00:24:55.300 --> 00:24:58.539 gearbeitet wird. Mein Code wird nicht dokumentiert, da wird Spaghetti Code 00:24:58.539 --> 00:25:02.350 geschrieben. Er wird irgendwie hingehackt, Hauptsache, es funktioniert. Und danach 00:25:02.350 --> 00:25:06.100 müsste ich mich hinsetzen und das Ganze wieder aufarbeiten. Und das ist ein Riesen- 00:25:06.100 --> 00:25:09.789 stück Arbeit. Und eigentlich steht ja schon die nächste Publikation an. Und alles 00:25:09.789 --> 00:25:12.539 ist es plötzlich interessanter, als den Code zugänglich zu machen. Das gilt wieder 00:25:12.539 --> 00:25:15.469 nicht für alle Paper. Natürlich gibt es Leute, die das machen. Wir versuchen es 00:25:15.469 --> 00:25:19.960 zum Beispiel auch. Aber es funktioniert leider immer noch viel zu selten. 00:25:19.960 --> 00:25:25.169 Tatsächlich gab es dazu oder gibt es doch immer noch von einer großen Konferenz in 00:25:25.169 --> 00:25:28.860 dem Bereich, die Reproducibility Challenge, wo im wesentlichen 00:25:28.860 --> 00:25:32.409 Wissenschaftler aufgefordert werden, sich ein akzeptiertes Paper aus der Konferenz 00:25:32.409 --> 00:25:37.180 2018 oder jetzt 2019 rauszusuchen und mit allen Mitteln und Wegen zu versuchen, die 00:25:37.180 --> 00:25:41.260 Ergebnisse nachzuvollziehen. Teilweise oder im Detail, komplett, erst mal 00:25:41.260 --> 00:25:44.960 rausfinden, was kann ich überhaupt? Die Autoren sind angehalten, kurz publizieren 00:25:44.960 --> 00:25:48.909 und zu kooperieren. Die Leute versuchen wirklich, auch Zeitaufwand, mit dem 00:25:48.909 --> 00:25:52.639 entsprechenden Fachwissen, die Ergebnisse nachvollziehbar und erklärbar und 00:25:52.639 --> 00:25:58.600 reproduzierbar zu machen. Die Erfolgsrate? Ja, ein Teil können wir nachvollziehen, 00:25:58.600 --> 00:26:03.480 immerhin 50 Prozent. Immerhin ein Großteil, das nachvollziehen konnten 30 00:26:03.480 --> 00:26:08.800 Prozent, gar nicht reproduzieren waren aber immer noch 10 Prozent. Jetzt 00:26:08.800 --> 00:26:12.510 ist das interessante aber ja der Schwierigkeitsgrad, dass man das irgendwie 00:26:12.510 --> 00:26:15.250 reproduzieren kann, ist an sich schon mal gut, aber noch 00:26:15.250 --> 00:26:17.370 nicht ausreichend. Wenn ich die komplette 00:26:17.370 --> 00:26:19.339 Forschung dafür neu machen muss, dann lohnt das den Aufwand schlicht 00:26:19.339 --> 00:26:24.929 und einfach nicht. Reasonable difficulty ist in dem Fall sagen wir ein nicht sehr 00:26:24.929 --> 00:26:28.909 konkretes Wort. Aber Tatsache ist, dass es bei mindestens 20 Prozent der Paper sehr, 00:26:28.909 --> 00:26:33.309 sehr schwierig war und überhaupt keine Probleme aufgetreten sind bei einem 00:26:33.309 --> 00:26:37.460 absolut vernachlässigbaren Teil. Was Sie dabei noch gemacht haben, ist Sie haben 00:26:37.460 --> 00:26:41.549 gefragt, diese Wissenschaftlerinnen, denen diese Challenge gestellt wurde, haben wir 00:26:41.549 --> 00:26:45.971 momentan eine Reproducibility Crisis im Bereich Maschinenlearning? Seht ihr hier ein 00:26:45.971 --> 00:26:52.470 Problem? Und die Anzahl der Leute, die ein Problem sehen, ist über diese Challenge um 00:26:52.470 --> 00:26:57.350 diverse Prozentpunkte gestiegen. Das heißt, einfach mal selbst zu versuchen, 00:26:57.350 --> 00:27:01.409 hat nochmal 15 Prozentpunkte mehr der befragten Wissenschaftlerinnen ungefähr, 00:27:01.409 --> 00:27:04.500 davon überzeugt, dass da tatsächlich Probleme existiert und dazu geführt, dass 00:27:04.500 --> 00:27:07.790 drei Viertel der befragten Wissenschaftlerinnen ein Problem sehen, in 00:27:07.790 --> 00:27:16.559 unterschiedlichem Ausmaße. Benjamin: Noch ein Beispiel. Das ist 00:27:16.559 --> 00:27:20.320 jetzt, es gibt tatsächlich inzwischen Paper, die sich damit beschäftigen, wie 00:27:20.320 --> 00:27:26.610 gut andere Paper reproduzierbar sind. In dem Fall aus dem Bereich von 00:27:26.610 --> 00:27:31.809 Recommendation. Es geht darum, aus einer Menge von Dokumenten bestimmte Dokumente 00:27:31.809 --> 00:27:35.820 für eine Anfrage oder Frage, oder was weiss ich, vorzuschlagen. Da gab es in den 00:27:35.820 --> 00:27:40.100 letzten Jahren 18 Publikationen, die alle auf Deep Learning setzen, bei großen 00:27:40.100 --> 00:27:46.440 Konferenzen. Und dann haben sich die Leute mal hingesetzt und geguckt, wieviel können 00:27:46.440 --> 00:27:50.200 wir davon reproduzieren? Inklusive, wir schicken erst einmal dem Autor in eine 00:27:50.200 --> 00:27:54.919 E-Mail, ob sie uns vielleicht ihren Code geben können, bitten nochmal nach und 00:27:54.919 --> 00:27:57.700 versuchen, die Sachen zum Laufen zu bringen, versuchen irgendwie, teilweise 00:27:57.700 --> 00:28:01.889 sogar ähnliche Hardware zu beschaffen, wie die verwendet haben und bauen das nach. 00:28:01.889 --> 00:28:07.019 Insgesamt haben sich von diesen, für dieses Beispiel, von diesen 18 Papern, 00:28:07.019 --> 00:28:11.490 ganze 7 Paper wirklich reproduzieren können. Das heißt, bei denen können sie 00:28:11.490 --> 00:28:15.630 die ganzen Sachen nachbauen, können es laufen lassen und kommen dann auf ähnliche 00:28:15.630 --> 00:28:18.870 Ergebnisse. Nadja: Aber wichtig, erst nachdem Sie die 00:28:18.870 --> 00:28:21.849 Arbeit investiert haben, erst nachdem Sie nachgefragt haben, erst nachdem Sie 00:28:21.849 --> 00:28:25.330 versucht haben, die Dinge aufzutreiben, die nicht von sich aus herausgegeben 00:28:25.330 --> 00:28:27.330 wurden. Benjamin: Das ist nicht der Standard 00:28:27.330 --> 00:28:30.779 Prozess. Also normalerweise, wenn ich irgendwo auf der Konferenz ein Paper 00:28:30.779 --> 00:28:34.490 schicke und sage, Okay, das möchte ich veröffentlichen. Dann lesen Leute nur 00:28:34.490 --> 00:28:38.960 dieses Paper. Gucken Sie sich eventuell noch ein Video an oder vielleicht sogar 00:28:38.960 --> 00:28:42.700 ganze zusätzliche Datensätze, die hochgeladen werden. Aber normalerweise 00:28:42.700 --> 00:28:47.200 lesen Sie nur dieses Paper, diese 6, 8, 10, manchmal 12 Seiten mit eng 00:28:47.200 --> 00:28:51.450 geschriebenen Ergebnissen und entscheiden nur anhand des Textes, der dort dann 00:28:51.450 --> 00:28:55.720 steht, und anhand der Zahlen, die die Autorin selbst herausgegeben haben, ob 00:28:55.720 --> 00:29:02.329 diese Arbeit relevant, richtig und irgendwie nutzbar erscheint. Und dann wird 00:29:02.329 --> 00:29:06.929 entschieden, ob sie veröffentlicht wird oder nicht. Aber sie können normalerweise 00:29:06.929 --> 00:29:11.169 nicht in irgendeiner Form überprüfen, ob das wirklich so ist. Sie müssen komplett 00:29:11.169 --> 00:29:17.920 auf den Text vertrauen, ohne. Das ist der Standardfall, wenn wir nicht explizit 00:29:17.920 --> 00:29:22.700 Reproduzierbarkeit fordern für irgendwelche Konferenzen. Und wie gesagt, 00:29:22.700 --> 00:29:27.740 die bisherigen großen Konferenzen. Es gibt keine, die einen von den angewandten 00:29:27.740 --> 00:29:32.129 Konferenzen, die Reproduzierbarkeit explizit fordert. Es ist immer nur ein 00:29:32.129 --> 00:29:36.519 zusätzliches Challenge, oder ein zusätzliches Siegel, oder was weiß ich. 00:29:36.519 --> 00:29:40.560 Bisher basiert die Annahme und die Veröffentlichung von irgendwelchen Papern 00:29:40.560 --> 00:29:44.789 komplett nur auf dem Reviewen von den eingereichten Sachen, ohne den Versuch es 00:29:44.789 --> 00:29:51.350 auch zu reproduzieren. Noch zu dem Beispiel, um es noch demotivierender zu 00:29:51.350 --> 00:29:57.710 machen. Von diesen 7 Ergebnissen, die sie reproduzieren konnten, haben sie dann 00:29:57.710 --> 00:30:03.750 außerdem nochmal nicht Deep Learning basierte Ansätze genommen, die damit 00:30:03.750 --> 00:30:09.299 verglichen und festgestellt, dass wenn man da sich ein bisschen Mühe gibt, sie von 6 00:30:09.299 --> 00:30:12.820 von diesen 7 Paper noch besserere, trotzdem noch bessere Ergebnisse kriegen. 00:30:12.820 --> 00:30:20.070 Das heißt, von diesen 18 Publikationen hat eine für externe Leute messbaren 00:30:20.070 --> 00:30:28.340 wissenschaftlichen Fortschritt gebracht. Und genau diese anderen Ansätze sind 00:30:28.340 --> 00:30:34.059 nämlich leider etwas, was sehr stark durch diesen Hype, der ja offensichtlich 00:30:34.059 --> 00:30:39.620 funktioniert, so voll wie sie heute ist, das Wort Deep Learning zieht, werden die 00:30:39.620 --> 00:30:43.710 verdrängt. Der Rest sind häufig nur Baselines. Ich muss ja nur im Paper 00:30:43.710 --> 00:30:48.590 irgendwas angeben, was ein anderes System ist, mit dem ich es vergleiche, damit ich 00:30:48.590 --> 00:30:52.590 zeige, dass mein neues System besser ist als das, was bisher da ist. Dann gebe ich 00:30:52.590 --> 00:30:57.249 mir auch keine Mühe, dass ich diesen Anteil, dieses andere System besonders gut 00:30:57.249 --> 00:31:00.340 dastehen lasse. Denn dann wird es schwieriger, dass mein neues System besser 00:31:00.340 --> 00:31:04.610 abschneidet. Das heisst, es wird hauptsächlich eben an diesem Deep 00:31:04.610 --> 00:31:09.701 Learnings Krams geforscht, und alles andere wird vernachlässigt, obwohl man da 00:31:09.701 --> 00:31:13.679 noch sehr viel rausholen könnte, wenn man es denn wollte und irgendeinen Vorteil 00:31:13.679 --> 00:31:20.500 davon hätte. Und es wird wirklich alles andere nur als Baseline betrachtet. Ganz 00:31:20.500 --> 00:31:24.830 kurz noch Exkurs, das ist ein Foundation Talk. Baseline, ich brauche irgendein 00:31:24.830 --> 00:31:27.739 System, mit dem ich zeige, dass meine Daten valide sind. Das ist irgendwie 00:31:27.739 --> 00:31:31.080 Plausible ist, was ich raus kriege. Im simpelsten Fall ist ein Baseline Ansatz 00:31:31.080 --> 00:31:34.740 für eine binäre Entscheidung einfach ein Münzwurf. Wenn ich ein System baue, was 00:31:34.740 --> 00:31:39.080 zwischen Hund oder Wolf entscheiden muss und es hat nur 5 Prozent Genauigkeit, dann 00:31:39.080 --> 00:31:42.321 hätte ich mal lieber eine Münze geworfen. Da würde ich mit 50 Prozent Genauigkeit 00:31:42.321 --> 00:31:45.679 kriegen. Dann ist mein System außerordentlich schlecht. Sobald ich über 00:31:45.679 --> 00:31:49.240 diese 50 Prozent drüber kommen über diese Baseline, kann ich in diesem Paper 00:31:49.240 --> 00:31:54.639 inhaltlich begründen, warum mein neues System besser ist als diese Baseline. Nun 00:31:54.639 --> 00:31:57.610 gebe es vielleicht bessere, klügere Ansätze als einen reinen Münzwurf. Aber 00:31:57.610 --> 00:32:00.420 wenn ich den halt möglichst low halte, habe ich es an der 00:32:00.420 --> 00:32:04.179 anderen Stelle leichter. Nadja: Dazu ganz kurz, um das in Zahlen zu 00:32:04.179 --> 00:32:06.730 fassen. Kaggle ist eine Plattform, die Daten- 00:32:06.730 --> 00:32:07.730 wissenschaftliche Challenges stellt, an der jeder 00:32:07.730 --> 00:32:11.130 dann mitarbeiten kann und einen Versuch einreichen kann, diese 00:32:11.130 --> 00:32:14.379 Challenge zu schlagen. Z.B. im Bereich Bilderkennung, aber eigentlich alles, was 00:32:14.379 --> 00:32:17.870 da ist, an wissenschaftliche oder maschinelles Lernen in Worte fasst. Das 00:32:17.870 --> 00:32:20.659 ist der Unterschied zur akademischen Forschung, dass wir uns nicht so sehr am 00:32:20.659 --> 00:32:23.740 State of the art orientieren, sondern die Leute versuchen, oftmals sind es auch 00:32:23.740 --> 00:32:27.580 Privatpersonen, das zu nehmen, was funktioniert. Da ist auch viel Deep 00:32:27.580 --> 00:32:30.230 Learning dabei. Weil Deep Learning, halt ein paar Sachens sind, wo viel entwickelt 00:32:30.230 --> 00:32:33.450 wird, wo es viele fertige Frameworks gibt und was verrufen ist als das, was 00:32:33.450 --> 00:32:38.010 irgendwie mit allem funktioniert, unter gewissen Voraussetzungen. Aber trotzdem 00:32:38.010 --> 00:32:42.850 sehen wir das auch., dass klassische Ansätze hier sehr, sehr hohen Anteil 00:32:42.850 --> 00:32:47.369 einnehmen, einen höheren Anteil als manchmal bei entsprechenden Konferenzen zu 00:32:47.369 --> 00:32:50.630 finden ist. Das heißt, wenn es mir nur darum geht, dass jetzt etwas funktioniert 00:32:50.630 --> 00:32:53.080 und ich nicht maximalen Aufwand reinstecken will, ich nicht unbedingt die 00:32:53.080 --> 00:32:56.000 Buzzwords unterbringen will, ist Deep Learning plötzlich nicht mehr ganz so 00:32:56.000 --> 00:33:00.621 beliebt. Und dafür gibt's mit Sicherheit ein Grund. Wir wollen aber noch zu zwei 00:33:00.621 --> 00:33:03.450 weiteren Aspekten kommen. Und der nächste, der der gesellschaftlichen Auswirkungen. 00:33:03.450 --> 00:33:07.340 Weil auch, was unsere Gesamtgesellschaft betrifft, müssen wir in der Forschung, was 00:33:07.340 --> 00:33:10.440 das maschinelle Lernen und Deep Learning angeht, ein bisschen auf Nachhaltigkeit 00:33:10.440 --> 00:33:15.299 achten. Gerade das Thema Erklärbarkeit und Transparenz, das Thema kann nicht das 00:33:15.299 --> 00:33:18.539 System, was vielleicht sogar lebenswichtige Entscheidungen trifft, 00:33:18.539 --> 00:33:22.730 irgendwie verstehen. Dieses inzwischen relativ weit verbreitete Beispiel kommt 00:33:22.730 --> 00:33:26.850 aus der Software Compass, ich habe es schon erwähnt, die wird verwendet, um bei 00:33:26.850 --> 00:33:29.620 straffällig gewordene Menschen in Gerichtsverfahren einen Score zu 00:33:29.620 --> 00:33:32.249 ermitteln, mit welcher Wahrscheinlichkeit sie rückfällig werden im weiteren Verlauf 00:33:32.249 --> 00:33:37.370 ihres Lebens. Dieser Score wird vom Richter dann verwendet, um das Strafmaß zu 00:33:37.370 --> 00:33:43.110 bestimmen. Wenn wir uns jetzt den Hintergrund der Hautfarbe, Hautfarbe 00:33:43.110 --> 00:33:47.041 dieser Menschen anschauen, für die diese Scores bestimmt wurden, erkennen wir eine 00:33:47.041 --> 00:33:50.899 sehr unterschiedliche Verteilung zwischen Menschen mit weißer Hautfarbe und Menschen 00:33:50.899 --> 00:33:55.570 mit anderer Hautfarbe. Das heißt, oben links sehen wir, dass hohe und niedrige 00:33:55.570 --> 00:34:00.019 Scores annähernd gleichmäßig verteilt werden, während wir eben bei Menschen mit 00:34:00.019 --> 00:34:03.249 eindeutig weißer Hautfarbe oder die so wahrgenommen werden eine sehr starke 00:34:03.249 --> 00:34:07.929 Häufung niedrigen Scores haben. Das hat sich an vielen Einzelbeispiele inzwischen 00:34:07.929 --> 00:34:11.950 gezeigt, dass das schlicht und einfach falsch ist. Dass für ähnliche Verbrechen 00:34:11.950 --> 00:34:15.480 sehr unterschiedliche Strafen vergeben wurden und das nicht der Fall ist, dass 00:34:15.480 --> 00:34:19.070 die Personen mit dem höheren Score auch zwangsläufig eher rückfällig geworden ist. 00:34:19.070 --> 00:34:22.780 In einigen Fällen haben auch Menschen, die in dem Bereich tätig sind, drauf geschaut 00:34:22.780 --> 00:34:24.530 und haben gesagt, eigentlich hätte anhand der Vorstrafen gerade andersherum 00:34:24.530 --> 00:34:29.120 verteilt. Das ist ein Riesenproblem, weil das System sind, die hier aktuell zum 00:34:29.120 --> 00:34:31.690 Einsatz kommen und die für Menschen lebenswichtige Entscheidungen 00:34:31.690 --> 00:34:35.140 treffen müssen. Für niemanden er sichtlich, warum dieser Score gegeben 00:34:35.140 --> 00:34:38.810 wird. Die Firma sagt von sich, und das ist insofern auch korrekt, wenn man es 00:34:38.810 --> 00:34:43.110 wörtlich nimmt, dass der Hintergrund und die Hautfarbe dieser Menschen nicht 00:34:43.110 --> 00:34:47.179 eingegangen ist in das Training. Aber das korreliert mit so vielen Dingen in den 00:34:47.179 --> 00:34:50.480 USA, mit dem Einkommen, mit dem Wohnort etc., dass das gar nicht der entscheidende 00:34:50.480 --> 00:34:56.400 Faktor ist. Als weiteres Beispiel können wir mal drüber nachdenken, was wir dann 00:34:56.400 --> 00:35:00.230 mit dem Begriff eindeutige Handlungs- Vorschrift meinen. Viele Menschen 00:35:00.230 --> 00:35:04.620 bezeichnen damit Algorithmen, was sie damit nicht bezeichnen wollen, dass wir 00:35:04.620 --> 00:35:07.910 alles, was algorithmische System uns vorschlagen, auch als Handlungs-Vorschrift 00:35:07.910 --> 00:35:12.260 zu behandeln haben. Das ist nicht, wie wir das gemeint haben, sondern wir müssen mit 00:35:12.260 --> 00:35:17.280 diesem System immer reflektiert und kritisierend umgehen. Ob jetzt Deep 00:35:17.280 --> 00:35:20.570 Learning überhaupt noch auf diesen Begriff passt, auf diese eindeutige Handlungs- 00:35:20.570 --> 00:35:23.720 Vorschrift ist schon wieder extrem fragwürdig. Denn wir reden hier von sehr 00:35:23.720 --> 00:35:28.200 stark statistisch geprägten Systemen, wo sehr viel Zufall mitspielt. Man könnte 00:35:28.200 --> 00:35:31.390 sie, wie es in diesem Thread geschehen ist, vielleicht eher als 00:35:31.390 --> 00:35:34.290 maschinelles Bauchgefühl bezeichnen, als eindeutige Handlungs-Vorschrift. 00:35:34.290 --> 00:35:40.820 Benjamin: Das heißt, was wir hier eigentlich erleben, ist eine wahnsinnige 00:35:40.820 --> 00:35:44.680 Generalisierung nur. Wir nehmen Datenpunkte aus der Vergangenheit, die wir 00:35:44.680 --> 00:35:50.330 schon kennen. Wir wenden sie an, wir trainieren darauf und danach versuchen wir 00:35:50.330 --> 00:35:54.560 einfach und hoffen, dass, wenn wir diese Sachen, die wir, die wir haben, wenn wir 00:35:54.560 --> 00:35:59.370 nur weit genug generalisieren, wenn wir irgendwo versuchen auf Teufel komm raus 00:35:59.370 --> 00:36:03.550 und das System muss immer was liefern. Normalerweise liefern die Systeme immer 00:36:03.550 --> 00:36:08.810 einfach ein Ergebnis, egal, ob sie einen guten Grund dafür sehen oder nicht. Sie 00:36:08.810 --> 00:36:12.550 versuchen einfach, ein Muster zu finden und dann liefern sie ein Ergebnis. Und das 00:36:12.550 --> 00:36:18.870 bedeutet, dass das, was immer landläufig als die KI sagt etwas vorher oder denkt 00:36:18.870 --> 00:36:22.580 sich etwas aus oder was weiß ich, im Prinzip nur ein auswendig lernen und 00:36:22.580 --> 00:36:25.740 generalisieren und das Ergebnis irgendwie wieder raushauen ist. 00:36:25.740 --> 00:36:30.140 Nadja: Bei gelernten Systemen reden wir oft von Prediction oder Vorhersage. Was 00:36:30.140 --> 00:36:32.510 wir aber eigentlich getan haben, ist nicht über die Zukunft nachzudenken, sondern 00:36:32.510 --> 00:36:35.880 ausschließlich über die Vergangenheit. Und dann ist es die interessante Frage, ob 00:36:35.880 --> 00:36:40.740 wirklich Dinge vorhersagen oder eigentlich nur reproduzieren. 00:36:40.740 --> 00:36:47.770 Benjamin: Das Problem ist aber auch, dass die Menschen den Computern vertrauen. Das 00:36:47.770 --> 00:36:50.510 trifft vermutlich jetzt nicht auf alle Leute hier im Raum zu. Das ist sehr 00:36:50.510 --> 00:36:55.770 angenehm, aber in der Gesellschaft ist das enorm verbreitet inzwischen. KI ist 00:36:55.770 --> 00:37:00.770 irgendwas Tolles, KI ist super, KI wird uns retten. KI kann das, was wir nicht 00:37:00.770 --> 00:37:07.860 können. Beispiele: Wir haben diese große Forschungsinitiative, überall muss KI 00:37:07.860 --> 00:37:12.100 gemacht werden. Wenn ich KI in meine Anträge schreibe, kriege ich Geld. Wenn 00:37:12.100 --> 00:37:16.730 ich auf meine Hautcreme draufschreiben, dass sie mit KI optimiert wurde, kann ich 00:37:16.730 --> 00:37:21.910 sie besser verkaufen. Und wenn ich will, dass mein System und ich als Firma gut 00:37:21.910 --> 00:37:26.180 dastehe, dann kann es sich sogar lohnen, was geschieht, was Google aber auch viele 00:37:26.180 --> 00:37:31.490 andere machen, kann es sich lohnen, Leute einzustellen, die so tun, als wären sie 00:37:31.490 --> 00:37:35.400 Computer, zum Beispiel, die irgendwo anrufen, weil der Computer dazu noch nicht 00:37:35.400 --> 00:37:39.600 in der Lage ist und dann die Restaurant Reservierung oder was weiß ich 00:37:39.600 --> 00:37:43.290 durchführen, nur damit man dann am Ende rausschreiben kann, dass die eigenen KI- 00:37:43.290 --> 00:37:50.050 Systeme ja so wahnsinnig toll sind. Und weil es ja kein Mensch ist, sondern der 00:37:50.050 --> 00:37:55.700 Computer, der ja bestimmt viel weiser sein muss, kann man dadurch sich Vorteile 00:37:55.700 --> 00:37:58.430 verschaffen. Nadja: Ein ganz besonders beunruhigendes 00:37:58.430 --> 00:38:00.280 Beispiel haben wir uns außerdem noch mitgebracht. 00:38:00.280 --> 00:40:03.540 Musik Dialog der Maschine und dem Mann auf japanisch 00:40:03.540 --> 00:40:07.870 Um die Frage direkt vorwegzunehmen, ja, das gibt es wirklich. Und ich hoffe 00:40:07.870 --> 00:40:10.510 ehrlich gesagt, ich muss gar nicht erklären, warum das so unglaublich 00:40:10.510 --> 00:40:14.421 kritisch ist. Aber ich frag einfach mal, was passiert mit uns Menschen so rein 00:40:14.421 --> 00:40:18.230 soziologisch, so rein psychologisch, wenn wir mit Maschinen interagieren, als wären 00:40:18.230 --> 00:40:21.750 sie Menschen, als hätten sie Gefühle, wenn sie Muster imitieren, wie sie in der 00:40:21.750 --> 00:40:25.370 Beziehung und zwischenmenschlicher Kommunikation stattfinden. Was passiert da 00:40:25.370 --> 00:40:28.970 mit uns? Worauf lassen wir uns ein? Wie viel Bios, den wir nicht haben sollten, 00:40:28.970 --> 00:40:35.511 akzeptieren wir? Um noch zu einem ganz anderen Thema zu kommen. Ich hoffe, das 00:40:35.511 --> 00:40:37.670 müssen wir hier nur kurz anschneiden, denn ich habe keine Antwort auf die Frage, die 00:40:37.670 --> 00:40:41.050 ich gerade gestellt habe. Daten. Ich glaube, das ist ein Rahmen, in dem ich 00:40:41.050 --> 00:40:44.560 wenig erklären muss, warum Datensparsamkeit wichtig ist. Wir haben 00:40:44.560 --> 00:40:48.580 aber mit Deep Learning ein fundamentales Problem. Wir brauchen nämlich extrem viele 00:40:48.580 --> 00:40:53.450 Daten. Und das beißt sich ganz, ganz stark mit unseren gesellschaftlichen Interessen. 00:40:53.450 --> 00:40:57.640 Das ist aber ein Thema, über das könnte man mindestens einen eigenen Talk halten. 00:40:57.640 --> 00:41:01.320 Außerdem Beispiele wie das: Wie viele werden es auch schon gesehen haben, eine 00:41:01.320 --> 00:41:05.040 KI, die sich gefühlte 15 Minuten im Netz bewegt hat. Und plötzlich überaus 00:41:05.040 --> 00:41:08.060 rassistisch und anderweitig inakzeptable Äußerungen gebracht hat, weil sie nun mal 00:41:08.060 --> 00:41:11.440 aus dem Internet gelernt hat. Und die interessante Frage stellt sich an der 00:41:11.440 --> 00:41:15.030 Stelle ganz krass, sollten wir wirklich versuchen, mit maschinellen Systemen 00:41:15.030 --> 00:41:18.790 Menschen nachzubilden? Oder ist das vielleicht eine sehr schlechte Idee? 00:41:18.790 --> 00:41:27.080 Benjamin: Ein weiterer Punkt, den wir uns, dem wir uns stellen müssen, der für uns 00:41:27.080 --> 00:41:31.310 alle relevant ist, denn wir arbeiten in irgendeiner Form an Systemen, die 00:41:31.310 --> 00:41:36.860 irgendwie was in der Welt bewegen sollen. Wer ist für all das verantwortlich? Ganz 00:41:36.860 --> 00:41:41.860 typisches Beispiel haben wir bei den autonomen Fahrzeugen. Da wird es schon x 00:41:41.860 --> 00:41:47.140 mal diskutiert, wer ist dafür verantwortlich, wenn ein Unfall passiert? 00:41:47.140 --> 00:41:51.220 Aber bei jedem weiteren System gilt das auch. Es gibt so viele Stellen, die daran 00:41:51.220 --> 00:41:54.850 beteiligt sind. Wir haben die Person, die das Ganze programmieren. Die Personen, die 00:41:54.850 --> 00:41:58.800 es in Auftrag gegeben haben. Die Firma, die das Ganze kauft, vermarktet. 00:41:58.800 --> 00:42:02.080 Vielleicht öffentliche Stellen, die entsprechende Regularien dafür 00:42:02.080 --> 00:42:05.520 veröffentlichen. Wir haben Versicherungskonzerne. Wir haben 00:42:05.520 --> 00:42:09.680 Privatpersonen, die ein autonomes Fahrzeug oder irgendein anderes intelligentes 00:42:09.680 --> 00:42:16.640 System besitzen. Wer ist schuld? Wer kann belangt werden, wenn irgendetwas passiert? 00:42:16.640 --> 00:42:20.510 Und welche Auswirkungen hat das? Denn, je nachdem, wer dafür belangt werden kann, 00:42:20.510 --> 00:42:25.230 ergeben sich völlig unterschiedliche Entscheidungen von den beteiligten 00:42:25.230 --> 00:42:30.040 Personen, wogegen sie ihre Systeme absichern, wie sie ihre Systeme designen. 00:42:30.040 --> 00:42:37.060 Und diesen Punkt, dazu gibt es keine befriedigende Antwort. Eine Umfrage unter 00:42:37.060 --> 00:42:44.640 den Amerikaner sagt, dass sie, die Mehrheit das inakzeptabel findet, dass ein 00:42:44.640 --> 00:42:48.920 Computersystem oder algorithmische Systeme genutzt werden, um in bestimmten 00:42:48.920 --> 00:42:55.160 Bereichen, zum Beispiel bei der Einschätzung von Strafmaßen oder für den 00:42:55.160 --> 00:42:58.460 Bewerbungsprozess von Menschen, dass der Computer wesentliche Entscheidungen dafür 00:42:58.460 --> 00:43:04.610 trifft. Blöd nur, all das wird heutzutage schon gemacht, und zwar eben mit immer 00:43:04.610 --> 00:43:10.110 stärker werdenden Ausmaß. Nadja: Und als Drittes kommen wir jetzt zu 00:43:10.110 --> 00:43:14.000 einem Punkt, der oft vernachlässigt wird, wenn es um Deep Learning geht. Ja, das 00:43:14.000 --> 00:43:17.120 werden die alle, die wir heute gesagt haben, aber der ganz besonders. Und wir 00:43:17.120 --> 00:43:20.580 glauben, dass der trotzdem relevant ist. Nämlich gerade zu Zeiten, wo das Thema 00:43:20.580 --> 00:43:24.380 Klimawandel wieder mehr in den Medien kommt, wo sowohl die Gegner als auch die 00:43:24.380 --> 00:43:27.570 Befürworter von irgendwelchen Maßnahmen stärker werden, ist das ein Thema über das 00:43:27.570 --> 00:43:30.420 wir auch nachdenken müssen, auch wenn es auf den ersten Blick 00:43:30.420 --> 00:43:34.380 nichts mit unserer Arbeit zu tun hat. Benjamin: Wir haben natürlich, bekannt ist 00:43:34.380 --> 00:43:37.590 es im Bereich, z. B. von den Cryptocurrencies, dass die enormen 00:43:37.590 --> 00:43:43.810 Stromverbrauch haben, zum Beispiel ein Bitcoin Transaktion verbraucht ungefähr so 00:43:43.810 --> 00:43:52.620 viel Strom wie 500.000 Visa Transaktionen, eine einzige! Und das entspricht ungefähr 00:43:52.620 --> 00:43:58.060 dem Stromverbrauch eines Kühlschranks für 8 Jahre für eine Transaktion. Aber 00:43:58.060 --> 00:44:04.230 Bitcoins ist nicht der einzige Bereich, wo wir Probleme kriegen, in der Hinsicht. Wir 00:44:04.230 --> 00:44:11.690 haben auch das generell in allen Formen, wo wir große Daten haben. Deep Learning 00:44:11.690 --> 00:44:15.040 braucht große Datenmengen, Datenmengen müssen wir speichern, verarbeiten, 00:44:15.040 --> 00:44:20.340 transportieren und dafür haben wir weltweit inzwischen eine relativ groß 00:44:20.340 --> 00:44:25.280 steigende Anzahl an Rechenzentren, die zwischen 200 und 500 Milliarden 00:44:25.280 --> 00:44:28.270 Kilowattstunden pro Jahr gerade verbrauchen. Ganz genau kann man das 00:44:28.270 --> 00:44:33.230 natürlich nicht sagen, weil die Firmen auch diese Daten als Geheimnis betrachten. 00:44:33.230 --> 00:44:38.200 Wenn man alle Rechenzentren zusammen als Land betrachten würde, hätten wir fünf 00:44:38.200 --> 00:44:41.200 Länder auf der Erde, die mehr Strom verbrauchen, dann kommen die 00:44:41.200 --> 00:44:44.720 Rechenzentren, dann kommen alle anderen Länder, und auch das wird weiterhin 00:44:44.720 --> 00:44:55.821 steigen. Wir haben, wenn man jetzt noch kleiner guckt auf das, was wir jetzt 00:44:55.821 --> 00:45:00.160 beschrieben haben, den Trainingsprozess von einzelnen Modellen, auch da schon 00:45:00.160 --> 00:45:05.780 einen erschreckend hohen Stromverbrauch, der auch dort leider nicht linear, sondern 00:45:05.780 --> 00:45:12.720 sondern deutlich darüber ansteigt. Wenn wir also ein einzelnes, einzelne Modelle 00:45:12.720 --> 00:45:16.850 trainieren wollen, sehen wir, dass die großen State of the Art Systeme, die dann 00:45:16.850 --> 00:45:21.670 natürlich von Firmen wie Google und Facebook AI und anderen 00:45:21.670 --> 00:45:25.200 Forschungsinstitute, Einrichtungen von großen, großen Firmen vorgeschlagen 00:45:25.200 --> 00:45:34.250 werden, dass dort Strom verbraucht wird für hunderttausende teilweise Millionen an 00:45:34.250 --> 00:45:42.650 Euro. Dass dort auch inzwischen natürlich zusätzlich noch GPUs, CPUs eingesetzt 00:45:42.650 --> 00:45:47.510 werden, die schwer zu bekommen sind, die teuer anzuschaffen sind, sodass wir 00:45:47.510 --> 00:45:50.561 natürlich auch sowohl durch den Stromverbrauch als auch durch die 00:45:50.561 --> 00:45:56.250 Infrastruktur. Erstens haben wir diesen Umwelteffekt. Zweitens, wenn wir den 00:45:56.250 --> 00:46:01.270 Effekt, dass immer weniger Firmen, immer weniger große Einrichtungen in der Lage 00:46:01.270 --> 00:46:06.570 sind, Deep Learning auf dem State of the Art durchzuführen. Der Rest wird 00:46:06.570 --> 00:46:10.210 abgehängt. Das heißt auch da gesellschaftliche Auswirkungen --- 00:46:10.210 --> 00:46:14.950 problematisch, Umweltauswirkungen --- problematisch und leider ein Trend, der 00:46:14.950 --> 00:46:19.740 offensichtlich genau in die falsche Richtung geht. Wenn man sich das nochmal 00:46:19.740 --> 00:46:26.760 hier anguckt, was das auch für den CO2-Ausstoß bedeutet, sehen wir, dass das 00:46:26.760 --> 00:46:33.300 Training von einem einzigen Modell, wie es dann veröffentlicht wird am Ende, von so 00:46:33.300 --> 00:46:38.360 einem großen Modell ungefähr so viel CO2 ausstößt wie fünf Autos in ihrer ganzen 00:46:38.360 --> 00:46:43.210 Lebensdauer, inklusive Produktion und inklusive sämtlichen Sprit, der dann darin 00:46:43.210 --> 00:46:47.600 verbrannt wird. Und solche Forschung findet ständig weiterhin statt, weil man 00:46:47.600 --> 00:46:51.320 ja weiter publizieren will, wie wir am Anfang schon erzählt haben. Das heißt, 00:46:51.320 --> 00:46:55.030 dauerhaft werden solche Modelle gerade auf der Welt trainiert, um dann irgendwo in 00:46:55.030 --> 00:46:58.090 irgendeinem kleinen Teilbereich eine neue Publikationen machen zu können. 00:46:58.090 --> 00:47:02.800 Nadja: Jetzt komme ich und bringe die Frohbotschaft. Nein, es ist nicht alles 00:47:02.800 --> 00:47:06.200 ganz so schlimm, wie es jetzt gerade scheint, wenn wir die Nachteile auflisten. 00:47:06.200 --> 00:47:09.070 Tatsächlich kann der ganze Bereich des maschinellen Lernen auch Vorteile mit sich 00:47:09.070 --> 00:47:11.880 bringen und hier in diesem Beispiel sogar auch tatsächlich das Deep Learning. Es 00:47:11.880 --> 00:47:16.700 geht darum, dass Google über Jahre hinweg versucht hatte, mithilfe von maschinellen 00:47:16.700 --> 00:47:22.700 Lernen die Betriebe ihrer Datenzentren zu optimieren. Da eine Einsparung im 00:47:22.700 --> 00:47:25.220 Stromverbrauch zu erreichen. Wir reden hier von Reinforsment Learning für die, 00:47:25.220 --> 00:47:29.760 denen es was sagt. Was die Kühlungsteuerung, die Abschaltung von Servernet et cetera 00:47:29.760 --> 00:47:32.920 beeinflussen konnte und damit der Stromverbrauch um bis zu 40 Prozent 00:47:32.920 --> 00:47:36.840 gesenkt hat. Das ist auf jeden Fall eine gute Nachricht. Natürlich ist auch mir die 00:47:36.840 --> 00:47:40.130 Ironie klar, dass wir hier den Stromverbrauch von Datenzentren sprechen, 00:47:40.130 --> 00:47:44.300 ohne das Feld auch gar nicht so sehr nötig wären. Trotzdem Man kann diese 00:47:44.300 --> 00:47:49.250 Wissenschaft, man kann diesen Bereich auch durchaus für gute Sachen nutzen, die uns 00:47:49.250 --> 00:47:54.160 allen was helfen kann. Das lässt sich natürlich nicht auf alle großen Strom und 00:47:54.160 --> 00:47:58.440 CO2 Produzenten übertragen, die wir in unserer Industrie so haben. In der 00:47:58.440 --> 00:48:01.560 Autoindustrie wird das schon sehr viel schwieriger, wenn wir von Montagerozessen 00:48:01.560 --> 00:48:04.720 reden, von Produktionsprozessen reden. Da kann man nicht einfach wild durch die 00:48:04.720 --> 00:48:07.820 Gegend tauschen, welcher Task denn ausgeführt wird. Wenn die Server 00:48:07.820 --> 00:48:11.850 vielleicht nicht ausgelastet sind oder sie nicht direkt ausführen, damit der Server 00:48:11.850 --> 00:48:16.300 noch mal abgeschaltet bleiben kann. Aber ist das was, womit wir uns auf jeden Fall 00:48:16.300 --> 00:48:22.000 beschäftigen sollten. Mit Strom und CO2 ist das Lied um die Umweltauswirkungen 00:48:22.000 --> 00:48:25.540 noch nicht zu Ende. Es geht auch darum, wie wir unsere Infrastruktur belasten, wie 00:48:25.540 --> 00:48:30.040 wir Straßen, Städte, Gebäude und so weiter beanspruchen für den Bau, für den Betrieb, 00:48:30.040 --> 00:48:33.390 für den Transport. Für die Vernetzung von den ganzen Systemen, die wir für diesen 00:48:33.390 --> 00:48:36.420 Forschungszweig brauchen. Es geht darum, was wir für Platz beanspruchen mit 00:48:36.420 --> 00:48:41.240 Forschungszentren, mit Datenzentren, mit Supercomputern und GPU Produktion. Es geht 00:48:41.240 --> 00:48:45.040 darum, wie viel Arbeitskraft und wie viel Zeitaufwand gebunden ist. Nur um ein neues 00:48:45.040 --> 00:48:48.120 Netz zu forschen. Es geht darum, wie viel Forschungsgelder darin investiert werden, 00:48:48.120 --> 00:48:51.160 mit denen man noch andere Dinge tun könnte. Es geht um endliche Ressourcen 00:48:51.160 --> 00:48:55.330 unserer Erde wie Metalle wie die sogenannten Seltenen Erden oder wie Erdöl, 00:48:55.330 --> 00:48:59.990 die dafür gebraucht werden. Und es gibt noch so viel mehr. Das war nur ein ganz 00:48:59.990 --> 00:49:03.010 kleiner Einblick in das Thema, und es ist ganz wichtig: Es geht nicht nur um den 00:49:03.010 --> 00:49:07.290 Stromverbrauch. Die Awareness an der Stelle ist noch viel zu niedrig, um 00:49:07.290 --> 00:49:11.700 darüber quantitativ Aussagen treffen zu können. Aber es ist auf jeden Fall ein 00:49:11.700 --> 00:49:15.530 Faktor. So viel wissen wir. Wir kommen damit auch schon zur Frage: Wie kann es 00:49:15.530 --> 00:49:21.890 eigentlich weitergehen? Benjamin: Wichtig ist, dass wir alle uns 00:49:21.890 --> 00:49:26.010 bewusst sind, dass wir die Verantwortung tragen, wie es in dem Bereich weitergeht. 00:49:26.010 --> 00:49:30.010 Denn sowohl die Leute, die in diesem Land arbeiten, aber auch in allen Bereichen, 00:49:30.010 --> 00:49:35.580 die damit verbunden sind. Wir forschen. Wir bauen Systeme. Wir sorgen dafür, dass 00:49:35.580 --> 00:49:40.290 solche Systeme weiter entstehen, dass sie wichtiger werden, dass sie, obwohl wir 00:49:40.290 --> 00:49:43.240 wissen, dass zum Beispiel das alles der Generalisierung, aus Vereinfachungen 00:49:43.240 --> 00:49:47.760 besteht. Dass sie trotzdem für Dinge eingesetzt werden. Wir sorgen dafür, dass 00:49:47.760 --> 00:49:54.180 unsere Sensorik, die wir in Autos verbauen, irgendwelche 25 Gigabyte pro 00:49:54.180 --> 00:49:57.261 Stunde an Daten produzieren, die man dann wieder auswerten, um daraus etwas machen 00:49:57.261 --> 00:50:02.930 kann. Wir sorgen dafür, dass Systeme optimiert werden. Wir sorgen dafür, dass 00:50:02.930 --> 00:50:09.260 das gebaut werden für die Industrie, damit das komische Hautpflegeprodukten 00:50:09.260 --> 00:50:14.280 plötzlich KI optimiert ist. Das kann man natürlich alles einfach so machen, 00:50:14.280 --> 00:50:18.690 weil man in dem Bereich gut Geld verdienen kann. Ist aber vermutlich keine gute Idee, 00:50:18.690 --> 00:50:22.910 sondern man sollte sich wirklich überlegen: Was sind die Konsequenzen von 00:50:22.910 --> 00:50:27.490 dem Ganzen, und was müssten wir eigentlich alle ändern, um dieses ganze Feld 00:50:27.490 --> 00:50:33.980 weiterzutreiben? Denn, das ist das Schöne, zumindest im Forschungssektor. Es ist 00:50:33.980 --> 00:50:38.250 alles von der Community angetrieben. Es ist immer eine Entscheidung von allen 00:50:38.250 --> 00:50:44.010 Forscher in den ganzen Bereichen, ob sie genauso weitermachen oder ob sie ihre 00:50:44.010 --> 00:50:50.530 Arten schieben, ob sie anders agieren, ob sie mehr und mehr auf solche Dinge achten 00:50:50.530 --> 00:50:54.030 oder eben nicht. Nadja: Grundsätzlich um weiterzumachen, 00:50:54.030 --> 00:50:56.380 gerade um die gesellschaftlichen Auswirkungen des Themas zu beeinflussen. 00:50:56.380 --> 00:51:00.040 Was müssen wir anstreben? Wir müssen Diskurs anstreben. Wir müssen mit der 00:51:00.040 --> 00:51:03.160 gesamten Gesellschaft, mit einer riesigen Breite an Menschen darüber reden. Was 00:51:03.160 --> 00:51:05.770 wollen wir von diesen Systemen? Unter welchen Umständen machen wir das System? 00:51:05.770 --> 00:51:09.530 Was sind die Auflagen, die wir stellen, was akzeptabel und was nicht? Das 00:51:09.530 --> 00:51:12.350 funktioniert nicht, wenn diese Entscheidungen getroffen werden von fünf 00:51:12.350 --> 00:51:15.030 Leuten, die irgendwie ihre eigenen Interessen vertreten müssen. Das ist ein 00:51:15.030 --> 00:51:17.600 Diskurs, der auf jeden Fall in die gesellschaftliche Breite gehen muss. Es 00:51:17.600 --> 00:51:20.870 gibt einfach keine klare Antwort, und die Antworten, die wir brauchen, die müssen 00:51:20.870 --> 00:51:24.110 wir zusammen finden. Wir müssen aber auch Bildung auf allen Ebenen vorantreiben. 00:51:24.110 --> 00:51:28.080 Weil ich muss als Informatikerin auch die ethischen Auswirkungen eines Handelns 00:51:28.080 --> 00:51:33.020 bedenken. Ich muss auch dem Enduser sagen können, was das bedeutet, wenn er etwas 00:51:33.020 --> 00:51:36.590 einsetzt. Auch wenn er die technischen Details nicht versteht, muss er in der 00:51:36.590 --> 00:51:40.220 Lage sein einzuschätzen, ob der Einsatz an der Stelle sinnvoll ist und gerade auch 00:51:40.220 --> 00:51:43.290 die Menschen, die die Legislatur vorantreiben. Diese Menschen sollte es auf 00:51:43.290 --> 00:51:46.270 jeden Fall geben müssen, genug davon verstehen und auch wirklich einschätzen 00:51:46.270 --> 00:51:49.311 können, was sie da gerade erlauben oder nicht erlauben, damit wir auch die 00:51:49.311 --> 00:51:54.020 positiven Aspekte solcher Felder mitnehmen können. Awareness ist ganz besonders 00:51:54.020 --> 00:51:57.120 wichtig, damit wir diesen Diskurs führen können. Damit wir diese Bildung 00:51:57.120 --> 00:52:00.150 vorantreiben kann, müssen wir darüber reden: Wie funktionieren unsere Daten? 00:52:00.150 --> 00:52:03.010 Unter welchen Umständen verwenden wir sie? Wo kommen die Modelle her? Wie 00:52:03.010 --> 00:52:05.990 funktionieren Erklärbarkeit und Reproduzierbarkeit? Aber auch wer trägt 00:52:05.990 --> 00:52:08.990 die Verantwortung? Was sind die Konsequenzen? Und wie führen wir diesen 00:52:08.990 --> 00:52:13.780 Diskurs? Am Ende gilt: Wir müssen umdenken, statt nur zu folgen. Es 00:52:13.780 --> 00:52:17.060 funktioniert nicht, wenn wir einfach so weitermachen wie bisher. Sondern wir 00:52:17.060 --> 00:52:21.010 müssen in manchen Dingen einfach grundlegend auch nochmal nachdenken. Viele 00:52:21.010 --> 00:52:24.430 dieser Maßnahmen sind tatsächlich doppelt hilfreich, begünstigen sich gegenseitig. 00:52:24.430 --> 00:52:27.320 Wir stecken da nicht unbedingt in einem Teufelskreis. Wenn wir systematisch 00:52:27.320 --> 00:52:30.260 arbeiten, dann tun wir der Reproduzierbarkeit gefallen. Aber auch 00:52:30.260 --> 00:52:33.910 unseren Ressourcenverbrauch, weil wir viel weniger nochmal machen müssen, wenn wir 00:52:33.910 --> 00:52:36.940 die Alternativen zu Deep Learning auch nutzen, tun wir der Erklärbarkeit 00:52:36.940 --> 00:52:39.820 Gefallen, aber auch der Datensparsamkeit. Wahrscheinlich, wenn wir den Publications 00:52:39.820 --> 00:52:44.050 Druck senken und damit die Qualität in die Höhe schreiben. Dann fördern wir den 00:52:44.050 --> 00:52:46.620 wissenschaftlichen Anspruch, und wir helfen unserem Ressourcenverbrauch. Aber 00:52:46.620 --> 00:52:50.120 insgesamt ist unsere große Herausforderung momentan in der Gesellschaft verbreitete 00:52:50.120 --> 00:52:53.150 Unwissenheit, und das nicht richtig reflektiert wird, was das für Auswirkungen 00:52:53.150 --> 00:52:57.500 hat, was wir machen und in welchen Skalen bewegen. Damit sagen wir fürs Erste auch 00:52:57.500 --> 00:53:01.240 schon Danke, schön, dass Sie hier waren. Wir haben uns wirklich gefreut gesagt. So 00:53:01.240 --> 00:53:04.240 dürfen wir hoffen. Wir geben ein paar Denkanstöße mit. Wir können dieses Thema 00:53:04.240 --> 00:53:07.070 nur sehr, sehr oberflächlich einsteigen in 50 Minuten. Wir sind jetzt schon relativ 00:53:07.070 --> 00:53:10.061 weit in der Zeit. Trotzdem haben wir noch ein paar Minuten für Fragen, aber auch 00:53:10.061 --> 00:53:13.270 über den Vortrag hinaus. Sind wir da froh, wenn Leute sich informieren, 00:53:13.270 --> 00:53:18.510 recherchieren, selbst kritisieren und reflektieren oder auf uns zukommen. 00:53:18.510 --> 00:53:19.190 Dankeschön. 00:53:19.190 --> 00:53:25.010 Applaus 00:53:25.010 --> 00:53:28.830 Herald: Okay, alles klar. Wir haben noch ein paar Minuten Zeit für Fragen. 00:53:28.830 --> 00:53:33.210 Damit wir auch möglichst viele und zügig durchkommen. Bewegt euch doch bitte direkt 00:53:33.210 --> 00:53:37.520 zu den Mikrofonen. Und wir fangen direkt hier mit Mikrofon 4 and. 00:53:37.520 --> 00:53:46.320 Mik 4: Ich versuche, mich kurz zu halten. KI für Autos ist ziemlich faszinierend, 00:53:46.320 --> 00:53:51.200 die unterscheidet zuverlässig zwischen einem Baum und einem Verkehrsschild. Ich 00:53:51.200 --> 00:53:55.660 bin immer wieder enttäuscht, wenn ich KI sehe für Suchmaschinenoptimierung, was ich 00:53:55.660 --> 00:54:01.760 da angeboten bekomme. Ich glaube, das Problem ist die Datengrundlage. Ein Baum, 00:54:01.760 --> 00:54:05.590 da gibts keine Diskussion. Das ist ein Baum. Was ist die schönste Website ist 00:54:05.590 --> 00:54:12.620 oder das nächstbeste Video? Das ist eine Geschmacksfrage. Worauf ich hinaus möchte: 00:54:12.620 --> 00:54:18.620 wäre es nicht sinnvoll oder dringend notwendig, darüber nachzudenken, wie die 00:54:18.620 --> 00:54:24.500 Trainingsdaten qualifiziert sind, ob man die qualitativ einsortieren sollte? 00:54:24.500 --> 00:54:30.280 Nadja: Ich stimme soweit absolut zu, Trainingstagendiskussion steht an. Müssen 00:54:30.280 --> 00:54:34.450 wir führen? Qualität ist extrem wichtig. Das Problem geht aber noch darüber hinaus. 00:54:34.450 --> 00:54:38.660 Zum einen die Frage mit dem Auto und dem Fußgänger, wie uns der Überkräsch 2018 00:54:38.660 --> 00:54:41.740 gezeigt hat, gar nicht so trivial. Festgestellt haben die Annahme, dass 00:54:41.740 --> 00:54:45.150 Fußgänger nur auf dem Fußgängerüberweg zu finden ist, das vielleicht gar nicht so 00:54:45.150 --> 00:54:49.600 realistisch. Trivial ist es also nicht. Natürlich sind Suchmaschinen auch eine 00:54:49.600 --> 00:54:53.520 subjektive Entscheidung. Weil was ich suche, weiß am Ende nur ich. Jemand mit 00:54:53.520 --> 00:54:56.370 der gleichen Suchanfrage sucht vielleicht etwas anderes. Natürlich ist das Internet 00:54:56.370 --> 00:55:00.200 einfach eine extrem riesige Datenbasis mit sehr unsauberen Daten. Das heißt, dass es 00:55:00.200 --> 00:55:02.640 eine völlig andere Herausforderung als Bildklassifikation von autonomen 00:55:02.640 --> 00:55:06.470 Fahrzeugen. Grundsätzlich Trainingstagen, Diskussionen, aber auch über das Monopol 00:55:06.470 --> 00:55:09.641 von solchen Unternehmen, wie Google. Gerade was Suchmaschinen angeht, müssen 00:55:09.641 --> 00:55:14.440 wir definitiv reden. Herald: Alles was, dann machen wir direkt weiter mit einer 00:55:14.440 --> 00:55:18.640 Frage vom Signal-Engel aus dem Internet. Signal-Engel: Das Internet fragt: Sollen 00:55:18.640 --> 00:55:22.650 wir das mit dem Deep Learning dann eigentlich lieber lassen? Oder seht ihr 00:55:22.650 --> 00:55:26.820 auch sinnvolle Anwendungen, zum Beispiel um irgendeinen hohen Datenaufwand für 00:55:26.820 --> 00:55:31.030 freigiebige Nutzer irgendwie zu reduzieren zum Beispiel. 00:55:31.030 --> 00:55:35.080 Benjamin: Es sein zu lassen, ist sicherlich nicht der richtige Ansatz. Das 00:55:35.080 --> 00:55:39.340 zeigt sich ja, dass Deep Learming für bestimmte Dinge sehr wertvoll ist. Wir 00:55:39.340 --> 00:55:43.430 haben jetzt Beispiele gezeigt, wo es gut funktioniert, schlechter funktioniert. 00:55:43.430 --> 00:55:48.340 Gerade bei komplexen Dingen haben wir wenig Ansätze, die anders gut 00:55:48.340 --> 00:55:52.180 funktionieren. Die Verarbeitung menschlicher Sprache zum Beispiel hat 00:55:52.180 --> 00:55:55.710 einen Riesenschritt nach vorne gemacht durch die Deep Learning, weil menschliche 00:55:55.710 --> 00:55:59.250 Sprache so unglaublich komplex ist, dass ich mit allen bisherigen Ansatz, bei denen 00:55:59.250 --> 00:56:02.470 ich Silben zähle und Buchstaben vergleiche oder so etwas nicht so wirklich 00:56:02.470 --> 00:56:07.291 weiterkomme. Da brauche ich ganz viel Wissen rein. Das heißt, man muss, aber man 00:56:07.291 --> 00:56:12.000 muss sich eben überlegen. Ist es für diesen Zweck der richtige Ansatz? Also, 00:56:12.000 --> 00:56:17.180 ich will das jetzt nicht pauschal beantworten. Das muss man sich gründlich 00:56:17.180 --> 00:56:21.580 überlegen. Das sollte sicher Message sein. Nadja: Wir stellen im Prinzip nicht die 00:56:21.580 --> 00:56:24.150 Frage: Sollten wir die Planung verwenden, sondern Wofür sollten wir es verwenden? 00:56:24.150 --> 00:56:29.150 Und was müssen wir vorher bedenken? Herald: Ich versuche, es mit den Fragen 00:56:29.150 --> 00:56:33.040 hier im Raum so halbwegs chronologisch zu machen. Aber mit Mikro 1 weiter. 00:56:33.040 --> 00:56:38.020 Mik 1: Eine Frage zur Reproduzierbarkeit. Ich saß gerade in einem Lightening Talk, 00:56:38.020 --> 00:56:43.750 Da hatte jemand genau das Problem, das nicht reproduzieren konnte. Eine seiner 00:56:43.750 --> 00:56:47.710 Hauptforderungen, um das zu beheben, war, das alles, was man braucht, zum 00:56:47.710 --> 00:56:51.570 Reproduzieren zur Verfügung gestellt wird und dass das auch von Journals enforced 00:56:51.570 --> 00:56:56.920 wird. Über Reviews oder über irgendwelche andere Sachen. Sieht Ihr, dass es 00:56:56.920 --> 00:57:00.840 irgendwelche Bestrebungen in diese Richtung gibt. Oder es ist ein zu großer 00:57:00.840 --> 00:57:05.280 Hype, als dass man da irgendwie eingreifen könnte sinnvoll. 00:57:05.280 --> 00:57:07.680 Benjamin: Es gibt, wie gesagt, 00:57:07.680 --> 00:57:14.450 diese Sigel bei vielen Konferenzen, sicherlich auch bei Journals. Je nach Feld 00:57:14.450 --> 00:57:17.260 in dem Bereich, hier wird gar nicht so viel in Journals publiziert, weil man 00:57:17.260 --> 00:57:21.420 Konferenzen leichter hinkriegt. Und alles geht schneller, Journals dauert irgendwie 00:57:21.420 --> 00:57:25.280 immer zu lang. Es wäre wünschenswert, dass da mehr passiert. 00:57:25.280 --> 00:57:29.770 Dafür müssen sich aber quasi diese Ältestenrates, die sich 00:57:29.770 --> 00:57:33.140 zusammensetzen und diese Konferenzen planen, organisieren, dafür entscheiden, 00:57:33.140 --> 00:57:38.030 dass für sie das auf der Liste auch so weit oben ist, dass sie das erzwingen. 00:57:38.030 --> 00:57:41.440 Bisher ist es alles optional. Wünschenswert wäre es definitiv. 00:57:41.440 --> 00:57:44.400 Nadja: Sicherlich reden wir doch in irgendeiner Form über Regularien. Und 00:57:44.400 --> 00:57:46.620 dabei müssen wir dann immer noch unterscheiden zwischen öffentlich 00:57:46.620 --> 00:57:50.290 geförderten Forschungseinrichtungen und privater Forschung. Das ist nämlich sehr 00:57:50.290 --> 00:57:54.930 unterschiedliche Herausforderungen. Herald: Okay, dann gehen wir gerade mal 00:57:54.930 --> 00:58:01.370 kurz zum Mikro Nr. 7 da ganz am Rand. Mik 7: Hallo, danke für den Vortrag. 00:58:01.370 --> 00:58:05.820 Haltet ihr AGI für möglich? Und wann könnte es soweit sein? 00:58:05.820 --> 00:58:09.240 Nadja: AGI Omnipotenz, Intelligenz oder ... 00:58:09.240 --> 00:58:14.030 Mik 7: Artifical General Intelligence. Nadja: Momentaner Forschungsstand "Hell 00:58:14.030 --> 00:58:18.220 know". Das war eine relativ unprofessionelle Antwort. Aber momentan 00:58:18.220 --> 00:58:20.531 haben wir hauptsächlich sehr spezialisierte Expertensysteme, die genau 00:58:20.531 --> 00:58:25.460 ein detailreichen Task machen kann. Selbst bei Sprachassistenzsystemen, die irgendwie 00:58:25.460 --> 00:58:29.530 ein Paar Tasks, die noch immer eine sehr eingeschränkte Menge machen, haben in 00:58:29.530 --> 00:58:32.890 aktuellen Forschungsstand zwar große Fortschritte, aber man kann sie ja sehr 00:58:32.890 --> 00:58:36.800 einfach die Schwächen ausnutzen. Es gibt eine total spannende Professorin in USA, 00:58:36.800 --> 00:58:39.890 die sagt, gibt mir irgendeinen Sprachverarbeitungsystem, in drei Fragen 00:58:39.890 --> 00:58:43.460 mache ich spätestens kaputt, und sie hat es bisher immer geschafft. Wir haben 00:58:43.460 --> 00:58:47.470 momentan mit dem aktuellen Stand der Technik ziemlich krasse Limitationen in 00:58:47.470 --> 00:58:51.980 den nächsten Jahren. Ich persönlich nicht kommen. Grundsätzlich ist die künstliche 00:58:51.980 --> 00:58:55.480 Intelligenz aber auf allen Ebenen etwas, das sie im Auge behalten sollen. Also ich 00:58:55.480 --> 00:58:57.770 würde auch wiederum nicht behaupten, dass davon keinerlei Gefahr ausgeht. 00:58:57.770 --> 00:58:59.210 Benjamin: Es ist aber auch nicht der 00:58:59.210 --> 00:59:01.990 zentrale Punkt zur Zeit. Das meiste, was, woran die Leute 00:59:01.990 --> 00:59:05.680 forschen, sind spezialisierte Systeme und vielleicht noch zusätzliche Systeme, die 00:59:05.680 --> 00:59:09.250 vorne dran gestellt werden, die dann entscheiden, an welches Teilsystem das 00:59:09.250 --> 00:59:14.190 Ganze weitergereicht wird. Aber daran zu forschen, ein weltverstehendes System, was 00:59:14.190 --> 00:59:18.160 irgendwie auch noch beliebige Formate von Antworten geben kann, so sowas zu bauen, 00:59:18.160 --> 00:59:21.890 das gibt es sicherlich die Forschung. Aber es ist nicht das, was irgendwie auch in 00:59:21.890 --> 00:59:25.770 den Publikationen Platz findet, weil man dort überhaupt nicht soweit wäre und das 00:59:25.770 --> 00:59:29.240 andere einfach viel einfacher ist und man da vielleicht was veröffentlichen kann. 00:59:29.240 --> 00:59:31.850 Wen das Fachliche interessiert, wäre das ein schönes Einstiegspunt in das ein semantische 00:59:31.850 --> 00:59:34.820 Modellierung. Weil wir bei vielen Künstliche Intelligenzen darüber sprechen, 00:59:34.820 --> 00:59:37.720 ist das Allgemeinwissen, Hintergrundwissen, diese ganzen Sachen 00:59:37.720 --> 00:59:40.780 fehlen und die Darstellung dafür auch. Das ist eine der großen Herausforderungen, 00:59:40.780 --> 00:59:44.320 so als Stichwort. Herald: Okay. Nehmen wir doch eine Frage 00:59:44.320 --> 00:59:47.640 aus dem Internet. Signal-Engel: Ich sage erst mal Liebe 00:59:47.640 --> 00:59:53.740 Grüße aus D. 120, das wisst ihr jetzt besser als ich. Nadja lacht Die Frage 00:59:53.740 --> 00:59:58.370 ist Ist die Reproduzierbarkeit nur oder gerade im Deep Learning ein Problem, oder 00:59:58.370 --> 01:00:01.550 betrifft das nicht sogar große Teile der machienelearning Forschung? 01:00:01.550 --> 01:00:03.450 Nadja: Definitiv große Teile der machiene learning 01:00:03.450 --> 01:00:05.430 Forschung. Ehrlich gesagt auch darüber hinaus. 01:00:05.430 --> 01:00:09.080 Reproduzierbarkeit ist bei fast allen wissenschaftlichen 01:00:09.080 --> 01:00:12.270 Publikationen ein Faktor, es gibt nur die Sachen, die dafür anfälliger und weniger 01:00:12.270 --> 01:00:15.270 anfällig sind. Gerade wenn man über digitale Themen reden. Aber an sich 01:00:15.270 --> 01:00:17.961 Reproduzierbarkeit ist immer in der Forschung gewünscht und leider nicht weit 01:00:17.961 --> 01:00:20.870 genug verbreitet. Also defintiv die gesamte Informatik generell. 01:00:20.870 --> 01:00:28.030 Benjamin: Generell vieles, was wir hier gesagt haben, trifft auf machiene learning 01:00:28.030 --> 01:00:31.571 im Allgemeinen zu. Aber das Deep Learning, gerade durch diese riesigen Datenmengen 01:00:31.571 --> 01:00:35.580 und so weiter. Da treten die Effekte verstärken besonders auf. Deswegen haben 01:00:35.580 --> 01:00:38.640 wir uns hier darauf konzentriert. Aber man kann es auch beliebig... 01:00:38.640 --> 01:00:41.770 Nadja: Und gerade weil es ein Passwort ist, macht es auch nochmal 01:00:41.770 --> 01:00:45.750 anfälliger dafür . Herald: Ok, dann Mikrophon Nr. 8. 01:00:45.750 --> 01:00:51.170 Mik 8: Daran anschließend. Ich hab irgendwie das Gefühl, dass es ein großer 01:00:51.170 --> 01:00:56.480 Teil auch Publicationsbios ist, wo so lange gespielt wird an den Daten, bis 01:00:56.480 --> 01:01:02.781 irgendwie ein Ergebnis raus kommt. Und ich hab, es ist so einen Trend in der Psychologie, wo 01:01:02.781 --> 01:01:06.080 die das Problem ganz massiv hatten. Und die haben das dadurch gelöst, dass die 01:01:06.080 --> 01:01:10.510 sagen, Hey, ich muss die Studien bei manchen Journals vorregistrieren, so: Dass 01:01:10.510 --> 01:01:14.520 sind meine. Das möchte ich machen. Und dann kommt am Ende vielleicht ein 01:01:14.520 --> 01:01:19.560 negativer Ergebnis raus. Gibt es da Bemühungen, machiene learning, sodass man 01:01:19.560 --> 01:01:24.731 sagt: Ich publiziere den Korpus vorher, den ich auf dem ich lernen will, und wenn 01:01:24.731 --> 01:01:28.020 dann nichts funktioniert, dann ist das halt so. 01:01:28.020 --> 01:01:29.490 Nadja: Ich würde sagen, es ist relativ schwer 01:01:29.490 --> 01:01:32.510 zu beantworten für den Bereich, weil es vielleicht nicht ganz so 01:01:32.510 --> 01:01:36.750 funktioniert. Ein Datenkorpus zu publizieren an sich. Es gibt zum Daten 01:01:36.750 --> 01:01:40.801 Konferenzen, die sich einfach auf sowas konzentrieren. Aber auf einem Korpus kann 01:01:40.801 --> 01:01:46.460 ich sehr viele Dinge tun, und dadurch hilft mir das noch nicht unbedingt. Ich 01:01:46.460 --> 01:01:50.900 glaube, dass da die Fragestellung einfach komplexer ist. Ich kenne keine konkreten 01:01:50.900 --> 01:01:53.450 Bemühungen, die jetzt in eine Richtung gehen. Ich fände es wünschenswert... 01:01:53.450 --> 01:01:58.770 Benjamin: Es wäre definitiv wünschenswert. Aber es wird in der Form kaum gemacht. Es 01:01:58.770 --> 01:02:03.200 sind eben keine. Ich bin bisher fast nirgendwo. Oder bei den großen 01:02:03.200 --> 01:02:08.070 Konferenzen bin ich niemals gezwungen, vorher zu sagen, was ich glaube, wie es 01:02:08.070 --> 01:02:13.141 ausgeht, sondern ich liefere erst wenn ich mein Ergebnis vorstelle, sage ich, was da 01:02:13.141 --> 01:02:17.510 rauskommt und welche Fehlschläge ich hatte und ob ich überhaupt verklausuliert ins 01:02:17.510 --> 01:02:20.540 Paper reinschreiben oder ob es komplett sein lasse. Da zwingt mich niemand zu. 01:02:20.540 --> 01:02:24.200 Nadja: Es gibt ein paar Bestrebungen, die Publikation von Fehlschlägen oder 01:02:24.200 --> 01:02:28.231 Messergebnissen zu machen. Aber auch das wird immer noch von so vielen Leuten 01:02:28.231 --> 01:02:31.510 belächelt, so als Unterhaltungsmedium mehr als ernst zu nehmende Wissenschaft. Das 01:02:31.510 --> 01:02:34.110 glaube ich auch ein Problem, weil dadurch die gleichen 01:02:34.110 --> 01:02:36.190 Fehler z.B. im machiene learning, gerade wo wir nicht 01:02:36.190 --> 01:02:38.440 systematisch arbeiten, sondern auch ein bisschen nach 01:02:38.440 --> 01:02:42.190 Bauchgefühl gehen müssen, wiederholt werden, was eigentlich unmöglich ist. 01:02:42.190 --> 01:02:46.050 Dieser typische Satz, das weiß man doch, dass der Ansatz da nicht funktioniert. 01:02:46.050 --> 01:02:48.010 Woher soll man das wissen, wenn man noch studiert? 01:02:48.010 --> 01:02:54.240 Herald: Okay, wir haben noch Zeit für eine kurze Frage und gehen zum Mikrofon 5. 01:02:54.240 --> 01:03:01.570 Mik 5: Ich will ein paar Details zu dieser Beschreibung von Black Box Wissen. Ich 01:03:01.570 --> 01:03:08.560 weiß, dass man durch featuremaps das Netzwerk untersuchen kann, und wollte 01:03:08.560 --> 01:03:14.370 wissen, was hier eine Blackbox, weil es ist nicht so Black entscheidend. 01:03:14.370 --> 01:03:18.390 Nadja: Es kommt drauf an wie die Systeme gebaut sind. Es gibt zum Beispiel einen 01:03:18.390 --> 01:03:23.620 Ansatz von Explainable Neural Netz (ExNN), durchaus Valides Konzepts, und es wird 01:03:23.620 --> 01:03:28.920 auch eingesetzt. Es gibt aber auch Architekturen, die per se erst einmal 01:03:28.920 --> 01:03:33.540 völlig unlesbar sind, und die Ansätze, die darauf existierende Erklärbarkeit 01:03:33.540 --> 01:03:37.350 reinzubringen, sind noch sehr beschränkt. Es gibt sie. Sie tun auch sinnvolle Dinge 01:03:37.350 --> 01:03:41.220 im Bereich, aber zum Beispiel beschränken sie sich oft nur auf den Bereich des 01:03:41.220 --> 01:03:44.650 eigentlichen Modells, was trainiert wurde. Die Pipeline der Maschinenlearning ist aber 01:03:44.650 --> 01:03:49.090 viel länger. Die beginnt ja schon bei der Datenerhebung, bei der Auswahl, bei der 01:03:49.090 --> 01:03:52.080 Verarbeitung. Bei der Auswahl der Features, aber auch beim PostProcessing, 01:03:52.080 --> 01:03:56.200 bei Evaluationsmetriken und so weiter. Das sind alles irgendwo Stellschrauben für 01:03:56.200 --> 01:04:00.420 Erklärbarkeit. Wir haben da auf jeden Fall noch einen weiten Weg vor uns. Aber klar, 01:04:00.420 --> 01:04:03.200 es gibt Bestrebungen in die Richtung, die auch durchaus funktionieren 01:04:03.200 --> 01:04:05.660 für das, wofür Sie gedacht sind. Herald: Okay, dann sind wir am Ende der 01:04:05.660 --> 01:04:11.200 Zeit angekommen. Vielen Dank nochmal Nadja und Benjamin. 01:04:11.200 --> 01:04:15.556 Applaus 01:04:15.556 --> 01:04:34.640 36c3 Abspannmusik 01:04:34.640 --> 01:04:38.785 Untertitel erstellt von c3subtitles.de im Jahr 2020. Mach mit und hilf uns!