WEBVTT 00:00:15.719 --> 00:00:21.530 Herald-Angel: Der nächste Vortrag ist „Beeinflussung durch Künstliche 00:00:21.530 --> 00:00:27.170 Intelligenz". Es ist ein Einführungsvortrag, also einer der 00:00:27.170 --> 00:00:31.580 explizit dazu gedacht ist, dass ihr das ohne Vorkenntnisse versteht. Und es geht 00:00:31.580 --> 00:00:41.159 ums Maschinelle Lernen. Unsere Sprecher sind die Karen – sie forscht in Amsterdam 00:00:41.159 --> 00:00:47.729 an Maschinellem Lernen, kommt ursprünglich aus Leipzig – und der Hendrik Heuer, der 00:00:47.729 --> 00:00:55.440 in Bremen an Mensch-Computer-Interaktion forscht. Großes Willkommen für die beiden! 00:00:55.440 --> 00:01:03.190 Applaus 00:01:03.190 --> 00:01:06.930 Hendrik Heuer: Vielen Dank! Moin erstmal! Willkommen zu unserem Vortrag 00:01:06.930 --> 00:01:10.909 „Beeinflussung durch Künstliche Intelligenz" über die Banalität der 00:01:10.909 --> 00:01:14.920 Beeinflussung und das Leben mit Algorithmen. Wir würden gern mit einem 00:01:14.920 --> 00:01:19.979 Zitat von Kate Crawford beginnen. Kate Crawford ist die Gründerin des AI Now 00:01:19.979 --> 00:01:23.841 Institut das die sozialen Auswirkungen von künstlicher Intelligenz untersucht. Sie 00:01:23.841 --> 00:01:28.090 ist außerdem ein Principal Researcher bei Microsoft Research und Professorin an der 00:01:28.090 --> 00:01:33.840 New York University. Und die hat beim AI Now Symposium in diesem Jahr gesagt: „Die 00:01:33.840 --> 00:01:37.170 Menschen befürchten, dass Computer zu intelligent werden und die Welt erobern. 00:01:37.170 --> 00:01:42.549 Aber Computer sind zu dumm und haben die Welt bereits erobert." Wir teilen diese 00:01:42.549 --> 00:01:47.420 Ansicht. Es gibt keine digitale Welt. Die Welt ist digital, das heißt durch digitale 00:01:47.420 --> 00:01:51.799 Medien konstruiert. Und uns war es ein Anliegen, einige englischsprachige 00:01:51.799 --> 00:01:55.659 Diskussion jetzt nochmal auf Deutsch zusammenzuführen. Es können also Beispiele 00:01:55.659 --> 00:02:00.700 kommen die der eine oder andere vielleicht schon kennt. Aber wir führen sie hier 00:02:00.700 --> 00:02:05.390 nochmal zusammen und versuchen sie zu kontextualisieren. Warum Banalität der 00:02:05.390 --> 00:02:09.880 Überwachung? Banalität, weil die Systeme des maschinellen Lernens im Kern sehr 00:02:09.880 --> 00:02:14.520 simpel sind, weil aber auch die Beeinflussung sehr subtil sein kann und 00:02:14.520 --> 00:02:17.080 das Ganze ist auch eine Reminiszenz an Hannah Arendt. 00:02:17.080 --> 00:02:21.330 Noch mal kurz zu uns. Wie gesagt: Ich werde die ersten 20 Minuten sprechen über 00:02:21.330 --> 00:02:25.280 die Mensch-Computer-Interaktions- Perspektive, Karen Ullrich wird die zweite 00:02:25.280 --> 00:02:29.170 Hälfte bestreiten. Karen ist wissenschaftliche Mitarbeiterin in 00:02:29.170 --> 00:02:33.920 Amsterdam, im Amsterdam Machine Learning Lab, und sie forscht direkt zu den 00:02:33.920 --> 00:02:37.660 Algorithmen des maschinellen Lernens, insbesondere Bayesian methods, also ein 00:02:37.660 --> 00:02:41.950 Hintergrund im Deep Learning und der Informationstheorie. Ich bin 00:02:41.950 --> 00:02:46.470 wissenschaftlicher Mitarbeiter im Institut für Informationsmanagement Bremen und mir 00:02:46.470 --> 00:02:50.000 geht es um die Nutzererfahrung von Maschine Learning, insbesondere das 00:02:50.000 --> 00:02:56.380 Vertrauen. Wir würden jetzt gerne anfangen mit einem Beispiel, das jeder kennt: Spam- 00:02:56.380 --> 00:02:59.990 Erkennung. Benutzt wahrscheinlich jeder hier. Funktioniert auch nicht immer. Aber 00:02:59.990 --> 00:03:03.090 man muss sich wirklich vor Augen führen, dass es eine beeindruckende technische 00:03:03.090 --> 00:03:07.100 Leistung ist, auch wenn es manchmal nicht funktioniert. Und wir nehmen es hier, um 00:03:07.100 --> 00:03:11.620 den Unterschied zwischen imperativer Programmierung und maschinellem Lernen zu 00:03:11.620 --> 00:03:16.540 verdeutlichen. Imperative Programmierung ist das, woran wahrscheinlich jeder denkt, 00:03:16.540 --> 00:03:18.480 wenn er an Informatik und Programmierung denkt. 00:03:18.480 --> 00:03:21.940 Es geht um Regeln und Anweisungen: Wenn X 00:03:21.940 --> 00:03:26.430 dann Y. Das Wort Imperativ für Befehl steckt ja auch schon im Namen. Und wenn 00:03:26.430 --> 00:03:30.210 wir jetzt Spam imperativ erkennen wollen würden, dann würde man zum Beispiel 00:03:30.210 --> 00:03:34.140 gucken, Okay das Wort Viagra wird so geschrieben in der Nachricht vorkommen, 00:03:34.140 --> 00:03:39.210 dann ist es eine Spam-Nachricht. Andererseits ist es eine gutartige 00:03:39.210 --> 00:03:43.710 Nachricht. Maschinelles Lernen ist jetzt ein komplett anderer Ansatz. Da hat man 00:03:43.710 --> 00:03:49.040 eine Vorhersage die man iterativ, also immer und immer wieder, verbessert. Für 00:03:49.040 --> 00:03:53.000 die Spam-Klassifikation versucht man zum Beispiel Kombinationen von Wörtern zu 00:03:53.000 --> 00:03:56.900 finden, durch die es wahrscheinlich wird, dass es sich um Spam handelt. 00:03:56.900 --> 00:04:02.160 Der Kernbegriff ist hier also wahrscheinlich. Und das sieht dann so aus, dass man für viele 00:04:02.160 --> 00:04:07.400 verschiedene Beispiele prognostiziert, ob eine Nachricht Spam ist oder nicht. Dann 00:04:07.400 --> 00:04:12.010 berechnet man Fehler mit einer geeigneten Fehlerfunktion und dann ändert man seine 00:04:12.010 --> 00:04:16.721 Parameter, um den Fehler zu verringern und geht wieder zum ersten Schritt und macht 00:04:16.721 --> 00:04:21.589 das immer und immer wieder. Natürlich ist es nicht ganz so einfach, diesen Fehler zu 00:04:21.589 --> 00:04:24.630 berechnen, und auch die Parameter zu verändern, ist ein eigenes 00:04:24.630 --> 00:04:28.030 Forschungsgebiet. Aber im Kern ist es wirklich so simpel wie wir es hier 00:04:28.030 --> 00:04:33.081 darstellen. Und deswegen ist es spannend im Hinterkopf zu behalten. Dabei ist es 00:04:33.081 --> 00:04:36.720 aber spannend im Hinterkopf zu behalten, dass Spam-Erkennen nicht mit 00:04:36.720 --> 00:04:40.790 Textverständnis gleichzusetzen ist. Das heißt der Algorithmus muss nicht erst 00:04:40.790 --> 00:04:45.030 Kafka verstehen können, um zu erkennen, ob etwas Spam ist oder nicht. Und dieses 00:04:45.030 --> 00:04:48.960 Problem, dass etwas wirkungsvoller aussieht als es vermeintlich ist, wird uns 00:04:48.960 --> 00:04:54.840 im Laufe des Vortrags noch begegnen. Wir haben jetzt ein weiteres, immer noch 00:04:54.840 --> 00:04:58.700 vereinfachtes Beispiel für eine Entscheidungshilfe, hier aus der Medizin. 00:04:58.700 --> 00:05:03.960 Das Ziel ist hier die Erkennung von Brustkrebs. Statt Wörtern wie beim Spam 00:05:03.960 --> 00:05:09.660 haben wir verschiedene Features, das heißt Charakteristika, an denen man zum Beispiel 00:05:09.660 --> 00:05:14.760 gutartigen von bösartigem Brustkrebs unterscheiden kann. Dazu gehören hier der 00:05:14.760 --> 00:05:20.850 Radius, die Textur, Umfang, Fläche, Glätte aber auch so Sachen wie die Symmetrie und 00:05:20.850 --> 00:05:25.780 die Zahl konkaver Punkte, also nach innen gewölbter Punkte, das seht ihr hier oben. 00:05:25.780 --> 00:05:30.610 Insgesamt gibt es in diesem vereinfachten Datensatz 32 verschiedene Charakteristika. 00:05:30.610 --> 00:05:36.260 Und wenn wir jetzt zwei Charakteristika wie z.B. die durchschnittliche Zahl der 00:05:36.260 --> 00:05:41.190 konkaven Punkte und die durchschnittliche Fläche in Pixeln anschauen und abtragen, 00:05:41.190 --> 00:05:45.450 dann erkennt man eine deutliche Tendenz: Ab einem bestimmten Punkt – ab einer 00:05:45.450 --> 00:05:48.520 bestimmten Zahl Punkte und ab einer bestimmten Fläche – sehen wir nur noch 00:05:48.520 --> 00:05:54.000 bösartigen Brustkrebs. Das heißt mathematisch können wir im Beispiel 00:05:54.000 --> 00:05:58.091 einfach eine Linie durch diesen Datensatz ziehen und das ist eine sogenannte 00:05:58.091 --> 00:06:02.169 Entscheidungsgrenze, die Decision- Boundary. Die Entscheidungsgrenze muss 00:06:02.169 --> 00:06:05.000 nicht linear sein, es muss nicht eine einfache Linie sein. 00:06:05.000 --> 00:06:10.140 Die kann durchaus komplexer sein und in der Regel ist sie das. Und dieser Ansatz 00:06:10.140 --> 00:06:14.650 ist durchaus analog zu dem, was eine erfahrene Ärztin oder ein erfahrener Arzt 00:06:14.650 --> 00:06:18.531 mehr oder weniger bewusst machen würde. Die haben auch aus Erfahrung gelernt: ab 00:06:18.531 --> 00:06:23.800 der Größe, und ab der Fläche und der Zahl ist es wahrscheinlich bösartig oder 00:06:23.800 --> 00:06:27.480 gutartig. Der Clou am Maschinellen Lernen ist jetzt, dass wir das für viele 00:06:27.480 --> 00:06:31.620 verschiedene Charakteristika gleichzeitig machen können. Und darüber hinaus 00:06:31.620 --> 00:06:36.060 profitieren wir sehr stark davon, wenn wir mehr Daten haben, weil wir dadurch bessere 00:06:36.060 --> 00:06:38.560 Entscheidungen treffen können. Weil wir eine bessere Entscheidungsgrenze finden. 00:06:38.560 --> 00:06:45.340 Ihr seht aber auch, dass eine gute Zahl an roten und blauen Punkten im Beispiel auf 00:06:45.340 --> 00:06:49.871 der falschen Seite der Grenze liegen. Das heißt dort machen wir Fehler und da 00:06:49.871 --> 00:06:53.300 muss man im Hinterkopf behalten, dass es verschiedene Arten von Fehlern gibt und 00:06:53.300 --> 00:06:57.010 die auch verschiedene Auswirkungen haben. Falls ich zum Beispiel jemandem mit 00:06:57.010 --> 00:07:02.669 gutartigen Brustkrebs fälschlicherweise sage, dass ihr Brustkrebs bösartig ist, 00:07:02.669 --> 00:07:07.870 löst das sicherlich Stress aus und ist keine angenehme Situation. Falls ich aber 00:07:07.870 --> 00:07:11.560 jemanden mit bösartigem Brustkrebs fälschlicherweise sage, dass ihr 00:07:11.560 --> 00:07:15.130 Brustkrebs gutartig ist und sie auch entsprechend behandle, kann das deutlich 00:07:15.130 --> 00:07:19.900 schlimmere Konsequenzen haben. Das ist jetzt natürlich ein vereinfachtes 00:07:19.900 --> 00:07:24.900 Beispiel. Aber gleichzeitig werden wir zeigen, dass ähnliche Entscheidungshilfen 00:07:24.900 --> 00:07:29.210 durchaus in sehr kritischen Bereichen genutzt werden. Vorher wollen wir noch 00:07:29.210 --> 00:07:33.750 einmal die Wirkungsmacht von Big Data zeigen und da geht es darum, 00:07:33.750 --> 00:07:39.800 Persönlichkeitsmerkmale zu erkennen. Das heißt hier nimmt man digitale Spuren wie 00:07:39.800 --> 00:07:43.960 Facebook-Likes, die relativ einfach zugänglich sind, es aber ermöglichen, 00:07:43.960 --> 00:07:47.460 hochgradig sensible Persönlichkeitsmerkmale vorherzusagen. 00:07:47.460 --> 00:07:54.380 Das ist ein Paper von 2013 und für die Studie haben sie 58.000 Freiwillige in den 00:07:54.380 --> 00:07:58.060 USA gefunden, die eine Facebook-App benutzt haben. Und die haben dieser 00:07:58.060 --> 00:08:02.120 Facebook-App ihr komplettes Profil zur Verfügung gestellt mit allen Likes aber 00:08:02.120 --> 00:08:06.060 auch mit allen Informationen wie zum Beispiel der sexuellen Orientierung oder 00:08:06.060 --> 00:08:10.540 der religiösen Zugehörigkeit. Was jetzt gemacht wurde ist mit einem sehr einfachen 00:08:10.540 --> 00:08:16.700 Modell, mit einem einfachen Regressions- Modell, vorhergesagt, von welchen Likes, 00:08:16.700 --> 00:08:21.270 ob man anhand der Likes bestimmte Persönlichkeitsmerkmale erkennen kann. Und 00:08:21.270 --> 00:08:26.570 es zeigt sich, dass man zum Beispiel mit 95-prozentiger Genauigkeit erkennen kann, 00:08:26.570 --> 00:08:32.620 ob jemand weiß oder afroamerikanisch ist. Sexuelle Orientierung kann man auch mit 00:08:32.620 --> 00:08:38.999 sehr hoher Genauigkeit nur anhand der Likes erkennen, das Geschlecht, die 00:08:38.999 --> 00:08:44.350 politische Orientierung, die religiöse Zugehörigkeit, aber auch so Sachen wie die 00:08:44.350 --> 00:08:49.100 Drogenerfahrung und der Familienstand der Eltern in der Kindheit. 00:08:49.100 --> 00:08:53.970 Und ihr seht schon bei der religiösen Zugehörigkeit sind wir bei 82 Prozent 00:08:53.970 --> 00:08:58.589 Genauigkeit, bei so etwas wie Drogenerfahrung und der Ehe ist es relativ 00:08:58.589 --> 00:09:03.579 wenig mit der Genauigkeit: Es ist eine 50/50 Chance, wenn wir raten würden. 00:09:03.579 --> 00:09:09.389 Aber es ist trotzdem eine Indikation. Und wir zeigen das auch nur, weil das 00:09:09.389 --> 00:09:12.992 wahnsinnige Möglichkeiten der Diskriminierung bildet. Und das passiert 00:09:12.992 --> 00:09:17.661 auch auf dem Wohnungsmarkt oder auf dem Arbeitsmarkt. Das heißt was wir hier 00:09:17.661 --> 00:09:21.089 zeigen wollen, ist, dass wir unsere Vorstellungen von Datenschutz überdenken 00:09:21.089 --> 00:09:26.019 und ausweiten müssen, weil man halt auch Persönlichkeitsmerkmale inferieren können 00:09:26.019 --> 00:09:31.630 kann. Denn man kann mit solchen Modellen auch die Likes finden, die am 00:09:31.630 --> 00:09:36.050 aussagekräftigsten für ein bestimmtes Charakteristikum sind. Das heißt wir haben 00:09:36.050 --> 00:09:41.170 hier drei Likes: einmal die Marke Harley- Davidson, Kringel-Pommes/curly fries und 00:09:41.170 --> 00:09:45.019 das Musical Wicked. Und ich überlasse es euch mal, herauszufinden, welches Bild mit 00:09:45.019 --> 00:09:49.790 niedriger Intelligenz, hoher Intelligenz und Homosexualität bei Männern verbunden 00:09:49.790 --> 00:09:56.439 ist. Diese durchaus fragwürdige Forschungsrichtung nennt sich Psychometrik 00:09:56.439 --> 00:10:00.860 oder auch Psychografie. Und das Spannende ist, dass sie ja relativ nah dran ist am 00:10:00.860 --> 00:10:04.009 Kern-Versprechen von so Unternehmen wie Google und Facebook. 00:10:04.009 --> 00:10:08.740 Denn die versprechen ihren Kunden – ihren Werbekunden – wir finden für euch 00:10:08.740 --> 00:10:13.149 Leute, die sich für Dienst X oder Produkt Y interessieren könnten. Und hier haben 00:10:13.149 --> 00:10:18.279 wir jetzt das Element der Beeinflussung. Beeinflussung heißt hier, Big Data zu 00:10:18.279 --> 00:10:23.230 nutzen, um Leute zu finden, und die Beeinflussung ist noch sehr banal. Aber 00:10:23.230 --> 00:10:26.810 solche Forschung kann natürlich auch genutzt werden, um zum Beispiel in einer 00:10:26.810 --> 00:10:31.059 großen Menge von Wählerinnen jene zu finden, die noch überzeugt werden könnten. 00:10:31.059 --> 00:10:34.771 Und ihr habt – viele von euch haben wahrscheinlich den Artikel in das Magazin 00:10:34.771 --> 00:10:39.199 gelesen, wo kolportiert wurde, dass diese Art von Psychografie für Trump und Brexit 00:10:39.199 --> 00:10:43.079 verantwortlich ist. Vor der Bundestagswahl gab es ja auch eine große Diskussion, dass 00:10:43.079 --> 00:10:47.689 das hier passieren könnte. Wir glauben, dass das mit Vorsicht zu genießen ist, 00:10:47.689 --> 00:10:51.160 aber die Möglichkeit mit derartigen Ansätzen überzeugbare Wählerinnen und Wähler 00:10:51.160 --> 00:10:53.790 zu finden und anzusprechen, ist durchaus realistisch. 00:10:53.790 --> 00:11:00.990 Und wir haben schon gesehen, dass es dadurch so eine Art Diskriminierung 2.0 00:11:00.990 --> 00:11:05.312 gibt. Denn ein homophober Arbeitgeber muss nicht mehr direkt erfragen, ob jemand 00:11:05.312 --> 00:11:09.610 homosexuell ist, wenn er es aus einem Facebook-Profil vorhersagen kann, und es 00:11:09.610 --> 00:11:13.129 interessiert ihn vielleicht auch nicht, ob er da einen Fehler macht und einen 00:11:13.129 --> 00:11:18.209 Heterosexuellen möglicherweise falsch einordnet. Diese Beeinflussung kann aber 00:11:18.209 --> 00:11:23.689 durchaus direkter sein. In den USA werden Algorithmen jetzt schon im Justizsystem 00:11:23.689 --> 00:11:28.300 als Entscheidungshilfe eingesetzt, und da wird zum Beispiel mit bestimmten 00:11:28.300 --> 00:11:32.639 Informationen über die Leute vorhergesagt, ob jemand rückfällig wird, der im 00:11:32.639 --> 00:11:37.759 Gefängnis ist, oder nicht. Das heißt man versucht vorherzusagen auf einer Skala von 00:11:37.759 --> 00:11:43.590 1 für ungefährlich bis 10 für hochgradig gefährlich, wo jemand hinkommt. Und hier 00:11:43.590 --> 00:11:49.069 haben wir zwei Beispiele: Einmal den Herrn links – VP die Initialen –, der zwei 00:11:49.069 --> 00:11:53.980 bewaffnete Raubüberfälle begangen und einen versuchten bewaffneten Raubüberfall, 00:11:53.980 --> 00:11:58.519 und die Risikoeinschätzung ist hier 3 niedriges Risiko. 00:11:58.519 --> 00:12:03.730 Daneben steht die Dame – BB –, die hat vier Ordnungswidrigkeiten unter 00:12:03.730 --> 00:12:11.509 Jugendstrafrecht auf dem Kerbholz, und die wird eingestuft mit hohes Risiko. Und wie 00:12:11.509 --> 00:12:15.199 sieht das jetzt aus. Also die Leute von ProPublica die das recherchiert haben, 00:12:15.199 --> 00:12:20.600 haben jetzt über zwei Jahre geguckt, wer wirklich rückfällig wird und wer nicht. BB 00:12:20.600 --> 00:12:24.689 – die Dame rechts –, die begeht keine weiteren Verbrechen. VP – der Herr links 00:12:24.689 --> 00:12:27.870 –, der begeht nach seiner Freilassung direkt einen schweren Diebstahl. Das 00:12:27.870 --> 00:12:31.269 Besondere ist hier, und ihr werdet es wahrscheinlich schon geraten haben, ist, 00:12:31.269 --> 00:12:35.900 dass der Algorithmus systematisch Afroamerikanerinnen diskriminiert. Es gibt 00:12:35.900 --> 00:12:41.250 also ein Bias, eine Verzerrung, gegen Schwarze. Darüber hinaus sind diese 00:12:41.250 --> 00:12:46.059 Vorhersagen von den proprietären Kompass- Systemen nur in 61 Prozent derzeit 00:12:46.059 --> 00:12:51.209 richtig. Wenn man jetzt die wirkliche Rückfälligkeit über zwei Jahren nimmt. Und 00:12:51.209 --> 00:12:55.089 wir kennen das aus der Statistik: Dort unterscheiden wir den Fehler erster Art 00:12:55.089 --> 00:12:59.149 und den Fehler zweiter Art. Das heißt unsere Nullhypothese ist: Der oder die 00:12:59.149 --> 00:13:03.689 Straftäterin wird nicht rückfällig. Der Fehler erster Art ist jetzt, dass die, 00:13:03.689 --> 00:13:08.739 die mit hohem Risiko eingestuft werden, aber nicht rückfällig werden. Und da sehen 00:13:08.739 --> 00:13:12.500 wir – oder hat ProPublica herausgefunden –, dass die Wahrscheinlichkeit, dass ein 00:13:12.500 --> 00:13:18.189 Weißer oder eine Weiße Opfer dieses Fehlers wird, bei 23,5 Prozent liegt und 00:13:18.189 --> 00:13:22.199 bei Afroamerikanerinnen liegt die Wahrscheinlichkeit bei 44,9, also fast 00:13:22.199 --> 00:13:25.910 doppelt so hoch. Es gibt auch den Fehler zweiter Art. Das ist die 00:13:25.910 --> 00:13:29.429 Wahrscheinlichkeit, dass jemand mit niedrigem Risiko 00:13:29.429 --> 00:13:33.590 eingestuft wird, aber trotzdem rückfällig wird. Und hier ist die Wahrscheinlichkeit 00:13:33.590 --> 00:13:41.779 umgekehrt: Weiße haben eine 47-Prozent- Chance diesem Fehler zum Opfer zu fallen. 00:13:41.779 --> 00:13:49.549 Afroamerikanerinnen nur 28 Prozent. Aber wie kommt das? Wir nehmen jetzt mal an, 00:13:49.549 --> 00:13:53.290 dass das kompetente Programmiererinnen sind, die in den Maschine Learning Kursen, 00:13:53.290 --> 00:13:56.920 die sie gemacht haben, gut aufgepasst haben und technisch alles richtig gemacht 00:13:56.920 --> 00:13:59.980 haben. Nun lernt Maschine Learning immer eine 00:13:59.980 --> 00:14:05.459 Abbildung von einem X auf ein Y. Z. B. hier haben wir bestimmte Informationen zu 00:14:05.459 --> 00:14:11.089 Gefangenen und diese Rückfälligkeit der Gefangenen. Das Problem ist jetzt das X 00:14:11.089 --> 00:14:15.300 ist keine Stichprobe der Grundgesamtheit, sondern eine Untermenge der 00:14:15.300 --> 00:14:19.179 Grundgesamtheit, die die Polizei untersucht hat. Es ist also ein X', es ist 00:14:19.179 --> 00:14:24.009 nicht repräsentativ. Und das kann eine selbsterfüllende Prophezeiung sein. Denn 00:14:24.009 --> 00:14:27.220 vielleicht sind Afroamerikanerinnen einfach in der Situation, dass sie 00:14:27.220 --> 00:14:31.779 deutlich häufiger kontrolliert werden und es einfach dadurch mehr Straffälle in 00:14:31.779 --> 00:14:36.550 dem Datensatz gibt. Und auf der auch auf der anderen Seite auf der Y Seite, das 00:14:36.550 --> 00:14:40.459 heißt diese Risikobeurteilung, ob man rückfällig wird oder nicht, ist ebenfalls 00:14:40.459 --> 00:14:45.269 eine Verfälschung. Denn die bezieht sich ja auch nur auf die, die vom Rechtssystem 00:14:45.269 --> 00:14:49.899 verurteilt werden. Das heißt hier haben wir auch ein Y'. Wenn 00:14:49.899 --> 00:14:54.089 man zum Beispiel ein Jurysystem hat, wie man es in den USA findet, dann kann auch 00:14:54.089 --> 00:14:58.790 dort latent oder weniger latent diskriminiert werden. Das macht Maschine 00:14:58.790 --> 00:15:04.399 Learning – pseudo-objektive, mathematische Modelle – zu einer Art Geldwäsche für 00:15:04.399 --> 00:15:08.649 Vorurteile. Weil sie fallen in dieses System rein und sind dann erst einmal 00:15:08.649 --> 00:15:14.360 nicht mehr sichtbar. Und hier kommen wir jetzt zum Element der direkten 00:15:14.360 --> 00:15:17.339 Beeinflussung. Denn diese Systeme werden zwar nur als 00:15:17.339 --> 00:15:22.019 Entscheidungshilfen verkauft, es sind halt nur Werkzeuge, die genutzt werden können, 00:15:22.019 --> 00:15:26.350 aber die Leute, die die Entscheidung treffen, verlassen sich direkt auf diese 00:15:26.350 --> 00:15:29.949 Systeme. Das heißt sie vertrauen diesen diskriminierenden Algorithmen. Das 00:15:29.949 --> 00:15:33.429 Beispiel kommt aus dem hervorragenden Deutschlandfunk-Feature von Thomas 00:15:33.429 --> 00:15:39.689 Schimmeck. Und der hat zum Beispiel Veronika Hiller, die Bewährungshelferin, 00:15:39.689 --> 00:15:45.019 die dem Richter im Endeffekt ein Strafmaß vorschlägt, interviewt. Das Spannende ist, 00:15:45.019 --> 00:15:48.189 die hat also ein Vierteljahrhundert Erfahrung im Dienst. Aber sie schwört auf 00:15:48.189 --> 00:15:52.839 diesen Algorithmus. Sie sagt der ist gut, akkurat und einfach. Was wir einfach 00:15:52.839 --> 00:15:57.989 zeigen wollen, ist, dass es hier um sozio- technische Systeme geht. Das heißt es 00:15:57.989 --> 00:16:01.519 geht nicht nur um das Maschine Learning. Es geht nicht nur um den Algorithmus. 00:16:01.519 --> 00:16:05.389 Sondern es geht auch um die Menschen, die ihn nutzen. Denn selbst wenn das System 00:16:05.389 --> 00:16:09.569 fair wäre – wir haben gerade gesehen dass es das nicht ist –, heißt es immer noch 00:16:09.569 --> 00:16:13.910 nicht, dass die Ergebnisse des Systems auch fair interpretiert werden, und wir 00:16:13.910 --> 00:16:17.740 finden das ist sehr wichtig für jene, die solche Systeme bauen – und da sind 00:16:17.740 --> 00:16:22.389 wahrscheinlich einige heute hier. Diese Verzerrung in und durch Daten sind 00:16:22.389 --> 00:16:27.089 allgegenwärtig. Wir haben zum Beispiel hier ein Beispiel von Google. Das ist eine 00:16:27.089 --> 00:16:32.100 Suche nach den Keywords „Three White Teenagers". Und das ist eine Suche nach 00:16:32.100 --> 00:16:38.489 den Keywords „Three Black Teenagers". Das heißt Technologie offenbart hier 00:16:38.489 --> 00:16:41.779 gesellschaftliche Probleme. Wir haben es wie gesagt mit sozi- 00:16:41.779 --> 00:16:46.769 technischen Systemen zu tun, die eine bestimmte Weltvorstellung festschreiben, 00:16:46.769 --> 00:16:51.660 vermitteln, aber auch verstärken können. Und die Probleme können ganz subtil und 00:16:51.660 --> 00:16:55.749 banal sein wie zum Beispiel dieses Beispiel aus der statistischen Übersetzung 00:16:55.749 --> 00:16:59.500 zeigt: Jetzt muss man wissen, dass die türkische Sprache nicht zwischen 00:16:59.500 --> 00:17:04.279 Geschlechtern unterscheidet, das heißt „er", „sie" und „es" sind alle „o". Es 00:17:04.279 --> 00:17:07.669 gibt auch keine Unterscheidung zwischen „Arzt" und „Ärztin" beides „Doktor". Und 00:17:07.669 --> 00:17:11.869 wenn wir jetzt mit Google Translate oder einem anderen statistischen 00:17:11.869 --> 00:17:16.970 Übersetzungsprogramm Sätze wie „Er ist ein Babysitter." und „Sie ist eine Ärztin." 00:17:16.970 --> 00:17:21.449 hin und her übersetzen, dann stellen wir fest, dass die Übersetzung bestimmte 00:17:21.449 --> 00:17:23.140 Geschlechterklischees widerspiegelt. 00:17:23.140 --> 00:17:27.659 Und ihr könnt mit dem was ihr bisher über Machine Learning gelernt habt in diesem 00:17:27.659 --> 00:17:32.380 Vortrag vielleicht schon erklären, wie das passiert. Wir lernen aus Beispielen und in 00:17:32.380 --> 00:17:37.520 diesen Beispielen sind Verzerrungen. In diesem Fall mehr weibliche Babysitter, 00:17:37.520 --> 00:17:41.440 mehr männliche Ärzte. Denn wenn wir übersetzen dann berechnen 00:17:41.440 --> 00:17:45.080 wir ja Wahrscheinlichkeiten und nehmen in der Regel einfach das wahrscheinlichste 00:17:45.080 --> 00:17:49.169 Ergebnis. Das heißt selbst minimale Verzerrungen können verstärkt werden. Das 00:17:49.169 --> 00:17:54.539 heißt eine Babysitterin mehr, ein Arzt mehr und diese Übersetzung sieht so aus, 00:17:54.539 --> 00:17:59.299 wie wir sie gerade sehen. Aber hier haben wir etwas, das technisch erklärbar ist. 00:17:59.299 --> 00:18:03.010 Aber welche Auswirkungen hat das auf die NutzerInnen. Welche Auswirkungen hat das 00:18:03.010 --> 00:18:09.450 auf die Weltsicht, wenn man die Google- Ergebnisse so sieht wie man sie sieht. Und 00:18:09.450 --> 00:18:13.760 anhand von Facebook wollen wir jetzt zeigen, wie direkt und intransparent diese 00:18:13.760 --> 00:18:17.730 Beeinflussung sein kann. Auch Facebook ist ein hochkomplexes sozio-technisches 00:18:17.730 --> 00:18:22.760 System, in dem NutzerInnen gleichzeitig Produzenten und KonsumentInnen sind. 00:18:22.760 --> 00:18:28.690 Facebooks erklärtes Ziel lautet ja, jedem zu jeder Zeit die richtigen Inhalte zu 00:18:28.690 --> 00:18:34.250 zeigen. Dafür nutzt Facebook nach eigener Aussage hundert tausend verschiedene 00:18:34.250 --> 00:18:38.440 Faktoren, um algorithmisch die besten Geschichten aus den potenziellen 00:18:38.440 --> 00:18:40.159 Geschichten auszuwählen. 00:18:40.159 --> 00:18:44.549 Das heißt, wenn ihr euch jetzt vorstellt - das sind jetzt Zahlen aus dem Kosinski- 00:18:44.549 --> 00:18:50.750 Paper mit den Persönlichkeitsmerkmalen. Das heißt da haben die Leute im Median 200 00:18:50.750 --> 00:18:56.710 Bekannte und liken 68 Seiten. Das heißt wenn nur jeder Dritte was macht, dann sind 00:18:56.710 --> 00:19:00.970 das pro Tag 90 potenzielle Beiträge. Wenn man jetzt nur fünf oder zehn Minuten auf 00:19:00.970 --> 00:19:04.460 der Seite verweilt, dann kann man sich nicht angucken. Das heißt eine 00:19:04.460 --> 00:19:10.130 chronologische Darstellung ist zwecklos und eine Kuration unumgänglich. Und 00:19:10.130 --> 00:19:15.080 deswegen sortiert Facebook die Nachrichten nach einem Algorithmus. Das Problem ist 00:19:15.080 --> 00:19:18.240 aber, dass dieser Vorgang sehr intransparent ist. Das heißt die 00:19:18.240 --> 00:19:19.929 NutzerInnen sehen und verstehen die Algorithmen nicht 00:19:19.929 --> 00:19:25.000 Und die glauben im Zweifelsfall wenn sie darauf angesprochen werden, dass die 00:19:25.000 --> 00:19:30.179 Algorithmen objektiv und unabhängig sind. Und dabei beziehe ich mich auf folgende 00:19:30.179 --> 00:19:35.620 Studie. Die kommt aus der CHI, der Computer Human Interaction Community. Und 00:19:35.620 --> 00:19:42.180 dort waren sich 62,5% der Teilnehmer und Teilnehmerinnen in dieser Studie der 00:19:42.180 --> 00:19:47.659 Existenz von Newsfeed-Algorithmen, also von dieser algorithmischen Kuration, nicht 00:19:47.659 --> 00:19:51.830 bewusst. Das heißt wir haben hier eine qualitative Studie mit 40 TeilnehmerInnen, 00:19:51.830 --> 00:19:56.010 die so ausgewählt wurden, dass sie repräsentativ sind für die US- 00:19:56.010 --> 00:20:00.980 Grundgesamtheit. Und von denen war also 25 Personen nicht bewusst, dass überhaupt 00:20:00.980 --> 00:20:06.580 irgendwie sortiert wird. Die Studie zeigt auch, dass die TeilnehmerInnen durchaus 00:20:06.580 --> 00:20:11.029 verärgert sind, wenn sie Posts von engen Freunden oder Familienmitgliedern nicht 00:20:11.029 --> 00:20:15.960 sehen. Spannend ist aber jetzt: Die Teilnehmer suchen den Fehler eher bei sich 00:20:15.960 --> 00:20:19.330 oder anderen, als bei einem Algorithmus, von dem sie im Zweifelsfall auch nichts 00:20:19.330 --> 00:20:24.660 wissen. Sie glauben dann z.B. dass sie etwas übersehen haben oder sie denken, 00:20:24.660 --> 00:20:30.029 dass ihnen bestimmte Bekannte bewusst Geschichten vorenthalten, weil sie 00:20:30.029 --> 00:20:33.649 vielleicht nicht so gut miteinander bekannt sind, sich noch nicht so gut 00:20:33.649 --> 00:20:37.289 kennen. Daher kommt auch dieses titelgebende Zitat: "I always assumed that 00:20:37.289 --> 00:20:41.480 I wasn't really that close to [that person], so that's fine. What the hell?" 00:20:41.480 --> 00:20:45.130 Das heißt hier hat jemand gedacht "Okay, ich sehe die Babyfotos vielleicht nicht, 00:20:45.130 --> 00:20:49.490 weil ich die Person nicht so gut kenne, aber die Person hat das für alle geteilt". 00:20:49.490 --> 00:20:54.100 Und hier hat der Algorithmus jetzt die Entscheidung getroffen, dass Person A das 00:20:54.100 --> 00:20:59.590 Baby von Person B nicht sieht. Das heißt diese Systeme, die im Schatten agieren und 00:20:59.590 --> 00:21:04.090 denen sich die BenutzerInnen nicht bewusst sind, haben Auswirkungen auf 00:21:04.090 --> 00:21:08.370 zwischenmenschliche Beziehungen. Sie rekonfigurieren sie. Und darüber hinaus 00:21:08.370 --> 00:21:11.820 muss man sich auch noch einmal bewusst machen, was diese Nachrichten- 00:21:11.820 --> 00:21:15.899 Empfehlungssysteme eigentlich erreichen wollen. Sie sind ja von der Art her wie 00:21:15.899 --> 00:21:20.909 Netflix. Das heißt wenn ich auf Youtube oder einem anderen Portal mir Videos 00:21:20.909 --> 00:21:24.990 angucke und ich gucke mir zehn Videos an und davon sind vier mit lustigen Hunde- 00:21:24.990 --> 00:21:30.461 Babys, dann folgert das System "Ok, Hendrik mag lustige Hunde-Babys. Dem zeige 00:21:30.461 --> 00:21:34.701 ich jetzt in Zukunft mehr lustige Hunde- Babys". Nun sind aber auch Nachrichten auf 00:21:34.701 --> 00:21:39.350 Plattformen wie Youtube. Das heißt wenn ich mir jetzt zehn Videos angucke und von 00:21:39.350 --> 00:21:43.710 denen geht es in vielen darum, dass Flüchtlinge kriminell sind, dann empfiehlt 00:21:43.710 --> 00:21:48.720 mir das System Videos von kriminellen Flüchtlingen. Das heißt da passiert etwas 00:21:48.720 --> 00:21:55.169 mit meiner Weltwahrnehmung. Das heißt so derartige Filterblasen und Echokammern 00:21:55.169 --> 00:21:59.840 entstehen online. Die gibts natürlich auch im echten Leben. Der Freundeskreis ist 00:21:59.840 --> 00:22:04.701 auch eine Echokammer, in der bestimmte Weltvorstellungen geteilt werden, aber 00:22:04.701 --> 00:22:09.360 hier sind sie durchaus intransparenter, denn es passiert unter dem gleichen Logo. 00:22:09.360 --> 00:22:14.830 Bei mir ist ein YouTube-Logo, bei euch ist ein YouTube-Logo. Und das sind Probleme, 00:22:14.830 --> 00:22:18.190 denen wir uns stellen müssen, mit denen wir umgehen müssen. 00:22:18.190 --> 00:22:22.820 Und das war mein Teil zur Perspektive der Mensch-Computer-Interaktion, die sich also 00:22:22.820 --> 00:22:26.799 als eigenes Feld mit derartigen Fragestellungen auseinandersetzt. Und ich 00:22:26.799 --> 00:22:31.370 übergebe jetzt an Karen, die nochmal technisch ins Detail gehen wird. 00:22:31.370 --> 00:22:43.649 Applaus Karen: Ja. Zum ersten Teil dieser Präsentation 00:22:43.649 --> 00:22:48.309 zeigten wir, dass Algorithmen uns schon heute schon beeinflussen, bewusst und 00:22:48.309 --> 00:22:52.100 unbewusst, direkt und indirekt. Und wir haben gesehen mit welcher Rigorosität ihre 00:22:52.100 --> 00:22:57.220 Voraussagen umgesetzt werden, nachdem sie einmal zur Verfügung stehen. Das immer 00:22:57.220 --> 00:23:00.149 unter der Annahme der Unvoreingenommenheit. Wir haben auch 00:23:00.149 --> 00:23:04.470 bereits angedeutet, dass dieses massive Vertrauen nicht unbedingt angebracht ist. 00:23:04.470 --> 00:23:08.870 In diesem zweiten Teil der Präsentation möchten wir darauf eingehen wann dieses 00:23:08.870 --> 00:23:12.019 Vertrauen nicht angebracht ist. Dabei möchte ich besonders auf ein Wort 00:23:12.019 --> 00:23:17.320 eingehen, das wir bereits viel verwendet haben. Das Wort Bias oder zu Deutsch 00:23:17.320 --> 00:23:20.630 Verzerrung. Beim maschinellen Lernen können wir grundsätzlich in zwei 00:23:20.630 --> 00:23:24.050 verschiedene Formen von Bias unterscheiden. Auf der einen Seite haben 00:23:24.050 --> 00:23:29.320 wir Bias der Daten, also Bias der ein Spiegel ist unserer eigenen Vorurteile und 00:23:29.320 --> 00:23:33.090 Moralvorstellungen, ob uns das jetzt bewusst ist oder nicht. 00:23:33.090 --> 00:23:37.110 Bias in Daten kann aber auch entstehen ganz zufällig durch mangelhafte Erhebung 00:23:37.110 --> 00:23:42.890 von Daten. Wenn das passiert wird eine Grundgesamtheit also die Population 00:23:42.890 --> 00:23:48.580 verzerrt abgebildet. Auf der anderen Seite befindet sich der Bias durch das 00:23:48.580 --> 00:23:51.399 Modellieren. Das sind also die Gesamtheit aller 00:23:51.399 --> 00:23:54.370 Annahmen die Ingenieure und Wissenschaftler von Algorithmen machen und 00:23:54.370 --> 00:24:00.490 machen müssen, um überhaupt Voraussagen treffen zu können. Dabei kann sich 00:24:00.490 --> 00:24:08.120 wiederum der Bias des Modells so auf die Daten auswirken, dass der Bias in den 00:24:08.120 --> 00:24:11.919 Daten verringert wird. Dazu gibt es vielfältige Forschung. Es kann aber auch 00:24:11.919 --> 00:24:18.630 den Bias in den Daten verstärken. Auf der anderen Seite knn auch Bias in Daten den 00:24:18.630 --> 00:24:24.690 Modellier-Bias beeinflussen. Wir werden im Folgenden, den folgenden 4 Beispielen, uns 00:24:24.690 --> 00:24:28.860 mit all diesen Phänomenen auseinander- setzen. Maschinelles Lernen hat in den 00:24:28.860 --> 00:24:32.659 letzten Jahren viele Durchbrüche bei der algorithmischen Wahrnehmung erzielt. 00:24:32.659 --> 00:24:37.250 Algorithmen bewältigen kognitive Aufgaben, die vor kurzem in weiter Ferne schienen. 00:24:37.250 --> 00:24:42.220 Das hat aber auch eine Welle von Forschung ausgelöst, die unlösbar geglaubte Aufgaben 00:24:42.220 --> 00:24:46.809 wieder aufgreift und neu bewertet. Eine Studie dieser Welle ist im November 00:24:46.809 --> 00:24:52.779 letzten Jahres erschienen zwei Forscher der Shanghai Jiaotong-Universität 00:24:52.779 --> 00:24:57.620 behaupten zeigen zu können, dass man Menschen mit kriminellen Absichten bereits 00:24:57.620 --> 00:25:01.289 an einem einfachen Ausweis-Foto erkennen kann und dies mit 90 prozentiger 00:25:01.289 --> 00:25:06.669 Trefferwahrscheinlichkeit. Dieses Ergebnis steht natürlich im starken Kontrast zu den 00:25:06.669 --> 00:25:10.250 Forschungsergebnissen der letzten Dekaden, die Kriminalität eher sozio-ökonomischen 00:25:10.250 --> 00:25:14.019 Umständen zuschreiben. Wir wollen uns also im Folgenden mit dieser Studie ein 00:25:14.019 --> 00:25:19.929 bisschen näher beschäftigen. Die Autoren sammelten hierzu 1800 Fotos von Chinesen 00:25:19.929 --> 00:25:24.740 im Alter zwischen 18 und 55 Jahren, die keine bemerkbaren Gesichtsbehaarungen, 00:25:24.740 --> 00:25:30.120 Narben oder Tattoos zeigten. Dabei repräsentieren zirka 700 Fotos die Rubrik 00:25:30.120 --> 00:25:35.889 kriminell. Die Fotos selbst wurden von der Polizei bereitgestellt und es handelt sich 00:25:35.889 --> 00:25:39.669 bei allen Fotos um bereits verurteilte Straftäter. 00:25:39.669 --> 00:25:42.730 Auf der anderen Seite mussten nun auch Bilder rechtschaffender Bürger 00:25:42.730 --> 00:25:47.429 repräsentiert werden. Dafür wurden 1100 Fotos aus verschiedenen Quellen des 00:25:47.429 --> 00:25:50.750 Internets beschafft. Dabei ist anzunehmen, dass diese von Seiten wie LinkedIn 00:25:50.750 --> 00:25:55.190 stammen, da die Autoren den Beruf der vermeintlich rechtschaffenen kennen. Um 00:25:55.190 --> 00:25:59.679 uns nun ein besseres Bild über die Daten zu machen, wollen wir uns also ein paar 00:25:59.679 --> 00:26:03.710 Datenpunkte anschauen. Jeder dieser Reihe entsprechen drei 00:26:03.710 --> 00:26:07.629 Datenpunkte aus jeweils einer Kategorie kriminell oder rechtschaffend. 00:26:07.629 --> 00:26:10.450 Dazu würde ich ein kleines Experiment wagen. Also ich zähle dann gleich mal bis 00:26:10.450 --> 00:26:15.220 zwei und alle die glauben, die obere Reihe seien die Rechtschaffenden, die bitte ich 00:26:15.220 --> 00:26:20.429 dann die linke Hand zu heben. Ich hebe die rechte Hand, damit ihr wisst, welche Hand. 00:26:20.429 --> 00:26:24.140 Und diejenigen, die denken die untere Reihe wären die Rechtschaffenden, die 00:26:24.140 --> 00:26:27.320 bitte ich also die rechte Hand zu heben. Das können wir gleich mal probieren, also 00:26:27.320 --> 00:26:32.832 ich zähle nochmal bis 2: eins, zwei und dann heben wir halt die Hand. 00:26:32.832 --> 00:26:36.620 Okay. Also die meisten von uns sind uns relativ einig dass wir die rechtschaffenen 00:26:36.620 --> 00:26:40.549 identifizieren können. Aber warum können wir das? Eigentlich sollten Menschen dazu 00:26:40.549 --> 00:26:45.190 ja nicht in der Lage sein und wir wissen, dass wir dazu nicht in der Lage sind. 00:26:45.190 --> 00:26:49.870 Ich denke also die meisten von uns haben gewisse Hinweise in den Bildern 00:26:49.870 --> 00:26:53.490 wahrgenommen, die auf der Unterschiedlichkeit der Quellen beruhen. 00:26:53.490 --> 00:26:57.399 Also ganz offensichtlich hier der Kragen im Bild, der darauf hinweist, dass es 00:26:57.399 --> 00:27:02.380 vielleicht ein Bewerbungsfoto sein könnte oder ein leichtes Grinsen im Gesicht. 00:27:02.380 --> 00:27:07.440 Dahingegen sind die Leute, die auf der kriminellen Seite sind nicht besonders 00:27:07.440 --> 00:27:10.360 vorteilhaft dargestellt. Also dem Mann hier wird der Scheinwerfer ins Gesicht 00:27:10.360 --> 00:27:17.260 gestrahlt, was dann Hautunreinheiten und Falten besonders betont. Wohingegen bei 00:27:17.260 --> 00:27:21.049 den Bewerbungsfotos offensichtlich Make-Up im Spiel ist oder Photoshop. Im 00:27:21.049 --> 00:27:28.940 trivialsten Fall kann es also sein, dass der Algorithmus einfach nur erkennt, in 00:27:28.940 --> 00:27:32.710 welchen Fotos Photoshop nachgeholfen hat. Das kann man also zum Beispiel schon an 00:27:32.710 --> 00:27:37.500 lokalen Pixel Statistiken gut erkennen. Diese Studie ist vielleicht ein extremes 00:27:37.500 --> 00:27:41.910 Beispiel, wie gravierend sich die verwendeten Daten auf das Ergebnis einer 00:27:41.910 --> 00:27:45.730 Voraussage eines Algorithmus auswirken können. Dies ist ein besonders starkes 00:27:45.730 --> 00:27:50.360 Beispiel für Stichproben-Verzerrung, also Bias in dem Gruppen unterschiedlich 00:27:50.360 --> 00:27:53.710 dargestellt werden. Bias kann aber auch entstehen ganz 00:27:53.710 --> 00:27:57.190 zufällig, wenn zu wenige Datenpunkte vorhanden sind, um verlässliche Aussagen 00:27:57.190 --> 00:27:59.940 zu treffen. Solche Probleme sehen wir also oft in 00:27:59.940 --> 00:28:04.929 medizinischen Studien oder psychologischen Studien, wo Tests teuer und langwierig 00:28:04.929 --> 00:28:08.750 sind. Melde-Bias beschreibt, wenn Befragte 00:28:08.750 --> 00:28:11.379 unkorrekte Angaben machen. Das geschieht zum Beispiel oft bei 00:28:11.379 --> 00:28:15.529 Gewaltverbrechen, bei denen Angst und Repression eine Rolle spielen. Und 00:28:15.529 --> 00:28:20.140 natürlich spielen auch die verwendeten Merkmale, die ein gewisses Problem 00:28:20.140 --> 00:28:25.250 beschreiben sollen, eine große Rolle. Kommen wir nun zur zweiten Kategorie: dem 00:28:25.250 --> 00:28:29.049 Bias in den Modellen. Hat man sich früher also vor dem die 00:28:29.049 --> 00:28:33.590 Deeplearning-Hype, sagen wir mal vor 2012 eine Einführungsveranstaltung zum 00:28:33.590 --> 00:28:37.700 maschinellen Lernen gesetzt, dann begann fast jeder mit dem Erklären des No-free- 00:28:37.700 --> 00:28:44.659 Lunch-Theorems. Also der Aussage, dass kein Modell in allen möglichen Szenarien 00:28:44.659 --> 00:28:47.549 funktioniert. Daraus schlussfolgerten wir, dass wir 00:28:47.549 --> 00:28:52.820 Annahmen machen müssen, die das Modell im Hinblick auf unser spezifisches Problem 00:28:52.820 --> 00:28:58.120 beschränken. Diese Annahmen haben aber ihre Grenzen. Dann versagt das Modell, 00:28:58.120 --> 00:29:00.399 ohne dass sich das Modell darüber bewusst ist. 00:29:00.399 --> 00:29:07.230 Das heißt also unser Job als Wissenschaftler oder Studierender ist es, 00:29:07.230 --> 00:29:14.890 diese Grenzfälle zu benennen und zu testen, ob in unserem speziellen 00:29:14.890 --> 00:29:17.950 Anwendungsfall diese Algorithmen nicht versagen. 00:29:17.950 --> 00:29:23.029 An diesen Prinzipien hat sich auch bis heute nichts geändert, aber der Erfolg des 00:29:23.029 --> 00:29:25.490 maschinellen Lernens in bestimmten Bereichen lässt selbst uns 00:29:25.490 --> 00:29:29.610 WissenschaftlerInnen diese universalen Regeln manchmal vergessen. 00:29:29.610 --> 00:29:33.509 Wir sind dann versucht zu glauben, dass Modelle so flexibel sind, dass die Grenzen 00:29:33.509 --> 00:29:37.000 quasi nicht mehr existieren. Im Folgenden möchte ich aber auf ein 00:29:37.000 --> 00:29:40.970 Beispiel eingehen, das sich auch mit dem Deeplearning-Hype gar nicht geändert hat. 00:29:40.970 --> 00:29:46.750 Und das ist das Problem der Zielsetzung und die Frage, wie Erfolg zu bewerten ist. 00:29:46.750 --> 00:29:51.799 Am Beginn des Vortrags sprach Hendrik über das Messen von Fehlern und, dass das 00:29:51.799 --> 00:29:55.049 Korrigieren dieser Fehler ein wichtiger Mechanismus sei, um Algorithmen zu 00:29:55.049 --> 00:29:58.590 trainieren. Doch was ein Fehler ist, ist oft nicht 00:29:58.590 --> 00:30:02.200 einfach zu bestimmen und es liegt in der Hand des Ingenieurs zu definieren. 00:30:02.200 --> 00:30:04.321 Zum Beispiel wie messe ich Erfolg bei YouTube-Empfehlungen? 00:30:04.321 --> 00:30:09.150 Messe ich die Zeit die jemand auf der Plattform verbringt? Das kann aber auch 00:30:09.150 --> 00:30:12.220 bedeuten, dass der PC vielleicht noch einer Ecke steht und die Personen gar 00:30:12.220 --> 00:30:15.710 nicht mehr im Raum ist oder messe ich die Anzahl von Klicks? Aber wenn diese zu 00:30:15.710 --> 00:30:19.250 frequent sind, dann bedeutet das vielleicht, dass die Person das Video gar 00:30:19.250 --> 00:30:23.580 nicht mag. Ein anderes Problem sind Übersetzungen. 00:30:23.580 --> 00:30:32.170 Stellen Sie sich nur also vor, dass wir einen Korpus von Übersetzungen haben und 00:30:32.170 --> 00:30:36.380 wir wollen messen, ob ein Text richtig übersetzt wurde. 00:30:36.380 --> 00:30:43.620 Wie können wir das messen? Wort für Wort oder Paragraph für Paragraph? Wenn wir 00:30:43.620 --> 00:30:46.870 Wort für Wort messen, dann spielen wir vielleicht mit der Wortreihenfolge in 00:30:46.870 --> 00:30:49.299 verschiedenen Sprachen und das funktioniert dann nicht so gut. Wenn wir 00:30:49.299 --> 00:30:53.659 Paragraph für Paragraph messen, funktioniert das vielleicht nicht so gut, 00:30:53.659 --> 00:30:58.179 weil der Algorithmus den Kontext nicht mehr begreift. Und wie gehen wir mit 00:30:58.179 --> 00:31:01.130 Synonymen um? Wenn also der Algorithmus ein richtiges Synonymen gefunden hat, wird 00:31:01.130 --> 00:31:04.720 dann trotzdem ein Fehler berechnet, wenn der spezielle Datenpunkt besagt, dass das 00:31:04.720 --> 00:31:08.340 vielleicht als ein anderes Synonym zu übersetzen ist? Man muss also 00:31:08.340 --> 00:31:13.299 Entscheidungen treffen. Die Ingenieure bei Google und anderen führenden 00:31:13.299 --> 00:31:20.970 Übersetzungssystem beantworten die Frage folgendermaßen: Wir übersetzen Satz für 00:31:20.970 --> 00:31:25.880 Satz. Dabei gehen wir davon aus, dass Sätze unabhängig sind und nur das 00:31:25.880 --> 00:31:30.049 wahrscheinlichste Wort oder die wahrscheinlichste Phrase wird richtig 00:31:30.049 --> 00:31:35.380 bewertet. Wenn wir also nochmal auf das Beispiel aus der ersten Hälfte des 00:31:35.380 --> 00:31:40.360 Vortrags eingehen. Wenn wir nun "Sie ist eine Frau. Sie ist Ärztin" in 00:31:40.360 --> 00:31:45.690 das genderneutrale Türkisch übersetzen zu "O bir kadın. O bir doktor." und dann 00:31:45.690 --> 00:31:51.090 zurückübersetzen ins Deutsche, dann wird dies mit "Sie ist eine Frau. Er ist Arzt" 00:31:51.090 --> 00:31:55.200 übersetzt. Und jetzt wissen wir auch warum. Da wir annahmen, dass Sätze 00:31:55.200 --> 00:31:58.779 unabhängig sind weiß der Algorithmus gar nichts vom Kontext, also dass wir hier 00:31:58.779 --> 00:32:04.580 über eine Frau sprechen. Wenn der Algorithmus "O bir doktor" dann übersetzt, 00:32:04.580 --> 00:32:08.360 übersetzt der nur die wahrscheinlichste Phrase und die ist "Er ist Arzt". Es 00:32:08.360 --> 00:32:12.389 handelt sich hier also nicht um Bias in den Daten oder zumindest nicht unbedingt, 00:32:12.389 --> 00:32:20.009 sondern um Bias in den Annahmen die das Modell zu sehr vereinfachen. Ein zweites 00:32:20.009 --> 00:32:23.289 Beispiel führt das noch klarer vor Augen. Wenn wir hier eben den Punkt durch ein 00:32:23.289 --> 00:32:30.830 Komma ersetzen, dann kann der Algorithmus es richtig übersetzen, weil er sich des 00:32:30.830 --> 00:32:36.970 Kontexts bewusst ist. Im nächsten Beispiel um das Phänomen Bias wollen wir zeigen wie 00:32:36.970 --> 00:32:39.909 Bias in Modellen Bias in Daten verstärken kann. 00:32:39.909 --> 00:32:44.820 Dies wird besonders in sogenannten aktiven Lernszenarien bewusst. Aktives Lernen 00:32:44.820 --> 00:32:52.190 funktioniert wie folgt. Wir haben Daten, auf deren Grundlage wir einen Algorithmus 00:32:52.190 --> 00:32:55.990 lernen. Für manche Voraussagen sind wir uns aber nicht sicher. Darum fragen wir 00:32:55.990 --> 00:32:59.990 einen menschlichen Experten um Rat und der Algorithmus fragt dann meistens die 00:32:59.990 --> 00:33:06.950 folgende Frage: Habe ich diesen Datenpunkt richtig bewertet? Und falls nicht, bitte 00:33:06.950 --> 00:33:11.970 um Feedback! Das führt dazu, dass der Algorithmus in der Zukunft mehr Daten zur 00:33:11.970 --> 00:33:16.309 Verfügung gestellt bekommt, um dann besser zu lernen und weniger oft um Hilfe fragen 00:33:16.309 --> 00:33:22.070 zu müssen. Das klingt gut. Und so viel zum störungsfreien Ablauf. Was aber nun wenn 00:33:22.070 --> 00:33:27.070 ein Datenpunkt mit falschen oder verzerrten Merkmalen beschrieben wird? Und 00:33:27.070 --> 00:33:31.399 dazu kommt, dass unser Mensch vielleicht nicht so wachsam ist, wie wir in unserem 00:33:31.399 --> 00:33:37.420 Modell annehmen. Wir haben also eine kleine Verzerrung im Datensatz, und die 00:33:37.420 --> 00:33:42.710 Annahme des idealen Menschen wird verletzt in unserem eigentlichen Phänomen. Dieser 00:33:42.710 --> 00:33:47.909 falsche Datenpunkt wird also ignoriert. Das führt dann dazu, dass, obwohl die 00:33:47.909 --> 00:33:52.490 Ursache der Verzerrung nicht mehr aktiv ist, dieser Datenpunkt nun vermehrt wird 00:33:52.490 --> 00:33:57.000 aufgrund der Tatsache, dass der Mensch nicht auf die Frage, habe ich diesen 00:33:57.000 --> 00:34:02.512 Datenpunkt richtig bewertet, reagiert. Und das führt dann wiederum dazu, wenn man 00:34:02.512 --> 00:34:04.720 mehr verzerrte Daten hat, dass diese mehr 00:34:04.720 --> 00:34:08.590 verzerrten Daten sich immer weiter vermehren können. Wann kann ich das also 00:34:08.590 --> 00:34:13.710 jetzt in freier Wildbahn beobachten? Es ist relativ schwer zu sagen, weil sich 00:34:13.710 --> 00:34:16.600 natürlich solche großen Player wie Google oder Facebook nicht immer in die Karten 00:34:16.600 --> 00:34:21.320 blicken lassen. Aber ich denke ein Tweet aus dem vergangenen Jahr lässt darauf 00:34:21.320 --> 00:34:27.090 schließen, dass das vielleicht hier passiert sein könnte. Also eine 00:34:27.090 --> 00:34:30.679 Afroamerikanerin mit Kussmund, in der Mitte unten, wird hier als Gorilla 00:34:30.679 --> 00:34:33.489 bezeichnet. Das ist eine geschichtsträchtige Bezeichnung für 00:34:33.489 --> 00:34:37.130 Afroamerikaner in Amerika und hat natürlich große Wellen geschlagen. Google 00:34:37.130 --> 00:34:41.190 erklärt die Ursache des Fehlers nicht genau genug, um genau zu wissen, was ihn 00:34:41.190 --> 00:34:46.670 ausgelöst hat, aber zwei Probleme können eine Rolle gespielt haben. Eins wäre, dass 00:34:46.670 --> 00:34:50.320 die Bildbeschreibung immer von Menschen bereitgestellt wird, und die erlauben sich 00:34:50.320 --> 00:34:55.679 gerne mal zu trollen und verfälschen das originale Datenset damit. Das kann aber 00:34:55.679 --> 00:34:59.180 nicht die einzige Ursache sein. Es kommt also mindestens noch dazu, dass gewisse 00:34:59.180 --> 00:35:02.180 Gruppen von Menschen entweder einfach sehr klein sind in einer Gesellschaft oder 00:35:02.180 --> 00:35:06.480 unterrepräsentiert sind. Und vielleicht auch drittens, man muss schon sagen dass 00:35:06.480 --> 00:35:11.650 bei großen Tech-Firmen sehr wenig Grenzszenarien oder Szenarien getestet 00:35:11.650 --> 00:35:15.560 werden. Wir denken da zum Beispiel an den Microsoft Chatbot, der ganz ähnliche 00:35:15.560 --> 00:35:22.130 Phänomene gezeigt hat. Also der dann auch sehr rassistische Chat-Nachrichten 00:35:22.130 --> 00:35:26.880 geschrieben hat. Das letzte relevante Beispiel zum Thema Bias soll aus dem 00:35:26.880 --> 00:35:32.130 Bereich des übertragenden Lernens kommen. Hierbei ist das Ziel das Lösen einer 00:35:32.130 --> 00:35:37.490 Aufgabe. Und diese Aufgabe hat aber nur wenige Datenpunkte. Und das sind nicht 00:35:37.490 --> 00:35:40.960 genug, um den Algorithmus erfolgreich lernen zu lassen. Aber es gibt eine 00:35:40.960 --> 00:35:44.950 ähnliche Aufgabe, die erfolgreich gelöst werden kann. Und die Idee ist nun, dass 00:35:44.950 --> 00:35:50.100 gut funktionierende Modell zu verwenden um unseren eigentlichen Problemen zu helfen. 00:35:50.100 --> 00:35:57.310 Diese Technik führt aber wieder zu Verzerrungen, die nur schwer bestimmt und 00:35:57.310 --> 00:36:00.750 kontrolliert werden können. Das wird klar, wenn wir ein konkretes 00:36:00.750 --> 00:36:04.440 Beispiel betrachten. Wir können eine ganze Halle voll Roboterarme stellen, um ihnen 00:36:04.440 --> 00:36:10.180 bestimmte motorische Aufgaben beizubringen. Aber selbst 1000 Roboterarme 00:36:10.180 --> 00:36:17.530 lernen nur mühsam. Was also gang und gäbe ist in der modernen Robotik, sind dass man 00:36:17.530 --> 00:36:23.020 Systeme in Simulationen üben lässt. Systeme werden also für Tausende Jahre in 00:36:23.020 --> 00:36:26.730 Simulationen geübt. Das ist natürlich aber nie Realität. Also wir denken da an 00:36:26.730 --> 00:36:31.540 Gravitationssimulationen, die Fehler enthalten kann. Lichtbedingungen, die 00:36:31.540 --> 00:36:34.910 nicht ganz real sind, oder der idealisierte Roboterarm, der hier 00:36:34.910 --> 00:36:40.190 verwendet wird. In diesem Zusammenhang möchte ich auch sagen, wie attraktiv auch 00:36:40.190 --> 00:36:44.100 die Zukunft mit selbstfahrenden Autos erscheinen mag, mit ihren Versprechen nach 00:36:44.100 --> 00:36:47.970 mehr Platz in den Städten, weniger Unfällen und effektiverer Verkehrsführung, 00:36:47.970 --> 00:36:51.581 so sollte man auch sehr skeptisch sein, denn auch diese Systeme haben die meiste 00:36:51.581 --> 00:36:58.840 Lebenserfahrung in Simulationen gesammelt. Eine ganz andere Betrachtungsweise auf 00:36:58.840 --> 00:37:03.140 Daten ist die der Datendichte. Daten können dicht beieinander liegen oder weit 00:37:03.140 --> 00:37:09.380 voneinander entfernt. In Bereichen mit vielen Daten ist es oft einfach korrekte 00:37:09.380 --> 00:37:13.650 Aussagen zu treffen. Neue Datenpunkte in diesen Bereichen zu beschreiben nennt man 00:37:13.650 --> 00:37:18.640 Interpolation. Wohingegen Bereiche mit wenigen Daten oder keinen Datenpunkten 00:37:18.640 --> 00:37:22.920 sehr schwer zu beschreiben sind. Diese Aufgabe beschreibt man mit Extrapolation. 00:37:22.920 --> 00:37:27.692 Korrektes extrapolieren ist im Allgemeinen nicht möglich oder nur möglich, wenn man 00:37:27.692 --> 00:37:30.500 korrekte Annahmen über den Entstehungsprozess der Daten macht. 00:37:30.500 --> 00:37:35.790 Interpolieren, also das Wandern von einem oder mehreren Datenpunkte zum anderen, 00:37:35.790 --> 00:37:40.570 kann so wichtige Fragen des Alltags beantworten wie: Wie würde das Kind von 00:37:40.570 --> 00:37:46.650 Kim Jong-un und Donald J. Trump aussehen? Neueste Anwendungen dieser Technik 00:37:46.650 --> 00:37:51.280 beinhalten auch das gezielte Verändern von Video in Bild und Sprache. Beispielsweise 00:37:51.280 --> 00:37:55.470 wurde hier das Gesicht von der Hauptdarstellerin des Wonder Woman Films, 00:37:55.470 --> 00:38:01.670 Gal Gadot, auf einen pornografischen Film gelegt. Und man muss nicht weit denken um 00:38:01.670 --> 00:38:03.370 sich die Konsequenzen solcher Techniken, für 00:38:03.370 --> 00:38:07.440 Fake News zum Beispiel, vorzustellen. Im extremsten Fall 00:38:07.440 --> 00:38:12.420 gibt es sehr wenige oder keine Daten wo eine Aussage getroffen werden soll. Nun 00:38:12.420 --> 00:38:16.220 ist es wichtig, die richtigen Annahmen zu treffen um extrapolieren zu können. Das 00:38:16.220 --> 00:38:20.730 haben wir bereits gesagt. Das ist aber eine extrem schwere Aufgabe, zu der auch 00:38:20.730 --> 00:38:24.750 moderne Wissenschaft nur wenige und unvollständige Antworten weiß. Was also 00:38:24.750 --> 00:38:28.331 anstatt in aller Regel passiert, ist, dass Algorithmen keine Annahmen machen. Und das 00:38:28.331 --> 00:38:33.630 kann zu unvorhergesehenen Phänomenen führen. Im schlimmsten Fall kann man 00:38:33.630 --> 00:38:38.530 dieses Wissen auch nutzen zu sogenannten feindlichen Attacken auf Algorithmen. Eine 00:38:38.530 --> 00:38:43.340 Attacke verläuft beispielsweise so: Man nehme einen Datenpunkt aus dem Datenset 00:38:43.340 --> 00:38:47.430 und dessen beschreibende Merkmale, also hier z.B. die Bilder von Verkehrsschildern 00:38:47.430 --> 00:38:48.430 und die Verkehrsschilder. 00:38:48.430 --> 00:38:49.430 [38:48] 00:38:49.430 --> 00:38:54.090 Man suche dann fernab von den Daten einen Punkt der sehr ähnlich ist, den aber der 00:38:54.090 --> 00:38:58.830 Algorithmus mit all mit einem ganz anderen Merkmal beschreiben würde. Und das 00:38:58.830 --> 00:39:08.910 gruselige ist, dass dies auch funktioniert mit ausgedruckten Version derselben 00:39:08.910 --> 00:39:13.580 Attacke. Und wenn man nicht dieselben Daten und nicht einmal denselben dasselbe 00:39:13.580 --> 00:39:19.470 Modell kennt oder verwendet. Wen das interessiert dem empfehle ich sehr für die 00:39:19.470 --> 00:39:22.700 nächste Präsentation zu bleiben. Das wird glaube ich ja der Kernpunkt der nächsten 00:39:22.700 --> 00:39:27.780 Präsentation sein. Abschließend zum Thema Möchte ich nochmal ganz deutlich machen, 00:39:27.780 --> 00:39:33.350 dass in allen Systemen des modernen maschinellen Lernens Korrelation evaluiert 00:39:33.350 --> 00:39:39.320 wird und nicht Kausalität. Mathematische Kausalitätsforschung, also dem Suchen nach 00:39:39.320 --> 00:39:43.450 Ursache und Effekt für komplexe Systeme ist erstens ein Kinderschuh und 00:39:43.450 --> 00:39:47.440 Korrelation zu finden und zu beschreiben ist nur einer der Schritte der dazu nötig 00:39:47.440 --> 00:39:53.320 ist. Bevor ich die Frage dann- die Runde für Fragen öffne haben Hendrik und ich 00:39:53.320 --> 00:39:56.050 noch ein Anliegen. Also ich hoffe wir haben umfassend die technischen 00:39:56.050 --> 00:40:00.220 Möglichkeiten des maschinellen Lernens dargestellt und welche Begrenzungen es 00:40:00.220 --> 00:40:06.150 aufweist. Letzteres soll und wird uns als Gesellschaft aber nicht davon abhalten 00:40:06.150 --> 00:40:11.140 diese großartigen Fortschritte zu geniessen. Also denken wir an Mediziner 00:40:11.140 --> 00:40:14.850 und Molekulare Biologie in denen diese Techniken großes Versprechen und auch 00:40:14.850 --> 00:40:19.740 schon geliefert haben. Daraus ergeben sich trotzdem große politische Fragen die uns 00:40:19.740 --> 00:40:23.490 alle etwas angehen. Entscheidungen die Wissenschaftler nicht alleine treffen 00:40:23.490 --> 00:40:28.570 können, wollen oder sollten. Also wir müssen uns Sachen fragen wie: Wer soll im 00:40:28.570 --> 00:40:32.810 konkreten Fall Entscheidungen treffen, Menschen oder Maschinen. Wer ist Schuld 00:40:32.810 --> 00:40:38.500 wenn Fehler passieren: Ingenieure, Firmen, Staat oder vielleicht gar niemand. Wie 00:40:38.500 --> 00:40:44.290 können staatliche Garantien wie Gleichheit juristisch umgesetzt werden im Angesicht 00:40:44.290 --> 00:40:49.700 solcher neuen Algorithmen. Und natürlich auch wie können Algorithmen oder sollten 00:40:49.700 --> 00:40:53.390 Algorithmen reguliert werden. An der Stelle möchte ich mich bedanken für 00:40:53.390 --> 00:40:57.070 Aufmerksamkeit und würde die Runde eröffnen für Fragen. 00:40:57.070 --> 00:41:12.620 Herald-Angel: Vielen Dank Karen, vielen 00:41:12.620 --> 00:41:19.430 Dank Hendrik. Wenn ihr Fragen habt, bitte an den Mikros aufstellen. Und dann 00:41:19.430 --> 00:41:21.770 entsprechend warten. Mikrophon 1 bitteschön. 00:41:21.770 --> 00:41:24.420 Mikrofon 1: Ja, vielen Dank für den 00:41:24.420 --> 00:41:31.360 großartigen Vortrag, war super spannend und es ist ein sehr sehr wichtiges Thema, 00:41:31.360 --> 00:41:35.900 wie gehen wir damit um, weil es wirklich Auswirkungen hat auf die politische 00:41:35.900 --> 00:41:41.650 Organisation, auf die Demokratie, all diese Sachen. Jetzt vom Beispiel das 00:41:41.650 --> 00:41:45.250 Hendrik gebracht hat, im ersten Teil ging's ja jetzt auch zum Beispiel über die 00:41:45.250 --> 00:41:51.820 Anwendung von KI für ja sagen wir politische Propaganda, könnte man auch 00:41:51.820 --> 00:41:58.300 sehen, Cambridge Analytica, die ganzen Sachen und gleichzeitig als zweites Thema 00:41:58.300 --> 00:42:03.720 die Filterbubbles die sich bilden, also wo natürlich eine Verstärkung dieses 00:42:03.720 --> 00:42:09.100 Phaenomens möglich ist. Meine Frage, die ich mich in diesem Jahr gestellt habe, mit 00:42:09.100 --> 00:42:19.580 Brexit, mit Trumpwahlen und so weiter, was sind die Möglichkeiten die sich bieten um 00:42:19.580 --> 00:42:26.890 dem entgegenzuwirken, dass sich Meinungen so stark durch Filterbubbles polarisieren, 00:42:26.890 --> 00:42:33.860 dass Leute durch Targeted Advertisement beeinflusst werden, die mit AI generiert 00:42:33.860 --> 00:42:41.060 werden und Big Data. Wie ja- habt ihr konkrete Vorschläge? 00:42:41.060 --> 00:42:44.060 Hendrik: Vielen Dank für die Frage. Es 00:42:44.060 --> 00:42:47.900 geht also darum was man jetzt gegen diese Probleme insbesondere im politischen 00:42:47.900 --> 00:42:52.620 Bereich machen kann. Und es ist natürlich eine riesige Frage, wird uns warscheinlich 00:42:52.620 --> 00:42:57.400 auch noch lange Begleiten, ich glaube kognitive Diversität im Bekannten- und 00:42:57.400 --> 00:43:02.630 Freundeskreis, ganz wichtig, vor allem aber auch in Unternehmen. Und unsere Ansätze, so 00:43:02.630 --> 00:43:06.490 kommen sie ja zusammen, mir gehts ja darum wie können wir Leute untersützten, wie 00:43:06.490 --> 00:43:09.931 machen wir Visualisierungen, wie machen wir Algorithmen sichtbar, wie helfen wir 00:43:09.931 --> 00:43:13.861 den Leuten zu verstehen was da passiert. Meine Perspektive, Karens Perspektive 00:43:13.861 --> 00:43:17.300 dann: Wie können wir die ALgorithmen, die Blackbox aufmachen, wie können wir 00:43:17.300 --> 00:43:21.200 erklären, wie kann ein System auch sagen wie sicher es ist mit seiner Vorhersage. 00:43:21.200 --> 00:43:28.280 Also es gibt ja auch viel Arbeit, es gibt die Fairness, Transparency... Fairness, 00:43:28.280 --> 00:43:32.230 Accountability, and Transparency in Machine Learning fatml.org. Da gibt es 00:43:32.230 --> 00:43:35.630 eine ganz große Gruppe von Leuten die sich damit auseinandersetzt, auch aus ganz 00:43:35.630 --> 00:43:39.070 verschiedenen Richtungen, weil es gibt viel Arbeit dazu in der Psychologie, in 00:43:39.070 --> 00:43:43.700 der Soziologie, aber auch halt in der Informatik. Genau fatml.org ist eine sehr 00:43:43.700 --> 00:43:44.700 gute Addresse für sowas. 00:43:44.700 --> 00:43:50.630 Herald-Angel: Eine Bitte an die, die gerade rausgehen: Macht das bitte so leise 00:43:50.630 --> 00:43:54.010 wie es geht und versucht durch die Tür zu meiner Linken, zu eurer Rechten dort 00:43:54.010 --> 00:44:00.790 hinten, den Saal zu verlassen, danke schön. 00:44:00.790 --> 00:44:04.790 Jawohl, Mikrofon 5, du hast eine Frage? 00:44:04.790 --> 00:44:08.960 Mikrophon 5: Ja, eher ein kurzer Kommentar aus dem Bereich des Machine Learnings, ist 00:44:08.960 --> 00:44:13.170 das, was wir da gesehen haben bei der bei dem Gorillabeispiel, ebenso bei dem 00:44:13.170 --> 00:44:18.550 Übersetzungsbeispiel nicht eher ein Bias in der Kostenfunktion? Dadurch, dass wir 00:44:18.550 --> 00:44:22.380 dem Algorithmus gesagt haben, es ist genauso teuer, wenn du die Klasse Gorilla 00:44:22.380 --> 00:44:27.410 mit der Klasse mit einer anderen Klasse verwechselst, versus, dass wir die 00:44:27.410 --> 00:44:33.470 Oberklasse Mensch mit der Oberklasse Tier verwechselst, oder in dem Genderbeispiel 00:44:33.470 --> 00:44:37.900 dass "Er" und "Sie" als Verwechselung eines einzelnen Worts genauso teuer sind 00:44:37.900 --> 00:44:40.800 wie beliebige andere Worverwechselungen. 00:44:40.800 --> 00:44:44.620 Hendrik: Sehr guter Punkt. Also man kann natürlich in der Kostenfunktion dagegen 00:44:44.620 --> 00:44:48.350 vorwirken, man kann sagen dieser Fehler ist schlimmer für uns als der andere 00:44:48.350 --> 00:44:53.150 Fehler, aber wenn wir davon ausgehen, dass alle Klassen gleich sind und wir einfach 00:44:53.150 --> 00:44:56.550 für alle Klassen gleich gute Ergebnisse haben wollen, und das kommt ja aus Google 00:44:56.550 --> 00:45:01.030 Fotos, wo wir das für alle Kategorien machen wollen, dann ist es halt da kommt 00:45:01.030 --> 00:45:04.180 der Mensch wieder rein. Das ist dann nichtmehr allgemeines Machine Learning, 00:45:04.180 --> 00:45:07.520 sondern wieder so Frickellösung. Und dieses Problem des Bias, und darum gings 00:45:07.520 --> 00:45:11.160 ja, ist einfach dem Machine Learning inherent, und wir müssen damit umgehen. 00:45:11.160 --> 00:45:14.110 Und ich glaube nicht, dass man das einfach in die Kostenfunktion schreiben kann. Oder 00:45:14.110 --> 00:45:15.560 willst du noch was dazu sagen? 00:45:15.560 --> 00:45:21.770 Karen: Ja der Punkt von dem Beispiel war ja auch quasi wie einerseits da muss ein 00:45:21.770 --> 00:45:27.240 falscher Datenpunkt exestiert haben, und wie das quasi durch die ein Bias 00:45:27.240 --> 00:45:30.350 vielleicht, oder eine Annahme in der Kostenfunktion dann eigentlich noch viel 00:45:30.350 --> 00:45:34.900 verstärkt wird. Es geht ja darum wie quasi eine Negativ-Spirale manchmal losgetreten 00:45:34.900 --> 00:45:38.240 werden kann. Dadurch, dass wir einerseits Bias in den Daten haben, aber auch andere 00:45:38.240 --> 00:45:42.750 gewisse Annahmen machen, die vielleicht die Realität zu sehr vereinfachen. 00:45:42.750 --> 00:45:44.540 Das war ja der Punkt dieses Beispiels. 00:45:44.540 --> 00:45:47.670 Hendrik: Und vielleicht dazu noch: Das sind natürlich sehr offensichtliche 00:45:47.670 --> 00:45:50.970 Beispiele, auch um das hier deutlich zu machen. Es gibt natürlich auch immer diese 00:45:50.970 --> 00:45:55.220 Blindstellen, Blindspots, wo halt was passiert, von dem wir das garnicht wissen. 00:45:55.220 --> 00:45:57.530 Das ist ja auf eine Art auch ein Blindspot, der vielleicht auch damit 00:45:57.530 --> 00:46:02.260 zusammenhängt, dass Google nicht divers genug ist und nicht genug Leute derartige 00:46:02.260 --> 00:46:04.940 Daten damit getestet haben, bevor sie es public gemacht haben. 00:46:04.940 --> 00:46:08.450 Herald-Angel: Mikrophon 1, deine Frage. 00:46:08.450 --> 00:46:11.420 Mikrophon 1: Ja vielen Dank, euer Vortrag 00:46:11.420 --> 00:46:15.290 war ja so ein bischen als Einführung gedacht, das Thema auf die Agenda zu 00:46:15.290 --> 00:46:17.750 bringen, was ich ganz großartig finde, aber deswegen hätte ich jetzt eher so eine 00:46:17.750 --> 00:46:21.820 Kommunikationsstrategische Frage. Ihr habt ja ganz viel über Bias gesprochen, über 00:46:21.820 --> 00:46:25.260 Verzerrung, wenn man das so sagt denkt man implizit ganz oft an neutral und 00:46:25.260 --> 00:46:29.940 Unverzerrt, und ich fands toll, du hattest ja das No-Free-Lunch-Theorem da, also 00:46:29.940 --> 00:46:33.250 sagen: Machine Learning ohne Bias gibt's garnicht, du hast auch gerade gesagt, das 00:46:33.250 --> 00:46:36.920 ist Machine-Learning inherent. Aber das ist ja ganz wichtig zu sagen, deswegen 00:46:36.920 --> 00:46:40.080 wollte ich einfach mal fragen wenn es um politische Debatten geht, um öffentliche 00:46:40.080 --> 00:46:44.260 Debatten geht, ob ihr dann denkt, dass Bias und Verzerrung sozusagen der richtige 00:46:44.260 --> 00:46:48.770 Header ist, um das alles zu thematisieren. Weil es eben dieses Neutrale, Unverzerrte 00:46:48.770 --> 00:46:52.880 immer mit impliziert, oder ihr denkt, dass man das dann nochmal anders framen müsste. 00:46:52.880 --> 00:46:54.890 Hendrik: Wir sind aufjedenfall keine 00:46:54.890 --> 00:46:59.410 Kommunikationsstrategen. Es gibt natürlich viele hervorragende Mediensoziologen, 00:46:59.410 --> 00:47:02.650 Kommunikationswissenschaftler, die das warscheinlich viel besser machen können. 00:47:02.650 --> 00:47:07.950 Wir wollten jetzt erstmal in diesem Rahmen zeigen, welche Probleme wir als Techniker, 00:47:07.950 --> 00:47:12.380 als Informatiker - wir promovieren ja beide zu diesen Themen - sehen. Also... 00:47:12.380 --> 00:47:16.520 Also das ist wird uns ja aber auch noch sehr lange beschäftigen, das richtig an 00:47:16.520 --> 00:47:17.520 die Leute zu bringen. 00:47:17.520 --> 00:47:22.860 Herald-Angel: Okay, Dankeschön. Wir haben eine Frage aus dem IRC. 00:47:22.860 --> 00:47:25.540 Signal-Angel: Ja, danke, eine Frage aus 00:47:25.540 --> 00:47:28.530 dem Internet: Hat menschliches Lernen nicht genau genommen die selben Probleme 00:47:28.530 --> 00:47:32.730 wie maschienelles Lernen? Oder gibt es da im Prinzipiellen Unterschiede? 00:47:32.730 --> 00:47:38.750 Hendrik: Ich guck mal zu dir. 00:47:38.750 --> 00:47:42.590 Karen: Also, das ist eine Frage, die 00:47:42.590 --> 00:47:44.441 natürlich nicht nur das maschienelle Lernen betrifft, sondern auch die 00:47:44.441 --> 00:47:48.690 Psychologie, oder die Evolutionsforschung, zu der ich mich nicht auskenne. Der 00:47:48.690 --> 00:47:56.680 Algorithmus oder die Idee, die Grundidee des maschienellen Lernens ist ja quasi 00:47:56.680 --> 00:48:01.720 Fehler festzustellen, und die dann zu kommunizieren und das Modell wird dann 00:48:01.720 --> 00:48:05.890 daraufhin besser. Ob das jetzt bei uns Menschen so funktioniert, ich bin mir 00:48:05.890 --> 00:48:12.250 nicht sicher ob das jemals jemand genauso gesagt hat. Aber ich glaube im Sinne von, 00:48:12.250 --> 00:48:19.020 dass unser Gehirn optimiert, das wird, oder das habe ich bestreiten gehört von 00:48:19.020 --> 00:48:24.400 Psychologen. Also die Frage ist nicht so sehr wie, oder das Problem, dass ich mit 00:48:24.400 --> 00:48:26.770 der Frage habe ist nicht so sehr wie jetzt das maschienelle Lernen funktioniert, 00:48:26.770 --> 00:48:29.590 sondern wie wir selbst funktionieren. Ich glaube wir sind gerade auf dem Weg das 00:48:29.590 --> 00:48:34.540 herauszufinden und die Modelle des Machine Learnings, maschienellen Lernens sind oft 00:48:34.540 --> 00:48:39.100 nur grobe Vereinfachungen dafür wie wir selbst funktioneren. 00:48:39.100 --> 00:48:40.790 Hendrik: Genau, ich würde auch sagen, es 00:48:40.790 --> 00:48:44.930 ist bio-inspiriert, aber es gab auch eine Zeit wo alles Maschienen waren, der Körper 00:48:44.930 --> 00:48:48.550 als Maschine. Das ist halt die Metapher ihrer Zeit. Jetzt haben wir diese 00:48:48.550 --> 00:48:52.400 künstlichen neuronalen Netzwerke und jetzt sind das die Metaphern, die wir nutzen, 00:48:52.400 --> 00:48:55.570 also ich glaube da ist ein fundamentaler Unterschied zwischen menschlichem und 00:48:55.570 --> 00:48:56.570 künstlichem Lernen. 00:48:56.570 --> 00:49:00.530 Karen: Ja es gibt auch so einen zentralen Leitsatz im maschinellen Lernen, der 00:49:00.530 --> 00:49:05.170 besagt, dass alle Modelle falsch sind, und einige vielleicht nützlich sind. Und ich 00:49:05.170 --> 00:49:08.470 denke das trifft auch auf uns Menschen zu, alle Modelle die wir verwenden, alle 00:49:08.470 --> 00:49:11.510 Annahmen die wir machen, alle Stereotypen die wir benutzen, die sind vielleicht 00:49:11.510 --> 00:49:17.130 manchmal nützlich, aber in der Gesamtheit immer falsch. Ich denke das trifft für 00:49:17.130 --> 00:49:25.060 Menschen und Maschinen zu. Applaus 00:49:25.060 --> 00:49:28.171 Herald-Angel: Dankeschön. Mikrophon 4, 00:49:28.171 --> 00:49:29.171 deine Frage. 00:49:29.171 --> 00:49:36.860 Mikrophon 4: Vielleicht eine etwas naive Frage, aber bestehen oder gibt es Metriken 00:49:36.860 --> 00:49:43.560 um diesen Bias, der uns täglich im Netz begegnet, zu bewerten? Also dass man das 00:49:43.560 --> 00:49:49.330 schon visualisieren kann oder vermitteln kann, dass man sich in einem hohen Bias 00:49:49.330 --> 00:49:56.250 also einer hohen Verzerrung bewegt oder auf Glatteis läuft in dem Sinne. Ein hoch 00:49:56.250 --> 00:50:04.080 komplexes Thema wirklich, runtergebrochen auf eine, ich sag mal, Bewusstbarmachung 00:50:04.080 --> 00:50:08.230 von hoher statistischer Verzerrung, die einen umgibt. 00:50:08.230 --> 00:50:10.870 Hendrik: Also es gibt durchaus Forschung 00:50:10.870 --> 00:50:14.870 in die Richtung es gibt z.B. die Civic Media Group am MIT Media Lab die sich mit 00:50:14.870 --> 00:50:18.341 soetwas aueinandersetzt. Das sind aber so einzelne Beispiele wo sie z.B. Leuten 00:50:18.341 --> 00:50:22.080 einfach mal zeigen, was für einen Gender- Bias sie bei den Leuten, die sie auf 00:50:22.080 --> 00:50:26.250 Twitter folgen, haben, also die folgen nur Männern z.B.. 00:50:26.250 --> 00:50:30.350 Solche Bewusstbarmachungen sind wichtig und sind glaube ich auch ein Teil des 00:50:30.350 --> 00:50:33.020 Puzzels, aber ich glaube die Medienpädagogik muss halt ernstgenommen 00:50:33.020 --> 00:50:36.180 werden, den Leuten muss das bewusst sein wenn wir diese Dinger benutzen wollen, 00:50:36.180 --> 00:50:40.930 wenn wir in solchen Autos rumfahren wollen, dann müssen wir das verstehen. Es 00:50:40.930 --> 00:50:44.560 gibt halt immer diese Blindspots und man kann einfach da nicht darauf eingehen, man 00:50:44.560 --> 00:50:47.460 kann nicht jeden Spot da bedenken vorher. 00:50:47.460 --> 00:50:54.240 Karen: Um die vielleicht Frage zu kontextualisieren von den Algorithmus- 00:50:54.240 --> 00:50:59.540 Wissenschaftlichen-Blickpunkt. Wir machen jetzt nicht unbedingt den Unterschied 00:50:59.540 --> 00:51:04.160 zwischen vielleicht dem was eine negative oder positive Verzerrung ist, also 00:51:04.160 --> 00:51:09.440 wahrgenommen wird, sondern für uns gibt es halt nur Merkmale die auf gewisse andere 00:51:09.440 --> 00:51:13.650 Merkmale schließen lassen und das führt dann wieder zu der Frage der Korrelation 00:51:13.650 --> 00:51:21.930 und wenn wir sagen wir haben oft ja Merkmale die Proxys sind für andere 00:51:21.930 --> 00:51:28.920 Merkmale, also wo ich wohne ist oft proxy dafür wie ich aussehe oder woher ich 00:51:28.920 --> 00:51:31.960 komme. Was ich also im Machine Learning machen 00:51:31.960 --> 00:51:34.580 kann, oder wie sich die Wissenschaft damit auseinandersetzt ist zu sagen, ok, wenn 00:51:34.580 --> 00:51:42.920 ich weiß welche Merkmale sensitiv sind, also welche ich nicht möchte dass die mein 00:51:42.920 --> 00:51:46.590 System korreliert mit der eigentlichen Aussage die das System treffen soll, dann 00:51:46.590 --> 00:51:54.210 kann quasi ich in meine Fehlerfunktion einen extra Term reinspeisen, der sagt du 00:51:54.210 --> 00:52:00.390 dekorrelierst jetzt das Ergebnis was du hast mit dem besonderen Merkmal was du als 00:52:00.390 --> 00:52:06.380 sensitiv also z.B. der Wohnort oder dein Bildungsstatus oder dein Einkommen, dass 00:52:06.380 --> 00:52:10.900 die keine Rolle spielen dafür, wie der Algorithmus Vorraussagen macht. 00:52:10.900 --> 00:52:15.630 Mikrophon 4: Was ich jetzt meinte war 00:52:15.630 --> 00:52:19.790 jetzt wirklich nicht die Unterscheidung zwischen gut und schlecht, sondern 00:52:19.790 --> 00:52:25.360 wirklich eine Visualisierung, dieser Datensatz oder dieses Ergebnis basiert auf 00:52:25.360 --> 00:52:31.590 wenigen Datensichten -- klar im Kontext kompliziert zu bewerkstelligen, aber dass 00:52:31.590 --> 00:52:37.520 man eine Möglichkeit findet sowas darzustellen dass diese Daten auf einer 00:52:37.520 --> 00:52:40.790 hohen Datendichte basieren und so weiter. 00:52:40.790 --> 00:52:46.020 Hendrik: Unsere Antwort is quasi, es gibt solche Sachen, es gibt sowas zu messen 00:52:46.020 --> 00:52:50.520 aber es ist immer eine Reduktion von Komplexität und da verliert man immer was 00:52:50.520 --> 00:52:53.970 und da muss man sich immer bewusst machen, wie viel reduzieren dürfen wir, wie 00:52:53.970 --> 00:52:55.810 einfach dürfen wir es machen. 00:52:55.810 --> 00:52:59.730 Karen: Zur Frage der Datensichte kann man vielleicht noch sagen, da ist wieder 00:52:59.730 --> 00:53:05.190 ein andere Kernansatz, der Bayesianische Kernansatz, der sich jetzt nicht die Frage 00:53:05.190 --> 00:53:10.010 stellt, wie ist meine Hypothese aufgrund der vorhandenen Daten zu bewerten sondern 00:53:10.010 --> 00:53:14.080 wie sind meine Daten aufgrund der verwedeten Hypothese zu bewerten. Das ist 00:53:14.080 --> 00:53:18.390 also nochmal eine ganz andere Ansicht auf die Sache und der wiederum erlaubt uns 00:53:18.390 --> 00:53:22.240 dann gewisse Unsicherheiten auszudrücken über Vorrausagen, die ich treffe. Also 00:53:22.240 --> 00:53:26.030 wenn jetzt zum Beispiel ein Datenpunkt über den ich eine Aussage treffen will 00:53:26.030 --> 00:53:30.740 weitab liegt von Daten die ich habe, dann wird dieser Ansatz oder wenn ich diesen 00:53:30.740 --> 00:53:34.200 Ansatz verwende wird mir dann sagen; über die Voraussage die ich jetzt treffe bin 00:53:34.200 --> 00:53:37.880 ich sehr unsicher und das ist eine Forschungsrichtung mit der sich viele 00:53:37.880 --> 00:53:44.210 Leute beschäftigen, die jetzt aber für diese großen, komplexen Systeme, ich würde 00:53:44.210 --> 00:53:46.380 sagen, noch sehr am Anfang steht. 00:53:46.380 --> 00:53:48.840 Herald-Angel: Mikrofon 1 bitte. 00:53:48.840 --> 00:53:53.460 Mikrofon 1: Danke für den super- interessanten Vortrag und danke auch an 00:53:53.460 --> 00:53:57.040 die Gebärden-Dolmetscherin, die hier ohne Unterlass die ganze Zeit übersetzt. 00:53:57.040 --> 00:54:10.450 Applaus Ich habe folgende Frage: Wie nützlich 00:54:10.450 --> 00:54:15.970 würdet ihr es einschätzen, das mit einer Qualitätskontrolle also einem 00:54:15.970 --> 00:54:21.020 Qualitätsmeilenstein für das Endergebnis zu kombinieren. Also als Beispiel; ein 00:54:21.020 --> 00:54:26.750 Auto ist dann hinreichend gut, wenn es im Verkehr weniger Leute umbringt als ein 00:54:26.750 --> 00:54:31.910 durschnittlicher menschlicher Fahrer oder sowas. Würde das einen zusätzlichen Nutzen 00:54:31.910 --> 00:54:36.060 ergeben? Kann man daraus noch mehr Rückschlüsse ziehen, oder sind das völlig 00:54:36.060 --> 00:54:37.230 getrennte Sachen? 00:54:37.230 --> 00:54:41.530 Karen: Also das ist eigentlich genau das worauf wir hinaus wollten, dass das eine 00:54:41.530 --> 00:54:44.260 politische Frage ist, die wir nicht beantworten wollen. 00:54:44.260 --> 00:54:45.260 Hendrik: Oder eine juristische. 00:54:45.260 --> 00:54:46.580 Karen: Oder eine juristische, das müsst 00:54:46.580 --> 00:54:49.220 ihr sagen, was ihr richtig findet, das ist doch nicht unsere Aufgabe zu sagen ... 00:54:49.220 --> 00:54:50.271 Hendrik: Nein also die Gesellschaft muss 00:54:50.271 --> 00:54:53.590 es aushandeln, wir können Probleme aufzeigen, aber die Antwort muss die 00:54:53.590 --> 00:54:55.020 Gesellschaft als ganzes finden. 00:54:55.020 --> 00:54:59.000 Mikrophon 1: Das ist klar, die Frage ist nur, wenn man so einen Punkt definiert hat 00:54:59.000 --> 00:55:02.430 und sich dann die Ergebnisse anschauen würde, die kurz vor und kurz nach diesem 00:55:02.430 --> 00:55:06.010 Punkt aufgetreten sind, ob das Rückschlüsse zulassen würde auf 00:55:06.010 --> 00:55:09.539 irgendeinen Bias oder irgendwelche anderen Sachen, oder ob dieser Punkt völlig 00:55:09.539 --> 00:55:11.180 unerheblich für euch wäre. 00:55:11.180 --> 00:55:13.550 Hendrik: Kannst du nochmal den Punkt benennen? 00:55:13.550 --> 00:55:15.250 Mikrophon 1: Also man definiert 00:55:15.250 --> 00:55:20.990 irgendeinen Punkt x, der ein bestimmtes Qualitätskriterium hat. Also der Wagen 00:55:20.990 --> 00:55:25.330 bringt eben nicht mehr Menschen um als ein durchschnittlicher Fahrer sondern weniger. 00:55:25.330 --> 00:55:32.900 Sind die Ergebnisse die um diesen Punkt liegen, die man dann messen kann. Sind die 00:55:32.900 --> 00:55:36.160 in irgendeiner Art relevant für den Ausgang, kann man da irgendwelche 00:55:36.160 --> 00:55:40.030 Rückschlüsse daraus ziehen, oder ist das nur irgendein Punkt, wie jeder andere 00:55:40.030 --> 00:55:41.030 auch? 00:55:41.030 --> 00:55:44.220 Hendrik: Also ich finde das problematisch, diesen Punkt zu finden, weil man ja auch 00:55:44.220 --> 00:55:47.970 den ganzen Kontext sehen muss bei den Autounfällen und warum sie passieren, also 00:55:47.970 --> 00:55:52.061 welche Gründe sie haben und das ganze datafizieren, das in einen Punkt zu 00:55:52.061 --> 00:55:55.850 pressen, und den dann als Evaluationsmetrik für was anderes 00:55:55.850 --> 00:55:58.695 hochkomplexes zu nehmen halte ich für sehr problematisch, ich glaube da ist wirklich, 00:55:58.695 --> 00:56:02.300 das meint Karen, die politsche Antwort wichtiger. 00:56:02.300 --> 00:56:04.600 Karen: Beim konkreten Beispiel von 00:56:04.600 --> 00:56:07.640 selbstfahrenden Autos muss man natürlich auch sagen, dass es das echte 00:56:07.640 --> 00:56:11.470 selbstfahrende Auto nie üben kann einen Crash zu haben, also dieses Crash-Szenario 00:56:11.470 --> 00:56:14.100 kann natürlich nie geübt werden, also wir wollen da ja natürlich niemanden sterben 00:56:14.100 --> 00:56:18.240 lassen oder nicht so viele Autos crashen, das ist ein bisschen teuer. Das heißt 00:56:18.240 --> 00:56:21.940 Crash-Szenarios werden eigentlich auch immer nur in der Simulation geübt und das 00:56:21.940 --> 00:56:26.500 ist genau das Problem, dass wir heute -- zumindest soweit ich das weiß -- sehr 00:56:26.500 --> 00:56:31.890 wenige Szenarien haben in denen wir sagen können; wenn wir jetzt in der Simulation 00:56:31.890 --> 00:56:37.910 geübt haben, was für Annahmen übernehmen wir denn dann in die echte Welt. Die 00:56:37.910 --> 00:56:43.140 einfach nur benennen zu können würde uns ja schon helfen eventuelle Fehlerszenarien 00:56:43.140 --> 00:56:47.100 vorrauszusagen, aber selbst das Benennen dieser Annahmen das fällt uns ja selbst 00:56:47.100 --> 00:56:52.080 schon schwer, also das ist noch ein weiter Weg. 00:56:52.080 --> 00:56:53.920 Herald-Angel: Mikro 1 00:56:53.920 --> 00:56:58.800 Mikrofon 1: Auch vielen Dank für den 00:56:58.800 --> 00:57:05.630 Vortrag. Die ganze Diskussion über die Biase, die ihr ja getrieben habt, besagt 00:57:05.630 --> 00:57:09.120 ja letztlich, dass es darum geht die Wahrheit zu finden, Wahrheit und letztlich 00:57:09.120 --> 00:57:13.480 eine Stichprobe der Wahrheit dem Computer zum Lernen zu geben und das bringt mich 00:57:13.480 --> 00:57:16.600 dann zu der Parallele in der Wissenschaft haben wir das ja auch, also wie sieht 00:57:16.600 --> 00:57:21.230 meine Stichprobe aus, die ideale Stichprobe, oder ist da ein Bias drin. 00:57:21.230 --> 00:57:25.590 Habt ihr diese Parallele schonmal gedanklich gezogen oder ist das ... ja. 00:57:25.590 --> 00:57:28.060 Hendrik: Also wir sind ja Wissenschaftler 00:57:28.060 --> 00:57:31.940 und wir müssen natürlich auch erstmal für uns wissen, ob was wir herasugefunden 00:57:31.940 --> 00:57:35.540 haben, gerade wenn wir mit Menschen arbeiten, wir hatten ja gestern auch den 00:57:35.540 --> 00:57:42.170 Vortrag "Science is broken", der da irgendwie, also es ist immer schwierig die 00:57:42.170 --> 00:57:45.920 richtige Samplesize zu haben um die Effectsize zu berücksichtigen, um zu 00:57:45.920 --> 00:57:48.550 wissen, dass man was weiß, das sind ja epistemische Fragen. 00:57:48.550 --> 00:57:49.990 Mikrophon 1: Aber gibt's da irgendwie 00:57:49.990 --> 00:57:54.440 schon für neuronale Netze irgendwelche Richtwerte, dass man dann irgendwie weiß. 00:57:54.440 --> 00:57:58.510 Weil in der Psychologie lernt man, dass die Sampelsize muss mindestens 5.000 Bla 00:57:58.510 --> 00:58:01.690 betragen, keine Ahnung, oder so und so Prozente. Gibt's Richtwerte, gibt's sowas 00:58:01.690 --> 00:58:07.440 schon für neuronale Netze? In Abhängigkeit der Layer oder der Parameter oder..? 00:58:07.440 --> 00:58:09.700 Hendrik: Nicht dass ich wüsste, weisst du 00:58:09.700 --> 00:58:10.700 was? 00:58:10.700 --> 00:58:14.200 Karen: Die Frage geht jetzt vielleicht ein bisschen tief. Für frühe Systeme, also 00:58:14.200 --> 00:58:22.680 sehr einfache neuronale Netze, die aus den Anfang der 90ern, so wie Boltzmann-machines oder 00:58:22.680 --> 00:58:28.990 Hofman-Networks. Für solche Sachen kann man sagen, wenn die Saturieren und mit 00:58:28.990 --> 00:58:34.800 wievielen Bits an Daten man da reingeht bis die Saturieren. Für aber diese hoch- 00:58:34.800 --> 00:58:40.590 nicht-linearen Systeme, die wir jetzt verwenden, kann man das nicht sagen, oder 00:58:40.590 --> 00:58:47.370 nur asymptothisch sagen. Es gibt viel Forschung zu dem Thema, aber nichts, was 00:58:47.370 --> 00:58:50.721 jetzt besonders handfest wäre; sagen wir mal so. Oder man jetzt im echten Leben 00:58:50.721 --> 00:58:51.721 verwenden könnte. 00:58:51.721 --> 00:58:56.000 Mikrophon 1: Ja gut, dann irgendwie so eine Ausage zu haben, so und so viele 00:58:56.000 --> 00:58:58.760 Testdatensampels brauchst du für dein neuronales Netz, wenn das so und so 00:58:58.760 --> 00:59:02.990 strukturiert ist. Irgendwie, das könnte vielleicht eine Form von Verifikation oder 00:59:02.990 --> 00:59:05.750 Validierung, Pre-Validierung bringen, irgendwie. 00:59:05.750 --> 00:59:08.350 Hendrik: Ja, das macht man ja. Man hat ja 00:59:08.350 --> 00:59:12.130 einen großen Datensatz, einen Trainingsdatensatz, einen Testdatensatz 00:59:12.130 --> 00:59:15.940 und einen Validierungsdatensatz, mit dem man dann nochmal guckt, was haben wir 00:59:15.940 --> 00:59:18.740 wirlich gelernt und haben wir nicht einfach nur die Eigenheiten des 00:59:18.740 --> 00:59:22.220 Datensatzes auswendig gelernt. Haben wir wirklich generalisiert. Also auf dem 00:59:22.220 --> 00:59:26.370 Niveau passiert das schon. Auf dem höheren Niveau wäre das bestimmt noch eine 00:59:26.370 --> 00:59:27.530 hervorragende Doktorarbeit. 00:59:27.530 --> 00:59:30.430 Herald-Angel: Mikro 5, deine Frage? 00:59:30.430 --> 00:59:36.680 Mikrofon 5: Vielen Dank für den Vortrag. Meine Frage ist: Diese Biases, die sind ja 00:59:36.680 --> 00:59:40.710 jetzt nicht neu, die kennt man ja seit Dekaden in der Statistik. Was hat sich 00:59:40.710 --> 00:59:46.610 denn mit der künstlichen Intelligenz, bzw. mit Deep Learning geändert? Und daran 00:59:46.610 --> 00:59:51.860 anschließend: Kennt ihr irgendwelche Studien, dass solche Filterblasen wirklich 00:59:51.860 --> 00:59:55.040 irgendwelche tatsächlichen messbaren Auswirkungen haben? Weil man hört 00:59:55.040 --> 00:59:59.850 unglaublich viel in den Medien, aber mir ist keine belastbare Studie bekannt, die 00:59:59.850 --> 01:00:05.850 sagt, dass das da tatsächlich was verschlimmert wird, was nicht vorher schon 01:00:05.850 --> 01:00:07.160 da war. 01:00:07.160 --> 01:00:10.530 Hendrik: Ich hab die erste Frage schon wieder vergessen. Kannst du einmal noch 01:00:10.530 --> 01:00:11.530 die erste sagen? 01:00:11.530 --> 01:00:16.580 Mikrophon 5: Die erste Frage war, was sich geändert hat, weil diese Biases, die sind 01:00:16.580 --> 01:00:17.580 ja jetzt nicht neu. 01:00:17.580 --> 01:00:20.570 Hendrik: Genau, nein, die sind natürlich nicht neu. Und die ganzen Vorurteil sind 01:00:20.570 --> 01:00:24.060 auch nicht neu. Ich glaube, es wird halt einfach sehr, sehr viel Machine Learning 01:00:24.060 --> 01:00:27.710 gerade benutzt. Auch aus sehr guten Gründen. Also, z.B. es gibt hervoragende 01:00:27.710 --> 01:00:31.650 Python Bibliotheken, es gibt hervoragende R Bibliotheken, die das super einfach 01:00:31.650 --> 01:00:37.090 machen. Die Unis lehren das fast überall. Data Science ist der große Hypeterm, und 01:00:37.090 --> 01:00:39.810 das wird einfach nur nochmal drängender, weil Leute diese Sachen jetzt auf einmal 01:00:39.810 --> 01:00:44.340 in ihre Systeme reinschmeißen, die benutzen, um vielleicht Geld zu verdienen, 01:00:44.340 --> 01:00:49.640 sich aber dann dieser Probleme gar nicht bewusst sind. Und zur 2. Frage: Ich bin 01:00:49.640 --> 01:00:52.780 mir ziemlich sicher, dass es viel zu Echokammern gibt. Ich weiß nicht, was du 01:00:52.780 --> 01:00:56.950 gefragt hast, ob man das wirklich auch wissenschaftlich so testen kann? Also, wie 01:00:56.950 --> 01:01:01.560 da quasi der Versuchsaufbau aussähe? Aber es gibt, auch gerade in der Soziologie, 01:01:01.560 --> 01:01:10.300 viel zu Echokammern. Aber mir fällt gerade kein Autor ein dazu. 01:01:10.300 --> 01:01:12.620 Herald-Angel: Vielen Dank für den Vortrag. 01:01:12.620 --> 01:01:15.560 Ich sehe, dass da noch Fragen sind, aber leider ist die Zeit rum. Seid ihr noch da? 01:01:15.560 --> 01:01:16.980 Können die Leute euch noch ansprechen? 01:01:16.980 --> 01:01:17.670 Hendrik: OK. 01:01:17.670 --> 01:01:20.410 Herald-Angel: Super. Vielen, vielen Dank! 01:01:20.410 --> 01:01:23.790 Applaus 01:01:23.790 --> 01:01:43.390 Untertitel erstellt von c3subtitles.de im Jahr 2018. Mach mit und hilf uns!