WEBVTT
00:00:15.719 --> 00:00:21.530
Herald-Angel: Der nächste Vortrag ist
„Beeinflussung durch Künstliche
00:00:21.530 --> 00:00:27.170
Intelligenz". Es ist ein
Einführungsvortrag, also einer der
00:00:27.170 --> 00:00:31.580
explizit dazu gedacht ist, dass ihr das
ohne Vorkenntnisse versteht. Und es geht
00:00:31.580 --> 00:00:41.159
ums Maschinelle Lernen. Unsere Sprecher
sind die Karen – sie forscht in Amsterdam
00:00:41.159 --> 00:00:47.729
an Maschinellem Lernen, kommt ursprünglich
aus Leipzig – und der Hendrik Heuer, der
00:00:47.729 --> 00:00:55.440
in Bremen an Mensch-Computer-Interaktion
forscht. Großes Willkommen für die beiden!
00:00:55.440 --> 00:01:03.190
Applaus
00:01:03.190 --> 00:01:06.930
Hendrik Heuer: Vielen Dank! Moin erstmal!
Willkommen zu unserem Vortrag
00:01:06.930 --> 00:01:10.909
„Beeinflussung durch Künstliche
Intelligenz" über die Banalität der
00:01:10.909 --> 00:01:14.920
Beeinflussung und das Leben mit
Algorithmen. Wir würden gern mit einem
00:01:14.920 --> 00:01:19.979
Zitat von Kate Crawford beginnen. Kate
Crawford ist die Gründerin des AI Now
00:01:19.979 --> 00:01:23.841
Institut das die sozialen Auswirkungen von
künstlicher Intelligenz untersucht. Sie
00:01:23.841 --> 00:01:28.090
ist außerdem ein Principal Researcher bei
Microsoft Research und Professorin an der
00:01:28.090 --> 00:01:33.840
New York University. Und die hat beim AI
Now Symposium in diesem Jahr gesagt: „Die
00:01:33.840 --> 00:01:37.170
Menschen befürchten, dass Computer zu
intelligent werden und die Welt erobern.
00:01:37.170 --> 00:01:42.549
Aber Computer sind zu dumm und haben die
Welt bereits erobert." Wir teilen diese
00:01:42.549 --> 00:01:47.420
Ansicht. Es gibt keine digitale Welt. Die
Welt ist digital, das heißt durch digitale
00:01:47.420 --> 00:01:51.799
Medien konstruiert. Und uns war es ein
Anliegen, einige englischsprachige
00:01:51.799 --> 00:01:55.659
Diskussion jetzt nochmal auf Deutsch
zusammenzuführen. Es können also Beispiele
00:01:55.659 --> 00:02:00.700
kommen die der eine oder andere vielleicht
schon kennt. Aber wir führen sie hier
00:02:00.700 --> 00:02:05.390
nochmal zusammen und versuchen sie zu
kontextualisieren. Warum Banalität der
00:02:05.390 --> 00:02:09.880
Überwachung? Banalität, weil die Systeme
des maschinellen Lernens im Kern sehr
00:02:09.880 --> 00:02:14.520
simpel sind, weil aber auch die
Beeinflussung sehr subtil sein kann und
00:02:14.520 --> 00:02:17.080
das Ganze ist auch eine Reminiszenz an
Hannah Arendt.
00:02:17.080 --> 00:02:21.330
Noch mal kurz zu uns. Wie gesagt: Ich
werde die ersten 20 Minuten sprechen über
00:02:21.330 --> 00:02:25.280
die Mensch-Computer-Interaktions-
Perspektive, Karen Ullrich wird die zweite
00:02:25.280 --> 00:02:29.170
Hälfte bestreiten. Karen ist
wissenschaftliche Mitarbeiterin in
00:02:29.170 --> 00:02:33.920
Amsterdam, im Amsterdam Machine Learning
Lab, und sie forscht direkt zu den
00:02:33.920 --> 00:02:37.660
Algorithmen des maschinellen Lernens,
insbesondere Bayesian methods, also ein
00:02:37.660 --> 00:02:41.950
Hintergrund im Deep Learning und der
Informationstheorie. Ich bin
00:02:41.950 --> 00:02:46.470
wissenschaftlicher Mitarbeiter im Institut
für Informationsmanagement Bremen und mir
00:02:46.470 --> 00:02:50.000
geht es um die Nutzererfahrung von
Maschine Learning, insbesondere das
00:02:50.000 --> 00:02:56.380
Vertrauen. Wir würden jetzt gerne anfangen
mit einem Beispiel, das jeder kennt: Spam-
00:02:56.380 --> 00:02:59.990
Erkennung. Benutzt wahrscheinlich jeder
hier. Funktioniert auch nicht immer. Aber
00:02:59.990 --> 00:03:03.090
man muss sich wirklich vor Augen führen,
dass es eine beeindruckende technische
00:03:03.090 --> 00:03:07.100
Leistung ist, auch wenn es manchmal nicht
funktioniert. Und wir nehmen es hier, um
00:03:07.100 --> 00:03:11.620
den Unterschied zwischen imperativer
Programmierung und maschinellem Lernen zu
00:03:11.620 --> 00:03:16.540
verdeutlichen. Imperative Programmierung
ist das, woran wahrscheinlich jeder denkt,
00:03:16.540 --> 00:03:18.480
wenn er an Informatik und Programmierung
denkt.
00:03:18.480 --> 00:03:21.940
Es geht um Regeln und Anweisungen: Wenn X
00:03:21.940 --> 00:03:26.430
dann Y. Das Wort Imperativ für Befehl
steckt ja auch schon im Namen. Und wenn
00:03:26.430 --> 00:03:30.210
wir jetzt Spam imperativ erkennen wollen
würden, dann würde man zum Beispiel
00:03:30.210 --> 00:03:34.140
gucken, Okay das Wort Viagra wird so
geschrieben in der Nachricht vorkommen,
00:03:34.140 --> 00:03:39.210
dann ist es eine Spam-Nachricht.
Andererseits ist es eine gutartige
00:03:39.210 --> 00:03:43.710
Nachricht. Maschinelles Lernen ist jetzt
ein komplett anderer Ansatz. Da hat man
00:03:43.710 --> 00:03:49.040
eine Vorhersage die man iterativ, also
immer und immer wieder, verbessert. Für
00:03:49.040 --> 00:03:53.000
die Spam-Klassifikation versucht man zum
Beispiel Kombinationen von Wörtern zu
00:03:53.000 --> 00:03:56.900
finden, durch die es wahrscheinlich wird,
dass es sich um Spam handelt.
00:03:56.900 --> 00:04:02.160
Der Kernbegriff ist hier also wahrscheinlich. Und
das sieht dann so aus, dass man für viele
00:04:02.160 --> 00:04:07.400
verschiedene Beispiele prognostiziert, ob
eine Nachricht Spam ist oder nicht. Dann
00:04:07.400 --> 00:04:12.010
berechnet man Fehler mit einer geeigneten
Fehlerfunktion und dann ändert man seine
00:04:12.010 --> 00:04:16.721
Parameter, um den Fehler zu verringern und
geht wieder zum ersten Schritt und macht
00:04:16.721 --> 00:04:21.589
das immer und immer wieder. Natürlich ist
es nicht ganz so einfach, diesen Fehler zu
00:04:21.589 --> 00:04:24.630
berechnen, und auch die Parameter zu
verändern, ist ein eigenes
00:04:24.630 --> 00:04:28.030
Forschungsgebiet. Aber im Kern ist es
wirklich so simpel wie wir es hier
00:04:28.030 --> 00:04:33.081
darstellen. Und deswegen ist es spannend
im Hinterkopf zu behalten. Dabei ist es
00:04:33.081 --> 00:04:36.720
aber spannend im Hinterkopf zu behalten,
dass Spam-Erkennen nicht mit
00:04:36.720 --> 00:04:40.790
Textverständnis gleichzusetzen ist. Das
heißt der Algorithmus muss nicht erst
00:04:40.790 --> 00:04:45.030
Kafka verstehen können, um zu erkennen, ob
etwas Spam ist oder nicht. Und dieses
00:04:45.030 --> 00:04:48.960
Problem, dass etwas wirkungsvoller
aussieht als es vermeintlich ist, wird uns
00:04:48.960 --> 00:04:54.840
im Laufe des Vortrags noch begegnen.
Wir haben jetzt ein weiteres, immer noch
00:04:54.840 --> 00:04:58.700
vereinfachtes Beispiel für eine
Entscheidungshilfe, hier aus der Medizin.
00:04:58.700 --> 00:05:03.960
Das Ziel ist hier die Erkennung von
Brustkrebs. Statt Wörtern wie beim Spam
00:05:03.960 --> 00:05:09.660
haben wir verschiedene Features, das heißt
Charakteristika, an denen man zum Beispiel
00:05:09.660 --> 00:05:14.760
gutartigen von bösartigem Brustkrebs
unterscheiden kann. Dazu gehören hier der
00:05:14.760 --> 00:05:20.850
Radius, die Textur, Umfang, Fläche, Glätte
aber auch so Sachen wie die Symmetrie und
00:05:20.850 --> 00:05:25.780
die Zahl konkaver Punkte, also nach innen
gewölbter Punkte, das seht ihr hier oben.
00:05:25.780 --> 00:05:30.610
Insgesamt gibt es in diesem vereinfachten
Datensatz 32 verschiedene Charakteristika.
00:05:30.610 --> 00:05:36.260
Und wenn wir jetzt zwei Charakteristika
wie z.B. die durchschnittliche Zahl der
00:05:36.260 --> 00:05:41.190
konkaven Punkte und die durchschnittliche
Fläche in Pixeln anschauen und abtragen,
00:05:41.190 --> 00:05:45.450
dann erkennt man eine deutliche Tendenz:
Ab einem bestimmten Punkt – ab einer
00:05:45.450 --> 00:05:48.520
bestimmten Zahl Punkte und ab einer
bestimmten Fläche – sehen wir nur noch
00:05:48.520 --> 00:05:54.000
bösartigen Brustkrebs. Das heißt
mathematisch können wir im Beispiel
00:05:54.000 --> 00:05:58.091
einfach eine Linie durch diesen Datensatz
ziehen und das ist eine sogenannte
00:05:58.091 --> 00:06:02.169
Entscheidungsgrenze, die Decision-
Boundary. Die Entscheidungsgrenze muss
00:06:02.169 --> 00:06:05.000
nicht linear sein, es muss nicht eine
einfache Linie sein.
00:06:05.000 --> 00:06:10.140
Die kann durchaus komplexer sein und in
der Regel ist sie das. Und dieser Ansatz
00:06:10.140 --> 00:06:14.650
ist durchaus analog zu dem, was eine
erfahrene Ärztin oder ein erfahrener Arzt
00:06:14.650 --> 00:06:18.531
mehr oder weniger bewusst machen würde.
Die haben auch aus Erfahrung gelernt: ab
00:06:18.531 --> 00:06:23.800
der Größe, und ab der Fläche und der Zahl
ist es wahrscheinlich bösartig oder
00:06:23.800 --> 00:06:27.480
gutartig. Der Clou am Maschinellen Lernen
ist jetzt, dass wir das für viele
00:06:27.480 --> 00:06:31.620
verschiedene Charakteristika gleichzeitig
machen können. Und darüber hinaus
00:06:31.620 --> 00:06:36.060
profitieren wir sehr stark davon, wenn wir
mehr Daten haben, weil wir dadurch bessere
00:06:36.060 --> 00:06:38.560
Entscheidungen treffen können. Weil wir
eine bessere Entscheidungsgrenze finden.
00:06:38.560 --> 00:06:45.340
Ihr seht aber auch, dass eine gute Zahl an
roten und blauen Punkten im Beispiel auf
00:06:45.340 --> 00:06:49.871
der falschen Seite der Grenze liegen.
Das heißt dort machen wir Fehler und da
00:06:49.871 --> 00:06:53.300
muss man im Hinterkopf behalten, dass es
verschiedene Arten von Fehlern gibt und
00:06:53.300 --> 00:06:57.010
die auch verschiedene Auswirkungen haben.
Falls ich zum Beispiel jemandem mit
00:06:57.010 --> 00:07:02.669
gutartigen Brustkrebs fälschlicherweise
sage, dass ihr Brustkrebs bösartig ist,
00:07:02.669 --> 00:07:07.870
löst das sicherlich Stress aus und ist
keine angenehme Situation. Falls ich aber
00:07:07.870 --> 00:07:11.560
jemanden mit bösartigem Brustkrebs
fälschlicherweise sage, dass ihr
00:07:11.560 --> 00:07:15.130
Brustkrebs gutartig ist und sie auch
entsprechend behandle, kann das deutlich
00:07:15.130 --> 00:07:19.900
schlimmere Konsequenzen haben. Das ist
jetzt natürlich ein vereinfachtes
00:07:19.900 --> 00:07:24.900
Beispiel. Aber gleichzeitig werden wir
zeigen, dass ähnliche Entscheidungshilfen
00:07:24.900 --> 00:07:29.210
durchaus in sehr kritischen Bereichen
genutzt werden. Vorher wollen wir noch
00:07:29.210 --> 00:07:33.750
einmal die Wirkungsmacht von Big Data
zeigen und da geht es darum,
00:07:33.750 --> 00:07:39.800
Persönlichkeitsmerkmale zu erkennen. Das
heißt hier nimmt man digitale Spuren wie
00:07:39.800 --> 00:07:43.960
Facebook-Likes, die relativ einfach
zugänglich sind, es aber ermöglichen,
00:07:43.960 --> 00:07:47.460
hochgradig sensible
Persönlichkeitsmerkmale vorherzusagen.
00:07:47.460 --> 00:07:54.380
Das ist ein Paper von 2013 und für die
Studie haben sie 58.000 Freiwillige in den
00:07:54.380 --> 00:07:58.060
USA gefunden, die eine Facebook-App
benutzt haben. Und die haben dieser
00:07:58.060 --> 00:08:02.120
Facebook-App ihr komplettes Profil zur
Verfügung gestellt mit allen Likes aber
00:08:02.120 --> 00:08:06.060
auch mit allen Informationen wie zum
Beispiel der sexuellen Orientierung oder
00:08:06.060 --> 00:08:10.540
der religiösen Zugehörigkeit. Was jetzt
gemacht wurde ist mit einem sehr einfachen
00:08:10.540 --> 00:08:16.700
Modell, mit einem einfachen Regressions-
Modell, vorhergesagt, von welchen Likes,
00:08:16.700 --> 00:08:21.270
ob man anhand der Likes bestimmte
Persönlichkeitsmerkmale erkennen kann. Und
00:08:21.270 --> 00:08:26.570
es zeigt sich, dass man zum Beispiel mit
95-prozentiger Genauigkeit erkennen kann,
00:08:26.570 --> 00:08:32.620
ob jemand weiß oder afroamerikanisch ist.
Sexuelle Orientierung kann man auch mit
00:08:32.620 --> 00:08:38.999
sehr hoher Genauigkeit nur anhand der
Likes erkennen, das Geschlecht, die
00:08:38.999 --> 00:08:44.350
politische Orientierung, die religiöse
Zugehörigkeit, aber auch so Sachen wie die
00:08:44.350 --> 00:08:49.100
Drogenerfahrung und der Familienstand der
Eltern in der Kindheit.
00:08:49.100 --> 00:08:53.970
Und ihr seht schon bei der religiösen
Zugehörigkeit sind wir bei 82 Prozent
00:08:53.970 --> 00:08:58.589
Genauigkeit, bei so etwas wie
Drogenerfahrung und der Ehe ist es relativ
00:08:58.589 --> 00:09:03.579
wenig mit der Genauigkeit: Es ist eine
50/50 Chance, wenn wir raten würden.
00:09:03.579 --> 00:09:09.389
Aber es ist trotzdem eine Indikation. Und
wir zeigen das auch nur, weil das
00:09:09.389 --> 00:09:12.992
wahnsinnige Möglichkeiten der
Diskriminierung bildet. Und das passiert
00:09:12.992 --> 00:09:17.661
auch auf dem Wohnungsmarkt oder auf dem
Arbeitsmarkt. Das heißt was wir hier
00:09:17.661 --> 00:09:21.089
zeigen wollen, ist, dass wir unsere
Vorstellungen von Datenschutz überdenken
00:09:21.089 --> 00:09:26.019
und ausweiten müssen, weil man halt auch
Persönlichkeitsmerkmale inferieren können
00:09:26.019 --> 00:09:31.630
kann. Denn man kann mit solchen Modellen
auch die Likes finden, die am
00:09:31.630 --> 00:09:36.050
aussagekräftigsten für ein bestimmtes
Charakteristikum sind. Das heißt wir haben
00:09:36.050 --> 00:09:41.170
hier drei Likes: einmal die Marke Harley-
Davidson, Kringel-Pommes/curly fries und
00:09:41.170 --> 00:09:45.019
das Musical Wicked. Und ich überlasse es
euch mal, herauszufinden, welches Bild mit
00:09:45.019 --> 00:09:49.790
niedriger Intelligenz, hoher Intelligenz
und Homosexualität bei Männern verbunden
00:09:49.790 --> 00:09:56.439
ist. Diese durchaus fragwürdige
Forschungsrichtung nennt sich Psychometrik
00:09:56.439 --> 00:10:00.860
oder auch Psychografie. Und das Spannende
ist, dass sie ja relativ nah dran ist am
00:10:00.860 --> 00:10:04.009
Kern-Versprechen von so Unternehmen wie
Google und Facebook.
00:10:04.009 --> 00:10:08.740
Denn die versprechen ihren Kunden – ihren
Werbekunden – wir finden für euch
00:10:08.740 --> 00:10:13.149
Leute, die sich für Dienst X oder Produkt
Y interessieren könnten. Und hier haben
00:10:13.149 --> 00:10:18.279
wir jetzt das Element der Beeinflussung.
Beeinflussung heißt hier, Big Data zu
00:10:18.279 --> 00:10:23.230
nutzen, um Leute zu finden, und die
Beeinflussung ist noch sehr banal. Aber
00:10:23.230 --> 00:10:26.810
solche Forschung kann natürlich auch
genutzt werden, um zum Beispiel in einer
00:10:26.810 --> 00:10:31.059
großen Menge von Wählerinnen jene zu
finden, die noch überzeugt werden könnten.
00:10:31.059 --> 00:10:34.771
Und ihr habt – viele von euch haben
wahrscheinlich den Artikel in das Magazin
00:10:34.771 --> 00:10:39.199
gelesen, wo kolportiert wurde, dass diese Art
von Psychografie für Trump und Brexit
00:10:39.199 --> 00:10:43.079
verantwortlich ist. Vor der Bundestagswahl
gab es ja auch eine große Diskussion, dass
00:10:43.079 --> 00:10:47.689
das hier passieren könnte. Wir glauben,
dass das mit Vorsicht zu genießen ist,
00:10:47.689 --> 00:10:51.160
aber die Möglichkeit mit derartigen
Ansätzen überzeugbare Wählerinnen und Wähler
00:10:51.160 --> 00:10:53.790
zu finden und anzusprechen, ist durchaus
realistisch.
00:10:53.790 --> 00:11:00.990
Und wir haben schon gesehen, dass es
dadurch so eine Art Diskriminierung 2.0
00:11:00.990 --> 00:11:05.312
gibt. Denn ein homophober Arbeitgeber muss
nicht mehr direkt erfragen, ob jemand
00:11:05.312 --> 00:11:09.610
homosexuell ist, wenn er es aus einem
Facebook-Profil vorhersagen kann, und es
00:11:09.610 --> 00:11:13.129
interessiert ihn vielleicht auch nicht, ob
er da einen Fehler macht und einen
00:11:13.129 --> 00:11:18.209
Heterosexuellen möglicherweise falsch
einordnet. Diese Beeinflussung kann aber
00:11:18.209 --> 00:11:23.689
durchaus direkter sein. In den USA werden
Algorithmen jetzt schon im Justizsystem
00:11:23.689 --> 00:11:28.300
als Entscheidungshilfe eingesetzt, und da
wird zum Beispiel mit bestimmten
00:11:28.300 --> 00:11:32.639
Informationen über die Leute vorhergesagt,
ob jemand rückfällig wird, der im
00:11:32.639 --> 00:11:37.759
Gefängnis ist, oder nicht. Das heißt man
versucht vorherzusagen auf einer Skala von
00:11:37.759 --> 00:11:43.590
1 für ungefährlich bis 10 für hochgradig
gefährlich, wo jemand hinkommt. Und hier
00:11:43.590 --> 00:11:49.069
haben wir zwei Beispiele: Einmal den Herrn
links – VP die Initialen –, der zwei
00:11:49.069 --> 00:11:53.980
bewaffnete Raubüberfälle begangen und
einen versuchten bewaffneten Raubüberfall,
00:11:53.980 --> 00:11:58.519
und die Risikoeinschätzung ist hier 3
niedriges Risiko.
00:11:58.519 --> 00:12:03.730
Daneben steht die Dame – BB –, die hat
vier Ordnungswidrigkeiten unter
00:12:03.730 --> 00:12:11.509
Jugendstrafrecht auf dem Kerbholz, und die
wird eingestuft mit hohes Risiko. Und wie
00:12:11.509 --> 00:12:15.199
sieht das jetzt aus. Also die Leute von
ProPublica die das recherchiert haben,
00:12:15.199 --> 00:12:20.600
haben jetzt über zwei Jahre geguckt, wer
wirklich rückfällig wird und wer nicht. BB
00:12:20.600 --> 00:12:24.689
– die Dame rechts –, die begeht keine
weiteren Verbrechen. VP – der Herr links
00:12:24.689 --> 00:12:27.870
–, der begeht nach seiner Freilassung
direkt einen schweren Diebstahl. Das
00:12:27.870 --> 00:12:31.269
Besondere ist hier, und ihr werdet es
wahrscheinlich schon geraten haben, ist,
00:12:31.269 --> 00:12:35.900
dass der Algorithmus systematisch
Afroamerikanerinnen diskriminiert. Es gibt
00:12:35.900 --> 00:12:41.250
also ein Bias, eine Verzerrung, gegen
Schwarze. Darüber hinaus sind diese
00:12:41.250 --> 00:12:46.059
Vorhersagen von den proprietären Kompass-
Systemen nur in 61 Prozent derzeit
00:12:46.059 --> 00:12:51.209
richtig. Wenn man jetzt die wirkliche
Rückfälligkeit über zwei Jahren nimmt. Und
00:12:51.209 --> 00:12:55.089
wir kennen das aus der Statistik: Dort
unterscheiden wir den Fehler erster Art
00:12:55.089 --> 00:12:59.149
und den Fehler zweiter Art. Das heißt
unsere Nullhypothese ist: Der oder die
00:12:59.149 --> 00:13:03.689
Straftäterin wird nicht rückfällig.
Der Fehler erster Art ist jetzt, dass die,
00:13:03.689 --> 00:13:08.739
die mit hohem Risiko eingestuft werden,
aber nicht rückfällig werden. Und da sehen
00:13:08.739 --> 00:13:12.500
wir – oder hat ProPublica herausgefunden
–, dass die Wahrscheinlichkeit, dass ein
00:13:12.500 --> 00:13:18.189
Weißer oder eine Weiße Opfer dieses
Fehlers wird, bei 23,5 Prozent liegt und
00:13:18.189 --> 00:13:22.199
bei Afroamerikanerinnen liegt die
Wahrscheinlichkeit bei 44,9, also fast
00:13:22.199 --> 00:13:25.910
doppelt so hoch. Es gibt auch den Fehler
zweiter Art. Das ist die
00:13:25.910 --> 00:13:29.429
Wahrscheinlichkeit,
dass jemand mit niedrigem Risiko
00:13:29.429 --> 00:13:33.590
eingestuft wird, aber trotzdem rückfällig
wird. Und hier ist die Wahrscheinlichkeit
00:13:33.590 --> 00:13:41.779
umgekehrt: Weiße haben eine 47-Prozent-
Chance diesem Fehler zum Opfer zu fallen.
00:13:41.779 --> 00:13:49.549
Afroamerikanerinnen nur 28 Prozent. Aber
wie kommt das? Wir nehmen jetzt mal an,
00:13:49.549 --> 00:13:53.290
dass das kompetente Programmiererinnen
sind, die in den Maschine Learning Kursen,
00:13:53.290 --> 00:13:56.920
die sie gemacht haben, gut aufgepasst
haben und technisch alles richtig gemacht
00:13:56.920 --> 00:13:59.980
haben.
Nun lernt Maschine Learning immer eine
00:13:59.980 --> 00:14:05.459
Abbildung von einem X auf ein Y. Z. B.
hier haben wir bestimmte Informationen zu
00:14:05.459 --> 00:14:11.089
Gefangenen und diese Rückfälligkeit der
Gefangenen. Das Problem ist jetzt das X
00:14:11.089 --> 00:14:15.300
ist keine Stichprobe der Grundgesamtheit,
sondern eine Untermenge der
00:14:15.300 --> 00:14:19.179
Grundgesamtheit, die die Polizei
untersucht hat. Es ist also ein X', es ist
00:14:19.179 --> 00:14:24.009
nicht repräsentativ. Und das kann eine
selbsterfüllende Prophezeiung sein. Denn
00:14:24.009 --> 00:14:27.220
vielleicht sind Afroamerikanerinnen
einfach in der Situation, dass sie
00:14:27.220 --> 00:14:31.779
deutlich häufiger kontrolliert werden und
es einfach dadurch mehr Straffälle in
00:14:31.779 --> 00:14:36.550
dem Datensatz gibt. Und auf der auch auf
der anderen Seite auf der Y Seite, das
00:14:36.550 --> 00:14:40.459
heißt diese Risikobeurteilung, ob man
rückfällig wird oder nicht, ist ebenfalls
00:14:40.459 --> 00:14:45.269
eine Verfälschung. Denn die bezieht sich
ja auch nur auf die, die vom Rechtssystem
00:14:45.269 --> 00:14:49.899
verurteilt werden.
Das heißt hier haben wir auch ein Y'. Wenn
00:14:49.899 --> 00:14:54.089
man zum Beispiel ein Jurysystem hat, wie
man es in den USA findet, dann kann auch
00:14:54.089 --> 00:14:58.790
dort latent oder weniger latent
diskriminiert werden. Das macht Maschine
00:14:58.790 --> 00:15:04.399
Learning – pseudo-objektive, mathematische
Modelle – zu einer Art Geldwäsche für
00:15:04.399 --> 00:15:08.649
Vorurteile. Weil sie fallen in dieses
System rein und sind dann erst einmal
00:15:08.649 --> 00:15:14.360
nicht mehr sichtbar. Und hier kommen wir
jetzt zum Element der direkten
00:15:14.360 --> 00:15:17.339
Beeinflussung.
Denn diese Systeme werden zwar nur als
00:15:17.339 --> 00:15:22.019
Entscheidungshilfen verkauft, es sind halt
nur Werkzeuge, die genutzt werden können,
00:15:22.019 --> 00:15:26.350
aber die Leute, die die Entscheidung
treffen, verlassen sich direkt auf diese
00:15:26.350 --> 00:15:29.949
Systeme. Das heißt sie vertrauen diesen
diskriminierenden Algorithmen. Das
00:15:29.949 --> 00:15:33.429
Beispiel kommt aus dem hervorragenden
Deutschlandfunk-Feature von Thomas
00:15:33.429 --> 00:15:39.689
Schimmeck. Und der hat zum Beispiel
Veronika Hiller, die Bewährungshelferin,
00:15:39.689 --> 00:15:45.019
die dem Richter im Endeffekt ein Strafmaß
vorschlägt, interviewt. Das Spannende ist,
00:15:45.019 --> 00:15:48.189
die hat also ein Vierteljahrhundert
Erfahrung im Dienst. Aber sie schwört auf
00:15:48.189 --> 00:15:52.839
diesen Algorithmus. Sie sagt der ist gut,
akkurat und einfach. Was wir einfach
00:15:52.839 --> 00:15:57.989
zeigen wollen, ist, dass es hier um sozio-
technische Systeme geht. Das heißt es
00:15:57.989 --> 00:16:01.519
geht nicht nur um das Maschine Learning.
Es geht nicht nur um den Algorithmus.
00:16:01.519 --> 00:16:05.389
Sondern es geht auch um die Menschen, die
ihn nutzen. Denn selbst wenn das System
00:16:05.389 --> 00:16:09.569
fair wäre – wir haben gerade gesehen dass
es das nicht ist –, heißt es immer noch
00:16:09.569 --> 00:16:13.910
nicht, dass die Ergebnisse des Systems
auch fair interpretiert werden, und wir
00:16:13.910 --> 00:16:17.740
finden das ist sehr wichtig für jene, die
solche Systeme bauen – und da sind
00:16:17.740 --> 00:16:22.389
wahrscheinlich einige heute hier. Diese
Verzerrung in und durch Daten sind
00:16:22.389 --> 00:16:27.089
allgegenwärtig. Wir haben zum Beispiel
hier ein Beispiel von Google. Das ist eine
00:16:27.089 --> 00:16:32.100
Suche nach den Keywords „Three White
Teenagers". Und das ist eine Suche nach
00:16:32.100 --> 00:16:38.489
den Keywords „Three Black Teenagers". Das
heißt Technologie offenbart hier
00:16:38.489 --> 00:16:41.779
gesellschaftliche Probleme.
Wir haben es wie gesagt mit sozi-
00:16:41.779 --> 00:16:46.769
technischen Systemen zu tun, die eine
bestimmte Weltvorstellung festschreiben,
00:16:46.769 --> 00:16:51.660
vermitteln, aber auch verstärken können.
Und die Probleme können ganz subtil und
00:16:51.660 --> 00:16:55.749
banal sein wie zum Beispiel dieses
Beispiel aus der statistischen Übersetzung
00:16:55.749 --> 00:16:59.500
zeigt: Jetzt muss man wissen, dass die
türkische Sprache nicht zwischen
00:16:59.500 --> 00:17:04.279
Geschlechtern unterscheidet, das heißt
„er", „sie" und „es" sind alle „o". Es
00:17:04.279 --> 00:17:07.669
gibt auch keine Unterscheidung zwischen
„Arzt" und „Ärztin" beides „Doktor". Und
00:17:07.669 --> 00:17:11.869
wenn wir jetzt mit Google Translate oder
einem anderen statistischen
00:17:11.869 --> 00:17:16.970
Übersetzungsprogramm Sätze wie „Er ist ein
Babysitter." und „Sie ist eine Ärztin."
00:17:16.970 --> 00:17:21.449
hin und her übersetzen, dann stellen wir
fest, dass die Übersetzung bestimmte
00:17:21.449 --> 00:17:23.140
Geschlechterklischees widerspiegelt.
00:17:23.140 --> 00:17:27.659
Und ihr könnt mit dem was ihr bisher über
Machine Learning gelernt habt in diesem
00:17:27.659 --> 00:17:32.380
Vortrag vielleicht schon erklären, wie das
passiert. Wir lernen aus Beispielen und in
00:17:32.380 --> 00:17:37.520
diesen Beispielen sind Verzerrungen. In
diesem Fall mehr weibliche Babysitter,
00:17:37.520 --> 00:17:41.440
mehr männliche Ärzte.
Denn wenn wir übersetzen dann berechnen
00:17:41.440 --> 00:17:45.080
wir ja Wahrscheinlichkeiten und nehmen in
der Regel einfach das wahrscheinlichste
00:17:45.080 --> 00:17:49.169
Ergebnis. Das heißt selbst minimale
Verzerrungen können verstärkt werden. Das
00:17:49.169 --> 00:17:54.539
heißt eine Babysitterin mehr, ein Arzt
mehr und diese Übersetzung sieht so aus,
00:17:54.539 --> 00:17:59.299
wie wir sie gerade sehen. Aber hier haben
wir etwas, das technisch erklärbar ist.
00:17:59.299 --> 00:18:03.010
Aber welche Auswirkungen hat das auf die
NutzerInnen. Welche Auswirkungen hat das
00:18:03.010 --> 00:18:09.450
auf die Weltsicht, wenn man die Google-
Ergebnisse so sieht wie man sie sieht. Und
00:18:09.450 --> 00:18:13.760
anhand von Facebook wollen wir jetzt
zeigen, wie direkt und intransparent diese
00:18:13.760 --> 00:18:17.730
Beeinflussung sein kann. Auch Facebook ist
ein hochkomplexes sozio-technisches
00:18:17.730 --> 00:18:22.760
System, in dem NutzerInnen gleichzeitig
Produzenten und KonsumentInnen sind.
00:18:22.760 --> 00:18:28.690
Facebooks erklärtes Ziel lautet ja, jedem
zu jeder Zeit die richtigen Inhalte zu
00:18:28.690 --> 00:18:34.250
zeigen. Dafür nutzt Facebook nach eigener
Aussage hundert tausend verschiedene
00:18:34.250 --> 00:18:38.440
Faktoren, um algorithmisch die besten
Geschichten aus den potenziellen
00:18:38.440 --> 00:18:40.159
Geschichten auszuwählen.
00:18:40.159 --> 00:18:44.549
Das heißt, wenn ihr euch jetzt vorstellt -
das sind jetzt Zahlen aus dem Kosinski-
00:18:44.549 --> 00:18:50.750
Paper mit den Persönlichkeitsmerkmalen.
Das heißt da haben die Leute im Median 200
00:18:50.750 --> 00:18:56.710
Bekannte und liken 68 Seiten. Das heißt
wenn nur jeder Dritte was macht, dann sind
00:18:56.710 --> 00:19:00.970
das pro Tag 90 potenzielle Beiträge. Wenn
man jetzt nur fünf oder zehn Minuten auf
00:19:00.970 --> 00:19:04.460
der Seite verweilt, dann kann man sich
nicht angucken. Das heißt eine
00:19:04.460 --> 00:19:10.130
chronologische Darstellung ist zwecklos
und eine Kuration unumgänglich. Und
00:19:10.130 --> 00:19:15.080
deswegen sortiert Facebook die Nachrichten
nach einem Algorithmus. Das Problem ist
00:19:15.080 --> 00:19:18.240
aber, dass dieser Vorgang sehr
intransparent ist. Das heißt die
00:19:18.240 --> 00:19:19.929
NutzerInnen sehen und verstehen die
Algorithmen nicht
00:19:19.929 --> 00:19:25.000
Und die glauben im Zweifelsfall wenn sie
darauf angesprochen werden, dass die
00:19:25.000 --> 00:19:30.179
Algorithmen objektiv und unabhängig sind.
Und dabei beziehe ich mich auf folgende
00:19:30.179 --> 00:19:35.620
Studie. Die kommt aus der CHI, der
Computer Human Interaction Community. Und
00:19:35.620 --> 00:19:42.180
dort waren sich 62,5% der Teilnehmer und
Teilnehmerinnen in dieser Studie der
00:19:42.180 --> 00:19:47.659
Existenz von Newsfeed-Algorithmen, also
von dieser algorithmischen Kuration, nicht
00:19:47.659 --> 00:19:51.830
bewusst. Das heißt wir haben hier eine
qualitative Studie mit 40 TeilnehmerInnen,
00:19:51.830 --> 00:19:56.010
die so ausgewählt wurden, dass sie
repräsentativ sind für die US-
00:19:56.010 --> 00:20:00.980
Grundgesamtheit. Und von denen war also 25
Personen nicht bewusst, dass überhaupt
00:20:00.980 --> 00:20:06.580
irgendwie sortiert wird. Die Studie zeigt
auch, dass die TeilnehmerInnen durchaus
00:20:06.580 --> 00:20:11.029
verärgert sind, wenn sie Posts von engen
Freunden oder Familienmitgliedern nicht
00:20:11.029 --> 00:20:15.960
sehen. Spannend ist aber jetzt: Die
Teilnehmer suchen den Fehler eher bei sich
00:20:15.960 --> 00:20:19.330
oder anderen, als bei einem Algorithmus,
von dem sie im Zweifelsfall auch nichts
00:20:19.330 --> 00:20:24.660
wissen. Sie glauben dann z.B. dass sie
etwas übersehen haben oder sie denken,
00:20:24.660 --> 00:20:30.029
dass ihnen bestimmte Bekannte bewusst
Geschichten vorenthalten, weil sie
00:20:30.029 --> 00:20:33.649
vielleicht nicht so gut miteinander
bekannt sind, sich noch nicht so gut
00:20:33.649 --> 00:20:37.289
kennen. Daher kommt auch dieses
titelgebende Zitat: "I always assumed that
00:20:37.289 --> 00:20:41.480
I wasn't really that close to [that
person], so that's fine. What the hell?"
00:20:41.480 --> 00:20:45.130
Das heißt hier hat jemand gedacht "Okay,
ich sehe die Babyfotos vielleicht nicht,
00:20:45.130 --> 00:20:49.490
weil ich die Person nicht so gut kenne,
aber die Person hat das für alle geteilt".
00:20:49.490 --> 00:20:54.100
Und hier hat der Algorithmus jetzt die
Entscheidung getroffen, dass Person A das
00:20:54.100 --> 00:20:59.590
Baby von Person B nicht sieht. Das heißt
diese Systeme, die im Schatten agieren und
00:20:59.590 --> 00:21:04.090
denen sich die BenutzerInnen nicht bewusst
sind, haben Auswirkungen auf
00:21:04.090 --> 00:21:08.370
zwischenmenschliche Beziehungen. Sie
rekonfigurieren sie. Und darüber hinaus
00:21:08.370 --> 00:21:11.820
muss man sich auch noch einmal bewusst
machen, was diese Nachrichten-
00:21:11.820 --> 00:21:15.899
Empfehlungssysteme eigentlich erreichen
wollen. Sie sind ja von der Art her wie
00:21:15.899 --> 00:21:20.909
Netflix. Das heißt wenn ich auf Youtube
oder einem anderen Portal mir Videos
00:21:20.909 --> 00:21:24.990
angucke und ich gucke mir zehn Videos an
und davon sind vier mit lustigen Hunde-
00:21:24.990 --> 00:21:30.461
Babys, dann folgert das System "Ok,
Hendrik mag lustige Hunde-Babys. Dem zeige
00:21:30.461 --> 00:21:34.701
ich jetzt in Zukunft mehr lustige Hunde-
Babys". Nun sind aber auch Nachrichten auf
00:21:34.701 --> 00:21:39.350
Plattformen wie Youtube. Das heißt wenn
ich mir jetzt zehn Videos angucke und von
00:21:39.350 --> 00:21:43.710
denen geht es in vielen darum, dass
Flüchtlinge kriminell sind, dann empfiehlt
00:21:43.710 --> 00:21:48.720
mir das System Videos von kriminellen
Flüchtlingen. Das heißt da passiert etwas
00:21:48.720 --> 00:21:55.169
mit meiner Weltwahrnehmung. Das heißt so
derartige Filterblasen und Echokammern
00:21:55.169 --> 00:21:59.840
entstehen online. Die gibts natürlich auch
im echten Leben. Der Freundeskreis ist
00:21:59.840 --> 00:22:04.701
auch eine Echokammer, in der bestimmte
Weltvorstellungen geteilt werden, aber
00:22:04.701 --> 00:22:09.360
hier sind sie durchaus intransparenter,
denn es passiert unter dem gleichen Logo.
00:22:09.360 --> 00:22:14.830
Bei mir ist ein YouTube-Logo, bei euch ist
ein YouTube-Logo. Und das sind Probleme,
00:22:14.830 --> 00:22:18.190
denen wir uns stellen müssen, mit denen
wir umgehen müssen.
00:22:18.190 --> 00:22:22.820
Und das war mein Teil zur Perspektive der
Mensch-Computer-Interaktion, die sich also
00:22:22.820 --> 00:22:26.799
als eigenes Feld mit derartigen
Fragestellungen auseinandersetzt. Und ich
00:22:26.799 --> 00:22:31.370
übergebe jetzt an Karen, die nochmal
technisch ins Detail gehen wird.
00:22:31.370 --> 00:22:43.649
Applaus
Karen: Ja. Zum ersten Teil dieser Präsentation
00:22:43.649 --> 00:22:48.309
zeigten wir, dass Algorithmen uns schon
heute schon beeinflussen, bewusst und
00:22:48.309 --> 00:22:52.100
unbewusst, direkt und indirekt. Und wir
haben gesehen mit welcher Rigorosität ihre
00:22:52.100 --> 00:22:57.220
Voraussagen umgesetzt werden, nachdem sie
einmal zur Verfügung stehen. Das immer
00:22:57.220 --> 00:23:00.149
unter der Annahme der
Unvoreingenommenheit. Wir haben auch
00:23:00.149 --> 00:23:04.470
bereits angedeutet, dass dieses massive
Vertrauen nicht unbedingt angebracht ist.
00:23:04.470 --> 00:23:08.870
In diesem zweiten Teil der Präsentation
möchten wir darauf eingehen wann dieses
00:23:08.870 --> 00:23:12.019
Vertrauen nicht angebracht ist. Dabei
möchte ich besonders auf ein Wort
00:23:12.019 --> 00:23:17.320
eingehen, das wir bereits viel verwendet
haben. Das Wort Bias oder zu Deutsch
00:23:17.320 --> 00:23:20.630
Verzerrung. Beim maschinellen Lernen
können wir grundsätzlich in zwei
00:23:20.630 --> 00:23:24.050
verschiedene Formen von Bias
unterscheiden. Auf der einen Seite haben
00:23:24.050 --> 00:23:29.320
wir Bias der Daten, also Bias der ein
Spiegel ist unserer eigenen Vorurteile und
00:23:29.320 --> 00:23:33.090
Moralvorstellungen, ob uns das jetzt
bewusst ist oder nicht.
00:23:33.090 --> 00:23:37.110
Bias in Daten kann aber auch entstehen
ganz zufällig durch mangelhafte Erhebung
00:23:37.110 --> 00:23:42.890
von Daten. Wenn das passiert wird eine
Grundgesamtheit also die Population
00:23:42.890 --> 00:23:48.580
verzerrt abgebildet. Auf der anderen Seite
befindet sich der Bias durch das
00:23:48.580 --> 00:23:51.399
Modellieren.
Das sind also die Gesamtheit aller
00:23:51.399 --> 00:23:54.370
Annahmen die Ingenieure und
Wissenschaftler von Algorithmen machen und
00:23:54.370 --> 00:24:00.490
machen müssen, um überhaupt Voraussagen
treffen zu können. Dabei kann sich
00:24:00.490 --> 00:24:08.120
wiederum der Bias des Modells so auf die
Daten auswirken, dass der Bias in den
00:24:08.120 --> 00:24:11.919
Daten verringert wird. Dazu gibt es
vielfältige Forschung. Es kann aber auch
00:24:11.919 --> 00:24:18.630
den Bias in den Daten verstärken. Auf der
anderen Seite knn auch Bias in Daten den
00:24:18.630 --> 00:24:24.690
Modellier-Bias beeinflussen. Wir werden im
Folgenden, den folgenden 4 Beispielen, uns
00:24:24.690 --> 00:24:28.860
mit all diesen Phänomenen auseinander-
setzen. Maschinelles Lernen hat in den
00:24:28.860 --> 00:24:32.659
letzten Jahren viele Durchbrüche bei der
algorithmischen Wahrnehmung erzielt.
00:24:32.659 --> 00:24:37.250
Algorithmen bewältigen kognitive Aufgaben,
die vor kurzem in weiter Ferne schienen.
00:24:37.250 --> 00:24:42.220
Das hat aber auch eine Welle von Forschung
ausgelöst, die unlösbar geglaubte Aufgaben
00:24:42.220 --> 00:24:46.809
wieder aufgreift und neu bewertet.
Eine Studie dieser Welle ist im November
00:24:46.809 --> 00:24:52.779
letzten Jahres erschienen zwei Forscher
der Shanghai Jiaotong-Universität
00:24:52.779 --> 00:24:57.620
behaupten zeigen zu können, dass man
Menschen mit kriminellen Absichten bereits
00:24:57.620 --> 00:25:01.289
an einem einfachen Ausweis-Foto erkennen
kann und dies mit 90 prozentiger
00:25:01.289 --> 00:25:06.669
Trefferwahrscheinlichkeit. Dieses Ergebnis
steht natürlich im starken Kontrast zu den
00:25:06.669 --> 00:25:10.250
Forschungsergebnissen der letzten Dekaden,
die Kriminalität eher sozio-ökonomischen
00:25:10.250 --> 00:25:14.019
Umständen zuschreiben. Wir wollen uns also
im Folgenden mit dieser Studie ein
00:25:14.019 --> 00:25:19.929
bisschen näher beschäftigen. Die Autoren
sammelten hierzu 1800 Fotos von Chinesen
00:25:19.929 --> 00:25:24.740
im Alter zwischen 18 und 55 Jahren, die
keine bemerkbaren Gesichtsbehaarungen,
00:25:24.740 --> 00:25:30.120
Narben oder Tattoos zeigten. Dabei
repräsentieren zirka 700 Fotos die Rubrik
00:25:30.120 --> 00:25:35.889
kriminell. Die Fotos selbst wurden von der
Polizei bereitgestellt und es handelt sich
00:25:35.889 --> 00:25:39.669
bei allen Fotos um bereits verurteilte
Straftäter.
00:25:39.669 --> 00:25:42.730
Auf der anderen Seite mussten nun auch
Bilder rechtschaffender Bürger
00:25:42.730 --> 00:25:47.429
repräsentiert werden. Dafür wurden 1100
Fotos aus verschiedenen Quellen des
00:25:47.429 --> 00:25:50.750
Internets beschafft. Dabei ist anzunehmen,
dass diese von Seiten wie LinkedIn
00:25:50.750 --> 00:25:55.190
stammen, da die Autoren den Beruf der
vermeintlich rechtschaffenen kennen. Um
00:25:55.190 --> 00:25:59.679
uns nun ein besseres Bild über die Daten
zu machen, wollen wir uns also ein paar
00:25:59.679 --> 00:26:03.710
Datenpunkte anschauen.
Jeder dieser Reihe entsprechen drei
00:26:03.710 --> 00:26:07.629
Datenpunkte aus jeweils einer Kategorie
kriminell oder rechtschaffend.
00:26:07.629 --> 00:26:10.450
Dazu würde ich ein kleines Experiment
wagen. Also ich zähle dann gleich mal bis
00:26:10.450 --> 00:26:15.220
zwei und alle die glauben, die obere Reihe
seien die Rechtschaffenden, die bitte ich
00:26:15.220 --> 00:26:20.429
dann die linke Hand zu heben. Ich hebe die
rechte Hand, damit ihr wisst, welche Hand.
00:26:20.429 --> 00:26:24.140
Und diejenigen, die denken die untere
Reihe wären die Rechtschaffenden, die
00:26:24.140 --> 00:26:27.320
bitte ich also die rechte Hand zu heben.
Das können wir gleich mal probieren, also
00:26:27.320 --> 00:26:32.832
ich zähle nochmal bis 2: eins, zwei und
dann heben wir halt die Hand.
00:26:32.832 --> 00:26:36.620
Okay. Also die meisten von uns sind uns
relativ einig dass wir die rechtschaffenen
00:26:36.620 --> 00:26:40.549
identifizieren können. Aber warum können
wir das? Eigentlich sollten Menschen dazu
00:26:40.549 --> 00:26:45.190
ja nicht in der Lage sein und wir wissen,
dass wir dazu nicht in der Lage sind.
00:26:45.190 --> 00:26:49.870
Ich denke also die meisten von uns haben
gewisse Hinweise in den Bildern
00:26:49.870 --> 00:26:53.490
wahrgenommen, die auf der
Unterschiedlichkeit der Quellen beruhen.
00:26:53.490 --> 00:26:57.399
Also ganz offensichtlich hier der Kragen
im Bild, der darauf hinweist, dass es
00:26:57.399 --> 00:27:02.380
vielleicht ein Bewerbungsfoto sein könnte
oder ein leichtes Grinsen im Gesicht.
00:27:02.380 --> 00:27:07.440
Dahingegen sind die Leute, die auf der
kriminellen Seite sind nicht besonders
00:27:07.440 --> 00:27:10.360
vorteilhaft dargestellt. Also dem Mann
hier wird der Scheinwerfer ins Gesicht
00:27:10.360 --> 00:27:17.260
gestrahlt, was dann Hautunreinheiten und
Falten besonders betont. Wohingegen bei
00:27:17.260 --> 00:27:21.049
den Bewerbungsfotos offensichtlich Make-Up
im Spiel ist oder Photoshop. Im
00:27:21.049 --> 00:27:28.940
trivialsten Fall kann es also sein, dass
der Algorithmus einfach nur erkennt, in
00:27:28.940 --> 00:27:32.710
welchen Fotos Photoshop nachgeholfen hat.
Das kann man also zum Beispiel schon an
00:27:32.710 --> 00:27:37.500
lokalen Pixel Statistiken gut erkennen.
Diese Studie ist vielleicht ein extremes
00:27:37.500 --> 00:27:41.910
Beispiel, wie gravierend sich die
verwendeten Daten auf das Ergebnis einer
00:27:41.910 --> 00:27:45.730
Voraussage eines Algorithmus auswirken
können. Dies ist ein besonders starkes
00:27:45.730 --> 00:27:50.360
Beispiel für Stichproben-Verzerrung, also
Bias in dem Gruppen unterschiedlich
00:27:50.360 --> 00:27:53.710
dargestellt werden.
Bias kann aber auch entstehen ganz
00:27:53.710 --> 00:27:57.190
zufällig, wenn zu wenige Datenpunkte
vorhanden sind, um verlässliche Aussagen
00:27:57.190 --> 00:27:59.940
zu treffen.
Solche Probleme sehen wir also oft in
00:27:59.940 --> 00:28:04.929
medizinischen Studien oder psychologischen
Studien, wo Tests teuer und langwierig
00:28:04.929 --> 00:28:08.750
sind.
Melde-Bias beschreibt, wenn Befragte
00:28:08.750 --> 00:28:11.379
unkorrekte Angaben machen.
Das geschieht zum Beispiel oft bei
00:28:11.379 --> 00:28:15.529
Gewaltverbrechen, bei denen Angst und
Repression eine Rolle spielen. Und
00:28:15.529 --> 00:28:20.140
natürlich spielen auch die verwendeten
Merkmale, die ein gewisses Problem
00:28:20.140 --> 00:28:25.250
beschreiben sollen, eine große Rolle.
Kommen wir nun zur zweiten Kategorie: dem
00:28:25.250 --> 00:28:29.049
Bias in den Modellen.
Hat man sich früher also vor dem die
00:28:29.049 --> 00:28:33.590
Deeplearning-Hype, sagen wir mal vor 2012
eine Einführungsveranstaltung zum
00:28:33.590 --> 00:28:37.700
maschinellen Lernen gesetzt, dann begann
fast jeder mit dem Erklären des No-free-
00:28:37.700 --> 00:28:44.659
Lunch-Theorems. Also der Aussage, dass
kein Modell in allen möglichen Szenarien
00:28:44.659 --> 00:28:47.549
funktioniert.
Daraus schlussfolgerten wir, dass wir
00:28:47.549 --> 00:28:52.820
Annahmen machen müssen, die das Modell im
Hinblick auf unser spezifisches Problem
00:28:52.820 --> 00:28:58.120
beschränken. Diese Annahmen haben aber
ihre Grenzen. Dann versagt das Modell,
00:28:58.120 --> 00:29:00.399
ohne dass sich das Modell darüber bewusst
ist.
00:29:00.399 --> 00:29:07.230
Das heißt also unser Job als
Wissenschaftler oder Studierender ist es,
00:29:07.230 --> 00:29:14.890
diese Grenzfälle zu benennen und zu
testen, ob in unserem speziellen
00:29:14.890 --> 00:29:17.950
Anwendungsfall diese Algorithmen nicht
versagen.
00:29:17.950 --> 00:29:23.029
An diesen Prinzipien hat sich auch bis
heute nichts geändert, aber der Erfolg des
00:29:23.029 --> 00:29:25.490
maschinellen Lernens in bestimmten
Bereichen lässt selbst uns
00:29:25.490 --> 00:29:29.610
WissenschaftlerInnen diese universalen
Regeln manchmal vergessen.
00:29:29.610 --> 00:29:33.509
Wir sind dann versucht zu glauben, dass
Modelle so flexibel sind, dass die Grenzen
00:29:33.509 --> 00:29:37.000
quasi nicht mehr existieren.
Im Folgenden möchte ich aber auf ein
00:29:37.000 --> 00:29:40.970
Beispiel eingehen, das sich auch mit dem
Deeplearning-Hype gar nicht geändert hat.
00:29:40.970 --> 00:29:46.750
Und das ist das Problem der Zielsetzung
und die Frage, wie Erfolg zu bewerten ist.
00:29:46.750 --> 00:29:51.799
Am Beginn des Vortrags sprach Hendrik über
das Messen von Fehlern und, dass das
00:29:51.799 --> 00:29:55.049
Korrigieren dieser Fehler ein wichtiger
Mechanismus sei, um Algorithmen zu
00:29:55.049 --> 00:29:58.590
trainieren.
Doch was ein Fehler ist, ist oft nicht
00:29:58.590 --> 00:30:02.200
einfach zu bestimmen und es liegt in der
Hand des Ingenieurs zu definieren.
00:30:02.200 --> 00:30:04.321
Zum Beispiel wie messe ich Erfolg bei
YouTube-Empfehlungen?
00:30:04.321 --> 00:30:09.150
Messe ich die Zeit die jemand auf der
Plattform verbringt? Das kann aber auch
00:30:09.150 --> 00:30:12.220
bedeuten, dass der PC vielleicht noch
einer Ecke steht und die Personen gar
00:30:12.220 --> 00:30:15.710
nicht mehr im Raum ist oder messe ich die
Anzahl von Klicks? Aber wenn diese zu
00:30:15.710 --> 00:30:19.250
frequent sind, dann bedeutet das
vielleicht, dass die Person das Video gar
00:30:19.250 --> 00:30:23.580
nicht mag.
Ein anderes Problem sind Übersetzungen.
00:30:23.580 --> 00:30:32.170
Stellen Sie sich nur also vor, dass wir
einen Korpus von Übersetzungen haben und
00:30:32.170 --> 00:30:36.380
wir wollen messen, ob ein Text richtig
übersetzt wurde.
00:30:36.380 --> 00:30:43.620
Wie können wir das messen? Wort für Wort
oder Paragraph für Paragraph? Wenn wir
00:30:43.620 --> 00:30:46.870
Wort für Wort messen, dann spielen wir
vielleicht mit der Wortreihenfolge in
00:30:46.870 --> 00:30:49.299
verschiedenen Sprachen und das
funktioniert dann nicht so gut. Wenn wir
00:30:49.299 --> 00:30:53.659
Paragraph für Paragraph messen,
funktioniert das vielleicht nicht so gut,
00:30:53.659 --> 00:30:58.179
weil der Algorithmus den Kontext nicht
mehr begreift. Und wie gehen wir mit
00:30:58.179 --> 00:31:01.130
Synonymen um? Wenn also der Algorithmus
ein richtiges Synonymen gefunden hat, wird
00:31:01.130 --> 00:31:04.720
dann trotzdem ein Fehler berechnet, wenn
der spezielle Datenpunkt besagt, dass das
00:31:04.720 --> 00:31:08.340
vielleicht als ein anderes Synonym zu
übersetzen ist? Man muss also
00:31:08.340 --> 00:31:13.299
Entscheidungen treffen. Die Ingenieure bei
Google und anderen führenden
00:31:13.299 --> 00:31:20.970
Übersetzungssystem beantworten die Frage
folgendermaßen: Wir übersetzen Satz für
00:31:20.970 --> 00:31:25.880
Satz. Dabei gehen wir davon aus, dass
Sätze unabhängig sind und nur das
00:31:25.880 --> 00:31:30.049
wahrscheinlichste Wort oder die
wahrscheinlichste Phrase wird richtig
00:31:30.049 --> 00:31:35.380
bewertet. Wenn wir also nochmal auf das
Beispiel aus der ersten Hälfte des
00:31:35.380 --> 00:31:40.360
Vortrags eingehen. Wenn wir
nun "Sie ist eine Frau. Sie ist Ärztin" in
00:31:40.360 --> 00:31:45.690
das genderneutrale Türkisch übersetzen zu
"O bir kadın. O bir doktor." und dann
00:31:45.690 --> 00:31:51.090
zurückübersetzen ins Deutsche, dann wird
dies mit "Sie ist eine Frau. Er ist Arzt"
00:31:51.090 --> 00:31:55.200
übersetzt. Und jetzt wissen wir auch
warum. Da wir annahmen, dass Sätze
00:31:55.200 --> 00:31:58.779
unabhängig sind weiß der Algorithmus gar
nichts vom Kontext, also dass wir hier
00:31:58.779 --> 00:32:04.580
über eine Frau sprechen. Wenn der
Algorithmus "O bir doktor" dann übersetzt,
00:32:04.580 --> 00:32:08.360
übersetzt der nur die wahrscheinlichste
Phrase und die ist "Er ist Arzt". Es
00:32:08.360 --> 00:32:12.389
handelt sich hier also nicht um Bias in
den Daten oder zumindest nicht unbedingt,
00:32:12.389 --> 00:32:20.009
sondern um Bias in den Annahmen die das
Modell zu sehr vereinfachen. Ein zweites
00:32:20.009 --> 00:32:23.289
Beispiel führt das noch klarer vor Augen.
Wenn wir hier eben den Punkt durch ein
00:32:23.289 --> 00:32:30.830
Komma ersetzen, dann kann der Algorithmus
es richtig übersetzen, weil er sich des
00:32:30.830 --> 00:32:36.970
Kontexts bewusst ist. Im nächsten Beispiel
um das Phänomen Bias wollen wir zeigen wie
00:32:36.970 --> 00:32:39.909
Bias in Modellen Bias in Daten verstärken
kann.
00:32:39.909 --> 00:32:44.820
Dies wird besonders in sogenannten aktiven
Lernszenarien bewusst. Aktives Lernen
00:32:44.820 --> 00:32:52.190
funktioniert wie folgt. Wir haben Daten,
auf deren Grundlage wir einen Algorithmus
00:32:52.190 --> 00:32:55.990
lernen. Für manche Voraussagen sind wir
uns aber nicht sicher. Darum fragen wir
00:32:55.990 --> 00:32:59.990
einen menschlichen Experten um Rat und der
Algorithmus fragt dann meistens die
00:32:59.990 --> 00:33:06.950
folgende Frage: Habe ich diesen Datenpunkt
richtig bewertet? Und falls nicht, bitte
00:33:06.950 --> 00:33:11.970
um Feedback! Das führt dazu, dass der
Algorithmus in der Zukunft mehr Daten zur
00:33:11.970 --> 00:33:16.309
Verfügung gestellt bekommt, um dann besser
zu lernen und weniger oft um Hilfe fragen
00:33:16.309 --> 00:33:22.070
zu müssen. Das klingt gut. Und so viel zum
störungsfreien Ablauf. Was aber nun wenn
00:33:22.070 --> 00:33:27.070
ein Datenpunkt mit falschen oder
verzerrten Merkmalen beschrieben wird? Und
00:33:27.070 --> 00:33:31.399
dazu kommt, dass unser Mensch vielleicht
nicht so wachsam ist, wie wir in unserem
00:33:31.399 --> 00:33:37.420
Modell annehmen. Wir haben also eine
kleine Verzerrung im Datensatz, und die
00:33:37.420 --> 00:33:42.710
Annahme des idealen Menschen wird verletzt
in unserem eigentlichen Phänomen. Dieser
00:33:42.710 --> 00:33:47.909
falsche Datenpunkt wird also ignoriert.
Das führt dann dazu, dass, obwohl die
00:33:47.909 --> 00:33:52.490
Ursache der Verzerrung nicht mehr aktiv
ist, dieser Datenpunkt nun vermehrt wird
00:33:52.490 --> 00:33:57.000
aufgrund der Tatsache, dass der Mensch
nicht auf die Frage, habe ich diesen
00:33:57.000 --> 00:34:02.512
Datenpunkt richtig bewertet, reagiert.
Und das führt dann wiederum dazu, wenn man
00:34:02.512 --> 00:34:04.720
mehr
verzerrte Daten hat, dass diese mehr
00:34:04.720 --> 00:34:08.590
verzerrten Daten sich immer weiter
vermehren können. Wann kann ich das also
00:34:08.590 --> 00:34:13.710
jetzt in freier Wildbahn beobachten? Es
ist relativ schwer zu sagen, weil sich
00:34:13.710 --> 00:34:16.600
natürlich solche großen Player wie Google
oder Facebook nicht immer in die Karten
00:34:16.600 --> 00:34:21.320
blicken lassen. Aber ich denke ein Tweet
aus dem vergangenen Jahr lässt darauf
00:34:21.320 --> 00:34:27.090
schließen, dass das vielleicht hier
passiert sein könnte. Also eine
00:34:27.090 --> 00:34:30.679
Afroamerikanerin mit Kussmund, in der
Mitte unten, wird hier als Gorilla
00:34:30.679 --> 00:34:33.489
bezeichnet. Das ist eine
geschichtsträchtige Bezeichnung für
00:34:33.489 --> 00:34:37.130
Afroamerikaner in Amerika und hat
natürlich große Wellen geschlagen. Google
00:34:37.130 --> 00:34:41.190
erklärt die Ursache des Fehlers nicht
genau genug, um genau zu wissen, was ihn
00:34:41.190 --> 00:34:46.670
ausgelöst hat, aber zwei Probleme können
eine Rolle gespielt haben. Eins wäre, dass
00:34:46.670 --> 00:34:50.320
die Bildbeschreibung immer von Menschen
bereitgestellt wird, und die erlauben sich
00:34:50.320 --> 00:34:55.679
gerne mal zu trollen und verfälschen das
originale Datenset damit. Das kann aber
00:34:55.679 --> 00:34:59.180
nicht die einzige Ursache sein. Es kommt
also mindestens noch dazu, dass gewisse
00:34:59.180 --> 00:35:02.180
Gruppen von Menschen entweder einfach sehr
klein sind in einer Gesellschaft oder
00:35:02.180 --> 00:35:06.480
unterrepräsentiert sind. Und vielleicht
auch drittens, man muss schon sagen dass
00:35:06.480 --> 00:35:11.650
bei großen Tech-Firmen sehr wenig
Grenzszenarien oder Szenarien getestet
00:35:11.650 --> 00:35:15.560
werden. Wir denken da zum Beispiel an den
Microsoft Chatbot, der ganz ähnliche
00:35:15.560 --> 00:35:22.130
Phänomene gezeigt hat. Also der dann auch
sehr rassistische Chat-Nachrichten
00:35:22.130 --> 00:35:26.880
geschrieben hat. Das letzte relevante
Beispiel zum Thema Bias soll aus dem
00:35:26.880 --> 00:35:32.130
Bereich des übertragenden Lernens kommen.
Hierbei ist das Ziel das Lösen einer
00:35:32.130 --> 00:35:37.490
Aufgabe. Und diese Aufgabe hat aber nur
wenige Datenpunkte. Und das sind nicht
00:35:37.490 --> 00:35:40.960
genug, um den Algorithmus erfolgreich
lernen zu lassen. Aber es gibt eine
00:35:40.960 --> 00:35:44.950
ähnliche Aufgabe, die erfolgreich gelöst
werden kann. Und die Idee ist nun, dass
00:35:44.950 --> 00:35:50.100
gut funktionierende Modell zu verwenden um
unseren eigentlichen Problemen zu helfen.
00:35:50.100 --> 00:35:57.310
Diese Technik führt aber wieder zu
Verzerrungen, die nur schwer bestimmt und
00:35:57.310 --> 00:36:00.750
kontrolliert werden können.
Das wird klar, wenn wir ein konkretes
00:36:00.750 --> 00:36:04.440
Beispiel betrachten. Wir können eine ganze
Halle voll Roboterarme stellen, um ihnen
00:36:04.440 --> 00:36:10.180
bestimmte motorische Aufgaben
beizubringen. Aber selbst 1000 Roboterarme
00:36:10.180 --> 00:36:17.530
lernen nur mühsam. Was also gang und gäbe
ist in der modernen Robotik, sind dass man
00:36:17.530 --> 00:36:23.020
Systeme in Simulationen üben lässt.
Systeme werden also für Tausende Jahre in
00:36:23.020 --> 00:36:26.730
Simulationen geübt. Das ist natürlich aber
nie Realität. Also wir denken da an
00:36:26.730 --> 00:36:31.540
Gravitationssimulationen, die Fehler
enthalten kann. Lichtbedingungen, die
00:36:31.540 --> 00:36:34.910
nicht ganz real sind, oder der
idealisierte Roboterarm, der hier
00:36:34.910 --> 00:36:40.190
verwendet wird. In diesem Zusammenhang
möchte ich auch sagen, wie attraktiv auch
00:36:40.190 --> 00:36:44.100
die Zukunft mit selbstfahrenden Autos
erscheinen mag, mit ihren Versprechen nach
00:36:44.100 --> 00:36:47.970
mehr Platz in den Städten, weniger
Unfällen und effektiverer Verkehrsführung,
00:36:47.970 --> 00:36:51.581
so sollte man auch sehr skeptisch sein,
denn auch diese Systeme haben die meiste
00:36:51.581 --> 00:36:58.840
Lebenserfahrung in Simulationen gesammelt.
Eine ganz andere Betrachtungsweise auf
00:36:58.840 --> 00:37:03.140
Daten ist die der Datendichte. Daten
können dicht beieinander liegen oder weit
00:37:03.140 --> 00:37:09.380
voneinander entfernt. In Bereichen mit
vielen Daten ist es oft einfach korrekte
00:37:09.380 --> 00:37:13.650
Aussagen zu treffen. Neue Datenpunkte in
diesen Bereichen zu beschreiben nennt man
00:37:13.650 --> 00:37:18.640
Interpolation. Wohingegen Bereiche mit
wenigen Daten oder keinen Datenpunkten
00:37:18.640 --> 00:37:22.920
sehr schwer zu beschreiben sind. Diese
Aufgabe beschreibt man mit Extrapolation.
00:37:22.920 --> 00:37:27.692
Korrektes extrapolieren ist im Allgemeinen
nicht möglich oder nur möglich, wenn man
00:37:27.692 --> 00:37:30.500
korrekte Annahmen über den
Entstehungsprozess der Daten macht.
00:37:30.500 --> 00:37:35.790
Interpolieren, also das Wandern von einem
oder mehreren Datenpunkte zum anderen,
00:37:35.790 --> 00:37:40.570
kann so wichtige Fragen des Alltags
beantworten wie: Wie würde das Kind von
00:37:40.570 --> 00:37:46.650
Kim Jong-un und Donald J. Trump aussehen?
Neueste Anwendungen dieser Technik
00:37:46.650 --> 00:37:51.280
beinhalten auch das gezielte Verändern von
Video in Bild und Sprache. Beispielsweise
00:37:51.280 --> 00:37:55.470
wurde hier das Gesicht von der
Hauptdarstellerin des Wonder Woman Films,
00:37:55.470 --> 00:38:01.670
Gal Gadot, auf einen pornografischen Film
gelegt. Und man muss nicht weit denken um
00:38:01.670 --> 00:38:03.370
sich die Konsequenzen solcher Techniken,
für
00:38:03.370 --> 00:38:07.440
Fake News zum
Beispiel, vorzustellen. Im extremsten Fall
00:38:07.440 --> 00:38:12.420
gibt es sehr wenige oder keine Daten wo
eine Aussage getroffen werden soll. Nun
00:38:12.420 --> 00:38:16.220
ist es wichtig, die richtigen Annahmen zu
treffen um extrapolieren zu können. Das
00:38:16.220 --> 00:38:20.730
haben wir bereits gesagt. Das ist aber
eine extrem schwere Aufgabe, zu der auch
00:38:20.730 --> 00:38:24.750
moderne Wissenschaft nur wenige und
unvollständige Antworten weiß. Was also
00:38:24.750 --> 00:38:28.331
anstatt in aller Regel passiert, ist, dass
Algorithmen keine Annahmen machen. Und das
00:38:28.331 --> 00:38:33.630
kann zu unvorhergesehenen Phänomenen
führen. Im schlimmsten Fall kann man
00:38:33.630 --> 00:38:38.530
dieses Wissen auch nutzen zu sogenannten
feindlichen Attacken auf Algorithmen. Eine
00:38:38.530 --> 00:38:43.340
Attacke verläuft beispielsweise so: Man
nehme einen Datenpunkt aus dem Datenset
00:38:43.340 --> 00:38:47.430
und dessen beschreibende Merkmale, also
hier z.B. die Bilder von Verkehrsschildern
00:38:47.430 --> 00:38:48.430
und die Verkehrsschilder.
00:38:48.430 --> 00:38:49.430
[38:48]
00:38:49.430 --> 00:38:54.090
Man suche dann fernab von den Daten einen
Punkt der sehr ähnlich ist, den aber der
00:38:54.090 --> 00:38:58.830
Algorithmus mit all mit einem ganz anderen
Merkmal beschreiben würde. Und das
00:38:58.830 --> 00:39:08.910
gruselige ist, dass dies auch funktioniert
mit ausgedruckten Version derselben
00:39:08.910 --> 00:39:13.580
Attacke. Und wenn man nicht dieselben
Daten und nicht einmal denselben dasselbe
00:39:13.580 --> 00:39:19.470
Modell kennt oder verwendet. Wen das
interessiert dem empfehle ich sehr für die
00:39:19.470 --> 00:39:22.700
nächste Präsentation zu bleiben. Das wird
glaube ich ja der Kernpunkt der nächsten
00:39:22.700 --> 00:39:27.780
Präsentation sein. Abschließend zum Thema
Möchte ich nochmal ganz deutlich machen,
00:39:27.780 --> 00:39:33.350
dass in allen Systemen des modernen
maschinellen Lernens Korrelation evaluiert
00:39:33.350 --> 00:39:39.320
wird und nicht Kausalität. Mathematische
Kausalitätsforschung, also dem Suchen nach
00:39:39.320 --> 00:39:43.450
Ursache und Effekt für komplexe Systeme
ist erstens ein Kinderschuh und
00:39:43.450 --> 00:39:47.440
Korrelation zu finden und zu beschreiben
ist nur einer der Schritte der dazu nötig
00:39:47.440 --> 00:39:53.320
ist. Bevor ich die Frage dann- die Runde
für Fragen öffne haben Hendrik und ich
00:39:53.320 --> 00:39:56.050
noch ein Anliegen. Also ich hoffe wir
haben umfassend die technischen
00:39:56.050 --> 00:40:00.220
Möglichkeiten des maschinellen Lernens
dargestellt und welche Begrenzungen es
00:40:00.220 --> 00:40:06.150
aufweist. Letzteres soll und wird uns als
Gesellschaft aber nicht davon abhalten
00:40:06.150 --> 00:40:11.140
diese großartigen Fortschritte zu
geniessen. Also denken wir an Mediziner
00:40:11.140 --> 00:40:14.850
und Molekulare Biologie in denen diese
Techniken großes Versprechen und auch
00:40:14.850 --> 00:40:19.740
schon geliefert haben. Daraus ergeben sich
trotzdem große politische Fragen die uns
00:40:19.740 --> 00:40:23.490
alle etwas angehen. Entscheidungen die
Wissenschaftler nicht alleine treffen
00:40:23.490 --> 00:40:28.570
können, wollen oder sollten. Also wir
müssen uns Sachen fragen wie: Wer soll im
00:40:28.570 --> 00:40:32.810
konkreten Fall Entscheidungen treffen,
Menschen oder Maschinen. Wer ist Schuld
00:40:32.810 --> 00:40:38.500
wenn Fehler passieren: Ingenieure, Firmen,
Staat oder vielleicht gar niemand. Wie
00:40:38.500 --> 00:40:44.290
können staatliche Garantien wie Gleichheit
juristisch umgesetzt werden im Angesicht
00:40:44.290 --> 00:40:49.700
solcher neuen Algorithmen. Und natürlich
auch wie können Algorithmen oder sollten
00:40:49.700 --> 00:40:53.390
Algorithmen reguliert werden. An der
Stelle möchte ich mich bedanken für
00:40:53.390 --> 00:40:57.070
Aufmerksamkeit
und würde die Runde eröffnen für Fragen.
00:40:57.070 --> 00:41:12.620
Herald-Angel: Vielen Dank Karen, vielen
00:41:12.620 --> 00:41:19.430
Dank Hendrik. Wenn ihr Fragen habt, bitte
an den Mikros aufstellen. Und dann
00:41:19.430 --> 00:41:21.770
entsprechend warten. Mikrophon 1
bitteschön.
00:41:21.770 --> 00:41:24.420
Mikrofon 1: Ja, vielen Dank für den
00:41:24.420 --> 00:41:31.360
großartigen Vortrag, war super spannend
und es ist ein sehr sehr wichtiges Thema,
00:41:31.360 --> 00:41:35.900
wie gehen wir damit um, weil es wirklich
Auswirkungen hat auf die politische
00:41:35.900 --> 00:41:41.650
Organisation, auf die Demokratie, all
diese Sachen. Jetzt vom Beispiel das
00:41:41.650 --> 00:41:45.250
Hendrik gebracht hat, im ersten Teil
ging's ja jetzt auch zum Beispiel über die
00:41:45.250 --> 00:41:51.820
Anwendung von KI für ja sagen wir
politische Propaganda, könnte man auch
00:41:51.820 --> 00:41:58.300
sehen, Cambridge Analytica, die ganzen
Sachen und gleichzeitig als zweites Thema
00:41:58.300 --> 00:42:03.720
die Filterbubbles die sich bilden, also wo
natürlich eine Verstärkung dieses
00:42:03.720 --> 00:42:09.100
Phaenomens möglich ist. Meine Frage, die
ich mich in diesem Jahr gestellt habe, mit
00:42:09.100 --> 00:42:19.580
Brexit, mit Trumpwahlen und so weiter, was
sind die Möglichkeiten die sich bieten um
00:42:19.580 --> 00:42:26.890
dem entgegenzuwirken, dass sich Meinungen
so stark durch Filterbubbles polarisieren,
00:42:26.890 --> 00:42:33.860
dass Leute durch Targeted Advertisement
beeinflusst werden, die mit AI generiert
00:42:33.860 --> 00:42:41.060
werden und Big Data. Wie ja- habt ihr
konkrete Vorschläge?
00:42:41.060 --> 00:42:44.060
Hendrik: Vielen Dank für die Frage. Es
00:42:44.060 --> 00:42:47.900
geht also darum was man jetzt gegen diese
Probleme insbesondere im politischen
00:42:47.900 --> 00:42:52.620
Bereich machen kann. Und es ist natürlich
eine riesige Frage, wird uns warscheinlich
00:42:52.620 --> 00:42:57.400
auch noch lange Begleiten, ich glaube
kognitive Diversität im Bekannten- und
00:42:57.400 --> 00:43:02.630
Freundeskreis, ganz wichtig, vor allem aber
auch in Unternehmen. Und unsere Ansätze, so
00:43:02.630 --> 00:43:06.490
kommen sie ja zusammen, mir gehts ja darum
wie können wir Leute untersützten, wie
00:43:06.490 --> 00:43:09.931
machen wir Visualisierungen, wie machen
wir Algorithmen sichtbar, wie helfen wir
00:43:09.931 --> 00:43:13.861
den Leuten zu verstehen was da passiert.
Meine Perspektive, Karens Perspektive
00:43:13.861 --> 00:43:17.300
dann: Wie können wir die ALgorithmen, die
Blackbox aufmachen, wie können wir
00:43:17.300 --> 00:43:21.200
erklären, wie kann ein System auch sagen
wie sicher es ist mit seiner Vorhersage.
00:43:21.200 --> 00:43:28.280
Also es gibt ja auch viel Arbeit, es gibt
die Fairness, Transparency... Fairness,
00:43:28.280 --> 00:43:32.230
Accountability, and Transparency in
Machine Learning fatml.org. Da gibt es
00:43:32.230 --> 00:43:35.630
eine ganz große Gruppe von Leuten die sich
damit auseinandersetzt, auch aus ganz
00:43:35.630 --> 00:43:39.070
verschiedenen Richtungen, weil es gibt
viel Arbeit dazu in der Psychologie, in
00:43:39.070 --> 00:43:43.700
der Soziologie, aber auch halt in der
Informatik. Genau fatml.org ist eine sehr
00:43:43.700 --> 00:43:44.700
gute Addresse für sowas.
00:43:44.700 --> 00:43:50.630
Herald-Angel: Eine Bitte an die, die
gerade rausgehen: Macht das bitte so leise
00:43:50.630 --> 00:43:54.010
wie es geht und versucht durch die Tür zu
meiner Linken, zu eurer Rechten dort
00:43:54.010 --> 00:44:00.790
hinten, den Saal zu verlassen, danke
schön.
00:44:00.790 --> 00:44:04.790
Jawohl, Mikrofon 5, du hast eine Frage?
00:44:04.790 --> 00:44:08.960
Mikrophon 5: Ja, eher ein kurzer Kommentar
aus dem Bereich des Machine Learnings, ist
00:44:08.960 --> 00:44:13.170
das, was wir da gesehen haben bei der bei
dem Gorillabeispiel, ebenso bei dem
00:44:13.170 --> 00:44:18.550
Übersetzungsbeispiel nicht eher ein Bias
in der Kostenfunktion? Dadurch, dass wir
00:44:18.550 --> 00:44:22.380
dem Algorithmus gesagt haben, es ist
genauso teuer, wenn du die Klasse Gorilla
00:44:22.380 --> 00:44:27.410
mit der Klasse mit einer anderen Klasse
verwechselst, versus, dass wir die
00:44:27.410 --> 00:44:33.470
Oberklasse Mensch mit der Oberklasse Tier
verwechselst, oder in dem Genderbeispiel
00:44:33.470 --> 00:44:37.900
dass "Er" und "Sie" als Verwechselung
eines einzelnen Worts genauso teuer sind
00:44:37.900 --> 00:44:40.800
wie beliebige andere Worverwechselungen.
00:44:40.800 --> 00:44:44.620
Hendrik: Sehr guter Punkt. Also man kann
natürlich in der Kostenfunktion dagegen
00:44:44.620 --> 00:44:48.350
vorwirken, man kann sagen dieser Fehler
ist schlimmer für uns als der andere
00:44:48.350 --> 00:44:53.150
Fehler, aber wenn wir davon ausgehen, dass
alle Klassen gleich sind und wir einfach
00:44:53.150 --> 00:44:56.550
für alle Klassen gleich gute Ergebnisse
haben wollen, und das kommt ja aus Google
00:44:56.550 --> 00:45:01.030
Fotos, wo wir das für alle Kategorien
machen wollen, dann ist es halt da kommt
00:45:01.030 --> 00:45:04.180
der Mensch wieder rein. Das ist dann
nichtmehr allgemeines Machine Learning,
00:45:04.180 --> 00:45:07.520
sondern wieder so Frickellösung. Und
dieses Problem des Bias, und darum gings
00:45:07.520 --> 00:45:11.160
ja, ist einfach dem Machine Learning
inherent, und wir müssen damit umgehen.
00:45:11.160 --> 00:45:14.110
Und ich glaube nicht, dass man das einfach
in die Kostenfunktion schreiben kann. Oder
00:45:14.110 --> 00:45:15.560
willst du noch was dazu sagen?
00:45:15.560 --> 00:45:21.770
Karen: Ja der Punkt von dem Beispiel war
ja auch quasi wie einerseits da muss ein
00:45:21.770 --> 00:45:27.240
falscher Datenpunkt exestiert haben, und
wie das quasi durch die ein Bias
00:45:27.240 --> 00:45:30.350
vielleicht, oder eine Annahme in der
Kostenfunktion dann eigentlich noch viel
00:45:30.350 --> 00:45:34.900
verstärkt wird. Es geht ja darum wie quasi
eine Negativ-Spirale manchmal losgetreten
00:45:34.900 --> 00:45:38.240
werden kann. Dadurch, dass wir einerseits
Bias in den Daten haben, aber auch andere
00:45:38.240 --> 00:45:42.750
gewisse Annahmen machen, die vielleicht
die Realität zu sehr vereinfachen.
00:45:42.750 --> 00:45:44.540
Das war ja der Punkt dieses Beispiels.
00:45:44.540 --> 00:45:47.670
Hendrik: Und vielleicht dazu noch: Das
sind natürlich sehr offensichtliche
00:45:47.670 --> 00:45:50.970
Beispiele, auch um das hier deutlich zu
machen. Es gibt natürlich auch immer diese
00:45:50.970 --> 00:45:55.220
Blindstellen, Blindspots, wo halt was
passiert, von dem wir das garnicht wissen.
00:45:55.220 --> 00:45:57.530
Das ist ja auf eine Art auch ein
Blindspot, der vielleicht auch damit
00:45:57.530 --> 00:46:02.260
zusammenhängt, dass Google nicht divers
genug ist und nicht genug Leute derartige
00:46:02.260 --> 00:46:04.940
Daten damit getestet haben, bevor sie es
public gemacht haben.
00:46:04.940 --> 00:46:08.450
Herald-Angel: Mikrophon 1, deine Frage.
00:46:08.450 --> 00:46:11.420
Mikrophon 1: Ja vielen Dank, euer Vortrag
00:46:11.420 --> 00:46:15.290
war ja so ein bischen als Einführung
gedacht, das Thema auf die Agenda zu
00:46:15.290 --> 00:46:17.750
bringen, was ich ganz großartig finde,
aber deswegen hätte ich jetzt eher so eine
00:46:17.750 --> 00:46:21.820
Kommunikationsstrategische Frage. Ihr habt
ja ganz viel über Bias gesprochen, über
00:46:21.820 --> 00:46:25.260
Verzerrung, wenn man das so sagt denkt man
implizit ganz oft an neutral und
00:46:25.260 --> 00:46:29.940
Unverzerrt, und ich fands toll, du hattest
ja das No-Free-Lunch-Theorem da, also
00:46:29.940 --> 00:46:33.250
sagen: Machine Learning ohne Bias gibt's
garnicht, du hast auch gerade gesagt, das
00:46:33.250 --> 00:46:36.920
ist Machine-Learning inherent. Aber das
ist ja ganz wichtig zu sagen, deswegen
00:46:36.920 --> 00:46:40.080
wollte ich einfach mal fragen wenn es um
politische Debatten geht, um öffentliche
00:46:40.080 --> 00:46:44.260
Debatten geht, ob ihr dann denkt, dass
Bias und Verzerrung sozusagen der richtige
00:46:44.260 --> 00:46:48.770
Header ist, um das alles zu thematisieren.
Weil es eben dieses Neutrale, Unverzerrte
00:46:48.770 --> 00:46:52.880
immer mit impliziert, oder ihr denkt, dass
man das dann nochmal anders framen müsste.
00:46:52.880 --> 00:46:54.890
Hendrik: Wir sind aufjedenfall keine
00:46:54.890 --> 00:46:59.410
Kommunikationsstrategen. Es gibt natürlich
viele hervorragende Mediensoziologen,
00:46:59.410 --> 00:47:02.650
Kommunikationswissenschaftler, die das
warscheinlich viel besser machen können.
00:47:02.650 --> 00:47:07.950
Wir wollten jetzt erstmal in diesem Rahmen
zeigen, welche Probleme wir als Techniker,
00:47:07.950 --> 00:47:12.380
als Informatiker - wir promovieren ja
beide zu diesen Themen - sehen. Also...
00:47:12.380 --> 00:47:16.520
Also das ist wird uns ja aber auch noch
sehr lange beschäftigen, das richtig an
00:47:16.520 --> 00:47:17.520
die Leute zu bringen.
00:47:17.520 --> 00:47:22.860
Herald-Angel: Okay, Dankeschön. Wir haben
eine Frage aus dem IRC.
00:47:22.860 --> 00:47:25.540
Signal-Angel: Ja, danke, eine Frage aus
00:47:25.540 --> 00:47:28.530
dem Internet: Hat menschliches Lernen
nicht genau genommen die selben Probleme
00:47:28.530 --> 00:47:32.730
wie maschienelles Lernen? Oder gibt es da
im Prinzipiellen Unterschiede?
00:47:32.730 --> 00:47:38.750
Hendrik: Ich guck mal zu dir.
00:47:38.750 --> 00:47:42.590
Karen: Also, das ist eine Frage, die
00:47:42.590 --> 00:47:44.441
natürlich nicht nur das maschienelle
Lernen betrifft, sondern auch die
00:47:44.441 --> 00:47:48.690
Psychologie, oder die Evolutionsforschung,
zu der ich mich nicht auskenne. Der
00:47:48.690 --> 00:47:56.680
Algorithmus oder die Idee, die Grundidee
des maschienellen Lernens ist ja quasi
00:47:56.680 --> 00:48:01.720
Fehler festzustellen, und die dann zu
kommunizieren und das Modell wird dann
00:48:01.720 --> 00:48:05.890
daraufhin besser. Ob das jetzt bei uns
Menschen so funktioniert, ich bin mir
00:48:05.890 --> 00:48:12.250
nicht sicher ob das jemals jemand genauso
gesagt hat. Aber ich glaube im Sinne von,
00:48:12.250 --> 00:48:19.020
dass unser Gehirn optimiert, das wird,
oder das habe ich bestreiten gehört von
00:48:19.020 --> 00:48:24.400
Psychologen. Also die Frage ist nicht so
sehr wie, oder das Problem, dass ich mit
00:48:24.400 --> 00:48:26.770
der Frage habe ist nicht so sehr wie jetzt
das maschienelle Lernen funktioniert,
00:48:26.770 --> 00:48:29.590
sondern wie wir selbst funktionieren. Ich
glaube wir sind gerade auf dem Weg das
00:48:29.590 --> 00:48:34.540
herauszufinden und die Modelle des Machine
Learnings, maschienellen Lernens sind oft
00:48:34.540 --> 00:48:39.100
nur grobe Vereinfachungen dafür wie wir
selbst funktioneren.
00:48:39.100 --> 00:48:40.790
Hendrik: Genau, ich würde auch sagen, es
00:48:40.790 --> 00:48:44.930
ist bio-inspiriert, aber es gab auch eine
Zeit wo alles Maschienen waren, der Körper
00:48:44.930 --> 00:48:48.550
als Maschine. Das ist halt die Metapher
ihrer Zeit. Jetzt haben wir diese
00:48:48.550 --> 00:48:52.400
künstlichen neuronalen Netzwerke und jetzt
sind das die Metaphern, die wir nutzen,
00:48:52.400 --> 00:48:55.570
also ich glaube da ist ein fundamentaler
Unterschied zwischen menschlichem und
00:48:55.570 --> 00:48:56.570
künstlichem Lernen.
00:48:56.570 --> 00:49:00.530
Karen: Ja es gibt auch so einen zentralen
Leitsatz im maschinellen Lernen, der
00:49:00.530 --> 00:49:05.170
besagt, dass alle Modelle falsch sind, und
einige vielleicht nützlich sind. Und ich
00:49:05.170 --> 00:49:08.470
denke das trifft auch auf uns Menschen zu,
alle Modelle die wir verwenden, alle
00:49:08.470 --> 00:49:11.510
Annahmen die wir machen, alle Stereotypen
die wir benutzen, die sind vielleicht
00:49:11.510 --> 00:49:17.130
manchmal nützlich, aber in der Gesamtheit
immer falsch. Ich denke das trifft für
00:49:17.130 --> 00:49:25.060
Menschen und Maschinen zu.
Applaus
00:49:25.060 --> 00:49:28.171
Herald-Angel: Dankeschön. Mikrophon 4,
00:49:28.171 --> 00:49:29.171
deine Frage.
00:49:29.171 --> 00:49:36.860
Mikrophon 4: Vielleicht eine etwas naive
Frage, aber bestehen oder gibt es Metriken
00:49:36.860 --> 00:49:43.560
um diesen Bias, der uns täglich im Netz
begegnet, zu bewerten? Also dass man das
00:49:43.560 --> 00:49:49.330
schon visualisieren kann oder vermitteln
kann, dass man sich in einem hohen Bias
00:49:49.330 --> 00:49:56.250
also einer hohen Verzerrung bewegt oder
auf Glatteis läuft in dem Sinne. Ein hoch
00:49:56.250 --> 00:50:04.080
komplexes Thema wirklich, runtergebrochen
auf eine, ich sag mal, Bewusstbarmachung
00:50:04.080 --> 00:50:08.230
von hoher statistischer Verzerrung, die
einen umgibt.
00:50:08.230 --> 00:50:10.870
Hendrik: Also es gibt durchaus Forschung
00:50:10.870 --> 00:50:14.870
in die Richtung es gibt z.B. die Civic
Media Group am MIT Media Lab die sich mit
00:50:14.870 --> 00:50:18.341
soetwas aueinandersetzt. Das sind aber so
einzelne Beispiele wo sie z.B. Leuten
00:50:18.341 --> 00:50:22.080
einfach mal zeigen, was für einen Gender-
Bias sie bei den Leuten, die sie auf
00:50:22.080 --> 00:50:26.250
Twitter folgen, haben, also die folgen nur
Männern z.B..
00:50:26.250 --> 00:50:30.350
Solche Bewusstbarmachungen sind wichtig
und sind glaube ich auch ein Teil des
00:50:30.350 --> 00:50:33.020
Puzzels, aber ich glaube die
Medienpädagogik muss halt ernstgenommen
00:50:33.020 --> 00:50:36.180
werden, den Leuten muss das bewusst sein
wenn wir diese Dinger benutzen wollen,
00:50:36.180 --> 00:50:40.930
wenn wir in solchen Autos rumfahren
wollen, dann müssen wir das verstehen. Es
00:50:40.930 --> 00:50:44.560
gibt halt immer diese Blindspots und man
kann einfach da nicht darauf eingehen, man
00:50:44.560 --> 00:50:47.460
kann nicht jeden Spot da bedenken vorher.
00:50:47.460 --> 00:50:54.240
Karen: Um die vielleicht Frage zu
kontextualisieren von den Algorithmus-
00:50:54.240 --> 00:50:59.540
Wissenschaftlichen-Blickpunkt. Wir machen
jetzt nicht unbedingt den Unterschied
00:50:59.540 --> 00:51:04.160
zwischen vielleicht dem was eine negative
oder positive Verzerrung ist, also
00:51:04.160 --> 00:51:09.440
wahrgenommen wird, sondern für uns gibt es
halt nur Merkmale die auf gewisse andere
00:51:09.440 --> 00:51:13.650
Merkmale schließen lassen und das führt
dann wieder zu der Frage der Korrelation
00:51:13.650 --> 00:51:21.930
und wenn wir sagen wir haben oft ja
Merkmale die Proxys sind für andere
00:51:21.930 --> 00:51:28.920
Merkmale, also wo ich wohne ist oft proxy
dafür wie ich aussehe oder woher ich
00:51:28.920 --> 00:51:31.960
komme.
Was ich also im Machine Learning machen
00:51:31.960 --> 00:51:34.580
kann, oder wie sich die Wissenschaft damit
auseinandersetzt ist zu sagen, ok, wenn
00:51:34.580 --> 00:51:42.920
ich weiß welche Merkmale sensitiv sind,
also welche ich nicht möchte dass die mein
00:51:42.920 --> 00:51:46.590
System korreliert mit der eigentlichen
Aussage die das System treffen soll, dann
00:51:46.590 --> 00:51:54.210
kann quasi ich in meine Fehlerfunktion
einen extra Term reinspeisen, der sagt du
00:51:54.210 --> 00:52:00.390
dekorrelierst jetzt das Ergebnis was du
hast mit dem besonderen Merkmal was du als
00:52:00.390 --> 00:52:06.380
sensitiv also z.B. der Wohnort oder dein
Bildungsstatus oder dein Einkommen, dass
00:52:06.380 --> 00:52:10.900
die keine Rolle spielen dafür, wie der
Algorithmus Vorraussagen macht.
00:52:10.900 --> 00:52:15.630
Mikrophon 4: Was ich jetzt meinte war
00:52:15.630 --> 00:52:19.790
jetzt wirklich nicht die Unterscheidung
zwischen gut und schlecht, sondern
00:52:19.790 --> 00:52:25.360
wirklich eine Visualisierung, dieser
Datensatz oder dieses Ergebnis basiert auf
00:52:25.360 --> 00:52:31.590
wenigen Datensichten -- klar im Kontext
kompliziert zu bewerkstelligen, aber dass
00:52:31.590 --> 00:52:37.520
man eine Möglichkeit findet sowas
darzustellen dass diese Daten auf einer
00:52:37.520 --> 00:52:40.790
hohen Datendichte basieren und so weiter.
00:52:40.790 --> 00:52:46.020
Hendrik: Unsere Antwort is quasi, es gibt
solche Sachen, es gibt sowas zu messen
00:52:46.020 --> 00:52:50.520
aber es ist immer eine Reduktion von
Komplexität und da verliert man immer was
00:52:50.520 --> 00:52:53.970
und da muss man sich immer bewusst machen,
wie viel reduzieren dürfen wir, wie
00:52:53.970 --> 00:52:55.810
einfach dürfen wir es machen.
00:52:55.810 --> 00:52:59.730
Karen: Zur Frage der Datensichte kann
man vielleicht noch sagen, da ist wieder
00:52:59.730 --> 00:53:05.190
ein andere Kernansatz, der Bayesianische
Kernansatz, der sich jetzt nicht die Frage
00:53:05.190 --> 00:53:10.010
stellt, wie ist meine Hypothese aufgrund
der vorhandenen Daten zu bewerten sondern
00:53:10.010 --> 00:53:14.080
wie sind meine Daten aufgrund der
verwedeten Hypothese zu bewerten. Das ist
00:53:14.080 --> 00:53:18.390
also nochmal eine ganz andere Ansicht auf
die Sache und der wiederum erlaubt uns
00:53:18.390 --> 00:53:22.240
dann gewisse Unsicherheiten auszudrücken
über Vorrausagen, die ich treffe. Also
00:53:22.240 --> 00:53:26.030
wenn jetzt zum Beispiel ein Datenpunkt
über den ich eine Aussage treffen will
00:53:26.030 --> 00:53:30.740
weitab liegt von Daten die ich habe, dann
wird dieser Ansatz oder wenn ich diesen
00:53:30.740 --> 00:53:34.200
Ansatz verwende wird mir dann sagen; über
die Voraussage die ich jetzt treffe bin
00:53:34.200 --> 00:53:37.880
ich sehr unsicher und das ist eine
Forschungsrichtung mit der sich viele
00:53:37.880 --> 00:53:44.210
Leute beschäftigen, die jetzt aber für
diese großen, komplexen Systeme, ich würde
00:53:44.210 --> 00:53:46.380
sagen, noch sehr am Anfang steht.
00:53:46.380 --> 00:53:48.840
Herald-Angel: Mikrofon 1 bitte.
00:53:48.840 --> 00:53:53.460
Mikrofon 1: Danke für den super-
interessanten Vortrag und danke auch an
00:53:53.460 --> 00:53:57.040
die Gebärden-Dolmetscherin, die hier ohne
Unterlass die ganze Zeit übersetzt.
00:53:57.040 --> 00:54:10.450
Applaus
Ich habe folgende Frage: Wie nützlich
00:54:10.450 --> 00:54:15.970
würdet ihr es einschätzen, das mit einer
Qualitätskontrolle also einem
00:54:15.970 --> 00:54:21.020
Qualitätsmeilenstein für das Endergebnis
zu kombinieren. Also als Beispiel; ein
00:54:21.020 --> 00:54:26.750
Auto ist dann hinreichend gut, wenn es im
Verkehr weniger Leute umbringt als ein
00:54:26.750 --> 00:54:31.910
durschnittlicher menschlicher Fahrer oder
sowas. Würde das einen zusätzlichen Nutzen
00:54:31.910 --> 00:54:36.060
ergeben? Kann man daraus noch mehr
Rückschlüsse ziehen, oder sind das völlig
00:54:36.060 --> 00:54:37.230
getrennte Sachen?
00:54:37.230 --> 00:54:41.530
Karen: Also das ist eigentlich genau das
worauf wir hinaus wollten, dass das eine
00:54:41.530 --> 00:54:44.260
politische Frage ist, die wir nicht
beantworten wollen.
00:54:44.260 --> 00:54:45.260
Hendrik: Oder eine juristische.
00:54:45.260 --> 00:54:46.580
Karen: Oder eine juristische, das müsst
00:54:46.580 --> 00:54:49.220
ihr sagen, was ihr richtig findet, das ist
doch nicht unsere Aufgabe zu sagen ...
00:54:49.220 --> 00:54:50.271
Hendrik: Nein also die Gesellschaft muss
00:54:50.271 --> 00:54:53.590
es aushandeln, wir können Probleme
aufzeigen, aber die Antwort muss die
00:54:53.590 --> 00:54:55.020
Gesellschaft als ganzes finden.
00:54:55.020 --> 00:54:59.000
Mikrophon 1: Das ist klar, die Frage ist
nur, wenn man so einen Punkt definiert hat
00:54:59.000 --> 00:55:02.430
und sich dann die Ergebnisse anschauen
würde, die kurz vor und kurz nach diesem
00:55:02.430 --> 00:55:06.010
Punkt aufgetreten sind, ob das
Rückschlüsse zulassen würde auf
00:55:06.010 --> 00:55:09.539
irgendeinen Bias oder irgendwelche anderen
Sachen, oder ob dieser Punkt völlig
00:55:09.539 --> 00:55:11.180
unerheblich für euch wäre.
00:55:11.180 --> 00:55:13.550
Hendrik: Kannst du nochmal den Punkt
benennen?
00:55:13.550 --> 00:55:15.250
Mikrophon 1: Also man definiert
00:55:15.250 --> 00:55:20.990
irgendeinen Punkt x, der ein bestimmtes
Qualitätskriterium hat. Also der Wagen
00:55:20.990 --> 00:55:25.330
bringt eben nicht mehr Menschen um als ein
durchschnittlicher Fahrer sondern weniger.
00:55:25.330 --> 00:55:32.900
Sind die Ergebnisse die um diesen Punkt
liegen, die man dann messen kann. Sind die
00:55:32.900 --> 00:55:36.160
in irgendeiner Art relevant für den
Ausgang, kann man da irgendwelche
00:55:36.160 --> 00:55:40.030
Rückschlüsse daraus ziehen, oder ist das
nur irgendein Punkt, wie jeder andere
00:55:40.030 --> 00:55:41.030
auch?
00:55:41.030 --> 00:55:44.220
Hendrik: Also ich finde das problematisch,
diesen Punkt zu finden, weil man ja auch
00:55:44.220 --> 00:55:47.970
den ganzen Kontext sehen muss bei den
Autounfällen und warum sie passieren, also
00:55:47.970 --> 00:55:52.061
welche Gründe sie haben und das ganze
datafizieren, das in einen Punkt zu
00:55:52.061 --> 00:55:55.850
pressen, und den dann als
Evaluationsmetrik für was anderes
00:55:55.850 --> 00:55:58.695
hochkomplexes zu nehmen halte ich für sehr
problematisch, ich glaube da ist wirklich,
00:55:58.695 --> 00:56:02.300
das meint Karen, die politsche Antwort
wichtiger.
00:56:02.300 --> 00:56:04.600
Karen: Beim konkreten Beispiel von
00:56:04.600 --> 00:56:07.640
selbstfahrenden Autos muss man natürlich
auch sagen, dass es das echte
00:56:07.640 --> 00:56:11.470
selbstfahrende Auto nie üben kann einen
Crash zu haben, also dieses Crash-Szenario
00:56:11.470 --> 00:56:14.100
kann natürlich nie geübt werden, also wir
wollen da ja natürlich niemanden sterben
00:56:14.100 --> 00:56:18.240
lassen oder nicht so viele Autos crashen,
das ist ein bisschen teuer. Das heißt
00:56:18.240 --> 00:56:21.940
Crash-Szenarios werden eigentlich auch
immer nur in der Simulation geübt und das
00:56:21.940 --> 00:56:26.500
ist genau das Problem, dass wir heute --
zumindest soweit ich das weiß -- sehr
00:56:26.500 --> 00:56:31.890
wenige Szenarien haben in denen wir sagen
können; wenn wir jetzt in der Simulation
00:56:31.890 --> 00:56:37.910
geübt haben, was für Annahmen übernehmen
wir denn dann in die echte Welt. Die
00:56:37.910 --> 00:56:43.140
einfach nur benennen zu können würde uns
ja schon helfen eventuelle Fehlerszenarien
00:56:43.140 --> 00:56:47.100
vorrauszusagen, aber selbst das Benennen
dieser Annahmen das fällt uns ja selbst
00:56:47.100 --> 00:56:52.080
schon schwer, also das ist noch ein weiter
Weg.
00:56:52.080 --> 00:56:53.920
Herald-Angel: Mikro 1
00:56:53.920 --> 00:56:58.800
Mikrofon 1: Auch vielen Dank für den
00:56:58.800 --> 00:57:05.630
Vortrag. Die ganze Diskussion über die
Biase, die ihr ja getrieben habt, besagt
00:57:05.630 --> 00:57:09.120
ja letztlich, dass es darum geht die
Wahrheit zu finden, Wahrheit und letztlich
00:57:09.120 --> 00:57:13.480
eine Stichprobe der Wahrheit dem Computer
zum Lernen zu geben und das bringt mich
00:57:13.480 --> 00:57:16.600
dann zu der Parallele in der Wissenschaft
haben wir das ja auch, also wie sieht
00:57:16.600 --> 00:57:21.230
meine Stichprobe aus, die ideale
Stichprobe, oder ist da ein Bias drin.
00:57:21.230 --> 00:57:25.590
Habt ihr diese Parallele schonmal
gedanklich gezogen oder ist das ... ja.
00:57:25.590 --> 00:57:28.060
Hendrik: Also wir sind ja Wissenschaftler
00:57:28.060 --> 00:57:31.940
und wir müssen natürlich auch erstmal für
uns wissen, ob was wir herasugefunden
00:57:31.940 --> 00:57:35.540
haben, gerade wenn wir mit Menschen
arbeiten, wir hatten ja gestern auch den
00:57:35.540 --> 00:57:42.170
Vortrag "Science is broken", der da
irgendwie, also es ist immer schwierig die
00:57:42.170 --> 00:57:45.920
richtige Samplesize zu haben um die
Effectsize zu berücksichtigen, um zu
00:57:45.920 --> 00:57:48.550
wissen, dass man was weiß, das sind ja
epistemische Fragen.
00:57:48.550 --> 00:57:49.990
Mikrophon 1: Aber gibt's da irgendwie
00:57:49.990 --> 00:57:54.440
schon für neuronale Netze irgendwelche
Richtwerte, dass man dann irgendwie weiß.
00:57:54.440 --> 00:57:58.510
Weil in der Psychologie lernt man, dass
die Sampelsize muss mindestens 5.000 Bla
00:57:58.510 --> 00:58:01.690
betragen, keine Ahnung, oder so und so
Prozente. Gibt's Richtwerte, gibt's sowas
00:58:01.690 --> 00:58:07.440
schon für neuronale Netze? In Abhängigkeit
der Layer oder der Parameter oder..?
00:58:07.440 --> 00:58:09.700
Hendrik: Nicht dass ich wüsste, weisst du
00:58:09.700 --> 00:58:10.700
was?
00:58:10.700 --> 00:58:14.200
Karen: Die Frage geht jetzt vielleicht ein
bisschen tief. Für frühe Systeme, also
00:58:14.200 --> 00:58:22.680
sehr einfache neuronale Netze, die aus den
Anfang der 90ern, so wie Boltzmann-machines oder
00:58:22.680 --> 00:58:28.990
Hofman-Networks. Für solche Sachen kann
man sagen, wenn die Saturieren und mit
00:58:28.990 --> 00:58:34.800
wievielen Bits an Daten man da reingeht
bis die Saturieren. Für aber diese hoch-
00:58:34.800 --> 00:58:40.590
nicht-linearen Systeme, die wir jetzt
verwenden, kann man das nicht sagen, oder
00:58:40.590 --> 00:58:47.370
nur asymptothisch sagen. Es gibt viel
Forschung zu dem Thema, aber nichts, was
00:58:47.370 --> 00:58:50.721
jetzt besonders handfest wäre; sagen wir
mal so. Oder man jetzt im echten Leben
00:58:50.721 --> 00:58:51.721
verwenden könnte.
00:58:51.721 --> 00:58:56.000
Mikrophon 1: Ja gut, dann irgendwie so
eine Ausage zu haben, so und so viele
00:58:56.000 --> 00:58:58.760
Testdatensampels brauchst du für dein
neuronales Netz, wenn das so und so
00:58:58.760 --> 00:59:02.990
strukturiert ist. Irgendwie, das könnte
vielleicht eine Form von Verifikation oder
00:59:02.990 --> 00:59:05.750
Validierung, Pre-Validierung bringen,
irgendwie.
00:59:05.750 --> 00:59:08.350
Hendrik: Ja, das macht man ja. Man hat ja
00:59:08.350 --> 00:59:12.130
einen großen Datensatz, einen
Trainingsdatensatz, einen Testdatensatz
00:59:12.130 --> 00:59:15.940
und einen Validierungsdatensatz, mit dem
man dann nochmal guckt, was haben wir
00:59:15.940 --> 00:59:18.740
wirlich gelernt und haben wir nicht
einfach nur die Eigenheiten des
00:59:18.740 --> 00:59:22.220
Datensatzes auswendig gelernt. Haben wir
wirklich generalisiert. Also auf dem
00:59:22.220 --> 00:59:26.370
Niveau passiert das schon. Auf dem höheren
Niveau wäre das bestimmt noch eine
00:59:26.370 --> 00:59:27.530
hervorragende Doktorarbeit.
00:59:27.530 --> 00:59:30.430
Herald-Angel: Mikro 5, deine Frage?
00:59:30.430 --> 00:59:36.680
Mikrofon 5: Vielen Dank für den Vortrag.
Meine Frage ist: Diese Biases, die sind ja
00:59:36.680 --> 00:59:40.710
jetzt nicht neu, die kennt man ja seit
Dekaden in der Statistik. Was hat sich
00:59:40.710 --> 00:59:46.610
denn mit der künstlichen Intelligenz, bzw.
mit Deep Learning geändert? Und daran
00:59:46.610 --> 00:59:51.860
anschließend: Kennt ihr irgendwelche
Studien, dass solche Filterblasen wirklich
00:59:51.860 --> 00:59:55.040
irgendwelche tatsächlichen messbaren
Auswirkungen haben? Weil man hört
00:59:55.040 --> 00:59:59.850
unglaublich viel in den Medien, aber mir
ist keine belastbare Studie bekannt, die
00:59:59.850 --> 01:00:05.850
sagt, dass das da tatsächlich was
verschlimmert wird, was nicht vorher schon
01:00:05.850 --> 01:00:07.160
da war.
01:00:07.160 --> 01:00:10.530
Hendrik: Ich hab die erste Frage schon
wieder vergessen. Kannst du einmal noch
01:00:10.530 --> 01:00:11.530
die erste sagen?
01:00:11.530 --> 01:00:16.580
Mikrophon 5: Die erste Frage war, was sich
geändert hat, weil diese Biases, die sind
01:00:16.580 --> 01:00:17.580
ja jetzt nicht neu.
01:00:17.580 --> 01:00:20.570
Hendrik: Genau, nein, die sind natürlich
nicht neu. Und die ganzen Vorurteil sind
01:00:20.570 --> 01:00:24.060
auch nicht neu. Ich glaube, es wird halt
einfach sehr, sehr viel Machine Learning
01:00:24.060 --> 01:00:27.710
gerade benutzt. Auch aus sehr guten
Gründen. Also, z.B. es gibt hervoragende
01:00:27.710 --> 01:00:31.650
Python Bibliotheken, es gibt hervoragende
R Bibliotheken, die das super einfach
01:00:31.650 --> 01:00:37.090
machen. Die Unis lehren das fast überall.
Data Science ist der große Hypeterm, und
01:00:37.090 --> 01:00:39.810
das wird einfach nur nochmal drängender,
weil Leute diese Sachen jetzt auf einmal
01:00:39.810 --> 01:00:44.340
in ihre Systeme reinschmeißen, die
benutzen, um vielleicht Geld zu verdienen,
01:00:44.340 --> 01:00:49.640
sich aber dann dieser Probleme gar nicht
bewusst sind. Und zur 2. Frage: Ich bin
01:00:49.640 --> 01:00:52.780
mir ziemlich sicher, dass es viel zu
Echokammern gibt. Ich weiß nicht, was du
01:00:52.780 --> 01:00:56.950
gefragt hast, ob man das wirklich auch
wissenschaftlich so testen kann? Also, wie
01:00:56.950 --> 01:01:01.560
da quasi der Versuchsaufbau aussähe? Aber
es gibt, auch gerade in der Soziologie,
01:01:01.560 --> 01:01:10.300
viel zu Echokammern. Aber mir fällt gerade
kein Autor ein dazu.
01:01:10.300 --> 01:01:12.620
Herald-Angel: Vielen Dank für den Vortrag.
01:01:12.620 --> 01:01:15.560
Ich sehe, dass da noch Fragen sind, aber
leider ist die Zeit rum. Seid ihr noch da?
01:01:15.560 --> 01:01:16.980
Können die Leute euch noch ansprechen?
01:01:16.980 --> 01:01:17.670
Hendrik: OK.
01:01:17.670 --> 01:01:20.410
Herald-Angel: Super. Vielen, vielen Dank!
01:01:20.410 --> 01:01:23.790
Applaus
01:01:23.790 --> 01:01:43.390
Untertitel erstellt von c3subtitles.de
im Jahr 2018. Mach mit und hilf uns!