Herald-Angel: Der nächste Vortrag ist
„Beeinflussung durch Künstliche
Intelligenz". Es ist ein
Einführungsvortrag, also einer der
explizit dazu gedacht ist, dass ihr das
ohne Vorkenntnisse versteht. Und es geht
ums Maschinelle Lernen. Unsere Sprecher
sind die Karen – sie forscht in Amsterdam
an Maschinellem Lernen, kommt ursprünglich
aus Leipzig – und der Hendrik Heuer, der
in Bremen an Mensch-Computer-Interaktion
forscht. Großes Willkommen für die beiden!
Applaus
Hendrik Heuer: Vielen Dank! Moin erstmal!
Willkommen zu unserem Vortrag
„Beeinflussung durch Künstliche
Intelligenz" über die Banalität der
Beeinflussung und das Leben mit
Algorithmen. Wir würden gern mit einem
Zitat von Kate Crawford beginnen. Kate
Crawford ist die Gründerin des AI Now
Institut das die sozialen Auswirkungen von
künstlicher Intelligenz untersucht. Sie
ist außerdem ein Principal Researcher bei
Microsoft Research und Professorin an der
New York University. Und die hat beim AI
Now Symposium in diesem Jahr gesagt: „Die
Menschen befürchten, dass Computer zu
intelligent werden und die Welt erobern.
Aber Computer sind zu dumm und haben die
Welt bereits erobert." Wir teilen diese
Ansicht. Es gibt keine digitale Welt. Die
Welt ist digital, das heißt durch digitale
Medien konstruiert. Und uns war es ein
Anliegen, einige englischsprachige
Diskussion jetzt nochmal auf Deutsch
zusammenzuführen. Es können also Beispiele
kommen die der eine oder andere vielleicht
schon kennt. Aber wir führen sie hier
nochmal zusammen und versuchen sie zu
kontextualisieren. Warum Banalität der
Überwachung? Banalität, weil die Systeme
des maschinellen Lernens im Kern sehr
simpel sind, weil aber auch die
Beeinflussung sehr subtil sein kann und
das Ganze ist auch eine Reminiszenz an
Hannah Arendt.
Noch mal kurz zu uns. Wie gesagt: Ich
werde die ersten 20 Minuten sprechen über
die Mensch-Computer-Interaktions-
Perspektive, Karen Ullrich wird die zweite
Hälfte bestreiten. Karen ist
wissenschaftliche Mitarbeiterin in
Amsterdam, im Amsterdam Machine Learning
Lab, und sie forscht direkt zu den
Algorithmen des maschinellen Lernens,
insbesondere Bayesian methods, also ein
Hintergrund im Deep Learning und der
Informationstheorie. Ich bin
wissenschaftlicher Mitarbeiter im Institut
für Informationsmanagement Bremen und mir
geht es um die Nutzererfahrung von
Maschine Learning, insbesondere das
Vertrauen. Wir würden jetzt gerne anfangen
mit einem Beispiel, das jeder kennt: Spam-
Erkennung. Benutzt wahrscheinlich jeder
hier. Funktioniert auch nicht immer. Aber
man muss sich wirklich vor Augen führen,
dass es eine beeindruckende technische
Leistung ist, auch wenn es manchmal nicht
funktioniert. Und wir nehmen es hier, um
den Unterschied zwischen imperativer
Programmierung und maschinellem Lernen zu
verdeutlichen. Imperative Programmierung
ist das, woran wahrscheinlich jeder denkt,
wenn er an Informatik und Programmierung
denkt.
Es geht um Regeln und Anweisungen: Wenn X
dann Y. Das Wort Imperativ für Befehl
steckt ja auch schon im Namen. Und wenn
wir jetzt Spam imperativ erkennen wollen
würden, dann würde man zum Beispiel
gucken, Okay das Wort Viagra wird so
geschrieben in der Nachricht vorkommen,
dann ist es eine Spam-Nachricht.
Andererseits ist es eine gutartige
Nachricht. Maschinelles Lernen ist jetzt
ein komplett anderer Ansatz. Da hat man
eine Vorhersage die man iterativ, also
immer und immer wieder, verbessert. Für
die Spam-Klassifikation versucht man zum
Beispiel Kombinationen von Wörtern zu
finden, durch die es wahrscheinlich wird,
dass es sich um Spam handelt.
Der Kernbegriff ist hier also wahrscheinlich. Und
das sieht dann so aus, dass man für viele
verschiedene Beispiele prognostiziert, ob
eine Nachricht Spam ist oder nicht. Dann
berechnet man Fehler mit einer geeigneten
Fehlerfunktion und dann ändert man seine
Parameter, um den Fehler zu verringern und
geht wieder zum ersten Schritt und macht
das immer und immer wieder. Natürlich ist
es nicht ganz so einfach, diesen Fehler zu
berechnen, und auch die Parameter zu
verändern, ist ein eigenes
Forschungsgebiet. Aber im Kern ist es
wirklich so simpel wie wir es hier
darstellen. Und deswegen ist es spannend
im Hinterkopf zu behalten. Dabei ist es
aber spannend im Hinterkopf zu behalten,
dass Spam-Erkennen nicht mit
Textverständnis gleichzusetzen ist. Das
heißt der Algorithmus muss nicht erst
Kafka verstehen können, um zu erkennen, ob
etwas Spam ist oder nicht. Und dieses
Problem, dass etwas wirkungsvoller
aussieht als es vermeintlich ist, wird uns
im Laufe des Vortrags noch begegnen.
Wir haben jetzt ein weiteres, immer noch
vereinfachtes Beispiel für eine
Entscheidungshilfe, hier aus der Medizin.
Das Ziel ist hier die Erkennung von
Brustkrebs. Statt Wörtern wie beim Spam
haben wir verschiedene Features, das heißt
Charakteristika, an denen man zum Beispiel
gutartigen von bösartigem Brustkrebs
unterscheiden kann. Dazu gehören hier der
Radius, die Textur, Umfang, Fläche, Glätte
aber auch so Sachen wie die Symmetrie und
die Zahl konkaver Punkte, also nach innen
gewölbter Punkte, das seht ihr hier oben.
Insgesamt gibt es in diesem vereinfachten
Datensatz 32 verschiedene Charakteristika.
Und wenn wir jetzt zwei Charakteristika
wie z.B. die durchschnittliche Zahl der
konkaven Punkte und die durchschnittliche
Fläche in Pixeln anschauen und abtragen,
dann erkennt man eine deutliche Tendenz:
Ab einem bestimmten Punkt – ab einer
bestimmten Zahl Punkte und ab einer
bestimmten Fläche – sehen wir nur noch
bösartigen Brustkrebs. Das heißt
mathematisch können wir im Beispiel
einfach eine Linie durch diesen Datensatz
ziehen und das ist eine sogenannte
Entscheidungsgrenze, die Decision-
Boundary. Die Entscheidungsgrenze muss
nicht linear sein, es muss nicht eine
einfache Linie sein.
Die kann durchaus komplexer sein und in
der Regel ist sie das. Und dieser Ansatz
ist durchaus analog zu dem, was eine
erfahrene Ärztin oder ein erfahrener Arzt
mehr oder weniger bewusst machen würde.
Die haben auch aus Erfahrung gelernt: ab
der Größe, und ab der Fläche und der Zahl
ist es wahrscheinlich bösartig oder
gutartig. Der Clou am Maschinellen Lernen
ist jetzt, dass wir das für viele
verschiedene Charakteristika gleichzeitig
machen können. Und darüber hinaus
profitieren wir sehr stark davon, wenn wir
mehr Daten haben, weil wir dadurch bessere
Entscheidungen treffen können. Weil wir
eine bessere Entscheidungsgrenze finden.
Ihr seht aber auch, dass eine gute Zahl an
roten und blauen Punkten im Beispiel auf
der falschen Seite der Grenze liegen.
Das heißt dort machen wir Fehler und da
muss man im Hinterkopf behalten, dass es
verschiedene Arten von Fehlern gibt und
die auch verschiedene Auswirkungen haben.
Falls ich zum Beispiel jemandem mit
gutartigen Brustkrebs fälschlicherweise
sage, dass ihr Brustkrebs bösartig ist,
löst das sicherlich Stress aus und ist
keine angenehme Situation. Falls ich aber
jemanden mit bösartigem Brustkrebs
fälschlicherweise sage, dass ihr
Brustkrebs gutartig ist und sie auch
entsprechend behandle, kann das deutlich
schlimmere Konsequenzen haben. Das ist
jetzt natürlich ein vereinfachtes
Beispiel. Aber gleichzeitig werden wir
zeigen, dass ähnliche Entscheidungshilfen
durchaus in sehr kritischen Bereichen
genutzt werden. Vorher wollen wir noch
einmal die Wirkungsmacht von Big Data
zeigen und da geht es darum,
Persönlichkeitsmerkmale zu erkennen. Das
heißt hier nimmt man digitale Spuren wie
Facebook-Likes, die relativ einfach
zugänglich sind, es aber ermöglichen,
hochgradig sensible
Persönlichkeitsmerkmale vorherzusagen.
Das ist ein Paper von 2013 und für die
Studie haben sie 58.000 Freiwillige in den
USA gefunden, die eine Facebook-App
benutzt haben. Und die haben dieser
Facebook-App ihr komplettes Profil zur
Verfügung gestellt mit allen Likes aber
auch mit allen Informationen wie zum
Beispiel der sexuellen Orientierung oder
der religiösen Zugehörigkeit. Was jetzt
gemacht wurde ist mit einem sehr einfachen
Modell, mit einem einfachen Regressions-
Modell, vorhergesagt, von welchen Likes,
ob man anhand der Likes bestimmte
Persönlichkeitsmerkmale erkennen kann. Und
es zeigt sich, dass man zum Beispiel mit
95-prozentiger Genauigkeit erkennen kann,
ob jemand weiß oder afroamerikanisch ist.
Sexuelle Orientierung kann man auch mit
sehr hoher Genauigkeit nur anhand der
Likes erkennen, das Geschlecht, die
politische Orientierung, die religiöse
Zugehörigkeit, aber auch so Sachen wie die
Drogenerfahrung und der Familienstand der
Eltern in der Kindheit.
Und ihr seht schon bei der religiösen
Zugehörigkeit sind wir bei 82 Prozent
Genauigkeit, bei so etwas wie
Drogenerfahrung und der Ehe ist es relativ
wenig mit der Genauigkeit: Es ist eine
50/50 Chance, wenn wir raten würden.
Aber es ist trotzdem eine Indikation. Und
wir zeigen das auch nur, weil das
wahnsinnige Möglichkeiten der
Diskriminierung bildet. Und das passiert
auch auf dem Wohnungsmarkt oder auf dem
Arbeitsmarkt. Das heißt was wir hier
zeigen wollen, ist, dass wir unsere
Vorstellungen von Datenschutz überdenken
und ausweiten müssen, weil man halt auch
Persönlichkeitsmerkmale inferieren können
kann. Denn man kann mit solchen Modellen
auch die Likes finden, die am
aussagekräftigsten für ein bestimmtes
Charakteristikum sind. Das heißt wir haben
hier drei Likes: einmal die Marke Harley-
Davidson, Kringel-Pommes/curly fries und
das Musical Wicked. Und ich überlasse es
euch mal, herauszufinden, welches Bild mit
niedriger Intelligenz, hoher Intelligenz
und Homosexualität bei Männern verbunden
ist. Diese durchaus fragwürdige
Forschungsrichtung nennt sich Psychometrik
oder auch Psychografie. Und das Spannende
ist, dass sie ja relativ nah dran ist am
Kern-Versprechen von so Unternehmen wie
Google und Facebook.
Denn die versprechen ihren Kunden – ihren
Werbekunden – wir finden für euch
Leute, die sich für Dienst X oder Produkt
Y interessieren könnten. Und hier haben
wir jetzt das Element der Beeinflussung.
Beeinflussung heißt hier, Big Data zu
nutzen, um Leute zu finden, und die
Beeinflussung ist noch sehr banal. Aber
solche Forschung kann natürlich auch
genutzt werden, um zum Beispiel in einer
großen Menge von Wählerinnen jene zu
finden, die noch überzeugt werden könnten.
Und ihr habt – viele von euch haben
wahrscheinlich den Artikel in das Magazin
gelesen, wo kolportiert wurde, dass diese Art
von Psychografie für Trump und Brexit
verantwortlich ist. Vor der Bundestagswahl
gab es ja auch eine große Diskussion, dass
das hier passieren könnte. Wir glauben,
dass das mit Vorsicht zu genießen ist,
aber die Möglichkeit mit derartigen
Ansätzen überzeugbare Wählerinnen und Wähler
zu finden und anzusprechen, ist durchaus
realistisch.
Und wir haben schon gesehen, dass es
dadurch so eine Art Diskriminierung 2.0
gibt. Denn ein homophober Arbeitgeber muss
nicht mehr direkt erfragen, ob jemand
homosexuell ist, wenn er es aus einem
Facebook-Profil vorhersagen kann, und es
interessiert ihn vielleicht auch nicht, ob
er da einen Fehler macht und einen
Heterosexuellen möglicherweise falsch
einordnet. Diese Beeinflussung kann aber
durchaus direkter sein. In den USA werden
Algorithmen jetzt schon im Justizsystem
als Entscheidungshilfe eingesetzt, und da
wird zum Beispiel mit bestimmten
Informationen über die Leute vorhergesagt,
ob jemand rückfällig wird, der im
Gefängnis ist, oder nicht. Das heißt man
versucht vorherzusagen auf einer Skala von
1 für ungefährlich bis 10 für hochgradig
gefährlich, wo jemand hinkommt. Und hier
haben wir zwei Beispiele: Einmal den Herrn
links – VP die Initialen –, der zwei
bewaffnete Raubüberfälle begangen und
einen versuchten bewaffneten Raubüberfall,
und die Risikoeinschätzung ist hier 3
niedriges Risiko.
Daneben steht die Dame – BB –, die hat
vier Ordnungswidrigkeiten unter
Jugendstrafrecht auf dem Kerbholz, und die
wird eingestuft mit hohes Risiko. Und wie
sieht das jetzt aus. Also die Leute von
ProPublica die das recherchiert haben,
haben jetzt über zwei Jahre geguckt, wer
wirklich rückfällig wird und wer nicht. BB
– die Dame rechts –, die begeht keine
weiteren Verbrechen. VP – der Herr links
–, der begeht nach seiner Freilassung
direkt einen schweren Diebstahl. Das
Besondere ist hier, und ihr werdet es
wahrscheinlich schon geraten haben, ist,
dass der Algorithmus systematisch
Afroamerikanerinnen diskriminiert. Es gibt
also ein Bias, eine Verzerrung, gegen
Schwarze. Darüber hinaus sind diese
Vorhersagen von den proprietären Kompass-
Systemen nur in 61 Prozent derzeit
richtig. Wenn man jetzt die wirkliche
Rückfälligkeit über zwei Jahren nimmt. Und
wir kennen das aus der Statistik: Dort
unterscheiden wir den Fehler erster Art
und den Fehler zweiter Art. Das heißt
unsere Nullhypothese ist: Der oder die
Straftäterin wird nicht rückfällig.
Der Fehler erster Art ist jetzt, dass die,
die mit hohem Risiko eingestuft werden,
aber nicht rückfällig werden. Und da sehen
wir – oder hat ProPublica herausgefunden
–, dass die Wahrscheinlichkeit, dass ein
Weißer oder eine Weiße Opfer dieses
Fehlers wird, bei 23,5 Prozent liegt und
bei Afroamerikanerinnen liegt die
Wahrscheinlichkeit bei 44,9, also fast
doppelt so hoch. Es gibt auch den Fehler
zweiter Art. Das ist die
Wahrscheinlichkeit,
dass jemand mit niedrigem Risiko
eingestuft wird, aber trotzdem rückfällig
wird. Und hier ist die Wahrscheinlichkeit
umgekehrt: Weiße haben eine 47-Prozent-
Chance diesem Fehler zum Opfer zu fallen.
Afroamerikanerinnen nur 28 Prozent. Aber
wie kommt das? Wir nehmen jetzt mal an,
dass das kompetente Programmiererinnen
sind, die in den Maschine Learning Kursen,
die sie gemacht haben, gut aufgepasst
haben und technisch alles richtig gemacht
haben.
Nun lernt Maschine Learning immer eine
Abbildung von einem X auf ein Y. Z. B.
hier haben wir bestimmte Informationen zu
Gefangenen und diese Rückfälligkeit der
Gefangenen. Das Problem ist jetzt das X
ist keine Stichprobe der Grundgesamtheit,
sondern eine Untermenge der
Grundgesamtheit, die die Polizei
untersucht hat. Es ist also ein X', es ist
nicht repräsentativ. Und das kann eine
selbsterfüllende Prophezeiung sein. Denn
vielleicht sind Afroamerikanerinnen
einfach in der Situation, dass sie
deutlich häufiger kontrolliert werden und
es einfach dadurch mehr Straffälle in
dem Datensatz gibt. Und auf der auch auf
der anderen Seite auf der Y Seite, das
heißt diese Risikobeurteilung, ob man
rückfällig wird oder nicht, ist ebenfalls
eine Verfälschung. Denn die bezieht sich
ja auch nur auf die, die vom Rechtssystem
verurteilt werden.
Das heißt hier haben wir auch ein Y'. Wenn
man zum Beispiel ein Jurysystem hat, wie
man es in den USA findet, dann kann auch
dort latent oder weniger latent
diskriminiert werden. Das macht Maschine
Learning – pseudo-objektive, mathematische
Modelle – zu einer Art Geldwäsche für
Vorurteile. Weil sie fallen in dieses
System rein und sind dann erst einmal
nicht mehr sichtbar. Und hier kommen wir
jetzt zum Element der direkten
Beeinflussung.
Denn diese Systeme werden zwar nur als
Entscheidungshilfen verkauft, es sind halt
nur Werkzeuge, die genutzt werden können,
aber die Leute, die die Entscheidung
treffen, verlassen sich direkt auf diese
Systeme. Das heißt sie vertrauen diesen
diskriminierenden Algorithmen. Das
Beispiel kommt aus dem hervorragenden
Deutschlandfunk-Feature von Thomas
Schimmeck. Und der hat zum Beispiel
Veronika Hiller, die Bewährungshelferin,
die dem Richter im Endeffekt ein Strafmaß
vorschlägt, interviewt. Das Spannende ist,
die hat also ein Vierteljahrhundert
Erfahrung im Dienst. Aber sie schwört auf
diesen Algorithmus. Sie sagt der ist gut,
akkurat und einfach. Was wir einfach
zeigen wollen, ist, dass es hier um sozio-
technische Systeme geht. Das heißt es
geht nicht nur um das Maschine Learning.
Es geht nicht nur um den Algorithmus.
Sondern es geht auch um die Menschen, die
ihn nutzen. Denn selbst wenn das System
fair wäre – wir haben gerade gesehen dass
es das nicht ist –, heißt es immer noch
nicht, dass die Ergebnisse des Systems
auch fair interpretiert werden, und wir
finden das ist sehr wichtig für jene, die
solche Systeme bauen – und da sind
wahrscheinlich einige heute hier. Diese
Verzerrung in und durch Daten sind
allgegenwärtig. Wir haben zum Beispiel
hier ein Beispiel von Google. Das ist eine
Suche nach den Keywords „Three White
Teenagers". Und das ist eine Suche nach
den Keywords „Three Black Teenagers". Das
heißt Technologie offenbart hier
gesellschaftliche Probleme.
Wir haben es wie gesagt mit sozi-
technischen Systemen zu tun, die eine
bestimmte Weltvorstellung festschreiben,
vermitteln, aber auch verstärken können.
Und die Probleme können ganz subtil und
banal sein wie zum Beispiel dieses
Beispiel aus der statistischen Übersetzung
zeigt: Jetzt muss man wissen, dass die
türkische Sprache nicht zwischen
Geschlechtern unterscheidet, das heißt
„er", „sie" und „es" sind alle „o". Es
gibt auch keine Unterscheidung zwischen
„Arzt" und „Ärztin" beides „Doktor". Und
wenn wir jetzt mit Google Translate oder
einem anderen statistischen
Übersetzungsprogramm Sätze wie „Er ist ein
Babysitter." und „Sie ist eine Ärztin."
hin und her übersetzen, dann stellen wir
fest, dass die Übersetzung bestimmte
Geschlechterklischees widerspiegelt.
Und ihr könnt mit dem was ihr bisher über
Machine Learning gelernt habt in diesem
Vortrag vielleicht schon erklären, wie das
passiert. Wir lernen aus Beispielen und in
diesen Beispielen sind Verzerrungen. In
diesem Fall mehr weibliche Babysitter,
mehr männliche Ärzte.
Denn wenn wir übersetzen dann berechnen
wir ja Wahrscheinlichkeiten und nehmen in
der Regel einfach das wahrscheinlichste
Ergebnis. Das heißt selbst minimale
Verzerrungen können verstärkt werden. Das
heißt eine Babysitterin mehr, ein Arzt
mehr und diese Übersetzung sieht so aus,
wie wir sie gerade sehen. Aber hier haben
wir etwas, das technisch erklärbar ist.
Aber welche Auswirkungen hat das auf die
NutzerInnen. Welche Auswirkungen hat das
auf die Weltsicht, wenn man die Google-
Ergebnisse so sieht wie man sie sieht. Und
anhand von Facebook wollen wir jetzt
zeigen, wie direkt und intransparent diese
Beeinflussung sein kann. Auch Facebook ist
ein hochkomplexes sozio-technisches
System, in dem NutzerInnen gleichzeitig
Produzenten und KonsumentInnen sind.
Facebooks erklärtes Ziel lautet ja, jedem
zu jeder Zeit die richtigen Inhalte zu
zeigen. Dafür nutzt Facebook nach eigener
Aussage hundert tausend verschiedene
Faktoren, um algorithmisch die besten
Geschichten aus den potenziellen
Geschichten auszuwählen.
Das heißt, wenn ihr euch jetzt vorstellt -
das sind jetzt Zahlen aus dem Kosinski-
Paper mit den Persönlichkeitsmerkmalen.
Das heißt da haben die Leute im Median 200
Bekannte und liken 68 Seiten. Das heißt
wenn nur jeder Dritte was macht, dann sind
das pro Tag 90 potenzielle Beiträge. Wenn
man jetzt nur fünf oder zehn Minuten auf
der Seite verweilt, dann kann man sich
nicht angucken. Das heißt eine
chronologische Darstellung ist zwecklos
und eine Kuration unumgänglich. Und
deswegen sortiert Facebook die Nachrichten
nach einem Algorithmus. Das Problem ist
aber, dass dieser Vorgang sehr
intransparent ist. Das heißt die
NutzerInnen sehen und verstehen die
Algorithmen nicht
Und die glauben im Zweifelsfall wenn sie
darauf angesprochen werden, dass die
Algorithmen objektiv und unabhängig sind.
Und dabei beziehe ich mich auf folgende
Studie. Die kommt aus der CHI, der
Computer Human Interaction Community. Und
dort waren sich 62,5% der Teilnehmer und
Teilnehmerinnen in dieser Studie der
Existenz von Newsfeed-Algorithmen, also
von dieser algorithmischen Kuration, nicht
bewusst. Das heißt wir haben hier eine
qualitative Studie mit 40 TeilnehmerInnen,
die so ausgewählt wurden, dass sie
repräsentativ sind für die US-
Grundgesamtheit. Und von denen war also 25
Personen nicht bewusst, dass überhaupt
irgendwie sortiert wird. Die Studie zeigt
auch, dass die TeilnehmerInnen durchaus
verärgert sind, wenn sie Posts von engen
Freunden oder Familienmitgliedern nicht
sehen. Spannend ist aber jetzt: Die
Teilnehmer suchen den Fehler eher bei sich
oder anderen, als bei einem Algorithmus,
von dem sie im Zweifelsfall auch nichts
wissen. Sie glauben dann z.B. dass sie
etwas übersehen haben oder sie denken,
dass ihnen bestimmte Bekannte bewusst
Geschichten vorenthalten, weil sie
vielleicht nicht so gut miteinander
bekannt sind, sich noch nicht so gut
kennen. Daher kommt auch dieses
titelgebende Zitat: "I always assumed that
I wasn't really that close to [that
person], so that's fine. What the hell?"
Das heißt hier hat jemand gedacht "Okay,
ich sehe die Babyfotos vielleicht nicht,
weil ich die Person nicht so gut kenne,
aber die Person hat das für alle geteilt".
Und hier hat der Algorithmus jetzt die
Entscheidung getroffen, dass Person A das
Baby von Person B nicht sieht. Das heißt
diese Systeme, die im Schatten agieren und
denen sich die BenutzerInnen nicht bewusst
sind, haben Auswirkungen auf
zwischenmenschliche Beziehungen. Sie
rekonfigurieren sie. Und darüber hinaus
muss man sich auch noch einmal bewusst
machen, was diese Nachrichten-
Empfehlungssysteme eigentlich erreichen
wollen. Sie sind ja von der Art her wie
Netflix. Das heißt wenn ich auf Youtube
oder einem anderen Portal mir Videos
angucke und ich gucke mir zehn Videos an
und davon sind vier mit lustigen Hunde-
Babys, dann folgert das System "Ok,
Hendrik mag lustige Hunde-Babys. Dem zeige
ich jetzt in Zukunft mehr lustige Hunde-
Babys". Nun sind aber auch Nachrichten auf
Plattformen wie Youtube. Das heißt wenn
ich mir jetzt zehn Videos angucke und von
denen geht es in vielen darum, dass
Flüchtlinge kriminell sind, dann empfiehlt
mir das System Videos von kriminellen
Flüchtlingen. Das heißt da passiert etwas
mit meiner Weltwahrnehmung. Das heißt so
derartige Filterblasen und Echokammern
entstehen online. Die gibts natürlich auch
im echten Leben. Der Freundeskreis ist
auch eine Echokammer, in der bestimmte
Weltvorstellungen geteilt werden, aber
hier sind sie durchaus intransparenter,
denn es passiert unter dem gleichen Logo.
Bei mir ist ein YouTube-Logo, bei euch ist
ein YouTube-Logo. Und das sind Probleme,
denen wir uns stellen müssen, mit denen
wir umgehen müssen.
Und das war mein Teil zur Perspektive der
Mensch-Computer-Interaktion, die sich also
als eigenes Feld mit derartigen
Fragestellungen auseinandersetzt. Und ich
übergebe jetzt an Karen, die nochmal
technisch ins Detail gehen wird.
Applaus
Karen: Ja. Zum ersten Teil dieser Präsentation
zeigten wir, dass Algorithmen uns schon
heute schon beeinflussen, bewusst und
unbewusst, direkt und indirekt. Und wir
haben gesehen mit welcher Rigorosität ihre
Voraussagen umgesetzt werden, nachdem sie
einmal zur Verfügung stehen. Das immer
unter der Annahme der
Unvoreingenommenheit. Wir haben auch
bereits angedeutet, dass dieses massive
Vertrauen nicht unbedingt angebracht ist.
In diesem zweiten Teil der Präsentation
möchten wir darauf eingehen wann dieses
Vertrauen nicht angebracht ist. Dabei
möchte ich besonders auf ein Wort
eingehen, das wir bereits viel verwendet
haben. Das Wort Bias oder zu Deutsch
Verzerrung. Beim maschinellen Lernen
können wir grundsätzlich in zwei
verschiedene Formen von Bias
unterscheiden. Auf der einen Seite haben
wir Bias der Daten, also Bias der ein
Spiegel ist unserer eigenen Vorurteile und
Moralvorstellungen, ob uns das jetzt
bewusst ist oder nicht.
Bias in Daten kann aber auch entstehen
ganz zufällig durch mangelhafte Erhebung
von Daten. Wenn das passiert wird eine
Grundgesamtheit also die Population
verzerrt abgebildet. Auf der anderen Seite
befindet sich der Bias durch das
Modellieren.
Das sind also die Gesamtheit aller
Annahmen die Ingenieure und
Wissenschaftler von Algorithmen machen und
machen müssen, um überhaupt Voraussagen
treffen zu können. Dabei kann sich
wiederum der Bias des Modells so auf die
Daten auswirken, dass der Bias in den
Daten verringert wird. Dazu gibt es
vielfältige Forschung. Es kann aber auch
den Bias in den Daten verstärken. Auf der
anderen Seite knn auch Bias in Daten den
Modellier-Bias beeinflussen. Wir werden im
Folgenden, den folgenden 4 Beispielen, uns
mit all diesen Phänomenen auseinander-
setzen. Maschinelles Lernen hat in den
letzten Jahren viele Durchbrüche bei der
algorithmischen Wahrnehmung erzielt.
Algorithmen bewältigen kognitive Aufgaben,
die vor kurzem in weiter Ferne schienen.
Das hat aber auch eine Welle von Forschung
ausgelöst, die unlösbar geglaubte Aufgaben
wieder aufgreift und neu bewertet.
Eine Studie dieser Welle ist im November
letzten Jahres erschienen zwei Forscher
der Shanghai Jiaotong-Universität
behaupten zeigen zu können, dass man
Menschen mit kriminellen Absichten bereits
an einem einfachen Ausweis-Foto erkennen
kann und dies mit 90 prozentiger
Trefferwahrscheinlichkeit. Dieses Ergebnis
steht natürlich im starken Kontrast zu den
Forschungsergebnissen der letzten Dekaden,
die Kriminalität eher sozio-ökonomischen
Umständen zuschreiben. Wir wollen uns also
im Folgenden mit dieser Studie ein
bisschen näher beschäftigen. Die Autoren
sammelten hierzu 1800 Fotos von Chinesen
im Alter zwischen 18 und 55 Jahren, die
keine bemerkbaren Gesichtsbehaarungen,
Narben oder Tattoos zeigten. Dabei
repräsentieren zirka 700 Fotos die Rubrik
kriminell. Die Fotos selbst wurden von der
Polizei bereitgestellt und es handelt sich
bei allen Fotos um bereits verurteilte
Straftäter.
Auf der anderen Seite mussten nun auch
Bilder rechtschaffender Bürger
repräsentiert werden. Dafür wurden 1100
Fotos aus verschiedenen Quellen des
Internets beschafft. Dabei ist anzunehmen,
dass diese von Seiten wie LinkedIn
stammen, da die Autoren den Beruf der
vermeintlich rechtschaffenen kennen. Um
uns nun ein besseres Bild über die Daten
zu machen, wollen wir uns also ein paar
Datenpunkte anschauen.
Jeder dieser Reihe entsprechen drei
Datenpunkte aus jeweils einer Kategorie
kriminell oder rechtschaffend.
Dazu würde ich ein kleines Experiment
wagen. Also ich zähle dann gleich mal bis
zwei und alle die glauben, die obere Reihe
seien die Rechtschaffenden, die bitte ich
dann die linke Hand zu heben. Ich hebe die
rechte Hand, damit ihr wisst, welche Hand.
Und diejenigen, die denken die untere
Reihe wären die Rechtschaffenden, die
bitte ich also die rechte Hand zu heben.
Das können wir gleich mal probieren, also
ich zähle nochmal bis 2: eins, zwei und
dann heben wir halt die Hand.
Okay. Also die meisten von uns sind uns
relativ einig dass wir die rechtschaffenen
identifizieren können. Aber warum können
wir das? Eigentlich sollten Menschen dazu
ja nicht in der Lage sein und wir wissen,
dass wir dazu nicht in der Lage sind.
Ich denke also die meisten von uns haben
gewisse Hinweise in den Bildern
wahrgenommen, die auf der
Unterschiedlichkeit der Quellen beruhen.
Also ganz offensichtlich hier der Kragen
im Bild, der darauf hinweist, dass es
vielleicht ein Bewerbungsfoto sein könnte
oder ein leichtes Grinsen im Gesicht.
Dahingegen sind die Leute, die auf der
kriminellen Seite sind nicht besonders
vorteilhaft dargestellt. Also dem Mann
hier wird der Scheinwerfer ins Gesicht
gestrahlt, was dann Hautunreinheiten und
Falten besonders betont. Wohingegen bei
den Bewerbungsfotos offensichtlich Make-Up
im Spiel ist oder Photoshop. Im
trivialsten Fall kann es also sein, dass
der Algorithmus einfach nur erkennt, in
welchen Fotos Photoshop nachgeholfen hat.
Das kann man also zum Beispiel schon an
lokalen Pixel Statistiken gut erkennen.
Diese Studie ist vielleicht ein extremes
Beispiel, wie gravierend sich die
verwendeten Daten auf das Ergebnis einer
Voraussage eines Algorithmus auswirken
können. Dies ist ein besonders starkes
Beispiel für Stichproben-Verzerrung, also
Bias in dem Gruppen unterschiedlich
dargestellt werden.
Bias kann aber auch entstehen ganz
zufällig, wenn zu wenige Datenpunkte
vorhanden sind, um verlässliche Aussagen
zu treffen.
Solche Probleme sehen wir also oft in
medizinischen Studien oder psychologischen
Studien, wo Tests teuer und langwierig
sind.
Melde-Bias beschreibt, wenn Befragte
unkorrekte Angaben machen.
Das geschieht zum Beispiel oft bei
Gewaltverbrechen, bei denen Angst und
Repression eine Rolle spielen. Und
natürlich spielen auch die verwendeten
Merkmale, die ein gewisses Problem
beschreiben sollen, eine große Rolle.
Kommen wir nun zur zweiten Kategorie: dem
Bias in den Modellen.
Hat man sich früher also vor dem die
Deeplearning-Hype, sagen wir mal vor 2012
eine Einführungsveranstaltung zum
maschinellen Lernen gesetzt, dann begann
fast jeder mit dem Erklären des No-free-
Lunch-Theorems. Also der Aussage, dass
kein Modell in allen möglichen Szenarien
funktioniert.
Daraus schlussfolgerten wir, dass wir
Annahmen machen müssen, die das Modell im
Hinblick auf unser spezifisches Problem
beschränken. Diese Annahmen haben aber
ihre Grenzen. Dann versagt das Modell,
ohne dass sich das Modell darüber bewusst
ist.
Das heißt also unser Job als
Wissenschaftler oder Studierender ist es,
diese Grenzfälle zu benennen und zu
testen, ob in unserem speziellen
Anwendungsfall diese Algorithmen nicht
versagen.
An diesen Prinzipien hat sich auch bis
heute nichts geändert, aber der Erfolg des
maschinellen Lernens in bestimmten
Bereichen lässt selbst uns
WissenschaftlerInnen diese universalen
Regeln manchmal vergessen.
Wir sind dann versucht zu glauben, dass
Modelle so flexibel sind, dass die Grenzen
quasi nicht mehr existieren.
Im Folgenden möchte ich aber auf ein
Beispiel eingehen, das sich auch mit dem
Deeplearning-Hype gar nicht geändert hat.
Und das ist das Problem der Zielsetzung
und die Frage, wie Erfolg zu bewerten ist.
Am Beginn des Vortrags sprach Hendrik über
das Messen von Fehlern und, dass das
Korrigieren dieser Fehler ein wichtiger
Mechanismus sei, um Algorithmen zu
trainieren.
Doch was ein Fehler ist, ist oft nicht
einfach zu bestimmen und es liegt in der
Hand des Ingenieurs zu definieren.
Zum Beispiel wie messe ich Erfolg bei
YouTube-Empfehlungen?
Messe ich die Zeit die jemand auf der
Plattform verbringt? Das kann aber auch
bedeuten, dass der PC vielleicht noch
einer Ecke steht und die Personen gar
nicht mehr im Raum ist oder messe ich die
Anzahl von Klicks? Aber wenn diese zu
frequent sind, dann bedeutet das
vielleicht, dass die Person das Video gar
nicht mag.
Ein anderes Problem sind Übersetzungen.
Stellen Sie sich nur also vor, dass wir
einen Korpus von Übersetzungen haben und
wir wollen messen, ob ein Text richtig
übersetzt wurde.
Wie können wir das messen? Wort für Wort
oder Paragraph für Paragraph? Wenn wir
Wort für Wort messen, dann spielen wir
vielleicht mit der Wortreihenfolge in
verschiedenen Sprachen und das
funktioniert dann nicht so gut. Wenn wir
Paragraph für Paragraph messen,
funktioniert das vielleicht nicht so gut,
weil der Algorithmus den Kontext nicht
mehr begreift. Und wie gehen wir mit
Synonymen um? Wenn also der Algorithmus
ein richtiges Synonymen gefunden hat, wird
dann trotzdem ein Fehler berechnet, wenn
der spezielle Datenpunkt besagt, dass das
vielleicht als ein anderes Synonym zu
übersetzen ist? Man muss also
Entscheidungen treffen. Die Ingenieure bei
Google und anderen führenden
Übersetzungssystem beantworten die Frage
folgendermaßen: Wir übersetzen Satz für
Satz. Dabei gehen wir davon aus, dass
Sätze unabhängig sind und nur das
wahrscheinlichste Wort oder die
wahrscheinlichste Phrase wird richtig
bewertet. Wenn wir also nochmal auf das
Beispiel aus der ersten Hälfte des
Vortrags eingehen. Wenn wir
nun "Sie ist eine Frau. Sie ist Ärztin" in
das genderneutrale Türkisch übersetzen zu
"O bir kadın. O bir doktor." und dann
zurückübersetzen ins Deutsche, dann wird
dies mit "Sie ist eine Frau. Er ist Arzt"
übersetzt. Und jetzt wissen wir auch
warum. Da wir annahmen, dass Sätze
unabhängig sind weiß der Algorithmus gar
nichts vom Kontext, also dass wir hier
über eine Frau sprechen. Wenn der
Algorithmus "O bir doktor" dann übersetzt,
übersetzt der nur die wahrscheinlichste
Phrase und die ist "Er ist Arzt". Es
handelt sich hier also nicht um Bias in
den Daten oder zumindest nicht unbedingt,
sondern um Bias in den Annahmen die das
Modell zu sehr vereinfachen. Ein zweites
Beispiel führt das noch klarer vor Augen.
Wenn wir hier eben den Punkt durch ein
Komma ersetzen, dann kann der Algorithmus
es richtig übersetzen, weil er sich des
Kontexts bewusst ist. Im nächsten Beispiel
um das Phänomen Bias wollen wir zeigen wie
Bias in Modellen Bias in Daten verstärken
kann.
Dies wird besonders in sogenannten aktiven
Lernszenarien bewusst. Aktives Lernen
funktioniert wie folgt. Wir haben Daten,
auf deren Grundlage wir einen Algorithmus
lernen. Für manche Voraussagen sind wir
uns aber nicht sicher. Darum fragen wir
einen menschlichen Experten um Rat und der
Algorithmus fragt dann meistens die
folgende Frage: Habe ich diesen Datenpunkt
richtig bewertet? Und falls nicht, bitte
um Feedback! Das führt dazu, dass der
Algorithmus in der Zukunft mehr Daten zur
Verfügung gestellt bekommt, um dann besser
zu lernen und weniger oft um Hilfe fragen
zu müssen. Das klingt gut. Und so viel zum
störungsfreien Ablauf. Was aber nun wenn
ein Datenpunkt mit falschen oder
verzerrten Merkmalen beschrieben wird? Und
dazu kommt, dass unser Mensch vielleicht
nicht so wachsam ist, wie wir in unserem
Modell annehmen. Wir haben also eine
kleine Verzerrung im Datensatz, und die
Annahme des idealen Menschen wird verletzt
in unserem eigentlichen Phänomen. Dieser
falsche Datenpunkt wird also ignoriert.
Das führt dann dazu, dass, obwohl die
Ursache der Verzerrung nicht mehr aktiv
ist, dieser Datenpunkt nun vermehrt wird
aufgrund der Tatsache, dass der Mensch
nicht auf die Frage, habe ich diesen
Datenpunkt richtig bewertet, reagiert.
Und das führt dann wiederum dazu, wenn man
mehr
verzerrte Daten hat, dass diese mehr
verzerrten Daten sich immer weiter
vermehren können. Wann kann ich das also
jetzt in freier Wildbahn beobachten? Es
ist relativ schwer zu sagen, weil sich
natürlich solche großen Player wie Google
oder Facebook nicht immer in die Karten
blicken lassen. Aber ich denke ein Tweet
aus dem vergangenen Jahr lässt darauf
schließen, dass das vielleicht hier
passiert sein könnte. Also eine
Afroamerikanerin mit Kussmund, in der
Mitte unten, wird hier als Gorilla
bezeichnet. Das ist eine
geschichtsträchtige Bezeichnung für
Afroamerikaner in Amerika und hat
natürlich große Wellen geschlagen. Google
erklärt die Ursache des Fehlers nicht
genau genug, um genau zu wissen, was ihn
ausgelöst hat, aber zwei Probleme können
eine Rolle gespielt haben. Eins wäre, dass
die Bildbeschreibung immer von Menschen
bereitgestellt wird, und die erlauben sich
gerne mal zu trollen und verfälschen das
originale Datenset damit. Das kann aber
nicht die einzige Ursache sein. Es kommt
also mindestens noch dazu, dass gewisse
Gruppen von Menschen entweder einfach sehr
klein sind in einer Gesellschaft oder
unterrepräsentiert sind. Und vielleicht
auch drittens, man muss schon sagen dass
bei großen Tech-Firmen sehr wenig
Grenzszenarien oder Szenarien getestet
werden. Wir denken da zum Beispiel an den
Microsoft Chatbot, der ganz ähnliche
Phänomene gezeigt hat. Also der dann auch
sehr rassistische Chat-Nachrichten
geschrieben hat. Das letzte relevante
Beispiel zum Thema Bias soll aus dem
Bereich des übertragenden Lernens kommen.
Hierbei ist das Ziel das Lösen einer
Aufgabe. Und diese Aufgabe hat aber nur
wenige Datenpunkte. Und das sind nicht
genug, um den Algorithmus erfolgreich
lernen zu lassen. Aber es gibt eine
ähnliche Aufgabe, die erfolgreich gelöst
werden kann. Und die Idee ist nun, dass
gut funktionierende Modell zu verwenden um
unseren eigentlichen Problemen zu helfen.
Diese Technik führt aber wieder zu
Verzerrungen, die nur schwer bestimmt und
kontrolliert werden können.
Das wird klar, wenn wir ein konkretes
Beispiel betrachten. Wir können eine ganze
Halle voll Roboterarme stellen, um ihnen
bestimmte motorische Aufgaben
beizubringen. Aber selbst 1000 Roboterarme
lernen nur mühsam. Was also gang und gäbe
ist in der modernen Robotik, sind dass man
Systeme in Simulationen üben lässt.
Systeme werden also für Tausende Jahre in
Simulationen geübt. Das ist natürlich aber
nie Realität. Also wir denken da an
Gravitationssimulationen, die Fehler
enthalten kann. Lichtbedingungen, die
nicht ganz real sind, oder der
idealisierte Roboterarm, der hier
verwendet wird. In diesem Zusammenhang
möchte ich auch sagen, wie attraktiv auch
die Zukunft mit selbstfahrenden Autos
erscheinen mag, mit ihren Versprechen nach
mehr Platz in den Städten, weniger
Unfällen und effektiverer Verkehrsführung,
so sollte man auch sehr skeptisch sein,
denn auch diese Systeme haben die meiste
Lebenserfahrung in Simulationen gesammelt.
Eine ganz andere Betrachtungsweise auf
Daten ist die der Datendichte. Daten
können dicht beieinander liegen oder weit
voneinander entfernt. In Bereichen mit
vielen Daten ist es oft einfach korrekte
Aussagen zu treffen. Neue Datenpunkte in
diesen Bereichen zu beschreiben nennt man
Interpolation. Wohingegen Bereiche mit
wenigen Daten oder keinen Datenpunkten
sehr schwer zu beschreiben sind. Diese
Aufgabe beschreibt man mit Extrapolation.
Korrektes extrapolieren ist im Allgemeinen
nicht möglich oder nur möglich, wenn man
korrekte Annahmen über den
Entstehungsprozess der Daten macht.
Interpolieren, also das Wandern von einem
oder mehreren Datenpunkte zum anderen,
kann so wichtige Fragen des Alltags
beantworten wie: Wie würde das Kind von
Kim Jong-un und Donald J. Trump aussehen?
Neueste Anwendungen dieser Technik
beinhalten auch das gezielte Verändern von
Video in Bild und Sprache. Beispielsweise
wurde hier das Gesicht von der
Hauptdarstellerin des Wonder Woman Films,
Gal Gadot, auf einen pornografischen Film
gelegt. Und man muss nicht weit denken um
sich die Konsequenzen solcher Techniken,
für
Fake News zum
Beispiel, vorzustellen. Im extremsten Fall
gibt es sehr wenige oder keine Daten wo
eine Aussage getroffen werden soll. Nun
ist es wichtig, die richtigen Annahmen zu
treffen um extrapolieren zu können. Das
haben wir bereits gesagt. Das ist aber
eine extrem schwere Aufgabe, zu der auch
moderne Wissenschaft nur wenige und
unvollständige Antworten weiß. Was also
anstatt in aller Regel passiert, ist, dass
Algorithmen keine Annahmen machen. Und das
kann zu unvorhergesehenen Phänomenen
führen. Im schlimmsten Fall kann man
dieses Wissen auch nutzen zu sogenannten
feindlichen Attacken auf Algorithmen. Eine
Attacke verläuft beispielsweise so: Man
nehme einen Datenpunkt aus dem Datenset
und dessen beschreibende Merkmale, also
hier z.B. die Bilder von Verkehrsschildern
und die Verkehrsschilder.
[38:48]
Man suche dann fernab von den Daten einen
Punkt der sehr ähnlich ist, den aber der
Algorithmus mit all mit einem ganz anderen
Merkmal beschreiben würde. Und das
gruselige ist, dass dies auch funktioniert
mit ausgedruckten Version derselben
Attacke. Und wenn man nicht dieselben
Daten und nicht einmal denselben dasselbe
Modell kennt oder verwendet. Wen das
interessiert dem empfehle ich sehr für die
nächste Präsentation zu bleiben. Das wird
glaube ich ja der Kernpunkt der nächsten
Präsentation sein. Abschließend zum Thema
Möchte ich nochmal ganz deutlich machen,
dass in allen Systemen des modernen
maschinellen Lernens Korrelation evaluiert
wird und nicht Kausalität. Mathematische
Kausalitätsforschung, also dem Suchen nach
Ursache und Effekt für komplexe Systeme
ist erstens ein Kinderschuh und
Korrelation zu finden und zu beschreiben
ist nur einer der Schritte der dazu nötig
ist. Bevor ich die Frage dann- die Runde
für Fragen öffne haben Hendrik und ich
noch ein Anliegen. Also ich hoffe wir
haben umfassend die technischen
Möglichkeiten des maschinellen Lernens
dargestellt und welche Begrenzungen es
aufweist. Letzteres soll und wird uns als
Gesellschaft aber nicht davon abhalten
diese großartigen Fortschritte zu
geniessen. Also denken wir an Mediziner
und Molekulare Biologie in denen diese
Techniken großes Versprechen und auch
schon geliefert haben. Daraus ergeben sich
trotzdem große politische Fragen die uns
alle etwas angehen. Entscheidungen die
Wissenschaftler nicht alleine treffen
können, wollen oder sollten. Also wir
müssen uns Sachen fragen wie: Wer soll im
konkreten Fall Entscheidungen treffen,
Menschen oder Maschinen. Wer ist Schuld
wenn Fehler passieren: Ingenieure, Firmen,
Staat oder vielleicht gar niemand. Wie
können staatliche Garantien wie Gleichheit
juristisch umgesetzt werden im Angesicht
solcher neuen Algorithmen. Und natürlich
auch wie können Algorithmen oder sollten
Algorithmen reguliert werden. An der
Stelle möchte ich mich bedanken für
Aufmerksamkeit
und würde die Runde eröffnen für Fragen.
Herald-Angel: Vielen Dank Karen, vielen
Dank Hendrik. Wenn ihr Fragen habt, bitte
an den Mikros aufstellen. Und dann
entsprechend warten. Mikrophon 1
bitteschön.
Mikrofon 1: Ja, vielen Dank für den
großartigen Vortrag, war super spannend
und es ist ein sehr sehr wichtiges Thema,
wie gehen wir damit um, weil es wirklich
Auswirkungen hat auf die politische
Organisation, auf die Demokratie, all
diese Sachen. Jetzt vom Beispiel das
Hendrik gebracht hat, im ersten Teil
ging's ja jetzt auch zum Beispiel über die
Anwendung von KI für ja sagen wir
politische Propaganda, könnte man auch
sehen, Cambridge Analytica, die ganzen
Sachen und gleichzeitig als zweites Thema
die Filterbubbles die sich bilden, also wo
natürlich eine Verstärkung dieses
Phaenomens möglich ist. Meine Frage, die
ich mich in diesem Jahr gestellt habe, mit
Brexit, mit Trumpwahlen und so weiter, was
sind die Möglichkeiten die sich bieten um
dem entgegenzuwirken, dass sich Meinungen
so stark durch Filterbubbles polarisieren,
dass Leute durch Targeted Advertisement
beeinflusst werden, die mit AI generiert
werden und Big Data. Wie ja- habt ihr
konkrete Vorschläge?
Hendrik: Vielen Dank für die Frage. Es
geht also darum was man jetzt gegen diese
Probleme insbesondere im politischen
Bereich machen kann. Und es ist natürlich
eine riesige Frage, wird uns warscheinlich
auch noch lange Begleiten, ich glaube
kognitive Diversität im Bekannten- und
Freundeskreis, ganz wichtig, vor allem aber
auch in Unternehmen. Und unsere Ansätze, so
kommen sie ja zusammen, mir gehts ja darum
wie können wir Leute untersützten, wie
machen wir Visualisierungen, wie machen
wir Algorithmen sichtbar, wie helfen wir
den Leuten zu verstehen was da passiert.
Meine Perspektive, Karens Perspektive
dann: Wie können wir die ALgorithmen, die
Blackbox aufmachen, wie können wir
erklären, wie kann ein System auch sagen
wie sicher es ist mit seiner Vorhersage.
Also es gibt ja auch viel Arbeit, es gibt
die Fairness, Transparency... Fairness,
Accountability, and Transparency in
Machine Learning fatml.org. Da gibt es
eine ganz große Gruppe von Leuten die sich
damit auseinandersetzt, auch aus ganz
verschiedenen Richtungen, weil es gibt
viel Arbeit dazu in der Psychologie, in
der Soziologie, aber auch halt in der
Informatik. Genau fatml.org ist eine sehr
gute Addresse für sowas.
Herald-Angel: Eine Bitte an die, die
gerade rausgehen: Macht das bitte so leise
wie es geht und versucht durch die Tür zu
meiner Linken, zu eurer Rechten dort
hinten, den Saal zu verlassen, danke
schön.
Jawohl, Mikrofon 5, du hast eine Frage?
Mikrophon 5: Ja, eher ein kurzer Kommentar
aus dem Bereich des Machine Learnings, ist
das, was wir da gesehen haben bei der bei
dem Gorillabeispiel, ebenso bei dem
Übersetzungsbeispiel nicht eher ein Bias
in der Kostenfunktion? Dadurch, dass wir
dem Algorithmus gesagt haben, es ist
genauso teuer, wenn du die Klasse Gorilla
mit der Klasse mit einer anderen Klasse
verwechselst, versus, dass wir die
Oberklasse Mensch mit der Oberklasse Tier
verwechselst, oder in dem Genderbeispiel
dass "Er" und "Sie" als Verwechselung
eines einzelnen Worts genauso teuer sind
wie beliebige andere Worverwechselungen.
Hendrik: Sehr guter Punkt. Also man kann
natürlich in der Kostenfunktion dagegen
vorwirken, man kann sagen dieser Fehler
ist schlimmer für uns als der andere
Fehler, aber wenn wir davon ausgehen, dass
alle Klassen gleich sind und wir einfach
für alle Klassen gleich gute Ergebnisse
haben wollen, und das kommt ja aus Google
Fotos, wo wir das für alle Kategorien
machen wollen, dann ist es halt da kommt
der Mensch wieder rein. Das ist dann
nichtmehr allgemeines Machine Learning,
sondern wieder so Frickellösung. Und
dieses Problem des Bias, und darum gings
ja, ist einfach dem Machine Learning
inherent, und wir müssen damit umgehen.
Und ich glaube nicht, dass man das einfach
in die Kostenfunktion schreiben kann. Oder
willst du noch was dazu sagen?
Karen: Ja der Punkt von dem Beispiel war
ja auch quasi wie einerseits da muss ein
falscher Datenpunkt exestiert haben, und
wie das quasi durch die ein Bias
vielleicht, oder eine Annahme in der
Kostenfunktion dann eigentlich noch viel
verstärkt wird. Es geht ja darum wie quasi
eine Negativ-Spirale manchmal losgetreten
werden kann. Dadurch, dass wir einerseits
Bias in den Daten haben, aber auch andere
gewisse Annahmen machen, die vielleicht
die Realität zu sehr vereinfachen.
Das war ja der Punkt dieses Beispiels.
Hendrik: Und vielleicht dazu noch: Das
sind natürlich sehr offensichtliche
Beispiele, auch um das hier deutlich zu
machen. Es gibt natürlich auch immer diese
Blindstellen, Blindspots, wo halt was
passiert, von dem wir das garnicht wissen.
Das ist ja auf eine Art auch ein
Blindspot, der vielleicht auch damit
zusammenhängt, dass Google nicht divers
genug ist und nicht genug Leute derartige
Daten damit getestet haben, bevor sie es
public gemacht haben.
Herald-Angel: Mikrophon 1, deine Frage.
Mikrophon 1: Ja vielen Dank, euer Vortrag
war ja so ein bischen als Einführung
gedacht, das Thema auf die Agenda zu
bringen, was ich ganz großartig finde,
aber deswegen hätte ich jetzt eher so eine
Kommunikationsstrategische Frage. Ihr habt
ja ganz viel über Bias gesprochen, über
Verzerrung, wenn man das so sagt denkt man
implizit ganz oft an neutral und
Unverzerrt, und ich fands toll, du hattest
ja das No-Free-Lunch-Theorem da, also
sagen: Machine Learning ohne Bias gibt's
garnicht, du hast auch gerade gesagt, das
ist Machine-Learning inherent. Aber das
ist ja ganz wichtig zu sagen, deswegen
wollte ich einfach mal fragen wenn es um
politische Debatten geht, um öffentliche
Debatten geht, ob ihr dann denkt, dass
Bias und Verzerrung sozusagen der richtige
Header ist, um das alles zu thematisieren.
Weil es eben dieses Neutrale, Unverzerrte
immer mit impliziert, oder ihr denkt, dass
man das dann nochmal anders framen müsste.
Hendrik: Wir sind aufjedenfall keine
Kommunikationsstrategen. Es gibt natürlich
viele hervorragende Mediensoziologen,
Kommunikationswissenschaftler, die das
warscheinlich viel besser machen können.
Wir wollten jetzt erstmal in diesem Rahmen
zeigen, welche Probleme wir als Techniker,
als Informatiker - wir promovieren ja
beide zu diesen Themen - sehen. Also...
Also das ist wird uns ja aber auch noch
sehr lange beschäftigen, das richtig an
die Leute zu bringen.
Herald-Angel: Okay, Dankeschön. Wir haben
eine Frage aus dem IRC.
Signal-Angel: Ja, danke, eine Frage aus
dem Internet: Hat menschliches Lernen
nicht genau genommen die selben Probleme
wie maschienelles Lernen? Oder gibt es da
im Prinzipiellen Unterschiede?
Hendrik: Ich guck mal zu dir.
Karen: Also, das ist eine Frage, die
natürlich nicht nur das maschienelle
Lernen betrifft, sondern auch die
Psychologie, oder die Evolutionsforschung,
zu der ich mich nicht auskenne. Der
Algorithmus oder die Idee, die Grundidee
des maschienellen Lernens ist ja quasi
Fehler festzustellen, und die dann zu
kommunizieren und das Modell wird dann
daraufhin besser. Ob das jetzt bei uns
Menschen so funktioniert, ich bin mir
nicht sicher ob das jemals jemand genauso
gesagt hat. Aber ich glaube im Sinne von,
dass unser Gehirn optimiert, das wird,
oder das habe ich bestreiten gehört von
Psychologen. Also die Frage ist nicht so
sehr wie, oder das Problem, dass ich mit
der Frage habe ist nicht so sehr wie jetzt
das maschienelle Lernen funktioniert,
sondern wie wir selbst funktionieren. Ich
glaube wir sind gerade auf dem Weg das
herauszufinden und die Modelle des Machine
Learnings, maschienellen Lernens sind oft
nur grobe Vereinfachungen dafür wie wir
selbst funktioneren.
Hendrik: Genau, ich würde auch sagen, es
ist bio-inspiriert, aber es gab auch eine
Zeit wo alles Maschienen waren, der Körper
als Maschine. Das ist halt die Metapher
ihrer Zeit. Jetzt haben wir diese
künstlichen neuronalen Netzwerke und jetzt
sind das die Metaphern, die wir nutzen,
also ich glaube da ist ein fundamentaler
Unterschied zwischen menschlichem und
künstlichem Lernen.
Karen: Ja es gibt auch so einen zentralen
Leitsatz im maschinellen Lernen, der
besagt, dass alle Modelle falsch sind, und
einige vielleicht nützlich sind. Und ich
denke das trifft auch auf uns Menschen zu,
alle Modelle die wir verwenden, alle
Annahmen die wir machen, alle Stereotypen
die wir benutzen, die sind vielleicht
manchmal nützlich, aber in der Gesamtheit
immer falsch. Ich denke das trifft für
Menschen und Maschinen zu.
Applaus
Herald-Angel: Dankeschön. Mikrophon 4,
deine Frage.
Mikrophon 4: Vielleicht eine etwas naive
Frage, aber bestehen oder gibt es Metriken
um diesen Bias, der uns täglich im Netz
begegnet, zu bewerten? Also dass man das
schon visualisieren kann oder vermitteln
kann, dass man sich in einem hohen Bias
also einer hohen Verzerrung bewegt oder
auf Glatteis läuft in dem Sinne. Ein hoch
komplexes Thema wirklich, runtergebrochen
auf eine, ich sag mal, Bewusstbarmachung
von hoher statistischer Verzerrung, die
einen umgibt.
Hendrik: Also es gibt durchaus Forschung
in die Richtung es gibt z.B. die Civic
Media Group am MIT Media Lab die sich mit
soetwas aueinandersetzt. Das sind aber so
einzelne Beispiele wo sie z.B. Leuten
einfach mal zeigen, was für einen Gender-
Bias sie bei den Leuten, die sie auf
Twitter folgen, haben, also die folgen nur
Männern z.B..
Solche Bewusstbarmachungen sind wichtig
und sind glaube ich auch ein Teil des
Puzzels, aber ich glaube die
Medienpädagogik muss halt ernstgenommen
werden, den Leuten muss das bewusst sein
wenn wir diese Dinger benutzen wollen,
wenn wir in solchen Autos rumfahren
wollen, dann müssen wir das verstehen. Es
gibt halt immer diese Blindspots und man
kann einfach da nicht darauf eingehen, man
kann nicht jeden Spot da bedenken vorher.
Karen: Um die vielleicht Frage zu
kontextualisieren von den Algorithmus-
Wissenschaftlichen-Blickpunkt. Wir machen
jetzt nicht unbedingt den Unterschied
zwischen vielleicht dem was eine negative
oder positive Verzerrung ist, also
wahrgenommen wird, sondern für uns gibt es
halt nur Merkmale die auf gewisse andere
Merkmale schließen lassen und das führt
dann wieder zu der Frage der Korrelation
und wenn wir sagen wir haben oft ja
Merkmale die Proxys sind für andere
Merkmale, also wo ich wohne ist oft proxy
dafür wie ich aussehe oder woher ich
komme.
Was ich also im Machine Learning machen
kann, oder wie sich die Wissenschaft damit
auseinandersetzt ist zu sagen, ok, wenn
ich weiß welche Merkmale sensitiv sind,
also welche ich nicht möchte dass die mein
System korreliert mit der eigentlichen
Aussage die das System treffen soll, dann
kann quasi ich in meine Fehlerfunktion
einen extra Term reinspeisen, der sagt du
dekorrelierst jetzt das Ergebnis was du
hast mit dem besonderen Merkmal was du als
sensitiv also z.B. der Wohnort oder dein
Bildungsstatus oder dein Einkommen, dass
die keine Rolle spielen dafür, wie der
Algorithmus Vorraussagen macht.
Mikrophon 4: Was ich jetzt meinte war
jetzt wirklich nicht die Unterscheidung
zwischen gut und schlecht, sondern
wirklich eine Visualisierung, dieser
Datensatz oder dieses Ergebnis basiert auf
wenigen Datensichten -- klar im Kontext
kompliziert zu bewerkstelligen, aber dass
man eine Möglichkeit findet sowas
darzustellen dass diese Daten auf einer
hohen Datendichte basieren und so weiter.
Hendrik: Unsere Antwort is quasi, es gibt
solche Sachen, es gibt sowas zu messen
aber es ist immer eine Reduktion von
Komplexität und da verliert man immer was
und da muss man sich immer bewusst machen,
wie viel reduzieren dürfen wir, wie
einfach dürfen wir es machen.
Karen: Zur Frage der Datensichte kann
man vielleicht noch sagen, da ist wieder
ein andere Kernansatz, der Bayesianische
Kernansatz, der sich jetzt nicht die Frage
stellt, wie ist meine Hypothese aufgrund
der vorhandenen Daten zu bewerten sondern
wie sind meine Daten aufgrund der
verwedeten Hypothese zu bewerten. Das ist
also nochmal eine ganz andere Ansicht auf
die Sache und der wiederum erlaubt uns
dann gewisse Unsicherheiten auszudrücken
über Vorrausagen, die ich treffe. Also
wenn jetzt zum Beispiel ein Datenpunkt
über den ich eine Aussage treffen will
weitab liegt von Daten die ich habe, dann
wird dieser Ansatz oder wenn ich diesen
Ansatz verwende wird mir dann sagen; über
die Voraussage die ich jetzt treffe bin
ich sehr unsicher und das ist eine
Forschungsrichtung mit der sich viele
Leute beschäftigen, die jetzt aber für
diese großen, komplexen Systeme, ich würde
sagen, noch sehr am Anfang steht.
Herald-Angel: Mikrofon 1 bitte.
Mikrofon 1: Danke für den super-
interessanten Vortrag und danke auch an
die Gebärden-Dolmetscherin, die hier ohne
Unterlass die ganze Zeit übersetzt.
Applaus
Ich habe folgende Frage: Wie nützlich
würdet ihr es einschätzen, das mit einer
Qualitätskontrolle also einem
Qualitätsmeilenstein für das Endergebnis
zu kombinieren. Also als Beispiel; ein
Auto ist dann hinreichend gut, wenn es im
Verkehr weniger Leute umbringt als ein
durschnittlicher menschlicher Fahrer oder
sowas. Würde das einen zusätzlichen Nutzen
ergeben? Kann man daraus noch mehr
Rückschlüsse ziehen, oder sind das völlig
getrennte Sachen?
Karen: Also das ist eigentlich genau das
worauf wir hinaus wollten, dass das eine
politische Frage ist, die wir nicht
beantworten wollen.
Hendrik: Oder eine juristische.
Karen: Oder eine juristische, das müsst
ihr sagen, was ihr richtig findet, das ist
doch nicht unsere Aufgabe zu sagen ...
Hendrik: Nein also die Gesellschaft muss
es aushandeln, wir können Probleme
aufzeigen, aber die Antwort muss die
Gesellschaft als ganzes finden.
Mikrophon 1: Das ist klar, die Frage ist
nur, wenn man so einen Punkt definiert hat
und sich dann die Ergebnisse anschauen
würde, die kurz vor und kurz nach diesem
Punkt aufgetreten sind, ob das
Rückschlüsse zulassen würde auf
irgendeinen Bias oder irgendwelche anderen
Sachen, oder ob dieser Punkt völlig
unerheblich für euch wäre.
Hendrik: Kannst du nochmal den Punkt
benennen?
Mikrophon 1: Also man definiert
irgendeinen Punkt x, der ein bestimmtes
Qualitätskriterium hat. Also der Wagen
bringt eben nicht mehr Menschen um als ein
durchschnittlicher Fahrer sondern weniger.
Sind die Ergebnisse die um diesen Punkt
liegen, die man dann messen kann. Sind die
in irgendeiner Art relevant für den
Ausgang, kann man da irgendwelche
Rückschlüsse daraus ziehen, oder ist das
nur irgendein Punkt, wie jeder andere
auch?
Hendrik: Also ich finde das problematisch,
diesen Punkt zu finden, weil man ja auch
den ganzen Kontext sehen muss bei den
Autounfällen und warum sie passieren, also
welche Gründe sie haben und das ganze
datafizieren, das in einen Punkt zu
pressen, und den dann als
Evaluationsmetrik für was anderes
hochkomplexes zu nehmen halte ich für sehr
problematisch, ich glaube da ist wirklich,
das meint Karen, die politsche Antwort
wichtiger.
Karen: Beim konkreten Beispiel von
selbstfahrenden Autos muss man natürlich
auch sagen, dass es das echte
selbstfahrende Auto nie üben kann einen
Crash zu haben, also dieses Crash-Szenario
kann natürlich nie geübt werden, also wir
wollen da ja natürlich niemanden sterben
lassen oder nicht so viele Autos crashen,
das ist ein bisschen teuer. Das heißt
Crash-Szenarios werden eigentlich auch
immer nur in der Simulation geübt und das
ist genau das Problem, dass wir heute --
zumindest soweit ich das weiß -- sehr
wenige Szenarien haben in denen wir sagen
können; wenn wir jetzt in der Simulation
geübt haben, was für Annahmen übernehmen
wir denn dann in die echte Welt. Die
einfach nur benennen zu können würde uns
ja schon helfen eventuelle Fehlerszenarien
vorrauszusagen, aber selbst das Benennen
dieser Annahmen das fällt uns ja selbst
schon schwer, also das ist noch ein weiter
Weg.
Herald-Angel: Mikro 1
Mikrofon 1: Auch vielen Dank für den
Vortrag. Die ganze Diskussion über die
Biase, die ihr ja getrieben habt, besagt
ja letztlich, dass es darum geht die
Wahrheit zu finden, Wahrheit und letztlich
eine Stichprobe der Wahrheit dem Computer
zum Lernen zu geben und das bringt mich
dann zu der Parallele in der Wissenschaft
haben wir das ja auch, also wie sieht
meine Stichprobe aus, die ideale
Stichprobe, oder ist da ein Bias drin.
Habt ihr diese Parallele schonmal
gedanklich gezogen oder ist das ... ja.
Hendrik: Also wir sind ja Wissenschaftler
und wir müssen natürlich auch erstmal für
uns wissen, ob was wir herasugefunden
haben, gerade wenn wir mit Menschen
arbeiten, wir hatten ja gestern auch den
Vortrag "Science is broken", der da
irgendwie, also es ist immer schwierig die
richtige Samplesize zu haben um die
Effectsize zu berücksichtigen, um zu
wissen, dass man was weiß, das sind ja
epistemische Fragen.
Mikrophon 1: Aber gibt's da irgendwie
schon für neuronale Netze irgendwelche
Richtwerte, dass man dann irgendwie weiß.
Weil in der Psychologie lernt man, dass
die Sampelsize muss mindestens 5.000 Bla
betragen, keine Ahnung, oder so und so
Prozente. Gibt's Richtwerte, gibt's sowas
schon für neuronale Netze? In Abhängigkeit
der Layer oder der Parameter oder..?
Hendrik: Nicht dass ich wüsste, weisst du
was?
Karen: Die Frage geht jetzt vielleicht ein
bisschen tief. Für frühe Systeme, also
sehr einfache neuronale Netze, die aus den
Anfang der 90ern, so wie Boltzmann-machines oder
Hofman-Networks. Für solche Sachen kann
man sagen, wenn die Saturieren und mit
wievielen Bits an Daten man da reingeht
bis die Saturieren. Für aber diese hoch-
nicht-linearen Systeme, die wir jetzt
verwenden, kann man das nicht sagen, oder
nur asymptothisch sagen. Es gibt viel
Forschung zu dem Thema, aber nichts, was
jetzt besonders handfest wäre; sagen wir
mal so. Oder man jetzt im echten Leben
verwenden könnte.
Mikrophon 1: Ja gut, dann irgendwie so
eine Ausage zu haben, so und so viele
Testdatensampels brauchst du für dein
neuronales Netz, wenn das so und so
strukturiert ist. Irgendwie, das könnte
vielleicht eine Form von Verifikation oder
Validierung, Pre-Validierung bringen,
irgendwie.
Hendrik: Ja, das macht man ja. Man hat ja
einen großen Datensatz, einen
Trainingsdatensatz, einen Testdatensatz
und einen Validierungsdatensatz, mit dem
man dann nochmal guckt, was haben wir
wirlich gelernt und haben wir nicht
einfach nur die Eigenheiten des
Datensatzes auswendig gelernt. Haben wir
wirklich generalisiert. Also auf dem
Niveau passiert das schon. Auf dem höheren
Niveau wäre das bestimmt noch eine
hervorragende Doktorarbeit.
Herald-Angel: Mikro 5, deine Frage?
Mikrofon 5: Vielen Dank für den Vortrag.
Meine Frage ist: Diese Biases, die sind ja
jetzt nicht neu, die kennt man ja seit
Dekaden in der Statistik. Was hat sich
denn mit der künstlichen Intelligenz, bzw.
mit Deep Learning geändert? Und daran
anschließend: Kennt ihr irgendwelche
Studien, dass solche Filterblasen wirklich
irgendwelche tatsächlichen messbaren
Auswirkungen haben? Weil man hört
unglaublich viel in den Medien, aber mir
ist keine belastbare Studie bekannt, die
sagt, dass das da tatsächlich was
verschlimmert wird, was nicht vorher schon
da war.
Hendrik: Ich hab die erste Frage schon
wieder vergessen. Kannst du einmal noch
die erste sagen?
Mikrophon 5: Die erste Frage war, was sich
geändert hat, weil diese Biases, die sind
ja jetzt nicht neu.
Hendrik: Genau, nein, die sind natürlich
nicht neu. Und die ganzen Vorurteil sind
auch nicht neu. Ich glaube, es wird halt
einfach sehr, sehr viel Machine Learning
gerade benutzt. Auch aus sehr guten
Gründen. Also, z.B. es gibt hervoragende
Python Bibliotheken, es gibt hervoragende
R Bibliotheken, die das super einfach
machen. Die Unis lehren das fast überall.
Data Science ist der große Hypeterm, und
das wird einfach nur nochmal drängender,
weil Leute diese Sachen jetzt auf einmal
in ihre Systeme reinschmeißen, die
benutzen, um vielleicht Geld zu verdienen,
sich aber dann dieser Probleme gar nicht
bewusst sind. Und zur 2. Frage: Ich bin
mir ziemlich sicher, dass es viel zu
Echokammern gibt. Ich weiß nicht, was du
gefragt hast, ob man das wirklich auch
wissenschaftlich so testen kann? Also, wie
da quasi der Versuchsaufbau aussähe? Aber
es gibt, auch gerade in der Soziologie,
viel zu Echokammern. Aber mir fällt gerade
kein Autor ein dazu.
Herald-Angel: Vielen Dank für den Vortrag.
Ich sehe, dass da noch Fragen sind, aber
leider ist die Zeit rum. Seid ihr noch da?
Können die Leute euch noch ansprechen?
Hendrik: OK.
Herald-Angel: Super. Vielen, vielen Dank!
Applaus
Untertitel erstellt von c3subtitles.de
im Jahr 2018. Mach mit und hilf uns!