Herald-Angel: Der nächste Vortrag ist „Beeinflussung durch Künstliche Intelligenz". Es ist ein Einführungsvortrag, also einer der explizit dazu gedacht ist, dass ihr das ohne Vorkenntnisse versteht. Und es geht ums Maschinelle Lernen. Unsere Sprecher sind die Karen – sie forscht in Amsterdam an Maschinellem Lernen, kommt ursprünglich aus Leipzig – und der Hendrik Heuer, der in Bremen an Mensch-Computer-Interaktion forscht. Großes Willkommen für die beiden! Applaus Hendrik Heuer: Vielen Dank! Moin erstmal! Willkommen zu unserem Vortrag „Beeinflussung durch Künstliche Intelligenz" über die Banalität der Beeinflussung und das Leben mit Algorithmen. Wir würden gern mit einem Zitat von Kate Crawford beginnen. Kate Crawford ist die Gründerin des AI Now Institut das die sozialen Auswirkungen von künstlicher Intelligenz untersucht. Sie ist außerdem ein Principal Researcher bei Microsoft Research und Professorin an der New York University. Und die hat beim AI Now Symposium in diesem Jahr gesagt: „Die Menschen befürchten, dass Computer zu intelligent werden und die Welt erobern. Aber Computer sind zu dumm und haben die Welt bereits erobert." Wir teilen diese Ansicht. Es gibt keine digitale Welt. Die Welt ist digital, das heißt durch digitale Medien konstruiert. Und uns war es ein Anliegen, einige englischsprachige Diskussion jetzt nochmal auf Deutsch zusammenzuführen. Es können also Beispiele kommen die der eine oder andere vielleicht schon kennt. Aber wir führen sie hier nochmal zusammen und versuchen sie zu kontextualisieren. Warum Banalität der Überwachung? Banalität, weil die Systeme des maschinellen Lernens im Kern sehr simpel sind, weil aber auch die Beeinflussung sehr subtil sein kann und das Ganze ist auch eine Reminiszenz an Hannah Arendt. Noch mal kurz zu uns. Wie gesagt: Ich werde die ersten 20 Minuten sprechen über die Mensch-Computer-Interaktions- Perspektive, Karen Ullrich wird die zweite Hälfte bestreiten. Karen ist wissenschaftliche Mitarbeiterin in Amsterdam, im Amsterdam Machine Learning Lab, und sie forscht direkt zu den Algorithmen des maschinellen Lernens, insbesondere Bayesian methods, also ein Hintergrund im Deep Learning und der Informationstheorie. Ich bin wissenschaftlicher Mitarbeiter im Institut für Informationsmanagement Bremen und mir geht es um die Nutzererfahrung von Maschine Learning, insbesondere das Vertrauen. Wir würden jetzt gerne anfangen mit einem Beispiel, das jeder kennt: Spam- Erkennung. Benutzt wahrscheinlich jeder hier. Funktioniert auch nicht immer. Aber man muss sich wirklich vor Augen führen, dass es eine beeindruckende technische Leistung ist, auch wenn es manchmal nicht funktioniert. Und wir nehmen es hier, um den Unterschied zwischen imperativer Programmierung und maschinellem Lernen zu verdeutlichen. Imperative Programmierung ist das, woran wahrscheinlich jeder denkt, wenn er an Informatik und Programmierung denkt. Es geht um Regeln und Anweisungen: Wenn X dann Y. Das Wort Imperativ für Befehl steckt ja auch schon im Namen. Und wenn wir jetzt Spam imperativ erkennen wollen würden, dann würde man zum Beispiel gucken, Okay das Wort Viagra wird so geschrieben in der Nachricht vorkommen, dann ist es eine Spam-Nachricht. Andererseits ist es eine gutartige Nachricht. Maschinelles Lernen ist jetzt ein komplett anderer Ansatz. Da hat man eine Vorhersage die man iterativ, also immer und immer wieder, verbessert. Für die Spam-Klassifikation versucht man zum Beispiel Kombinationen von Wörtern zu finden, durch die es wahrscheinlich wird, dass es sich um Spam handelt. Der Kernbegriff ist hier also wahrscheinlich. Und das sieht dann so aus, dass man für viele verschiedene Beispiele prognostiziert, ob eine Nachricht Spam ist oder nicht. Dann berechnet man Fehler mit einer geeigneten Fehlerfunktion und dann ändert man seine Parameter, um den Fehler zu verringern und geht wieder zum ersten Schritt und macht das immer und immer wieder. Natürlich ist es nicht ganz so einfach, diesen Fehler zu berechnen, und auch die Parameter zu verändern, ist ein eigenes Forschungsgebiet. Aber im Kern ist es wirklich so simpel wie wir es hier darstellen. Und deswegen ist es spannend im Hinterkopf zu behalten. Dabei ist es aber spannend im Hinterkopf zu behalten, dass Spam-Erkennen nicht mit Textverständnis gleichzusetzen ist. Das heißt der Algorithmus muss nicht erst Kafka verstehen können, um zu erkennen, ob etwas Spam ist oder nicht. Und dieses Problem, dass etwas wirkungsvoller aussieht als es vermeintlich ist, wird uns im Laufe des Vortrags noch begegnen. Wir haben jetzt ein weiteres, immer noch vereinfachtes Beispiel für eine Entscheidungshilfe, hier aus der Medizin. Das Ziel ist hier die Erkennung von Brustkrebs. Statt Wörtern wie beim Spam haben wir verschiedene Features, das heißt Charakteristika, an denen man zum Beispiel gutartigen von bösartigem Brustkrebs unterscheiden kann. Dazu gehören hier der Radius, die Textur, Umfang, Fläche, Glätte aber auch so Sachen wie die Symmetrie und die Zahl konkaver Punkte, also nach innen gewölbter Punkte, das seht ihr hier oben. Insgesamt gibt es in diesem vereinfachten Datensatz 32 verschiedene Charakteristika. Und wenn wir jetzt zwei Charakteristika wie z.B. die durchschnittliche Zahl der konkaven Punkte und die durchschnittliche Fläche in Pixeln anschauen und abtragen, dann erkennt man eine deutliche Tendenz: Ab einem bestimmten Punkt – ab einer bestimmten Zahl Punkte und ab einer bestimmten Fläche – sehen wir nur noch bösartigen Brustkrebs. Das heißt mathematisch können wir im Beispiel einfach eine Linie durch diesen Datensatz ziehen und das ist eine sogenannte Entscheidungsgrenze, die Decision- Boundary. Die Entscheidungsgrenze muss nicht linear sein, es muss nicht eine einfache Linie sein. Die kann durchaus komplexer sein und in der Regel ist sie das. Und dieser Ansatz ist durchaus analog zu dem, was eine erfahrene Ärztin oder ein erfahrener Arzt mehr oder weniger bewusst machen würde. Die haben auch aus Erfahrung gelernt: ab der Größe, und ab der Fläche und der Zahl ist es wahrscheinlich bösartig oder gutartig. Der Clou am Maschinellen Lernen ist jetzt, dass wir das für viele verschiedene Charakteristika gleichzeitig machen können. Und darüber hinaus profitieren wir sehr stark davon, wenn wir mehr Daten haben, weil wir dadurch bessere Entscheidungen treffen können. Weil wir eine bessere Entscheidungsgrenze finden. Ihr seht aber auch, dass eine gute Zahl an roten und blauen Punkten im Beispiel auf der falschen Seite der Grenze liegen. Das heißt dort machen wir Fehler und da muss man im Hinterkopf behalten, dass es verschiedene Arten von Fehlern gibt und die auch verschiedene Auswirkungen haben. Falls ich zum Beispiel jemandem mit gutartigen Brustkrebs fälschlicherweise sage, dass ihr Brustkrebs bösartig ist, löst das sicherlich Stress aus und ist keine angenehme Situation. Falls ich aber jemanden mit bösartigem Brustkrebs fälschlicherweise sage, dass ihr Brustkrebs gutartig ist und sie auch entsprechend behandle, kann das deutlich schlimmere Konsequenzen haben. Das ist jetzt natürlich ein vereinfachtes Beispiel. Aber gleichzeitig werden wir zeigen, dass ähnliche Entscheidungshilfen durchaus in sehr kritischen Bereichen genutzt werden. Vorher wollen wir noch einmal die Wirkungsmacht von Big Data zeigen und da geht es darum, Persönlichkeitsmerkmale zu erkennen. Das heißt hier nimmt man digitale Spuren wie Facebook-Likes, die relativ einfach zugänglich sind, es aber ermöglichen, hochgradig sensible Persönlichkeitsmerkmale vorherzusagen. Das ist ein Paper von 2013 und für die Studie haben sie 58.000 Freiwillige in den USA gefunden, die eine Facebook-App benutzt haben. Und die haben dieser Facebook-App ihr komplettes Profil zur Verfügung gestellt mit allen Likes aber auch mit allen Informationen wie zum Beispiel der sexuellen Orientierung oder der religiösen Zugehörigkeit. Was jetzt gemacht wurde ist mit einem sehr einfachen Modell, mit einem einfachen Regressions- Modell, vorhergesagt, von welchen Likes, ob man anhand der Likes bestimmte Persönlichkeitsmerkmale erkennen kann. Und es zeigt sich, dass man zum Beispiel mit 95-prozentiger Genauigkeit erkennen kann, ob jemand weiß oder afroamerikanisch ist. Sexuelle Orientierung kann man auch mit sehr hoher Genauigkeit nur anhand der Likes erkennen, das Geschlecht, die politische Orientierung, die religiöse Zugehörigkeit, aber auch so Sachen wie die Drogenerfahrung und der Familienstand der Eltern in der Kindheit. Und ihr seht schon bei der religiösen Zugehörigkeit sind wir bei 82 Prozent Genauigkeit, bei so etwas wie Drogenerfahrung und der Ehe ist es relativ wenig mit der Genauigkeit: Es ist eine 50/50 Chance, wenn wir raten würden. Aber es ist trotzdem eine Indikation. Und wir zeigen das auch nur, weil das wahnsinnige Möglichkeiten der Diskriminierung bildet. Und das passiert auch auf dem Wohnungsmarkt oder auf dem Arbeitsmarkt. Das heißt was wir hier zeigen wollen, ist, dass wir unsere Vorstellungen von Datenschutz überdenken und ausweiten müssen, weil man halt auch Persönlichkeitsmerkmale inferieren können kann. Denn man kann mit solchen Modellen auch die Likes finden, die am aussagekräftigsten für ein bestimmtes Charakteristikum sind. Das heißt wir haben hier drei Likes: einmal die Marke Harley- Davidson, Kringel-Pommes/curly fries und das Musical Wicked. Und ich überlasse es euch mal, herauszufinden, welches Bild mit niedriger Intelligenz, hoher Intelligenz und Homosexualität bei Männern verbunden ist. Diese durchaus fragwürdige Forschungsrichtung nennt sich Psychometrik oder auch Psychografie. Und das Spannende ist, dass sie ja relativ nah dran ist am Kern-Versprechen von so Unternehmen wie Google und Facebook. Denn die versprechen ihren Kunden – ihren Werbekunden – wir finden für euch Leute, die sich für Dienst X oder Produkt Y interessieren könnten. Und hier haben wir jetzt das Element der Beeinflussung. Beeinflussung heißt hier, Big Data zu nutzen, um Leute zu finden, und die Beeinflussung ist noch sehr banal. Aber solche Forschung kann natürlich auch genutzt werden, um zum Beispiel in einer großen Menge von Wählerinnen jene zu finden, die noch überzeugt werden könnten. Und ihr habt – viele von euch haben wahrscheinlich den Artikel in das Magazin gelesen, wo kolportiert wurde, dass diese Art von Psychografie für Trump und Brexit verantwortlich ist. Vor der Bundestagswahl gab es ja auch eine große Diskussion, dass das hier passieren könnte. Wir glauben, dass das mit Vorsicht zu genießen ist, aber die Möglichkeit mit derartigen Ansätzen überzeugbare Wählerinnen und Wähler zu finden und anzusprechen, ist durchaus realistisch. Und wir haben schon gesehen, dass es dadurch so eine Art Diskriminierung 2.0 gibt. Denn ein homophober Arbeitgeber muss nicht mehr direkt erfragen, ob jemand homosexuell ist, wenn er es aus einem Facebook-Profil vorhersagen kann, und es interessiert ihn vielleicht auch nicht, ob er da einen Fehler macht und einen Heterosexuellen möglicherweise falsch einordnet. Diese Beeinflussung kann aber durchaus direkter sein. In den USA werden Algorithmen jetzt schon im Justizsystem als Entscheidungshilfe eingesetzt, und da wird zum Beispiel mit bestimmten Informationen über die Leute vorhergesagt, ob jemand rückfällig wird, der im Gefängnis ist, oder nicht. Das heißt man versucht vorherzusagen auf einer Skala von 1 für ungefährlich bis 10 für hochgradig gefährlich, wo jemand hinkommt. Und hier haben wir zwei Beispiele: Einmal den Herrn links – VP die Initialen –, der zwei bewaffnete Raubüberfälle begangen und einen versuchten bewaffneten Raubüberfall, und die Risikoeinschätzung ist hier 3 niedriges Risiko. Daneben steht die Dame – BB –, die hat vier Ordnungswidrigkeiten unter Jugendstrafrecht auf dem Kerbholz, und die wird eingestuft mit hohes Risiko. Und wie sieht das jetzt aus. Also die Leute von ProPublica die das recherchiert haben, haben jetzt über zwei Jahre geguckt, wer wirklich rückfällig wird und wer nicht. BB – die Dame rechts –, die begeht keine weiteren Verbrechen. VP – der Herr links –, der begeht nach seiner Freilassung direkt einen schweren Diebstahl. Das Besondere ist hier, und ihr werdet es wahrscheinlich schon geraten haben, ist, dass der Algorithmus systematisch Afroamerikanerinnen diskriminiert. Es gibt also ein Bias, eine Verzerrung, gegen Schwarze. Darüber hinaus sind diese Vorhersagen von den proprietären Kompass- Systemen nur in 61 Prozent derzeit richtig. Wenn man jetzt die wirkliche Rückfälligkeit über zwei Jahren nimmt. Und wir kennen das aus der Statistik: Dort unterscheiden wir den Fehler erster Art und den Fehler zweiter Art. Das heißt unsere Nullhypothese ist: Der oder die Straftäterin wird nicht rückfällig. Der Fehler erster Art ist jetzt, dass die, die mit hohem Risiko eingestuft werden, aber nicht rückfällig werden. Und da sehen wir – oder hat ProPublica herausgefunden –, dass die Wahrscheinlichkeit, dass ein Weißer oder eine Weiße Opfer dieses Fehlers wird, bei 23,5 Prozent liegt und bei Afroamerikanerinnen liegt die Wahrscheinlichkeit bei 44,9, also fast doppelt so hoch. Es gibt auch den Fehler zweiter Art. Das ist die Wahrscheinlichkeit, dass jemand mit niedrigem Risiko eingestuft wird, aber trotzdem rückfällig wird. Und hier ist die Wahrscheinlichkeit umgekehrt: Weiße haben eine 47-Prozent- Chance diesem Fehler zum Opfer zu fallen. Afroamerikanerinnen nur 28 Prozent. Aber wie kommt das? Wir nehmen jetzt mal an, dass das kompetente Programmiererinnen sind, die in den Maschine Learning Kursen, die sie gemacht haben, gut aufgepasst haben und technisch alles richtig gemacht haben. Nun lernt Maschine Learning immer eine Abbildung von einem X auf ein Y. Z. B. hier haben wir bestimmte Informationen zu Gefangenen und diese Rückfälligkeit der Gefangenen. Das Problem ist jetzt das X ist keine Stichprobe der Grundgesamtheit, sondern eine Untermenge der Grundgesamtheit, die die Polizei untersucht hat. Es ist also ein X', es ist nicht repräsentativ. Und das kann eine selbsterfüllende Prophezeiung sein. Denn vielleicht sind Afroamerikanerinnen einfach in der Situation, dass sie deutlich häufiger kontrolliert werden und es einfach dadurch mehr Straffälle in dem Datensatz gibt. Und auf der auch auf der anderen Seite auf der Y Seite, das heißt diese Risikobeurteilung, ob man rückfällig wird oder nicht, ist ebenfalls eine Verfälschung. Denn die bezieht sich ja auch nur auf die, die vom Rechtssystem verurteilt werden. Das heißt hier haben wir auch ein Y'. Wenn man zum Beispiel ein Jurysystem hat, wie man es in den USA findet, dann kann auch dort latent oder weniger latent diskriminiert werden. Das macht Maschine Learning – pseudo-objektive, mathematische Modelle – zu einer Art Geldwäsche für Vorurteile. Weil sie fallen in dieses System rein und sind dann erst einmal nicht mehr sichtbar. Und hier kommen wir jetzt zum Element der direkten Beeinflussung. Denn diese Systeme werden zwar nur als Entscheidungshilfen verkauft, es sind halt nur Werkzeuge, die genutzt werden können, aber die Leute, die die Entscheidung treffen, verlassen sich direkt auf diese Systeme. Das heißt sie vertrauen diesen diskriminierenden Algorithmen. Das Beispiel kommt aus dem hervorragenden Deutschlandfunk-Feature von Thomas Schimmeck. Und der hat zum Beispiel Veronika Hiller, die Bewährungshelferin, die dem Richter im Endeffekt ein Strafmaß vorschlägt, interviewt. Das Spannende ist, die hat also ein Vierteljahrhundert Erfahrung im Dienst. Aber sie schwört auf diesen Algorithmus. Sie sagt der ist gut, akkurat und einfach. Was wir einfach zeigen wollen, ist, dass es hier um sozio- technische Systeme geht. Das heißt es geht nicht nur um das Maschine Learning. Es geht nicht nur um den Algorithmus. Sondern es geht auch um die Menschen, die ihn nutzen. Denn selbst wenn das System fair wäre – wir haben gerade gesehen dass es das nicht ist –, heißt es immer noch nicht, dass die Ergebnisse des Systems auch fair interpretiert werden, und wir finden das ist sehr wichtig für jene, die solche Systeme bauen – und da sind wahrscheinlich einige heute hier. Diese Verzerrung in und durch Daten sind allgegenwärtig. Wir haben zum Beispiel hier ein Beispiel von Google. Das ist eine Suche nach den Keywords „Three White Teenagers". Und das ist eine Suche nach den Keywords „Three Black Teenagers". Das heißt Technologie offenbart hier gesellschaftliche Probleme. Wir haben es wie gesagt mit sozi- technischen Systemen zu tun, die eine bestimmte Weltvorstellung festschreiben, vermitteln, aber auch verstärken können. Und die Probleme können ganz subtil und banal sein wie zum Beispiel dieses Beispiel aus der statistischen Übersetzung zeigt: Jetzt muss man wissen, dass die türkische Sprache nicht zwischen Geschlechtern unterscheidet, das heißt „er", „sie" und „es" sind alle „o". Es gibt auch keine Unterscheidung zwischen „Arzt" und „Ärztin" beides „Doktor". Und wenn wir jetzt mit Google Translate oder einem anderen statistischen Übersetzungsprogramm Sätze wie „Er ist ein Babysitter." und „Sie ist eine Ärztin." hin und her übersetzen, dann stellen wir fest, dass die Übersetzung bestimmte Geschlechterklischees widerspiegelt. Und ihr könnt mit dem was ihr bisher über Machine Learning gelernt habt in diesem Vortrag vielleicht schon erklären, wie das passiert. Wir lernen aus Beispielen und in diesen Beispielen sind Verzerrungen. In diesem Fall mehr weibliche Babysitter, mehr männliche Ärzte. Denn wenn wir übersetzen dann berechnen wir ja Wahrscheinlichkeiten und nehmen in der Regel einfach das wahrscheinlichste Ergebnis. Das heißt selbst minimale Verzerrungen können verstärkt werden. Das heißt eine Babysitterin mehr, ein Arzt mehr und diese Übersetzung sieht so aus, wie wir sie gerade sehen. Aber hier haben wir etwas, das technisch erklärbar ist. Aber welche Auswirkungen hat das auf die NutzerInnen. Welche Auswirkungen hat das auf die Weltsicht, wenn man die Google- Ergebnisse so sieht wie man sie sieht. Und anhand von Facebook wollen wir jetzt zeigen, wie direkt und intransparent diese Beeinflussung sein kann. Auch Facebook ist ein hochkomplexes sozio-technisches System, in dem NutzerInnen gleichzeitig Produzenten und KonsumentInnen sind. Facebooks erklärtes Ziel lautet ja, jedem zu jeder Zeit die richtigen Inhalte zu zeigen. Dafür nutzt Facebook nach eigener Aussage hundert tausend verschiedene Faktoren, um algorithmisch die besten Geschichten aus den potenziellen Geschichten auszuwählen. Das heißt, wenn ihr euch jetzt vorstellt - das sind jetzt Zahlen aus dem Kosinski- Paper mit den Persönlichkeitsmerkmalen. Das heißt da haben die Leute im Median 200 Bekannte und liken 68 Seiten. Das heißt wenn nur jeder Dritte was macht, dann sind das pro Tag 90 potenzielle Beiträge. Wenn man jetzt nur fünf oder zehn Minuten auf der Seite verweilt, dann kann man sich nicht angucken. Das heißt eine chronologische Darstellung ist zwecklos und eine Kuration unumgänglich. Und deswegen sortiert Facebook die Nachrichten nach einem Algorithmus. Das Problem ist aber, dass dieser Vorgang sehr intransparent ist. Das heißt die NutzerInnen sehen und verstehen die Algorithmen nicht Und die glauben im Zweifelsfall wenn sie darauf angesprochen werden, dass die Algorithmen objektiv und unabhängig sind. Und dabei beziehe ich mich auf folgende Studie. Die kommt aus der CHI, der Computer Human Interaction Community. Und dort waren sich 62,5% der Teilnehmer und Teilnehmerinnen in dieser Studie der Existenz von Newsfeed-Algorithmen, also von dieser algorithmischen Kuration, nicht bewusst. Das heißt wir haben hier eine qualitative Studie mit 40 TeilnehmerInnen, die so ausgewählt wurden, dass sie repräsentativ sind für die US- Grundgesamtheit. Und von denen war also 25 Personen nicht bewusst, dass überhaupt irgendwie sortiert wird. Die Studie zeigt auch, dass die TeilnehmerInnen durchaus verärgert sind, wenn sie Posts von engen Freunden oder Familienmitgliedern nicht sehen. Spannend ist aber jetzt: Die Teilnehmer suchen den Fehler eher bei sich oder anderen, als bei einem Algorithmus, von dem sie im Zweifelsfall auch nichts wissen. Sie glauben dann z.B. dass sie etwas übersehen haben oder sie denken, dass ihnen bestimmte Bekannte bewusst Geschichten vorenthalten, weil sie vielleicht nicht so gut miteinander bekannt sind, sich noch nicht so gut kennen. Daher kommt auch dieses titelgebende Zitat: "I always assumed that I wasn't really that close to [that person], so that's fine. What the hell?" Das heißt hier hat jemand gedacht "Okay, ich sehe die Babyfotos vielleicht nicht, weil ich die Person nicht so gut kenne, aber die Person hat das für alle geteilt". Und hier hat der Algorithmus jetzt die Entscheidung getroffen, dass Person A das Baby von Person B nicht sieht. Das heißt diese Systeme, die im Schatten agieren und denen sich die BenutzerInnen nicht bewusst sind, haben Auswirkungen auf zwischenmenschliche Beziehungen. Sie rekonfigurieren sie. Und darüber hinaus muss man sich auch noch einmal bewusst machen, was diese Nachrichten- Empfehlungssysteme eigentlich erreichen wollen. Sie sind ja von der Art her wie Netflix. Das heißt wenn ich auf Youtube oder einem anderen Portal mir Videos angucke und ich gucke mir zehn Videos an und davon sind vier mit lustigen Hunde- Babys, dann folgert das System "Ok, Hendrik mag lustige Hunde-Babys. Dem zeige ich jetzt in Zukunft mehr lustige Hunde- Babys". Nun sind aber auch Nachrichten auf Plattformen wie Youtube. Das heißt wenn ich mir jetzt zehn Videos angucke und von denen geht es in vielen darum, dass Flüchtlinge kriminell sind, dann empfiehlt mir das System Videos von kriminellen Flüchtlingen. Das heißt da passiert etwas mit meiner Weltwahrnehmung. Das heißt so derartige Filterblasen und Echokammern entstehen online. Die gibts natürlich auch im echten Leben. Der Freundeskreis ist auch eine Echokammer, in der bestimmte Weltvorstellungen geteilt werden, aber hier sind sie durchaus intransparenter, denn es passiert unter dem gleichen Logo. Bei mir ist ein YouTube-Logo, bei euch ist ein YouTube-Logo. Und das sind Probleme, denen wir uns stellen müssen, mit denen wir umgehen müssen. Und das war mein Teil zur Perspektive der Mensch-Computer-Interaktion, die sich also als eigenes Feld mit derartigen Fragestellungen auseinandersetzt. Und ich übergebe jetzt an Karen, die nochmal technisch ins Detail gehen wird. Applaus Karen: Ja. Zum ersten Teil dieser Präsentation zeigten wir, dass Algorithmen uns schon heute schon beeinflussen, bewusst und unbewusst, direkt und indirekt. Und wir haben gesehen mit welcher Rigorosität ihre Voraussagen umgesetzt werden, nachdem sie einmal zur Verfügung stehen. Das immer unter der Annahme der Unvoreingenommenheit. Wir haben auch bereits angedeutet, dass dieses massive Vertrauen nicht unbedingt angebracht ist. In diesem zweiten Teil der Präsentation möchten wir darauf eingehen wann dieses Vertrauen nicht angebracht ist. Dabei möchte ich besonders auf ein Wort eingehen, das wir bereits viel verwendet haben. Das Wort Bias oder zu Deutsch Verzerrung. Beim maschinellen Lernen können wir grundsätzlich in zwei verschiedene Formen von Bias unterscheiden. Auf der einen Seite haben wir Bias der Daten, also Bias der ein Spiegel ist unserer eigenen Vorurteile und Moralvorstellungen, ob uns das jetzt bewusst ist oder nicht. Bias in Daten kann aber auch entstehen ganz zufällig durch mangelhafte Erhebung von Daten. Wenn das passiert wird eine Grundgesamtheit also die Population verzerrt abgebildet. Auf der anderen Seite befindet sich der Bias durch das Modellieren. Das sind also die Gesamtheit aller Annahmen die Ingenieure und Wissenschaftler von Algorithmen machen und machen müssen, um überhaupt Voraussagen treffen zu können. Dabei kann sich wiederum der Bias des Modells so auf die Daten auswirken, dass der Bias in den Daten verringert wird. Dazu gibt es vielfältige Forschung. Es kann aber auch den Bias in den Daten verstärken. Auf der anderen Seite knn auch Bias in Daten den Modellier-Bias beeinflussen. Wir werden im Folgenden, den folgenden 4 Beispielen, uns mit all diesen Phänomenen auseinander- setzen. Maschinelles Lernen hat in den letzten Jahren viele Durchbrüche bei der algorithmischen Wahrnehmung erzielt. Algorithmen bewältigen kognitive Aufgaben, die vor kurzem in weiter Ferne schienen. Das hat aber auch eine Welle von Forschung ausgelöst, die unlösbar geglaubte Aufgaben wieder aufgreift und neu bewertet. Eine Studie dieser Welle ist im November letzten Jahres erschienen zwei Forscher der Shanghai Jiaotong-Universität behaupten zeigen zu können, dass man Menschen mit kriminellen Absichten bereits an einem einfachen Ausweis-Foto erkennen kann und dies mit 90 prozentiger Trefferwahrscheinlichkeit. Dieses Ergebnis steht natürlich im starken Kontrast zu den Forschungsergebnissen der letzten Dekaden, die Kriminalität eher sozio-ökonomischen Umständen zuschreiben. Wir wollen uns also im Folgenden mit dieser Studie ein bisschen näher beschäftigen. Die Autoren sammelten hierzu 1800 Fotos von Chinesen im Alter zwischen 18 und 55 Jahren, die keine bemerkbaren Gesichtsbehaarungen, Narben oder Tattoos zeigten. Dabei repräsentieren zirka 700 Fotos die Rubrik kriminell. Die Fotos selbst wurden von der Polizei bereitgestellt und es handelt sich bei allen Fotos um bereits verurteilte Straftäter. Auf der anderen Seite mussten nun auch Bilder rechtschaffender Bürger repräsentiert werden. Dafür wurden 1100 Fotos aus verschiedenen Quellen des Internets beschafft. Dabei ist anzunehmen, dass diese von Seiten wie LinkedIn stammen, da die Autoren den Beruf der vermeintlich rechtschaffenen kennen. Um uns nun ein besseres Bild über die Daten zu machen, wollen wir uns also ein paar Datenpunkte anschauen. Jeder dieser Reihe entsprechen drei Datenpunkte aus jeweils einer Kategorie kriminell oder rechtschaffend. Dazu würde ich ein kleines Experiment wagen. Also ich zähle dann gleich mal bis zwei und alle die glauben, die obere Reihe seien die Rechtschaffenden, die bitte ich dann die linke Hand zu heben. Ich hebe die rechte Hand, damit ihr wisst, welche Hand. Und diejenigen, die denken die untere Reihe wären die Rechtschaffenden, die bitte ich also die rechte Hand zu heben. Das können wir gleich mal probieren, also ich zähle nochmal bis 2: eins, zwei und dann heben wir halt die Hand. Okay. Also die meisten von uns sind uns relativ einig dass wir die rechtschaffenen identifizieren können. Aber warum können wir das? Eigentlich sollten Menschen dazu ja nicht in der Lage sein und wir wissen, dass wir dazu nicht in der Lage sind. Ich denke also die meisten von uns haben gewisse Hinweise in den Bildern wahrgenommen, die auf der Unterschiedlichkeit der Quellen beruhen. Also ganz offensichtlich hier der Kragen im Bild, der darauf hinweist, dass es vielleicht ein Bewerbungsfoto sein könnte oder ein leichtes Grinsen im Gesicht. Dahingegen sind die Leute, die auf der kriminellen Seite sind nicht besonders vorteilhaft dargestellt. Also dem Mann hier wird der Scheinwerfer ins Gesicht gestrahlt, was dann Hautunreinheiten und Falten besonders betont. Wohingegen bei den Bewerbungsfotos offensichtlich Make-Up im Spiel ist oder Photoshop. Im trivialsten Fall kann es also sein, dass der Algorithmus einfach nur erkennt, in welchen Fotos Photoshop nachgeholfen hat. Das kann man also zum Beispiel schon an lokalen Pixel Statistiken gut erkennen. Diese Studie ist vielleicht ein extremes Beispiel, wie gravierend sich die verwendeten Daten auf das Ergebnis einer Voraussage eines Algorithmus auswirken können. Dies ist ein besonders starkes Beispiel für Stichproben-Verzerrung, also Bias in dem Gruppen unterschiedlich dargestellt werden. Bias kann aber auch entstehen ganz zufällig, wenn zu wenige Datenpunkte vorhanden sind, um verlässliche Aussagen zu treffen. Solche Probleme sehen wir also oft in medizinischen Studien oder psychologischen Studien, wo Tests teuer und langwierig sind. Melde-Bias beschreibt, wenn Befragte unkorrekte Angaben machen. Das geschieht zum Beispiel oft bei Gewaltverbrechen, bei denen Angst und Repression eine Rolle spielen. Und natürlich spielen auch die verwendeten Merkmale, die ein gewisses Problem beschreiben sollen, eine große Rolle. Kommen wir nun zur zweiten Kategorie: dem Bias in den Modellen. Hat man sich früher also vor dem die Deeplearning-Hype, sagen wir mal vor 2012 eine Einführungsveranstaltung zum maschinellen Lernen gesetzt, dann begann fast jeder mit dem Erklären des No-free- Lunch-Theorems. Also der Aussage, dass kein Modell in allen möglichen Szenarien funktioniert. Daraus schlussfolgerten wir, dass wir Annahmen machen müssen, die das Modell im Hinblick auf unser spezifisches Problem beschränken. Diese Annahmen haben aber ihre Grenzen. Dann versagt das Modell, ohne dass sich das Modell darüber bewusst ist. Das heißt also unser Job als Wissenschaftler oder Studierender ist es, diese Grenzfälle zu benennen und zu testen, ob in unserem speziellen Anwendungsfall diese Algorithmen nicht versagen. An diesen Prinzipien hat sich auch bis heute nichts geändert, aber der Erfolg des maschinellen Lernens in bestimmten Bereichen lässt selbst uns WissenschaftlerInnen diese universalen Regeln manchmal vergessen. Wir sind dann versucht zu glauben, dass Modelle so flexibel sind, dass die Grenzen quasi nicht mehr existieren. Im Folgenden möchte ich aber auf ein Beispiel eingehen, das sich auch mit dem Deeplearning-Hype gar nicht geändert hat. Und das ist das Problem der Zielsetzung und die Frage, wie Erfolg zu bewerten ist. Am Beginn des Vortrags sprach Hendrik über das Messen von Fehlern und, dass das Korrigieren dieser Fehler ein wichtiger Mechanismus sei, um Algorithmen zu trainieren. Doch was ein Fehler ist, ist oft nicht einfach zu bestimmen und es liegt in der Hand des Ingenieurs zu definieren. Zum Beispiel wie messe ich Erfolg bei YouTube-Empfehlungen? Messe ich die Zeit die jemand auf der Plattform verbringt? Das kann aber auch bedeuten, dass der PC vielleicht noch einer Ecke steht und die Personen gar nicht mehr im Raum ist oder messe ich die Anzahl von Klicks? Aber wenn diese zu frequent sind, dann bedeutet das vielleicht, dass die Person das Video gar nicht mag. Ein anderes Problem sind Übersetzungen. Stellen Sie sich nur also vor, dass wir einen Korpus von Übersetzungen haben und wir wollen messen, ob ein Text richtig übersetzt wurde. Wie können wir das messen? Wort für Wort oder Paragraph für Paragraph? Wenn wir Wort für Wort messen, dann spielen wir vielleicht mit der Wortreihenfolge in verschiedenen Sprachen und das funktioniert dann nicht so gut. Wenn wir Paragraph für Paragraph messen, funktioniert das vielleicht nicht so gut, weil der Algorithmus den Kontext nicht mehr begreift. Und wie gehen wir mit Synonymen um? Wenn also der Algorithmus ein richtiges Synonymen gefunden hat, wird dann trotzdem ein Fehler berechnet, wenn der spezielle Datenpunkt besagt, dass das vielleicht als ein anderes Synonym zu übersetzen ist? Man muss also Entscheidungen treffen. Die Ingenieure bei Google und anderen führenden Übersetzungssystem beantworten die Frage folgendermaßen: Wir übersetzen Satz für Satz. Dabei gehen wir davon aus, dass Sätze unabhängig sind und nur das wahrscheinlichste Wort oder die wahrscheinlichste Phrase wird richtig bewertet. Wenn wir also nochmal auf das Beispiel aus der ersten Hälfte des Vortrags eingehen. Wenn wir nun "Sie ist eine Frau. Sie ist Ärztin" in das genderneutrale Türkisch übersetzen zu "O bir kadın. O bir doktor." und dann zurückübersetzen ins Deutsche, dann wird dies mit "Sie ist eine Frau. Er ist Arzt" übersetzt. Und jetzt wissen wir auch warum. Da wir annahmen, dass Sätze unabhängig sind weiß der Algorithmus gar nichts vom Kontext, also dass wir hier über eine Frau sprechen. Wenn der Algorithmus "O bir doktor" dann übersetzt, übersetzt der nur die wahrscheinlichste Phrase und die ist "Er ist Arzt". Es handelt sich hier also nicht um Bias in den Daten oder zumindest nicht unbedingt, sondern um Bias in den Annahmen die das Modell zu sehr vereinfachen. Ein zweites Beispiel führt das noch klarer vor Augen. Wenn wir hier eben den Punkt durch ein Komma ersetzen, dann kann der Algorithmus es richtig übersetzen, weil er sich des Kontexts bewusst ist. Im nächsten Beispiel um das Phänomen Bias wollen wir zeigen wie Bias in Modellen Bias in Daten verstärken kann. Dies wird besonders in sogenannten aktiven Lernszenarien bewusst. Aktives Lernen funktioniert wie folgt. Wir haben Daten, auf deren Grundlage wir einen Algorithmus lernen. Für manche Voraussagen sind wir uns aber nicht sicher. Darum fragen wir einen menschlichen Experten um Rat und der Algorithmus fragt dann meistens die folgende Frage: Habe ich diesen Datenpunkt richtig bewertet? Und falls nicht, bitte um Feedback! Das führt dazu, dass der Algorithmus in der Zukunft mehr Daten zur Verfügung gestellt bekommt, um dann besser zu lernen und weniger oft um Hilfe fragen zu müssen. Das klingt gut. Und so viel zum störungsfreien Ablauf. Was aber nun wenn ein Datenpunkt mit falschen oder verzerrten Merkmalen beschrieben wird? Und dazu kommt, dass unser Mensch vielleicht nicht so wachsam ist, wie wir in unserem Modell annehmen. Wir haben also eine kleine Verzerrung im Datensatz, und die Annahme des idealen Menschen wird verletzt in unserem eigentlichen Phänomen. Dieser falsche Datenpunkt wird also ignoriert. Das führt dann dazu, dass, obwohl die Ursache der Verzerrung nicht mehr aktiv ist, dieser Datenpunkt nun vermehrt wird aufgrund der Tatsache, dass der Mensch nicht auf die Frage, habe ich diesen Datenpunkt richtig bewertet, reagiert. Und das führt dann wiederum dazu, wenn man mehr verzerrte Daten hat, dass diese mehr verzerrten Daten sich immer weiter vermehren können. Wann kann ich das also jetzt in freier Wildbahn beobachten? Es ist relativ schwer zu sagen, weil sich natürlich solche großen Player wie Google oder Facebook nicht immer in die Karten blicken lassen. Aber ich denke ein Tweet aus dem vergangenen Jahr lässt darauf schließen, dass das vielleicht hier passiert sein könnte. Also eine Afroamerikanerin mit Kussmund, in der Mitte unten, wird hier als Gorilla bezeichnet. Das ist eine geschichtsträchtige Bezeichnung für Afroamerikaner in Amerika und hat natürlich große Wellen geschlagen. Google erklärt die Ursache des Fehlers nicht genau genug, um genau zu wissen, was ihn ausgelöst hat, aber zwei Probleme können eine Rolle gespielt haben. Eins wäre, dass die Bildbeschreibung immer von Menschen bereitgestellt wird, und die erlauben sich gerne mal zu trollen und verfälschen das originale Datenset damit. Das kann aber nicht die einzige Ursache sein. Es kommt also mindestens noch dazu, dass gewisse Gruppen von Menschen entweder einfach sehr klein sind in einer Gesellschaft oder unterrepräsentiert sind. Und vielleicht auch drittens, man muss schon sagen dass bei großen Tech-Firmen sehr wenig Grenzszenarien oder Szenarien getestet werden. Wir denken da zum Beispiel an den Microsoft Chatbot, der ganz ähnliche Phänomene gezeigt hat. Also der dann auch sehr rassistische Chat-Nachrichten geschrieben hat. Das letzte relevante Beispiel zum Thema Bias soll aus dem Bereich des übertragenden Lernens kommen. Hierbei ist das Ziel das Lösen einer Aufgabe. Und diese Aufgabe hat aber nur wenige Datenpunkte. Und das sind nicht genug, um den Algorithmus erfolgreich lernen zu lassen. Aber es gibt eine ähnliche Aufgabe, die erfolgreich gelöst werden kann. Und die Idee ist nun, dass gut funktionierende Modell zu verwenden um unseren eigentlichen Problemen zu helfen. Diese Technik führt aber wieder zu Verzerrungen, die nur schwer bestimmt und kontrolliert werden können. Das wird klar, wenn wir ein konkretes Beispiel betrachten. Wir können eine ganze Halle voll Roboterarme stellen, um ihnen bestimmte motorische Aufgaben beizubringen. Aber selbst 1000 Roboterarme lernen nur mühsam. Was also gang und gäbe ist in der modernen Robotik, sind dass man Systeme in Simulationen üben lässt. Systeme werden also für Tausende Jahre in Simulationen geübt. Das ist natürlich aber nie Realität. Also wir denken da an Gravitationssimulationen, die Fehler enthalten kann. Lichtbedingungen, die nicht ganz real sind, oder der idealisierte Roboterarm, der hier verwendet wird. In diesem Zusammenhang möchte ich auch sagen, wie attraktiv auch die Zukunft mit selbstfahrenden Autos erscheinen mag, mit ihren Versprechen nach mehr Platz in den Städten, weniger Unfällen und effektiverer Verkehrsführung, so sollte man auch sehr skeptisch sein, denn auch diese Systeme haben die meiste Lebenserfahrung in Simulationen gesammelt. Eine ganz andere Betrachtungsweise auf Daten ist die der Datendichte. Daten können dicht beieinander liegen oder weit voneinander entfernt. In Bereichen mit vielen Daten ist es oft einfach korrekte Aussagen zu treffen. Neue Datenpunkte in diesen Bereichen zu beschreiben nennt man Interpolation. Wohingegen Bereiche mit wenigen Daten oder keinen Datenpunkten sehr schwer zu beschreiben sind. Diese Aufgabe beschreibt man mit Extrapolation. Korrektes extrapolieren ist im Allgemeinen nicht möglich oder nur möglich, wenn man korrekte Annahmen über den Entstehungsprozess der Daten macht. Interpolieren, also das Wandern von einem oder mehreren Datenpunkte zum anderen, kann so wichtige Fragen des Alltags beantworten wie: Wie würde das Kind von Kim Jong-un und Donald J. Trump aussehen? Neueste Anwendungen dieser Technik beinhalten auch das gezielte Verändern von Video in Bild und Sprache. Beispielsweise wurde hier das Gesicht von der Hauptdarstellerin des Wonder Woman Films, Gal Gadot, auf einen pornografischen Film gelegt. Und man muss nicht weit denken um sich die Konsequenzen solcher Techniken, für Fake News zum Beispiel, vorzustellen. Im extremsten Fall gibt es sehr wenige oder keine Daten wo eine Aussage getroffen werden soll. Nun ist es wichtig, die richtigen Annahmen zu treffen um extrapolieren zu können. Das haben wir bereits gesagt. Das ist aber eine extrem schwere Aufgabe, zu der auch moderne Wissenschaft nur wenige und unvollständige Antworten weiß. Was also anstatt in aller Regel passiert, ist, dass Algorithmen keine Annahmen machen. Und das kann zu unvorhergesehenen Phänomenen führen. Im schlimmsten Fall kann man dieses Wissen auch nutzen zu sogenannten feindlichen Attacken auf Algorithmen. Eine Attacke verläuft beispielsweise so: Man nehme einen Datenpunkt aus dem Datenset und dessen beschreibende Merkmale, also hier z.B. die Bilder von Verkehrsschildern und die Verkehrsschilder. [38:48] Man suche dann fernab von den Daten einen Punkt der sehr ähnlich ist, den aber der Algorithmus mit all mit einem ganz anderen Merkmal beschreiben würde. Und das gruselige ist, dass dies auch funktioniert mit ausgedruckten Version derselben Attacke. Und wenn man nicht dieselben Daten und nicht einmal denselben dasselbe Modell kennt oder verwendet. Wen das interessiert dem empfehle ich sehr für die nächste Präsentation zu bleiben. Das wird glaube ich ja der Kernpunkt der nächsten Präsentation sein. Abschließend zum Thema Möchte ich nochmal ganz deutlich machen, dass in allen Systemen des modernen maschinellen Lernens Korrelation evaluiert wird und nicht Kausalität. Mathematische Kausalitätsforschung, also dem Suchen nach Ursache und Effekt für komplexe Systeme ist erstens ein Kinderschuh und Korrelation zu finden und zu beschreiben ist nur einer der Schritte der dazu nötig ist. Bevor ich die Frage dann- die Runde für Fragen öffne haben Hendrik und ich noch ein Anliegen. Also ich hoffe wir haben umfassend die technischen Möglichkeiten des maschinellen Lernens dargestellt und welche Begrenzungen es aufweist. Letzteres soll und wird uns als Gesellschaft aber nicht davon abhalten diese großartigen Fortschritte zu geniessen. Also denken wir an Mediziner und Molekulare Biologie in denen diese Techniken großes Versprechen und auch schon geliefert haben. Daraus ergeben sich trotzdem große politische Fragen die uns alle etwas angehen. Entscheidungen die Wissenschaftler nicht alleine treffen können, wollen oder sollten. Also wir müssen uns Sachen fragen wie: Wer soll im konkreten Fall Entscheidungen treffen, Menschen oder Maschinen. Wer ist Schuld wenn Fehler passieren: Ingenieure, Firmen, Staat oder vielleicht gar niemand. Wie können staatliche Garantien wie Gleichheit juristisch umgesetzt werden im Angesicht solcher neuen Algorithmen. Und natürlich auch wie können Algorithmen oder sollten Algorithmen reguliert werden. An der Stelle möchte ich mich bedanken für Aufmerksamkeit und würde die Runde eröffnen für Fragen. Herald-Angel: Vielen Dank Karen, vielen Dank Hendrik. Wenn ihr Fragen habt, bitte an den Mikros aufstellen. Und dann entsprechend warten. Mikrophon 1 bitteschön. Mikrofon 1: Ja, vielen Dank für den großartigen Vortrag, war super spannend und es ist ein sehr sehr wichtiges Thema, wie gehen wir damit um, weil es wirklich Auswirkungen hat auf die politische Organisation, auf die Demokratie, all diese Sachen. Jetzt vom Beispiel das Hendrik gebracht hat, im ersten Teil ging's ja jetzt auch zum Beispiel über die Anwendung von KI für ja sagen wir politische Propaganda, könnte man auch sehen, Cambridge Analytica, die ganzen Sachen und gleichzeitig als zweites Thema die Filterbubbles die sich bilden, also wo natürlich eine Verstärkung dieses Phaenomens möglich ist. Meine Frage, die ich mich in diesem Jahr gestellt habe, mit Brexit, mit Trumpwahlen und so weiter, was sind die Möglichkeiten die sich bieten um dem entgegenzuwirken, dass sich Meinungen so stark durch Filterbubbles polarisieren, dass Leute durch Targeted Advertisement beeinflusst werden, die mit AI generiert werden und Big Data. Wie ja- habt ihr konkrete Vorschläge? Hendrik: Vielen Dank für die Frage. Es geht also darum was man jetzt gegen diese Probleme insbesondere im politischen Bereich machen kann. Und es ist natürlich eine riesige Frage, wird uns warscheinlich auch noch lange Begleiten, ich glaube kognitive Diversität im Bekannten- und Freundeskreis, ganz wichtig, vor allem aber auch in Unternehmen. Und unsere Ansätze, so kommen sie ja zusammen, mir gehts ja darum wie können wir Leute untersützten, wie machen wir Visualisierungen, wie machen wir Algorithmen sichtbar, wie helfen wir den Leuten zu verstehen was da passiert. Meine Perspektive, Karens Perspektive dann: Wie können wir die ALgorithmen, die Blackbox aufmachen, wie können wir erklären, wie kann ein System auch sagen wie sicher es ist mit seiner Vorhersage. Also es gibt ja auch viel Arbeit, es gibt die Fairness, Transparency... Fairness, Accountability, and Transparency in Machine Learning fatml.org. Da gibt es eine ganz große Gruppe von Leuten die sich damit auseinandersetzt, auch aus ganz verschiedenen Richtungen, weil es gibt viel Arbeit dazu in der Psychologie, in der Soziologie, aber auch halt in der Informatik. Genau fatml.org ist eine sehr gute Addresse für sowas. Herald-Angel: Eine Bitte an die, die gerade rausgehen: Macht das bitte so leise wie es geht und versucht durch die Tür zu meiner Linken, zu eurer Rechten dort hinten, den Saal zu verlassen, danke schön. Jawohl, Mikrofon 5, du hast eine Frage? Mikrophon 5: Ja, eher ein kurzer Kommentar aus dem Bereich des Machine Learnings, ist das, was wir da gesehen haben bei der bei dem Gorillabeispiel, ebenso bei dem Übersetzungsbeispiel nicht eher ein Bias in der Kostenfunktion? Dadurch, dass wir dem Algorithmus gesagt haben, es ist genauso teuer, wenn du die Klasse Gorilla mit der Klasse mit einer anderen Klasse verwechselst, versus, dass wir die Oberklasse Mensch mit der Oberklasse Tier verwechselst, oder in dem Genderbeispiel dass "Er" und "Sie" als Verwechselung eines einzelnen Worts genauso teuer sind wie beliebige andere Worverwechselungen. Hendrik: Sehr guter Punkt. Also man kann natürlich in der Kostenfunktion dagegen vorwirken, man kann sagen dieser Fehler ist schlimmer für uns als der andere Fehler, aber wenn wir davon ausgehen, dass alle Klassen gleich sind und wir einfach für alle Klassen gleich gute Ergebnisse haben wollen, und das kommt ja aus Google Fotos, wo wir das für alle Kategorien machen wollen, dann ist es halt da kommt der Mensch wieder rein. Das ist dann nichtmehr allgemeines Machine Learning, sondern wieder so Frickellösung. Und dieses Problem des Bias, und darum gings ja, ist einfach dem Machine Learning inherent, und wir müssen damit umgehen. Und ich glaube nicht, dass man das einfach in die Kostenfunktion schreiben kann. Oder willst du noch was dazu sagen? Karen: Ja der Punkt von dem Beispiel war ja auch quasi wie einerseits da muss ein falscher Datenpunkt exestiert haben, und wie das quasi durch die ein Bias vielleicht, oder eine Annahme in der Kostenfunktion dann eigentlich noch viel verstärkt wird. Es geht ja darum wie quasi eine Negativ-Spirale manchmal losgetreten werden kann. Dadurch, dass wir einerseits Bias in den Daten haben, aber auch andere gewisse Annahmen machen, die vielleicht die Realität zu sehr vereinfachen. Das war ja der Punkt dieses Beispiels. Hendrik: Und vielleicht dazu noch: Das sind natürlich sehr offensichtliche Beispiele, auch um das hier deutlich zu machen. Es gibt natürlich auch immer diese Blindstellen, Blindspots, wo halt was passiert, von dem wir das garnicht wissen. Das ist ja auf eine Art auch ein Blindspot, der vielleicht auch damit zusammenhängt, dass Google nicht divers genug ist und nicht genug Leute derartige Daten damit getestet haben, bevor sie es public gemacht haben. Herald-Angel: Mikrophon 1, deine Frage. Mikrophon 1: Ja vielen Dank, euer Vortrag war ja so ein bischen als Einführung gedacht, das Thema auf die Agenda zu bringen, was ich ganz großartig finde, aber deswegen hätte ich jetzt eher so eine Kommunikationsstrategische Frage. Ihr habt ja ganz viel über Bias gesprochen, über Verzerrung, wenn man das so sagt denkt man implizit ganz oft an neutral und Unverzerrt, und ich fands toll, du hattest ja das No-Free-Lunch-Theorem da, also sagen: Machine Learning ohne Bias gibt's garnicht, du hast auch gerade gesagt, das ist Machine-Learning inherent. Aber das ist ja ganz wichtig zu sagen, deswegen wollte ich einfach mal fragen wenn es um politische Debatten geht, um öffentliche Debatten geht, ob ihr dann denkt, dass Bias und Verzerrung sozusagen der richtige Header ist, um das alles zu thematisieren. Weil es eben dieses Neutrale, Unverzerrte immer mit impliziert, oder ihr denkt, dass man das dann nochmal anders framen müsste. Hendrik: Wir sind aufjedenfall keine Kommunikationsstrategen. Es gibt natürlich viele hervorragende Mediensoziologen, Kommunikationswissenschaftler, die das warscheinlich viel besser machen können. Wir wollten jetzt erstmal in diesem Rahmen zeigen, welche Probleme wir als Techniker, als Informatiker - wir promovieren ja beide zu diesen Themen - sehen. Also... Also das ist wird uns ja aber auch noch sehr lange beschäftigen, das richtig an die Leute zu bringen. Herald-Angel: Okay, Dankeschön. Wir haben eine Frage aus dem IRC. Signal-Angel: Ja, danke, eine Frage aus dem Internet: Hat menschliches Lernen nicht genau genommen die selben Probleme wie maschienelles Lernen? Oder gibt es da im Prinzipiellen Unterschiede? Hendrik: Ich guck mal zu dir. Karen: Also, das ist eine Frage, die natürlich nicht nur das maschienelle Lernen betrifft, sondern auch die Psychologie, oder die Evolutionsforschung, zu der ich mich nicht auskenne. Der Algorithmus oder die Idee, die Grundidee des maschienellen Lernens ist ja quasi Fehler festzustellen, und die dann zu kommunizieren und das Modell wird dann daraufhin besser. Ob das jetzt bei uns Menschen so funktioniert, ich bin mir nicht sicher ob das jemals jemand genauso gesagt hat. Aber ich glaube im Sinne von, dass unser Gehirn optimiert, das wird, oder das habe ich bestreiten gehört von Psychologen. Also die Frage ist nicht so sehr wie, oder das Problem, dass ich mit der Frage habe ist nicht so sehr wie jetzt das maschienelle Lernen funktioniert, sondern wie wir selbst funktionieren. Ich glaube wir sind gerade auf dem Weg das herauszufinden und die Modelle des Machine Learnings, maschienellen Lernens sind oft nur grobe Vereinfachungen dafür wie wir selbst funktioneren. Hendrik: Genau, ich würde auch sagen, es ist bio-inspiriert, aber es gab auch eine Zeit wo alles Maschienen waren, der Körper als Maschine. Das ist halt die Metapher ihrer Zeit. Jetzt haben wir diese künstlichen neuronalen Netzwerke und jetzt sind das die Metaphern, die wir nutzen, also ich glaube da ist ein fundamentaler Unterschied zwischen menschlichem und künstlichem Lernen. Karen: Ja es gibt auch so einen zentralen Leitsatz im maschinellen Lernen, der besagt, dass alle Modelle falsch sind, und einige vielleicht nützlich sind. Und ich denke das trifft auch auf uns Menschen zu, alle Modelle die wir verwenden, alle Annahmen die wir machen, alle Stereotypen die wir benutzen, die sind vielleicht manchmal nützlich, aber in der Gesamtheit immer falsch. Ich denke das trifft für Menschen und Maschinen zu. Applaus Herald-Angel: Dankeschön. Mikrophon 4, deine Frage. Mikrophon 4: Vielleicht eine etwas naive Frage, aber bestehen oder gibt es Metriken um diesen Bias, der uns täglich im Netz begegnet, zu bewerten? Also dass man das schon visualisieren kann oder vermitteln kann, dass man sich in einem hohen Bias also einer hohen Verzerrung bewegt oder auf Glatteis läuft in dem Sinne. Ein hoch komplexes Thema wirklich, runtergebrochen auf eine, ich sag mal, Bewusstbarmachung von hoher statistischer Verzerrung, die einen umgibt. Hendrik: Also es gibt durchaus Forschung in die Richtung es gibt z.B. die Civic Media Group am MIT Media Lab die sich mit soetwas aueinandersetzt. Das sind aber so einzelne Beispiele wo sie z.B. Leuten einfach mal zeigen, was für einen Gender- Bias sie bei den Leuten, die sie auf Twitter folgen, haben, also die folgen nur Männern z.B.. Solche Bewusstbarmachungen sind wichtig und sind glaube ich auch ein Teil des Puzzels, aber ich glaube die Medienpädagogik muss halt ernstgenommen werden, den Leuten muss das bewusst sein wenn wir diese Dinger benutzen wollen, wenn wir in solchen Autos rumfahren wollen, dann müssen wir das verstehen. Es gibt halt immer diese Blindspots und man kann einfach da nicht darauf eingehen, man kann nicht jeden Spot da bedenken vorher. Karen: Um die vielleicht Frage zu kontextualisieren von den Algorithmus- Wissenschaftlichen-Blickpunkt. Wir machen jetzt nicht unbedingt den Unterschied zwischen vielleicht dem was eine negative oder positive Verzerrung ist, also wahrgenommen wird, sondern für uns gibt es halt nur Merkmale die auf gewisse andere Merkmale schließen lassen und das führt dann wieder zu der Frage der Korrelation und wenn wir sagen wir haben oft ja Merkmale die Proxys sind für andere Merkmale, also wo ich wohne ist oft proxy dafür wie ich aussehe oder woher ich komme. Was ich also im Machine Learning machen kann, oder wie sich die Wissenschaft damit auseinandersetzt ist zu sagen, ok, wenn ich weiß welche Merkmale sensitiv sind, also welche ich nicht möchte dass die mein System korreliert mit der eigentlichen Aussage die das System treffen soll, dann kann quasi ich in meine Fehlerfunktion einen extra Term reinspeisen, der sagt du dekorrelierst jetzt das Ergebnis was du hast mit dem besonderen Merkmal was du als sensitiv also z.B. der Wohnort oder dein Bildungsstatus oder dein Einkommen, dass die keine Rolle spielen dafür, wie der Algorithmus Vorraussagen macht. Mikrophon 4: Was ich jetzt meinte war jetzt wirklich nicht die Unterscheidung zwischen gut und schlecht, sondern wirklich eine Visualisierung, dieser Datensatz oder dieses Ergebnis basiert auf wenigen Datensichten -- klar im Kontext kompliziert zu bewerkstelligen, aber dass man eine Möglichkeit findet sowas darzustellen dass diese Daten auf einer hohen Datendichte basieren und so weiter. Hendrik: Unsere Antwort is quasi, es gibt solche Sachen, es gibt sowas zu messen aber es ist immer eine Reduktion von Komplexität und da verliert man immer was und da muss man sich immer bewusst machen, wie viel reduzieren dürfen wir, wie einfach dürfen wir es machen. Karen: Zur Frage der Datensichte kann man vielleicht noch sagen, da ist wieder ein andere Kernansatz, der Bayesianische Kernansatz, der sich jetzt nicht die Frage stellt, wie ist meine Hypothese aufgrund der vorhandenen Daten zu bewerten sondern wie sind meine Daten aufgrund der verwedeten Hypothese zu bewerten. Das ist also nochmal eine ganz andere Ansicht auf die Sache und der wiederum erlaubt uns dann gewisse Unsicherheiten auszudrücken über Vorrausagen, die ich treffe. Also wenn jetzt zum Beispiel ein Datenpunkt über den ich eine Aussage treffen will weitab liegt von Daten die ich habe, dann wird dieser Ansatz oder wenn ich diesen Ansatz verwende wird mir dann sagen; über die Voraussage die ich jetzt treffe bin ich sehr unsicher und das ist eine Forschungsrichtung mit der sich viele Leute beschäftigen, die jetzt aber für diese großen, komplexen Systeme, ich würde sagen, noch sehr am Anfang steht. Herald-Angel: Mikrofon 1 bitte. Mikrofon 1: Danke für den super- interessanten Vortrag und danke auch an die Gebärden-Dolmetscherin, die hier ohne Unterlass die ganze Zeit übersetzt. Applaus Ich habe folgende Frage: Wie nützlich würdet ihr es einschätzen, das mit einer Qualitätskontrolle also einem Qualitätsmeilenstein für das Endergebnis zu kombinieren. Also als Beispiel; ein Auto ist dann hinreichend gut, wenn es im Verkehr weniger Leute umbringt als ein durschnittlicher menschlicher Fahrer oder sowas. Würde das einen zusätzlichen Nutzen ergeben? Kann man daraus noch mehr Rückschlüsse ziehen, oder sind das völlig getrennte Sachen? Karen: Also das ist eigentlich genau das worauf wir hinaus wollten, dass das eine politische Frage ist, die wir nicht beantworten wollen. Hendrik: Oder eine juristische. Karen: Oder eine juristische, das müsst ihr sagen, was ihr richtig findet, das ist doch nicht unsere Aufgabe zu sagen ... Hendrik: Nein also die Gesellschaft muss es aushandeln, wir können Probleme aufzeigen, aber die Antwort muss die Gesellschaft als ganzes finden. Mikrophon 1: Das ist klar, die Frage ist nur, wenn man so einen Punkt definiert hat und sich dann die Ergebnisse anschauen würde, die kurz vor und kurz nach diesem Punkt aufgetreten sind, ob das Rückschlüsse zulassen würde auf irgendeinen Bias oder irgendwelche anderen Sachen, oder ob dieser Punkt völlig unerheblich für euch wäre. Hendrik: Kannst du nochmal den Punkt benennen? Mikrophon 1: Also man definiert irgendeinen Punkt x, der ein bestimmtes Qualitätskriterium hat. Also der Wagen bringt eben nicht mehr Menschen um als ein durchschnittlicher Fahrer sondern weniger. Sind die Ergebnisse die um diesen Punkt liegen, die man dann messen kann. Sind die in irgendeiner Art relevant für den Ausgang, kann man da irgendwelche Rückschlüsse daraus ziehen, oder ist das nur irgendein Punkt, wie jeder andere auch? Hendrik: Also ich finde das problematisch, diesen Punkt zu finden, weil man ja auch den ganzen Kontext sehen muss bei den Autounfällen und warum sie passieren, also welche Gründe sie haben und das ganze datafizieren, das in einen Punkt zu pressen, und den dann als Evaluationsmetrik für was anderes hochkomplexes zu nehmen halte ich für sehr problematisch, ich glaube da ist wirklich, das meint Karen, die politsche Antwort wichtiger. Karen: Beim konkreten Beispiel von selbstfahrenden Autos muss man natürlich auch sagen, dass es das echte selbstfahrende Auto nie üben kann einen Crash zu haben, also dieses Crash-Szenario kann natürlich nie geübt werden, also wir wollen da ja natürlich niemanden sterben lassen oder nicht so viele Autos crashen, das ist ein bisschen teuer. Das heißt Crash-Szenarios werden eigentlich auch immer nur in der Simulation geübt und das ist genau das Problem, dass wir heute -- zumindest soweit ich das weiß -- sehr wenige Szenarien haben in denen wir sagen können; wenn wir jetzt in der Simulation geübt haben, was für Annahmen übernehmen wir denn dann in die echte Welt. Die einfach nur benennen zu können würde uns ja schon helfen eventuelle Fehlerszenarien vorrauszusagen, aber selbst das Benennen dieser Annahmen das fällt uns ja selbst schon schwer, also das ist noch ein weiter Weg. Herald-Angel: Mikro 1 Mikrofon 1: Auch vielen Dank für den Vortrag. Die ganze Diskussion über die Biase, die ihr ja getrieben habt, besagt ja letztlich, dass es darum geht die Wahrheit zu finden, Wahrheit und letztlich eine Stichprobe der Wahrheit dem Computer zum Lernen zu geben und das bringt mich dann zu der Parallele in der Wissenschaft haben wir das ja auch, also wie sieht meine Stichprobe aus, die ideale Stichprobe, oder ist da ein Bias drin. Habt ihr diese Parallele schonmal gedanklich gezogen oder ist das ... ja. Hendrik: Also wir sind ja Wissenschaftler und wir müssen natürlich auch erstmal für uns wissen, ob was wir herasugefunden haben, gerade wenn wir mit Menschen arbeiten, wir hatten ja gestern auch den Vortrag "Science is broken", der da irgendwie, also es ist immer schwierig die richtige Samplesize zu haben um die Effectsize zu berücksichtigen, um zu wissen, dass man was weiß, das sind ja epistemische Fragen. Mikrophon 1: Aber gibt's da irgendwie schon für neuronale Netze irgendwelche Richtwerte, dass man dann irgendwie weiß. Weil in der Psychologie lernt man, dass die Sampelsize muss mindestens 5.000 Bla betragen, keine Ahnung, oder so und so Prozente. Gibt's Richtwerte, gibt's sowas schon für neuronale Netze? In Abhängigkeit der Layer oder der Parameter oder..? Hendrik: Nicht dass ich wüsste, weisst du was? Karen: Die Frage geht jetzt vielleicht ein bisschen tief. Für frühe Systeme, also sehr einfache neuronale Netze, die aus den Anfang der 90ern, so wie Boltzmann-machines oder Hofman-Networks. Für solche Sachen kann man sagen, wenn die Saturieren und mit wievielen Bits an Daten man da reingeht bis die Saturieren. Für aber diese hoch- nicht-linearen Systeme, die wir jetzt verwenden, kann man das nicht sagen, oder nur asymptothisch sagen. Es gibt viel Forschung zu dem Thema, aber nichts, was jetzt besonders handfest wäre; sagen wir mal so. Oder man jetzt im echten Leben verwenden könnte. Mikrophon 1: Ja gut, dann irgendwie so eine Ausage zu haben, so und so viele Testdatensampels brauchst du für dein neuronales Netz, wenn das so und so strukturiert ist. Irgendwie, das könnte vielleicht eine Form von Verifikation oder Validierung, Pre-Validierung bringen, irgendwie. Hendrik: Ja, das macht man ja. Man hat ja einen großen Datensatz, einen Trainingsdatensatz, einen Testdatensatz und einen Validierungsdatensatz, mit dem man dann nochmal guckt, was haben wir wirlich gelernt und haben wir nicht einfach nur die Eigenheiten des Datensatzes auswendig gelernt. Haben wir wirklich generalisiert. Also auf dem Niveau passiert das schon. Auf dem höheren Niveau wäre das bestimmt noch eine hervorragende Doktorarbeit. Herald-Angel: Mikro 5, deine Frage? Mikrofon 5: Vielen Dank für den Vortrag. Meine Frage ist: Diese Biases, die sind ja jetzt nicht neu, die kennt man ja seit Dekaden in der Statistik. Was hat sich denn mit der künstlichen Intelligenz, bzw. mit Deep Learning geändert? Und daran anschließend: Kennt ihr irgendwelche Studien, dass solche Filterblasen wirklich irgendwelche tatsächlichen messbaren Auswirkungen haben? Weil man hört unglaublich viel in den Medien, aber mir ist keine belastbare Studie bekannt, die sagt, dass das da tatsächlich was verschlimmert wird, was nicht vorher schon da war. Hendrik: Ich hab die erste Frage schon wieder vergessen. Kannst du einmal noch die erste sagen? Mikrophon 5: Die erste Frage war, was sich geändert hat, weil diese Biases, die sind ja jetzt nicht neu. Hendrik: Genau, nein, die sind natürlich nicht neu. Und die ganzen Vorurteil sind auch nicht neu. Ich glaube, es wird halt einfach sehr, sehr viel Machine Learning gerade benutzt. Auch aus sehr guten Gründen. Also, z.B. es gibt hervoragende Python Bibliotheken, es gibt hervoragende R Bibliotheken, die das super einfach machen. Die Unis lehren das fast überall. Data Science ist der große Hypeterm, und das wird einfach nur nochmal drängender, weil Leute diese Sachen jetzt auf einmal in ihre Systeme reinschmeißen, die benutzen, um vielleicht Geld zu verdienen, sich aber dann dieser Probleme gar nicht bewusst sind. Und zur 2. Frage: Ich bin mir ziemlich sicher, dass es viel zu Echokammern gibt. Ich weiß nicht, was du gefragt hast, ob man das wirklich auch wissenschaftlich so testen kann? Also, wie da quasi der Versuchsaufbau aussähe? Aber es gibt, auch gerade in der Soziologie, viel zu Echokammern. Aber mir fällt gerade kein Autor ein dazu. Herald-Angel: Vielen Dank für den Vortrag. Ich sehe, dass da noch Fragen sind, aber leider ist die Zeit rum. Seid ihr noch da? Können die Leute euch noch ansprechen? Hendrik: OK. Herald-Angel: Super. Vielen, vielen Dank! Applaus Untertitel erstellt von c3subtitles.de im Jahr 2018. Mach mit und hilf uns!