Herzlich willkommen zu meinem Talk. Vielen Dank für die nette Einführung und die nette Begrüßung von euch allen! Ihr seht der Talk hat den anspielungsreichen Namen "Überwachen und Sprache" spielt natürlich auf Foucault an "Überwachen und Strafen" Allerdings, lange bevor Foucault die Genese der Disziplinargesellschaft dargestellt hat findet man in einem Kinderbuch eine sehr schöne moralische Erzählung die heißt "Das Kind im Glashaus" von Heinrich Oswalt entstanden 1877 und sehr weitsichtig In Frankfurt lebt ein Glasermeister, Herr Lebrecht Scheibenmann, so heißt er; Der hat ein kleines Töchterlein, Das wollte nie gewaschen sein. Und kam mit Schwamm und Seif sein Gretchen, Da lief davon das böse Mädchen; Es warf sogar den Waschtisch um - Das Wasser floß im Haus herum. Da fing Herr Lebrecht Scheibenmann Ein seltsam Haus zu bauen an, Aus lauter Glas ein Haus, das, ach! Durchsichtig war bis unters Dach. Und in dies Glashaus setzte man Das böse Töchterlein sodann. Da blieben, um es anzusehn, Die Leute auf der Straße stehn. […] Da schämte sich das Kind und lief Im ganzen Haus herum und rief: “Wo soll ich mich denn nur verstecken? Man sieht mich ja in allen Ecken! Das Dach, der Keller, jedes Zimmer Ist ja von Glas! man sieht mich immer!” Die Mutter sprach: “Mein liebes Kind! Ein Mittel gibt’s, das hilft geschwind: Wenn dich die Leute artig sehn Dann werden sie vorübergehn; […] Das merkte sich das Töchterlein; Es nahm sich vor, geschickt zu sein. Und weil’s beim Waschen nicht mehr schrie, Da lachten auch die Leute nie; Denn jeder, der ins Haus jetzt blickt, Der sieht ein Kind, das ganz geschickt. Und habt Ihr selbst ein Kind, Ihr Leut’, Das bei dem Waschen immer schreit, Sagts nur Herrn Lebrecht Scheibenmann, Der schafft Euch gleich ein Glashaus an. Ja, da … erste Applausansätze lacht Applaus Ja, interessante Geschichte, die natürlich sehr gut auf unsere Zeit passt denn Lebrecht Scheibenmann heißt Keith Alexander und arbeitet für die NSA Die NSA hat aus unser aller Zuhause Glashäuser gemacht wir können alle gesehen werden in diesen Glashäusern und man weiß nicht, bzw. ich bin mir ziemlich sicher, dass man damit pädagogische Ziele verfolgt dass bestimmte Handlungen nicht mehr als akzeptabel gelten und dass wir diese Beobachtung verinnerlichen Bei dieser Beobachtung spielt Sprache natürlich eine ganz wichtige Rolle Viele unserer Äußerungen finden im Medium der Sprache statt Das hat auch viele Hacker auf die Idee gebracht, dass wir die NSA austricksen mit einer Seite wie "Hallo NSA" Eine Website, die wie ein „Bullshitter“ verdächtige Wörter zu Botschaften zusammensetzt und diese dann getweetet, gemailt oder verchattet werden sollen um soetwas zu erreichen wie hier "Operation Troll the NSA“ dass man die NSA-Scanners jammen kann, dass man eine DDOS Attacke machen kann. indem man einfach zu viel Content schickt, der quasi verdächtig ist auf der Basis von Keywords In meinem Vortrag soll es darum gehen, dass dieses Bild von der NSA falsch ist. Wir können nicht davon ausgehen, dass in der NSA die Leute tatsächlich bei Anzeige eines Keywords sofort etwas ausdrucken und zu einer Gelächter Analyse schreiten und sich das genauer anschauen und qualitativ quasi auswerten und das natürlich eine sehr intensive Tätigkeit und deswegen ist ein Keyword-Spam-DDoS natürlich erfolglos wäre Ihr alle werdet vermutlich die thanksgiving taklkingpoints der NSA gelesen haben. Ich weiß nicht, ob ihr darüber gestolpert seid, dass unter Punkt 4 etwas ganz wichtiges steht “NSA brings together the best linguists, analysts, mathematicians, engineers and computer scientists in the United States.“ und die Linguisten werden als erstes genannt. verhaltenes Lachen Also da sieht man, der NSA ist durchaus bewusst, dass Sprache ein wichtiges Medium ist und das auch für sie sehr wichtig ist. Insofern macht es durchaus Sinn, sich damit zu beschäftigen Zufälligerweise wurde vom Innenminister die neuste Analysesoftware geleakt, der "Advanced Security Toolkit" Entwickelt vom von-Leitner-institut für verteiltes Echtzeit-Java. Gelächter Wir gucken uns zunächst unsere heutige Mission an. Die heutige Aufgabe besteht darin, die deutsche Bloggerszene unter die Lupe zu nehmen die radikalisiert sich ja offenbar seit Regierungsübernahme durch die Große Koalition wichtig ist es, zu schauen, ob Aktionen in Vorbereitung sind, und ggf. radikale Subjekte zu identifizieren, die sich da besonders hervortun. Zunächst wählen wir unsere Targets, wir kriegen natürlich welche vorgeschlagen Leider kann ich nur eine kleine Auswahl möglicher Targets präsentieren. Ich hätte gerne noch viel mehr genommen Es gibt ein paar gesellschaftskritische Blogs und Newssites wie blog.fefe.de, indymedia, Mädchenmannschaft, Netzpolitik.org, rebellmarkt.blogger.de Und religiös motivierte Webseiten, wie kreuz.net, islambruderschaft.com-blog und Diskussionsforum salafistisches und wir bestätigen natürlich die Auswahl. Das ist eine sehr sinnvolle Auswahl Folgende Analysen sind möglich. Ich kann natürlich nur eine Auswahl an möglichen Analysetools heute zeigen Ich würde gerne viel mehr zeigen, aber die Zeit wird nicht reichen. Zunächst gucken wir uns an, was schreiben Autoren über mögliche sensible Ziele Wir machen also mal eine Zielanalyse. diese untersucht auf Basis von Named-Entity-Recognition die Kollokation zu möglichen Terrorzielen Wir müssen … was ist das denn? … wir gucken mal ins Handbuch rein, was Named Entities sind ist ja unser erster Tag heute Named-Entities sind zunächst mal Ausdrücke, die eine Etentität eindeutig von anderen Entitäten mit ähnlichen Attributen unterscheiden Man denkt spontan an Namen, aber es ist nicht so trivial zu sagen was ein Name ist Named-Entitiy-Recognition ist entsprechend das Verfahren, wie man solche Named Entities identifiziert Es gibt sicherlich unterschiedliche Klassen von Named Entities, bspw. Personen, Organisationen, Orte Manchmal ist auch nicht so deutlich zu was eine bestimmte Named Entity gehört. z.B. „der Bundestag“ das kann sowohl ein geografischer Ort sein, als auch eine Organisation Jetzt müssen wir noch wissen, was Kollokationen sind Das sind statistisch überzufällig häufige Wortkombinationen d.h. “we define a collocation as a combination of two words, that exhibit a tendency to occur near each other in natural language that is to cooccur” also z.B. „ein Weg einschlagen“, „ein Weg gehen“ Das sind typische Verbindungen zwischen den Worten „Weg“, „gehen“ bzw. „einschlagen“ und diese Verbindungen bilden Kollokationen, wenn sie überzufällig sind wie wir mit statistischen Tests feststellen können und wir können die in natürlicher Sprache beobachten Ein Beispiel – ihr müsst das jetzt nicht lesen können – ich wollte ein Beispiel zeigen zum Wort „Spezialexperte“ man sieht hier das “keyword in context”, also das gesuchte Schlüsselwort und man sieht die Kontexte dieses Wortes, also einen „ausgesuchten Spezialexperten für Internetfragen“ haben sie wohl nicht gefunden Wir müssen kein Ratespiel machen, aus welchem Blog das wohl stammen könnte Was man dann macht, bei einer Kollokationsanalse man untersucht Kontexte z.B. hier fünf Wörter links, fünf Wörter rechts bis Satzanfang oder -ende Man zählt einfach die Wörter, die im blauen Bereich stehen und vergleicht die relative Frequenz mit Wörtern, die links und rechts im weißen Bereich stehen Wenn ein Wort signifikant häufiger im blauen Bereich vorkommt, kann man sagen, es ist eine Kollokation des Worts „Spezialexperte“ Hier fällt bspw. auf „kriegen“ oder „Adobe-Spezialexperten“ Gelächter Man kann Kollokationen als Graphen visualisieren Gelächter Die Knoten bezeichnen Lexeme, (ich weiß jetzt nicht, was es da zu lachen gibt) mehr Gelächter (das ist ernste Linguistik!) und die Kanten bezeichnen „ist Kollokation von“ Sie sehen also hier „die besten der besten, Sir“, Sarrazin und Mehdorn gehören dazu. Es wuchert ein bisschen weiter. „Adobe-Backup“, „Backup-Spezialexperten“ … interessant Ok. Wir sind im Bereich der Zielanalyse. Wir starten mal die Analyse. Was machen wir da eigentlich? Was wir machen ist, wir erkennen in allen Corpora alle Named Entities Wir berechnen das erstmal mit Methoden maschinellen Lernens. D.h. man untersucht bestimmte Kontexte in denen Named Entities stehen. Wir haben einen Trainings-Corpus, in dem steht bereits drin, was Named Entities sind bspw. dass „Bundestag“ eine Organisation ist und die Software lernt aus diesen Kontexten was typische Kontexte für solche Named Intities sind und versucht diese auf neue Corpora anzuwenden Was wir hier machen: wir identifizieren in allen Corpora, in allen Blogs, die wir untersuchen die Named Entities. wir kategorisieren diese Named Entities nach Personen, Organisationen, geografischen Orten und Sonstigen und dann berechnen wir die Kollokationen eben zu relevanten Named Entities. z.B. „Angela Merkel” könnte interessant sein oder sowas. Und dann schauen wir auch in den Kollokationen, ob darin irgendwelche Gefährderwörter sind. Also Wörter, die auf Anschlagsplanungen oder sonstiges hindeuten. Das machen wir jetzt. die Analyse ist offenbar abgeschlossen und Ergebnis ist, wir haben Gefahrenstufe 1 von 5, also nicht weiter tragisch die Software schlägt uns eine Überprüfung der Gefährdungslage in Hinblick auf Berlin vor also der Ortsangabe bei donalphonso, Rebellmarkt-Blogger Potentielles Ziel bei Fefe ist SPD Gelächter und bei der Mädchenmanschaft sollen wir nach Kristina Schröder als Person gucken Gelächter Wir haben jetzt zum Beispiel als Auftrag bekommen, zu schauen, warum donalphonso Böses über Berlin schreibt und ggf. etwas plant Wir können uns jetzt Kollokationsgraphen anzeigen lassen oder Geokollokationen D.h. wir haben eine Landkarte und darauf stehen an den Orten, über die donalphonso schreibt, die Kollokationen zu den Orten In Amerika schreibt er über Boyd und Kultur, Einzeltäter, verwirrt und „hassen Mail“ und sowas Deutschland, Mitteleuropa ist natürlich im Fokus. Das geht auch bis Italien runter Da sieht man auch, worüber donalphonso so schreibt. Wir nähern uns Berlin. Da sind zu viele Kollokationen als dass wir sie alle auswerten könnten Deswegen schauen wir uns den Kollokationsgraphen an und suchen nach Hinweisen auf Terror, der stattfinden könnte Ich lese einige vor: „Berlin“, „Slum“, „Reichshauptslum“, „arm“, „Transferleistung“, „abscheulich“, „Berliner Hipster“ Gelächter Das zeigt zwar eine sehr negative Haltung zu dem Gegenstand, aber ich würde nicht sagen terrorverdächtig. Das weitere potentielle Ziel waren die Organisationen „SPD“ bei Fefe Wir lassen uns den Kollokationsgraphen anschauen. Fefe und die SPD. Gelächter Applaus hey „Verräterpartei“, „Umfallerpartei“, mal kurz zurück Insgesamt in der gesamten Liste fanden sich tatsächlich so Wörter wie: „erhängen“, „erzwingen“, „Spitzenkandidat“, „Verräterpartei“, „Umfallerpartei“, „Pest“, „Cholera“ Gelächter, Applaus Wenn wir uns den Kollokationsgraphen anschauen, dann merken wir schon, das sind Vorwurfshandlungen. Aber da wird nicht geplant, dass der Spitzenkandidat um die Ecke gebracht werden soll von Fefe Wir machen jetzt weiter mit dem Ideologiemonitor. Wir wollen jetzt mal messen … Es ist belegt, dass die NSA viele Softwarepatente für Algorithmen zu Named-Entity-Recognition angemeldet hat Es wurde in der Tat viel in dem Bereich Forschung betrieben vor einiger Zeit Aber man findet zunächst heraus, was interessante Targets sind und was über die gesagt wird Das kann man sicherlich noch besser machen, in dem man Idieologien misst. Was wir jetzt berechnen wollen ist die Ähnlichkeit von Texten, von Blogs zu bestimmten weltanschaulichen Ideologien Wir haben die Möglichkeit, linksextreme, rechtsextreme oder islamistische Einstellungen zu messen Das machen wir so, dass wir typische Kollokationen berechnen … also zu einem bestimmten Korpus Von diesem Korpus lernen wir. Das ist also das Vergleichsmodell. Wir nehmen mal die „Islambruderschaft“. Die hat ein Blog und da schreiben sie böse Sachen und wir lernen von diesem Blog: was sind typische Wortverbindungen, die wir als islamistisch betrachten können wir wollen gerne wissen, wer in einem salafistischen Diskussionsforum besonders viel von radikalislamischer Ideologie hat also das ist ein ganz fieses Untersuchungsprogramm, das wir hier starten. Ja, die Analyse läuft Das Ziel ist es, wie sind bestimte Texte von bestimmter Ideologie durchdrungen und wir gleichen ein salafistisches Diskussionsforum mit unserem Trainingskorpus ab und dieses Trainingscorpus ist ein Blog von der Islambruderschaft was wir bekommen sind Wortverbindungen, die womöglich auf islamistische Grundhaltungen verweisen – also ich hoffe, ihr denkt die Anführungszeichen immer mit – Wir haben hier „Allah -> Krieg“, „Bombe -> Jahr -> Feind“, „Kufr -> beleidigen“, „Gesetz -> Islam“, „Bedeutung -> Jihad“, „Allah -> Afghanistan“, „martern -> Kufr“, usw. Also es gibt eine ganze Reihe dieser Wortverbindungen, die wir aus diesem Korpus lernen und jetzt schauen wir, wie diese Wortverbindugnen in personenspezifischen Korpora von Mitgliedern in diesem Diskussionsforum vorkommen. Wir sehen hier einen User – natürlich ist der Nickname nicht echt man sieht es ein bisschen schlecht, aber hier sind rote Verbindungen angeleuchtet Das sind islamistische Gelächter Das sind sämtliche Kollokationen in diesem Korpus mit der höchsten Typizität und solche Verdichtungspunkte verweisen auf bestimmte Themen Wir haben auch den User „JihadFan“ Gelächter – der aber offenbar auch nicht so jihadistisch unterwegs ist weil es sind relativ wenige – wir haben aber die Userin „Muslima“ – und leider sieht man das jetzt wirklich nicht so gut ich mach es mal ein bisschen größer – bei ihr sehen wir relativ viele rote Verbindungen wir können uns natürlich auch ein paar verdächtige Verbindungen anschauen jetzt müssen wir wieder klein werden – da sind solche Verbindungen wie „der -> ganzen -> Welt -> Frieden -> Krieg -> bringen“ Da sind Verbindungen wie „Bombadierung -> Zivilist -> schlachten -> martern -> Invasoren“, „erfolgreiche -> Operation“ oder Verbindungen wie „Koran -> Taliban -> edel -> Sieg“, die vielleicht auf das Schreiben über das Thema hindeuten das heißt, wir würden sagen, das wäre ein Ziel für weitere operative Maßnahmen, diese Userin, und das schicken wir ab und dann geht es weiter. Damit haben wir aber nichts mehr zu tun, denn wir sind ja nur Linguisten. Gelächter, Applaus Ich deute das als Zustimmung. Gelächter Gut, wir fahren mit weiteren Analyseschritten fort. Und zwar messen wir Radikalität. Radikalität ist etwas, das man so ohne weiteres erstmal nicht messen kann denn es ist ja selbst ein ideologisches Konzept Wir – vom Innenministerium – verstehen unter Radikalität zunächst eine stark negative Weltsicht wir verstehen darunter eine Intoleranz gegenüber abweichenden Auffassungen, also ein schwarz-weißes Weltbild wir verstehen darunter eine hohe emotionale Involviertheit und eine Neigung zu Verschwörungstheorien vereinzeltes Gelächter Ja! mehr Gelächter Das ist nicht ganz vom Himmel gefallen. Es gibt tatsächlich Forschungsliteratur, die diese Punkte nennt wie operationalisieren wir das jetzt, also eine negative Weltsicht? Ich möchte euch zwei Ansätze vorstellen Es gibt also den sehr einfachen, listenbasierten Ansatz. Man sagt, wir haben eine bestimmte Liste von Wörten, deren Bedeutung wir kennen und gucken, wie häufig finden sich die Listenelemente in Texten Bspw. wenn wir „negative Weltsicht“ operationalisieren wollten, könnten wir sagen, wir suchen nach Phrasen oder auch Vokabeln, die skandalisieren, wie: „Blindheit“, „Blödheit“, „Bodenlosigkeit“, „Chaos“, „Debakel“, „Desaster“, „Dreistigkeit“, „Dummheit“, das könnte man alles anders nennen, könnte Indikator sein für negative Weltsicht Wir haben auch den Gebrauch von negativ wertenden Adjektiven. Nur mal die ersten: „abartig“, „aberwitzig“, „abfällig“, „abgedroschen“, „abgegriffen“, „abgeschmackt“, usw. Insgesamt 700, oder so das wäre also der listenbasierte Ansatz. Was wir natürlich auch machen können ist ein schwarzweißes Weltbild operationalisieren das kann man mit Hilfe von „semantischen Taxonomien“ machen. Semantische Taxonomien beschreiben die Relationen zwischen Wörtern in unserem Wortschatz, bspw. könnte auf schwarzweiß-Denken in Texten hindeuten eine hohe Frequenz von „polaren Antonymen“, also Gegensatzwörtern, die man ohne degradierte Form gebraucht also dass man sagt „lang“ und „kurz“ statt „länger …“ oder „kürzer als“. Noch deutlicher wird es vielleicht bei Wörtern, die gar nicht gradierbar sind, wie „wahr“ oder „falsch“, „tot oder lebendig“, „anwesend oder abwesend“, „dafür oder dagegen“. Da gibt es nichts dazwischen, die sind komplementär und ihr Gebrauch, könnte man meinen, lässt Rückschlüsse auf ein schwarzweißes Weltbild zu. Emotionale Involviertheit könnte man operationalisieren mit Hilfe von Gradpartikeln das ist sowas wie „ich finde das absolut toll“, oder „total toll“. Ja, nicht nur „toll“, sondern „total“ Das wäre bspw. ein Gradpartikel aus dem absoluten Intensivierungsbereich wir können Gradpartikel unterscheiden nach Intensivierungsbereichen und es gibt unterschiedliche Abstufungen wie den „absoluten“ Intensivierungsbereich, in den „absolut“, „gänzlich“, „grundlegend“, „gründlich“, „im geringsten“, „komplett“, „längst“, „rein“ usw. reinfallen, den „extrem hohen“ Intensivierungsbereich: „höchst“, „äußerst“, „zutiefst“, „aufs äußerste“, „aufs höchste“, „aufs Tiefste“, „höchstlichst“, usw. und den hohen Intensivierungsbereich mit „sehr“, „stark“, „gewaltig“, „besonders“, „so“, „arg“, „übertrieben“ usw. Wenn wir die Distribution dieser Gradpartikel in Korpora messen, dann könnten wir sagen: vielleicht sind die Indikator für emotionale Involviertheit. Und die Neigung zu Verschwörungstheorien das ist natürlich besonders schwierig zu operationalisieren, da haben wir einfach eine Liste von Wörtern genommen, die darauf verweisen, dass vielleicht etwas nicht so ist, wie es sein könnte wenn man Wörter hat wie „angeblich“, „vermeintlich“, „scheinbar“, „behaupten“, „heucheln“, „verheimlichen“, „verschweigen“, „fingieren“, „vorgaukeln“, „entlarven“, usw das sind natürlich Wörter, die zumindest das Potential haben, darauf zu verweisen, dass die Welt nicht so ist, wie sie uns verkauft wird oder dargestellt wird. Und das findet man natürlich eher bei Personen, die Verschwörungstheorien anhängen Wenn man jetzt den Radikalitätsindex berechnet – das hier sind normalisierte Werte – dann kann man sehen Gelächter dass Fefe, knapp gefolgt von donalphonso und mit kleinem Abstand das salafistische Forum lautes Gelächter und weiterem Abstand kreuz.net hier aufschlagen. Fefe hat nirgendwo die erste Position, muss man dazu sagen also auch bei den Verschwörungen nicht, da schlägt kreuz.net Fefe noch um Längen – interessanterweise übrigens, wie ich fand – und donalphonso ist also tatsächlich ein großer Skandalisierer und Intensivierer, kann man feststellen wenn man sich noch einmal das Ranking anschaut, dann sieht das so aus … Fefe, donalphonso, salafistische … Also ob wir operative Maßnahmen einleiten überlasse ich euch. Ich würde sagen, wir behalten die im Auge. Das waren jetzt ein paar Techniken, die ich euch darstellen wollte, die wenig zu tun haben mit dem „Keywordbullshitter“ den wir gesehen haben. Denn diese Keywords selbst spielen eine sehr geringe Rolle bei den Analysen, besonders wie zuletzt gesehen Ich denke die Linguistik und die NSA-Linguisten sind sicherlich sehr viel weiter um e-Mails zu filtern Ich denke, wenn man sich den Rechenschaftsbericht der G10-Kommission anschaut, die die deutschen Geheimdienste überwachen die hatten ja zunächst so dargestellt es wurden so wahnsinnig viele e-Mails gescreent, aber das meiste davon war Spam und wenn man sich den neueren Bericht anschaut, dann steht da, wir haben die Spamerkennung verbessert und es wurden deswegen sehr viel weniger e-Mails. Aber es ist auch die Rede von mehreren Ebenen des Screenings und es werden erst zu einem sehr späten Zeitpunkt e-Mails tatsächlich in die Hand genommen und qualitativ ausgewertet und ich denke, dass vielleicht der allererste Zugriff über ein Keyword erfolgt, das auch sehr allgemein gehalten sein kann dass die weiteren Ebenen dann natürlich viel feinere Analysen beinhalten, die eben Kollokation, semantische Taxonomien oder Topic-Modelling, über das ich heute leider nicht sprechen kann, benutzen Ja, ich bin noch nicht fertig. Vielleicht kennen einige von euch den Film „Alphaville“? Alphaville ist ein Film von Jean-Luc Godard, in dem es darum geht dass Lemmy Caution, ein Spion, in die Stadt Alphaville kommt, die von einem allmächtigen, diktatorischen, totalitären Computer beherrscht wird: Alpha 60 und ein Teil seiner Aufgabe ist es, diesen Computer auzuschalten und den Erzeuger von Braun zu finden. Er spricht dann mit einem der Programmierer dieses Computers, einem Assistenten von von Braun und der Assistent fragt ihn: „Sind Sie auch ein Spion?“ – Ich kann den Screenshot wegen Urheberrecht leider nur so zeigen Darauf sagt Lemmy Caution: „Nein, das wissen Sie genau, ich bin nämlich ein freier Mann!“ Daraufhin sagt der Assistent: „Ihre Antwort ist bedeutungslos. Wir wissen nichts. Wir registrieren, berechnen und ziehen unsere Schlussfolgerungen.“ Und dieser Satz erfasst eigentlich das Problem, das wir mit den Diensten haben, relativ gut. Denn die Dienste unterwerfen unsere Lebensäußerungen einer Logik, die zunächst nicht unsere Logik ist sie werten sie nach bestimmten Mustern aus: „Wir registrieren, berechnen…“, sie ziehen Schlussfolgerungen daraus aber sie müssen sich dafür nicht rechtfertigen. Sie müssen ihre Methoden nicht offenlegen und ihre Logik nicht zur Diskussion stellen. Und genau das ist das Problem. Das ist aber ein Kennzeichen für alle totalitären Systeme, dass sie ihre Logik nicht rechtfertigen müssen. Wir wissen überhaupt nicht, was überhaupt verdächtig sein könnte und der Grund dafür ist, dass diese Dienste eben im Geheimen operieren können und unsere Aufgabe sollte es sein, diese Methoden öffentlich zu machen, diese Methoden zu diskutieren zu beweisen, dass diese Methoden fehlerhaft sind und unglaublich viele „false positives“ produzieren und dass wir es deswegen lieber lassen sollten und wir vielleicht ein paar Scheiben ins Glashaus werfen Vielen Dank Applaus Engel: Ja vielen Dank, Josh, für diesen richtig coolen Talk. Was auch cool ist: Was auch total cool ist, wir haben noch richtig viel Zeit für Fragen und Antworten Wir haben vier Saalmikrofone hier, wir haben zwei auf jeder Seite für Leute, denen es schwerer fällt, zum Saalmikro zu kommen, habe ich auch das tragbare Handmikro und wir können noch gucken, ob es Fragen aus dem Internet gibt und die dann den Signal Angle stellen seid nicht so schüchtern, wir haben noch eine halbe Stunde, das war ja wohl ein guter Input wenn ihr also eine Frage habt, dann bewegt euch dahin. Ja vielleicht fangt ihr an, euch zu den Mikrofonen zu bewegen, geht das auch für euch beide? Dann komm ich gleich zu dir, dann die erste Frage Frage: Wie ist denn das mit diesen Kollokationen und Kultureller Kontext? Also es könnte sein, dass wir jetzt bspw. da wollte jetzt ein Osama ein Konto eröffnen und das wurde ihm verweigert, weil er Osama heißt dass wir dann diese Kollokation quasi feststellen, aber dass der Name Osama ein recht geläufiger im arabischen Kontext ist wie wird damit umgegangen, dass das etwas ganz normales dort ist, für uns aber sofort verdächtig erscheint? Antwort: Vielen Dank, ich weiß nicht auf welcher Ebene ich die Frage beantworten soll. Aus linguistischer Perspektive kann man damit, glaube ich, recht gut umgehen, indem man weiteren Kontext dazu nimmt und relativ schnell disambiguieren könnte, dass es sich eben nicht um Osama bin Laden handelt, zumal der ja auch schon tot ist Gelächter aus Sicht eines Analytikers, der vielleicht gar nicht versteht, was unter der Haube eines solchen Toolkits läuft, ist es erstmal egal denn er folgt seiner Logik, er hat seine Mission und wie gesagt, die Menge an false positives ist riesig das wird eben damit gerechtfertig, dass das, was auf dem Spiel steht, so unglaublich monströs ist, wenn es denn fiele, dass das jedes Mittel rechtfertigt E: Okay danke, dann haben wir noch eine Frage von dir und dann du als nächstes, bitteschön F: ja, mich würde interessieren, ob du dir mal die Mühe gemacht hast, mit diesen Methoden auch mal sowas wie die Pressemitteilungen des Innenministeriums zu analysieren weil da ist doch bestimmt auch eine Menge Schwarzmalerei und emotionaler Sprachgebrauch zu finden A: Sehr interessant, das ist eine gute Frage. Habe ich nicht gemacht Was ich gemacht habe, war bei Politikerinnen und Politikern, also Angela Merkel, usw. das trieft aber natürlich von positiven Darstellungen der Wirklichkeit weil als Regierungschefin ist man natürlich bemüht, die Wirklichkeit so zu konstruieren, dass sie in einem möglichst positiven Licht erscheint und es wäre sicherlich interessant das genauer anzuschauen E: Die nächste Frage von dir bitteschön F: Wäre es eigentlich möglich, so Konnotationsspam zu erzeugen in einem etwas komplexeren Zusammenhang mit ein paar Bots? A: Naja, hier kommt eine kluge Frage. Wenn wir jetzt schon wissen, dass Keyword-Bullshitting zu grob ist ob wir dann nicht klugerweisen unser Wissen nutzen können, um Texte automatisiert zu erstellen, die bestimmte Kollokationsprofile abbilden, bspw. Das können wir alles machen. Aber ich möchte noch einmal drauf hinweisen, was mir wirklich ganz zentral ist es hat, glaube ich, keinen Sinn, sich zu verstellen, sich zu verbergen in diesem Kontext was sich ändern muss, ist diese Logik, in der dieses Spiel gespielt wird Denn für jede Methode gibt es eine Gegenmethode. Das ist ein Wettrüsten, das in diesem Fall sehr wenig Sinn macht Natürlich ist Verschlüsselung und alles sehr sinnvoll, aber gegen Dinge, die geäußert werden und wir wollen uns eben auch öffentlich äußern, da sind wir gegen Ausspähung nicht gefeit. und ich bin der Meinung, dass wir uns durch diese Dinge nicht einschränken lassen sollten sondern dass wir uns eher darum bemühen sollten, die Logik der Dienste zu hinterfragen, sie aus dem Geheimen herauszuziehen und das zu diskutieren, was da passiert, das ist das Entscheidende E: Okay, die nächste Frage Applaus die nächste Frage ist von mspro und danach hätten wir noch Fragen aus dem Internet F: Hallo, ich hätt da noch ne Frage zu deiner Anspielung am Anfang mit „Überwachen und Strafen“ und deinem Schlussstatement. Das passt nicht so richtig zusammen. Du hast gesagt: sowohl im Glashaus, als auch beim Panoptikum geht es darum, dass ich weiß, dass der Überwacher da ist und weiß, nach welchen Kriterien er mich beurteilt, damit ich eine disziplinarische Wirkung habe jetzt sagst du aber, dass ja genau diese Opakheit der Geheimdienste nach ihren Verdachtskriterien das Problem ist das widerspricht sich total. Wenn ich nicht weiß, wonach ich als verdächtig betrachtet werde, diszipliniert mich das ja gar nicht. Irgendwie passt das nicht zusammen A: Danke für die Möglichkeit, das noch ein bisschen zu präzisieren. Ich denke, wir haben natürlich eine Ahnung. Das ist ja das Schlimme, wir haben nicht mehr als eine Ahnung davon, was denn als vermeintlich gefährlich betrachtet wird. Und genau das ist das Problem also das Nicht-Wissen darum ist vielleicht noch die totalere Methode uns zu überwachen, denn, ich möchte ein Beispiel geben: ich habe kürzlich ein Buch gelesen über ein maoistisches Gefängnis und da ist es so, die Verhöre finden so statt, dass der Verhörende ein Buch hat. und er sitzt dem Delinquenten gegenüber und sagt: „In diesem Buch steht alles, was du falsch gemacht hast, alle deine Sünden stehen hier geschrieben. Du musst nur gestehen.“ Aber er darf nie in das Buch schauen und er zermartert sich sein Gehirn unglaublich, weil er nicht weiß, was in diesem Buch steht und er überlegt sich, „was kann ich noch alles gestehen, damit ich dieses Buch abarbeiten kann?“ und ich glaube gerade die Unwissenheit darüber ist die viel raffiniertere, perfidere Methode der Kontrolle und insofern schließt sich das nicht gegenseitig aus, weil unser Kopfkino, was alles gefährlich sein könnte, ist mächtig genug. E: Alles klar, danke. Dann haben wir jetzt Fragen aus dem Internet. Magst du die kurz stellen? F: Gibt es eine Instanz, die die Keyword-Listen überprüft, und wenn ja, welche ist das? A: Ja, sehr gute Frage! Keine Ahnung, weil wir wissen es nicht. Die leaken ab und zu – und ich habe mir überlegt, mal eine Zusammenstellung zu machen: es gibt die Echelon-Liste und es gibt ganz verschiedene Listen – also nein. die sind nicht validiert, aber man kann davon ausgehen, dass die schon irgendwie an Fallbeispielen überprüft sind denn sonst würde man sich ja unglaublich viel Arbeit machen. Aber wie und wo und wie man das wissenschaftlich nachvollziehen kann, das ist leider nicht beschrieben und nachlesbar. E: Da gibts wohl noch mehr Fragen aus dem Internet? F: Noch eine zweite: Brächte es was, wenn wir jetzt alle schön in unserem Dialekt schreiben, weil dann werden die Keywörter eventuell nicht erkannt, oder ist das sinnfrei? Gelächter und Applaus A: Also als Hess kann ich dir da sache, das det schon was bringe wärdd Gelächter also in der Tat, das hätte tatsächlich Chancen, es den Diensten schwerer zu machen, absolut es gibt natürlich Verfahren, mit denen man Ähnlichkeiten zwischen Wörtern messen kann, usw. das ist durchaus möglich. Aber es würde es schwerer machen. Es würde ja auch die Kommunikation erheblich schwerer machen, wenn wir alle im Dialekt schreiben es gibt dann keine Standardorthografie, aber es funktioniert natürlich auch. Wie in der Schweiz Gelächter E: okay, die nächsten beiden Fragen sind von euch und dann seid ihr beide da drüben dran F: Ja, mich würde interessieren, wie man mit der Schwierigkeit von Fremdsprachen umgeht oder allgemein der Vielfalt an Sprachen. Wie kann man ggf. einen Bezug herstellen, wenn der eine in Deutsch, der eine in Englisch schreibt. Oder wie analysiert man die Salafisten, wenn sie in ihrer Muttersprache sprechen. A: Ja, also grundsätzlich gibt es Software, die designt ist das sie sprachunabhängig funktioniert Zumindest wenn die Sprache sich klar in Wörter abgrenzen lässt, usw. Ich glaube, diese Software ist nicht so gut wie Tools, die sprachliches Wissen einbringen, aber nichtsdestotrotz wird sie eingesetzt. Siemens macht sowas, bspw. zur Autorenerkennung das wird eingesetzt und funktioniert eben auch tatsächlich sprachabstrakt. Man lernt Feature und es ist egal, in welcher Sprache man die lernt. es wird halt reicher und besser, wenn man sprachliches Wissen einbringt F: Ich hab eine Frage, die ein bisschen schwarz-weiß ist. Wenn man sagt, wir reden über diese Listen und die Worte, die darin stehen, dann ist doch das Problem, dass sie nicht mehr wertvoll sind, sobald sie bekannt sind d.h. man hat nur die binäre Option, solche Techniken nicht anzuwenden, oder die Listen nicht zu veröffentlichen oder kommt man irgendwie darum herum A: eine gute Frage. Ich glaube eben, es gibt überhaupt kein Entkommen. Klar, wenn die Listen bekannt sind, dann funktioniert es nicht mehr, wir können die wegschmeißen wir arbeiten ja schon nicht mehr mit Listen. Aber auch die anderen Verfahren. Wenn wir die kennen, können wir sie wegschmeißen. Ich glaube, dass dann die nächsten Verfahren kommen Verfahren, die klandestine Kommunikation erkennbar machen, die maximale Abweichung von normaler Kommunikation sichtbar machen und damit ist man wieder gefangen. Ich glaube, dieses Katz-und-Maus-Spiel existiert, aber ich glaube, wir müssen da raus, weil ich glaube, dass es das nicht bringt. Ich glaube, man soll es einfach lassen. Applaus E: Okay, du bist als nächster dran F: Ich fühlte mich durch den Vortrag an den Fall des Staatssoziologen Andrej Holm erinnert, der als angebliches Mitglied der militanten Gruppe im Gefängnis gelandet ist und zwar deswegen, weil die Bekennerschreiben der militanten Gruppe angebliche Parallelen zu seiner wissentlichen Veröffentlichungen aufwiesen, was damals soweit in die Öffentlichkeit kolportiert wurde, dass es hieß, in beiden käme das Wort „Gentrifizierung“ vor, das damals noch ein bisschen seltener war als im Nachgang. Hast du dich mit dem Fall mal näher beschäftigt, wie die Behörden da scheinbar vorgegangen sind? A: Ja, ich hab auf den Datenspuren letztes Jahr einen Vortrag gehalten zu Autorenidentifizierung, gerade auch mit Aufhänger Andrej Holm. Ich denke, dass da ganz unterschiedliche Dinge passiert sind bspw. hat das BKA ein Gutachten gemacht und gesagt, dass Andrej Holm nicht der Autor ist der Tipp kam offenbar woanders her, von irgendwelchen Diensten, die wohl auf maschinelle Verfahren zurückgegriffen haben um da Ähnlichkeiten festzustellen. Wäre jetzt mein Tipp, aber das wissen wir natürlich auch nicht. Aber irgendwoher muss das ja gekommen sein. Wenn das BKA sagt, er wars wohl nicht, aufgrund der Sprachanalyse, ist schon interessant. Die Sprachdaten haben letztlich für den Fall keine große Rolle gespielt. Es wurde zwar kolpotiert in den Medien, aber für den Haftbefehl und weiteres waren andere Aspekte ausschlaggebender. E: Vielen Dank, du da hinten am Mikro bist als nächstes dran F: Ja, ich wollte sagen, dass es mich gefreut hat, dass du den Link zu Foucault gemacht hast, weil es ja bei „Überwachen & Strafen“ genau darum geht, dass wir dazu erzogen werden, uns selbst zu überwachen, was letztlich diese Schere im Kopf ist. Ich finde das ein sehr schönes Bild, dass du da diese Parallele gezogen hast. Meine Frage wollte ich eigentlich auch nach einem Beispiel für so ein False positive stellen, das wurde ja gerade mit diesem Fall beantwortet. A: Die spülen mal immer wieder in die Medien rein. Jemand hat in der Schweiz T-Shirts drucken lassen, – die haben da Schwierigkeiten mit dem Flughafen – „Südanflug“. Und hat die T-Shirts auch bezahlt und dann wurden die Tremata über den Umlauten weggemacht. Und dann stand da „Sudanflug“, was dann aber gleich „Sudan-Flug“ gelesen wurde. Und dann hat die Bank gleich den Staatsschutz informiert. Also so kuriose Fälle tauchen natürlich auf, wir haben auch von der Frau mit Schnellkochtopf gehört das sind Dinge, die tauchen tatsächlich immer wieder auf. Wir kriegen es in vielen Fällen auch gar nicht mit, was passiert. Man muss ja auch nicht informiert werden, wenn man Gegenstand von Überwachung ist. Ist ja auch so. Wenn es im Interesse der Bundesrepublik ist, muss man nicht informiert werden E: Ich hätte gerne Kooperation von Leuten der ersten Reihe, könnt ihr eure Sachen wegnehmen? Vielen Dank. Wir haben noch eine Frage aus dem Internet, wenn ich das richtig sehe, bitteschön F: Nicht aus dem Internet. Linguistik ist ja eine Geisteswissenschaft und die sind ja bekanntlich an den Unis nicht so gut finanziert. Ist es bekannt, oder hast du eine Idee davon, wie groß die Differenz zwischen der öffentlichen Forschung und der der Geheimdienste in der Linguistik oder gerade im Bezug darauf ist. Wenn man sich die Budgets so anguckt, könnte da ja eine echte Differenz sein. A: das ist eine interessante Frage. Richtig, Geistes- oder Kulturwissenschaften sind nicht so toll finanziert aber die Forschung findet zum Teil auch in der Informatik statt. Die Verfahren, die ich vorgestellt habe, haben zunächst mal nichts mit Überwachung zu tun. Ohne die Verfahren wäre Google keine so tolle Suchmaschine d.h. die Verfahren sind im Grunde erstmal abstrakt von ihrer Verwendung. Viel Forschung findet dann tatsächlich in Privatunternehmen statt, wobei die Unis glaube ich noch mithalten können, aber ich würde meinen, die NSA finanziert ja auch Forschung an Unis, auch in Deutschland, und es geht gut voran in dem Bereich Um das mal zu sagen: das ist zentrale Technologie, die brauchen wir. Wir erschließen uns Wissen, über Sprache Unsere Anfragen an die Welt funktionieren mit dem Medium Sprache. Wir suchen Informationen mit komplexen Anfragen, die alle erstmal sprachlicher Natur sind. Auch bei einer Google Bildersuche. Wir ordnen uns die Welt durch das Medium Sprache und das ist eine zentrale Technologie, in die auch in Zukunft sehr viel Geld fließen wird. E: Gut, ich habe noch mindestens drei Fragen gesehen, aber wir haben ja auch noch eine viertel Stunde Zeit du bist als nächstes dran. F: Ich würde mal gerne die Aktualität deiner vorgestellten Informationen hier überprüfen Erstmal würde ich gerne wissen, woher du die Information hast, dass solche Sachen benutzt werden, kommt das aus den Snowden-Files? Und: wie alt ist das ganze Zeug. Dieses Toolkit, kann ja auch sein, dass das schon fünf Jahre alt ist und das mittlerweile flächendeckende Liveüberwachung jeglicher Sprache stattfindet und alles viel intelligenter ist. A: Wichtige Frage natürlich, aber auch ganz wichtig: Das Toolkit war natürlich frei erfunden. Keine Ahnung, wie das aussieht, werden wir auch nicht zu Gesicht bekommen. Ist schon klar. – F: Das hab ich schon verstanden – A: Gut, klang jetzt eben so, tschuldigung. Also, wie alt sind die Verfahren: die Entwicklung geht weiter, es geht vor allem um Verfeinerungen in bestimmten Bereichen. Wie gesagt, Topic-Modelling hyped im Moment sehr, ist aber nicht grundlegend verschieden von Kollokationsanalysen. Es ist ein ähnliches Verfahren. Die Algorithmen für maschinelles Lernen werden besser. Die Rechenleistung wird besser. Wir können größere Daten anschauen, um von ihnen zu lernen, da tut sich eine Menge. Aber grundsätzlich würde ich sagen, viel Neues gibt es nicht. Wir hätten uns das Identifizieren von Frames angucken können aber ich würde meinen, es sind schon Technologien, die zum Einsatz kommen könnten und ausgereift genug sind, dass sie zum Einsatz kommen aber darüber, ob sie tatsächlich zum Einsatz kommen, weiß ich nichts. E: Alles klar, die nächste Frage ist von dir da hinten F: Vielen Dank erstmal, für den spannenden Vortrag, es war ein Ausflug in die Linguistik, den sogar ich als Ingenieur verstanden habe du hast vorhin zurecht gesagt, dass man vermutlich anstatt mit Bullshitting von Keywords es sichtbar machen sollte, was da passiert. Den Ansatz fand ich richtig. Im zweiten Satz fragte ich mich: was wären denn dann die Möglichkeiten wir haben ein paar absurde Beispiele gesehen, wie das mal in der Presse herauskommt du als jemand, der sich damit viel beschäftigt hat, was würdest du sagen, was sind so die Dinge, mit denen man sich, mit denen sich die Szene beschäftigen sollte? A: Ganz schwierig, ja. Ich glaube, es geht nur der Weg über die Politik. Es ist ein politisches Anliegen zu sagen, dass die Methoden öffentlich gemacht werden müssen dass sie gerechtfertigt werden müssen in Hinblick auf Vadilität, u.ä. Aber das ist ein politischer Weg. Das heißt Lobbying da, wo es wehtut. Man muss zu den Parteien gehen, die die Macht haben und man muss auch mit denen reden und die überzeugen. Es ist ein hartes Brot, aber wichtig. Man kann das nicht mit technischen Mitteln lösen. Ich weiß, das ist eigentlich unser Ansatz, aber das reicht nicht. E: OK, du hast die nächste Frage F: Wir haben uns jetzt hier kollokationsbasierte Sachen angeschaut. In wie weit kommen denn formale Grammatiken zum Einsatz, die auch die Satzsyntax berücksichtigen? Schauen wir uns den Satz an „auf keinen Fall sind unsere Politiker als Verbrecher und Dilettanten zu sehen“ da wird man mit der Kollokationsanalyse schnell einen False positive haben, oder? A: Der Trend geht eindeutig weg von formalen Grammatiken, hin zu großen Datenmengen. Zu eher mehr Kontext angucken, stärkeres maschinelles Lernen auf größeren Corpora und eher der Google-Ansatz … F: wie Google Translate, so ähnlich A: … genau mit vielen Daten die Sache lösen. Und das ist für uns Linguisten natürlich total frustrierend. F: ja, ich komme selbst aus der Computerlinguistik, deshalb frage ich A: ja, das dachte ich mir schon. Aber ja, es ist so. Aber wir sind uns, denke ich einig, mit linguistischem Wissen kann man vieles besser machen. E: mspro, du hattest vorhin signalisiert, als wolltest du noch fragen, hast du es dir anders überlegt? – hat sich erledigt – alles klar, dann bist du als nächstes dran F: Was mir noch einfiel: wie würdest du das bewerten, wenn man eine Überlegung zu einer Theorie sprachlicher Bedeutung da mit hinein bringt? Was der Staat ja prinzipiell macht ist, er schmeißt sein Gewaltmonopol in unsere Sprache rein und macht Regelsysteme auf, in denen er nachher die Bedeutung von gewissen Aussagen festlegt und sagt: das hier ist wahrscheinlich eine kriminelle Äußerung oder die eines Kriminellen kann man schon beobachten, bzw. ich könnte mir vorstellen aus einer Sprechertheorie, dass das Verwüstungen in der Sprache anrichtet, dass der Staat Einfluss auf die Bedeutung unseres Sprachgebrauchs nimmt. A: Das ist eine spannende Hypothese zu sagen, dadurch dass der Staat die Definitionsmacht hier hat zu sagen, wie eine sprachliche Handlung verstanden werden soll, dass dadurch eine Bedeutungsverschiebung stattfindet, die ggf. tatsächlich im Sinne eines „Neusprech“ nur noch bestimmte Äußerungen ermöglicht das wäre eine spannende Hypothese, die mal zu überprüfen wäre F: ja, also wenn man eine ganz moderne Theorie so „freier Signifikation“ annimmt, dann … A: … dann haben wir immer noch Macht dann. Immerhin, subversiv können wir sein! Aber das ist eine interessante Frage. Ich glaube nicht, dass der Einfluss auf den Alltag schon so stark ist, das glaube ich nicht, aber warten wir es ab. E: Gut, du hast die nächste Frage Du sprachst gerade von den großen Datenmengen, die Datenmengen werden immer größer damit ja auch irgendwie die Erfolgsquote dieser Voraussagen, typischerweise selbst wenn die Algorithmen nicht besser werden, wenn die Datenmenge größer ist, wird es irgendwie besser Was wird denn passieren, wenn wir einmal so große Datenmengen haben und die Algorithmen sich dann zusätzlich verbessern, dass wir fast keine false positives mehr haben. Wir werden das dann nicht mehr mitbekommen und es werden nur noch die Leute tatsächlich … das Horrorszenario, das ich mir gerade vorstelle, es werden tatsächlich nur noch die echten Terroristen verhaftet. Und dann? Wie lange dauert es noch, bis es so weit ist? Ich glaube, wir müssen jetzt handeln, bevor es so weit kommt. Denn sonst wird der Kampf dagegen und die Rechtfertigung, dagegen Aktionen zu machen, immer schwieriger. Wie ist da deine Einschätzung? A: Ganz spannender Punkt, hab ich noch nicht darüber nachgedacht. Als erstes bin ich skeptisch, dass es so gut sein könnte, aber es ist ein spannender Punkt, ja wenn nur noch die Terroristen verhaftet werden … die echten … dann haben wir ein Problem, ja … Gelächter, Applaus (Einruf; wird nicht aufgegriffen) E: Du bist als nächstes dran F: Wenn du dir mal die Berichte von Jeremy Scahill – das wurde im Tagesspiegel kolpotiert – anguckst, die werten ja nicht nur die linguistischen Beziehungen aus, sondern tatsächlich auch: wer hat mit wem telefoniert, wer ist mit wem verwandt und – eine ganz gefährliche Beziehung ist eben: „Vater ist Islamist”, auch wenn man ihn 16 Jahre nicht gesehen hat – das ist evtl. ziemlich tödlich und es scheint so zu sein, dass die ganzen Drohnenangriffe in zwei Zuständen laufen nämlich im militärischen, operativ aktiven Zustand und dass sie eine Liste abarbeiten, wenn sie gerade nicht operativ benötigt werden, wo eine Metadatenbank von oben nach unten nach einem Scoring abgearbeitet wird und dann ist das Linguistische, glaube ich, nicht das gefährlichste, wenn man die falsche Verwandtschaft hat A: ist richtig. Wir haben uns nur einen kleinen Teilbereich angeschaut von Daten, die aber natürlich sehr wertvoll sind, weil sie sehr viel tieferen Einblick in unser Leben geben als andere Daten. Gerade Radikalität zu messen – wovon ich nicht weiß, ob es stattfindet, etwas, was wir selbst vielleicht gar nicht wissen – aber die Metadaten sind sehr viel mächtiger, wenn es um so harte Fakten geht. Da sind die Metadaten natürlich interessanter. E: Du hast die nächste Frage F: Ich stimme zu, dass das ganz super wäre, wenn wir das auf der politischen Ebene besser in den Griff bekämen, aber mit einer üblichen pessimistischen Einstellung, gibt es nicht eigentlich schon jede Menge Beispiele, dass Politiker einfach auf den Zug aufspringen und das ganz super finden. „Ist doch eine tolle Methode, funktioniert doch großartig!” ? A: Ja! Was gemacht werden kann wird gemacht. Der Vortrag parallel ist ja über den „tiefen Staat“ das wär dann zu überprüfen, ob wir nicht trotzdem zu Regularitäten kommen können, zu einer Gesetzgebung kommen können, die zunächst bestimmte Dinge zunächst mal verbietet. Ich finde das immer noch ein Ziel, das wir glaube ich teilen. Aber natürlich, der Zug fährt in eine andere Richtung. Aber was bei Snowden so unglaublich ist, ist, dass er Dinge in das Licht der Öffentlichkeit zerrt, aber sie müssen eben da sein! Solange es nur Gerüchte sind, kann man nichts machen, – und Desinformation ist eine wichtige Strategie – sind wir ausgeliefert. Aber sobald harte Fakten da sind, wird es interessant. Dann kann man darüber diskutieren und an dem Punkt sind wir jetzt wenigstens mal. Mal sehen, ob wir da nochmal hinkommen. E: Okay, die nächste Frage kommt aus der ersten Reihe F: Eher eine Ergänzung: Du hast gesagt, „was machen wir, wenn wir alle Terroristen fangen können?“ Natürlich müssen wir uns dann immer noch wehren, natürlich gibt es dann immer noch keine Rechtfertigung, denn es wird immer noch alles gesammelt und – welche Datenbank ist 100% sicher?! Früher oder später kommen die Daten an die Öffentlichkeit! Will ich dann wirklich wissen, was man über mich weiß? Will ich, dass andere wissen können? Wir brauchen keine Rechtfertigung, um dagegen vorzugehen. Selbst wenn man nur noch die Terroristen fangen kann … wenn alle Daten gesammelt werden … Können wir nicht wollen! A: Danke, zumal auch das Konzept „Terrorist“ etwas ist, was man gesellschaftlich diskutieren kann. E: Noch eine Frage von da hinten. Ich würde sagen, die letzte Frage, weil die meisten schon aufbrechen F: Kurze Frage zum Thema false positive. Mal ein Forum zu etwas wie Medizin oder Sterbebegleitung gegen-gescannt? Auf die Themen schwarz-weiß, Negativität, und so? Thema Operation? Einfach so im Ranking im Vergleich zu Fefe, donalphonso, usw. liegen würde? A: Wäre interessant, habe ich nicht gemacht. Es gibt viel zu tun, viel zu rechnen F: na einfach von der Idee her, könnte da ja auch relativ viel false positive auftreten, oder? A: Klar … (durcheinander) … tschuldigung F: Rein aus dem Bauch heraus ist so die Richtung mal so ein Ansatz, wenn man sagt, man möchte viel false positive aufdecken. A: Ja, es ist ganz wichtig, dass wir die Entstehungskontexte und die Medien der Texte mit berücksichtigen müssten das haben wir jetzt überhaupt nicht gemacht, wir haben so getan, als seien alle Texte gleich, aber es ist natürlich nicht so. Wer sich mit der Thematik beschäftigt, merkt, dass Textsorten usw. einen unglaublichen Einfluss darauf haben, auf was wir da eigentlich messen. Deswegen hat die Fragestellerin völlig recht. Aber es gibt natürlich Methoden, Textsorten zu erkennen. E: Alles klar! Dann ganz vielen Dank nochmal an Josh und auch dass da noch so viel Zeit war… subtitles created by c3subtitles.de