Herzlich willkommen zu meinem Talk. Vielen Dank für die nette Einführung und die nette Begrüßung von euch allen!
Ihr seht der Talk hat den anspielungsreichen Namen "Überwachen und Sprache"
spielt natürlich auf Foucault an "Überwachen und Strafen"
Allerdings, lange bevor Foucault die Genese der Disziplinargesellschaft dargestellt hat
findet man in einem Kinderbuch eine sehr schöne moralische Erzählung
die heißt "Das Kind im Glashaus" von Heinrich Oswalt entstanden 1877 und sehr weitsichtig
In Frankfurt lebt ein Glasermeister,
Herr Lebrecht Scheibenmann, so heißt er;
Der hat ein kleines Töchterlein,
Das wollte nie gewaschen sein.
Und kam mit Schwamm und Seif sein Gretchen,
Da lief davon das böse Mädchen;
Es warf sogar den Waschtisch um -
Das Wasser floß im Haus herum.
Da fing Herr Lebrecht Scheibenmann
Ein seltsam Haus zu bauen an,
Aus lauter Glas ein Haus, das, ach!
Durchsichtig war bis unters Dach.
Und in dies Glashaus setzte man
Das böse Töchterlein sodann.
Da blieben, um es anzusehn,
Die Leute auf der Straße stehn.
[…]
Da schämte sich das Kind und lief
Im ganzen Haus herum und rief:
“Wo soll ich mich denn nur verstecken?
Man sieht mich ja in allen Ecken!
Das Dach, der Keller, jedes Zimmer
Ist ja von Glas! man sieht mich immer!”
Die Mutter sprach: “Mein liebes Kind!
Ein Mittel gibt’s, das hilft geschwind:
Wenn dich die Leute artig sehn
Dann werden sie vorübergehn;
[…]
Das merkte sich das Töchterlein;
Es nahm sich vor, geschickt zu sein.
Und weil’s beim Waschen nicht mehr schrie,
Da lachten auch die Leute nie;
Denn jeder, der ins Haus jetzt blickt,
Der sieht ein Kind, das ganz geschickt.
Und habt Ihr selbst ein Kind, Ihr Leut’,
Das bei dem Waschen immer schreit,
Sagts nur Herrn Lebrecht Scheibenmann,
Der schafft Euch gleich ein Glashaus an.
Ja, da … erste Applausansätze lacht
Applaus
Ja, interessante Geschichte, die natürlich sehr gut auf unsere Zeit passt
denn Lebrecht Scheibenmann heißt Keith Alexander und arbeitet für die NSA
Die NSA hat aus unser aller Zuhause Glashäuser gemacht
wir können alle gesehen werden in diesen Glashäusern
und man weiß nicht, bzw. ich bin mir ziemlich sicher, dass man damit pädagogische Ziele verfolgt
dass bestimmte Handlungen nicht mehr als akzeptabel gelten
und dass wir diese Beobachtung verinnerlichen
Bei dieser Beobachtung spielt Sprache natürlich eine ganz wichtige Rolle
Viele unserer Äußerungen finden im Medium der Sprache statt
Das hat auch viele Hacker auf die Idee gebracht, dass wir die NSA austricksen mit einer Seite wie "Hallo NSA"
Eine Website, die wie ein „Bullshitter“ verdächtige Wörter zu Botschaften zusammensetzt
und diese dann getweetet, gemailt oder verchattet werden sollen
um soetwas zu erreichen wie hier "Operation Troll the NSA“
dass man die NSA-Scanners jammen kann, dass man eine DDOS Attacke machen kann.
indem man einfach zu viel Content schickt, der quasi verdächtig ist auf der Basis von Keywords
In meinem Vortrag soll es darum gehen, dass dieses Bild von der NSA falsch ist.
Wir können nicht davon ausgehen, dass in der NSA die Leute tatsächlich bei Anzeige eines Keywords
sofort etwas ausdrucken und zu einer Gelächter
Analyse schreiten
und sich das genauer anschauen und qualitativ quasi auswerten
und das natürlich eine sehr intensive Tätigkeit
und deswegen ist ein Keyword-Spam-DDoS natürlich erfolglos wäre
Ihr alle werdet vermutlich die thanksgiving taklkingpoints der NSA gelesen haben.
Ich weiß nicht, ob ihr darüber gestolpert seid, dass unter Punkt 4 etwas ganz wichtiges steht
“NSA brings together the best linguists, analysts, mathematicians, engineers and computer scientists
in the United States.“
und die Linguisten werden als erstes genannt.
verhaltenes Lachen
Also da sieht man, der NSA ist durchaus bewusst, dass Sprache ein wichtiges Medium ist
und das auch für sie sehr wichtig ist. Insofern macht es durchaus Sinn, sich damit zu beschäftigen
Zufälligerweise wurde vom Innenminister die neuste Analysesoftware geleakt, der "Advanced Security Toolkit"
Entwickelt vom von-Leitner-institut für verteiltes Echtzeit-Java. Gelächter
Wir gucken uns zunächst unsere heutige Mission an.
Die heutige Aufgabe besteht darin, die deutsche Bloggerszene unter die Lupe zu nehmen
die radikalisiert sich ja offenbar seit Regierungsübernahme durch die Große Koalition
wichtig ist es, zu schauen, ob Aktionen in Vorbereitung sind, und ggf. radikale Subjekte zu identifizieren,
die sich da besonders hervortun. Zunächst wählen wir unsere Targets, wir kriegen natürlich welche vorgeschlagen
Leider kann ich nur eine kleine Auswahl möglicher Targets präsentieren. Ich hätte gerne noch viel mehr genommen
Es gibt ein paar gesellschaftskritische Blogs und Newssites
wie blog.fefe.de, indymedia, Mädchenmannschaft, Netzpolitik.org, rebellmarkt.blogger.de
Und religiös motivierte Webseiten, wie kreuz.net, islambruderschaft.com-blog und Diskussionsforum salafistisches
und wir bestätigen natürlich die Auswahl. Das ist eine sehr sinnvolle Auswahl
Folgende Analysen sind möglich. Ich kann natürlich nur eine Auswahl an möglichen Analysetools heute zeigen
Ich würde gerne viel mehr zeigen, aber die Zeit wird nicht reichen.
Zunächst gucken wir uns an, was schreiben Autoren über mögliche sensible Ziele
Wir machen also mal eine Zielanalyse.
diese untersucht auf Basis von Named-Entity-Recognition die Kollokation zu möglichen Terrorzielen
Wir müssen … was ist das denn? … wir gucken mal ins Handbuch rein, was Named Entities sind
ist ja unser erster Tag heute
Named-Entities sind zunächst mal Ausdrücke, die eine Etentität eindeutig von anderen Entitäten mit ähnlichen Attributen unterscheiden
Man denkt spontan an Namen, aber es ist nicht so trivial zu sagen was ein Name ist
Named-Entitiy-Recognition ist entsprechend das Verfahren, wie man solche Named Entities identifiziert
Es gibt sicherlich unterschiedliche Klassen von Named Entities, bspw. Personen, Organisationen, Orte
Manchmal ist auch nicht so deutlich zu was eine bestimmte Named Entity gehört. z.B. „der Bundestag“
das kann sowohl ein geografischer Ort sein, als auch eine Organisation
Jetzt müssen wir noch wissen, was Kollokationen sind
Das sind statistisch überzufällig häufige Wortkombinationen
d.h. “we define a collocation as a combination of two words, that exhibit a tendency to occur near each other in natural language that is to cooccur”
also z.B. „ein Weg einschlagen“, „ein Weg gehen“
Das sind typische Verbindungen zwischen den Worten „Weg“, „gehen“ bzw. „einschlagen“
und diese Verbindungen bilden Kollokationen, wenn sie überzufällig sind
wie wir mit statistischen Tests feststellen können
und wir können die in natürlicher Sprache beobachten
Ein Beispiel – ihr müsst das jetzt nicht lesen können – ich wollte ein Beispiel zeigen zum Wort „Spezialexperte“
man sieht hier das “keyword in context”, also das gesuchte Schlüsselwort
und man sieht die Kontexte dieses Wortes, also einen „ausgesuchten Spezialexperten für Internetfragen“ haben sie wohl nicht gefunden
Wir müssen kein Ratespiel machen, aus welchem Blog das wohl stammen könnte
Was man dann macht, bei einer Kollokationsanalse
man untersucht Kontexte
z.B. hier fünf Wörter links, fünf Wörter rechts bis Satzanfang oder -ende
Man zählt einfach die Wörter, die im blauen Bereich stehen
und vergleicht die relative Frequenz mit Wörtern, die links und rechts im weißen Bereich stehen
Wenn ein Wort signifikant häufiger im blauen Bereich vorkommt, kann man sagen, es ist eine Kollokation des Worts „Spezialexperte“
Hier fällt bspw. auf „kriegen“ oder „Adobe-Spezialexperten“ Gelächter
Man kann Kollokationen als Graphen visualisieren Gelächter
Die Knoten bezeichnen Lexeme, (ich weiß jetzt nicht, was es da zu lachen gibt) mehr Gelächter
(das ist ernste Linguistik!) und die Kanten bezeichnen „ist Kollokation von“
Sie sehen also hier „die besten der besten, Sir“, Sarrazin und Mehdorn gehören dazu.
Es wuchert ein bisschen weiter. „Adobe-Backup“, „Backup-Spezialexperten“ … interessant
Ok. Wir sind im Bereich der Zielanalyse. Wir starten mal die Analyse.
Was machen wir da eigentlich? Was wir machen ist, wir erkennen in allen Corpora alle Named Entities
Wir berechnen das erstmal mit Methoden maschinellen Lernens.
D.h. man untersucht bestimmte Kontexte in denen Named Entities stehen.
Wir haben einen Trainings-Corpus, in dem steht bereits drin, was Named Entities sind
bspw. dass „Bundestag“ eine Organisation ist und die Software lernt aus diesen Kontexten
was typische Kontexte für solche Named Intities sind und versucht diese auf neue Corpora anzuwenden
Was wir hier machen: wir identifizieren in allen Corpora, in allen Blogs, die wir untersuchen die Named Entities.
wir kategorisieren diese Named Entities nach Personen, Organisationen, geografischen Orten und Sonstigen
und dann berechnen wir die Kollokationen eben zu relevanten Named Entities.
z.B. „Angela Merkel” könnte interessant sein oder sowas.
Und dann schauen wir auch in den Kollokationen, ob darin irgendwelche Gefährderwörter sind.
Also Wörter, die auf Anschlagsplanungen oder sonstiges hindeuten. Das machen wir jetzt.
die Analyse ist offenbar abgeschlossen und Ergebnis ist, wir haben Gefahrenstufe 1 von 5, also nicht weiter tragisch
die Software schlägt uns eine Überprüfung der Gefährdungslage in Hinblick auf Berlin vor
also der Ortsangabe bei donalphonso, Rebellmarkt-Blogger
Potentielles Ziel bei Fefe ist SPD Gelächter und bei der Mädchenmanschaft sollen wir nach Kristina Schröder als Person gucken Gelächter
Wir haben jetzt zum Beispiel als Auftrag bekommen, zu schauen, warum donalphonso Böses über Berlin schreibt und ggf. etwas plant
Wir können uns jetzt Kollokationsgraphen anzeigen lassen oder Geokollokationen
D.h. wir haben eine Landkarte und darauf stehen an den Orten, über die donalphonso schreibt, die Kollokationen zu den Orten
In Amerika schreibt er über Boyd und Kultur, Einzeltäter, verwirrt und „hassen Mail“ und sowas
Deutschland, Mitteleuropa ist natürlich im Fokus. Das geht auch bis Italien runter
Da sieht man auch, worüber donalphonso so schreibt.
Wir nähern uns Berlin. Da sind zu viele Kollokationen als dass wir sie alle auswerten könnten
Deswegen schauen wir uns den Kollokationsgraphen an und suchen nach Hinweisen auf Terror, der stattfinden könnte
Ich lese einige vor: „Berlin“, „Slum“, „Reichshauptslum“, „arm“, „Transferleistung“, „abscheulich“, „Berliner Hipster“ Gelächter
Das zeigt zwar eine sehr negative Haltung zu dem Gegenstand, aber ich würde nicht sagen terrorverdächtig.
Das weitere potentielle Ziel waren die Organisationen „SPD“ bei Fefe
Wir lassen uns den Kollokationsgraphen anschauen. Fefe und die SPD. Gelächter
Applaus
hey „Verräterpartei“, „Umfallerpartei“, mal kurz zurück
Insgesamt in der gesamten Liste fanden sich tatsächlich so Wörter wie:
„erhängen“, „erzwingen“, „Spitzenkandidat“, „Verräterpartei“, „Umfallerpartei“, „Pest“, „Cholera“ Gelächter, Applaus
Wenn wir uns den Kollokationsgraphen anschauen, dann merken wir schon, das sind Vorwurfshandlungen.
Aber da wird nicht geplant, dass der Spitzenkandidat um die Ecke gebracht werden soll von Fefe
Wir machen jetzt weiter mit dem Ideologiemonitor. Wir wollen jetzt mal messen …
Es ist belegt, dass die NSA viele Softwarepatente für Algorithmen zu Named-Entity-Recognition angemeldet hat
Es wurde in der Tat viel in dem Bereich Forschung betrieben vor einiger Zeit
Aber man findet zunächst heraus, was interessante Targets sind und was über die gesagt wird
Das kann man sicherlich noch besser machen, in dem man Idieologien misst.
Was wir jetzt berechnen wollen ist die Ähnlichkeit von Texten, von Blogs zu bestimmten weltanschaulichen Ideologien
Wir haben die Möglichkeit, linksextreme, rechtsextreme oder islamistische Einstellungen zu messen
Das machen wir so, dass wir typische Kollokationen berechnen … also zu einem bestimmten Korpus
Von diesem Korpus lernen wir. Das ist also das Vergleichsmodell.
Wir nehmen mal die „Islambruderschaft“. Die hat ein Blog und da schreiben sie böse Sachen
und wir lernen von diesem Blog: was sind typische Wortverbindungen, die wir als islamistisch betrachten können
wir wollen gerne wissen, wer in einem salafistischen Diskussionsforum besonders viel von radikalislamischer Ideologie hat
also das ist ein ganz fieses Untersuchungsprogramm, das wir hier starten. Ja, die Analyse läuft
Das Ziel ist es, wie sind bestimte Texte von bestimmter Ideologie durchdrungen
und wir gleichen ein salafistisches Diskussionsforum mit unserem Trainingskorpus ab
und dieses Trainingscorpus ist ein Blog von der Islambruderschaft
was wir bekommen sind Wortverbindungen, die womöglich auf islamistische Grundhaltungen verweisen
– also ich hoffe, ihr denkt die Anführungszeichen immer mit –
Wir haben hier „Allah -> Krieg“, „Bombe -> Jahr -> Feind“, „Kufr -> beleidigen“, „Gesetz -> Islam“, „Bedeutung -> Jihad“, „Allah -> Afghanistan“, „martern -> Kufr“, usw.
Also es gibt eine ganze Reihe dieser Wortverbindungen, die wir aus diesem Korpus lernen
und jetzt schauen wir, wie diese Wortverbindugnen in personenspezifischen Korpora von Mitgliedern
in diesem Diskussionsforum vorkommen. Wir sehen hier einen User – natürlich ist der Nickname nicht echt
man sieht es ein bisschen schlecht, aber hier sind rote Verbindungen angeleuchtet
Das sind islamistische
Gelächter
Das sind sämtliche Kollokationen in diesem Korpus mit der höchsten Typizität
und solche Verdichtungspunkte verweisen auf bestimmte Themen
Wir haben auch den User „JihadFan“ Gelächter – der aber offenbar auch nicht so jihadistisch unterwegs ist
weil es sind relativ wenige – wir haben aber die Userin „Muslima“ – und leider sieht man das jetzt wirklich nicht so gut
ich mach es mal ein bisschen größer – bei ihr sehen wir relativ viele rote Verbindungen
wir können uns natürlich auch ein paar verdächtige Verbindungen anschauen
jetzt müssen wir wieder klein werden – da sind solche Verbindungen wie „der -> ganzen -> Welt -> Frieden -> Krieg -> bringen“
Da sind Verbindungen wie „Bombadierung -> Zivilist -> schlachten -> martern -> Invasoren“, „erfolgreiche -> Operation“
oder Verbindungen wie „Koran -> Taliban -> edel -> Sieg“, die vielleicht auf das Schreiben über das Thema hindeuten
das heißt, wir würden sagen, das wäre ein Ziel für weitere operative Maßnahmen, diese Userin,
und das schicken wir ab und dann geht es weiter.
Damit haben wir aber nichts mehr zu tun, denn wir sind ja nur Linguisten. Gelächter, Applaus
Ich deute das als Zustimmung. Gelächter Gut, wir fahren mit weiteren Analyseschritten fort.
Und zwar messen wir Radikalität. Radikalität ist etwas, das man so ohne weiteres erstmal nicht messen kann
denn es ist ja selbst ein ideologisches Konzept
Wir – vom Innenministerium – verstehen unter Radikalität zunächst eine stark negative Weltsicht
wir verstehen darunter eine Intoleranz gegenüber abweichenden Auffassungen, also ein schwarz-weißes Weltbild
wir verstehen darunter eine hohe emotionale Involviertheit
und eine Neigung zu Verschwörungstheorien
vereinzeltes Gelächter Ja! mehr Gelächter
Das ist nicht ganz vom Himmel gefallen. Es gibt tatsächlich Forschungsliteratur, die diese Punkte nennt
wie operationalisieren wir das jetzt, also eine negative Weltsicht? Ich möchte euch zwei Ansätze vorstellen
Es gibt also den sehr einfachen, listenbasierten Ansatz. Man sagt, wir haben eine bestimmte Liste von Wörten,
deren Bedeutung wir kennen und gucken, wie häufig finden sich die Listenelemente in Texten
Bspw. wenn wir „negative Weltsicht“ operationalisieren wollten, könnten wir sagen, wir suchen nach Phrasen
oder auch Vokabeln, die skandalisieren, wie: „Blindheit“, „Blödheit“, „Bodenlosigkeit“, „Chaos“, „Debakel“,
„Desaster“, „Dreistigkeit“, „Dummheit“, das könnte man alles anders nennen, könnte Indikator sein für negative Weltsicht
Wir haben auch den Gebrauch von negativ wertenden Adjektiven. Nur mal die ersten: „abartig“, „aberwitzig“,
„abfällig“, „abgedroschen“, „abgegriffen“, „abgeschmackt“, usw. Insgesamt 700, oder so
das wäre also der listenbasierte Ansatz.
Was wir natürlich auch machen können ist ein schwarzweißes Weltbild operationalisieren
das kann man mit Hilfe von „semantischen Taxonomien“ machen. Semantische Taxonomien beschreiben die Relationen
zwischen Wörtern in unserem Wortschatz, bspw. könnte auf schwarzweiß-Denken in Texten hindeuten
eine hohe Frequenz von „polaren Antonymen“, also Gegensatzwörtern, die man ohne degradierte Form gebraucht
also dass man sagt „lang“ und „kurz“ statt „länger …“ oder „kürzer als“.
Noch deutlicher wird es vielleicht bei Wörtern, die gar nicht gradierbar sind, wie „wahr“ oder „falsch“,
„tot oder lebendig“, „anwesend oder abwesend“, „dafür oder dagegen“. Da gibt es nichts dazwischen,
die sind komplementär und ihr Gebrauch, könnte man meinen, lässt Rückschlüsse auf ein schwarzweißes Weltbild zu.
Emotionale Involviertheit könnte man operationalisieren mit Hilfe von Gradpartikeln
das ist sowas wie „ich finde das absolut toll“, oder „total toll“. Ja, nicht nur „toll“, sondern „total“
Das wäre bspw. ein Gradpartikel aus dem absoluten Intensivierungsbereich
wir können Gradpartikel unterscheiden nach Intensivierungsbereichen und es gibt unterschiedliche Abstufungen
wie den „absoluten“ Intensivierungsbereich, in den „absolut“, „gänzlich“, „grundlegend“, „gründlich“,
„im geringsten“, „komplett“, „längst“, „rein“ usw. reinfallen, den „extrem hohen“ Intensivierungsbereich:
„höchst“, „äußerst“, „zutiefst“, „aufs äußerste“, „aufs höchste“, „aufs Tiefste“, „höchstlichst“, usw.
und den hohen Intensivierungsbereich mit „sehr“, „stark“, „gewaltig“, „besonders“, „so“, „arg“, „übertrieben“ usw.
Wenn wir die Distribution dieser Gradpartikel in Korpora messen, dann könnten wir sagen:
vielleicht sind die Indikator für emotionale Involviertheit. Und die Neigung zu Verschwörungstheorien
das ist natürlich besonders schwierig zu operationalisieren, da haben wir einfach
eine Liste von Wörtern genommen, die darauf verweisen, dass vielleicht etwas nicht so ist, wie es sein könnte
wenn man Wörter hat wie „angeblich“, „vermeintlich“, „scheinbar“, „behaupten“, „heucheln“,
„verheimlichen“, „verschweigen“, „fingieren“, „vorgaukeln“, „entlarven“, usw
das sind natürlich Wörter, die zumindest das Potential haben, darauf zu verweisen,
dass die Welt nicht so ist, wie sie uns verkauft wird oder dargestellt wird.
Und das findet man natürlich eher bei Personen, die Verschwörungstheorien anhängen
Wenn man jetzt den Radikalitätsindex berechnet – das hier sind normalisierte Werte – dann kann man sehen Gelächter
dass Fefe, knapp gefolgt von donalphonso und mit kleinem Abstand das salafistische Forum lautes Gelächter
und weiterem Abstand kreuz.net hier aufschlagen. Fefe hat nirgendwo die erste Position, muss man dazu sagen
also auch bei den Verschwörungen nicht, da schlägt kreuz.net Fefe noch um Längen
– interessanterweise übrigens, wie ich fand –
und donalphonso ist also tatsächlich ein großer Skandalisierer und Intensivierer, kann man feststellen
wenn man sich noch einmal das Ranking anschaut, dann sieht das so aus … Fefe, donalphonso, salafistische …
Also ob wir operative Maßnahmen einleiten überlasse ich euch. Ich würde sagen, wir behalten die im Auge.
Das waren jetzt ein paar Techniken, die ich euch darstellen wollte, die wenig zu tun haben mit dem „Keywordbullshitter“
den wir gesehen haben. Denn diese Keywords selbst spielen eine sehr geringe Rolle bei den Analysen, besonders wie zuletzt gesehen
Ich denke die Linguistik und die NSA-Linguisten sind sicherlich sehr viel weiter um e-Mails zu filtern
Ich denke, wenn man sich den Rechenschaftsbericht der G10-Kommission anschaut, die die deutschen Geheimdienste überwachen
die hatten ja zunächst so dargestellt es wurden so wahnsinnig viele e-Mails gescreent, aber das meiste davon war Spam
und wenn man sich den neueren Bericht anschaut, dann steht da, wir haben die Spamerkennung verbessert
und es wurden deswegen sehr viel weniger e-Mails. Aber es ist auch die Rede von mehreren Ebenen des Screenings
und es werden erst zu einem sehr späten Zeitpunkt e-Mails tatsächlich in die Hand genommen und qualitativ ausgewertet
und ich denke, dass vielleicht der allererste Zugriff über ein Keyword erfolgt, das auch sehr allgemein gehalten sein kann
dass die weiteren Ebenen dann natürlich viel feinere Analysen beinhalten, die eben Kollokation, semantische Taxonomien
oder Topic-Modelling, über das ich heute leider nicht sprechen kann, benutzen
Ja, ich bin noch nicht fertig. Vielleicht kennen einige von euch den Film „Alphaville“?
Alphaville ist ein Film von Jean-Luc Godard, in dem es darum geht dass Lemmy Caution, ein Spion,
in die Stadt Alphaville kommt, die von einem allmächtigen, diktatorischen, totalitären Computer beherrscht wird: Alpha 60
und ein Teil seiner Aufgabe ist es, diesen Computer auzuschalten und den Erzeuger von Braun zu finden.
Er spricht dann mit einem der Programmierer dieses Computers, einem Assistenten von von Braun
und der Assistent fragt ihn: „Sind Sie auch ein Spion?“ – Ich kann den Screenshot wegen Urheberrecht leider nur so zeigen
Darauf sagt Lemmy Caution: „Nein, das wissen Sie genau, ich bin nämlich ein freier Mann!“
Daraufhin sagt der Assistent: „Ihre Antwort ist bedeutungslos. Wir wissen nichts.
Wir registrieren, berechnen und ziehen unsere Schlussfolgerungen.“
Und dieser Satz erfasst eigentlich das Problem, das wir mit den Diensten haben, relativ gut.
Denn die Dienste unterwerfen unsere Lebensäußerungen einer Logik, die zunächst nicht unsere Logik ist
sie werten sie nach bestimmten Mustern aus: „Wir registrieren, berechnen…“, sie ziehen Schlussfolgerungen daraus
aber sie müssen sich dafür nicht rechtfertigen. Sie müssen ihre Methoden nicht offenlegen
und ihre Logik nicht zur Diskussion stellen. Und genau das ist das Problem.
Das ist aber ein Kennzeichen für alle totalitären Systeme, dass sie ihre Logik nicht rechtfertigen müssen.
Wir wissen überhaupt nicht, was überhaupt verdächtig sein könnte
und der Grund dafür ist, dass diese Dienste eben im Geheimen operieren können
und unsere Aufgabe sollte es sein, diese Methoden öffentlich zu machen, diese Methoden zu diskutieren
zu beweisen, dass diese Methoden fehlerhaft sind und unglaublich viele „false positives“ produzieren
und dass wir es deswegen lieber lassen sollten und wir vielleicht ein paar Scheiben ins Glashaus werfen
Vielen Dank
Applaus
Engel: Ja vielen Dank, Josh, für diesen richtig coolen Talk. Was auch cool ist:
Was auch total cool ist, wir haben noch richtig viel Zeit für Fragen und Antworten
Wir haben vier Saalmikrofone hier, wir haben zwei auf jeder Seite
für Leute, denen es schwerer fällt, zum Saalmikro zu kommen, habe ich auch das tragbare Handmikro
und wir können noch gucken, ob es Fragen aus dem Internet gibt und die dann den Signal Angle stellen
seid nicht so schüchtern, wir haben noch eine halbe Stunde, das war ja wohl ein guter Input
wenn ihr also eine Frage habt, dann bewegt euch dahin.
Ja vielleicht fangt ihr an, euch zu den Mikrofonen zu bewegen, geht das auch für euch beide?
Dann komm ich gleich zu dir, dann die erste Frage
Frage: Wie ist denn das mit diesen Kollokationen und Kultureller Kontext? Also es könnte sein, dass wir jetzt bspw.
da wollte jetzt ein Osama ein Konto eröffnen und das wurde ihm verweigert, weil er Osama heißt
dass wir dann diese Kollokation quasi feststellen, aber dass der Name Osama ein recht geläufiger im arabischen Kontext ist
wie wird damit umgegangen, dass das etwas ganz normales dort ist, für uns aber sofort verdächtig erscheint?
Antwort: Vielen Dank, ich weiß nicht auf welcher Ebene ich die Frage beantworten soll.
Aus linguistischer Perspektive kann man damit, glaube ich, recht gut umgehen, indem man weiteren Kontext dazu nimmt
und relativ schnell disambiguieren könnte, dass es sich eben nicht um Osama bin Laden handelt,
zumal der ja auch schon tot ist
Gelächter
aus Sicht eines Analytikers, der vielleicht gar nicht versteht, was unter der Haube eines solchen Toolkits läuft, ist es erstmal egal
denn er folgt seiner Logik, er hat seine Mission und wie gesagt, die Menge an false positives ist riesig
das wird eben damit gerechtfertig, dass das, was auf dem Spiel steht, so unglaublich monströs ist, wenn es denn fiele, dass das jedes Mittel rechtfertigt
E: Okay danke, dann haben wir noch eine Frage von dir und dann du als nächstes, bitteschön
F: ja, mich würde interessieren, ob du dir mal die Mühe gemacht hast, mit diesen Methoden
auch mal sowas wie die Pressemitteilungen des Innenministeriums zu analysieren
weil da ist doch bestimmt auch eine Menge Schwarzmalerei und emotionaler Sprachgebrauch zu finden
A: Sehr interessant, das ist eine gute Frage. Habe ich nicht gemacht
Was ich gemacht habe, war bei Politikerinnen und Politikern, also Angela Merkel, usw.
das trieft aber natürlich von positiven Darstellungen der Wirklichkeit
weil als Regierungschefin ist man natürlich bemüht, die Wirklichkeit so zu konstruieren,
dass sie in einem möglichst positiven Licht erscheint und es wäre sicherlich interessant das genauer anzuschauen
E: Die nächste Frage von dir bitteschön
F: Wäre es eigentlich möglich, so Konnotationsspam zu erzeugen
in einem etwas komplexeren Zusammenhang mit ein paar Bots?
A: Naja, hier kommt eine kluge Frage. Wenn wir jetzt schon wissen, dass Keyword-Bullshitting zu grob ist
ob wir dann nicht klugerweisen unser Wissen nutzen können, um Texte automatisiert zu erstellen,
die bestimmte Kollokationsprofile abbilden, bspw. Das können wir alles machen.
Aber ich möchte noch einmal drauf hinweisen, was mir wirklich ganz zentral ist
es hat, glaube ich, keinen Sinn, sich zu verstellen, sich zu verbergen in diesem Kontext
was sich ändern muss, ist diese Logik, in der dieses Spiel gespielt wird
Denn für jede Methode gibt es eine Gegenmethode. Das ist ein Wettrüsten, das in diesem Fall sehr wenig Sinn macht
Natürlich ist Verschlüsselung und alles sehr sinnvoll, aber gegen Dinge, die geäußert werden
und wir wollen uns eben auch öffentlich äußern, da sind wir gegen Ausspähung nicht gefeit.
und ich bin der Meinung, dass wir uns durch diese Dinge nicht einschränken lassen sollten
sondern dass wir uns eher darum bemühen sollten, die Logik der Dienste zu hinterfragen,
sie aus dem Geheimen herauszuziehen und das zu diskutieren, was da passiert, das ist das Entscheidende
E: Okay, die nächste Frage
Applaus
die nächste Frage ist von mspro und danach hätten wir noch Fragen aus dem Internet
F: Hallo, ich hätt da noch ne Frage zu deiner Anspielung am Anfang mit „Überwachen und Strafen“
und deinem Schlussstatement. Das passt nicht so richtig zusammen. Du hast gesagt:
sowohl im Glashaus, als auch beim Panoptikum geht es darum, dass ich weiß, dass der Überwacher da ist
und weiß, nach welchen Kriterien er mich beurteilt, damit ich eine disziplinarische Wirkung habe
jetzt sagst du aber, dass ja genau diese Opakheit der Geheimdienste nach ihren Verdachtskriterien das Problem ist
das widerspricht sich total. Wenn ich nicht weiß, wonach ich als verdächtig betrachtet werde,
diszipliniert mich das ja gar nicht. Irgendwie passt das nicht zusammen
A: Danke für die Möglichkeit, das noch ein bisschen zu präzisieren. Ich denke,
wir haben natürlich eine Ahnung. Das ist ja das Schlimme, wir haben nicht mehr als eine Ahnung davon,
was denn als vermeintlich gefährlich betrachtet wird. Und genau das ist das Problem
also das Nicht-Wissen darum ist vielleicht noch die totalere Methode uns zu überwachen,
denn, ich möchte ein Beispiel geben: ich habe kürzlich ein Buch gelesen über ein maoistisches Gefängnis
und da ist es so, die Verhöre finden so statt, dass der Verhörende ein Buch hat.
und er sitzt dem Delinquenten gegenüber und sagt: „In diesem Buch steht alles, was du falsch gemacht hast,
alle deine Sünden stehen hier geschrieben. Du musst nur gestehen.“ Aber er darf nie in das Buch schauen
und er zermartert sich sein Gehirn unglaublich, weil er nicht weiß, was in diesem Buch steht
und er überlegt sich, „was kann ich noch alles gestehen, damit ich dieses Buch abarbeiten kann?“
und ich glaube gerade die Unwissenheit darüber ist die viel raffiniertere, perfidere Methode der Kontrolle
und insofern schließt sich das nicht gegenseitig aus, weil unser Kopfkino,
was alles gefährlich sein könnte, ist mächtig genug.
E: Alles klar, danke. Dann haben wir jetzt Fragen aus dem Internet. Magst du die kurz stellen?
F: Gibt es eine Instanz, die die Keyword-Listen überprüft, und wenn ja, welche ist das?
A: Ja, sehr gute Frage! Keine Ahnung, weil wir wissen es nicht. Die leaken ab und zu
– und ich habe mir überlegt, mal eine Zusammenstellung zu machen:
es gibt die Echelon-Liste und es gibt ganz verschiedene Listen – also nein.
die sind nicht validiert, aber man kann davon ausgehen, dass die schon irgendwie an Fallbeispielen überprüft sind
denn sonst würde man sich ja unglaublich viel Arbeit machen. Aber wie und wo
und wie man das wissenschaftlich nachvollziehen kann, das ist leider nicht beschrieben und nachlesbar.
E: Da gibts wohl noch mehr Fragen aus dem Internet?
F: Noch eine zweite: Brächte es was, wenn wir jetzt alle schön in unserem Dialekt schreiben,
weil dann werden die Keywörter eventuell nicht erkannt, oder ist das sinnfrei?
Gelächter und Applaus
A: Also als Hess kann ich dir da sache, das det schon was bringe wärdd Gelächter
also in der Tat, das hätte tatsächlich Chancen, es den Diensten schwerer zu machen, absolut
es gibt natürlich Verfahren, mit denen man Ähnlichkeiten zwischen Wörtern messen kann, usw.
das ist durchaus möglich. Aber es würde es schwerer machen.
Es würde ja auch die Kommunikation erheblich schwerer machen, wenn wir alle im Dialekt schreiben
es gibt dann keine Standardorthografie, aber es funktioniert natürlich auch. Wie in der Schweiz
Gelächter
E: okay, die nächsten beiden Fragen sind von euch und dann seid ihr beide da drüben dran
F: Ja, mich würde interessieren, wie man mit der Schwierigkeit von Fremdsprachen umgeht
oder allgemein der Vielfalt an Sprachen. Wie kann man ggf. einen Bezug herstellen,
wenn der eine in Deutsch, der eine in Englisch schreibt. Oder wie analysiert man die Salafisten,
wenn sie in ihrer Muttersprache sprechen.
A: Ja, also grundsätzlich gibt es Software, die designt ist das sie sprachunabhängig funktioniert
Zumindest wenn die Sprache sich klar in Wörter abgrenzen lässt, usw.
Ich glaube, diese Software ist nicht so gut wie Tools, die sprachliches Wissen einbringen,
aber nichtsdestotrotz wird sie eingesetzt. Siemens macht sowas, bspw. zur Autorenerkennung
das wird eingesetzt und funktioniert eben auch tatsächlich sprachabstrakt.
Man lernt Feature und es ist egal, in welcher Sprache man die lernt.
es wird halt reicher und besser, wenn man sprachliches Wissen einbringt
F: Ich hab eine Frage, die ein bisschen schwarz-weiß ist. Wenn man sagt, wir reden über diese Listen
und die Worte, die darin stehen, dann ist doch das Problem, dass sie nicht mehr wertvoll sind, sobald sie bekannt sind
d.h. man hat nur die binäre Option, solche Techniken nicht anzuwenden, oder die Listen nicht zu veröffentlichen
oder kommt man irgendwie darum herum
A: eine gute Frage. Ich glaube eben, es gibt überhaupt kein Entkommen.
Klar, wenn die Listen bekannt sind, dann funktioniert es nicht mehr, wir können die wegschmeißen
wir arbeiten ja schon nicht mehr mit Listen. Aber auch die anderen Verfahren.
Wenn wir die kennen, können wir sie wegschmeißen. Ich glaube, dass dann die nächsten Verfahren kommen
Verfahren, die klandestine Kommunikation erkennbar machen, die maximale Abweichung
von normaler Kommunikation sichtbar machen und damit ist man wieder gefangen.
Ich glaube, dieses Katz-und-Maus-Spiel existiert, aber ich glaube, wir müssen da raus,
weil ich glaube, dass es das nicht bringt. Ich glaube, man soll es einfach lassen.
Applaus
E: Okay, du bist als nächster dran
F: Ich fühlte mich durch den Vortrag an den Fall des Staatssoziologen Andrej Holm erinnert,
der als angebliches Mitglied der militanten Gruppe im Gefängnis gelandet ist und zwar deswegen,
weil die Bekennerschreiben der militanten Gruppe angebliche Parallelen
zu seiner wissentlichen Veröffentlichungen aufwiesen, was damals soweit in die Öffentlichkeit
kolportiert wurde, dass es hieß, in beiden käme das Wort „Gentrifizierung“ vor,
das damals noch ein bisschen seltener war als im Nachgang.
Hast du dich mit dem Fall mal näher beschäftigt, wie die Behörden da scheinbar vorgegangen sind?
A: Ja, ich hab auf den Datenspuren letztes Jahr einen Vortrag gehalten zu Autorenidentifizierung,
gerade auch mit Aufhänger Andrej Holm. Ich denke, dass da ganz unterschiedliche Dinge passiert sind
bspw. hat das BKA ein Gutachten gemacht und gesagt, dass Andrej Holm nicht der Autor ist
der Tipp kam offenbar woanders her, von irgendwelchen Diensten, die wohl auf maschinelle Verfahren zurückgegriffen haben
um da Ähnlichkeiten festzustellen. Wäre jetzt mein Tipp, aber das wissen wir natürlich auch nicht.
Aber irgendwoher muss das ja gekommen sein. Wenn das BKA sagt, er wars wohl nicht, aufgrund der Sprachanalyse, ist schon interessant.
Die Sprachdaten haben letztlich für den Fall keine große Rolle gespielt. Es wurde zwar kolpotiert in den Medien,
aber für den Haftbefehl und weiteres waren andere Aspekte ausschlaggebender.
E: Vielen Dank, du da hinten am Mikro bist als nächstes dran
F: Ja, ich wollte sagen, dass es mich gefreut hat, dass du den Link zu Foucault gemacht hast,
weil es ja bei „Überwachen & Strafen“ genau darum geht, dass wir dazu erzogen werden,
uns selbst zu überwachen, was letztlich diese Schere im Kopf ist. Ich finde das ein sehr schönes Bild, dass du da diese Parallele gezogen hast.
Meine Frage wollte ich eigentlich auch nach einem Beispiel für so ein False positive stellen,
das wurde ja gerade mit diesem Fall beantwortet.
A: Die spülen mal immer wieder in die Medien rein. Jemand hat in der Schweiz T-Shirts drucken lassen,
– die haben da Schwierigkeiten mit dem Flughafen – „Südanflug“. Und hat die T-Shirts auch bezahlt
und dann wurden die Tremata über den Umlauten weggemacht. Und dann stand da „Sudanflug“,
was dann aber gleich „Sudan-Flug“ gelesen wurde. Und dann hat die Bank gleich den Staatsschutz informiert.
Also so kuriose Fälle tauchen natürlich auf, wir haben auch von der Frau mit Schnellkochtopf gehört
das sind Dinge, die tauchen tatsächlich immer wieder auf. Wir kriegen es in vielen Fällen auch gar nicht mit, was passiert.
Man muss ja auch nicht informiert werden, wenn man Gegenstand von Überwachung ist. Ist ja auch so.
Wenn es im Interesse der Bundesrepublik ist, muss man nicht informiert werden
E: Ich hätte gerne Kooperation von Leuten der ersten Reihe, könnt ihr eure Sachen wegnehmen? Vielen Dank.
Wir haben noch eine Frage aus dem Internet, wenn ich das richtig sehe, bitteschön
F: Nicht aus dem Internet. Linguistik ist ja eine Geisteswissenschaft
und die sind ja bekanntlich an den Unis nicht so gut finanziert. Ist es bekannt, oder hast du eine Idee davon,
wie groß die Differenz zwischen der öffentlichen Forschung und der der Geheimdienste in der Linguistik
oder gerade im Bezug darauf ist. Wenn man sich die Budgets so anguckt, könnte da ja eine echte Differenz sein.
A: das ist eine interessante Frage. Richtig, Geistes- oder Kulturwissenschaften sind nicht so toll finanziert
aber die Forschung findet zum Teil auch in der Informatik statt. Die Verfahren, die ich vorgestellt habe,
haben zunächst mal nichts mit Überwachung zu tun. Ohne die Verfahren wäre Google keine so tolle Suchmaschine
d.h. die Verfahren sind im Grunde erstmal abstrakt von ihrer Verwendung.
Viel Forschung findet dann tatsächlich in Privatunternehmen statt, wobei die Unis glaube ich noch mithalten können,
aber ich würde meinen, die NSA finanziert ja auch Forschung an Unis, auch in Deutschland, und es geht gut voran in dem Bereich
Um das mal zu sagen: das ist zentrale Technologie, die brauchen wir. Wir erschließen uns Wissen, über Sprache
Unsere Anfragen an die Welt funktionieren mit dem Medium Sprache. Wir suchen Informationen mit komplexen Anfragen,
die alle erstmal sprachlicher Natur sind. Auch bei einer Google Bildersuche. Wir ordnen uns die Welt durch das Medium Sprache
und das ist eine zentrale Technologie, in die auch in Zukunft sehr viel Geld fließen wird.
E: Gut, ich habe noch mindestens drei Fragen gesehen, aber wir haben ja auch noch eine viertel Stunde Zeit
du bist als nächstes dran.
F: Ich würde mal gerne die Aktualität deiner vorgestellten Informationen hier überprüfen
Erstmal würde ich gerne wissen, woher du die Information hast, dass solche Sachen benutzt werden, kommt das aus den Snowden-Files?
Und: wie alt ist das ganze Zeug. Dieses Toolkit, kann ja auch sein, dass das schon fünf Jahre alt ist
und das mittlerweile flächendeckende Liveüberwachung jeglicher Sprache stattfindet und alles viel intelligenter ist.
A: Wichtige Frage natürlich, aber auch ganz wichtig: Das Toolkit war natürlich frei erfunden.
Keine Ahnung, wie das aussieht, werden wir auch nicht zu Gesicht bekommen. Ist schon klar.
– F: Das hab ich schon verstanden – A: Gut, klang jetzt eben so, tschuldigung.
Also, wie alt sind die Verfahren: die Entwicklung geht weiter, es geht vor allem um Verfeinerungen
in bestimmten Bereichen. Wie gesagt, Topic-Modelling hyped im Moment sehr, ist aber nicht grundlegend verschieden
von Kollokationsanalysen. Es ist ein ähnliches Verfahren. Die Algorithmen für maschinelles Lernen werden besser.
Die Rechenleistung wird besser. Wir können größere Daten anschauen, um von ihnen zu lernen, da tut sich eine Menge.
Aber grundsätzlich würde ich sagen, viel Neues gibt es nicht. Wir hätten uns das Identifizieren von Frames angucken können
aber ich würde meinen, es sind schon Technologien, die zum Einsatz kommen könnten und ausgereift genug sind,
dass sie zum Einsatz kommen aber darüber, ob sie tatsächlich zum Einsatz kommen, weiß ich nichts.
E: Alles klar, die nächste Frage ist von dir da hinten
F: Vielen Dank erstmal, für den spannenden Vortrag,
es war ein Ausflug in die Linguistik, den sogar ich als Ingenieur verstanden habe
du hast vorhin zurecht gesagt, dass man vermutlich anstatt mit Bullshitting von Keywords
es sichtbar machen sollte, was da passiert. Den Ansatz fand ich richtig.
Im zweiten Satz fragte ich mich: was wären denn dann die Möglichkeiten
wir haben ein paar absurde Beispiele gesehen, wie das mal in der Presse herauskommt
du als jemand, der sich damit viel beschäftigt hat, was würdest du sagen,
was sind so die Dinge, mit denen man sich, mit denen sich die Szene beschäftigen sollte?
A: Ganz schwierig, ja. Ich glaube, es geht nur der Weg über die Politik.
Es ist ein politisches Anliegen zu sagen, dass die Methoden öffentlich gemacht werden müssen
dass sie gerechtfertigt werden müssen in Hinblick auf Vadilität, u.ä. Aber das ist ein politischer Weg.
Das heißt Lobbying da, wo es wehtut. Man muss zu den Parteien gehen, die die Macht haben
und man muss auch mit denen reden und die überzeugen. Es ist ein hartes Brot, aber wichtig.
Man kann das nicht mit technischen Mitteln lösen. Ich weiß, das ist eigentlich unser Ansatz, aber das reicht nicht.
E: OK, du hast die nächste Frage
F: Wir haben uns jetzt hier kollokationsbasierte Sachen angeschaut.
In wie weit kommen denn formale Grammatiken zum Einsatz, die auch die Satzsyntax berücksichtigen?
Schauen wir uns den Satz an „auf keinen Fall sind unsere Politiker als Verbrecher und Dilettanten zu sehen“
da wird man mit der Kollokationsanalyse schnell einen False positive haben, oder?
A: Der Trend geht eindeutig weg von formalen Grammatiken, hin zu großen Datenmengen.
Zu eher mehr Kontext angucken, stärkeres maschinelles Lernen auf größeren Corpora
und eher der Google-Ansatz … F: wie Google Translate, so ähnlich A: … genau
mit vielen Daten die Sache lösen. Und das ist für uns Linguisten natürlich total frustrierend.
F: ja, ich komme selbst aus der Computerlinguistik, deshalb frage ich A: ja, das dachte ich mir schon.
Aber ja, es ist so. Aber wir sind uns, denke ich einig, mit linguistischem Wissen kann man vieles besser machen.
E: mspro, du hattest vorhin signalisiert, als wolltest du noch fragen, hast du es dir anders überlegt?
– hat sich erledigt – alles klar, dann bist du als nächstes dran
F: Was mir noch einfiel: wie würdest du das bewerten,
wenn man eine Überlegung zu einer Theorie sprachlicher Bedeutung da mit hinein bringt?
Was der Staat ja prinzipiell macht ist, er schmeißt sein Gewaltmonopol in unsere Sprache rein
und macht Regelsysteme auf, in denen er nachher die Bedeutung von gewissen Aussagen festlegt
und sagt: das hier ist wahrscheinlich eine kriminelle Äußerung oder die eines Kriminellen
kann man schon beobachten, bzw. ich könnte mir vorstellen aus einer Sprechertheorie,
dass das Verwüstungen in der Sprache anrichtet, dass der Staat Einfluss auf die Bedeutung unseres Sprachgebrauchs nimmt.
A: Das ist eine spannende Hypothese zu sagen, dadurch dass der Staat die Definitionsmacht hier hat zu sagen,
wie eine sprachliche Handlung verstanden werden soll, dass dadurch eine Bedeutungsverschiebung stattfindet,
die ggf. tatsächlich im Sinne eines „Neusprech“ nur noch bestimmte Äußerungen ermöglicht
das wäre eine spannende Hypothese, die mal zu überprüfen wäre
F: ja, also wenn man eine ganz moderne Theorie so „freier Signifikation“ annimmt, dann …
A: … dann haben wir immer noch Macht dann. Immerhin, subversiv können wir sein!
Aber das ist eine interessante Frage. Ich glaube nicht, dass der Einfluss auf den Alltag schon so stark ist,
das glaube ich nicht, aber warten wir es ab.
E: Gut, du hast die nächste Frage
Du sprachst gerade von den großen Datenmengen, die Datenmengen werden immer größer
damit ja auch irgendwie die Erfolgsquote dieser Voraussagen,
typischerweise selbst wenn die Algorithmen nicht besser werden, wenn die Datenmenge größer ist, wird es irgendwie besser
Was wird denn passieren, wenn wir einmal so große Datenmengen haben und die Algorithmen sich dann zusätzlich verbessern,
dass wir fast keine false positives mehr haben. Wir werden das dann nicht mehr mitbekommen
und es werden nur noch die Leute tatsächlich … das Horrorszenario, das ich mir gerade vorstelle,
es werden tatsächlich nur noch die echten Terroristen verhaftet. Und dann? Wie lange dauert es noch, bis es so weit ist?
Ich glaube, wir müssen jetzt handeln, bevor es so weit kommt. Denn sonst wird der Kampf dagegen
und die Rechtfertigung, dagegen Aktionen zu machen, immer schwieriger. Wie ist da deine Einschätzung?
A: Ganz spannender Punkt, hab ich noch nicht darüber nachgedacht.
Als erstes bin ich skeptisch, dass es so gut sein könnte, aber es ist ein spannender Punkt, ja
wenn nur noch die Terroristen verhaftet werden … die echten … dann haben wir ein Problem, ja …
Gelächter, Applaus
(Einruf; wird nicht aufgegriffen)
E: Du bist als nächstes dran
F: Wenn du dir mal die Berichte von Jeremy Scahill – das wurde im Tagesspiegel kolpotiert – anguckst,
die werten ja nicht nur die linguistischen Beziehungen aus, sondern tatsächlich auch:
wer hat mit wem telefoniert, wer ist mit wem verwandt und – eine ganz gefährliche Beziehung ist eben:
„Vater ist Islamist”, auch wenn man ihn 16 Jahre nicht gesehen hat – das ist evtl. ziemlich tödlich
und es scheint so zu sein, dass die ganzen Drohnenangriffe in zwei Zuständen laufen
nämlich im militärischen, operativ aktiven Zustand und dass sie eine Liste abarbeiten, wenn sie
gerade nicht operativ benötigt werden, wo eine Metadatenbank von oben nach unten nach einem Scoring abgearbeitet wird
und dann ist das Linguistische, glaube ich, nicht das gefährlichste, wenn man die falsche Verwandtschaft hat
A: ist richtig. Wir haben uns nur einen kleinen Teilbereich angeschaut von Daten,
die aber natürlich sehr wertvoll sind, weil sie sehr viel tieferen Einblick in unser Leben geben
als andere Daten. Gerade Radikalität zu messen – wovon ich nicht weiß, ob es stattfindet, etwas, was wir selbst vielleicht gar nicht wissen –
aber die Metadaten sind sehr viel mächtiger, wenn es um so harte Fakten geht.
Da sind die Metadaten natürlich interessanter.
E: Du hast die nächste Frage
F: Ich stimme zu, dass das ganz super wäre, wenn wir das auf der politischen Ebene besser in den Griff bekämen,
aber mit einer üblichen pessimistischen Einstellung, gibt es nicht eigentlich schon jede Menge Beispiele,
dass Politiker einfach auf den Zug aufspringen und das ganz super finden.
„Ist doch eine tolle Methode, funktioniert doch großartig!” ?
A: Ja! Was gemacht werden kann wird gemacht. Der Vortrag parallel ist ja über den „tiefen Staat“
das wär dann zu überprüfen, ob wir nicht trotzdem zu Regularitäten kommen können, zu einer Gesetzgebung
kommen können, die zunächst bestimmte Dinge zunächst mal verbietet. Ich finde das immer noch ein Ziel,
das wir glaube ich teilen. Aber natürlich, der Zug fährt in eine andere Richtung.
Aber was bei Snowden so unglaublich ist, ist, dass er Dinge in das Licht der Öffentlichkeit zerrt,
aber sie müssen eben da sein! Solange es nur Gerüchte sind, kann man nichts machen,
– und Desinformation ist eine wichtige Strategie – sind wir ausgeliefert.
Aber sobald harte Fakten da sind, wird es interessant. Dann kann man darüber diskutieren
und an dem Punkt sind wir jetzt wenigstens mal. Mal sehen, ob wir da nochmal hinkommen.
E: Okay, die nächste Frage kommt aus der ersten Reihe
F: Eher eine Ergänzung: Du hast gesagt, „was machen wir, wenn wir alle Terroristen fangen können?“
Natürlich müssen wir uns dann immer noch wehren, natürlich gibt es dann immer noch keine Rechtfertigung,
denn es wird immer noch alles gesammelt und – welche Datenbank ist 100% sicher?!
Früher oder später kommen die Daten an die Öffentlichkeit! Will ich dann wirklich wissen,
was man über mich weiß? Will ich, dass andere wissen können?
Wir brauchen keine Rechtfertigung, um dagegen vorzugehen.
Selbst wenn man nur noch die Terroristen fangen kann … wenn alle Daten gesammelt werden …
Können wir nicht wollen!
A: Danke, zumal auch das Konzept „Terrorist“ etwas ist, was man gesellschaftlich diskutieren kann.
E: Noch eine Frage von da hinten. Ich würde sagen, die letzte Frage, weil die meisten schon aufbrechen
F: Kurze Frage zum Thema false positive. Mal ein Forum zu etwas wie Medizin oder Sterbebegleitung gegen-gescannt?
Auf die Themen schwarz-weiß, Negativität, und so? Thema Operation?
Einfach so im Ranking im Vergleich zu Fefe, donalphonso, usw. liegen würde?
A: Wäre interessant, habe ich nicht gemacht. Es gibt viel zu tun, viel zu rechnen
F: na einfach von der Idee her, könnte da ja auch relativ viel false positive auftreten, oder?
A: Klar … (durcheinander) … tschuldigung F: Rein aus dem Bauch heraus
ist so die Richtung mal so ein Ansatz, wenn man sagt, man möchte viel false positive aufdecken.
A: Ja, es ist ganz wichtig, dass wir die Entstehungskontexte und die Medien der Texte mit berücksichtigen müssten
das haben wir jetzt überhaupt nicht gemacht, wir haben so getan, als seien alle Texte gleich,
aber es ist natürlich nicht so. Wer sich mit der Thematik beschäftigt, merkt, dass Textsorten usw.
einen unglaublichen Einfluss darauf haben, auf was wir da eigentlich messen.
Deswegen hat die Fragestellerin völlig recht.
Aber es gibt natürlich Methoden, Textsorten zu erkennen.
E: Alles klar! Dann ganz vielen Dank nochmal an Josh und auch dass da noch so viel Zeit war…
subtitles created by c3subtitles.de