Deutsch – Überwachen und Sprache

Edit subtitles

0:13 - 0:19

Herzlich willkommen zu meinem Talk. Vielen Dank für die nette Einführung und die nette Begrüßung von euch allen!
0:19 - 0:25

Ihr seht der Talk hat den anspielungsreichen Namen "Überwachen und Sprache"
0:25 - 0:28

spielt natürlich auf Foucault an "Überwachen und Strafen"
0:28 - 0:36

Allerdings, lange bevor Foucault die Genese der Disziplinargesellschaft dargestellt hat
0:36 - 0:42

findet man in einem Kinderbuch eine sehr schöne moralische Erzählung
0:42 - 0:49

die heißt "Das Kind im Glashaus" von Heinrich Oswalt entstanden 1877 und sehr weitsichtig
0:49 - 0:53

In Frankfurt lebt ein Glasermeister,
Herr Lebrecht Scheibenmann, so heißt er;
0:53 - 0:57

Der hat ein kleines Töchterlein,
Das wollte nie gewaschen sein.
0:57 - 1:00

Und kam mit Schwamm und Seif sein Gretchen,
Da lief davon das böse Mädchen;
1:00 - 1:04

Es warf sogar den Waschtisch um -
Das Wasser floß im Haus herum.
1:04 - 1:10

Da fing Herr Lebrecht Scheibenmann
Ein seltsam Haus zu bauen an,
1:10 - 1:14

Aus lauter Glas ein Haus, das, ach!
Durchsichtig war bis unters Dach.
1:14 - 1:16

Und in dies Glashaus setzte man
Das böse Töchterlein sodann.
1:16 - 1:20

Da blieben, um es anzusehn,
Die Leute auf der Straße stehn.
1:20 - 1:24

[…]
Da schämte sich das Kind und lief
Im ganzen Haus herum und rief:
1:24 - 1:26

“Wo soll ich mich denn nur verstecken?
Man sieht mich ja in allen Ecken!
1:26 - 1:32

Das Dach, der Keller, jedes Zimmer
Ist ja von Glas! man sieht mich immer!”
1:32 - 1:36

Die Mutter sprach: “Mein liebes Kind!
Ein Mittel gibt’s, das hilft geschwind:
1:36 - 1:40

Wenn dich die Leute artig sehn
Dann werden sie vorübergehn;
1:40 - 1:43

[…]
Das merkte sich das Töchterlein;
Es nahm sich vor, geschickt zu sein.
1:43 - 1:47

Und weil’s beim Waschen nicht mehr schrie,
Da lachten auch die Leute nie;
1:47 - 1:51

Denn jeder, der ins Haus jetzt blickt,
Der sieht ein Kind, das ganz geschickt.
1:51 - 1:55

Und habt Ihr selbst ein Kind, Ihr Leut’,
Das bei dem Waschen immer schreit,
1:55 - 2:01

Sagts nur Herrn Lebrecht Scheibenmann,
Der schafft Euch gleich ein Glashaus an.
2:01 - 2:10

Ja, da … erste Applausansätze lacht
Applaus
2:10 - 2:13

Ja, interessante Geschichte, die natürlich sehr gut auf unsere Zeit passt
2:13 - 2:21

denn Lebrecht Scheibenmann heißt Keith Alexander und arbeitet für die NSA
2:22 - 2:26

Die NSA hat aus unser aller Zuhause Glashäuser gemacht
2:26 - 2:29

wir können alle gesehen werden in diesen Glashäusern
2:29 - 2:40

und man weiß nicht, bzw. ich bin mir ziemlich sicher, dass man damit pädagogische Ziele verfolgt
2:40 - 2:43

dass bestimmte Handlungen nicht mehr als akzeptabel gelten
2:43 - 2:47

und dass wir diese Beobachtung verinnerlichen
2:47 - 2:52

Bei dieser Beobachtung spielt Sprache natürlich eine ganz wichtige Rolle
2:52 - 2:57

Viele unserer Äußerungen finden im Medium der Sprache statt
2:57 - 3:06

Das hat auch viele Hacker auf die Idee gebracht, dass wir die NSA austricksen mit einer Seite wie "Hallo NSA"
3:06 - 3:17

Eine Website, die wie ein „Bullshitter“ verdächtige Wörter zu Botschaften zusammensetzt
3:17 - 3:24

und diese dann getweetet, gemailt oder verchattet werden sollen
3:24 - 3:30

um soetwas zu erreichen wie hier "Operation Troll the NSA“
3:30 - 3:36

dass man die NSA-Scanners jammen kann, dass man eine DDOS Attacke machen kann.
3:36 - 3:44

indem man einfach zu viel Content schickt, der quasi verdächtig ist auf der Basis von Keywords
3:44 - 3:51

In meinem Vortrag soll es darum gehen, dass dieses Bild von der NSA falsch ist.
3:51 - 3:55

Wir können nicht davon ausgehen, dass in der NSA die Leute tatsächlich bei Anzeige eines Keywords
3:55 - 4:05

sofort etwas ausdrucken und zu einer Gelächter
Analyse schreiten
4:05 - 4:11

und sich das genauer anschauen und qualitativ quasi auswerten
4:11 - 4:14

und das natürlich eine sehr intensive Tätigkeit
4:14 - 4:27

und deswegen ist ein Keyword-Spam-DDoS natürlich erfolglos wäre
4:29 - 4:34

Ihr alle werdet vermutlich die thanksgiving taklkingpoints der NSA gelesen haben.
4:34 - 4:42

Ich weiß nicht, ob ihr darüber gestolpert seid, dass unter Punkt 4 etwas ganz wichtiges steht
4:42 - 4:48

“NSA brings together the best linguists, analysts, mathematicians, engineers and computer scientists
4:48 - 4:52

in the United States.“
und die Linguisten werden als erstes genannt.
4:52 - 4:56

verhaltenes Lachen
4:56 - 5:02

Also da sieht man, der NSA ist durchaus bewusst, dass Sprache ein wichtiges Medium ist
5:02 - 5:09

und das auch für sie sehr wichtig ist. Insofern macht es durchaus Sinn, sich damit zu beschäftigen
5:09 - 5:17

Zufälligerweise wurde vom Innenminister die neuste Analysesoftware geleakt, der "Advanced Security Toolkit"
5:17 - 5:26

Entwickelt vom von-Leitner-institut für verteiltes Echtzeit-Java. Gelächter
5:28 - 5:31

Wir gucken uns zunächst unsere heutige Mission an.
5:31 - 5:36

Die heutige Aufgabe besteht darin, die deutsche Bloggerszene unter die Lupe zu nehmen
5:36 - 5:40

die radikalisiert sich ja offenbar seit Regierungsübernahme durch die Große Koalition
5:40 - 5:48

wichtig ist es, zu schauen, ob Aktionen in Vorbereitung sind, und ggf. radikale Subjekte zu identifizieren,
5:48 - 6:00

die sich da besonders hervortun. Zunächst wählen wir unsere Targets, wir kriegen natürlich welche vorgeschlagen
6:00 - 6:04

Leider kann ich nur eine kleine Auswahl möglicher Targets präsentieren. Ich hätte gerne noch viel mehr genommen
6:04 - 6:06

Es gibt ein paar gesellschaftskritische Blogs und Newssites
6:06 - 6:12

wie blog.fefe.de, indymedia, Mädchenmannschaft, Netzpolitik.org, rebellmarkt.blogger.de
6:12 - 6:18

Und religiös motivierte Webseiten, wie kreuz.net, islambruderschaft.com-blog und Diskussionsforum salafistisches
6:18 - 6:23

und wir bestätigen natürlich die Auswahl. Das ist eine sehr sinnvolle Auswahl
6:23 - 6:32

Folgende Analysen sind möglich. Ich kann natürlich nur eine Auswahl an möglichen Analysetools heute zeigen
6:32 - 6:36

Ich würde gerne viel mehr zeigen, aber die Zeit wird nicht reichen.
6:36 - 6:42

Zunächst gucken wir uns an, was schreiben Autoren über mögliche sensible Ziele
6:42 - 6:46

Wir machen also mal eine Zielanalyse.
6:46 - 6:56

diese untersucht auf Basis von Named-Entity-Recognition die Kollokation zu möglichen Terrorzielen
6:56 - 7:04

Wir müssen … was ist das denn? … wir gucken mal ins Handbuch rein, was Named Entities sind
7:04 - 7:09

ist ja unser erster Tag heute
7:09 - 7:20

Named-Entities sind zunächst mal Ausdrücke, die eine Etentität eindeutig von anderen Entitäten mit ähnlichen Attributen unterscheiden
7:20 - 7:25

Man denkt spontan an Namen, aber es ist nicht so trivial zu sagen was ein Name ist
7:25 - 7:32

Named-Entitiy-Recognition ist entsprechend das Verfahren, wie man solche Named Entities identifiziert
7:32 - 7:44

Es gibt sicherlich unterschiedliche Klassen von Named Entities, bspw. Personen, Organisationen, Orte
7:44 - 7:51

Manchmal ist auch nicht so deutlich zu was eine bestimmte Named Entity gehört. z.B. „der Bundestag“
7:51 - 7:57

das kann sowohl ein geografischer Ort sein, als auch eine Organisation
8:02 - 8:06

Jetzt müssen wir noch wissen, was Kollokationen sind
8:06 - 8:12

Das sind statistisch überzufällig häufige Wortkombinationen
8:12 - 8:23

d.h. “we define a collocation as a combination of two words, that exhibit a tendency to occur near each other in natural language that is to cooccur”
8:23 - 8:27

also z.B. „ein Weg einschlagen“, „ein Weg gehen“
8:27 - 8:32

Das sind typische Verbindungen zwischen den Worten „Weg“, „gehen“ bzw. „einschlagen“
8:32 - 8:41

und diese Verbindungen bilden Kollokationen, wenn sie überzufällig sind
8:41 - 8:45

wie wir mit statistischen Tests feststellen können
8:45 - 8:48

und wir können die in natürlicher Sprache beobachten
8:48 - 8:54

Ein Beispiel – ihr müsst das jetzt nicht lesen können – ich wollte ein Beispiel zeigen zum Wort „Spezialexperte“
8:54 - 8:59

man sieht hier das “keyword in context”, also das gesuchte Schlüsselwort
8:59 - 9:07

und man sieht die Kontexte dieses Wortes, also einen „ausgesuchten Spezialexperten für Internetfragen“ haben sie wohl nicht gefunden
9:07 - 9:12

Wir müssen kein Ratespiel machen, aus welchem Blog das wohl stammen könnte
9:12 - 9:15

Was man dann macht, bei einer Kollokationsanalse
man untersucht Kontexte
9:15 - 9:22

z.B. hier fünf Wörter links, fünf Wörter rechts bis Satzanfang oder -ende
9:22 - 9:29

Man zählt einfach die Wörter, die im blauen Bereich stehen
9:29 - 9:36

und vergleicht die relative Frequenz mit Wörtern, die links und rechts im weißen Bereich stehen
9:36 - 9:44

Wenn ein Wort signifikant häufiger im blauen Bereich vorkommt, kann man sagen, es ist eine Kollokation des Worts „Spezialexperte“
9:44 - 9:50

Hier fällt bspw. auf „kriegen“ oder „Adobe-Spezialexperten“ Gelächter
9:50 - 9:58

Man kann Kollokationen als Graphen visualisieren Gelächter
10:00 - 10:06

Die Knoten bezeichnen Lexeme, (ich weiß jetzt nicht, was es da zu lachen gibt) mehr Gelächter
10:06 - 10:12

(das ist ernste Linguistik!) und die Kanten bezeichnen „ist Kollokation von“
10:12 - 10:19

Sie sehen also hier „die besten der besten, Sir“, Sarrazin und Mehdorn gehören dazu.
10:19 - 10:24

Es wuchert ein bisschen weiter. „Adobe-Backup“, „Backup-Spezialexperten“ … interessant
10:24 - 10:35

Ok. Wir sind im Bereich der Zielanalyse. Wir starten mal die Analyse.
10:35 - 10:43

Was machen wir da eigentlich? Was wir machen ist, wir erkennen in allen Corpora alle Named Entities
10:43 - 10:50

Wir berechnen das erstmal mit Methoden maschinellen Lernens.
10:50 - 10:53

D.h. man untersucht bestimmte Kontexte in denen Named Entities stehen.
10:53 - 10:59

Wir haben einen Trainings-Corpus, in dem steht bereits drin, was Named Entities sind
10:59 - 11:08

bspw. dass „Bundestag“ eine Organisation ist und die Software lernt aus diesen Kontexten
11:08 - 11:17

was typische Kontexte für solche Named Intities sind und versucht diese auf neue Corpora anzuwenden
11:17 - 11:23

Was wir hier machen: wir identifizieren in allen Corpora, in allen Blogs, die wir untersuchen die Named Entities.
11:23 - 11:28

wir kategorisieren diese Named Entities nach Personen, Organisationen, geografischen Orten und Sonstigen
11:28 - 11:32

und dann berechnen wir die Kollokationen eben zu relevanten Named Entities.
11:32 - 11:37

z.B. „Angela Merkel” könnte interessant sein oder sowas.
11:37 - 11:45

Und dann schauen wir auch in den Kollokationen, ob darin irgendwelche Gefährderwörter sind.
11:45 - 11:51

Also Wörter, die auf Anschlagsplanungen oder sonstiges hindeuten. Das machen wir jetzt.
11:51 - 12:02

die Analyse ist offenbar abgeschlossen und Ergebnis ist, wir haben Gefahrenstufe 1 von 5, also nicht weiter tragisch
12:02 - 12:13

die Software schlägt uns eine Überprüfung der Gefährdungslage in Hinblick auf Berlin vor
12:13 - 12:17

also der Ortsangabe bei donalphonso, Rebellmarkt-Blogger
12:17 - 12:32

Potentielles Ziel bei Fefe ist SPD Gelächter und bei der Mädchenmanschaft sollen wir nach Kristina Schröder als Person gucken Gelächter
12:32 - 12:46

Wir haben jetzt zum Beispiel als Auftrag bekommen, zu schauen, warum donalphonso Böses über Berlin schreibt und ggf. etwas plant
12:46 - 12:50

Wir können uns jetzt Kollokationsgraphen anzeigen lassen oder Geokollokationen
12:50 - 13:01

D.h. wir haben eine Landkarte und darauf stehen an den Orten, über die donalphonso schreibt, die Kollokationen zu den Orten
13:01 - 13:07

In Amerika schreibt er über Boyd und Kultur, Einzeltäter, verwirrt und „hassen Mail“ und sowas
13:07 - 13:15

Deutschland, Mitteleuropa ist natürlich im Fokus. Das geht auch bis Italien runter
13:15 - 13:20

Da sieht man auch, worüber donalphonso so schreibt.
13:20 - 13:26

Wir nähern uns Berlin. Da sind zu viele Kollokationen als dass wir sie alle auswerten könnten
13:26 - 13:36

Deswegen schauen wir uns den Kollokationsgraphen an und suchen nach Hinweisen auf Terror, der stattfinden könnte
13:36 - 13:46

Ich lese einige vor: „Berlin“, „Slum“, „Reichshauptslum“, „arm“, „Transferleistung“, „abscheulich“, „Berliner Hipster“ Gelächter
13:46 - 13:54

Das zeigt zwar eine sehr negative Haltung zu dem Gegenstand, aber ich würde nicht sagen terrorverdächtig.
13:54 - 14:01

Das weitere potentielle Ziel waren die Organisationen „SPD“ bei Fefe
14:01 - 14:14

Wir lassen uns den Kollokationsgraphen anschauen. Fefe und die SPD. Gelächter
Applaus
14:14 - 14:18

hey „Verräterpartei“, „Umfallerpartei“, mal kurz zurück
14:18 - 14:21

Insgesamt in der gesamten Liste fanden sich tatsächlich so Wörter wie:
14:21 - 14:37

„erhängen“, „erzwingen“, „Spitzenkandidat“, „Verräterpartei“, „Umfallerpartei“, „Pest“, „Cholera“ Gelächter, Applaus
14:37 - 14:42

Wenn wir uns den Kollokationsgraphen anschauen, dann merken wir schon, das sind Vorwurfshandlungen.
14:42 - 14:54

Aber da wird nicht geplant, dass der Spitzenkandidat um die Ecke gebracht werden soll von Fefe
14:56 - 15:02

Wir machen jetzt weiter mit dem Ideologiemonitor. Wir wollen jetzt mal messen …
15:02 - 15:16

Es ist belegt, dass die NSA viele Softwarepatente für Algorithmen zu Named-Entity-Recognition angemeldet hat
15:16 - 15:20

Es wurde in der Tat viel in dem Bereich Forschung betrieben vor einiger Zeit
15:20 - 15:28

Aber man findet zunächst heraus, was interessante Targets sind und was über die gesagt wird
15:28 - 15:34

Das kann man sicherlich noch besser machen, in dem man Idieologien misst.
15:34 - 15:44

Was wir jetzt berechnen wollen ist die Ähnlichkeit von Texten, von Blogs zu bestimmten weltanschaulichen Ideologien
15:44 - 15:53

Wir haben die Möglichkeit, linksextreme, rechtsextreme oder islamistische Einstellungen zu messen
15:53 - 16:07

Das machen wir so, dass wir typische Kollokationen berechnen … also zu einem bestimmten Korpus
16:07 - 16:12

Von diesem Korpus lernen wir. Das ist also das Vergleichsmodell.
16:12 - 16:18

Wir nehmen mal die „Islambruderschaft“. Die hat ein Blog und da schreiben sie böse Sachen
16:18 - 16:34

und wir lernen von diesem Blog: was sind typische Wortverbindungen, die wir als islamistisch betrachten können
16:34 - 16:42

wir wollen gerne wissen, wer in einem salafistischen Diskussionsforum besonders viel von radikalislamischer Ideologie hat
16:42 - 16:53

also das ist ein ganz fieses Untersuchungsprogramm, das wir hier starten. Ja, die Analyse läuft
16:53 - 17:00

Das Ziel ist es, wie sind bestimte Texte von bestimmter Ideologie durchdrungen
17:00 - 17:09

und wir gleichen ein salafistisches Diskussionsforum mit unserem Trainingskorpus ab
17:09 - 17:15

und dieses Trainingscorpus ist ein Blog von der Islambruderschaft
17:15 - 17:23

was wir bekommen sind Wortverbindungen, die womöglich auf islamistische Grundhaltungen verweisen
17:23 - 17:25

– also ich hoffe, ihr denkt die Anführungszeichen immer mit –
17:25 - 17:35

Wir haben hier „Allah -> Krieg“, „Bombe -> Jahr -> Feind“, „Kufr -> beleidigen“, „Gesetz -> Islam“, „Bedeutung -> Jihad“, „Allah -> Afghanistan“, „martern -> Kufr“, usw.
17:35 - 17:42

Also es gibt eine ganze Reihe dieser Wortverbindungen, die wir aus diesem Korpus lernen
17:42 - 17:50

und jetzt schauen wir, wie diese Wortverbindugnen in personenspezifischen Korpora von Mitgliedern
17:50 - 17:57

in diesem Diskussionsforum vorkommen. Wir sehen hier einen User – natürlich ist der Nickname nicht echt
17:57 - 18:02

man sieht es ein bisschen schlecht, aber hier sind rote Verbindungen angeleuchtet
18:02 - 18:09

Das sind islamistische
Gelächter
18:09 - 18:17

Das sind sämtliche Kollokationen in diesem Korpus mit der höchsten Typizität
18:17 - 18:22

und solche Verdichtungspunkte verweisen auf bestimmte Themen
18:22 - 18:29

Wir haben auch den User „JihadFan“ Gelächter – der aber offenbar auch nicht so jihadistisch unterwegs ist
18:29 - 18:36

weil es sind relativ wenige – wir haben aber die Userin „Muslima“ – und leider sieht man das jetzt wirklich nicht so gut
18:36 - 18:43

ich mach es mal ein bisschen größer – bei ihr sehen wir relativ viele rote Verbindungen
18:43 - 18:48

wir können uns natürlich auch ein paar verdächtige Verbindungen anschauen
18:48 - 18:55

jetzt müssen wir wieder klein werden – da sind solche Verbindungen wie „der -> ganzen -> Welt -> Frieden -> Krieg -> bringen“
18:55 - 19:01

Da sind Verbindungen wie „Bombadierung -> Zivilist -> schlachten -> martern -> Invasoren“, „erfolgreiche -> Operation“
19:01 - 19:13

oder Verbindungen wie „Koran -> Taliban -> edel -> Sieg“, die vielleicht auf das Schreiben über das Thema hindeuten
19:13 - 19:18

das heißt, wir würden sagen, das wäre ein Ziel für weitere operative Maßnahmen, diese Userin,
19:18 - 19:21

und das schicken wir ab und dann geht es weiter.
19:21 - 19:36

Damit haben wir aber nichts mehr zu tun, denn wir sind ja nur Linguisten. Gelächter, Applaus
19:36 - 19:43

Ich deute das als Zustimmung. Gelächter Gut, wir fahren mit weiteren Analyseschritten fort.
19:43 - 19:59

Und zwar messen wir Radikalität. Radikalität ist etwas, das man so ohne weiteres erstmal nicht messen kann
19:59 - 20:03

denn es ist ja selbst ein ideologisches Konzept
20:03 - 20:14

Wir – vom Innenministerium – verstehen unter Radikalität zunächst eine stark negative Weltsicht
20:14 - 20:20

wir verstehen darunter eine Intoleranz gegenüber abweichenden Auffassungen, also ein schwarz-weißes Weltbild
20:20 - 20:26

wir verstehen darunter eine hohe emotionale Involviertheit
20:26 - 20:38

und eine Neigung zu Verschwörungstheorien
vereinzeltes Gelächter Ja! mehr Gelächter
20:38 - 20:49

Das ist nicht ganz vom Himmel gefallen. Es gibt tatsächlich Forschungsliteratur, die diese Punkte nennt
20:49 - 20:56

wie operationalisieren wir das jetzt, also eine negative Weltsicht? Ich möchte euch zwei Ansätze vorstellen
20:56 - 21:06

Es gibt also den sehr einfachen, listenbasierten Ansatz. Man sagt, wir haben eine bestimmte Liste von Wörten,
21:06 - 21:16

deren Bedeutung wir kennen und gucken, wie häufig finden sich die Listenelemente in Texten
21:16 - 21:22

Bspw. wenn wir „negative Weltsicht“ operationalisieren wollten, könnten wir sagen, wir suchen nach Phrasen
21:22 - 21:27

oder auch Vokabeln, die skandalisieren, wie: „Blindheit“, „Blödheit“, „Bodenlosigkeit“, „Chaos“, „Debakel“,
21:27 - 21:33

„Desaster“, „Dreistigkeit“, „Dummheit“, das könnte man alles anders nennen, könnte Indikator sein für negative Weltsicht
21:33 - 21:39

Wir haben auch den Gebrauch von negativ wertenden Adjektiven. Nur mal die ersten: „abartig“, „aberwitzig“,
21:39 - 21:46

„abfällig“, „abgedroschen“, „abgegriffen“, „abgeschmackt“, usw. Insgesamt 700, oder so
21:46 - 21:51

das wäre also der listenbasierte Ansatz.
21:51 - 21:57

Was wir natürlich auch machen können ist ein schwarzweißes Weltbild operationalisieren
21:57 - 22:03

das kann man mit Hilfe von „semantischen Taxonomien“ machen. Semantische Taxonomien beschreiben die Relationen
22:03 - 22:12

zwischen Wörtern in unserem Wortschatz, bspw. könnte auf schwarzweiß-Denken in Texten hindeuten
22:12 - 22:25

eine hohe Frequenz von „polaren Antonymen“, also Gegensatzwörtern, die man ohne degradierte Form gebraucht
22:25 - 22:31

also dass man sagt „lang“ und „kurz“ statt „länger …“ oder „kürzer als“.
22:31 - 22:37

Noch deutlicher wird es vielleicht bei Wörtern, die gar nicht gradierbar sind, wie „wahr“ oder „falsch“,
22:37 - 22:41

„tot oder lebendig“, „anwesend oder abwesend“, „dafür oder dagegen“. Da gibt es nichts dazwischen,
22:41 - 22:52

die sind komplementär und ihr Gebrauch, könnte man meinen, lässt Rückschlüsse auf ein schwarzweißes Weltbild zu.
22:52 - 22:58

Emotionale Involviertheit könnte man operationalisieren mit Hilfe von Gradpartikeln
22:58 - 23:06

das ist sowas wie „ich finde das absolut toll“, oder „total toll“. Ja, nicht nur „toll“, sondern „total“
23:06 - 23:10

Das wäre bspw. ein Gradpartikel aus dem absoluten Intensivierungsbereich
23:10 - 23:21

wir können Gradpartikel unterscheiden nach Intensivierungsbereichen und es gibt unterschiedliche Abstufungen
23:21 - 23:25

wie den „absoluten“ Intensivierungsbereich, in den „absolut“, „gänzlich“, „grundlegend“, „gründlich“,
23:25 - 23:29

„im geringsten“, „komplett“, „längst“, „rein“ usw. reinfallen, den „extrem hohen“ Intensivierungsbereich:
23:29 - 23:35

„höchst“, „äußerst“, „zutiefst“, „aufs äußerste“, „aufs höchste“, „aufs Tiefste“, „höchstlichst“, usw.
23:35 - 23:40

und den hohen Intensivierungsbereich mit „sehr“, „stark“, „gewaltig“, „besonders“, „so“, „arg“, „übertrieben“ usw.
23:40 - 23:46

Wenn wir die Distribution dieser Gradpartikel in Korpora messen, dann könnten wir sagen:
23:46 - 23:56

vielleicht sind die Indikator für emotionale Involviertheit. Und die Neigung zu Verschwörungstheorien
23:56 - 24:01

das ist natürlich besonders schwierig zu operationalisieren, da haben wir einfach
24:01 - 24:10

eine Liste von Wörtern genommen, die darauf verweisen, dass vielleicht etwas nicht so ist, wie es sein könnte
24:10 - 24:13

wenn man Wörter hat wie „angeblich“, „vermeintlich“, „scheinbar“, „behaupten“, „heucheln“,
24:13 - 24:16

„verheimlichen“, „verschweigen“, „fingieren“, „vorgaukeln“, „entlarven“, usw
24:16 - 24:21

das sind natürlich Wörter, die zumindest das Potential haben, darauf zu verweisen,
24:21 - 24:25

dass die Welt nicht so ist, wie sie uns verkauft wird oder dargestellt wird.
24:25 - 24:37

Und das findet man natürlich eher bei Personen, die Verschwörungstheorien anhängen
24:37 - 24:45

Wenn man jetzt den Radikalitätsindex berechnet – das hier sind normalisierte Werte – dann kann man sehen Gelächter
24:45 - 24:56

dass Fefe, knapp gefolgt von donalphonso und mit kleinem Abstand das salafistische Forum lautes Gelächter
24:56 - 25:08

und weiterem Abstand kreuz.net hier aufschlagen. Fefe hat nirgendwo die erste Position, muss man dazu sagen
25:08 - 25:12

also auch bei den Verschwörungen nicht, da schlägt kreuz.net Fefe noch um Längen
25:12 - 25:15

– interessanterweise übrigens, wie ich fand –
25:15 - 25:22

und donalphonso ist also tatsächlich ein großer Skandalisierer und Intensivierer, kann man feststellen
25:22 - 25:28

wenn man sich noch einmal das Ranking anschaut, dann sieht das so aus … Fefe, donalphonso, salafistische …
25:28 - 25:41

Also ob wir operative Maßnahmen einleiten überlasse ich euch. Ich würde sagen, wir behalten die im Auge.
25:41 - 25:53

Das waren jetzt ein paar Techniken, die ich euch darstellen wollte, die wenig zu tun haben mit dem „Keywordbullshitter“
25:53 - 26:02

den wir gesehen haben. Denn diese Keywords selbst spielen eine sehr geringe Rolle bei den Analysen, besonders wie zuletzt gesehen
26:02 - 26:11

Ich denke die Linguistik und die NSA-Linguisten sind sicherlich sehr viel weiter um e-Mails zu filtern
26:11 - 26:21

Ich denke, wenn man sich den Rechenschaftsbericht der G10-Kommission anschaut, die die deutschen Geheimdienste überwachen
26:21 - 26:28

die hatten ja zunächst so dargestellt es wurden so wahnsinnig viele e-Mails gescreent, aber das meiste davon war Spam
26:28 - 26:32

und wenn man sich den neueren Bericht anschaut, dann steht da, wir haben die Spamerkennung verbessert
26:32 - 26:39

und es wurden deswegen sehr viel weniger e-Mails. Aber es ist auch die Rede von mehreren Ebenen des Screenings
26:39 - 26:45

und es werden erst zu einem sehr späten Zeitpunkt e-Mails tatsächlich in die Hand genommen und qualitativ ausgewertet
26:45 - 26:56

und ich denke, dass vielleicht der allererste Zugriff über ein Keyword erfolgt, das auch sehr allgemein gehalten sein kann
26:56 - 27:03

dass die weiteren Ebenen dann natürlich viel feinere Analysen beinhalten, die eben Kollokation, semantische Taxonomien
27:03 - 27:11

oder Topic-Modelling, über das ich heute leider nicht sprechen kann, benutzen
27:11 - 27:18

Ja, ich bin noch nicht fertig. Vielleicht kennen einige von euch den Film „Alphaville“?
27:18 - 27:28

Alphaville ist ein Film von Jean-Luc Godard, in dem es darum geht dass Lemmy Caution, ein Spion,
27:28 - 27:39

in die Stadt Alphaville kommt, die von einem allmächtigen, diktatorischen, totalitären Computer beherrscht wird: Alpha 60
27:39 - 27:47

und ein Teil seiner Aufgabe ist es, diesen Computer auzuschalten und den Erzeuger von Braun zu finden.
27:47 - 27:54

Er spricht dann mit einem der Programmierer dieses Computers, einem Assistenten von von Braun
27:54 - 28:04

und der Assistent fragt ihn: „Sind Sie auch ein Spion?“ – Ich kann den Screenshot wegen Urheberrecht leider nur so zeigen
28:04 - 28:09

Darauf sagt Lemmy Caution: „Nein, das wissen Sie genau, ich bin nämlich ein freier Mann!“
28:09 - 28:14

Daraufhin sagt der Assistent: „Ihre Antwort ist bedeutungslos. Wir wissen nichts.
28:14 - 28:19

Wir registrieren, berechnen und ziehen unsere Schlussfolgerungen.“
28:19 - 28:28

Und dieser Satz erfasst eigentlich das Problem, das wir mit den Diensten haben, relativ gut.
28:28 - 28:37

Denn die Dienste unterwerfen unsere Lebensäußerungen einer Logik, die zunächst nicht unsere Logik ist
28:37 - 28:46

sie werten sie nach bestimmten Mustern aus: „Wir registrieren, berechnen…“, sie ziehen Schlussfolgerungen daraus
28:46 - 28:51

aber sie müssen sich dafür nicht rechtfertigen. Sie müssen ihre Methoden nicht offenlegen
28:51 - 28:56

und ihre Logik nicht zur Diskussion stellen. Und genau das ist das Problem.
28:56 - 29:05

Das ist aber ein Kennzeichen für alle totalitären Systeme, dass sie ihre Logik nicht rechtfertigen müssen.
29:05 - 29:09

Wir wissen überhaupt nicht, was überhaupt verdächtig sein könnte
29:09 - 29:17

und der Grund dafür ist, dass diese Dienste eben im Geheimen operieren können
29:17 - 29:21

und unsere Aufgabe sollte es sein, diese Methoden öffentlich zu machen, diese Methoden zu diskutieren
29:21 - 29:27

zu beweisen, dass diese Methoden fehlerhaft sind und unglaublich viele „false positives“ produzieren
29:27 - 29:33

und dass wir es deswegen lieber lassen sollten und wir vielleicht ein paar Scheiben ins Glashaus werfen
29:33 - 29:35

Vielen Dank
29:35 - 29:55

Applaus
29:55 - 29:58

Engel: Ja vielen Dank, Josh, für diesen richtig coolen Talk. Was auch cool ist:
29:58 - 30:02

Was auch total cool ist, wir haben noch richtig viel Zeit für Fragen und Antworten
30:02 - 30:07

Wir haben vier Saalmikrofone hier, wir haben zwei auf jeder Seite
30:07 - 30:15

für Leute, denen es schwerer fällt, zum Saalmikro zu kommen, habe ich auch das tragbare Handmikro
30:15 - 30:23

und wir können noch gucken, ob es Fragen aus dem Internet gibt und die dann den Signal Angle stellen
30:23 - 30:27

seid nicht so schüchtern, wir haben noch eine halbe Stunde, das war ja wohl ein guter Input
30:27 - 30:29

wenn ihr also eine Frage habt, dann bewegt euch dahin.
30:29 - 30:37

Ja vielleicht fangt ihr an, euch zu den Mikrofonen zu bewegen, geht das auch für euch beide?
30:37 - 30:40

Dann komm ich gleich zu dir, dann die erste Frage
30:40 - 30:48

Frage: Wie ist denn das mit diesen Kollokationen und Kultureller Kontext? Also es könnte sein, dass wir jetzt bspw.
30:48 - 30:59

da wollte jetzt ein Osama ein Konto eröffnen und das wurde ihm verweigert, weil er Osama heißt
30:59 - 31:10

dass wir dann diese Kollokation quasi feststellen, aber dass der Name Osama ein recht geläufiger im arabischen Kontext ist
31:10 - 31:18

wie wird damit umgegangen, dass das etwas ganz normales dort ist, für uns aber sofort verdächtig erscheint?
31:18 - 31:25

Antwort: Vielen Dank, ich weiß nicht auf welcher Ebene ich die Frage beantworten soll.
31:25 - 31:31

Aus linguistischer Perspektive kann man damit, glaube ich, recht gut umgehen, indem man weiteren Kontext dazu nimmt
31:31 - 31:36

und relativ schnell disambiguieren könnte, dass es sich eben nicht um Osama bin Laden handelt,
31:36 - 31:41

zumal der ja auch schon tot ist
Gelächter
31:41 - 31:51

aus Sicht eines Analytikers, der vielleicht gar nicht versteht, was unter der Haube eines solchen Toolkits läuft, ist es erstmal egal
31:51 - 31:59

denn er folgt seiner Logik, er hat seine Mission und wie gesagt, die Menge an false positives ist riesig
31:59 - 32:14

das wird eben damit gerechtfertig, dass das, was auf dem Spiel steht, so unglaublich monströs ist, wenn es denn fiele, dass das jedes Mittel rechtfertigt
32:14 - 32:19

E: Okay danke, dann haben wir noch eine Frage von dir und dann du als nächstes, bitteschön
32:19 - 32:26

F: ja, mich würde interessieren, ob du dir mal die Mühe gemacht hast, mit diesen Methoden
32:26 - 32:28

auch mal sowas wie die Pressemitteilungen des Innenministeriums zu analysieren
32:28 - 32:34

weil da ist doch bestimmt auch eine Menge Schwarzmalerei und emotionaler Sprachgebrauch zu finden
32:34 - 32:36

A: Sehr interessant, das ist eine gute Frage. Habe ich nicht gemacht
32:36 - 32:42

Was ich gemacht habe, war bei Politikerinnen und Politikern, also Angela Merkel, usw.
32:42 - 32:47

das trieft aber natürlich von positiven Darstellungen der Wirklichkeit
32:47 - 32:50

weil als Regierungschefin ist man natürlich bemüht, die Wirklichkeit so zu konstruieren,
32:50 - 33:01

dass sie in einem möglichst positiven Licht erscheint und es wäre sicherlich interessant das genauer anzuschauen
33:01 - 33:03

E: Die nächste Frage von dir bitteschön
33:03 - 33:11

F: Wäre es eigentlich möglich, so Konnotationsspam zu erzeugen
33:11 - 33:15

in einem etwas komplexeren Zusammenhang mit ein paar Bots?
33:15 - 33:25

A: Naja, hier kommt eine kluge Frage. Wenn wir jetzt schon wissen, dass Keyword-Bullshitting zu grob ist
33:25 - 33:30

ob wir dann nicht klugerweisen unser Wissen nutzen können, um Texte automatisiert zu erstellen,
33:30 - 33:38

die bestimmte Kollokationsprofile abbilden, bspw. Das können wir alles machen.
33:38 - 33:46

Aber ich möchte noch einmal drauf hinweisen, was mir wirklich ganz zentral ist
33:46 - 33:52

es hat, glaube ich, keinen Sinn, sich zu verstellen, sich zu verbergen in diesem Kontext
33:52 - 33:57

was sich ändern muss, ist diese Logik, in der dieses Spiel gespielt wird
33:57 - 34:05

Denn für jede Methode gibt es eine Gegenmethode. Das ist ein Wettrüsten, das in diesem Fall sehr wenig Sinn macht
34:05 - 34:10

Natürlich ist Verschlüsselung und alles sehr sinnvoll, aber gegen Dinge, die geäußert werden
34:10 - 34:17

und wir wollen uns eben auch öffentlich äußern, da sind wir gegen Ausspähung nicht gefeit.
34:17 - 34:24

und ich bin der Meinung, dass wir uns durch diese Dinge nicht einschränken lassen sollten
34:24 - 34:30

sondern dass wir uns eher darum bemühen sollten, die Logik der Dienste zu hinterfragen,
34:30 - 34:36

sie aus dem Geheimen herauszuziehen und das zu diskutieren, was da passiert, das ist das Entscheidende
34:36 - 34:43

E: Okay, die nächste Frage
Applaus
34:43 - 34:46

die nächste Frage ist von mspro und danach hätten wir noch Fragen aus dem Internet
34:46 - 34:51

F: Hallo, ich hätt da noch ne Frage zu deiner Anspielung am Anfang mit „Überwachen und Strafen“
34:51 - 34:56

und deinem Schlussstatement. Das passt nicht so richtig zusammen. Du hast gesagt:
34:56 - 35:04

sowohl im Glashaus, als auch beim Panoptikum geht es darum, dass ich weiß, dass der Überwacher da ist
35:04 - 35:09

und weiß, nach welchen Kriterien er mich beurteilt, damit ich eine disziplinarische Wirkung habe
35:09 - 35:15

jetzt sagst du aber, dass ja genau diese Opakheit der Geheimdienste nach ihren Verdachtskriterien das Problem ist
35:15 - 35:23

das widerspricht sich total. Wenn ich nicht weiß, wonach ich als verdächtig betrachtet werde,
35:23 - 35:28

diszipliniert mich das ja gar nicht. Irgendwie passt das nicht zusammen
35:28 - 35:31

A: Danke für die Möglichkeit, das noch ein bisschen zu präzisieren. Ich denke,
35:31 - 35:37

wir haben natürlich eine Ahnung. Das ist ja das Schlimme, wir haben nicht mehr als eine Ahnung davon,
35:37 - 35:42

was denn als vermeintlich gefährlich betrachtet wird. Und genau das ist das Problem
35:42 - 35:50

also das Nicht-Wissen darum ist vielleicht noch die totalere Methode uns zu überwachen,
35:50 - 35:54

denn, ich möchte ein Beispiel geben: ich habe kürzlich ein Buch gelesen über ein maoistisches Gefängnis
35:54 - 36:03

und da ist es so, die Verhöre finden so statt, dass der Verhörende ein Buch hat.
36:03 - 36:10

und er sitzt dem Delinquenten gegenüber und sagt: „In diesem Buch steht alles, was du falsch gemacht hast,
36:10 - 36:17

alle deine Sünden stehen hier geschrieben. Du musst nur gestehen.“ Aber er darf nie in das Buch schauen
36:17 - 36:22

und er zermartert sich sein Gehirn unglaublich, weil er nicht weiß, was in diesem Buch steht
36:22 - 36:26

und er überlegt sich, „was kann ich noch alles gestehen, damit ich dieses Buch abarbeiten kann?“
36:26 - 36:33

und ich glaube gerade die Unwissenheit darüber ist die viel raffiniertere, perfidere Methode der Kontrolle
36:33 - 36:38

und insofern schließt sich das nicht gegenseitig aus, weil unser Kopfkino,
36:38 - 36:42

was alles gefährlich sein könnte, ist mächtig genug.
36:42 - 36:47

E: Alles klar, danke. Dann haben wir jetzt Fragen aus dem Internet. Magst du die kurz stellen?
36:47 - 36:56

F: Gibt es eine Instanz, die die Keyword-Listen überprüft, und wenn ja, welche ist das?
36:56 - 37:03

A: Ja, sehr gute Frage! Keine Ahnung, weil wir wissen es nicht. Die leaken ab und zu
37:03 - 37:07

– und ich habe mir überlegt, mal eine Zusammenstellung zu machen:
37:07 - 37:10

es gibt die Echelon-Liste und es gibt ganz verschiedene Listen – also nein.
37:10 - 37:16

die sind nicht validiert, aber man kann davon ausgehen, dass die schon irgendwie an Fallbeispielen überprüft sind
37:16 - 37:20

denn sonst würde man sich ja unglaublich viel Arbeit machen. Aber wie und wo
37:20 - 37:31

und wie man das wissenschaftlich nachvollziehen kann, das ist leider nicht beschrieben und nachlesbar.
37:31 - 37:32

E: Da gibts wohl noch mehr Fragen aus dem Internet?
37:32 - 37:38

F: Noch eine zweite: Brächte es was, wenn wir jetzt alle schön in unserem Dialekt schreiben,
37:38 - 37:44

weil dann werden die Keywörter eventuell nicht erkannt, oder ist das sinnfrei?
37:44 - 37:55

Gelächter und Applaus
37:55 - 38:03

A: Also als Hess kann ich dir da sache, das det schon was bringe wärdd Gelächter
38:03 - 38:10

also in der Tat, das hätte tatsächlich Chancen, es den Diensten schwerer zu machen, absolut
38:10 - 38:17

es gibt natürlich Verfahren, mit denen man Ähnlichkeiten zwischen Wörtern messen kann, usw.
38:17 - 38:22

das ist durchaus möglich. Aber es würde es schwerer machen.
38:22 - 38:27

Es würde ja auch die Kommunikation erheblich schwerer machen, wenn wir alle im Dialekt schreiben
38:27 - 38:32

es gibt dann keine Standardorthografie, aber es funktioniert natürlich auch. Wie in der Schweiz
38:32 - 38:39

Gelächter
38:39 - 38:43

E: okay, die nächsten beiden Fragen sind von euch und dann seid ihr beide da drüben dran
38:43 - 38:47

F: Ja, mich würde interessieren, wie man mit der Schwierigkeit von Fremdsprachen umgeht
38:47 - 38:54

oder allgemein der Vielfalt an Sprachen. Wie kann man ggf. einen Bezug herstellen,
38:54 - 38:58

wenn der eine in Deutsch, der eine in Englisch schreibt. Oder wie analysiert man die Salafisten,
38:58 - 39:02

wenn sie in ihrer Muttersprache sprechen.
39:02 - 39:09

A: Ja, also grundsätzlich gibt es Software, die designt ist das sie sprachunabhängig funktioniert
39:09 - 39:16

Zumindest wenn die Sprache sich klar in Wörter abgrenzen lässt, usw.
39:16 - 39:23

Ich glaube, diese Software ist nicht so gut wie Tools, die sprachliches Wissen einbringen,
39:23 - 39:31

aber nichtsdestotrotz wird sie eingesetzt. Siemens macht sowas, bspw. zur Autorenerkennung
39:31 - 39:40

das wird eingesetzt und funktioniert eben auch tatsächlich sprachabstrakt.
39:40 - 39:44

Man lernt Feature und es ist egal, in welcher Sprache man die lernt.
39:44 - 39:48

es wird halt reicher und besser, wenn man sprachliches Wissen einbringt
39:48 - 39:57

F: Ich hab eine Frage, die ein bisschen schwarz-weiß ist. Wenn man sagt, wir reden über diese Listen
39:57 - 40:05

und die Worte, die darin stehen, dann ist doch das Problem, dass sie nicht mehr wertvoll sind, sobald sie bekannt sind
40:05 - 40:11

d.h. man hat nur die binäre Option, solche Techniken nicht anzuwenden, oder die Listen nicht zu veröffentlichen
40:11 - 40:14

oder kommt man irgendwie darum herum
40:14 - 40:24

A: eine gute Frage. Ich glaube eben, es gibt überhaupt kein Entkommen.
40:24 - 40:30

Klar, wenn die Listen bekannt sind, dann funktioniert es nicht mehr, wir können die wegschmeißen
40:30 - 40:34

wir arbeiten ja schon nicht mehr mit Listen. Aber auch die anderen Verfahren.
40:34 - 40:40

Wenn wir die kennen, können wir sie wegschmeißen. Ich glaube, dass dann die nächsten Verfahren kommen
40:40 - 40:46

Verfahren, die klandestine Kommunikation erkennbar machen, die maximale Abweichung
40:46 - 40:51

von normaler Kommunikation sichtbar machen und damit ist man wieder gefangen.
40:51 - 40:57

Ich glaube, dieses Katz-und-Maus-Spiel existiert, aber ich glaube, wir müssen da raus,
40:57 - 41:06

weil ich glaube, dass es das nicht bringt. Ich glaube, man soll es einfach lassen.
41:06 - 41:12

Applaus
E: Okay, du bist als nächster dran
41:12 - 41:18

F: Ich fühlte mich durch den Vortrag an den Fall des Staatssoziologen Andrej Holm erinnert,
41:18 - 41:26

der als angebliches Mitglied der militanten Gruppe im Gefängnis gelandet ist und zwar deswegen,
41:26 - 41:31

weil die Bekennerschreiben der militanten Gruppe angebliche Parallelen
41:31 - 41:38

zu seiner wissentlichen Veröffentlichungen aufwiesen, was damals soweit in die Öffentlichkeit
41:38 - 41:43

kolportiert wurde, dass es hieß, in beiden käme das Wort „Gentrifizierung“ vor,
41:43 - 41:46

das damals noch ein bisschen seltener war als im Nachgang.
41:46 - 41:52

Hast du dich mit dem Fall mal näher beschäftigt, wie die Behörden da scheinbar vorgegangen sind?
41:52 - 41:59

A: Ja, ich hab auf den Datenspuren letztes Jahr einen Vortrag gehalten zu Autorenidentifizierung,
41:59 - 42:06

gerade auch mit Aufhänger Andrej Holm. Ich denke, dass da ganz unterschiedliche Dinge passiert sind
42:06 - 42:13

bspw. hat das BKA ein Gutachten gemacht und gesagt, dass Andrej Holm nicht der Autor ist
42:13 - 42:26

der Tipp kam offenbar woanders her, von irgendwelchen Diensten, die wohl auf maschinelle Verfahren zurückgegriffen haben
42:26 - 42:30

um da Ähnlichkeiten festzustellen. Wäre jetzt mein Tipp, aber das wissen wir natürlich auch nicht.
42:30 - 42:38

Aber irgendwoher muss das ja gekommen sein. Wenn das BKA sagt, er wars wohl nicht, aufgrund der Sprachanalyse, ist schon interessant.
42:38 - 42:45

Die Sprachdaten haben letztlich für den Fall keine große Rolle gespielt. Es wurde zwar kolpotiert in den Medien,
42:45 - 42:50

aber für den Haftbefehl und weiteres waren andere Aspekte ausschlaggebender.
42:50 - 42:52

E: Vielen Dank, du da hinten am Mikro bist als nächstes dran
42:52 - 42:56

F: Ja, ich wollte sagen, dass es mich gefreut hat, dass du den Link zu Foucault gemacht hast,
42:56 - 43:01

weil es ja bei „Überwachen & Strafen“ genau darum geht, dass wir dazu erzogen werden,
43:01 - 43:10

uns selbst zu überwachen, was letztlich diese Schere im Kopf ist. Ich finde das ein sehr schönes Bild, dass du da diese Parallele gezogen hast.
43:10 - 43:16

Meine Frage wollte ich eigentlich auch nach einem Beispiel für so ein False positive stellen,
43:16 - 43:19

das wurde ja gerade mit diesem Fall beantwortet.
43:19 - 43:28

A: Die spülen mal immer wieder in die Medien rein. Jemand hat in der Schweiz T-Shirts drucken lassen,
43:28 - 43:33

– die haben da Schwierigkeiten mit dem Flughafen – „Südanflug“. Und hat die T-Shirts auch bezahlt
43:33 - 43:41

und dann wurden die Tremata über den Umlauten weggemacht. Und dann stand da „Sudanflug“,
43:41 - 43:49

was dann aber gleich „Sudan-Flug“ gelesen wurde. Und dann hat die Bank gleich den Staatsschutz informiert.
43:49 - 43:58

Also so kuriose Fälle tauchen natürlich auf, wir haben auch von der Frau mit Schnellkochtopf gehört
43:58 - 44:08

das sind Dinge, die tauchen tatsächlich immer wieder auf. Wir kriegen es in vielen Fällen auch gar nicht mit, was passiert.
44:08 - 44:14

Man muss ja auch nicht informiert werden, wenn man Gegenstand von Überwachung ist. Ist ja auch so.
44:14 - 44:18

Wenn es im Interesse der Bundesrepublik ist, muss man nicht informiert werden
44:18 - 44:24

E: Ich hätte gerne Kooperation von Leuten der ersten Reihe, könnt ihr eure Sachen wegnehmen? Vielen Dank.
44:24 - 44:27

Wir haben noch eine Frage aus dem Internet, wenn ich das richtig sehe, bitteschön
44:27 - 44:34

F: Nicht aus dem Internet. Linguistik ist ja eine Geisteswissenschaft
44:34 - 44:42

und die sind ja bekanntlich an den Unis nicht so gut finanziert. Ist es bekannt, oder hast du eine Idee davon,
44:42 - 44:48

wie groß die Differenz zwischen der öffentlichen Forschung und der der Geheimdienste in der Linguistik
44:48 - 44:53

oder gerade im Bezug darauf ist. Wenn man sich die Budgets so anguckt, könnte da ja eine echte Differenz sein.
44:53 - 44:58

A: das ist eine interessante Frage. Richtig, Geistes- oder Kulturwissenschaften sind nicht so toll finanziert
44:58 - 45:07

aber die Forschung findet zum Teil auch in der Informatik statt. Die Verfahren, die ich vorgestellt habe,
45:07 - 45:13

haben zunächst mal nichts mit Überwachung zu tun. Ohne die Verfahren wäre Google keine so tolle Suchmaschine
45:13 - 45:19

d.h. die Verfahren sind im Grunde erstmal abstrakt von ihrer Verwendung.
45:19 - 45:28

Viel Forschung findet dann tatsächlich in Privatunternehmen statt, wobei die Unis glaube ich noch mithalten können,
45:28 - 45:42

aber ich würde meinen, die NSA finanziert ja auch Forschung an Unis, auch in Deutschland, und es geht gut voran in dem Bereich
45:42 - 45:51

Um das mal zu sagen: das ist zentrale Technologie, die brauchen wir. Wir erschließen uns Wissen, über Sprache
45:51 - 46:01

Unsere Anfragen an die Welt funktionieren mit dem Medium Sprache. Wir suchen Informationen mit komplexen Anfragen,
46:01 - 46:12

die alle erstmal sprachlicher Natur sind. Auch bei einer Google Bildersuche. Wir ordnen uns die Welt durch das Medium Sprache
46:12 - 46:19

und das ist eine zentrale Technologie, in die auch in Zukunft sehr viel Geld fließen wird.
46:19 - 46:22

E: Gut, ich habe noch mindestens drei Fragen gesehen, aber wir haben ja auch noch eine viertel Stunde Zeit
46:22 - 46:25

du bist als nächstes dran.
46:25 - 46:29

F: Ich würde mal gerne die Aktualität deiner vorgestellten Informationen hier überprüfen
46:29 - 46:35

Erstmal würde ich gerne wissen, woher du die Information hast, dass solche Sachen benutzt werden, kommt das aus den Snowden-Files?
46:35 - 46:43

Und: wie alt ist das ganze Zeug. Dieses Toolkit, kann ja auch sein, dass das schon fünf Jahre alt ist
46:43 - 46:48

und das mittlerweile flächendeckende Liveüberwachung jeglicher Sprache stattfindet und alles viel intelligenter ist.
46:48 - 46:57

A: Wichtige Frage natürlich, aber auch ganz wichtig: Das Toolkit war natürlich frei erfunden.
46:57 - 47:01

Keine Ahnung, wie das aussieht, werden wir auch nicht zu Gesicht bekommen. Ist schon klar.
47:01 - 47:05

– F: Das hab ich schon verstanden – A: Gut, klang jetzt eben so, tschuldigung.
47:05 - 47:09

Also, wie alt sind die Verfahren: die Entwicklung geht weiter, es geht vor allem um Verfeinerungen
47:09 - 47:16

in bestimmten Bereichen. Wie gesagt, Topic-Modelling hyped im Moment sehr, ist aber nicht grundlegend verschieden
47:16 - 47:25

von Kollokationsanalysen. Es ist ein ähnliches Verfahren. Die Algorithmen für maschinelles Lernen werden besser.
47:25 - 47:31

Die Rechenleistung wird besser. Wir können größere Daten anschauen, um von ihnen zu lernen, da tut sich eine Menge.
47:31 - 47:41

Aber grundsätzlich würde ich sagen, viel Neues gibt es nicht. Wir hätten uns das Identifizieren von Frames angucken können
47:41 - 47:50

aber ich würde meinen, es sind schon Technologien, die zum Einsatz kommen könnten und ausgereift genug sind,
47:50 - 47:56

dass sie zum Einsatz kommen aber darüber, ob sie tatsächlich zum Einsatz kommen, weiß ich nichts.
47:56 - 47:59

E: Alles klar, die nächste Frage ist von dir da hinten
47:59 - 48:03

F: Vielen Dank erstmal, für den spannenden Vortrag,
48:03 - 48:08

es war ein Ausflug in die Linguistik, den sogar ich als Ingenieur verstanden habe
48:08 - 48:16

du hast vorhin zurecht gesagt, dass man vermutlich anstatt mit Bullshitting von Keywords
48:16 - 48:25

es sichtbar machen sollte, was da passiert. Den Ansatz fand ich richtig.
48:25 - 48:28

Im zweiten Satz fragte ich mich: was wären denn dann die Möglichkeiten
48:28 - 48:34

wir haben ein paar absurde Beispiele gesehen, wie das mal in der Presse herauskommt
48:34 - 48:37

du als jemand, der sich damit viel beschäftigt hat, was würdest du sagen,
48:37 - 48:43

was sind so die Dinge, mit denen man sich, mit denen sich die Szene beschäftigen sollte?
48:43 - 48:50

A: Ganz schwierig, ja. Ich glaube, es geht nur der Weg über die Politik.
48:50 - 48:57

Es ist ein politisches Anliegen zu sagen, dass die Methoden öffentlich gemacht werden müssen
48:57 - 49:05

dass sie gerechtfertigt werden müssen in Hinblick auf Vadilität, u.ä. Aber das ist ein politischer Weg.
49:05 - 49:12

Das heißt Lobbying da, wo es wehtut. Man muss zu den Parteien gehen, die die Macht haben
49:12 - 49:19

und man muss auch mit denen reden und die überzeugen. Es ist ein hartes Brot, aber wichtig.
49:19 - 49:25

Man kann das nicht mit technischen Mitteln lösen. Ich weiß, das ist eigentlich unser Ansatz, aber das reicht nicht.
49:25 - 49:27

E: OK, du hast die nächste Frage
49:27 - 49:32

F: Wir haben uns jetzt hier kollokationsbasierte Sachen angeschaut.
49:32 - 49:38

In wie weit kommen denn formale Grammatiken zum Einsatz, die auch die Satzsyntax berücksichtigen?
49:38 - 49:45

Schauen wir uns den Satz an „auf keinen Fall sind unsere Politiker als Verbrecher und Dilettanten zu sehen“
49:45 - 49:50

da wird man mit der Kollokationsanalyse schnell einen False positive haben, oder?
49:50 - 50:03

A: Der Trend geht eindeutig weg von formalen Grammatiken, hin zu großen Datenmengen.
50:03 - 50:08

Zu eher mehr Kontext angucken, stärkeres maschinelles Lernen auf größeren Corpora
50:08 - 50:14

und eher der Google-Ansatz … F: wie Google Translate, so ähnlich A: … genau
50:14 - 50:20

mit vielen Daten die Sache lösen. Und das ist für uns Linguisten natürlich total frustrierend.
50:20 - 50:26

F: ja, ich komme selbst aus der Computerlinguistik, deshalb frage ich A: ja, das dachte ich mir schon.
50:26 - 50:33

Aber ja, es ist so. Aber wir sind uns, denke ich einig, mit linguistischem Wissen kann man vieles besser machen.
50:33 - 50:37

E: mspro, du hattest vorhin signalisiert, als wolltest du noch fragen, hast du es dir anders überlegt?
50:37 - 50:39

– hat sich erledigt – alles klar, dann bist du als nächstes dran
50:39 - 50:47

F: Was mir noch einfiel: wie würdest du das bewerten,
50:47 - 50:52

wenn man eine Überlegung zu einer Theorie sprachlicher Bedeutung da mit hinein bringt?
50:52 - 50:57

Was der Staat ja prinzipiell macht ist, er schmeißt sein Gewaltmonopol in unsere Sprache rein
50:57 - 51:03

und macht Regelsysteme auf, in denen er nachher die Bedeutung von gewissen Aussagen festlegt
51:03 - 51:10

und sagt: das hier ist wahrscheinlich eine kriminelle Äußerung oder die eines Kriminellen
51:10 - 51:16

kann man schon beobachten, bzw. ich könnte mir vorstellen aus einer Sprechertheorie,
51:16 - 51:24

dass das Verwüstungen in der Sprache anrichtet, dass der Staat Einfluss auf die Bedeutung unseres Sprachgebrauchs nimmt.
51:24 - 51:31

A: Das ist eine spannende Hypothese zu sagen, dadurch dass der Staat die Definitionsmacht hier hat zu sagen,
51:31 - 51:38

wie eine sprachliche Handlung verstanden werden soll, dass dadurch eine Bedeutungsverschiebung stattfindet,
51:38 - 51:46

die ggf. tatsächlich im Sinne eines „Neusprech“ nur noch bestimmte Äußerungen ermöglicht
51:46 - 51:50

das wäre eine spannende Hypothese, die mal zu überprüfen wäre
51:50 - 51:56

F: ja, also wenn man eine ganz moderne Theorie so „freier Signifikation“ annimmt, dann …
51:56 - 52:02

A: … dann haben wir immer noch Macht dann. Immerhin, subversiv können wir sein!
52:02 - 52:11

Aber das ist eine interessante Frage. Ich glaube nicht, dass der Einfluss auf den Alltag schon so stark ist,
52:11 - 52:15

das glaube ich nicht, aber warten wir es ab.
52:15 - 52:17

E: Gut, du hast die nächste Frage
52:17 - 52:21

Du sprachst gerade von den großen Datenmengen, die Datenmengen werden immer größer
52:21 - 52:24

damit ja auch irgendwie die Erfolgsquote dieser Voraussagen,
52:24 - 52:33

typischerweise selbst wenn die Algorithmen nicht besser werden, wenn die Datenmenge größer ist, wird es irgendwie besser
52:33 - 52:40

Was wird denn passieren, wenn wir einmal so große Datenmengen haben und die Algorithmen sich dann zusätzlich verbessern,
52:40 - 52:48

dass wir fast keine false positives mehr haben. Wir werden das dann nicht mehr mitbekommen
52:48 - 52:52

und es werden nur noch die Leute tatsächlich … das Horrorszenario, das ich mir gerade vorstelle,
52:52 - 53:02

es werden tatsächlich nur noch die echten Terroristen verhaftet. Und dann? Wie lange dauert es noch, bis es so weit ist?
53:02 - 53:07

Ich glaube, wir müssen jetzt handeln, bevor es so weit kommt. Denn sonst wird der Kampf dagegen
53:07 - 53:12

und die Rechtfertigung, dagegen Aktionen zu machen, immer schwieriger. Wie ist da deine Einschätzung?
53:12 - 53:15

A: Ganz spannender Punkt, hab ich noch nicht darüber nachgedacht.
53:15 - 53:21

Als erstes bin ich skeptisch, dass es so gut sein könnte, aber es ist ein spannender Punkt, ja
53:21 - 53:27

wenn nur noch die Terroristen verhaftet werden … die echten … dann haben wir ein Problem, ja …
53:27 - 53:36

Gelächter, Applaus
53:36 - 53:41

(Einruf; wird nicht aufgegriffen)
E: Du bist als nächstes dran
53:41 - 53:49

F: Wenn du dir mal die Berichte von Jeremy Scahill – das wurde im Tagesspiegel kolpotiert – anguckst,
53:49 - 53:54

die werten ja nicht nur die linguistischen Beziehungen aus, sondern tatsächlich auch:
53:54 - 53:59

wer hat mit wem telefoniert, wer ist mit wem verwandt und – eine ganz gefährliche Beziehung ist eben:
53:59 - 54:05

„Vater ist Islamist”, auch wenn man ihn 16 Jahre nicht gesehen hat – das ist evtl. ziemlich tödlich
54:05 - 54:12

und es scheint so zu sein, dass die ganzen Drohnenangriffe in zwei Zuständen laufen
54:12 - 54:18

nämlich im militärischen, operativ aktiven Zustand und dass sie eine Liste abarbeiten, wenn sie
54:18 - 54:30

gerade nicht operativ benötigt werden, wo eine Metadatenbank von oben nach unten nach einem Scoring abgearbeitet wird
54:30 - 54:36

und dann ist das Linguistische, glaube ich, nicht das gefährlichste, wenn man die falsche Verwandtschaft hat
54:36 - 54:43

A: ist richtig. Wir haben uns nur einen kleinen Teilbereich angeschaut von Daten,
54:43 - 54:46

die aber natürlich sehr wertvoll sind, weil sie sehr viel tieferen Einblick in unser Leben geben
54:46 - 54:58

als andere Daten. Gerade Radikalität zu messen – wovon ich nicht weiß, ob es stattfindet, etwas, was wir selbst vielleicht gar nicht wissen –
54:58 - 55:03

aber die Metadaten sind sehr viel mächtiger, wenn es um so harte Fakten geht.
55:03 - 55:05

Da sind die Metadaten natürlich interessanter.
55:05 - 55:07

E: Du hast die nächste Frage
55:07 - 55:13

F: Ich stimme zu, dass das ganz super wäre, wenn wir das auf der politischen Ebene besser in den Griff bekämen,
55:13 - 55:20

aber mit einer üblichen pessimistischen Einstellung, gibt es nicht eigentlich schon jede Menge Beispiele,
55:20 - 55:24

dass Politiker einfach auf den Zug aufspringen und das ganz super finden.
55:24 - 55:28

„Ist doch eine tolle Methode, funktioniert doch großartig!” ?
55:28 - 55:39

A: Ja! Was gemacht werden kann wird gemacht. Der Vortrag parallel ist ja über den „tiefen Staat“
55:39 - 55:45

das wär dann zu überprüfen, ob wir nicht trotzdem zu Regularitäten kommen können, zu einer Gesetzgebung
55:45 - 55:48

kommen können, die zunächst bestimmte Dinge zunächst mal verbietet. Ich finde das immer noch ein Ziel,
55:48 - 55:52

das wir glaube ich teilen. Aber natürlich, der Zug fährt in eine andere Richtung.
55:52 - 56:02

Aber was bei Snowden so unglaublich ist, ist, dass er Dinge in das Licht der Öffentlichkeit zerrt,
56:02 - 56:07

aber sie müssen eben da sein! Solange es nur Gerüchte sind, kann man nichts machen,
56:07 - 56:15

– und Desinformation ist eine wichtige Strategie – sind wir ausgeliefert.
56:15 - 56:19

Aber sobald harte Fakten da sind, wird es interessant. Dann kann man darüber diskutieren
56:19 - 56:23

und an dem Punkt sind wir jetzt wenigstens mal. Mal sehen, ob wir da nochmal hinkommen.
56:23 - 56:27

E: Okay, die nächste Frage kommt aus der ersten Reihe
56:27 - 56:32

F: Eher eine Ergänzung: Du hast gesagt, „was machen wir, wenn wir alle Terroristen fangen können?“
56:32 - 56:36

Natürlich müssen wir uns dann immer noch wehren, natürlich gibt es dann immer noch keine Rechtfertigung,
56:36 - 56:42

denn es wird immer noch alles gesammelt und – welche Datenbank ist 100% sicher?!
56:42 - 56:48

Früher oder später kommen die Daten an die Öffentlichkeit! Will ich dann wirklich wissen,
56:48 - 56:53

was man über mich weiß? Will ich, dass andere wissen können?
56:53 - 56:56

Wir brauchen keine Rechtfertigung, um dagegen vorzugehen.
56:56 - 57:00

Selbst wenn man nur noch die Terroristen fangen kann … wenn alle Daten gesammelt werden …
57:00 - 57:03

Können wir nicht wollen!
57:03 - 57:09

A: Danke, zumal auch das Konzept „Terrorist“ etwas ist, was man gesellschaftlich diskutieren kann.
57:09 - 57:15

E: Noch eine Frage von da hinten. Ich würde sagen, die letzte Frage, weil die meisten schon aufbrechen
57:15 - 57:27

F: Kurze Frage zum Thema false positive. Mal ein Forum zu etwas wie Medizin oder Sterbebegleitung gegen-gescannt?
57:27 - 57:36

Auf die Themen schwarz-weiß, Negativität, und so? Thema Operation?
57:36 - 57:40

Einfach so im Ranking im Vergleich zu Fefe, donalphonso, usw. liegen würde?
57:40 - 57:46

A: Wäre interessant, habe ich nicht gemacht. Es gibt viel zu tun, viel zu rechnen
57:46 - 57:52

F: na einfach von der Idee her, könnte da ja auch relativ viel false positive auftreten, oder?
57:52 - 57:58

A: Klar … (durcheinander) … tschuldigung F: Rein aus dem Bauch heraus
57:58 - 58:07

ist so die Richtung mal so ein Ansatz, wenn man sagt, man möchte viel false positive aufdecken.
58:07 - 58:13

A: Ja, es ist ganz wichtig, dass wir die Entstehungskontexte und die Medien der Texte mit berücksichtigen müssten
58:13 - 58:16

das haben wir jetzt überhaupt nicht gemacht, wir haben so getan, als seien alle Texte gleich,
58:16 - 58:19

aber es ist natürlich nicht so. Wer sich mit der Thematik beschäftigt, merkt, dass Textsorten usw.
58:19 - 58:23

einen unglaublichen Einfluss darauf haben, auf was wir da eigentlich messen.
58:23 - 58:28

Deswegen hat die Fragestellerin völlig recht.
58:28 - 58:34

Aber es gibt natürlich Methoden, Textsorten zu erkennen.
58:34 - 58:39

E: Alles klar! Dann ganz vielen Dank nochmal an Josh und auch dass da noch so viel Zeit war…
58:39 - 58:48

subtitles created by c3subtitles.de

Title:: Deutsch – Überwachen und Sprache
Description:: 30C3 "Überwachen und Sprache"

more » « less
Video Language:: German
Duration:: 58:48

	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	C3Subtitles edited German subtitles for Deutsch – Überwachen und Sprache
	Patrick edited German subtitles for Deutsch – Überwachen und Sprache

Show all

German subtitles

Revisions

Revision 17 Edited

C3Subtitles

Deutsch – Überwachen und Sprache

Revisions

Our website uses cookies

Operating cookies (Required)