Return to Video

Deutsch – Überwachen und Sprache

  • Not Synced
    Herzlich willkommen zu meinem Talk. Vielen Dank für die nette Einführung
  • Not Synced
    Ihr seht der Talk hat den anspruchsvollen Titel "Überwachen und Sprache"
  • Not Synced
    Spielt natürlich auf Foucault an "Überwachen und Strafen"
  • Not Synced
    Allerdings, lange bevor Foucault die Genese der Disziplinargesellschaft dargestellt hat
  • Not Synced
    findet man in einem Kinderbuch eine sehr schöne moralische Erzählung
  • Not Synced
    die heißt "Das Kind im Glashaus" von Heinrich Oswalt entstanden 1877 und sehr weitsichtig
  • Not Synced
    In Frankfurt lebt ein Glasermeister,
    Herr Lebrecht Scheibenmann, so heißt er;

  • Not Synced
    Der hat ein kleines Töchterlein,
    Das wollte nie gewaschen sein.
  • Not Synced
    Und kam mit Schwamm und Seif sein Gretchen,
    Da lief davon das böse Mädchen;
  • Not Synced
    Es warf sogar den Waschtisch um -
    Das Wasser floß im Haus herum.
  • Not Synced
    Da fing Herr Lebrecht Scheibenmann
    Ein seltsam Haus zu bauen an,
  • Not Synced
    Aus lauter Glas ein Haus, das, ach!
    Durchsichtig war bis unters Dach.
  • Not Synced
    Und in dies Glashaus setzte man
    Das böse Töchterlein sodann.
  • Not Synced
    Da blieben, um es anzusehn,
    Die Leute auf der Straße stehn.
  • Not Synced
    […]
    Da schämte sich das Kind und lief
    Im ganzen Haus herum und rief:
  • Not Synced
    “Wo soll ich mich denn nur verstecken?
    Man sieht mich ja in allen Ecken!
  • Not Synced
    Das Dach, der Keller, jedes Zimmer
    Ist ja von Glas! man sieht mich immer!”
  • Not Synced
    Die Mutter sprach: “Mein liebes Kind!
    Ein Mittel gibt’s, das hilft geschwind:
  • Not Synced
    Wenn dich die Leute artig sehn
    Dann werden sie vorübergehn;
  • Not Synced
    […]
    Das merkte sich das Töchterlein;
    Es nahm sich vor, geschickt zu sein.
  • Not Synced
    Und weil’s beim Waschen nicht mehr schrie,
    Da lachten auch die Leute nie;
  • Not Synced
    Denn jeder, der ins Haus jetzt blickt,
    Der sieht ein Kind, das ganz geschickt.
  • Not Synced
    Und habt Ihr selbst ein Kind, Ihr Leut’,
    Das bei dem Waschen immer schreit,
  • Not Synced
    Sagts nur Herrn Lebrecht Scheibenmann,
    Der schafft Euch gleich ein Glashaus an.
  • Not Synced
    Ja, da … erste Applausansätze
    [Applaus]
  • Not Synced
    Ja, interessante Geschichte, die natürlich sehr gut auf unsere Zeit passt
  • Not Synced
    denn Lebrecht Scheibenmann heißt Keith Alexander und arbeitet für die NSA
  • Not Synced
    Die NSA hat aus unser aller Zuhause Glashäuser gemacht
  • Not Synced
    wir können alle gesehen werden in diesen Glashäusern
  • Not Synced
    und man weiß nicht, bzw. ich bin mir ziemlich sicher, dass man damit pädagogische Ziele verfolgt
  • Not Synced
    dass bestimmte Handlungen nicht mehr als akzeptabel gelten
  • Not Synced
    und dass wir diese Beobachtung verinnerlichen
  • Not Synced
    Bei dieser Beobachtung spielt Sprache natürlich eine ganz wichtige Rolle
  • Not Synced
    Viele unserer Äußerungen finden im Medium der Sprache statt
  • Not Synced
    Das hat auch viele Hacker auf die Idee gebracht, dass wir die NSA austricksen mit einer Seite wie "Hallo NSA"
  • Not Synced
    Eine Website, die wie ein „Bullshitter“ verdächtige Wörter zu Botschaften zusammensetzt
  • Not Synced
    und diese dann getweetet, gemailt oder verchattet werden sollen
  • Not Synced
    um soetwas zu erreichen wie hier "Operation Troll the NSA“
  • Not Synced
    dass man die NSA-Scanners jammen kann, dass man eine DDOS Attacke machen kann.
  • Not Synced
    indem man einfach zu viel Content schickt, der quasi verdächtig ist auf der Basis von Keywords
  • Not Synced
    In meinem Vortrag soll es darum gehen, dass dieses Bild von der NSA falsch ist.
  • Not Synced
    Wir können nicht davon ausgehen, dass in der NSA die Leute tatsächlich bei Anzeige eines Keywords
  • Not Synced
    sofort etwas ausdrucken und zu einer [Gelächter]
    Analyse schreiten und sich das genauer anschauen
  • Not Synced
    in der Annahme das sei eine sehr intensive Tätigkeit
  • Not Synced
    und deswegen ist ein Keyword-Spam-DDoS natürlich erfolglos
  • Not Synced
    Ihr alle werdet vermutlich die thanksgiving taklkingpoints der NSA gelesen haben.
  • Not Synced
    Ich weiß nicht, ob ihr darüber gestolpert seid, dass unter Punkt 4 etwas ganz wichtiges steht
  • Not Synced
    “NSA brings together the best linguists, analysts, mathematicians, engineers and computer scientists
  • Not Synced
    in the United States.“
    und die Linguisten werden als erstes genannt.
  • Not Synced
    [Lachen]
  • Not Synced
    Also da sieht man, der NSA ist durchaus bewusst, dass Sprache ein wichtiges Medium ist
  • Not Synced
    und das auch für sie sehr wichtig ist. Insofern macht es
    durchaus Sinn, sich damit zu beschäftigen
  • Not Synced
    Zufälligerweise wurde vom Innenminister die neuste Analysesoftware geleakt, der "Advanced Security Toolkit"
  • Not Synced
    Entwickelt vom Leibnitz-institut für verteiltes Echtzeit-Java. [Gelächter]
  • Not Synced
    Wir gucken uns zunächst unsere heutige Mission an.
  • Not Synced
    Die heutige Aufgabe besteht darin, die deutsche Bloggerszene unter die Lupe zu nehmen
  • Not Synced
    die radikalisiert sich ja offenbar seit Regierungsübernahme durch die Große Koalition
  • Not Synced
    wichtig ist es, zu schauen, ob Aktionen in Vorbereitung sind, und ggf. radikale Subjekte zu identifizieren,
  • Not Synced
    die sich da besonders hervortun. Zunächst wählen wir unsere Targets, wir kriegen natürlich welche vorgeschlagen
  • Not Synced
    Leider kann ich nur eine kleine Auswahl möglicher Targets präsentieren. Ich hätte gerne noch viel mehr genommen
  • Not Synced
    Es gibt ein paar gesellschaftskritische Blogs und Newssites
  • Not Synced
    wie blog.fefe.de, indymedia, Mädchenmannschaft, Netzpolitik.org, rebellmarkt.blogger.de
  • Not Synced
    Und religiös motivierte Webseiten, wie kreuz.net, islambruderschaft.com-blog und Diskussionsforum salafistisches
  • Not Synced
    und wir bestätigen natürlich die Auswahl. Das ist eine sehr sinnvolle Auswahl
  • Not Synced
    Folgende Analysen sind möglich. Ich kann natürlich nur eine Auswahl an möglichen Analysetools heute zeigen
  • Not Synced
    Ich würde gerne viel mehr zeigen, aber die Zeit wird nicht reichen.
  • Not Synced
    Zunächst gucken wir uns an, was schreiben Autoren über mögliche sensible Ziele
  • Not Synced
    Wir machen also mal eine Zielanalyse.
  • Not Synced
    diese untersucht auf Basis von Named-Entity-Recognition die Kollokation zu möglichen Terrorzielen
  • Not Synced
    Wir müssen … was ist das denn? … wir gucken mal ins Handbuch rein, was Named Intities sind
  • Not Synced
    ist ja unser erster Tag heute
  • Not Synced
    Named-Entities sind zunächst mal Ausdrücke, die eine Identität eindeutig von anderen Entitäten mit ähnlichen Attributen unterscheiden
  • Not Synced
    Man denkt spontan an Namen, aber es ist nicht so trivial zu sagen was ein Name ist
  • Not Synced
    Named-Entitiy-Recognition ist entsprechend das Verfahren, wie man solche Named Entities identifiziert
  • Not Synced
    Es gibt sicherlich unterschiedliche Klassen von Named Entities, bspw. Personen, Organisationen, Orte
  • Not Synced
    Manchmal ist auch nicht so deutlich zu was eine bestimmte Named Entity gehört. z.B. „der Bundestag“
  • Not Synced
    das kann sowohl ein geografischer Ort sein, als auch eine Organisation
  • Not Synced
    Jetzt müssen wir noch wissen, was Kollokationen sind
  • Not Synced
    Das sind statistisch überzufällig häufige Wortkombinationen
  • Not Synced
    d.h. “we define a collocation as a combination of two words, that exhibit a tendency to occur near each other in natural language that is to cooccur”
  • Not Synced
    also z.B. „ein Weg einschlagen“, „ein Weg gehen“
  • Not Synced
    Das sind typische Verbindungen zwischen den Worten „Weg“, „gehen“ bzw. „einschlagen“
  • Not Synced
    und diese Verbindungen bilden Kollokationen, wenn sie überzufällig sind
  • Not Synced
    wie wir mit statistischen Tests feststellen können
  • Not Synced
    und wir können die in natürlicher Sprache beobachten
  • Not Synced
    Ein Beispiel – ihr müsst das jetzt nicht lesen können – ich wollte ein Beispiel zeigen zum Wort „Spezialexperte“
  • Not Synced
    man sieht hier das “keyword in context”, also das gesuchte Schlüsselwort
  • Not Synced
    und man sieht die Kontexte dieses Wortes, also einen „ausgesuchten Spezialexperten für Internetfragen“ haben sie wohl nicht gefunden
  • Not Synced
    Wir müssen kein Ratespiel machen, aus welchem Blog das wohl stammen könnte
  • Not Synced
    Was man dann macht, bei einer Kollokationsanalse
    man untersucht Kontexte
  • Not Synced
    z.B. hier fünf Wörter links, fünf Wörter rechts bis Satzanfang oder -ende
  • Not Synced
    Man zählt einfach die Wörter, die im blauen Bereich stehen
  • Not Synced
    und vergleicht die relative Frequenz mit Wörtern, die links und rechts im weißen Bereich stehen
  • Not Synced
    Wenn ein Wort signifikant häufiger im blauen Bereich vorkommt, kann man sagen, es ist eine Kollokation des Worts „Spezialexperte“
  • Not Synced
    Hier fällt bspw. auf „kriegen“ oder „Adobe-Spezialexperten“
  • Not Synced
    Man kann Kollokationen als Graphen visualisieren
    [Gelächter]
  • Not Synced
    Die Knoten bezeichnen Lexeme, (ich weiß jetzt nicht, wass es da zu lachen gibt) [mehr Gelächter]
  • Not Synced
    (das ist ernste Linguistik!) und die Kanten bezeichnen „ist Kollokation von“
  • Not Synced
    Sie sehen also hier „die besten der besten, Sir“, Sarrazin und Mehdorn gehören dazu.
  • Not Synced
    Es wuchert ein bisschen weiter. „Adobe-Backup“, „Backup-Spezialexperten“ … interessant
  • Not Synced
    Ok. Wir sind im Bereich der Zielanalyse. Wir starten mal die Analyse.
  • Not Synced
    Was machen wir da eigentlich? Was wir machen ist, wir erkennen in allen Corpora alle Named Entities
  • Not Synced
    Wir berechnen das erstmal mit Methoden maschinellen Lernens.
  • Not Synced
    D.h. man untersucht bestimmte Kontexte in denen Named Entities stehen.
  • Not Synced
    Wir haben einen Trainings-Corpus, in dem steht bereits drin, was Named Entities sind
  • Not Synced
    bspw. dass „Bundestag“ eine Organisation ist und die Software lernt aus diesen Kontexten
  • Not Synced
    was typische Kontexte für solche Named Intities sind und versucht diese auf neue Corpora anzuwenden
  • Not Synced
    Was wir hier machen: wir identifizieren in allen Corpora, in allen Blogs, die wir untersuchen die Named Entities.
  • Not Synced
    wir kategorisieren diese Named Entities nach Personen, Organisationen, geografischen Orten und sonstigen
  • Not Synced
    und dann berechnen wir die Kollokationen eben zu relevanten Named Entities.
  • Not Synced
    z.B. „Angela Merkel” könnte interessant sein oder sowas.
  • Not Synced
    Und dann schauen wir auch in den Kollokationen, ob darin irgendwelche Gefährderwörter sind.
  • Not Synced
    Also Wörter, die auf Anschlagsplanungen oder sonstiges hindeuten. Das machen wir jetzt.
  • Not Synced
    die Analyse ist offenbar abgeschlossen und Ergebnis ist, wir haben Gefahrenstufe 1 von 5, also nicht weiter tragisch
  • Not Synced
    die Software schlägt uns eine Überprüfung der Gefährdungslage in Hinblick auf Berlin vor
  • Not Synced
    also der Ortsangabe bei donalphonso, Rebellmarkt-Blogger
  • Not Synced
    Potentielles Ziel bei Fefe ist SPD und bei der Mädchenmanschaft sollen wir nach Christina Schröder als Person gucken [Gelächter]
  • Not Synced
    Wir haben jetzt zum Beispiel als Auftrag bekommen, warum donalphonso Böses über Berlin schreibt und ggf. etwas plant
  • Not Synced
    Wir können uns jetzt Kollokationsgraphen anzeigen lassen oder Geokollokationen
  • Not Synced
    D.h. wir haben eine Landkarte und darauf stehen an den Orten, über donalphonso schreibt, die Kollokationen zu den Orten
  • Not Synced
    In Amerika schreibt er über Boy(?) und Kultur, Einzeltäter, verwirrt und „hassen Mail“ und sowas
  • Not Synced
    Deutschland, Mitteleuropa ist natürlich im Fokus. Das geht auch bis Italien runter
  • Not Synced
    Da sieht man auch, worüber donalphonso so schreibt.
  • Not Synced
    Wir nähern uns Berlin. Da sind zu viele Kollokationen als dass wir sie alle auswerten könnten
  • Not Synced
    Deswegen schauen wir uns den Kollokationsgraphen an und suchen nach Hinweisen auf Terror, der stattfinden könnte
  • Not Synced
    Ich lese einige vor: „Berlin“, „Slum“, „Reichshauptslum“, „arm“, „Transferleistung“, „abscheulich“, „Berliner Hipster“ [Gelächter]
  • Not Synced
    Das zeigt zwar eine sehr negative Haltung zu dem Gegenstand, aber ich würde nicht sagen terrorverdächtig.
  • Not Synced
    Das weitere potentielle Ziel waren die Organisationen „SPD“ bei Fefe
  • Not Synced
    Wir lassen uns den Kollokationsgraphen anschauen. Fefe und die SPD. [Gelächter]
    [Gelächter]
  • Not Synced
    hey „Verräterpartei“, „Umfallerpartei“, mal kurz zurück
  • Not Synced
    Insgesamt in der gesamten Liste fanden sich tatsächlich so Wörter wie:
  • Not Synced
    „erhängen“, „erzwingen“, „Spitzenkandidat“, „Verräterpartei“, „Umfallerpartei“, „Pest“, „Cholera“ [Gelächter, Applaus]
  • Not Synced
    Wenn wir uns den Kollokationsgraphen anschauen, dann merken wir schon, das sind Vorwurfshandlungen.
  • Not Synced
    Aber da wird nicht geplant, dass der Spitzenkandidat um die Ecke gebracht werden soll von Fefe
  • Not Synced
    Wir machen jetzt weiter mit dem Ideologiemonitor. Wir wollen jetzt mal messen …
  • Not Synced
    Es ist belegt, dass die NSA viele Softwarepatente für Algorithmen zu Named-Entity-Recognition angemeldet hat
  • Not Synced
    Es wurde in der Tat viel in dem Bereich Forschung betrieben vor einiger Zeit
  • Not Synced
    Aber man findet zunächst heraus, was interessante Targets sind und was über sie gesagt wird
  • Not Synced
    Das kan man sicherlich noch besser machen, in dem man Idieologien misst.
  • Not Synced
    Was wir jetzt berechnen wollen ist die Ähnlichkeit von Texten, von Blogs zu bestimmten weltanschaulichen Ideologien
  • Not Synced
    Wir haben die Möglichkeit, linksextreme, rechtsextreme oder islamistische Einstellungen zu messen
  • Not Synced
    Das machen wir so, dass wir typische Kollokationen berechnen … also zu einem bestimmten Korpus
  • Not Synced
    Von diesem Korpus lernen wir. Das ist also das Vergleichsmodell.
  • Not Synced
    Wir nehmen mal die „Islambruderschaft“. Die hat ein Blog und da schreiben sie böse Sachen
  • Not Synced
    und wir lernen von diesem Blog: was sind typische Wortverbindungen, die wir als islamistisch betrachten können
  • Not Synced
    wir wollen gerne wissen, wer in einem salafistischen Diskussionsforum besonders viel von radikalislamischer Ideologie hat
  • Not Synced
    also das ist ein ganz fieses Untersuchungsprogramm, das wir hier starten. Ja, die Analyse läuft
  • Not Synced
    Das Ziel ist es, wie sind bestimte Texte von bestimmter Ideologie durchdrungen
  • Not Synced
    und wir gleichen ein salafistisches Diskussionsforum mit unserem Trainingskorpus ab
  • Not Synced
    und dieses Trainingscorpus ist ein Blog von der Islambruderschaft
  • Not Synced
    was wir bekommen sind Wortverbindungen, die womöglich auf islamistische Grundhaltungen verweisen
  • Not Synced
    – also ich hoffe, ihr denkt die Anführungszeichen immer mit –
  • Not Synced
    Wir haben hier „Allah -> Krieg“, „Bombe -> Jahr -> Feind“, „Kufr -> beleidigen“, „Gesetz -> Islam“, „Bedeutung -> Jihad“, „Allah -> Afghanistan“, „martern -> Kufr“, usw.
  • Not Synced
    Also es gibt eine ganze Reihe dieser Wortverbindungen, die wir aus diesem Korpus lernen
  • Not Synced
    und jetzt schauen wir, wie diese Wortverbindugnen in personenspezifischen Korpora von Mitgliedern
  • Not Synced
    in diesem Diskussionsforum vorkommen. Wir sehen hier einen User – natürlich ist der Nickname nicht echt
  • Not Synced
    man sieht es ein bisschen schlecht, aber hier sind rote Verbindungen angeleuchtet
  • Not Synced
    Das sind islamistische
    [Gelächter]
  • Not Synced
    Das sind sämtliche Kollokationen in diesem Korpus mit der höchsten Typizität
  • Not Synced
    und solche Verdichtungspunkte verweisen auf bestimmte Themen
  • Not Synced
    Wir haben auch den User „JihadFan“ [Gelächter] – der aber offenbar auch nicht so jihadistisch unterwegs ist
  • Not Synced
    weil es sind relativ wenige – wir haben aber die Userin „Muslima“ – und leider sieht man das jetzt wirklich nicht so gut
  • Not Synced
    ich mach es mal ein bisschen größer – bei ihr sehen wir relativ viele rote Verbindungen
  • Not Synced
    wir können uns natürlich auch ein paar verdächtige Verbindungen anschauen
  • Not Synced
    jetzt müssen wir wieder klein werden – da sind solche Verbindungen wie „der -> ganzen -> Welt -> Frieden -> Krieg -> bringen“
  • Not Synced
    Da sind Verbindungen wie „Bombadierung -> Zivilist -> schlachten -> martern -> Invasoren“, „erfolgreiche -> Operation“
  • Not Synced
    oder Verbindungen wie „Koran -> Taliban -> edel -> Sieg“, die vielleicht auf das Schreiben über das Thema hindeuten
  • Not Synced
    das heißt, wir würden sagen, das wäre ein Ziel für weitere operative Maßnahmen, diese Userin,
  • Not Synced
    und das schicken wir ab und dann geht es weiter.
  • Not Synced
    Damit haben wir aber nichts mehr zu tun, denn wir sind ja nur Linguisten. [Gelächter, Applaus]
  • Not Synced
    Ich deute das als Zustimmung. Gut, wir fahren mit weiteren Analyseschritten fort.
  • Not Synced
    Und zwar messen wir Radikalität. Radikalität ist etwas, das man so ohne weiteres erstmal nicht messen kann
  • Not Synced
    denn es ist ja selbst ein ideologisches Konzept
  • Not Synced
    Wir – vom Innenministerium – verstehen unter Radikalität zunächst eine stark negative Weltsicht
  • Not Synced
    wir verstehen darunter eine Intoleranz gegenüber abweichenden Auffassungen, also ein schwarz-weißes Weltbild
  • Not Synced
    wir verstehen darunter eine hohe emotionale Involviertheit
  • Not Synced
    und eine Neigung zu Verschwörungstheorien
    [vereinzeltes Gelächter] Ja!
  • Not Synced
    Das ist nicht ganz vom Himmel gefallen. Es gibt tatsächlich Forschungsliteratur, die diese Punkte nennt
  • Not Synced
    wie operationalisieren wir das jetzt, also eine negative Weltsicht? Ich möchte euch zwei Ansätze vorstellen
  • Not Synced
    Es gibt also den sehr einfachen, listenbasierten Ansatz. Man sagt, wir haben eine bestimmte Liste von Wörten,
  • Not Synced
    deren Bedeutung wir kennen und gucken, wie häufig finden sich die Listenelemente in Texten
  • Not Synced
    Bspw. wenn wir „negative Weltsicht“ operationalisieren wollten, könnten wir sagen, wir suchen nach Phrasen
  • Not Synced
    oder auch Vokabeln, die skandalisieren, wie: „Blindheit“, „Blödheit“, „Bodenlosigkeit“, „Chaos“, „Debakel“,
  • Not Synced
    „Desaster“, „Dreistigkeit“, „Dummheit“, das könnte man alles anders nennen, könnte Indikator sein für negative Weltsicht
  • Not Synced
    Wir haben auch den Gebrauch von negativ wertenden Adjektiven. Nur mal die ersten: „abartig“, „aberwitzig“,
  • Not Synced
    „abfällig“, „abgedroschen“, „abgegriffen“, „abgeschmackt“, usw. Insgesamt 700, oder so
  • Not Synced
    das wäre also der listenbasierte Ansatz.
  • Not Synced
    Was wir natürlich auch machen können ist ein schwarzweißes Weltbild operationalisieren
  • Not Synced
    das kann man mit Hilfe von „semantischen Taxonomien“ machen. Semantische Taxonomien beschreiben die Relationen
  • Not Synced
    zwischen Wörtern in unserem Wortschatz, bspw. könnte auf schwarzweiß-Denken in Texten hindeuten
  • Not Synced
    eine hohe Frequenz von „polaren Antonymen“, also Gegensatzwörtern, die man ohne degradierte Form gebracht
  • Not Synced
    also dass man sagt „lang“ und „kurz“ statt „länger …“ oder „kürzer als“.
  • Not Synced
    Noch deutlicher wird es vielleicht bei Wörtern, die gar nicht gradierbar sind, wie „wahr“ oder „falsch“,
  • Not Synced
    „tot oder lebendig“, „anwesend oder abwesend“, „dafür oder dagegen“. Da gibt es nichts dazwischen,
  • Not Synced
    die sind komplementär und ihr Gebrauch, könnte man meinen, lässt Rückschlüsse auf ein schwarzweißes Weltbild zu.
  • Not Synced
    Emotionale Involviertheit könnte man operationalisieren mit Hilfe von Gradpartikeln
  • Not Synced
    das ist sowas wie „ich finde das absolut toll“, oder „total toll“. Ja, nicht nur „toll“, sondern „total“
  • Not Synced
    Das wäre bspw. ein Gradpartikel aus dem absoluten Intensivierungsbereich
  • Not Synced
    wir können Gradpartikel unterscheiden nach Intensivierungsbereichen und es gibt unterschiedliche Abstufungen
  • Not Synced
    wie den „absoluten“ Intensivierungsbereich, in den „absolut“, „gänzlich“, „grundlegend“, „gründlich“,
  • Not Synced
    „im geringsten“, „komplett“, „längst“, „rein“ usw. reinfallen, den „extrem hohen“ Intensivierungsbereich:
  • Not Synced
    „höchst“, „äußerst“, „zutiefst“, „aufs äußerste“, „aufs höchste“, „aufs Tiefste“, „höchstlichst“, usw.
  • Not Synced
    und den hohen Intensivierungsbereich mit „sehr“, „stark“, „gewaltig“, „besonders“, „so“, „arg“, „übertrieben“ usw.
  • Not Synced
    Wenn wir die Distribution dieser Gradpartikel in Korpora messen, dann könnten wir sagen:
  • Not Synced
    vielleicht sind die Indikator für emotionale Involviertheit. Und die Neigung zu Verschwörungstheorien
  • Not Synced
    das ist natürlich besonders schwierig zu operationalisieren, da haben wir einfach
  • Not Synced
    eine Liste von Wörtern genommen, die darauf verweisen, dass vielleicht etwas nicht so ist, wie es sein könnte
  • Not Synced
    wenn man Wörter hat wie „angeblich“, „vermeintlich“, „scheinbar“, „behaupten“, „heucheln“,
  • Not Synced
    „verheimlichen“, „verschweigen“, „fingieren“, „vorgaukeln“, „entlarven“, usw
  • Not Synced
    das sind natürlich Wörter, die zumindest das Potential haben, darauf zu verweisen,
  • Not Synced
    dass die Welt nicht so ist, wie sie uns verkauft wird oder dargestellt wird.
  • Not Synced
    Und das findet man natürlich eher bei Personen, die Verschwörungstheorien anhängen
  • Not Synced
    Wenn man jetzt den Radikalitätsindex berechnet – das hier sind normalisierte Werte – dann kann man sehen
  • Not Synced
    dass Fefe, knapp gefolgt von donalphonso und mit kleinem Abstand das salafistische Forum [Gelächter]
  • Not Synced
    und weiterem Abstand kreuz.net hier aufschlagen. Fefe hat nirgendwo die erste Position, muss man dazu sagen
  • Not Synced
    also auch bei den Verschwörungen nicht, da schlägt kreuz.net Fefe noch um Längen
  • Not Synced
    – interessanterweise übrigens, wie ich fand –
  • Not Synced
    und donalphonso ist also tatsächlich ein großer Skandalisierer und Intensivierer, kann man feststellen
  • Not Synced
    wenn man sich noch einmal das Ranking anschaut, dann sieht das so aus … Fefe, donalphonso, salafistische …
  • Not Synced
    Also ob wir operative Maßnahmen einleiten überlasse ich euch. Ich würde sagen, wir behalten die im Auge.
  • Not Synced
    Das waren jetzt ein paar Techniken, die ich euch darstellen wollte, die wenig zu tun haben mit dem „Keywordbullshitter“
  • Not Synced
    den wir gesehen haben. Denn diese Keywords selbst spielen eine sehr geringe Rolle bei den Analysen, besonders wie zuletzt gesehen
  • Not Synced
    Ich denke die Linguistik und die NSA-Linguisten sind sicherlich sehr viel weiter um e-Mails zu filtern
  • Not Synced
    Ich denke, wenn man sich den Rechenschaftsbericht der G10-Kommission anschaut, die die deutschen Geheimdienste überwachen
  • Not Synced
    die hatten ja zunächst so dargestellt es wurden so wahnsinnig viele e-Mails gescreent, aber das meiste davon war Spam
  • Not Synced
    und wenn man sich den neueren Bericht anschaut, dann steht da, wir haben die Spamerkennung verbessert
  • Not Synced
    und es wurden deswegen sehr viel weniger e-Mails. Aber es ist auch die Rede von mehreren Ebenen des Screenings
  • Not Synced
    und es werden erst zu einem sehr späten Zeitpunkt e-Mails tatsächlich in die Hand genommen und qualitativ ausgewertet
  • Not Synced
    und ich denke, dass vielleicht der allererste Zugriff über ein Keyword erfolgt, das auch sehr allgemein gehalten sein kann
  • Not Synced
    dass die weiteren Ebenen dann natürlich viel feinere Analysen beinhalten, die eben Kollokation, semantische Taxonomien
  • Not Synced
    oder Topic-Modelling, über das ich heute leider nicht sprechen kann, benutzen
  • Not Synced
    Ja, ich bin noch nicht fertig. Vielleicht kennen einige von euch den Film „Alphaville“?
  • Not Synced
    Alphaville ist ein Film von Jean-Luc Godard, in dem es darum geht dass Lemmy Caution, ein Spion,
  • Not Synced
    in die Stadt Alphaville kommt, die von einem allmächtigen, diktatorischen, totalitären Computer beherrscht wird: Alpha 60
  • Not Synced
    und ein Teil seiner Aufgabe ist es, diesen Computer auzuschalten und den Erzeuger von Braun zu finden.
  • Not Synced
    Er spricht dann mit einem der Programmierer dieses Computers, einem Assistenten von von Braun
  • Not Synced
    und der Assistent fragt ihn: „Sind Sie auch ein Spion?“ – Ich kann den Screenshot wegen Urheberrecht leider nur so zeigen
  • Not Synced
    Darauf sagt Lemmy Caution: „Nein, das wissen Sie genau, ich bin nämlich ein freier Mann!“
  • Not Synced
    Daraufhin sagt der Assistent: „Ihre Antwort ist bedeutungslos. Wir wissen nichts.
  • Not Synced
    Wir registrieren, berechnen und ziehen unsere Schlussfolgerungen.“
  • Not Synced
    Und dieser Satz erfasst eigentlich das Problem, das wir mit den Diensten haben, relativ gut.
  • Not Synced
    Denn die Dienste unterwerfen unsere Lebensäußerungen einer Logik, die zunächst nicht unsere Logik ist
  • Not Synced
    sie werten sie nach bestimmten Mustern aus: „Wir registrieren, berechnen…“, sie ziehen Schlussfolgerungen daraus
  • Not Synced
    aber sie müssen sich dafür nicht rechtfertigen. Sie müssen ihre Methoden nicht offenlegen
  • Not Synced
    und ihre Logik nicht zur Diskussion stellen. Und genau das ist das Problem.
  • Not Synced
    Das ist aber ein Kennzeichen für alle totalitären Systeme, dass sie ihre Logik nicht rechtfertigen müssen.
  • Not Synced
    Wir wissen überhaupt nicht, was überhaupt verdächtig sein könnte
  • Not Synced
    und der Grund dafür ist, dass diese Diese eben im Geheimen operieren können
  • Not Synced
    und unsere Aufgabe sollte es sein, diese Methoden öffentlich zu machen, diese Methoden zu diskutieren
  • Not Synced
    zu beweisen, dass diese Methoden fehlerhaft sind und unglaublich viele „false positives“ produzieren
  • Not Synced
    und dass wir es deswegen lieber lassen sollten und wir vielleicht ein paar Scheiben ins Glashaus werfen
  • Not Synced
    Vielen Dank
  • Not Synced
    [Applaus]
  • Not Synced
    [Angle:] Ja vielen Dank, Josh, für diesen richtig coolen Talk. Was auch cool ist:
  • Not Synced
    Was auch cool ist, wir haben noch richtig viel Zeit für Fragen und Antworten
  • Not Synced
    Wir haben vier Saalmikrofone hier, wir haben zwei auf jeder Seite
  • Not Synced
    für Leute, denen es schwerer fällt, zum Saalmikro zu kommen, habe ich auch das tragbare Handmikro
  • Not Synced
    und wir können noch gucken, ob es Fragen aus dem Internet gibt und die dann dem Signal Angel stellen
  • Not Synced
    seid nicht so schüchtern, wir haben noch eine halbe Stunde, das war ja wohl ein guter Input
  • Not Synced
    wenn ihr also ne Frage habt, dann bewegt euch da.
  • Not Synced
    Ja vielleicht fangt ihr an, euch zu den Mikrofonen zu bewegen, geht das auch für euch beide?
  • Not Synced
    Dann komm ich gleich zu dir, dann die erste Frage
  • Not Synced
    [F:] Wie ist denn das mit diesen Kollokationen und Kultureller Kontext? Also es könnte sein, dass wir jetzt bspw.
  • Not Synced
    da wollte jetzt ein Osama ein Konto eröffnen und das wurde ihm verweigert, weil er Osama heißt
  • Not Synced
    dass wir dann diese Kollokation quasi feststellen, aber dass der Name Osama ein recht häufiger im arabischen Kontext ist
  • Not Synced
    wie wird damit umgegangen, dass das etwas ganz normales dort ist, für uns aber sofort verdächtig erscheint?
  • Not Synced
    [A:] Vielen Dank, ich weiß nicht auf welcher Ebene ich die Frage beantworten soll.
  • Not Synced
    Aus linguistischer Perspektive kann man damit, glaube ich, recht gut umgehen, indem man weiteren Kontext dazu nimmt
  • Not Synced
    und relativ schnell disambiguieren könnte, dass es sich eben nicht um Osama bin Laden handelt,
  • Not Synced
    zumal der ja auch schon tot ist
    [Gelächter]
  • Not Synced
    aus Sicht eines Analytikers, der vielleicht gar nicht versteht, was unter der Haube eines solchen Toolkits läuft, ist es erstmal egal
  • Not Synced
    denn er folgt seiner Logik, er hat seine Mission und wie gesagt, die Menge an False positives ist riesig
  • Not Synced
    das wird eben damit gerechtfertig, dass das, was auf dem Spiel steht, so monströs ist, wenn es denn fiele, dass das jedes Mittel rechtfertigt
  • Not Synced
    [Angle:] Okay danke, dann haben wir noch eine Frage von dir und dann du als nächstes, bitteschön
  • Not Synced
    [F:] ja, mich würde interessieren, ob du dir mal die Mühe gemacht hast, mit diesen Methoden
  • Not Synced
    auch mal sowas wie die Pressemitteilungen des Innenministeriums zu analysieren
  • Not Synced
    weil da ist doch bestimmt auch eine Menge Schwarzmalerei und emotionaler Sprachgebrauch zu finden
  • Not Synced
    [A:] Sehr interessant, das ist eine gute Frage. Habe ich nicht gemacht
  • Not Synced
    Was ich gemacht habe, war bei Politikerinnen und Politikern, also Angela Merkel, usw.
  • Not Synced
    das trieft aber natürlich von positiven Darstellungen der Wirklichkeit
  • Not Synced
    weil als Regierungschefin ist man natürlich bemüht, die Wirklichkeit so zu konstruieren,
  • Not Synced
    dass sie in einem möglichst positiven Licht erscheint und es wäre sicherlich interessant das genauer anzuschauen
  • Not Synced
    [Angle:] Die nächste Frage von dir bitteschön
  • Not Synced
    [F:] Wäre es eigentlich möglich, so Konnotationsspam zu erzeugen
  • Not Synced
    in einem etwas komplexeren Zusammenhang mit ein paar Bots?
  • Not Synced
    [A:] Naja, hier kommt eine kluge Frage. Wenn wir jetzt schon wissen, dass Keyword-Bullshitting zu grob ist
  • Not Synced
    ob wir dann nicht klugerweisen unser Wissen nutzen können, um Texte automatisiert zu erstellen,
  • Not Synced
    die bestimmte Kollokationsprofile abbilden, bspw. Das können wir alles machen.
  • Not Synced
    Aber ich möchte noch einmal drauf hinweisen, was mir wirklich ganz zentral ist
  • Not Synced
    es hat, glaube ich, keinen Sinn, sich zu verstellen, sich zu verbergen in diesem Kontext
  • Not Synced
    was sich ändern muss, ist diese Logik, in der dieses Spiel gespielt wird
  • Not Synced
    Denn für jede Methode gibt es eine Gegenmethode. Das ist ein Wettrüsten, das in diesem Fall sehr wenig Sinn macht
  • Not Synced
    Natürlich ist Verschlüsselung und alles sehr sinnvoll, aber gegen Dinge, die geäußert werden
  • Not Synced
    und wir wollen uns eben auch öffentlich äußern, da sind wir gegen Ausspähung nicht gefeit.
  • Not Synced
    und ich bin der Meinung, dass wir uns durch diese Dinge nicht einschränken lassen sollten
  • Not Synced
    sondern dass wir uns eher darum bemühen sollten, die Logik der Dienste zu hinterfragen,
  • Not Synced
    sie aus dem Geheimen herauszuziehen und das zu diskutieren, was da passiert, das ist das Entscheidende
  • Not Synced
    [Angle:] Okay, die nächste Frage
    [Applaus]
  • Not Synced
    die nächste Frage ist von MSPro und danach hätten wir noch Fragen aus dem Internet
  • Not Synced
    [F:] Hallo, ich hätt da noch ne Frage zu deiner Anspielung am Anfang mit „Überwachen und Strafen“
  • Not Synced
    und deinem Schlussstatement. Das passt nicht so richtig zusammen. Du hast gesagt:
  • Not Synced
    sowohl im Glashaus, als auch beim Panoptikum geht es darum, dass ich weiß, dass der Überwacher da ist
  • Not Synced
    und weiß, nach welchen Kriterien er mich beurteilt, damit ich eine disziplinarische Wirkung habe
  • Not Synced
    jetzt sagst du aber, dass ja genau diese Opakheit der Geheimdienste nach ihren Verdachtskriterien das Problem ist
  • Not Synced
    das widerspricht sich total. Wenn ich nicht weiß, wonach ich als verdächtig betrachtet werde,
  • Not Synced
    diszipliniert mich das ja gar nicht. Irgendwie passt das nicht zusammen
  • Not Synced
    [A:] Danke für die Möglichkeit, das noch ein bisschen zu präzisieren. Ich denke,
  • Not Synced
    wir haben natürlich eine Ahnung. Das ist ja das Schlimme, wir haben nicht mehr als eine Ahnung davon,
  • Not Synced
    was denn als vermeintlich gefährlich betrachtet wird. Und genau das ist das Problem
  • Not Synced
    also das Nicht-Wissen darum ist vielleicht noch die totalere Methode uns zu überwachen,
  • Not Synced
    denn, ich möchte ein Beispiel geben: ich habe kürzlich ein Buch gelesen über ein maoistisches Gefängnis
  • Not Synced
    und da ist es so, die Verhöre finden so statt, dass der Verhörende ein Buch hat.
  • Not Synced
    und er sitzt dem Delinquenten gegenüber und sagt: „In diesem Buch steht alles, was du falsch gemacht hast,
  • Not Synced
    alle deine Sünden stehen hier geschrieben. Du musst nur gestehen.“ Aber er darf nie in das Buch schauen
  • Not Synced
    und er zermartert sich sein Gehirn unglaublich, weil er nicht weiß, was in diesem Buch steht
  • Not Synced
    und er überlegt sich, „was kann ich noch alles gestehen, damit ich dieses Buch abarbeiten kann?“
  • Not Synced
    und ich glaube gerade die Unwissenheit darüber ist die viel raffiniertere, perfidere Methode der Kontrolle
  • Not Synced
    und insofern schließt sich das nicht gegenseitig aus, weil unser Kopfkino,
  • Not Synced
    was alles gefährlich sein könnte, ist mächtig genug.
  • Not Synced
    [Angle:] Alles klar, danke. Dann haben wir jetzt Fragen aus dem Internet. Magst du die kurz stellen?
  • Not Synced
    [F:] Gibt es eine Instanz, die die Keyword-Listen überprüft, und wenn ja, welche ist das?
  • Not Synced
    [A:] Ja, sehr gute Frage! Keine Ahnung, weil wir wissen es nicht. Die leaken ab und zu
  • Not Synced
    – und ich habe mir überlegt, mal eine Zusammenstellung zu machen:
  • Not Synced
    es gibt die Echelon-Liste und es gibt ganz verschiedene Listen – also nein.
  • Not Synced
    die sind nicht validiert, aber man kann davon ausgehen, dass die schon irgendwie an Fallbeispielen überprüft sind
  • Not Synced
    denn sonst würde man sich ja unglaublich viel Arbeit machen. Aber wie und wo
  • Not Synced
    und wie man das wissenschaftlich nachvollziehen kann, das ist leider nicht beschrieben und nachlesbar.
  • Not Synced
    [Ängle:] Da gibts wohl noch mehr Fragen aus dem Internet?
  • Not Synced
    [F:] Noch eine zweite: Brächte es was, wenn wir jetzt alle schön in unserem Dialekt schreiben,
  • Not Synced
    weil dann werden die Keywörter eventuell nicht erkannt, oder ist das sinnfrei?
  • Not Synced
    [Gelächter und Applaus]
  • Not Synced
    [A:] Also als Hess kann ich dir da sache, das det schon was bringe wädd [Gelächter]
  • Not Synced
    also in der Tat, das hätte tatsächlich Chancen, es den Diensten schwerer zu machen, absolut
  • Not Synced
    es gibt natürlich Verfahren, mit denen man Ähnlichkeiten zwischen Wörtern messen kann, usw.
  • Not Synced
    das ist durchaus möglich. Aber es würde es schwerer machen.
  • Not Synced
    Es würde ja auch die Kommunikation erheblich schwerer machen, wenn wir alle im Dialekt schreiben
  • Not Synced
    es gibt dann keine Standardorthografie, aber es funktioniert natürlich auch. Wie in der Schweiz
  • Not Synced
    [Gelächter]
  • Not Synced
    [Angle:] okay, die nächsten beiden Fragen sind von euch und dann seid ihr beide da drüben dran
  • Not Synced
    [F:] ja, mich würde interessieren, wie man mit der Schwierigkeit von Fremdsprachen umgeht
  • Not Synced
    oder allgemein der Vielfalt an sprachen. Wie kann man ggf. einen Bezug herstellen,
  • Not Synced
    wenn der eine in Deutsch, der eine in Englisch schreibt. Oder wie analysiert man die Salafisten,
  • Not Synced
    wenn sie in ihrer Muttersprache sprechen.
  • Not Synced
    [A:] Ja, also grundsätzlich gibt es Software, die sprachunabhängig designed ist.
  • Not Synced
    Zumindest wenn die Sprache sich klar in Wörter abgrenzen lässt, usw.
  • Not Synced
    Ich glaube, diese Software ist nicht so gut wie Tools, die sprachliches Wissen einbringen,
  • Not Synced
    aber nichtsdestotrotz wird sie eingesetzt. Siemens macht sowas, bspw. zur Autorenerkennung
  • Not Synced
    das wird eingesetzt und funktioniert eben auch tatsächlich sprachabstrakt.
  • Not Synced
    Man lernt Feature und es ist egal, in welcher Sprache man die lernt.
  • Not Synced
    es wird halt reicher und besser, wenn man sprachliches Wissen einbringt
  • Not Synced
    [F:] Ich hab eine Frage, die ein bisschen schwarz-weiß ist. Wenn man sagt, wir reden über diese Listen
  • Not Synced
    und die Worte, die darin stehen, dann ist doch das Problem, dass sie nicht mehr wertvoll sind, sobald sie bekannt sind
  • Not Synced
    d.h. man hat nur die binäre Option, solche Techniken nicht anzuwenden, oder die Listen nicht zu veröffentlichen
  • Not Synced
    oder kommt man irgendwie darum herum
  • Not Synced
    [A:] eine gute Frage. Ich glaube eben, es gibt überhaupt kein entkommen.
  • Not Synced
    Klar, wenn die Listen bekannt sind, dann funktioniert es nicht mehr, wir können die wegschmeißen
  • Not Synced
    wir arbeiten ja schon nicht mehr mit Listen. Aber auch die anderen Verfahren.
  • Not Synced
    Wenn wir die kennen, können wir sie wegschmeißen. Ich glaube, dass dann die nächsten Verfahren kommen
  • Not Synced
    Verfahren, die klandestine Kommunikation erkennbar machen, die maximale Abweichung
  • Not Synced
    von normaler Kommunikation sichtbar machen und damit ist man wieder gefangen.
  • Not Synced
    Ich glaube, dieses Katz-und-Maus-Spiel existiert, aber ich glaube, wir müssen da raus,
  • Not Synced
    weil ich glaube, dass es das nicht bringt. Ich glaube, man soll es einfach lassen.
  • Not Synced
    [Applaus]
    [Angle:] Okay, du bist als nächster dran
  • Not Synced
    [F:] Ich fühlte mich durch den Vortrag an den Fall des Staatssoziologen Andrej Holm erinnert,
  • Not Synced
    der als angebliches Mitglied der militanten Gruppe im Gefängnis gelandet ist und zwar deswegen,
  • Not Synced
    weil die Bekennerschreiben der Militanten Gruppe angebliche Parallelen
  • Not Synced
    zu seiner wissentlichen Veröffentlichungen aufwiesen, was damals soweit in die Öffentlichkeit
  • Not Synced
    kolportiert wurde, dass es hieß, in beiden käme das Wort „Gentrifizierung“ vor,
  • Not Synced
    das damals noch ein bisschen seltener war als im Nachgang.
  • Not Synced
    Hast du dich mit dem Fall mal näher beschäftigt, wie die Behörden da scheinbar vorgegangen sind?
  • Not Synced
    [A:] Ja, ich hab auf den Datenspuren letztes Jahr einen Vortrag gehalten zu Autorenidentifizierung,
  • Not Synced
    gerade auch mit Aufhänger Andrej Holm. Ich denke, dass da ganz unterschiedliche Dinge passiert sind
  • Not Synced
    bspw. hat das BKA ein Gutachten gemacht und gesagt, dass Andrej Holm nicht der Autor ist
  • Not Synced
    der Tipp kam offenbar woanders her, von irgendwelchen Diensten, die wohl auf maschinelle Verfahren zurückgegriffen haben
  • Not Synced
    um da Ähnlichkeiten festzustellen. Wäre jetzt mein Tipp, aber das wissen wir natürlich auch nicht.
  • Not Synced
    Aber irgendwoher muss das ja gekommen sein. Wenn das BKA sagt, er wars wohl nicht, aufgrund der Analyse, ist schon interessant.
  • Not Synced
    Die Sprachdaten haben letztlich für den Fall keine große Rolle gespielt. Es wurde zwar diskutiert,
  • Not Synced
    aber für den Haftbefehl und weiteres waren andere Aspekte ausschlaggebender.
  • Not Synced
    [Angle:] Vielen Dank, du da hinten am Micro bist als nächstes dran
  • Not Synced
    [F:] Ja, ich wollte sagen, dass es mich gefreut hat, dass du den Link zu Foucault gemacht hast,
  • Not Synced
    weil es ja bei „Überwachen & Strafen“ genau darum geht, dass wir dazu erzogen werden,
  • Not Synced
    uns selbst zu überwachen, was letztlich diese Schere im Kopf ist. Ich finde das ein sehr schönes Bild.
  • Not Synced
    Meine Frage wollte ich eigentlich auch nach einem Beispiel für so ein False positive stellen,
  • Not Synced
    das wurde ja gerade mit diesem Fall beantwortet.
  • Not Synced
    [A:] Die spülen mal immer wieder in die Medien rein. Jemand hat in der Schweiz T-Shirts drucken lassen,
  • Not Synced
    – die haben da Schwierigkeiten mit dem Flughafen – „Südanflug“. Und hat die T-Shirts auch bezahlt
  • Not Synced
    und dann wurden die Tremata über den Umlauten weggemacht. Und dann stand da „Sudanflug“,
  • Not Synced
    was dann aber gleich „Sudan-Flug“ gelesen wurde. Und dann hat die Bank gleich den Staatsschutz informiert.
  • Not Synced
    Also so kuriose Fälle tauchen natürlich auf, wir haben auch von der Frau mit Schnellkochtopf gehört
  • Not Synced
    das sind Dinge, die tauchen tatsächlich immer wieder auf. Wir kriegen es in vielen Fällen auch gar nicht mit, was passiert.
  • Not Synced
    Man muss ja auch nicht informiert werden, wenn man Gegenstand von Überwachung ist. Ist ja auch so.
  • Not Synced
    Wenn es im Interesse der Bundesrepublik ist, muss man nicht informiert werden
  • Not Synced
    [Angle:] Ich hätte gerne Kooperation von Leuten der ersten Reihe, könnt ihr eure Sachen wegnehmen? Vielen Dank.
  • Not Synced
    Wir haben noch eine Frage aus dem Internet, wenn ich das richtig sehe, bitteschön
  • Not Synced
    [F:] Nicht aus dem Internet. Linguistik ist ja eine Geisteswissenschaft
  • Not Synced
    und die sind ja bekanntlich an den Unis nicht so gut finanziert. Ist es bekannt, oder hast du eine Idee davon,
  • Not Synced
    wie groß die Differenz zwischen der öffentlichen Forschung und der der Geheimdienste in der Linguistik
  • Not Synced
    oder gerade im Bezug darauf ist. Wenn man sich die Budgets so anguckt, könnte da ja eine echte Differenz sein.
  • Not Synced
    [A:] das ist eine interessante Frage. Richtig, Geistes- oder Kulturwissenschaften sind nicht so toll finanziert
  • Not Synced
    aber die Forschung findet zum Teil auch in der Informatik statt. Die Verfahren, die ich vorgestellt habe,
  • Not Synced
    haben zunächst mal nichts mit Überwachung zu tun. Ohne die Verfahren wäre Google keine so tolle Suchmaschine
  • Not Synced
    D.h. die Verfahren sind im Grunde erstmal abstrakt von ihrer Verwendung.
  • Not Synced
    Viel Forschung findet dann tatsächlich in Privatunternehmen statt, wobei die Unis glaube ich noch mithalten können,
  • Not Synced
    aber ich würde meinen, die NSA finanziert ja auch Forschung an Unis, auch in Deutschland, und es geht gut voran in dem Bereich
  • Not Synced
    Um das mal zu sagen: das ist zentrale Technologie, die brauchen wir. Wir erschließen uns Wissen, über Sprache
  • Not Synced
    Unsere Anfragen an die Welt funktionieren mit dem Medium Sprache. Wir suchen Informationen mit komplexen Anfragen,
  • Not Synced
    die alle erstmal sprachlicher Natur sind. Auch bei einer Google Bildersuche. Wir ordnen uns die Welt durch das Medium Sprache
  • Not Synced
    und das ist eine zentrale Technologie, in die auch in Zukunft sehr viel Geld fließen wird.
  • Not Synced
    [Angle:] ich hab noch mindestens drei Fragen gesehen, aber wir haben ja auch noch eine viertel Stunde Zeit
  • Not Synced
    du bist als nächstes dran.
  • Not Synced
    [F:] Ich würde mal gerne die Aktualität deiner vorgestellten Informationen hier überprüfen
  • Not Synced
    Erstmal würde ich gerne wissen, woher du die Information hast, dass solche Sachen benutzt werden, kommt das aus den Snowden-Files?
  • Not Synced
    Und: wie alt ist das ganze Zeug. Dieses Toolkit, kann ja auch sein, dass das schon fünf Jahre alt ist
  • Not Synced
    und das mittlerweile flächendeckende Liveüberwachung jeglicher Sprache stattfindet und alles viel intelligenter ist.
  • Not Synced
    [A:] Wichtige Frage natürlich, aber auch ganz wichtig: Das Toolkit war natürlich frei erfunden.
  • Not Synced
    Keine Ahnung, wie das aussieht, werden wir auch nicht zu Gesicht bekommen. Ist schon klar?
  • Not Synced
    – [F:] Das ist schon klar – [A:] Gut, klang jetzt eben so, tschuldigung.
  • Not Synced
    Also, wie alt sind die Verfahren: die Entwicklung geht weiter, es geht vor allem um Verfeinerungen
  • Not Synced
    in bestimmten Bereichen. Wie gesagt, Topic-Modelling hyped im Moment sehr, ist aber nicht grundlegend verschieden
  • Not Synced
    von Kollokationsanalysen. Es ist ein ähnliches Verfahren. Die Algorithmen für maschinelles Lernen werden besser.
  • Not Synced
    Die Rechenleistung wird besser. Wir können größere Daten anschauen, um von ihnen zu lernen, es tut sich eine Menge.
  • Not Synced
    Aber grundsätzlich würde ich sagen, viel Neues gibt es nicht. Wir hätten uns das Identifizieren von Frames angucken können
  • Not Synced
    aber ich würde meinen, es sind schon Technologien, die zum Einsatz kommen könnten und ausgereift genug sind,
  • Not Synced
    dass sie zum Einsatz kommen aber darüber, ob sie tatsächlich zum Einsatz kommen, weiß ich nichts.
  • Not Synced
    [Angle:] Alles klar, die nächste Frage ist von dir da hinten
  • Not Synced
    [F:] Vielen Dank erstmal, für den spannenden Vortrag,
  • Not Synced
    es war ein Ausflug in die Linguistik, den sogar ich als Ingenieur verstanden habe
  • Not Synced
    du hast vorhin zurecht gesagt, dass man vermutlich statt mit Bullshitting von Keywords
  • Not Synced
    es sichtbar machen sollte, was da passiert. Den Ansatz fand ich richtig.
  • Not Synced
    Im zweiten Satz fragte ich mich: was wären denn dann die Möglichkeiten
  • Not Synced
    wir haben ein paar absurde Beispiele gesehen, wie das mal in der Presse herauskommt
  • Not Synced
    du bist jemand, der sich damit viel beschäftigt hat. Was würdest du sagen,
  • Not Synced
    was sind so die Dinge, mit denen man sich, mit denen sich die Szene beschäftigen sollte?
  • Not Synced
    [A:] Ganz schwierig, ja. Ich glaube, es geht nur der Weg über die Politik.
  • Not Synced
    Es ist ein politisches Anliegen zu sagen, dass die Methoden öffentlich gemacht werden müssen
  • Not Synced
    dass sie gerechtfertigt werden müssen in Hinblick auf Vadilität, u.ä. Aber das ist ein politischer Weg.
  • Not Synced
    Das heißt Lobbying da, wo es wehtut. Man muss zu den Parteien gehen, die die Macht haben
  • Not Synced
    und man muss auch mit denen reden und die überzeugen. Es ist ein hartes Brot, aber wichtig.
  • Not Synced
    Man kann das nicht mit technischen Mitteln lösen. Ich weiß, das ist eigentlich unser Ansatz, aber das reicht nicht.
  • Not Synced
    [Angle:] OK, du hast die nächste Frage
  • Not Synced
    [F:] Wir haben uns jetzt hier kollokationsbasierte Sachen angeschaut.
  • Not Synced
    In wie weit kommen denn formale Grammatiken zum Einsatz, die auch die Satzsyntax berücksichtigen?
  • Not Synced
    Schauen wir uns den Satz an „auf keinen Fall sind unsere Politiker als Verbrecher und Dilettanten zu sehen“
  • Not Synced
    da wird man mit der Kollokationsanalyse schnell einen False positive haben, oder?
  • Not Synced
    [A:] Der Trend geht eindeutig weg von formalen Grammatiken, hin zu großen Datenmengen.
  • Not Synced
    Zu eher mehr Kontext angucken, stärkeres maschinelles Lernen auf größeren Corpora
  • Not Synced
    und eher der Google-Ansatz … [F:] wie Google Translate, so ähnlich [A:] … genau
  • Not Synced
    mit vielen Daten die Sache lösen. Und das ist für uns Linguisten natürlich total frustrierend.
  • Not Synced
    [F:] ja, ich komme selbst aus der Computerlinguistik, deshalb frage ich [A:] ja, das dachte ich mir schon.
  • Not Synced
    Aber ja, es ist so. Aber wir sind uns, denke ich einig, mit linguistischem Wissen kann man vieles besser machen.
  • Not Synced
    [Angle:] mspro, du hattest vorhin signalisiert, als wolltest du noch fragen, hast du es dir anders überlegt?
  • Not Synced
    – hat sich erledigt – alles klar, dann bist du als nächstes dran
  • Not Synced
    [F:] Was mir noch einfiel: wie würdest du das bewerten,
  • Not Synced
    wenn man eine Überlegung zu einer Theorie sprachlicher Bedeutung da mit hinein bringt?
  • Not Synced
    Was der Staat ja prinzipiell macht ist, er schmeißt sein Gewaltmonopol in unsere Sprache rein
  • Not Synced
    und macht Regelsysteme auf, in denen er nachher die Bedeutung von gewissen Aussagen festlegt
  • Not Synced
    und sagt: das hier ist wahrscheinlich eine kriminelle Äußerung oder die eines Kriminellen
  • Not Synced
    kann man schon beobachten, bzw. ich könnte mir vorstellen aus einer Sprechertheorie,
  • Not Synced
    dass das Verwüstungen in der Sprache anrichtet, dass der Staat Einfluss auf die Bedeutung unseres Sprachgebrauchs nimmt.
  • Not Synced
    [A:] Das ist eine spannende Hypothese zu sagen, dadurch dass der Staat die Definitionsmacht hier hat zu sagen,
  • Not Synced
    wie eine sprachliche Handlung verstanden werden soll, dass dadurch eine Bedeutungsverschiebung stattfindet,
  • Not Synced
    die ggf. tatsächlich im Sinne eines „Neusprech“ nur noch bestimmte Äußerungen ermöglicht
  • Not Synced
    das wäre eine spannende Hypothese, die mal zu überprüfen wäre
  • Not Synced
    [F:] ja, also wenn man eine ganz moderne Theorie so „freier Signifikation“ annimmt, dann …
  • Not Synced
    [A:] … dann haben wir immer noch macht dann. Immerhin, subversiv können wir sein!
  • Not Synced
    Aber das ist eine interessante Frage. Ich glaube nicht, dass der Einfluss auf den Alltag schon so stark ist,
  • Not Synced
    das glaube ich nicht, aber warten wir es ab.
  • Not Synced
    [Angle:] Gut, du hast die nächste Frage
  • Not Synced
    [F:] Du sprachst gerade von den großen Datenmengen, die werden immer größer,
  • Not Synced
    damit ja auch irgendwie die Erfolgsquote dieser Voraussagen,
  • Not Synced
    typischerweise selbst wenn die Algorithmen nicht besser werden, wenn die Datenmenge größer ist, wird es irgendwie besser
  • Not Synced
    Was wird denn passieren, wenn wir einmal so große Datenmengen haben und die Algorithmen sich dann zusätzlich verbessern,
  • Not Synced
    dass wir fast keine False positives mehr haben. Wir werden das dann nicht mehr mitbekommen
  • Not Synced
    und es werden nur noch die Leute tatsächlich … das Horrorszenario, das ich mir vorstelle,
  • Not Synced
    es werden tatsächlich nur noch die echten Terroristen verhaftet. Und dann? Wie lange dauert es noch, bis es so weit ist?
  • Not Synced
    Ich glaube, wir müssen jetzt handeln, bis es so weit kommt. Denn sonst wird der Kampf dagegen
  • Not Synced
    und die Rechtfertigung, dagegen Aktionen zu machen, immer schwieriger. Wie ist da deine Einschätzung?
  • Not Synced
    [A:] Ganz spannender Punkt, hab ich noch nicht darüber nachgedacht.
  • Not Synced
    Als erstes bin ich skeptisch, dass es so gut sein könnte, aber es ist ein spannender Punkt, ja
  • Not Synced
    wenn nur noch die Terroristen verhaftet werden … die echten … dann haben wir ein Problem, ja …
  • Not Synced
    [Gelächter, Applaus]
  • Not Synced
    [Einruf; wird nicht aufgegriffen]
    [Angle:] Du bist als nächstes dran
  • Not Synced
    [F:] Wenn du dir mal die Berichte von Jeremy Scahill – das wurde im Tagesspiegel kolpotiert – anguckst,
  • Not Synced
    die werten ja nicht nur die linguistischen Beziehungen aus, sondern tatsächlich auch:
  • Not Synced
    wer hat mit wem telefoniert, wer ist mit wem verwandt und – eine ganz gefährliche Beziehung ist eben:
  • Not Synced
    „Vater ist Islamist”, auch wenn man ihn 16 Jahre nicht gesehen hat – das ist evtl. ziemlich tödlich
  • Not Synced
    und es scheint so zu sein, dass die ganzen Drohnenangriffe in zwei Zuständen laufen
  • Not Synced
    nämlich im militärischen, operativ aktiven Zustand und dass sie eine Liste abarbeiten, wenn sie
  • Not Synced
    gerade nicht operativ benötigt werden, wo eine Metadatenbank von oben nach unten nach einem Scoring abgearbeitet wird
  • Not Synced
    und dann ist das Linguistische, glaube ich, nicht das gefährlichste, wenn man die falsche Verwandtschaft hat
  • Not Synced
    [A:] ist richtig. Wir haben uns nur einen kleinen Teilbereich angeschaut von Daten,
  • Not Synced
    die aber natürlich sehr wertvoll sind, weil sie sehr viel tieferen Einblick in unser Leben geben
  • Not Synced
    als andere Daten. Gerade Radikalität zu messen – wovon ich nicht weiß, ob es stattfindet, etwas, was wir selbst vielleicht gar nicht wissen –
  • Not Synced
    aber die Metadaten sind sehr viel mächtiger, wenn es um so harte Fakten geht.
  • Not Synced
    Da sind die Metadaten natürlich interessanter.
  • Not Synced
    [Angle:] Du hast die nächste Frage
  • Not Synced
    [F:] Ich stimme zu, dass das ganz super wäre, wenn wir das auf der politischen Ebene besser in den Griff bekämen,
  • Not Synced
    aber mit einer üblichen pessimistischen Einstellung, gibt es nicht eigentlich schon jede Menge Beispiele,
  • Not Synced
    dass Politiker einfach auf den Zug aufspringen und das ganz super finden.
  • Not Synced
    „Ist doch eine tolle Methode, funktioniert doch großartig!” ?
  • Not Synced
    [A:] Ja! Was gemacht werden kann wird gemacht. Der Vortrag parallel ist ja über den „tiefen Staat“
  • Not Synced
    das wär dann zu überprüfen, ob wir nicht trotzdem zu Regularitäten kommen können, zu einer Gesetzgebung
  • Not Synced
    kommen können, die zunächst bestimmte Dinge zunächst mal verbietet. Ich finde das immer noch ein Ziel,
  • Not Synced
    das wir glaube ich teilen. Aber natürlich, der Zug fährt in eine andere Richtung.
  • Not Synced
    Aber was bei Snowden so unglaublich ist, ist, dass er Dinge in das Licht der Öffentlichkeit zerrt,
  • Not Synced
    aber sie müssen eben da sein! Solange es nur Gerüchte sind, kann man nichts machen,
  • Not Synced
    – und Desinformation ist eine wichtige Strategie – sind wir ausgeliefert.
  • Not Synced
    Aber sobald harte Fakten da sind, wird es interessant. Dann kann man darüber diskutieren
  • Not Synced
    und an dem Punkt sind wir jetzt wenigstens mal. Mal sehen, ob wir da nochmal hinkommen.
  • Not Synced
    [Angle:] Okay, die nächste Frage kommt aus der ersten Reihe
  • Not Synced
    [F:] Eher eine Ergänzung: Du hast gesagt, „was machen wir, wenn wir alle Terroristen fangen können?“
  • Not Synced
    Natürlich müssen wir uns dann immer noch wehren, natürlich gibt es dann immer noch keine Rechtfertigung,
  • Not Synced
    denn es wird immer noch alles gesammelt und – welche Datenbank ist 100% sicher?!
  • Not Synced
    Früher oder später kommen die Daten an die Öffentlichkeit! Will ich dann wirklich wissen,
  • Not Synced
    was man über mich weiß? Will ich, dass andere wissen können?
  • Not Synced
    Wir brauchen keine Rechtfertigung, um dagegen vorzugehen.
  • Not Synced
    Selbst wenn man nur noch die Terroristen fangen kann … wenn alle Daten gesammelt werden …
  • Not Synced
    Können wir nicht wollen!
  • Not Synced
    [A:] Danke, zumal auch das Konzept „Terrorist“ etwas ist, was man gesellschaftlich diskutieren kann.
  • Not Synced
    [Angle:] Noch eine Frage von da hinten. Ich würde sagen, die letzte Frage, weil die meisten schon aufbrechen
  • Not Synced
    [F:] Kurze Frage zum Thema False positive. Mal ein Forum zu etwas wie Medizin oder Sterbebegleitung gegen-gescannt?
  • Not Synced
    Auf die Themen schwarz-weiß, Negativität, und so? Thema Operation?
  • Not Synced
    Einfach so im Ranking im Vergleich zu Fefe, donalphonso, usw. liegen würde?
  • Not Synced
    [A:] Wäre interessant, habe ich nicht gemacht. Es gibt viel zu tun, viel zu rechnen
  • Not Synced
    [F:] na einfach von der Idee her, könnte da ja auch relativ viel False positive auftreten, oder?
  • Not Synced
    [A:] Klar … [durcheinander] … tschuldigung [F:] Rein aus dem Bauch heraus
  • Not Synced
    ist so die Richtung mal so ein Ansatz, wenn man sagt, man möchte viel False positive aufdecken.
  • Not Synced
    [A:] Ja, es ist ganz wichtig, dass wir die Entstehungskontexte und die Medien der Texte mit berücksichtigen müssten
  • Not Synced
    das haben wir jetzt überhaupt nicht gemacht, wir haben so getan, als seien alle Texte gleich,
  • Not Synced
    aber es ist natürlich nicht so. Wer sich mit der Thematik beschäftigt, merkt, dass Textsorten usw.
  • Not Synced
    einen unglaublichen Einfluss darauf haben, auf was wir da eigentlich messen.
  • Not Synced
    Deswegen hat die Fragestellerin völlig recht.
  • Not Synced
    Aber es gibt natürlich Methoden, Textsorten zu erkennen.
  • Not Synced
    [Angle:] Alles klar! Dann ganz vielen Dank nochmal an Josh und auch dass da noch so viel Zeit war…
Title:
Deutsch – Überwachen und Sprache
Description:

more » « less
Video Language:
German
Duration:
58:48

German subtitles

Revisions Compare revisions