Return to Video

Build your own NSA (33C3)

  • 0:00 - 0:13
    33C3 Vorspannmusik
  • 0:13 - 0:19
    Herald: Ich habe vorhin erzählt, dass
    Snowden uns heute zugeschaltet wurde und
  • 0:19 - 0:30
    er hat uns aufgerufen, etwas zu tun. Heute
    hören wir hier einen Talk, und zwar „build
  • 0:30 - 0:37
    your own NSA“ – „baue deine eigene NSA“.
    Geheimdienste sammeln Daten, aber sie sind
  • 0:37 - 0:42
    nicht die Einzigen. Es gibt auch die so
    genannten Datenkraken – an wen denken wir
  • 0:42 - 0:49
    da alle? An Google, an Facebook. Wer hier
    hat einen Google-Account, Hände hoch,
  • 0:49 - 1:01
    traut euch! Des sind ganz schön viele. Wer
    hat einen Facebook-Account? Es sind
  • 1:01 - 1:07
    allerdings nicht nur die großen Firmen wie
    Facebook oder Google, die Daten sammeln.
  • 1:07 - 1:12
    Es sind auch die kleineren Firmen oder
    unbekannte, wo wir die Namen noch nie
  • 1:12 - 1:15
    gehört haben und Leute, wo wir es nicht
    erwarten, wie zum Beispiel ich auf der
  • 1:15 - 1:19
    Bühne. Ich weiß jetzt wer einen Google-
    und wer einen Facebook-Account bei euch
  • 1:19 - 1:22
    hat. Vielen Dank für die Info.
  • 1:22 - 1:26
    Diese Firmen, oder auch ich,
    könnte jetzt hingehen,
  • 1:26 - 1:32
    diese Daten tauschen oder einfach
    an die Leute die zahlen, verkaufen.
  • 1:32 - 1:37
    Mein kleines Experiment hier war
    ziemlich lächerlich und natürlich banal,
  • 1:37 - 1:44
    aber Svea Eckert und Andreas
    Dewes haben ein größeres
  • 1:44 - 1:50
    Experiment gemacht mit einfachen Techniken
    des Social Engineerings und rausgefunden,
  • 1:50 - 1:55
    was für Daten gesammelt werden können.
    In diesem Talk werden sie uns nicht nur
  • 1:55 - 2:01
    erzählen, wer, warum und wie Daten sammelt
    sondern ob es auch noch eine Möglichkeit
  • 2:01 - 2:08
    gibt, unsere Privatsphäre zu schützen.
    Andreas ist Data Scientist und entwickelt
  • 2:08 - 2:15
    Technologien, damit wir Wissen aus
    Daten extrahieren können. Svea ist
  • 2:15 - 2:21
    freiberufliche Journalistin und
    recherchiert IT-Themen und berichtet
  • 2:21 - 2:25
    darüber für die Tagesschau und die
    Tagesthemen. Sie hat auch mitgewirkt bei
  • 2:25 - 2:32
    Dokumentationen zu Themen wie Wikileaks,
    Facebook und dem NSA-Skandal, wo gerade
  • 2:32 - 2:37
    Edward Snowden einen großen Teil
    eingenommen hat. Ich freue mich herzlich,
  • 2:37 - 2:42
    die beiden hier zu begrüßen und bitte euch
    jetzt um einen ganz, ganz lauten Applaus
  • 2:42 - 2:45
    für die beiden und wünsche
    euch allen viel Spaß.
  • 2:45 - 2:50
    Applaus
  • 2:50 - 2:57
    Svea Eckert: Danke.
    Andreas Dewes: Ja, hallo zusammen, also
  • 2:57 - 3:02
    wir freuen uns natürlich, dass wir hier
    sein dürfen heute, ich hab wie gesagt die
  • 3:02 - 3:05
    Datenanalyse für die Recherche
    hier gemacht und darf mich daher
  • 3:05 - 3:08
    erstmal entspannen jetzt und
    übergebe dann das Wort an Svea.
  • 3:08 - 3:13
    S: Ja ich bin Svea Eckart, arbeite für den
    NDR, beziehungsweise die ARD, und wir haben
  • 3:13 - 3:16
    ’ne große Recherche gemacht, die ging
    über den ganzen Sommer und mündete in
  • 3:16 - 3:20
    der relativ aufsehenerregenden
    Berichterstattung Anfang November unter
  • 3:20 - 3:27
    dem Hashtag #NacktImNetz – der Eine oder
    Andere hat vielleicht dazu sogar was
  • 3:27 - 3:34
    gesehen. Was wir wissen: Also: Wir wissen,
    dass, wenn wir uns im Netz bewegen dass
  • 3:34 - 3:40
    Firmen das mitbekommen. Dass Firmen unser
    Verhalten aufzeichnen und zumindest ein
  • 3:40 - 3:46
    Stück weit sind da verschiedene Parteien
    beteiligt, die sehen, auf welcher Webseite
  • 3:46 - 3:52
    wir z. B. sind. Also hier jetzt mit einem
    kleinen Tool, nur so kurz analysiert, sind
  • 3:52 - 3:58
    das jetzt 68 Parteien, die wissen, dass
    ich auf dieser Webseite bin und die zum
  • 3:58 - 4:03
    Teil auch die Möglichkeit haben, mich
    durchs Netz zu verfolgen. Ich denke, jeder
  • 4:03 - 4:10
    hier im Publikum weiß das und – also das
    ist bekannt. Trotzdem stört es die
  • 4:10 - 4:15
    Allerwenigsten Also die allermeisten
    Internetnutzer sagen „Ich habe doch nichts
  • 4:15 - 4:20
    zu verbergen“ „Da wird schon nichts böses
    damit passieren, die machen ja nichts
  • 4:20 - 4:24
    mit meinen Daten, is ja sowieso nur für
    Werbezwecke“ Und wenn man mal in der
  • 4:24 - 4:31
    Industrie nachfragt, dann ist die Aussage
    „Also diese Daten werden total gut
  • 4:31 - 4:36
    anonymisiert“ „Da stecken wir ganz,
    ganz großen Aufwand rein“ „Und
  • 4:36 - 4:45
    verkaufen? Das macht niemand!“ „Sowas
    würde niemand tun“ Wirklich? Das
  • 4:45 - 4:50
    wollten wir genauer wissen: Wie komme
    ich an solche Daten? Ich gründe eine
  • 4:50 - 4:57
    Firma. Ich habe also im Juli eine
    Webseite aufgesetzt – das ist relativ
  • 4:57 - 5:04
    trivial. Content Management System, paar
    schöne Fotos, Stockphotos und ein
  • 5:04 - 5:09
    bisschen Marketing-Sprech. Meine Firma
    „Meez Technology“, die Vereinigung von
  • 5:09 - 5:18
    Technologie und Kreativität, macht
    Data-Driven-Consulting und bot Kunden an,
  • 5:18 - 5:22
    Customized-Campaigns zu machen.
    Was brauchen wir dafür? Ganz viele
  • 5:22 - 5:28
    Nutzer-Daten. Und diese Nutzer-Daten, an
    die wollte ich gelangen. Da brauchte ich
  • 5:28 - 5:34
    eine tatkräftige Mitarbeiterin, hier ist
    sie. Ich habe sie mitgebracht: Anna.
  • 5:34 - 5:42
    “Hello, Anna Rosenberg speaking! Hello,
    hello?” Anna Rosenberg arbeitet also für
  • 5:42 - 5:47
    Meez Technology, sitzt in Tel Aviv,
  • 5:47 - 5:50
    spricht kein Wort Hebräisch,
    konnte ich mir dann
  • 5:50 - 5:53
    nicht aneignen für die Recherche,
    war aber nicht schlimm,
  • 5:53 - 5:56
    hat auch niemand nachgefragt
  • 5:56 - 5:59
    und ich hatte Tel Aviv ausgesucht,
    obwohl ich die Stadt eigentlich
  • 5:59 - 6:03
    gar nicht kenne, aber ich hatte
    Tel Aviv ausgesucht, weil mir
  • 6:03 - 6:06
    jemand sagte, Israel sei
    ziemlich gut für Daten,
  • 6:06 - 6:10
    da wär man nicht so spitzfindig und ich
    sollte ja kein deutsches Unternehmen
  • 6:10 - 6:14
    gründen sonst würde ich gar nichts
    bekommen. Also habe ich Meez Technology in
  • 6:14 - 6:20
    Israel angesiedelt und Anna Rosenberg
    hat sich auf Telefon-Jagd gemacht.
  • 6:20 - 6:24
    Das waren die Firmen, die in
    Frage kamen. Die Firmen, die
  • 6:24 - 6:30
    von uns Internetnutzern Daten
    sammeln, die Daten verarbeiten.
  • 6:30 - 6:36
    Meine Frage an diese Firmen war,
    ob sie mir als junges, aufstrebendes
  • 6:36 - 6:41
    Startup ihre Daten verkaufen würden.
    Oder viel eher noch, ob sie mir ein
  • 6:41 - 6:46
    kostenloses Sample geben würden,
    weil ohne ein kostenloses Sample könnte
  • 6:46 - 6:50
    ich die Qualität der Daten gar nicht
    beurteilen. Ich habe ziemlich viele von
  • 6:50 - 6:55
    diesen Firmen angerufen, angeschrieben,
    deren Webseiten mir angeschaut. Ihr seht
  • 6:55 - 7:01
    dass es ein gigantisches Universum ist und
    es sind noch längst nicht alle. Besonders
  • 7:01 - 7:07
    interessant sind diese Firmen hier. Die
    machen sozusagen, die analysieren den
  • 7:07 - 7:14
    Internetmarkt, reichern Daten an, das sind
    so ziemlich wichtige Player in diesem
  • 7:14 - 7:16
    ganzen Spiel. Weil um den Internetmarkt
    zu analysieren,
  • 7:16 - 7:19
    brauchen die sehr viele Daten.
  • 7:19 - 7:23
    Und, Ja, der eine oder andere war dann
    auch tatsächlich bereit,
  • 7:23 - 7:27
    mir ein kostenloses Sample
    zur Verfügung zu stellen,
  • 7:27 - 7:30
    damit ich die Güte, die Qualität
    seiner Daten
  • 7:30 - 7:37
    einordnen konnte. Also ein kostenloses
    Sample. Dieses Sample kam dann auch. Also
  • 7:37 - 7:42
    eines ist besonders groß, deswegen ist es
    auch das, worüber wir dann sprechen.
  • 7:42 - 7:49
    Was war da drin? Also wir hatten 14
    Tage so eine Art quasi Live-Zugriff auf
  • 7:49 - 7:54
    Nutzerdaten. Sprich: Nutzerdaten, die sich
    immer wieder aktualisiert haben, die immer
  • 7:54 - 8:03
    wieder frisch waren. Das waren 3 Millionen
    deutsche Nutzer in diesem Datensatz und
  • 8:03 - 8:09
    das waren sozusagen die
    Klickstream-Daten von einem Monat.
  • 8:09 - 8:16
    Das Klick-Stream ist sozusagen das
    Buzzword für Browser-History.
  • 8:16 - 8:20
    Am Anfang sind wir relativ explorativ
    mit diesem Datensatz umgegangen
  • 8:20 - 8:26
    haben einfach mal ge-grep-t, und mal
    geschaut was passiert denn, wenn wir in
  • 8:26 - 8:31
    diesem Datensatz nach @polizei.de suchen.
    Ich setz meine Brille wieder ab, weil
  • 8:31 - 8:40
    Annas Teil ist nämlich jetzt durch. So,
    alles was ge-x-t ist, hab ich gemacht, um
  • 8:40 - 8:46
    die Privatsphäre dieser Person zu
    schützen. So sieht das dann aus, wenns ein
  • 8:46 - 8:54
    bisschen aufbereitet ist. Man sieht jetzt
    hier z. B. 01.08.2016 05:17 Uhr: Rechner
  • 8:54 - 9:01
    an, Google. Dann wird relativ schnell nach
    einem Auto geschaut. 05:30 Uhr: Das habe
  • 9:01 - 9:04
    ich jetzt mal offen gelassen, kann man
    dann auch alles gleich eingeben.
  • 9:04 - 9:08
    Ah, alles klar, er sucht einen Volkswagen
  • 9:08 - 9:16
    in der und der Kategorie. Interessant.
    Gut, jetzt wollen wir natürlich wissen:
  • 9:16 - 9:21
    Was hat der mit der Polizei zu tun?
    Was für ein Mensch steckt
  • 9:21 - 9:28
    hinter diesen Daten? Und wenn man jetzt
    sozusagen sich da mal ein bisschen durch
  • 9:28 - 9:33
    scrollt durch diese Daten – ich hab das
    jetzt als Screen-Video gemacht, damit man
  • 9:33 - 9:38
    mal so ein bisschen auch besser die
    Dimensionen begreifen kann, wie groß die
  • 9:38 - 9:43
    Tiefe dieser Daten ist und wie intensiv
    die sind. Man kann also gucken: Was liest
  • 9:43 - 9:49
    der, was sucht der und irgendwann ist er
    mal auf der Webseite von der deutschen
  • 9:49 - 9:57
    Polizeigewerkschaft und auf dem deutschen
    Beamtenbund. Könnte ja ein Polizist sein.
  • 9:57 - 10:01
    Schauen wir doch mal nach so einem
    typischen Wort wie Ermittlungsverfahren
  • 10:01 - 10:13
    Ah! Ok. Ein Google-Translate-Link.
    Gelächter + Applaus
  • 10:13 - 10:20
    Schauen wir doch mal. Schmeißen wir
    es mal in den Decoder. Da ist es!
  • 10:20 - 10:23
    „Sehr geehrte Damen und Herren,
    im Rahmen eines hier bearbeiteten
  • 10:23 - 10:26
    Ermittlungsverfahrens wegen
    Computerbetrugs“ – Aktenzeichen habe ich
  • 10:26 - 10:31
    jetzt rausgenommen – „benötige ich
    Bestandsdaten zu folgender IP-Adresse“
  • 10:31 - 10:37
    – habe ich rausgenommen – Zeitstempel
    Und netterweise hat dieser Nutzer in
  • 10:37 - 10:42
    Google-Translate auch seine
    E-Mail-Adresse mit übersetzen lassen,
  • 10:42 - 10:48
    seinen Vor- und Nachnamen, den Ort und
    die Telefonnummer … So.
  • 10:48 - 10:55
    Applaus
  • 10:55 - 11:02
    Wir können jetzt schauen: Was erfahren wir
    über diesen Menschen in diesen Daten?
  • 11:02 - 11:09
    Können also noch mal weiter
    scrollen durch sein Leben im Netz.
  • 11:09 - 11:16
    Und sehen, dass er arbeitet,
    also sehen, ungefähr, dass er
  • 11:16 - 11:22
    Malware-Submissions macht z. B., dass er
    IP-Adressen verfolgt, aber auch, dass er
  • 11:22 - 11:26
    SWR hört und natürlich so die
  • 11:26 - 11:29
    Peinlichkeiten im Leben
  • 11:29 - 11:47
    Lachen - Applaus
  • 11:47 - 11:52
    Sind da natürlich auch drin.
  • 11:52 - 11:55
    Jetzt haben wir nur mal nach
    @polizei.de gesucht.
  • 11:55 - 11:59
    Was wäre, wenn wir mal hier gucken?
  • 11:59 - 12:00
    Haben wir auch gemacht.
  • 12:00 - 12:02
    So sieht dann so eine Abfrage aus.
  • 12:02 - 12:08
    Wenn man das so, sag ich mal
    so, explorativ einfach macht wie wir das
  • 12:08 - 12:12
    gemacht haben. Wichtig ist das, was
    zwischen den Anführungszeichen steht.
  • 12:12 - 12:17
    Man sagt mit diesem Befehl dem Computer:
    Gib mir alles, gib mir jeden Nutzer, der
  • 12:17 - 12:20
    jemals diese Webseite besucht hat.
  • 12:20 - 12:22
    Und man sieht also, dass auch Leute
  • 12:22 - 12:23
    die, ich würde mal sagen,

  • 12:23 - 12:25
    sicherheitskritisch sind,
  • 12:25 - 12:30
    in diesen Daten drin sind.
  • 12:30 - 12:32
    Was passiert nur, wenn man all diese
  • 12:32 - 12:35
    Nutzer deanonymisieren würde?
  • 12:35 - 12:39
    Könnte man sie denn
    alle deanonymisieren?
  • 12:40 - 12:45
    Andreas: Ja, wie wir gesehen
    haben, ist es im besten Fall etwas
  • 12:45 - 12:48
    peinlich, wenn man als Nutzer in solchen
    Daten identifiziert wird.
  • 12:48 - 12:49
    Schlimmstenfalls kann es auch gefährlich
  • 12:49 - 12:51
    sein für die eigene Person.
  • 12:51 - 12:53
    Deswegen möchte ich in den nächsten
  • 12:53 - 12:54
    15 min ein bisschen darauf eingehen,
  • 12:54 - 12:56
    was Deanonymisierung eigentlich heißt,
  • 12:56 - 12:58
    wie das funktioniert und was das
  • 12:58 - 12:59
    Problem dabei ist.
  • 12:59 - 13:02
    Dafür können wir anfangen
    mit dem Datensatz.
  • 13:02 - 13:04
    Also es gibt immer einen Datensatz
  • 13:04 - 13:08
    von anonymisierten Nutzerdaten am Anfang,
  • 13:08 - 13:09
    den man analysieren möchte
  • 13:09 - 13:12
    und dieser Datensatz enthält
  • 13:12 - 13:12
    viele verschiedene Eigenschaften und
  • 13:12 - 13:15

    einige von diesen Eigenschaften zumindest
  • 13:15 - 13:16
    sind sensitiv, das heißt, sie sind nach
  • 13:16 - 13:19
    Datenschutzrecht geschützt und dürfen
  • 13:19 - 13:23
    nicht mit einer bestimmten Person
    verknüpft werden, weswegen der Datensatz
  • 13:23 - 13:24
    ja im Endeffekt auch anonymisiert wurde.
  • 13:24 - 13:27
    Und statt einer Zuordnung zu einer
  • 13:27 - 13:29
    konkreten Person hat man diesen
  • 13:29 - 13:31
    Datensätzen daher einfach beispielsweise
  • 13:31 - 13:32
    eine numerische ID oder einen Identifier,
  • 13:32 - 13:35
    der keine Rückschlüsse—im Idealfall—auf
  • 13:35 - 13:37
    die wirkliche Person, die sich hinter den
  • 13:37 - 13:40
    Daten verbirgt, erlaubt.
  • 13:40 - 13:42
    Auf der anderen Seite habe ich aber auch
  • 13:42 - 13:44
    öffentliche Informationen z. B. aus
  • 13:44 - 13:45
    dem Internet oder anderen Quellen,
  • 13:45 - 13:48
    die ich mir frei zusammensuchen kann und
  • 13:48 - 13:50
    und solche öffentlichen Informationen
  • 13:50 - 13:52
    enthalten auch Eigenschaften von Personen
  • 13:52 - 13:54
    und enthalten zudem oft den Namen oder
  • 13:54 - 13:58
    andere Identifikationsmerkmale der Person,
  • 13:58 - 14:00
    die also Rückschlüsse auf die wirkliche
    Person zulassen.
  • 14:00 - 14:03
    Und Deanonymisierung beinhaltet in diesem
  • 14:03 - 14:08
    Sinne eine Suche nach Eigenschaften,
    die ich in beiden
  • 14:08 - 14:13
    Datensätzen entweder direkt oder indirekt
    identifizieren kann und die mir erlauben,
  • 14:13 - 14:18
    aufgrund von beispielsweise statistischen
    Verfahren oder machine learning die
  • 14:18 - 14:23
    möglichen Kandidaten aus dem
    anonymisierten Datensatz so weit zu
  • 14:23 - 14:27
    reduzieren, dass ich mit entweder
    absoluter Sicherheit oder mit relativ
  • 14:27 - 14:30
    hoher Wahrscheinlichkeit sagen kann,
    dass ein Nutzer, den ich hier in den
  • 14:30 - 14:34
    öffentlichen Daten gefunden habe,
    dem Nutzer
  • 14:34 - 14:36
    in dem anonymisierten Datensatz
    entspricht.
  • 14:36 - 14:40
    In dem Sinne habe ich diesen
    User dann deanonymisiert.
  • 14:44 - 14:46
    Wie Svea gesagt hatte, ist der Datensatz,
  • 14:46 - 14:47
    den wir bekommen haben, absolut
  • 14:47 - 14:50
    unzureichend anonymisiert worden,
  • 14:50 - 14:54
    d. h., das war sehr, sehr einfach
    möglich, aus den URL-Daten, die wir
  • 14:54 - 14:58
    erhalten haben, entsprechende Nutzer
    und Personennamen zu extrahieren.
  • 14:58 - 15:01
    Im Zweifelsfall hat dafür eine einzige URL
    ausgereicht.
  • 15:01 - 15:03
    Hier habe ich zwei Beispiele.
  • 15:03 - 15:05
    Einmal von Twitter und einmal von XING.
  • 15:05 - 15:07
    Das sind also beides URLs,
  • 15:07 - 15:08
    die Rückschlüsse
  • 15:08 - 15:10
    entweder auf den Nutzernamen
  • 15:10 - 15:11
    oder sogar auf den Klarnamen
  • 15:11 - 15:13
    und weitere Angaben von
  • 15:13 - 15:15
    der Person zulassen.
  • 15:15 - 15:17
    Und das, was die Identifikation
    hier ermöglicht,
  • 15:17 - 15:20
    ist bei der ersten Adresse oben,
  • 15:20 - 15:23
    dass diese Analytics-Page nur
    – im Normalfall – dem
  • 15:23 - 15:24
    eingeloggten Benutzer zur Verfügung steht,
  • 15:24 - 15:26
    d.h. wenn ich diese URL in einem Datensatz
  • 15:26 - 15:28
    sehe, kann ich mit relativ hoher
  • 15:28 - 15:30
    Wahrscheinlichkeit davon ausgehen, dass
  • 15:30 - 15:31
    der Nutzername, der hier auftaucht, dem
  • 15:31 - 15:34
    Nutzernamen des anonymisierten Nutzers in
  • 15:34 - 15:36
    meinem Datensatz entspricht.
  • 15:36 - 15:39
    Im zweiten Fall ist es weniger
    offensichtlich.
  • 15:39 - 15:41
    man kann also nur sehen, dass man hier
  • 15:41 - 15:43
    eine öffentliche Profiladresse hat,
  • 15:43 - 15:45
    die man auch so im Internet finden kann,
  • 15:45 - 15:46
    was aber den Unterschied macht, ist
  • 15:46 - 15:50
    dieses spezielle Query, das hinten
    dran hängt,
  • 15:50 - 15:53
    und das nur in die URL hinzugefügt wird,
  • 15:53 - 15:55
    wenn ich als eingeloggter Nutzer,
  • 15:55 - 15:56
    auf mein eigenes Profilbild klicke
  • 15:56 - 15:58
    d.h. hier ist wieder mit einer hohen
  • 15:58 - 16:01
    Wahrscheinlichkeit die Möglichkeit
    gegeben, einen Nutzer der in
  • 16:01 - 16:07
    den Daten drin ist, eindeutig mit dem
    Besitzer dieses Profils zu identifizieren.
  • 16:07 - 16:11
    Und in unserm Datensatz haben wir über
    100.000 Benutzer auf diese Weise
  • 16:11 - 16:15
    identifiziert. Wir haben auch die
    beiden Firmen übrigens auf diese
  • 16:15 - 16:19
    Sicherheitsprobleme aufmerksam gemacht.
    XING hat entsprechend schon Änderungen
  • 16:19 - 16:24
    eingeführt und Twitter hält es nicht
    für ein Problem in diesem Sinne und
  • 16:24 - 16:28
    möchte da keine Änderungen machen
    aktuell. Also als erstes Take-Away könnte
  • 16:28 - 16:32
    man vielleicht von dem Vortrag auch
    mitnehmen, dass man bitte, bitte keine
  • 16:32 - 16:37
    persönlich identifizierbaren Informationen
    in URLs packt. Wenn irgend möglich.
  • 16:38 - 16:44
    Natürlich gibt’s noch etwas
    weitergehende Verfahren, um auch
  • 16:44 - 16:49
    Datensätze zu deanonymisieren, die etwas
    besser anonymisiert wurden.
  • 16:49 - 16:52
    Eine schöne Arbeit hierzu ist dieses Paper
  • 16:52 - 16:54
    das aus dem Jahr 2007 stammt, und
  • 16:54 - 16:56
    wo sich die Forscher
  • 16:56 - 16:57
    mit einem Datensatz beschäftigt haben,
  • 16:57 - 17:00
    der von Netflix publiziert wurde und
  • 17:00 - 17:03
    der also anonymisierte Bewertungsdaten
  • 17:03 - 17:05
    von Netflix-Usern enthielt.
  • 17:05 - 17:08
    Der Datensatz wurde auf eine
    Datenanalyseplattform hochgeladen
  • 17:08 - 17:11
    mit dem Ziel, dass andere
    Data-Sscientists,
  • 17:11 - 17:14
    Datenforscher, sich mit den Daten
    auseinandersetzen können und
  • 17:14 - 17:18
    auf die Weise bessere Bewertungs-
    oder Empfehlungsalgorithmen für neue
  • 17:18 - 17:24
    Filme finden können. Und die
    Deanonymisierung dieses Datensatzes war in
  • 17:24 - 17:28
    diesem Fall möglich ebenfalls durch
    die Nutzung von öffentlich verfügbaren
  • 17:28 - 17:33
    Informationen – in diesem Fall war das
    beispielsweise Bewertungen, die Nutzer auf
  • 17:33 - 17:38
    der Plattform IMDB abgegeben haben, wo
    also Nutzer auch Filme bewerten können wie
  • 17:38 - 17:42
    bei Netflix und wo oft Nutzer-Accounts
    oder Konten mit dem wirklichen Namen des
  • 17:42 - 17:48
    Benutzers verknüpft sind. Und die
    Forscher haben also geschafft, indem sie
  • 17:48 - 17:52
    die Bewertung von IMDB herangezogen haben
    und diese mit den Bewertungen auf Netflix
  • 17:52 - 17:57
    verglichen, die User auf Netflix mit einer
    hohen Wahrscheinlichkeit mit den Usern auf
  • 17:57 - 18:01
    IMDB zu identifizieren D. h. hier war eine
    Deanonymisierung einfach dadurch möglich,
  • 18:01 - 18:05
    dass es sehr, sehr viele mögliche
    Kombinationen von Filmen gibt und es sehr
  • 18:05 - 18:09
    unwahrscheinlich ist, dass zwei Personen
    die gleiche Anzahl von Filmen auf die
  • 18:09 - 18:12
    gleiche Weise bewertet haben.
  • 18:13 - 18:16
    Und diese Technik kann man auch auf
  • 18:16 - 18:18
    unseren Datensatz anwenden,
  • 18:21 - 18:24
    dieser enthält wie gesagt
    ca. 3 Mrd. URLs
  • 18:24 - 18:27
    von 9 Mio. Web-Domains und wurde
  • 18:27 - 18:29
    von ca. 3 Mio. Usern generiert.
  • 18:31 - 18:33
    So. Da die Daten wie gesagt
  • 18:33 - 18:35
    unzureichend anonymisiert wurden, haben
  • 18:35 - 18:36
    wir für die weitere Analyse
  • 18:36 - 18:37
    einfach mal angenommen,
  • 18:37 - 18:41
    dass der Anbieter wirklich ein Interesse
    daran hätte die Anonymisierung korrekt
  • 18:41 - 18:45
    oder möglichst gut durchzuführen und
    dementsprechend sämtliche Informationen
  • 18:45 - 18:48
    außer der Domain und der Nutzer-ID aus
    dem Datensatz entfernt
  • 18:48 - 18:50
    d.h. wir haben alle Informationen
    weggeworfen,
  • 18:50 - 18:53
    bis auf den Fakt:
    Hat dieser Nutzer, diese Domain in
  • 18:53 - 18:55
    dem Zeitraum besucht?
  • 18:55 - 18:56
    Ja oder nein?
  • 18:57 - 18:59
    So - Also man könnte annehmen, dass diese
  • 18:59 - 19:02
    starke Form der Anonymisierung doch
    ausreichend sein sollte,
  • 19:02 - 19:03
    um die Nutzer davor zu schützen,
  • 19:03 - 19:05
    wieder deanonymisiert zu werden.
  • 19:05 - 19:07
    Wir haben weiterhin auch eine Auswahl
  • 19:07 - 19:09
    getroffen von 1 Mio. Nutzern,
  • 19:09 - 19:12
    von denen wir über 10 Datenpunkte haben,
  • 19:12 - 19:15
    weil das die Analyse für die weiteren
    Schritte vereinfacht und für Nutzer, die
  • 19:15 - 19:21
    relativ wenige Datenpunkte haben, auch die
    meisten Techniken nicht anwendbar sind.
  • 19:21 - 19:22
    So.
  • 19:22 - 19:24
    Wenn man sich jetzt die Verteilung
  • 19:24 - 19:26
    der Häufigkeiten der Domains
  • 19:26 - 19:27
    in dem Datensatz anschaut,
  • 19:27 - 19:29
    Also hier auf der X-Achse ist
  • 19:29 - 19:30
    immer der Popularitätsrang einer
  • 19:30 - 19:32
    entsprechenden Domain aufgetragen
  • 19:32 - 19:34
    d. h. je
    weiter links die Domain hier auftaucht,
  • 19:34 - 19:36
    um so populärer ist sie.
  • 19:36 - 19:39
    Man hat hier bspw . Google, Facebook und
    die anderen üblichen Kandidaten
  • 19:39 - 19:43
    und auf der Y-Achse ist die
    Anzahl der URLs aufgetragen,
  • 19:43 - 19:46
    die von dieser entsprechenden Domain
    in dem Datensatz stammen.
  • 19:46 - 19:48
    Und wie man sieht: wenn man die
  • 19:48 - 19:55
    100 populärsten Domains nimmt, sind die
    schon bereits verantwortlich für mehr als
  • 19:55 - 20:00
    99% der gesamten Daten in unserem
    Datensatz. D. h. die meisten Seitenbesuche
  • 20:00 - 20:05
    finden auf den Top 100 Domains dieser
    Liste statt. Und wie man sieht, fällt die
  • 20:05 - 20:09
    Verteilung danach relativ schnell ab. Also
    es gibt eine Menge Domains, die nur ein
  • 20:09 - 20:13
    paar hundert mal oder sogar nur 10 oder
    ein einziges mal von einem Nutzer besucht
  • 20:13 - 20:16
    wurden. Das hilft uns bei der
    Anonymisierung, weil wir gleichzeitig die
  • 20:16 - 20:20
    Möglichkeit haben, über diese populären
    Domains, die fast jeder User besucht hat
  • 20:20 - 20:23
    oder von denen jeder User fast eine
    besucht hat,
  • 20:23 - 20:26
    eine entsprechende Auswahl zu treffen und
  • 20:26 - 20:30
    unsere Kombinatorik darauf anzuwenden aber
    wir auch gleichzeitig Long-Tail-Domains
  • 20:30 - 20:34
    haben, die also nur von wenigen Nutzern
    besucht wurden und die entsprechend sehr
  • 20:34 - 20:37
    gut sich eignen, um einzelne Nutzer
    wirklich mit wenigen Datenpunkten wieder
  • 20:37 - 20:39
    zu identifizieren.
  • 20:40 - 20:43
    So, den ersten Schritt, den wir machen
    müssen, um unsere
  • 20:43 - 20:48
    Deanonymisierung vorzunehmen, ist das
    Katalogisieren der Nutzer. Dafür legen wir
  • 20:48 - 20:54
    eine einfache Tabelle an, wo wir in jede
    Zeile entsprechend einen Eintrag für
  • 20:54 - 20:58
    einen Nutzer machen und in jede Spalte
    einen Eintrag für eine Domain anlegen und
  • 20:58 - 21:04
    jedes Element hier ist entweder Null oder
    Eins und ist genau Eins dann, wenn der
  • 21:04 - 21:08
    entsprechende Nutzer die entsprechende
    Domain besucht hat, d. h., das ergibt eine
  • 21:08 - 21:13
    Matrix mit 9 Mio. Einträgen für die
    Domains und 1 Mio. Einträgen für die
  • 21:13 - 21:17
    User, wobei die meisten Elemente dieser
    Matrix Null sind. Und so eine Matrix lässt
  • 21:17 - 21:21
    sich sehr effizient auch repräsentieren
    und kann leicht verarbeitet werden für
  • 21:21 - 21:22
    die weiteren Schritte.
  • 21:22 - 21:26
    So der Algorithmus,den wir einsetzen
    zu der Deanonymisierung ist
  • 21:26 - 21:27
    wirklich sehr, sehr einfach.
  • 21:27 - 21:30
    Wir generieren im 1. Schritt die Matrix M
  • 21:30 - 21:31
    die ich gerade gezeigt habe,
  • 21:31 - 21:34
    generieren dann weiterhin einen Vektor V
  • 21:34 - 21:36
    und in diesen Vektor packen wir
    alle Domains,
  • 21:36 - 21:39
    die wir aus anderen Informationsquellen,
  • 21:39 - 21:44
    also aus unserer öffentlichen Information
    gewonnen haben und die wir vergleichen
  • 21:44 - 21:48
    wollen mit den Nutzern, die sich in in dem
    Datensatz befinden d.h. für jede Domain
  • 21:48 - 21:51
    die wir irgendwo gesehen haben, würden wir
    eine 1 in diesen Vektor schreiben und
  • 21:51 - 21:55
    würden dann entsprechend den Vektor
    nehmen und mit der Matrix multiplizieren.
  • 21:55 - 22:01
    Das Ergebnis enthält dann wieder für
    jeden Nutzer eine einzige Zahl und in dem
  • 22:01 - 22:05
    wir den Maximalwert dieser Zahl nehmen
    können den Nutzer finden der in unserem
  • 22:05 - 22:09
    Datensatz die beste Übereinstimmung hat
    mit den Domain, mit denen wir ihn
  • 22:09 - 22:10
    vergleichen wollen.
    Also wirklich ein sehr,
  • 22:10 - 22:12
    sehr einfaches Verfahren, das allerdings
  • 22:12 - 22:14
    sehr robust und auch sehr,
    wie man sehen wird,
  • 22:14 - 22:16
    effektiv ist für die Deanonymisierung
  • 22:16 - 22:19
    So, das ist natürlich alles sehr abstrakt
  • 22:19 - 22:22
    deswegen habe ich hier mal ein Beispiel
    von einem Nutzer,
  • 22:22 - 22:24
    den wir zufällig ausgewählt haben
    aus unserem Datensatz
  • 22:24 - 22:28
    und wir gehen jetzt einfach mal
    durch die einzelnen Punkte durch.
  • 22:28 - 22:29
    Also hier würden wir jedes mal in
    jedem Schritt
  • 22:29 - 22:31
    eine Domain hinzunehmen, die der Benutzer
  • 22:31 - 22:34
    entsprechend besucht hat und dann schauen,
  • 22:34 - 22:38
    um wie viele Nutzer verringert das die
  • 22:38 - 22:42
    möglichen Nutzer in unserem Datensatz, die
    diese Domains besucht haben könnten.
  • 22:42 - 22:44
    Wie wir sehen wir fangen hier links mit
  • 22:44 - 22:46
    ca. 1,1 mio. Nutzern an, dann nehmen wir
  • 22:46 - 22:48
    unsere 1. Domain das ist gog.com
  • 22:48 - 22:49
    Das ist eine Gaming-Webseite und
  • 22:49 - 22:51
    da sehen wir schon
  • 22:51 - 22:54
    haben wir eine extreme Reduktion
    in der Anzahl der möglichen Nutzer
  • 22:54 - 22:55
    in dem Datensatz.
  • 22:55 - 22:59
    Weil jetzt nur noch 15.000 Nutzer
    dieser Domain drin sind, die
  • 22:59 - 23:03
    wirklich diese Domain besucht haben und
    die der potentielle Nutzer sein könnten.
  • 23:03 - 23:07
    Wie wir auch sehen ist dieser Nutzer
    Telekom-Kunde d.h. er hat auch diese
  • 23:07 - 23:12
    kundencenter.telekom.de Domain besucht.
    Was nochmal die Anzahl der möglichen
  • 23:12 - 23:14
    Nutzer in dem Datensatz extrem reduziert.
  • 23:14 - 23:16
    In diesem Falle auf 367.
  • 23:16 - 23:18
    Er ist auch Sparda-Bank-Kunde,
  • 23:18 - 23:22
    weswegen wir auch diese
    banking.sparda.de hinzunehmen können, was
  • 23:22 - 23:26
    nochmal die Anzahl auf 11 reduziert und
    das finale Stück des Puzzles, das wir noch
  • 23:26 - 23:27
    benötigen ist hier die Information, dass
  • 23:27 - 23:30
    der Nutzer handelsblatt.com unterwegs war,
  • 23:30 - 23:32
    was dann nur noch einen einzigen Nutzer
  • 23:32 - 23:35
    ergibt in unserem Datensatz, der mit
  • 23:35 - 23:37
    diesen Daten kompatibel ist.
  • 23:37 - 23:41
    D.h. hätten wir diese vier Informationen
    aus öffentlichen Quellen extrahiert,
  • 23:41 - 23:44
    könnten wir schon mit Sicherheit
    sagen, welcher Nutzer in unserem
  • 23:44 - 23:48
    Datensatz hier entsprechend der richtige
    Nutzer ist.
  • 23:51 - 23:52
    So jetzt ist natürlich die Frage:
  • 23:52 - 23:56
    Wie gut funktioniert das Verfahren
    in Abhängigkeit auch davon, wieviele
  • 23:56 - 23:58
    Informationen ich denn überwachen kann
    von dem Nutzer.
  • 23:58 - 23:59
    Wir haben ja gesehen,
  • 23:59 - 24:03
    das wir in unserem Datensatz eigentlich
    den Nutzer komplett überwachen können,
  • 24:03 - 24:07
    D.h. wir können jede URL sehn, die der
    Nutzer mit seinem Browser aufgerufen hat
  • 24:07 - 24:11
    Aber viele Trecker sehen ja im Prinzip nur
    einige hundert oder vielleicht einige
  • 24:11 - 24:15
    tausend oder zehntausend Domains, auf den
    entsprechende Skripte installiert sind.
  • 24:17 - 24:22
    Was ich deswegen hier zeige, ist die
    Effektivität dieser Methode in
  • 24:22 - 24:25
    Abhängigkeit der Anzahl der Domain die
    ich zur Verfügung habe.
  • 24:25 - 24:27
    Wir fangen also an hier links,
  • 24:27 - 24:30
    wo nur die Top 50 Domains in
    unserem Datensatz zur Verfügung hätten
  • 24:30 - 24:35
    und schauen uns an, wenn wir zufälliges
    Sample von Usern, in diesem Fall 200,
  • 24:35 - 24:39
    versuchen zu deanonymisieren,
    wo befindet sich denn der korrekte User
  • 24:39 - 24:42
    unter all den Nutzern, die wir in dem
    Datensatz haben.
  • 24:42 - 24:44
    Man sieht hier für 50 Domains ist das
  • 24:44 - 24:46
    ungefähr 160.
  • 24:46 - 24:49
    D.h. es gibt 160 andere Nutzer
    im Schnitt, die eine höhere
  • 24:49 - 24:53
    Wahrscheinlichkeit haben, mit den Daten
    übereinzustimmen, als der wirklich
  • 24:53 - 24:54
    gesuchte Nutzer.
  • 24:54 - 24:57
    So, wenn wir jetzt die Anzahl der Domains
    allerdings erhöhen:
  • 24:57 - 25:00
    also wir können z.B. auf 100 gehen, sehen
    wir, das der Wert schon rapide abfällt.
  • 25:00 - 25:03
    D.h. hier habe ich schon die Anzahl der
    möglichen Nutzer, die zu einem wirklichen
  • 25:03 - 25:06
    Nutzer gehören könnten extrem reduziert.
  • 25:06 - 25:08
    Auf ungefähr 25
  • 25:08 - 25:10
    und wenn ich die Anzahl der Domains
  • 25:10 - 25:12
    entsprechend erhöhe auf
    200 oder 300 sogar,
  • 25:12 - 25:14
    bin ich sehr schnell auch in der Lage
  • 25:14 - 25:17
    wirklich den Nutzer eindeutig
    wieder zu identifizieren .
  • 25:17 - 25:20
    Also es gibt keine Fehler,
    in diesem Sinne dann, für die
  • 25:20 - 25:23
    Identifikation eines bestimmten Nutzers.
  • 25:23 - 25:28
    So, das ist natürlich alles graue Theorie
    und es stellt sich die Frage:
  • 25:28 - 25:32
    Ist es überhaupt möglich, solche
    öffentlichen Informationen zu gewinnen
  • 25:32 - 25:34
    oder ist das eher unwahrscheinlich,
    dass man an solche
  • 25:34 - 25:36
    Informationen rankommen würde?
  • 25:36 - 25:39
    Deswegen habe ich versucht anhand von
    den Daten, die wir haben und anhand von
  • 25:39 - 25:43
    öffentlichen Informationsquellen wirklich
    Deanonymisierung durchzuführen, mit den
  • 25:43 - 25:47
    Usern, die wir haben.
    Und ich zeige jetzt drei Beispiele.
  • 25:47 - 25:50
    Das erste beruht auf der Analyse von
    Twitter-Daten.
  • 25:50 - 25:53
    Da haben wir also einen Nutzer aus
    unserem Datensatz
  • 25:53 - 25:58
    der einen Twitter-Account hatte zufällig
    rausgesucht. Haben uns dann angeschaut,
  • 25:58 - 26:02
    welche URLs dieser Nutzer in dem
    entsprechenden Zeitraum, über den wir die
  • 26:02 - 26:06
    Daten hatten, geteilt hat und haben dann
    aus diesen Tweets hier die entsprechenden
  • 26:06 - 26:11
    URLs extrahiert, davon wieder Domains
    generiert oder extrahiert und diese
  • 26:11 - 26:15
    Domains dann mit unserem Algorithmus
    genutzt.
  • 26:15 - 26:18
    So. Wie wir sehen haben wir für
  • 26:18 - 26:20
    diesen einen Nutzer dabei 8 Domains
    extrahiert
  • 26:20 - 26:22
    über den entsprechenden Zeitraum.
  • 26:22 - 26:27
    Also wir haben hier relativ
    populäre Domains wie GitHub, Change.org
  • 26:27 - 26:29
    aber auch viele Blogs,
  • 26:29 - 26:31
    Beispielsweise: rtorp.wordpress.com
  • 26:31 - 26:33
    was nur von 129 Nutzern aus dem Datensatz
  • 26:33 - 26:39
    besucht wurde und auch andere kleinere
    Webseiten.
  • 26:39 - 26:44
    Wenn wir jetzt uns anschauen, welche
    Nutzer aus unserem Datensatz haben
  • 26:44 - 26:51
    mindestens eine dieser Domains besucht, in
    dem entsprechenden Zeitraum, und die Nutzer
  • 26:51 - 26:56
    gegen die Anzahl der Domains, die sie aus
    diesem Satz von Domains besucht haben
  • 26:56 - 26:58
    auftragen, bekommen wir diese Grafik hier.
  • 26:58 - 27:01
    Also die zeigt die ca. 110.000 Nutzer, die
  • 27:01 - 27:06
    min. eine dieser Webseite besucht haben
    und zeigt gleichzeitig an: Wieviele von
  • 27:06 - 27:10
    den entsprechenden Domains der Nutzer
    wirklich besucht hat. Und wir sehen:
  • 27:10 - 27:14
    Also, es gibt sehr, sehr viele Nutzer,
    die min. eine hiervon besucht haben.
  • 27:14 - 27:15
    Wenn wir allerdings hochgehen zu
    zwei, drei oder vier davon
  • 27:15 - 27:18
    verringert sich die Anzahl sehr schnell.
  • 27:18 - 27:23
    Und wir sehen hier, dass wir oben bei 7
    einen einzigen Nutzer haben und dabei
  • 27:23 - 27:27
    handelt es sich wirklich um den Nutzer, den
    wir entsprechend deanonymisieren wollten.
  • 27:27 - 27:31
    D.h. hier ist eine Zuordnung mit 100%ger
    Sicherheit möglich für diesen Nutzer.
  • 27:31 - 27:36
    Wir haben das auch für andere Nutzer
    durchgespielt. Wir konnten nicht immer den
  • 27:36 - 27:40
    korrekten Nutzer rausfinden. Aber wir
    konnten in den meisten Fällen die Anzahl
  • 27:40 - 27:43
    möglicher Nutzer auf ca. 10–20
    reduzieren.
  • 27:47 - 27:50
    Das zweite Beispiel, dass ich jetzt noch
  • 27:50 - 27:55
    zeigen möchte, ist anhand von
    YouTube-Daten gemacht worden.
  • 27:55 - 28:00
    Oft ist es so, dass viele Daten in solchen
    Datensätzen wirklich anonymisiert werden,
  • 28:00 - 28:04
    aber bestimmte Daten davon ausgenommen
    werden, weil es ein starkes Interesse gibt,
  • 28:04 - 28:05
    seitens der Unternehmen, diese zu nutzen.
  • 28:05 - 28:08
    YouTube-Videos sind ein gutes Beispiel
  • 28:08 - 28:13
    dafür, weil Unternehmen bspw. wissen
    möchten, welche Videos haben bestimmte
  • 28:13 - 28:17
    Nutzer angeschaut, in welcher Kombination,
    um daraus für ihr Marketing Erkenntnisse
  • 28:17 - 28:20
    abzuleiten. Und man könnte auch meinen,
    dass diese Information über öffentliche
  • 28:20 - 28:24
    Videos, die eigentlich ja jeder sich
    anschauen kann im Internet,
  • 28:24 - 28:25
    auch nicht sehr kritisch ist.
  • 28:25 - 28:28
    Was wir gemacht haben deswegen,
    um zu zeigen, ob das wirklich so ist,
  • 28:28 - 28:32
    ist, dass wir wieder aus unserem
    Datensatz einen Nutzer extrahiert haben,
  • 28:32 - 28:37
    von diesem Nutzer die Favoritenliste der
    YouTube-Videos uns besorgt haben, die auch
  • 28:37 - 28:40
    öffentlich ist im Normalfall, also man
    kann das Einstellen natürlich, das es
  • 28:40 - 28:44
    nicht öffentlich ist aber 90% der User
    machen das nicht und haben das
  • 28:44 - 28:47
    entsprechend dann in der Öffentlichkeit
    und haben uns aus dieser Liste per
  • 28:47 - 28:52
    YouTube-API automatisiert sämtliche
    Video-IDs besorgt. Und mit diesen
  • 28:52 - 28:56
    Video-IDs haben wir wieder unseren
    Algorithmus gefüttert, diesmal allerdings
  • 28:56 - 28:59
    mit den kompletten URL-Daten, da die
  • 28:59 - 29:02
    Domains halt nicht die Video-IDs
    enthalten.
  • 29:02 - 29:05
    Ups... jetzt habe ich falsch
    gedrückt ha so... also
  • 29:05 - 29:07
    Wie vorher haben wir also
  • 29:07 - 29:11
    diese IDs, das sind ungefähr 20 und
    haben auf der anderen Seite sämtliche
  • 29:11 - 29:15
    Nutzer, die min. 1 von diesen Videos
    angeschaut haben. Wie wir sehen können
  • 29:15 - 29:20
    sind das in dem Fall ca. 20.000, wobei
    wieder eine Menge von den Nutzern sich
  • 29:20 - 29:25
    min. 1 angeschaut haben. Aber die Anzahl
    der potentiellen Nutzer, die sich mehrere
  • 29:25 - 29:30
    angeschaut haben rapide runtergeht. Und
    wir sehen hier Bspw. für vier oder fünf
  • 29:30 - 29:33
    oder sechs haben wir nur noch eine
    Handvoll User und wir haben wieder einen
  • 29:33 - 29:38
    Treffer, der hier ganz oben liegt, bei 9
    angeschauten Videos und dabei handelt es
  • 29:38 - 29:43
    sich wieder um den Nutzer, den wir im
    vorherigen Schritt extrahiert haben.
  • 29:43 - 29:44
    Wir sehen also, es ist relativ einfach
  • 29:44 - 29:47
    anhand von ner kleinen Anzahl von
    Datenpunkten,
  • 29:47 - 29:49
    selbst aus ner sehr großen Anzahl
    von Nutzern,
  • 29:49 - 29:51
    in diesem Fall über 1 Mio. Nutzer,
  • 29:51 - 29:55
    entsprechend auf einen User
    zurückzuschließen. Und man muss dazu
  • 29:55 - 29:58
    sagen, dass solche Verfahren, dass
    YouTube-Verfahren, sogar besser
  • 29:58 - 30:02
    funktioniert hat, als die Anonymisierung
    über Twitter. Weil, ich schätze mal, die
  • 30:02 - 30:06
    Verteilung der Videos und Anzahl der
    Videos auf YouTube noch mal höher ist als
  • 30:06 - 30:09
    die Anzahl der entsprechenden Domains die
    wir zur Verfügung haben. D.h. eine
  • 30:09 - 30:13
    YouTube-Video-ID ist in dem Sinne sogar
    ein stärkeres Deanonymisierungs-Signal
  • 30:13 - 30:16
    als die entsprechende Domain aus dem
    Twitter-Feed.
  • 30:16 - 30:18
    So, dass letzte Beispiel:
  • 30:18 - 30:26
    dass ich zeigen möchte - basiert auf der
    Analyse von Geodaten. Dafür haben wir uns
  • 30:26 - 30:31
    angeschaut, wie wir aus unserem Datensatz
    Geodaten extrahieren oder Koordinaten
  • 30:31 - 30:34
    extrahieren können. Und wir haben
    rausgefunden, dass es relativ einfach
  • 30:34 - 30:39
    über Google-Maps-URLs geht. Die also wenn
    man sich einen bestimmten Bereich anschaut
  • 30:39 - 30:44
    meisten oben in der URL die geographischen
    Koordinaten enthalten. D.h. wir konnten
  • 30:44 - 30:49
    aus unserem Datensatz einige Mio. von
    diesen Koordinatenpaaren extrahieren und
  • 30:49 - 30:52
    die auch nach entsprechenden Nutzer
    gruppieren und können damit eine
  • 30:52 - 30:58
    komplette Karte von der Nutzeraktivität
    anfertigen. Also wir sehen z.B. welche
  • 30:58 - 31:02
    Kartenausschnitte sich User angeschaut
    haben. Wenn sie z.B. nach Urlaubszielen
  • 31:02 - 31:06
    geschaut haben, vielleicht nach ihrem
    Arbeitsort, nach einem Weg, nach einer
  • 31:06 - 31:10
    Wegbeschreibung. Und können diese
    Information also auch Nutzergenau
  • 31:10 - 31:15
    verarbeiten. Und Geodaten sind besonders
    interessant hierfür, weil es sehr viel
  • 31:15 - 31:21
    schwieriger ist, diese selbst zu ändern,
    da es ja relativ einfach ist seine
  • 31:21 - 31:25
    Surfgewohnheiten oder Videogewohnheiten im
    Zweifelsfall anzupassen aber es relativ
  • 31:25 - 31:30
    schwierig ist, bspw. die Arbeitsstelle
    oder den Wohnort oder sämtliche vertraute
  • 31:30 - 31:34
    Orte zu wechseln. D.h. diese Information
    sehr, in diesem Sinne sticky, in dem
  • 31:34 - 31:38
    Sinne, dass sie dem User über lange Zeit
    auch zuordenbar sind normalerweise. Und
  • 31:38 - 31:42
    wir können auch wieder aus verschiedenen
    öffentlichen Quellen Informationen
  • 31:42 - 31:44
    extrahieren. Bspw. aus Google-Maps oder
  • 31:44 - 31:47
    auch über Flickr, wo auch viele Fotos
    geocodiert sind und
  • 31:47 - 31:51
    können dann über diese Information
    ein Matching mit den Daten, die wir in
  • 31:51 - 31:53
    unserem Datensatz haben, durchführen.
  • 31:53 - 31:56
    Und hier ist es auch so, dass wir
    über eine relativ kleine Anzahl
  • 31:56 - 31:59
    also weniger als 10 Datenp unkte im
    Idealfall, ähm Normalfall,
  • 31:59 - 32:04
    den einzelnen Nutzer aus dem Datensatz
    extrahieren und identifizieren können.
  • 32:07 - 32:09
    So, eine Frage die ich oft gestellt
    bekomme, ist:
  • 32:09 - 32:12
    Kann ich mich verstecken in meinen Daten?
  • 32:12 - 32:16
    Also, ist es möglich dadurch,
    dass ich mich unvorhergesehen verhalte,
  • 32:16 - 32:20
    dass ich vielleicht Webseiten öffne,
    die ich normalerweise nie anschauen
  • 32:20 - 32:24
    würde, dass ich den Algorithmus verwirre
    und dementsprechend nicht in den Daten
  • 32:24 - 32:30
    auftauche werde? Da muss leider sagen,
    dass funktioniert vermutlich nicht, aus
  • 32:30 - 32:37
    dem einfachen Grund, dass wir ja ein
    Matching machen über die Zuordnung von
  • 32:37 - 32:41
    Eigenschaften, die entweder erfüllt oder
    nicht erfüllt sind und ich als einzelner
  • 32:41 - 32:44
    Nutzer ja nur die Möglichkeit habe,
    zusätzliche Datenpunkte zu meinem
  • 32:44 - 32:48
    persönlichen Vektor hinzuzufügen aber
    meistens keine Datenpunkte von diesem
  • 32:48 - 32:53
    entfernen kann. D.h. wenn ich hier schon
    mit meinen bestehenden Datenpunkten zu
  • 32:53 - 32:56
    100% identifiziert bin, kann ich
    eigentlich so viele Punkte hinzufügen wie
  • 32:56 - 33:02
    ich möchte und werde trotzdem nicht im
    normalfall von dem Algorithmus mit einem
  • 33:02 - 33:06
    anderen User verwechselt werden können.
    D.h. diese Verfahren ist in dem Sinne sehr
  • 33:06 - 33:13
    robust gegenüber der Perturbation oder
    der Änderung der Daten durch den Nutzer.
  • 33:13 - 33:19
    Als kleines Zwischenfazit kann man also
    sagen, dass diese Art von Datensätzen die
  • 33:19 - 33:22
    sehr viele Dimensionen und sehr viele
    Eigenschaften enthalten extrem schwierig
  • 33:22 - 33:27
    zu anonymisieren sind und auch bei
    entsprechender Absicht man nicht immer
  • 33:27 - 33:30
    sicher sein kann, dass
    Anonymisierungsmaßnahmen,
  • 33:30 - 33:31
    die man ergreift, wirklich
  • 33:31 - 33:34
    ausreichend sind, um sämtliche Nutzer
    oder sogar nur einen kleinen Teil
  • 33:34 - 33:36
    von Nutzern in dem Datensatz zu schützen.
  • 33:36 - 33:38
    Weiterhin ist es auch so, dass heute
  • 33:38 - 33:42
    eigentlich immer mehr öffentlich
    verfügbare Informationen über Personen
  • 33:42 - 33:46
    zur Verfügung stehen, die auch genutzt
    werden können, um Daten die anonymisiert
  • 33:46 - 33:51
    wurden z.B. vor 10 Jahren oder vor 5
    Jahren jetzt mit neuen Datenpunkten in dem
  • 33:51 - 33:55
    Sinne besser zu deanonymisieren. D.h. es
    wird immer einfacher möglich, auch aus
  • 33:55 - 33:58
    bestehenden Datensätzen entsprechende
    Nutzerdaten und
  • 33:58 - 34:03
    Personen-Identifikationsmerkmale zu
    extrahieren. Und wie wir gesehen haben,
  • 34:03 - 34:06
    reichen dafür oft eigentlich schon sehr
    wenige Datenpunkte aus, um wirklich
  • 34:06 - 34:11
    einzelne Nutzer herauszusuchen und
    eindeutig zu identifizieren.
  • 34:11 - 34:18
    S: Ja was bedeutet das?
    Was bedeutet das, wenn man mit seinen
  • 34:18 - 34:20
    eigenen Daten konfrontiert wird?
  • 34:20 - 34:23
    Also wenn jemand anders einen mit
    seinen Daten konfrontiert?
  • 34:23 - 34:25
    Also z.B. Ich?
  • 34:25 - 34:28
    Wir haben, die Recherche war
    für ein politisches Magazin
  • 34:28 - 34:30
    und deswegen haben wir vor allem nach
  • 34:30 - 34:32
    Politikern geschaut und auch die
    Politiker selbst
  • 34:32 - 34:35
    oder deren Mitarbeiter gefunden
    in diesen Daten.
  • 34:35 - 34:37
    Waren zwei Grüne dabei,
    drei von der SPD,
  • 34:37 - 34:40
    darunter auch Mitarbeiter aus dem
  • 34:40 - 34:43
    Büro von Lars Klingbeil,
    Netzpolitischer Specher,
  • 34:43 - 34:51
    ein Europaparlamentarier und das
    zog sich sozusagen bis ins Kanzleramt und
  • 34:51 - 34:54
    auch dort in einem Büro, bei einem
    Staatsminister bei der Bundeskanzlerin war
  • 34:54 - 34:59
    auch ein Mitarbeiter betroffen. Wobei die
    Mitarbeiter fast interessanter sind als
  • 34:59 - 35:02
    die Politiker selbst, weil die Mitarbeiter
    sehr viel inhaltliche Arbeit für die
  • 35:02 - 35:05
    Politiker machen. Und auch sowas,
  • 35:05 - 35:08
    wie deren Reisen planen,
    Kontakte herstellen.
  • 35:08 - 35:13
    Jetzt wollte selbstverständlich nicht
    jeder gerne mit uns reden und
  • 35:13 - 35:16
    vor allem nicht vor der Kamera.
  • 35:16 - 35:20
    Einer hat es dann getan, das ist
    Valerie Wilms.
  • 35:20 - 35:24
    Bevor wir sie jetzt mal hören, schauen
    mir doch erstmal in ihre Daten.
  • 35:24 - 35:26
    lachen
  • 35:26 - 35:32
    Sie hat es freigegeben für diesen Vortrag,
    sage ich noch dazu. Weil hier habe ich
  • 35:32 - 35:36
    jetzt sozusagen wirklich nichts
    anonymisiert, wie in dem Datensatz davor.
  • 35:36 - 35:44
    So 01.08., ist auch Frühaufsteherin, erst
    mal Banking... noch mal Banking... d.h.
  • 35:44 - 35:50
    man kann also hier ziemlich gut sehen z.B.
    wo Leute ihre Konten haben. Auf die Konten
  • 35:50 - 35:55
    selbst kann man nicht zugreifen, aber man
    weiß wo. Bisschen unangenehmer wird's
  • 35:55 - 36:00
    dann für sie sozusagen Ende August, da
    haben viele Leute ihre in Deutschland ihre
  • 36:00 - 36:04
    Steuererklärung gemacht. Das habe ich
    auch als Video nochmal. Da kann man
  • 36:04 - 36:05
    nochmal so ein bisschen runterscrollen,
  • 36:05 - 36:08
    Dann sehen wir ein bißchen mehr von ihrer
  • 36:08 - 36:14
    Steuererklärung. Also man kann jetzt hier
    sozusagen auf Elster-Online nicht selbst
  • 36:14 - 36:18
    zugreifen. Also wenn wir das jetzt machen
    würden, würden wir sozusagen nicht
  • 36:18 - 36:22
    weiter kommen, weil dann auch nach einem
    Passwort verlangt wird. Aber wir können
  • 36:22 - 36:27
    sehen, welche Vordrucke sie sich
    angeschaut hat. Und können so
  • 36:27 - 36:31
    Informationen gewinnen, über Dinge,
  • 36:31 - 36:37
    die sie gedenkt zu versteuern.
    Und es ist recht detailreich.
  • 36:44 - 36:49
    Ja, was hat sie nur dazu
    gesagt, als wir bei ihr im Büro saßen?
  • 36:49 - 36:54
    Wir können Sie einmal kurz hören dazu.
  • 36:54 - 36:59
    Valerie Wilms: Ist rechts alles zu sehen?
    Scheiße!
  • 36:59 - 37:01
    Gelächter
  • 37:01 - 37:12
    Applaus
  • 37:12 - 37:17
    S: Gab noch eine andere Geschichte,
    auf die wir sie angesprochen haben.
  • 37:17 - 37:21
    Gibt ja nicht nur Steuererklärungen
    sondern man schaut ja auch sowas bei
  • 37:21 - 37:26
    Google nach Tebonin nimmt man so
    bei Hörsturz, Tinitus,
  • 37:26 - 37:29
    Abgeschlagenheit. Ist natürlich gerade
  • 37:29 - 37:33
    für Politiker ein großes Problem, wenn
    solch Informationen an die Öffentlichkeit
  • 37:33 - 37:38
    gelangen, Menschen dann falsche Schlüsse
    daraus ziehen oder auch, ja, die Leute
  • 37:38 - 37:44
    damit erpressen können. Z.B. haben wir
    sie auch darauf angesprochen.
  • 37:44 - 37:47
    Will ich die Reaktion nicht vorenthalten.
  • 37:48 - 37:52
    Valerie Wilms: Ich weiß gar nicht in
    welchem Zusammenhang ich dieses
  • 37:52 - 37:55
    Tebonin mir da angeguckt habe,
    das ist nicht schön,
  • 37:55 - 38:00
    sowas nachträglich zu lesen. Vor allen
    Dingen verknüpft mit dem eigenen Namen.
  • 38:00 - 38:05
    S: Ja, das war Valerie Wilms zu ihren
    Daten. An diesem ganz kleinen Ausschnitt
  • 38:05 - 38:11
    sieht man wie Problematisch diese Daten
    sind. Ich hab jetzt nicht die Beiträge
  • 38:11 - 38:18
    gezeigt, wo Menschen ihre sexuellen
    Vorlieben ausleben. Weil, dass betrifft
  • 38:18 - 38:22
    natürlich auch Leute, die in
    öffentlichen oder in relevanten
  • 38:22 - 38:27
    Positionen stehen. Natürlich sind auch
    Richter in diesen Daten. Natürlich sind
  • 38:27 - 38:35
    auch Wirtschaftsbosse in diesen Daten. Und
    natürlich sind das alles Menschen und die
  • 38:35 - 38:40
    haben Träume und die haben Gedanken, und
    es überhaupt nichts, was in dritte Hände
  • 38:40 - 38:45
    gehört. Und deshalb war mit allen mit
    denen wir gesprochen haben, im Zuge dieser
  • 38:45 - 38:52
    Recherche, war das für alle Betroffenen
    sehr schockierend. Aber wer hat sie
  • 38:52 - 38:57
    ausgespäht? Woher kommen diese Daten? War
    es irgendwie ein shady Trojaner oder so
  • 38:57 - 39:04
    auf dem Rechner? Nein. Wir sind relativ
    schnell drauf gekommen, dass es
  • 39:04 - 39:10
    Browser-Plugins sind und haben dann einen
    kleinen Test gemacht, haben einen Nutzer
  • 39:10 - 39:15
    gebeten Add-Ons zu deinstallieren. Und
    haben dann eines herausfinden können;
  • 39:15 - 39:26
    Web-of-Trust - Was machen die so?
    Safe Web Search & Browsing.
  • 39:26 - 39:28
    Applaus
  • 39:28 - 39:34
    Haben das dann noch mal mit einem sauberen
    Browser sozusagen gegengetestet in der
  • 39:34 - 39:41
    Zeit als wir eine Möglichkeit hatten Live
    in die Daten zuzugreifen, das hat ein
  • 39:41 - 39:47
    Securityspezialist für uns gemacht Mike
    Kuketz und der hatte eine extra Webseite
  • 39:47 - 39:50
    aufgesetzt, einen sauberen Browser, nur
    dieses eine Plugin installiert und wir
  • 39:50 - 39:54
    konnten ihn in den Daten sehen. Und
    dadurch konnten wir sicher sein, dass es
  • 39:54 - 39:58
    eben bei diesem einen Plugin auch
    tatsächlich der Fall war, dass dieser Weg
  • 39:58 - 40:00
    eben so gegangen ist.
  • 40:00 - 40:07
    A: Ja, warum ist das Tracking per App oder
    Extension eigentlich so interessant für
  • 40:07 - 40:11
    die Anbieter? Nun für Unternehmen ist es
    eigentlich immer sehr spannend ein
  • 40:11 - 40:15
    möglichst detailliertes Bild von einem
    entsprechenden Nutzer zu gewinnen. D.h.
  • 40:15 - 40:19
    ich möchte, wenn möglich, sämtliche Daten
    die über den Nutzer zur Verfügung
  • 40:19 - 40:23
    stehen. Und bei normalen Treckern ist das
    ja so, dass ich als Nutzer mir eine
  • 40:23 - 40:27
    Webseite runterlade, in meinen Browser,
    dann ein entsprechend ein
  • 40:27 - 40:30
    JavaScript-Applet oder ein anderes
    Tracking-Tag ausgeführt wird, dass eine
  • 40:30 - 40:32
    entsprechende Verbindung aufbaut zu einem
  • 40:32 - 40:34
    Tracking-Server und da Bspw. ein Cockie
  • 40:34 - 40:38
    setzt oder eine andere Information
    speichert, die mich dann als Nutzer
  • 40:38 - 40:42
    nachverfolgt. In den letzten hat sich
    dagegen, verständlicherweise, eine Menge
  • 40:42 - 40:47
    Widerstand auch geregt und viele Leute
    benutzen mittlerweile Blocker, die
  • 40:47 - 40:51
    verhindern, dass solche Tracking-Scripte
    ausgeführt werden. Oder die Verbindung zu
  • 40:51 - 40:55
    den Tracking-Servern abfangen oder
    blockieren. D.h. es wird immer schwieriger
  • 40:55 - 40:59
    für die Tracking-Anbieter qualitativ
    hochwertige Daten zu bekommen und da liegt
  • 40:59 - 41:05
    es doch eigentlich nahe, dass man sich
    solchen Mechanismen, in Form von einer
  • 41:05 - 41:09
    Extension, zu Nutze macht, in dem man
    die Sicherheitsmaßnahmen, die es in dem
  • 41:09 - 41:13
    Browser eigentlich per Default gibt,
    relativ einfach umgeht und dann über
  • 41:13 - 41:17
    diesen Side-Channel sozusagen die
    Information bei jeder einzeln aufgerufenen
  • 41:17 - 41:21
    URL direkt an den Tracking-Server sendet.
    Und das hat einen weiteren Vorteil für
  • 41:21 - 41:25
    die Anbieter, weil damit nicht nur die
    Seiten überwacht werden können, die
  • 41:25 - 41:28
    wirklich Tracking-Codes auch explizit
    beinhalten, sondern auch viele andere
  • 41:28 - 41:33
    Webseiten, die überhaupt keine Codes auf
    der Seite haben. Also Bspw. Seiten von
  • 41:33 - 41:37
    öffentlich Rechtlichen Institutionen, die
    ihre Nutzer im Normalfall nicht tracken.
  • 41:37 - 41:42
    D.h. es ist also möglich über dieses
    Verfahren von einer kleineren Anzahl an
  • 41:42 - 41:47
    Usern allerdings ein sehr viel größeres
    Spektrum an Daten, im Idealfall oder im
  • 41:47 - 41:51
    schlimmsten Fall, je nachdem wie man das
    sieht, die komplette Browsinghistory von
  • 41:51 - 41:56
    diesem entsprechenden User zu gewinnen.
    So, wir haben uns in unserem Datensatz
  • 41:56 - 42:01
    dafür nochmal angeschaut, wie viele von
    diesen Extensions es eigentlich gibt und
  • 42:01 - 42:05
    wie viele Daten jede von diesen Extensions
    generiert. Und hier haben wir wieder einen
  • 42:05 - 42:08
    doppelt logarithmischen Plot, wo auf der
    einen Seite hier der Rang der
  • 42:08 - 42:10
    entsprechenden Extension aufgetragen ist
  • 42:10 - 42:13
    d.h. je mehr Datenpunkte von
    der Extension
  • 42:13 - 42:18
    wir bekommen haben, umso weiter finden Sie
    hier die Extension links. Und auf der
  • 42:18 - 42:22
    anderen Achse haben wir die Anzahl der
    Datenpunkte entsprechend aufgetragen. Und
  • 42:22 - 42:27
    wir sehen hier, dass die populärste
    Extension, das ist Web-of-Trust bereits
  • 42:27 - 42:31
    für 1 Mrd. Datenpunkte in dem Datensatz
    verantwortlich ist. Und wenn man die
  • 42:31 - 42:37
    ersten 10 Extensions nehmen, sehen wir,
    dass bereits 95% der Daten davon abgedeckt
  • 42:37 - 42:42
    werden. D.h. es ist also eine kleine
    Anzahl von Extension, die eigentlich die
  • 42:42 - 42:47
    größte Masse an Daten hier für diesen
    Anbieter produziert. Wobei es auch sehr
  • 42:47 - 42:51
    viele, also hier fast 10.000 verschiedene
    Application-IDs gibt, die teilweise einige
  • 42:51 - 42:57
    100 oder bis zu einige 100.000 oder einige
    Mio. Datenpunkte ihrerseits liefern. Es
  • 42:57 - 43:01
    ist nicht unbedingt gesagt, dass es auch
    10.000 Extensions sind, weil wir keine
  • 43:01 - 43:05
    eindeutige Zuordnung zu der Application-ID
    haben, d.h. das ist eher eine obere
  • 43:05 - 43:08
    Abschätzung. Und um jetzt ein genaueres
    Bild zu bekommen,
  • 43:08 - 43:11
    wie verseucht eigentlich so ein Web-Store
  • 43:11 - 43:14
    ist, haben wir eine
    Verhaltensanalyse durchgeführt,
  • 43:14 - 43:17
    wofür wir mit einem
    Automatisierungsframework:
  • 43:17 - 43:20
    Webdriver - uns einfach einen
    Chrome-Browser
  • 43:20 - 43:23
    genommen haben, da automatisiert
    verschiedene Extensions installiert haben
  • 43:23 - 43:29
    und dann mit diesem Webdriver entsprechend
    verschiedene Webseiten angesurft haben,
  • 43:29 - 43:34
    wobei wir über einen Python-basierten
    Proxy-Server dann mitgeloggt haben, welche
  • 43:34 - 43:38
    URLs bzw. welche Webseiten von dem
    entsprechenden Browser geöffnet wurden,
  • 43:38 - 43:42
    wenn wir bestimmte Seiten angesteuert
    haben. D.h. darüber konnten wir
  • 43:42 - 43:46
    verfolgen, ob der Browser beim Öffnen von
    bestimmten Seiten oder von allen URLs
  • 43:46 - 43:51
    vielleicht noch zusätzlich Informationen
    eventuell an Dritte schickt. Und das haben
  • 43:51 - 43:55
    wir für ca. 500 Plugins so ausgeführt
    und wie man hier sehen kann, verhalten
  • 43:55 - 43:59
    sich die meisten eigentlich so, wie man
    es erwarten würde, d.h die öffnen nur die
  • 43:59 - 44:03
    URLs, die entsprechende Anzahl der URLs,
    die man erwarten würde für den
  • 44:03 - 44:08
    Testdatensatz, den wir verwendet haben.
    Und gleichzeitig gibt es auch einige
  • 44:08 - 44:13
    Extensions, z.B. das hier, dass sich
    merkwürdig verhält und sehr viele
  • 44:13 - 44:17
    URL-Aufrufe hat. Und hier haben wir bei
    einer genauen Analyse auch gesehen, dass
  • 44:17 - 44:21
    das entsprechende Plugin oder die
    Extension auch Daten an einen Drittserver
  • 44:21 - 44:25
    schickt, bei jeder aufgerufenen URL. Wobei
    man sagen muss, dass jetzt aus den 500
  • 44:25 - 44:30
    untersuchten Extension nur einige dabei
    waren, die wirklich eventuell schadhaftes
  • 44:30 - 44:34
    Verhalten zeigen. D.h. die
    Wahrscheinlichkeit, dass man sich mit
  • 44:34 - 44:37
    Extension infiziert, in dem man Sachen
    runterlässt aus dem Webstore ist aktuell
  • 44:37 - 44:44
    noch relativ gering, scheint aber größer
    zu werden. So, die letzte Frage ist
  • 44:44 - 44:49
    natürlich: Wie oder kann ich mich
    überhaupt gegen so etwas schützen? Und
  • 44:49 - 44:54
    ich denke, daß in einigen Jahren es trotz
    client-seitigen blockierens von Trackern
  • 44:54 - 44:58
    immer schwieriger sein wird sich als
    Nutzer anonym im Internet zu bewegen, weil
  • 44:58 - 45:02
    es, wie wir gesehen haben, anhand von
    einigen wenigen Datenpunkten möglich ist,
  • 45:02 - 45:06
    eine Identifikation von an sich
    anonymisierten Daten herzustellen.
  • 45:06 - 45:10
    Dh. selbst wenn ich mit einem Tracker
    oder eine Extension sämtliche Tracker
  • 45:10 - 45:13
    blockiere, habe ich immer noch solche
    Dinge wie: meine IP-Adresse, meinen
  • 45:13 - 45:17
    User-Agent und die Kombination aus
    mehreren solchen Eigenschaften kann schon
  • 45:17 - 45:21
    ausreichen, um mich wieder eindeutig zu
    identifizieren in größeren Datensätzen.
  • 45:21 - 45:26
    D.h. wenn ich wirklich sicher im Internet
    unterwegs sein möchte, müsste ich
  • 45:26 - 45:29
    zumindest darauf achten, dass ich
    möglichst viele dieser Eigenschaften
  • 45:29 - 45:33
    ständig rotiere und ändere in dem
    ich bspw. VPN-Lösungen benutze, die auch
  • 45:33 - 45:38
    rotierende IP-Adressen verwenden. Wobei
    das auch keine Garantie natürlich ist,
  • 45:38 - 45:42
    dass man nicht getrackt werden kann.
    D.h. es wird also immer schwieriger sich
  • 45:42 - 45:48
    im Internet zu bewegen, ohne dem Risiko
    der Deanonymisierung ausgesetzt zu sein.
  • 45:48 - 45:57
    S: Genau, was ist so das Ergebnis von der
    Recherche gewesen? Also WOT verschwand
  • 45:57 - 46:02
    relativ kurz nach der Veröffentlichung
    des Berichts zunächst mal aus dem
  • 46:02 - 46:09
    Chrome-Webstore und aus dem Mozilla-Store
    und es haben natürlich sehr viele Nutzer
  • 46:09 - 46:13
    wie verrückt Plugins deinstalliert.
    Deswegen können wir davon ausgehen, dass
  • 46:13 - 46:20
    auch der Datenstrom dann eingebrochen ist.
    Aber natürlich die Plugins, die weiterhin
  • 46:20 - 46:26
    installiert sind und Nutzer, die es jetzt
    nicht deinstalliert haben, da läuft es
  • 46:26 - 46:31
    natürlich weiter. Und auch inzwischen,
    jetzt ein paar Wochen nach der Recherche,
  • 46:31 - 46:40
    ist WOT wieder im Google-Chrome-Store
    verfügbar. So mein persönliches Fazit
  • 46:40 - 46:46
    daraus ist, ein Stück weit defend
    yourself. Sprich, Andreas hatte schon
  • 46:46 - 46:51
    angedeutet, man kann sich nicht auf die
    Stores verlassen, man muss sich ein Stück
  • 46:51 - 46:56
    weit selbst schützen und selbst
    überlegen, was kann ich tun um dieser
  • 46:56 - 47:01
    Überwachung zu entgehen. Ja, also wir
    sind recht am Ende von unserem Talk aber
  • 47:01 - 47:05
    trotzdem ganz wichtig nochmal der Dank an
    ein relativ großes Team was uns
  • 47:05 - 47:09
    unterstützt hat in dieser Zeit ja vor
    allem meine Kollegin die Jasmin Klofta
  • 47:09 - 47:12
    sitzt in der ersten Reihe, ja Dankeschön.
  • 47:12 - 47:18
    Applaus
  • 47:30 - 47:33
    Herald: So, wir haben noch ein wenig Zeit
    für Fragen.
  • 47:33 - 47:36
    Wer eine Frage hat, bewegt sich bitte zu
  • 47:36 - 47:45
    bitte zu einem der Mikrofone. So, ich sehe
    Bewegung. Aber ein paar flüchten erstmal.
  • 47:45 - 47:53
    War vielleicht doch nicht ganz so einfach
    für die Nichtdeutschsprachigen., aber sehr
  • 47:53 - 47:56
    spannend. Dahinten haben wir
    eine Frage an Mikrofon 6 bitte.
  • 47:56 - 48:02
    Mikrofon 6: Hallo, angenommen die Person,
    über die man die öffentlichen Daten
  • 48:02 - 48:06
    sammelt, ist nicht im Pool von den
    anonymisierten Daten. Dann gibts ja eine
  • 48:06 - 48:10
    Möglichkeit für einen False-Positive.
    Oder kann man das ausschließen?
  • 48:10 - 48:15
    A: Ja, natürlich gibt es auch die
    Möglichkeit von einem False-Positive. Das
  • 48:15 - 48:21
    das hängt natürlich immer ein bisschen von
    der Nutzung der Daten ab, ob das
  • 48:21 - 48:25
    problematisch ist oder nicht für den
    Anbieter. Es kann ja auch sein, wenn ich
  • 48:25 - 48:29
    Bspw. Nutzern Werbung anzeigen möchte, es
    vielleicht auch gut genug ist, wenn ich
  • 48:29 - 48:33
    den Nutzer mit einer Wahrscheinlichkeit
    von 10% schon identifiziere.
  • 48:33 - 48:35
    D.h. ich kann auch mit False-Positives
  • 48:35 - 48:36
    oder der Anbieter kann auch mit
  • 48:36 - 48:38
    False-Positives entsprechend leben.
  • 48:38 - 48:39
    Aber es ist natürlich immer die
  • 48:39 - 48:41
    Möglichkeit gegeben, das der Nutzer,
  • 48:41 - 48:43
    wenn er nicht in dem Datensatz vorhanden
  • 48:43 - 48:45
    ist, auch entsprechend identifiziert wird,
  • 48:45 - 48:49
    obwohl gar nicht drin ist. Und das kann
    natürlich für den Nutzer selber zu großen
  • 48:49 - 48:51
    Problemen führen. Wenn ich da Bspw. an
    Credit-Scoring denke,
  • 48:51 - 48:52
    über Machinelearning,
  • 48:52 - 48:56
    wo ich also vielleicht mit jemandem in
    Verbindung gebracht werde, der ich gar
  • 48:56 - 49:00
    nicht bin und Datenpunkte, die ich nicht
    kontrollieren kann, entsprechend meine
  • 49:00 - 49:03
    Kreditwürdigkeit dann beeinflussen kann.
  • 49:03 - 49:07
    Herald: Gut, an Mikro 3 bitte.
  • 49:07 - 49:13
    Mikrofon 3: Meine persönliche Frage ist,
    was genau kostet das? Also kann sich eine
  • 49:13 - 49:18
    kleinere, mittelgroße, Privatdetektei die
    auf Datenschutz scheißt, können die sich
  • 49:18 - 49:19
    Zugang holen?
  • 49:19 - 49:24
    S: Ja, weiß nicht was die für ein Budget
    haben aber diese Daten werden lizensiert.
  • 49:24 - 49:30
    I.d.R. zahlt man für die Lizenz so für
    einen Monat und im Jahr ist das so
  • 49:30 - 49:34
    im 6-stelligen Bereich.
  • 49:34 - 49:37
    Mirofon 2:
    Sie hatten von den 10 Schlimmsten
  • 49:37 - 49:39
    gesprochen, aber die Liste vergessen.
  • 49:39 - 49:41
    Lachen
    Applaus
  • 49:41 - 49:45
    A: Den 10 Schlimmsten, ach so, ja.
  • 49:45 - 49:48
    Applaus
    S: lachen genau
  • 49:48 - 49:51
    A: Also wir haben auch lange überlegt ob
    wir die Extensions entsprechend
  • 49:51 - 49:55
    veröffentlichen können, wir haben
    allerdings noch keine Zeit gehabt jetzt
  • 49:55 - 49:58
    eine detaillierte Analyse zu machen. Und
    ich möchte keine Namen jetzt nennen von
  • 49:58 - 50:02
    Dingen, wo sich am Ende herausstellt, dass
    es eigentlich gar nicht problematisch ist.
  • 50:02 - 50:04
    Wir werden auf jeden Fall dran
    bleiben und versuchen alle von diesen
  • 50:04 - 50:08
    Extension, die in dem Datensatz drin sind
    zu identifizieren. Aber wir wollen
  • 50:08 - 50:12
    natürlich eine Gewissheit haben, dass auch
    entsprechend wir die korrekten Extensions
  • 50:12 - 50:15
    rausfiltern können, bevor wir
    die Namen dann veröffentlichen.
  • 50:15 - 50:21
    Applaus
  • 50:21 - 50:24
    Herald: So, wir haben auch Fragen aus dem
    Internet. Eine mal dazwischen.
  • 50:24 - 50:31
    Signal Engel: Also ich nehme jetzt mal ein
    paar Fragen aus dem Internet zusammen.
  • 50:31 - 50:35
    Im wesentlichen lässt sich das
    runterdampfen auf: Gibt es irgendwelche
  • 50:35 - 50:39
    technischen, juristischen oder sonstwie
    gearteten Mittel um sich davor zu
  • 50:39 - 50:44
    schützen, oder dagegen vorzugehen? Oder
    wurde da schon versucht da z.B. zu klagen?
  • 50:44 - 50:46
    A: Möchtest du das beantworten?
  • 50:46 - 50:50
    S: Ja, also einen Teil kann ich
    beantworten. Also jetzt von unseren
  • 50:50 - 50:55
    Betroffenen hat da noch niemand geklagt.
    So technisch gibt es natürlich
  • 50:55 - 50:58
    Möglichkeiten sich zu schützen.
    Zumindest ein gutes Stück weit.
  • 50:58 - 51:02
    A: Ja, es gibt für den Nutzer natürlich
    bedingte Möglichkeiten sich zu schützen.
  • 51:02 - 51:06
    Das Problem ist ja, das viele Nutzer das
    Problem gar nicht kennen oder nicht sich
  • 51:06 - 51:09
    bewusst sind, dass ihre Daten entsprechend
    gesammelt werden. Da ist also im
  • 51:09 - 51:12
    Zweifelsfall die Verantwortung bei den
    Browser-Herstellern und wir sind auch ein
  • 51:12 - 51:15
    bisschen enttäuscht darüber, dass
    Web-Of-Trust wieder in dem Chrome-Store
  • 51:15 - 51:19
    drin ist und auch weiterhin fleißig Daten
    sammelt. Und auch die entsprechenden
  • 51:19 - 51:20
    Extensions, die schon vorher installiert
  • 51:20 - 51:23
    wurden, auch nicht entfernt wurden in dem
  • 51:23 - 51:24
    Sinne. D.h. im Zweifelsfalle ist wirklich
  • 51:24 - 51:26
    der Hersteller des Browsers am besten in
  • 51:26 - 51:29
    der Lage, den Nutzer vor solcher
    Schadsoftware zu schützen, indem er ein
  • 51:29 - 51:33
    korrektes Auditing von den Extensions
    durchführt, bevor sie in dem Store landen
  • 51:33 - 51:35
    und auch entsprechende Extensions,
  • 51:35 - 51:37
    die gegen diese Bedingungen verstoßen
  • 51:37 - 51:38
    schnell wieder entfernt.
  • 51:38 - 51:42
    S: Und es macht auch Sinn sich mal
    verschiedene Browser, Browseranbieter
  • 51:42 - 51:47
    anzuschauen, weil es gibt ja auch neben
    den Großen Kleinere, die noch mal mehr Wert
  • 51:47 - 51:51
    legen eben darauf, dass man z.B. gar
    keine Plugins installieren kann.
  • 51:51 - 51:57
    Herald: An Nummer 5 bitte.
  • 51:57 - 52:02
    Mikrofon 5: Gibt es die Möglichkeit, dass
    ihr die Liste, die ihr für eure Recherche
  • 52:02 - 52:06
    erstellt habt, von Unternehmen die Daten
    verkaufen, veröffentlicht. Quasi als
  • 52:06 - 52:11
    not-to-work-for-Liste. Ich mein unsereins
    baut ja im Zweifelsfall irgendwelchen
  • 52:11 - 52:14
    Scheiß, also liegt es
    auch an uns es zu lassen.
  • 52:14 - 52:18
    Applaus
  • 52:18 - 52:24
    S: Ja, es fehlt natürlich ein Name, hier
    in diesem ganzen Vortrag. Der Name des
  • 52:24 - 52:26
    Datenhändlers oder auch tatsächlich die
  • 52:26 - 52:28
    Namen der Firmen mit denen ich auch ein
  • 52:28 - 52:29
    bisschen ernsthafter ins Geschäft
    gekommen bin.
  • 52:29 - 52:31
    Das sind eigentlich juristische
  • 52:31 - 52:34
    Gründe, warum wir das nicht
    veröffentlichen können oder dürfen.
  • 52:34 - 52:37
    Einfach, ehrlich gesagt aus Furcht vor
  • 52:37 - 52:42
    diesen Unternehmen, aus sozusagen
    Angst vor Klagen, die da kommen können.
  • 52:42 - 52:47
    Und deshalb sieht es
    zumindest im Moment so aus, als dürften
  • 52:47 - 52:51
    wir die Namen nicht veröffentlichen. Aber
    das ist noch work-in-progress sage ich mal.
  • 52:51 - 52:54
    Zwischenruf

    Wikiwleaks
  • 52:54 - 52:54
    Lachen
  • 52:54 - 53:00
    Applaus
  • 53:00 - 53:03
    Engel: Mikro 1
  • 53:03 - 53:08
    Mikrofon 1: So einer der Klassiker ist ja
    JavaScript aus und Cockies aus und nur für
  • 53:08 - 53:12
    irgendwie bestimmte Seiten, denen man
    vertraut, zulassen. Jetzt sagen Sie aber
  • 53:12 - 53:16
    auch... Aber wie weit würden Sie denn
    kommen, wenn man jetzt wirklich sowas
  • 53:16 - 53:21
    wegnimmt und nur über ip-basierte Daten
    und sowas, wie weit würde man da mit der
  • 53:21 - 53:22
    Deanonymisierung kommen?
  • 53:22 - 53:26
    A: Also meines Wissens setzen viele
    Anbieter bereits Verfahren ein die
  • 53:26 - 53:29
    eigentlich nicht mehr auf Cockies
    basieren, also nur noch, wenn diese
  • 53:29 - 53:33
    verfügbar sind und die statt dessen auf
    anderen Identifikationsmerkmalen basieren
  • 53:33 - 53:38
    die entsprechend schwerer zu ändern sind.
    Bspw: der IP-Adresse, der Device-ID oder
  • 53:38 - 53:42
    anderen IDs, die entsprechend fix sind und
    getrackt werden können über die Zeit.
  • 53:42 - 53:47
    D.h. ist relativ einfach zumindest mit
    einer hohen Wahrscheinlichkeit möglich
  • 53:47 - 53:51
    Nutzer über verschiedene Endgeräte zu
    identifizieren. Und ich kann mich
  • 53:51 - 53:55
    natürlich über das Client-Seitige
    Browser-Tracking schützen, aber das heißt
  • 53:55 - 53:59
    nicht, dass ich mich gegen diese anderen
    Tracking-Maßnahmen auch schützen kann.
  • 53:59 - 54:01
    Engel: Mikro 6.
  • 54:01 - 54:10
    Mikrofon 6: Zur Deanonymisierung. Ist es
    möglich, so Deanonymisierung, stark zu
  • 54:10 - 54:17
    erschweren oder zu verhindern durch so
    Methoden wie Differential Privacy?
  • 54:17 - 54:21
    A: Ja, dass ist in bestimmten Kontexten
    anwendbar. Hier bei den Daten ist das
  • 54:21 - 54:25
    Problem, dass ich selbst als Nutzer
    eigentlich nicht kontrolliere, was ich von
  • 54:25 - 54:29
    mir generiere, weil die Daten entweder
    unbewusst oder ohne meine Zustimmung
  • 54:29 - 54:34
    erhoben werden. D.h. das einzige was ich
    tun kann als Nutzer ist zusätzlich
  • 54:34 - 54:38
    Datenenpunkte zu liefern, ich habe aber
    keine Möglichkeit Datenpunkte zu fälschen
  • 54:38 - 54:43
    oder nur in sehr geringem Umfang zumindest
    oder auch Datenpunkte wieder zu entfernen.
  • 54:43 - 54:49
    D.h. in dem Sinne wäre das vermutlich eher
    weniger angebracht aber klar im
  • 54:49 - 54:52
    Zweifelsfall ist es immer besser möglichst
    wenige Informationen rauszugeben.
  • 54:52 - 54:55
    Obwohl eigentlich schon ausreicht wenige
  • 54:55 - 54:59
    kleine Informationsschnipsel zu haben,
    die man dann relativ schnell auch
  • 54:59 - 55:01
    zusammen fügen kann, wie wir gesehen
    haben.
  • 55:01 - 55:03
    D.h. es ist auch wirklich schwer
    abzuschätzen und
  • 55:03 - 55:05

    hängt auch immer sehr stark von der Natur
  • 55:05 - 55:10
    des Datensatzes ab, wie verräterisch
    einzelne Datenpunkte von mir sein können.
  • 55:10 - 55:13
    Engel: Mikro 5.
  • 55:13 - 55:18
    Mikrofon 5: Ich würde gerne ein bisschen
    eine naive Frage stellen. Wieso ist das
  • 55:18 - 55:23
    eigentlich quasi möglich oder erlaubt,
    also die juristische Frage. Und auf der
  • 55:23 - 55:27
    anderen Seite, scheint mir doch ein
    gewisses Gefälle zu sein zu dem, was auf
  • 55:27 - 55:32
    der einen Seite gemacht wird und sie die
    jetzt Sorge haben, diese Namen zu nennen,
  • 55:32 - 55:35
    auf der anderen Seite, da scheint es mir
    ein gewisses juristisches Gefälle
  • 55:35 - 55:38
    zu geben, das ich gerne verstehen würde.
  • 55:38 - 55:44
    Applaus
  • 55:44 - 55:48
    S: Sehr gute Frage, vielen Dank dafür. Wir
    haben tatsächlich diesen juristischen
  • 55:48 - 55:51
    Aspekt für diesen Vortrag ein Stück weit
    ausgeklammert.
  • 55:51 - 55:53
    Und der ist aber trotzdem hochspannend.
  • 55:53 - 55:58
    Und wir haben viele Gespräche mit
    Datenschützern darüber geführt,
  • 55:58 - 56:02
    mit Juristen darüber geführt und haben
    tatsächlich auch Paragraphen gewälzt weil
  • 56:02 - 56:06
    uns genauso diese Frage beschäftigt hat,
    kann das überhaupt erlaubt sein. Also
  • 56:06 - 56:11
    zumindest was man für Deutschland sagen
    kann, das ist nicht erlaubt. Und zwar ganz
  • 56:11 - 56:15
    einfach aus dem Grund, weil keiner der
    Nutzer irgendwo dazu zugestimmt hat. Also
  • 56:15 - 56:19
    keiner der Nutzer hat, die wir besucht
    haben, hat irgendwo irgendwas angeklickt:
  • 56:19 - 56:23
    „Ja ich möchte bitte, dass meine Daten in
    diesem Umfang...“ Keiner. Und das kann
  • 56:23 - 56:30
    sogar nach Aussage vom Datenschützer
    eventuell strafrechtlich relevant sein,
  • 56:30 - 56:39
    also sprich in Richtung Abhören gehen.
    Bislang hat sich noch niemand berufen
  • 56:39 - 56:46
    gefühlt, da tatsächlich Klage oder Anklage
    zu führen. Was wir jetzt sozusagen machen
  • 56:46 - 56:50
    trägt ja vielleicht dazu bei, dass es mal
    eine Eingabe gibt beim Datenschützer und
  • 56:50 - 56:52
    dass tatsächlich sich auch
    mal jemand dahinter klemmt.
  • 56:52 - 56:56
    A: Gerade bei Ausländischen Unternehmen
    ist es natürlich immer sehr schwierig
  • 56:56 - 57:00
    auch entsprechend eine Handhabe zu
    bekommen, um die auch juristisch belangen
  • 57:00 - 57:04
    zu können. D.h. da ist auch nochmal
    sicherlich ein Gefälle vorhanden und auch
  • 57:04 - 57:09
    die Strafen, die Unternehmen im
    Zweifelsfall drohen, sind im Vergleich zu
  • 57:09 - 57:13
    dem Schaden, der oder zu dem Risiko, das
    Jemand eingeht, indem er diese Dinge
  • 57:13 - 57:17
    veröffentlicht, eigentlich relativ gering.
    Weswegen es auch relativ wenig zu solchen
  • 57:17 - 57:18
    Dingen kommt, denken wir.
  • 57:18 - 57:21
    Engel: Gut, ich denke wir haben
    noch Zeit für zwei Fragen.
  • 57:21 - 57:23
    Wir haben noch eine
    aus dem Internet.
  • 57:23 - 57:27
    Signal Engel: Das Internet lässt fragen,
    in wie fern man sein eigenen
  • 57:27 - 57:30
    Informationen, sofern sie auftauchen, von
    euch bekommen kann oder auch nicht.
  • 57:30 - 57:33
    A: Uh... schwierige Frage.
  • 57:33 - 57:34
    Applaus
  • 57:34 - 57:41
    S: Das ist recht einfach die Antwort. Gar
    nicht. Die Daten gibts nicht mehr. Sorry.
  • 57:41 - 57:42
    Applaus
  • 57:42 - 57:50
    Herald:
    Kommen wir zu unserer letzten Frage.
  • 57:50 - 57:57
    Mikrofon: Ja, also, Hallo, hört man das?
    Ok. Ich bin dann immer ein Freund von
  • 57:57 - 58:02
    Selbstverteidigung und so wie sie sagten,
    aber die Frage ist, ist das überhaupt
  • 58:02 - 58:06
    möglich? Also ich würde sagen, dass Thema
    ist so komplex, dass sich wahrscheinlich
  • 58:06 - 58:10
    die meisten, die hier sind, nur dann
    schützen können, wenn sie wirklich viel
  • 58:10 - 58:17
    Zeit reinstecken in diese Arbeit. Und ich
    frage mich: meine Mutter, mein Vater, mein
  • 58:17 - 58:19
    Onkel, wie sollen die
    sich vor sowas schützen?
  • 58:19 - 58:22
    A: Willst du oder soll ich?
    S: Ja, mach ruhig.
  • 58:22 - 58:26
    A: Ja, das ist das Problem, dass ich auch
    eben kurz angesprochen habe. Und zwar,
  • 58:26 - 58:30
    dass viele Nutzer auch gar nicht wissen,
    dass sie getrackt werden und auch nicht
  • 58:30 - 58:34
    die technischen Kenntnisse haben, um sich
    effektiv gegen sowas zu schützen. Wir
  • 58:34 - 58:38
    haben ja gesehen, obwohl die Leser von
    Fefes-Blog eher technik-affin sind, gibts
  • 58:38 - 58:42
    immer noch 3.000 Nutzer, die in dem
    Datensatz auftauchen, die also auch
  • 58:42 - 58:46
    getrackt wurden in dem Sinne. D.h. dass
    selbst Leute mit IT-Kenntnissen und
  • 58:46 - 58:50
    IT-Sicherheitserfahrung sind nicht dagegen
    gefeit auch entsprechend getrackt zu
  • 58:50 - 58:54
    werden. Weil es auch unglaublich schwierig
    ist, auch für mich, sämtliche Methoden
  • 58:54 - 58:58
    nachzuvollziehen und immer auf dem
    aktuellen Stand zu sein. Und es ist auch
  • 58:58 - 59:02
    sehr schwer abschätzbar, was man mit den
    Daten eigentlich machen kann. Also es
  • 59:02 - 59:06
    stimmt wirklich, ja, es ist wirklich, es
    gibt keine gute Lösung momentan dafür.
  • 59:06 - 59:11
    Herald: So es gibt zwar noch weitere
    Fragen aber die Zeit ist leider vorbei.
  • 59:11 - 59:15
    Wer noch fragen an die Beiden hat, kann
    hier gleich einfach kurz nach vorne
  • 59:15 - 59:18
    kommen. Erstmal möchte ich mich aber
    herzlich bei euch beiden für diesen
  • 59:18 - 59:20
    spannenden und interessanten
    Vortrag bedanken.
  • 59:20 - 59:37
    Applaus
  • 59:37 - 59:43
    Abspannmusik
  • 59:43 - 60:01
    Untertitel erstellt von c3subtitles.de
    im Jahr 2017. Mach mit und hilf uns!
Title:
Build your own NSA (33C3)
Description:

https://media.ccc.de/v/33c3-8034-build_your_own_nsa

How private companies leak your personal data into the public domain, and how you can buy it.

When thinking about surveillance, everyone worries about government agencies like the NSA and big corporations like Google and Facebook. But actually there are hundreds of companies that have also discovered data collection as a revenue source. We decided to do an experiment: Using simple social engineering techniques, we tried to get the most personal you may have in your procession.

['Andreas Dewes', '@sveckert']

more » « less
Video Language:
German
Duration:
01:00:01

German subtitles

Revisions