Build your own NSA (33C3)

0:00 - 0:13

33C3 Vorspannmusik
0:13 - 0:19

Herald: Ich habe vorhin erzählt, dass
Snowden uns heute zugeschaltet wurde und
0:19 - 0:30

er hat uns aufgerufen, etwas zu tun. Heute
hören wir hier einen Talk, und zwar „build
0:30 - 0:37

your own NSA“ – „baue deine eigene NSA“.
Geheimdienste sammeln Daten, aber sie sind
0:37 - 0:42

nicht die Einzigen. Es gibt auch die so
genannten Datenkraken – an wen denken wir
0:42 - 0:49

da alle? An Google, an Facebook. Wer hier
hat einen Google-Account, Hände hoch,
0:49 - 1:01

traut euch! Des sind ganz schön viele. Wer
hat einen Facebook-Account? Es sind
1:01 - 1:07

allerdings nicht nur die großen Firmen wie
Facebook oder Google, die Daten sammeln.
1:07 - 1:12

Es sind auch die kleineren Firmen oder
unbekannte, wo wir die Namen noch nie
1:12 - 1:15

gehört haben und Leute, wo wir es nicht
erwarten, wie zum Beispiel ich auf der
1:15 - 1:19

Bühne. Ich weiß jetzt wer einen Google-
und wer einen Facebook-Account bei euch
1:19 - 1:22

hat. Vielen Dank für die Info.
1:22 - 1:26

Diese Firmen, oder auch ich,
könnte jetzt hingehen,
1:26 - 1:32

diese Daten tauschen oder einfach
an die Leute die zahlen, verkaufen.
1:32 - 1:37

Mein kleines Experiment hier war
ziemlich lächerlich und natürlich banal,
1:37 - 1:44

aber Svea Eckert und Andreas
Dewes haben ein größeres
1:44 - 1:50

Experiment gemacht mit einfachen Techniken
des Social Engineerings und rausgefunden,
1:50 - 1:55

was für Daten gesammelt werden können.
In diesem Talk werden sie uns nicht nur
1:55 - 2:01

erzählen, wer, warum und wie Daten sammelt
sondern ob es auch noch eine Möglichkeit
2:01 - 2:08

gibt, unsere Privatsphäre zu schützen.
Andreas ist Data Scientist und entwickelt
2:08 - 2:15

Technologien, damit wir Wissen aus
Daten extrahieren können. Svea ist
2:15 - 2:21

freiberufliche Journalistin und
recherchiert IT-Themen und berichtet
2:21 - 2:25

darüber für die Tagesschau und die
Tagesthemen. Sie hat auch mitgewirkt bei
2:25 - 2:32

Dokumentationen zu Themen wie Wikileaks,
Facebook und dem NSA-Skandal, wo gerade
2:32 - 2:37

Edward Snowden einen großen Teil
eingenommen hat. Ich freue mich herzlich,
2:37 - 2:42

die beiden hier zu begrüßen und bitte euch
jetzt um einen ganz, ganz lauten Applaus
2:42 - 2:45

für die beiden und wünsche
euch allen viel Spaß.
2:45 - 2:50

Applaus
2:50 - 2:57

Svea Eckert: Danke.
Andreas Dewes: Ja, hallo zusammen, also
2:57 - 3:02

wir freuen uns natürlich, dass wir hier
sein dürfen heute, ich hab wie gesagt die
3:02 - 3:05

Datenanalyse für die Recherche
hier gemacht und darf mich daher
3:05 - 3:08

erstmal entspannen jetzt und
übergebe dann das Wort an Svea.
3:08 - 3:13

S: Ja ich bin Svea Eckart, arbeite für den
NDR, beziehungsweise die ARD, und wir haben
3:13 - 3:16

’ne große Recherche gemacht, die ging
über den ganzen Sommer und mündete in
3:16 - 3:20

der relativ aufsehenerregenden
Berichterstattung Anfang November unter
3:20 - 3:27

dem Hashtag #NacktImNetz – der Eine oder
Andere hat vielleicht dazu sogar was
3:27 - 3:34

gesehen. Was wir wissen: Also: Wir wissen,
dass, wenn wir uns im Netz bewegen dass
3:34 - 3:40

Firmen das mitbekommen. Dass Firmen unser
Verhalten aufzeichnen und zumindest ein
3:40 - 3:46

Stück weit sind da verschiedene Parteien
beteiligt, die sehen, auf welcher Webseite
3:46 - 3:52

wir z. B. sind. Also hier jetzt mit einem
kleinen Tool, nur so kurz analysiert, sind
3:52 - 3:58

das jetzt 68 Parteien, die wissen, dass
ich auf dieser Webseite bin und die zum
3:58 - 4:03

Teil auch die Möglichkeit haben, mich
durchs Netz zu verfolgen. Ich denke, jeder
4:03 - 4:10

hier im Publikum weiß das und – also das
ist bekannt. Trotzdem stört es die
4:10 - 4:15

Allerwenigsten Also die allermeisten
Internetnutzer sagen „Ich habe doch nichts
4:15 - 4:20

zu verbergen“ „Da wird schon nichts böses
damit passieren, die machen ja nichts
4:20 - 4:24

mit meinen Daten, is ja sowieso nur für
Werbezwecke“ Und wenn man mal in der
4:24 - 4:31

Industrie nachfragt, dann ist die Aussage
„Also diese Daten werden total gut
4:31 - 4:36

anonymisiert“ „Da stecken wir ganz,
ganz großen Aufwand rein“ „Und
4:36 - 4:45

verkaufen? Das macht niemand!“ „Sowas
würde niemand tun“ Wirklich? Das
4:45 - 4:50

wollten wir genauer wissen: Wie komme
ich an solche Daten? Ich gründe eine
4:50 - 4:57

Firma. Ich habe also im Juli eine
Webseite aufgesetzt – das ist relativ
4:57 - 5:04

trivial. Content Management System, paar
schöne Fotos, Stockphotos und ein
5:04 - 5:09

bisschen Marketing-Sprech. Meine Firma
„Meez Technology“, die Vereinigung von
5:09 - 5:18

Technologie und Kreativität, macht
Data-Driven-Consulting und bot Kunden an,
5:18 - 5:22

Customized-Campaigns zu machen.
Was brauchen wir dafür? Ganz viele
5:22 - 5:28

Nutzer-Daten. Und diese Nutzer-Daten, an
die wollte ich gelangen. Da brauchte ich
5:28 - 5:34

eine tatkräftige Mitarbeiterin, hier ist
sie. Ich habe sie mitgebracht: Anna.
5:34 - 5:42

“Hello, Anna Rosenberg speaking! Hello,
hello?” Anna Rosenberg arbeitet also für
5:42 - 5:47

Meez Technology, sitzt in Tel Aviv,
5:47 - 5:50

spricht kein Wort Hebräisch,
konnte ich mir dann
5:50 - 5:53

nicht aneignen für die Recherche,
war aber nicht schlimm,
5:53 - 5:56

hat auch niemand nachgefragt
5:56 - 5:59

und ich hatte Tel Aviv ausgesucht,
obwohl ich die Stadt eigentlich
5:59 - 6:03

gar nicht kenne, aber ich hatte
Tel Aviv ausgesucht, weil mir
6:03 - 6:06

jemand sagte, Israel sei
ziemlich gut für Daten,
6:06 - 6:10

da wär man nicht so spitzfindig und ich
sollte ja kein deutsches Unternehmen
6:10 - 6:14

gründen sonst würde ich gar nichts
bekommen. Also habe ich Meez Technology in
6:14 - 6:20

Israel angesiedelt und Anna Rosenberg
hat sich auf Telefon-Jagd gemacht.
6:20 - 6:24

Das waren die Firmen, die in
Frage kamen. Die Firmen, die
6:24 - 6:30

von uns Internetnutzern Daten
sammeln, die Daten verarbeiten.
6:30 - 6:36

Meine Frage an diese Firmen war,
ob sie mir als junges, aufstrebendes
6:36 - 6:41

Startup ihre Daten verkaufen würden.
Oder viel eher noch, ob sie mir ein
6:41 - 6:46

kostenloses Sample geben würden,
weil ohne ein kostenloses Sample könnte
6:46 - 6:50

ich die Qualität der Daten gar nicht
beurteilen. Ich habe ziemlich viele von
6:50 - 6:55

diesen Firmen angerufen, angeschrieben,
deren Webseiten mir angeschaut. Ihr seht
6:55 - 7:01

dass es ein gigantisches Universum ist und
es sind noch längst nicht alle. Besonders
7:01 - 7:07

interessant sind diese Firmen hier. Die
machen sozusagen, die analysieren den
7:07 - 7:14

Internetmarkt, reichern Daten an, das sind
so ziemlich wichtige Player in diesem
7:14 - 7:16

ganzen Spiel. Weil um den Internetmarkt
zu analysieren,
7:16 - 7:19

brauchen die sehr viele Daten.
7:19 - 7:23

Und, Ja, der eine oder andere war dann
auch tatsächlich bereit,
7:23 - 7:27

mir ein kostenloses Sample
zur Verfügung zu stellen,
7:27 - 7:30

damit ich die Güte, die Qualität
seiner Daten
7:30 - 7:37

einordnen konnte. Also ein kostenloses
Sample. Dieses Sample kam dann auch. Also
7:37 - 7:42

eines ist besonders groß, deswegen ist es
auch das, worüber wir dann sprechen.
7:42 - 7:49

Was war da drin? Also wir hatten 14
Tage so eine Art quasi Live-Zugriff auf
7:49 - 7:54

Nutzerdaten. Sprich: Nutzerdaten, die sich
immer wieder aktualisiert haben, die immer
7:54 - 8:03

wieder frisch waren. Das waren 3 Millionen
deutsche Nutzer in diesem Datensatz und
8:03 - 8:09

das waren sozusagen die
Klickstream-Daten von einem Monat.
8:09 - 8:16

Das Klick-Stream ist sozusagen das
Buzzword für Browser-History.
8:16 - 8:20

Am Anfang sind wir relativ explorativ
mit diesem Datensatz umgegangen
8:20 - 8:26

haben einfach mal ge-grep-t, und mal
geschaut was passiert denn, wenn wir in
8:26 - 8:31

diesem Datensatz nach @polizei.de suchen.
Ich setz meine Brille wieder ab, weil
8:31 - 8:40

Annas Teil ist nämlich jetzt durch. So,
alles was ge-x-t ist, hab ich gemacht, um
8:40 - 8:46

die Privatsphäre dieser Person zu
schützen. So sieht das dann aus, wenns ein
8:46 - 8:54

bisschen aufbereitet ist. Man sieht jetzt
hier z. B. 01.08.2016 05:17 Uhr: Rechner
8:54 - 9:01

an, Google. Dann wird relativ schnell nach
einem Auto geschaut. 05:30 Uhr: Das habe
9:01 - 9:04

ich jetzt mal offen gelassen, kann man
dann auch alles gleich eingeben.
9:04 - 9:08

Ah, alles klar, er sucht einen Volkswagen
9:08 - 9:16

in der und der Kategorie. Interessant.
Gut, jetzt wollen wir natürlich wissen:
9:16 - 9:21

Was hat der mit der Polizei zu tun?
Was für ein Mensch steckt
9:21 - 9:28

hinter diesen Daten? Und wenn man jetzt
sozusagen sich da mal ein bisschen durch
9:28 - 9:33

scrollt durch diese Daten – ich hab das
jetzt als Screen-Video gemacht, damit man
9:33 - 9:38

mal so ein bisschen auch besser die
Dimensionen begreifen kann, wie groß die
9:38 - 9:43

Tiefe dieser Daten ist und wie intensiv
die sind. Man kann also gucken: Was liest
9:43 - 9:49

der, was sucht der und irgendwann ist er
mal auf der Webseite von der deutschen
9:49 - 9:57

Polizeigewerkschaft und auf dem deutschen
Beamtenbund. Könnte ja ein Polizist sein.
9:57 - 10:01

Schauen wir doch mal nach so einem
typischen Wort wie Ermittlungsverfahren
10:01 - 10:13

Ah! Ok. Ein Google-Translate-Link.
Gelächter + Applaus
10:13 - 10:20

Schauen wir doch mal. Schmeißen wir
es mal in den Decoder. Da ist es!
10:20 - 10:23

„Sehr geehrte Damen und Herren,
im Rahmen eines hier bearbeiteten
10:23 - 10:26

Ermittlungsverfahrens wegen
Computerbetrugs“ – Aktenzeichen habe ich
10:26 - 10:31

jetzt rausgenommen – „benötige ich
Bestandsdaten zu folgender IP-Adresse“
10:31 - 10:37

– habe ich rausgenommen – Zeitstempel
Und netterweise hat dieser Nutzer in
10:37 - 10:42

Google-Translate auch seine
E-Mail-Adresse mit übersetzen lassen,
10:42 - 10:48

seinen Vor- und Nachnamen, den Ort und
die Telefonnummer … So.
10:48 - 10:55

Applaus
10:55 - 11:02

Wir können jetzt schauen: Was erfahren wir
über diesen Menschen in diesen Daten?
11:02 - 11:09

Können also noch mal weiter
scrollen durch sein Leben im Netz.
11:09 - 11:16

Und sehen, dass er arbeitet,
also sehen, ungefähr, dass er
11:16 - 11:22

Malware-Submissions macht z. B., dass er
IP-Adressen verfolgt, aber auch, dass er
11:22 - 11:26

SWR hört und natürlich so die
11:26 - 11:29

Peinlichkeiten im Leben
11:29 - 11:47

Lachen - Applaus
11:47 - 11:52

Sind da natürlich auch drin.
11:52 - 11:55

Jetzt haben wir nur mal nach
@polizei.de gesucht.
11:55 - 11:59

Was wäre, wenn wir mal hier gucken?
11:59 - 12:00

Haben wir auch gemacht.
12:00 - 12:02

So sieht dann so eine Abfrage aus.
12:02 - 12:08

Wenn man das so, sag ich mal
so, explorativ einfach macht wie wir das
12:08 - 12:12

gemacht haben. Wichtig ist das, was
zwischen den Anführungszeichen steht.
12:12 - 12:17

Man sagt mit diesem Befehl dem Computer:
Gib mir alles, gib mir jeden Nutzer, der
12:17 - 12:20

jemals diese Webseite besucht hat.
12:20 - 12:22

Und man sieht also, dass auch Leute
12:22 - 12:23

die, ich würde mal sagen,
12:23 - 12:25

sicherheitskritisch sind,
12:25 - 12:30

in diesen Daten drin sind.
12:30 - 12:32

Was passiert nur, wenn man all diese
12:32 - 12:35

Nutzer deanonymisieren würde?
12:35 - 12:39

Könnte man sie denn
alle deanonymisieren?
12:40 - 12:45

Andreas: Ja, wie wir gesehen
haben, ist es im besten Fall etwas
12:45 - 12:48

peinlich, wenn man als Nutzer in solchen
Daten identifiziert wird.
12:48 - 12:49

Schlimmstenfalls kann es auch gefährlich
12:49 - 12:51

sein für die eigene Person.
12:51 - 12:53

Deswegen möchte ich in den nächsten
12:53 - 12:54

15 min ein bisschen darauf eingehen,
12:54 - 12:56

was Deanonymisierung eigentlich heißt,
12:56 - 12:58

wie das funktioniert und was das
12:58 - 12:59

Problem dabei ist.
12:59 - 13:02

Dafür können wir anfangen
mit dem Datensatz.
13:02 - 13:04

Also es gibt immer einen Datensatz
13:04 - 13:08

von anonymisierten Nutzerdaten am Anfang,
13:08 - 13:09

den man analysieren möchte
13:09 - 13:12

und dieser Datensatz enthält
13:12 - 13:12

viele verschiedene Eigenschaften und
13:12 - 13:15

einige von diesen Eigenschaften zumindest
13:15 - 13:16

sind sensitiv, das heißt, sie sind nach
13:16 - 13:19

Datenschutzrecht geschützt und dürfen
13:19 - 13:23

nicht mit einer bestimmten Person
verknüpft werden, weswegen der Datensatz
13:23 - 13:24

ja im Endeffekt auch anonymisiert wurde.
13:24 - 13:27

Und statt einer Zuordnung zu einer
13:27 - 13:29

konkreten Person hat man diesen
13:29 - 13:31

Datensätzen daher einfach beispielsweise
13:31 - 13:32

eine numerische ID oder einen Identifier,
13:32 - 13:35

der keine Rückschlüsse—im Idealfall—auf
13:35 - 13:37

die wirkliche Person, die sich hinter den
13:37 - 13:40

Daten verbirgt, erlaubt.
13:40 - 13:42

Auf der anderen Seite habe ich aber auch
13:42 - 13:44

öffentliche Informationen z. B. aus
13:44 - 13:45

dem Internet oder anderen Quellen,
13:45 - 13:48

die ich mir frei zusammensuchen kann und
13:48 - 13:50

und solche öffentlichen Informationen
13:50 - 13:52

enthalten auch Eigenschaften von Personen
13:52 - 13:54

und enthalten zudem oft den Namen oder
13:54 - 13:58

andere Identifikationsmerkmale der Person,
13:58 - 14:00

die also Rückschlüsse auf die wirkliche
Person zulassen.
14:00 - 14:03

Und Deanonymisierung beinhaltet in diesem
14:03 - 14:08

Sinne eine Suche nach Eigenschaften,
die ich in beiden
14:08 - 14:13

Datensätzen entweder direkt oder indirekt
identifizieren kann und die mir erlauben,
14:13 - 14:18

aufgrund von beispielsweise statistischen
Verfahren oder machine learning die
14:18 - 14:23

möglichen Kandidaten aus dem
anonymisierten Datensatz so weit zu
14:23 - 14:27

reduzieren, dass ich mit entweder
absoluter Sicherheit oder mit relativ
14:27 - 14:30

hoher Wahrscheinlichkeit sagen kann,
dass ein Nutzer, den ich hier in den
14:30 - 14:34

öffentlichen Daten gefunden habe,
dem Nutzer
14:34 - 14:36

in dem anonymisierten Datensatz
entspricht.
14:36 - 14:40

In dem Sinne habe ich diesen
User dann deanonymisiert.
14:44 - 14:46

Wie Svea gesagt hatte, ist der Datensatz,
14:46 - 14:47

den wir bekommen haben, absolut
14:47 - 14:50

unzureichend anonymisiert worden,
14:50 - 14:54

d. h., das war sehr, sehr einfach
möglich, aus den URL-Daten, die wir
14:54 - 14:58

erhalten haben, entsprechende Nutzer
und Personennamen zu extrahieren.
14:58 - 15:01

Im Zweifelsfall hat dafür eine einzige URL
ausgereicht.
15:01 - 15:03

Hier habe ich zwei Beispiele.
15:03 - 15:05

Einmal von Twitter und einmal von XING.
15:05 - 15:07

Das sind also beides URLs,
15:07 - 15:08

die Rückschlüsse
15:08 - 15:10

entweder auf den Nutzernamen
15:10 - 15:11

oder sogar auf den Klarnamen
15:11 - 15:13

und weitere Angaben von
15:13 - 15:15

der Person zulassen.
15:15 - 15:17

Und das, was die Identifikation
hier ermöglicht,
15:17 - 15:20

ist bei der ersten Adresse oben,
15:20 - 15:23

dass diese Analytics-Page nur
– im Normalfall – dem
15:23 - 15:24

eingeloggten Benutzer zur Verfügung steht,
15:24 - 15:26

d.h. wenn ich diese URL in einem Datensatz
15:26 - 15:28

sehe, kann ich mit relativ hoher
15:28 - 15:30

Wahrscheinlichkeit davon ausgehen, dass
15:30 - 15:31

der Nutzername, der hier auftaucht, dem
15:31 - 15:34

Nutzernamen des anonymisierten Nutzers in
15:34 - 15:36

meinem Datensatz entspricht.
15:36 - 15:39

Im zweiten Fall ist es weniger
offensichtlich.
15:39 - 15:41

man kann also nur sehen, dass man hier
15:41 - 15:43

eine öffentliche Profiladresse hat,
15:43 - 15:45

die man auch so im Internet finden kann,
15:45 - 15:46

was aber den Unterschied macht, ist
15:46 - 15:50

dieses spezielle Query, das hinten
dran hängt,
15:50 - 15:53

und das nur in die URL hinzugefügt wird,
15:53 - 15:55

wenn ich als eingeloggter Nutzer,
15:55 - 15:56

auf mein eigenes Profilbild klicke
15:56 - 15:58

d.h. hier ist wieder mit einer hohen
15:58 - 16:01

Wahrscheinlichkeit die Möglichkeit
gegeben, einen Nutzer der in
16:01 - 16:07

den Daten drin ist, eindeutig mit dem
Besitzer dieses Profils zu identifizieren.
16:07 - 16:11

Und in unserm Datensatz haben wir über
100.000 Benutzer auf diese Weise
16:11 - 16:15

identifiziert. Wir haben auch die
beiden Firmen übrigens auf diese
16:15 - 16:19

Sicherheitsprobleme aufmerksam gemacht.
XING hat entsprechend schon Änderungen
16:19 - 16:24

eingeführt und Twitter hält es nicht
für ein Problem in diesem Sinne und
16:24 - 16:28

möchte da keine Änderungen machen
aktuell. Also als erstes Take-Away könnte
16:28 - 16:32

man vielleicht von dem Vortrag auch
mitnehmen, dass man bitte, bitte keine
16:32 - 16:37

persönlich identifizierbaren Informationen
in URLs packt. Wenn irgend möglich.
16:38 - 16:44

Natürlich gibt’s noch etwas
weitergehende Verfahren, um auch
16:44 - 16:49

Datensätze zu deanonymisieren, die etwas
besser anonymisiert wurden.
16:49 - 16:52

Eine schöne Arbeit hierzu ist dieses Paper
16:52 - 16:54

das aus dem Jahr 2007 stammt, und
16:54 - 16:56

wo sich die Forscher
16:56 - 16:57

mit einem Datensatz beschäftigt haben,
16:57 - 17:00

der von Netflix publiziert wurde und
17:00 - 17:03

der also anonymisierte Bewertungsdaten
17:03 - 17:05

von Netflix-Usern enthielt.
17:05 - 17:08

Der Datensatz wurde auf eine
Datenanalyseplattform hochgeladen
17:08 - 17:11

mit dem Ziel, dass andere
Data-Sscientists,
17:11 - 17:14

Datenforscher, sich mit den Daten
auseinandersetzen können und
17:14 - 17:18

auf die Weise bessere Bewertungs-
oder Empfehlungsalgorithmen für neue
17:18 - 17:24

Filme finden können. Und die
Deanonymisierung dieses Datensatzes war in
17:24 - 17:28

diesem Fall möglich ebenfalls durch
die Nutzung von öffentlich verfügbaren
17:28 - 17:33

Informationen – in diesem Fall war das
beispielsweise Bewertungen, die Nutzer auf
17:33 - 17:38

der Plattform IMDB abgegeben haben, wo
also Nutzer auch Filme bewerten können wie
17:38 - 17:42

bei Netflix und wo oft Nutzer-Accounts
oder Konten mit dem wirklichen Namen des
17:42 - 17:48

Benutzers verknüpft sind. Und die
Forscher haben also geschafft, indem sie
17:48 - 17:52

die Bewertung von IMDB herangezogen haben
und diese mit den Bewertungen auf Netflix
17:52 - 17:57

verglichen, die User auf Netflix mit einer
hohen Wahrscheinlichkeit mit den Usern auf
17:57 - 18:01

IMDB zu identifizieren D. h. hier war eine
Deanonymisierung einfach dadurch möglich,
18:01 - 18:05

dass es sehr, sehr viele mögliche
Kombinationen von Filmen gibt und es sehr
18:05 - 18:09

unwahrscheinlich ist, dass zwei Personen
die gleiche Anzahl von Filmen auf die
18:09 - 18:12

gleiche Weise bewertet haben.
18:13 - 18:16

Und diese Technik kann man auch auf
18:16 - 18:18

unseren Datensatz anwenden,
18:21 - 18:24

dieser enthält wie gesagt
ca. 3 Mrd. URLs
18:24 - 18:27

von 9 Mio. Web-Domains und wurde
18:27 - 18:29

von ca. 3 Mio. Usern generiert.
18:31 - 18:33

So. Da die Daten wie gesagt
18:33 - 18:35

unzureichend anonymisiert wurden, haben
18:35 - 18:36

wir für die weitere Analyse
18:36 - 18:37

einfach mal angenommen,
18:37 - 18:41

dass der Anbieter wirklich ein Interesse
daran hätte die Anonymisierung korrekt
18:41 - 18:45

oder möglichst gut durchzuführen und
dementsprechend sämtliche Informationen
18:45 - 18:48

außer der Domain und der Nutzer-ID aus
dem Datensatz entfernt
18:48 - 18:50

d.h. wir haben alle Informationen
weggeworfen,
18:50 - 18:53

bis auf den Fakt:
Hat dieser Nutzer, diese Domain in
18:53 - 18:55

dem Zeitraum besucht?
18:55 - 18:56

Ja oder nein?
18:57 - 18:59

So - Also man könnte annehmen, dass diese
18:59 - 19:02

starke Form der Anonymisierung doch
ausreichend sein sollte,
19:02 - 19:03

um die Nutzer davor zu schützen,
19:03 - 19:05

wieder deanonymisiert zu werden.
19:05 - 19:07

Wir haben weiterhin auch eine Auswahl
19:07 - 19:09

getroffen von 1 Mio. Nutzern,
19:09 - 19:12

von denen wir über 10 Datenpunkte haben,
19:12 - 19:15

weil das die Analyse für die weiteren
Schritte vereinfacht und für Nutzer, die
19:15 - 19:21

relativ wenige Datenpunkte haben, auch die
meisten Techniken nicht anwendbar sind.
19:21 - 19:22

So.
19:22 - 19:24

Wenn man sich jetzt die Verteilung
19:24 - 19:26

der Häufigkeiten der Domains
19:26 - 19:27

in dem Datensatz anschaut,
19:27 - 19:29

Also hier auf der X-Achse ist
19:29 - 19:30

immer der Popularitätsrang einer
19:30 - 19:32

entsprechenden Domain aufgetragen
19:32 - 19:34

d. h. je
weiter links die Domain hier auftaucht,
19:34 - 19:36

um so populärer ist sie.
19:36 - 19:39

Man hat hier bspw . Google, Facebook und
die anderen üblichen Kandidaten
19:39 - 19:43

und auf der Y-Achse ist die
Anzahl der URLs aufgetragen,
19:43 - 19:46

die von dieser entsprechenden Domain
in dem Datensatz stammen.
19:46 - 19:48

Und wie man sieht: wenn man die
19:48 - 19:55

100 populärsten Domains nimmt, sind die
schon bereits verantwortlich für mehr als
19:55 - 20:00

99% der gesamten Daten in unserem
Datensatz. D. h. die meisten Seitenbesuche
20:00 - 20:05

finden auf den Top 100 Domains dieser
Liste statt. Und wie man sieht, fällt die
20:05 - 20:09

Verteilung danach relativ schnell ab. Also
es gibt eine Menge Domains, die nur ein
20:09 - 20:13

paar hundert mal oder sogar nur 10 oder
ein einziges mal von einem Nutzer besucht
20:13 - 20:16

wurden. Das hilft uns bei der
Anonymisierung, weil wir gleichzeitig die
20:16 - 20:20

Möglichkeit haben, über diese populären
Domains, die fast jeder User besucht hat
20:20 - 20:23

oder von denen jeder User fast eine
besucht hat,
20:23 - 20:26

eine entsprechende Auswahl zu treffen und
20:26 - 20:30

unsere Kombinatorik darauf anzuwenden aber
wir auch gleichzeitig Long-Tail-Domains
20:30 - 20:34

haben, die also nur von wenigen Nutzern
besucht wurden und die entsprechend sehr
20:34 - 20:37

gut sich eignen, um einzelne Nutzer
wirklich mit wenigen Datenpunkten wieder
20:37 - 20:39

zu identifizieren.
20:40 - 20:43

So, den ersten Schritt, den wir machen
müssen, um unsere
20:43 - 20:48

Deanonymisierung vorzunehmen, ist das
Katalogisieren der Nutzer. Dafür legen wir
20:48 - 20:54

eine einfache Tabelle an, wo wir in jede
Zeile entsprechend einen Eintrag für
20:54 - 20:58

einen Nutzer machen und in jede Spalte
einen Eintrag für eine Domain anlegen und
20:58 - 21:04

jedes Element hier ist entweder Null oder
Eins und ist genau Eins dann, wenn der
21:04 - 21:08

entsprechende Nutzer die entsprechende
Domain besucht hat, d. h., das ergibt eine
21:08 - 21:13

Matrix mit 9 Mio. Einträgen für die
Domains und 1 Mio. Einträgen für die
21:13 - 21:17

User, wobei die meisten Elemente dieser
Matrix Null sind. Und so eine Matrix lässt
21:17 - 21:21

sich sehr effizient auch repräsentieren
und kann leicht verarbeitet werden für
21:21 - 21:22

die weiteren Schritte.
21:22 - 21:26

So der Algorithmus,den wir einsetzen
zu der Deanonymisierung ist
21:26 - 21:27

wirklich sehr, sehr einfach.
21:27 - 21:30

Wir generieren im 1. Schritt die Matrix M
21:30 - 21:31

die ich gerade gezeigt habe,
21:31 - 21:34

generieren dann weiterhin einen Vektor V
21:34 - 21:36

und in diesen Vektor packen wir
alle Domains,
21:36 - 21:39

die wir aus anderen Informationsquellen,
21:39 - 21:44

also aus unserer öffentlichen Information
gewonnen haben und die wir vergleichen
21:44 - 21:48

wollen mit den Nutzern, die sich in in dem
Datensatz befinden d.h. für jede Domain
21:48 - 21:51

die wir irgendwo gesehen haben, würden wir
eine 1 in diesen Vektor schreiben und
21:51 - 21:55

würden dann entsprechend den Vektor
nehmen und mit der Matrix multiplizieren.
21:55 - 22:01

Das Ergebnis enthält dann wieder für
jeden Nutzer eine einzige Zahl und in dem
22:01 - 22:05

wir den Maximalwert dieser Zahl nehmen
können den Nutzer finden der in unserem
22:05 - 22:09

Datensatz die beste Übereinstimmung hat
mit den Domain, mit denen wir ihn
22:09 - 22:10

vergleichen wollen.
Also wirklich ein sehr,
22:10 - 22:12

sehr einfaches Verfahren, das allerdings
22:12 - 22:14

sehr robust und auch sehr,
wie man sehen wird,
22:14 - 22:16

effektiv ist für die Deanonymisierung
22:16 - 22:19

So, das ist natürlich alles sehr abstrakt
22:19 - 22:22

deswegen habe ich hier mal ein Beispiel
von einem Nutzer,
22:22 - 22:24

den wir zufällig ausgewählt haben
aus unserem Datensatz
22:24 - 22:28

und wir gehen jetzt einfach mal
durch die einzelnen Punkte durch.
22:28 - 22:29

Also hier würden wir jedes mal in
jedem Schritt
22:29 - 22:31

eine Domain hinzunehmen, die der Benutzer
22:31 - 22:34

entsprechend besucht hat und dann schauen,
22:34 - 22:38

um wie viele Nutzer verringert das die
22:38 - 22:42

möglichen Nutzer in unserem Datensatz, die
diese Domains besucht haben könnten.
22:42 - 22:44

Wie wir sehen wir fangen hier links mit
22:44 - 22:46

ca. 1,1 mio. Nutzern an, dann nehmen wir
22:46 - 22:48

unsere 1. Domain das ist gog.com
22:48 - 22:49

Das ist eine Gaming-Webseite und
22:49 - 22:51

da sehen wir schon
22:51 - 22:54

haben wir eine extreme Reduktion
in der Anzahl der möglichen Nutzer
22:54 - 22:55

in dem Datensatz.
22:55 - 22:59

Weil jetzt nur noch 15.000 Nutzer
dieser Domain drin sind, die
22:59 - 23:03

wirklich diese Domain besucht haben und
die der potentielle Nutzer sein könnten.
23:03 - 23:07

Wie wir auch sehen ist dieser Nutzer
Telekom-Kunde d.h. er hat auch diese
23:07 - 23:12

kundencenter.telekom.de Domain besucht.
Was nochmal die Anzahl der möglichen
23:12 - 23:14

Nutzer in dem Datensatz extrem reduziert.
23:14 - 23:16

In diesem Falle auf 367.
23:16 - 23:18

Er ist auch Sparda-Bank-Kunde,
23:18 - 23:22

weswegen wir auch diese
banking.sparda.de hinzunehmen können, was
23:22 - 23:26

nochmal die Anzahl auf 11 reduziert und
das finale Stück des Puzzles, das wir noch
23:26 - 23:27

benötigen ist hier die Information, dass
23:27 - 23:30

der Nutzer handelsblatt.com unterwegs war,
23:30 - 23:32

was dann nur noch einen einzigen Nutzer
23:32 - 23:35

ergibt in unserem Datensatz, der mit
23:35 - 23:37

diesen Daten kompatibel ist.
23:37 - 23:41

D.h. hätten wir diese vier Informationen
aus öffentlichen Quellen extrahiert,
23:41 - 23:44

könnten wir schon mit Sicherheit
sagen, welcher Nutzer in unserem
23:44 - 23:48

Datensatz hier entsprechend der richtige
Nutzer ist.
23:51 - 23:52

So jetzt ist natürlich die Frage:
23:52 - 23:56

Wie gut funktioniert das Verfahren
in Abhängigkeit auch davon, wieviele
23:56 - 23:58

Informationen ich denn überwachen kann
von dem Nutzer.
23:58 - 23:59

Wir haben ja gesehen,
23:59 - 24:03

das wir in unserem Datensatz eigentlich
den Nutzer komplett überwachen können,
24:03 - 24:07

D.h. wir können jede URL sehn, die der
Nutzer mit seinem Browser aufgerufen hat
24:07 - 24:11

Aber viele Trecker sehen ja im Prinzip nur
einige hundert oder vielleicht einige
24:11 - 24:15

tausend oder zehntausend Domains, auf den
entsprechende Skripte installiert sind.
24:17 - 24:22

Was ich deswegen hier zeige, ist die
Effektivität dieser Methode in
24:22 - 24:25

Abhängigkeit der Anzahl der Domain die
ich zur Verfügung habe.
24:25 - 24:27

Wir fangen also an hier links,
24:27 - 24:30

wo nur die Top 50 Domains in
unserem Datensatz zur Verfügung hätten
24:30 - 24:35

und schauen uns an, wenn wir zufälliges
Sample von Usern, in diesem Fall 200,
24:35 - 24:39

versuchen zu deanonymisieren,
wo befindet sich denn der korrekte User
24:39 - 24:42

unter all den Nutzern, die wir in dem
Datensatz haben.
24:42 - 24:44

Man sieht hier für 50 Domains ist das
24:44 - 24:46

ungefähr 160.
24:46 - 24:49

D.h. es gibt 160 andere Nutzer
im Schnitt, die eine höhere
24:49 - 24:53

Wahrscheinlichkeit haben, mit den Daten
übereinzustimmen, als der wirklich
24:53 - 24:54

gesuchte Nutzer.
24:54 - 24:57

So, wenn wir jetzt die Anzahl der Domains
allerdings erhöhen:
24:57 - 25:00

also wir können z.B. auf 100 gehen, sehen
wir, das der Wert schon rapide abfällt.
25:00 - 25:03

D.h. hier habe ich schon die Anzahl der
möglichen Nutzer, die zu einem wirklichen
25:03 - 25:06

Nutzer gehören könnten extrem reduziert.
25:06 - 25:08

Auf ungefähr 25
25:08 - 25:10

und wenn ich die Anzahl der Domains
25:10 - 25:12

entsprechend erhöhe auf
200 oder 300 sogar,
25:12 - 25:14

bin ich sehr schnell auch in der Lage
25:14 - 25:17

wirklich den Nutzer eindeutig
wieder zu identifizieren .
25:17 - 25:20

Also es gibt keine Fehler,
in diesem Sinne dann, für die
25:20 - 25:23

Identifikation eines bestimmten Nutzers.
25:23 - 25:28

So, das ist natürlich alles graue Theorie
und es stellt sich die Frage:
25:28 - 25:32

Ist es überhaupt möglich, solche
öffentlichen Informationen zu gewinnen
25:32 - 25:34

oder ist das eher unwahrscheinlich,
dass man an solche
25:34 - 25:36

Informationen rankommen würde?
25:36 - 25:39

Deswegen habe ich versucht anhand von
den Daten, die wir haben und anhand von
25:39 - 25:43

öffentlichen Informationsquellen wirklich
Deanonymisierung durchzuführen, mit den
25:43 - 25:47

Usern, die wir haben.
Und ich zeige jetzt drei Beispiele.
25:47 - 25:50

Das erste beruht auf der Analyse von
Twitter-Daten.
25:50 - 25:53

Da haben wir also einen Nutzer aus
unserem Datensatz
25:53 - 25:58

der einen Twitter-Account hatte zufällig
rausgesucht. Haben uns dann angeschaut,
25:58 - 26:02

welche URLs dieser Nutzer in dem
entsprechenden Zeitraum, über den wir die
26:02 - 26:06

Daten hatten, geteilt hat und haben dann
aus diesen Tweets hier die entsprechenden
26:06 - 26:11

URLs extrahiert, davon wieder Domains
generiert oder extrahiert und diese
26:11 - 26:15

Domains dann mit unserem Algorithmus
genutzt.
26:15 - 26:18

So. Wie wir sehen haben wir für
26:18 - 26:20

diesen einen Nutzer dabei 8 Domains
extrahiert
26:20 - 26:22

über den entsprechenden Zeitraum.
26:22 - 26:27

Also wir haben hier relativ
populäre Domains wie GitHub, Change.org
26:27 - 26:29

aber auch viele Blogs,
26:29 - 26:31

Beispielsweise: rtorp.wordpress.com
26:31 - 26:33

was nur von 129 Nutzern aus dem Datensatz
26:33 - 26:39

besucht wurde und auch andere kleinere
Webseiten.
26:39 - 26:44

Wenn wir jetzt uns anschauen, welche
Nutzer aus unserem Datensatz haben
26:44 - 26:51

mindestens eine dieser Domains besucht, in
dem entsprechenden Zeitraum, und die Nutzer
26:51 - 26:56

gegen die Anzahl der Domains, die sie aus
diesem Satz von Domains besucht haben
26:56 - 26:58

auftragen, bekommen wir diese Grafik hier.
26:58 - 27:01

Also die zeigt die ca. 110.000 Nutzer, die
27:01 - 27:06

min. eine dieser Webseite besucht haben
und zeigt gleichzeitig an: Wieviele von
27:06 - 27:10

den entsprechenden Domains der Nutzer
wirklich besucht hat. Und wir sehen:
27:10 - 27:14

Also, es gibt sehr, sehr viele Nutzer,
die min. eine hiervon besucht haben.
27:14 - 27:15

Wenn wir allerdings hochgehen zu
zwei, drei oder vier davon
27:15 - 27:18

verringert sich die Anzahl sehr schnell.
27:18 - 27:23

Und wir sehen hier, dass wir oben bei 7
einen einzigen Nutzer haben und dabei
27:23 - 27:27

handelt es sich wirklich um den Nutzer, den
wir entsprechend deanonymisieren wollten.
27:27 - 27:31

D.h. hier ist eine Zuordnung mit 100%ger
Sicherheit möglich für diesen Nutzer.
27:31 - 27:36

Wir haben das auch für andere Nutzer
durchgespielt. Wir konnten nicht immer den
27:36 - 27:40

korrekten Nutzer rausfinden. Aber wir
konnten in den meisten Fällen die Anzahl
27:40 - 27:43

möglicher Nutzer auf ca. 10–20
reduzieren.
27:47 - 27:50

Das zweite Beispiel, dass ich jetzt noch
27:50 - 27:55

zeigen möchte, ist anhand von
YouTube-Daten gemacht worden.
27:55 - 28:00

Oft ist es so, dass viele Daten in solchen
Datensätzen wirklich anonymisiert werden,
28:00 - 28:04

aber bestimmte Daten davon ausgenommen
werden, weil es ein starkes Interesse gibt,
28:04 - 28:05

seitens der Unternehmen, diese zu nutzen.
28:05 - 28:08

YouTube-Videos sind ein gutes Beispiel
28:08 - 28:13

dafür, weil Unternehmen bspw. wissen
möchten, welche Videos haben bestimmte
28:13 - 28:17

Nutzer angeschaut, in welcher Kombination,
um daraus für ihr Marketing Erkenntnisse
28:17 - 28:20

abzuleiten. Und man könnte auch meinen,
dass diese Information über öffentliche
28:20 - 28:24

Videos, die eigentlich ja jeder sich
anschauen kann im Internet,
28:24 - 28:25

auch nicht sehr kritisch ist.
28:25 - 28:28

Was wir gemacht haben deswegen,
um zu zeigen, ob das wirklich so ist,
28:28 - 28:32

ist, dass wir wieder aus unserem
Datensatz einen Nutzer extrahiert haben,
28:32 - 28:37

von diesem Nutzer die Favoritenliste der
YouTube-Videos uns besorgt haben, die auch
28:37 - 28:40

öffentlich ist im Normalfall, also man
kann das Einstellen natürlich, das es
28:40 - 28:44

nicht öffentlich ist aber 90% der User
machen das nicht und haben das
28:44 - 28:47

entsprechend dann in der Öffentlichkeit
und haben uns aus dieser Liste per
28:47 - 28:52

YouTube-API automatisiert sämtliche
Video-IDs besorgt. Und mit diesen
28:52 - 28:56

Video-IDs haben wir wieder unseren
Algorithmus gefüttert, diesmal allerdings
28:56 - 28:59

mit den kompletten URL-Daten, da die
28:59 - 29:02

Domains halt nicht die Video-IDs
enthalten.
29:02 - 29:05

Ups... jetzt habe ich falsch
gedrückt ha so... also
29:05 - 29:07

Wie vorher haben wir also
29:07 - 29:11

diese IDs, das sind ungefähr 20 und
haben auf der anderen Seite sämtliche
29:11 - 29:15

Nutzer, die min. 1 von diesen Videos
angeschaut haben. Wie wir sehen können
29:15 - 29:20

sind das in dem Fall ca. 20.000, wobei
wieder eine Menge von den Nutzern sich
29:20 - 29:25

min. 1 angeschaut haben. Aber die Anzahl
der potentiellen Nutzer, die sich mehrere
29:25 - 29:30

angeschaut haben rapide runtergeht. Und
wir sehen hier Bspw. für vier oder fünf
29:30 - 29:33

oder sechs haben wir nur noch eine
Handvoll User und wir haben wieder einen
29:33 - 29:38

Treffer, der hier ganz oben liegt, bei 9
angeschauten Videos und dabei handelt es
29:38 - 29:43

sich wieder um den Nutzer, den wir im
vorherigen Schritt extrahiert haben.
29:43 - 29:44

Wir sehen also, es ist relativ einfach
29:44 - 29:47

anhand von ner kleinen Anzahl von
Datenpunkten,
29:47 - 29:49

selbst aus ner sehr großen Anzahl
von Nutzern,
29:49 - 29:51

in diesem Fall über 1 Mio. Nutzer,
29:51 - 29:55

entsprechend auf einen User
zurückzuschließen. Und man muss dazu
29:55 - 29:58

sagen, dass solche Verfahren, dass
YouTube-Verfahren, sogar besser
29:58 - 30:02

funktioniert hat, als die Anonymisierung
über Twitter. Weil, ich schätze mal, die
30:02 - 30:06

Verteilung der Videos und Anzahl der
Videos auf YouTube noch mal höher ist als
30:06 - 30:09

die Anzahl der entsprechenden Domains die
wir zur Verfügung haben. D.h. eine
30:09 - 30:13

YouTube-Video-ID ist in dem Sinne sogar
ein stärkeres Deanonymisierungs-Signal
30:13 - 30:16

als die entsprechende Domain aus dem
Twitter-Feed.
30:16 - 30:18

So, dass letzte Beispiel:
30:18 - 30:26

dass ich zeigen möchte - basiert auf der
Analyse von Geodaten. Dafür haben wir uns
30:26 - 30:31

angeschaut, wie wir aus unserem Datensatz
Geodaten extrahieren oder Koordinaten
30:31 - 30:34

extrahieren können. Und wir haben
rausgefunden, dass es relativ einfach
30:34 - 30:39

über Google-Maps-URLs geht. Die also wenn
man sich einen bestimmten Bereich anschaut
30:39 - 30:44

meisten oben in der URL die geographischen
Koordinaten enthalten. D.h. wir konnten
30:44 - 30:49

aus unserem Datensatz einige Mio. von
diesen Koordinatenpaaren extrahieren und
30:49 - 30:52

die auch nach entsprechenden Nutzer
gruppieren und können damit eine
30:52 - 30:58

komplette Karte von der Nutzeraktivität
anfertigen. Also wir sehen z.B. welche
30:58 - 31:02

Kartenausschnitte sich User angeschaut
haben. Wenn sie z.B. nach Urlaubszielen
31:02 - 31:06

geschaut haben, vielleicht nach ihrem
Arbeitsort, nach einem Weg, nach einer
31:06 - 31:10

Wegbeschreibung. Und können diese
Information also auch Nutzergenau
31:10 - 31:15

verarbeiten. Und Geodaten sind besonders
interessant hierfür, weil es sehr viel
31:15 - 31:21

schwieriger ist, diese selbst zu ändern,
da es ja relativ einfach ist seine
31:21 - 31:25

Surfgewohnheiten oder Videogewohnheiten im
Zweifelsfall anzupassen aber es relativ
31:25 - 31:30

schwierig ist, bspw. die Arbeitsstelle
oder den Wohnort oder sämtliche vertraute
31:30 - 31:34

Orte zu wechseln. D.h. diese Information
sehr, in diesem Sinne sticky, in dem
31:34 - 31:38

Sinne, dass sie dem User über lange Zeit
auch zuordenbar sind normalerweise. Und
31:38 - 31:42

wir können auch wieder aus verschiedenen
öffentlichen Quellen Informationen
31:42 - 31:44

extrahieren. Bspw. aus Google-Maps oder
31:44 - 31:47

auch über Flickr, wo auch viele Fotos
geocodiert sind und
31:47 - 31:51

können dann über diese Information
ein Matching mit den Daten, die wir in
31:51 - 31:53

unserem Datensatz haben, durchführen.
31:53 - 31:56

Und hier ist es auch so, dass wir
über eine relativ kleine Anzahl
31:56 - 31:59

also weniger als 10 Datenp unkte im
Idealfall, ähm Normalfall,
31:59 - 32:04

den einzelnen Nutzer aus dem Datensatz
extrahieren und identifizieren können.
32:07 - 32:09

So, eine Frage die ich oft gestellt
bekomme, ist:
32:09 - 32:12

Kann ich mich verstecken in meinen Daten?
32:12 - 32:16

Also, ist es möglich dadurch,
dass ich mich unvorhergesehen verhalte,
32:16 - 32:20

dass ich vielleicht Webseiten öffne,
die ich normalerweise nie anschauen
32:20 - 32:24

würde, dass ich den Algorithmus verwirre
und dementsprechend nicht in den Daten
32:24 - 32:30

auftauche werde? Da muss leider sagen,
dass funktioniert vermutlich nicht, aus
32:30 - 32:37

dem einfachen Grund, dass wir ja ein
Matching machen über die Zuordnung von
32:37 - 32:41

Eigenschaften, die entweder erfüllt oder
nicht erfüllt sind und ich als einzelner
32:41 - 32:44

Nutzer ja nur die Möglichkeit habe,
zusätzliche Datenpunkte zu meinem
32:44 - 32:48

persönlichen Vektor hinzuzufügen aber
meistens keine Datenpunkte von diesem
32:48 - 32:53

entfernen kann. D.h. wenn ich hier schon
mit meinen bestehenden Datenpunkten zu
32:53 - 32:56

100% identifiziert bin, kann ich
eigentlich so viele Punkte hinzufügen wie
32:56 - 33:02

ich möchte und werde trotzdem nicht im
normalfall von dem Algorithmus mit einem
33:02 - 33:06

anderen User verwechselt werden können.
D.h. diese Verfahren ist in dem Sinne sehr
33:06 - 33:13

robust gegenüber der Perturbation oder
der Änderung der Daten durch den Nutzer.
33:13 - 33:19

Als kleines Zwischenfazit kann man also
sagen, dass diese Art von Datensätzen die
33:19 - 33:22

sehr viele Dimensionen und sehr viele
Eigenschaften enthalten extrem schwierig
33:22 - 33:27

zu anonymisieren sind und auch bei
entsprechender Absicht man nicht immer
33:27 - 33:30

sicher sein kann, dass
Anonymisierungsmaßnahmen,
33:30 - 33:31

die man ergreift, wirklich
33:31 - 33:34

ausreichend sind, um sämtliche Nutzer
oder sogar nur einen kleinen Teil
33:34 - 33:36

von Nutzern in dem Datensatz zu schützen.
33:36 - 33:38

Weiterhin ist es auch so, dass heute
33:38 - 33:42

eigentlich immer mehr öffentlich
verfügbare Informationen über Personen
33:42 - 33:46

zur Verfügung stehen, die auch genutzt
werden können, um Daten die anonymisiert
33:46 - 33:51

wurden z.B. vor 10 Jahren oder vor 5
Jahren jetzt mit neuen Datenpunkten in dem
33:51 - 33:55

Sinne besser zu deanonymisieren. D.h. es
wird immer einfacher möglich, auch aus
33:55 - 33:58

bestehenden Datensätzen entsprechende
Nutzerdaten und
33:58 - 34:03

Personen-Identifikationsmerkmale zu
extrahieren. Und wie wir gesehen haben,
34:03 - 34:06

reichen dafür oft eigentlich schon sehr
wenige Datenpunkte aus, um wirklich
34:06 - 34:11

einzelne Nutzer herauszusuchen und
eindeutig zu identifizieren.
34:11 - 34:18

S: Ja was bedeutet das?
Was bedeutet das, wenn man mit seinen
34:18 - 34:20

eigenen Daten konfrontiert wird?
34:20 - 34:23

Also wenn jemand anders einen mit
seinen Daten konfrontiert?
34:23 - 34:25

Also z.B. Ich?
34:25 - 34:28

Wir haben, die Recherche war
für ein politisches Magazin
34:28 - 34:30

und deswegen haben wir vor allem nach
34:30 - 34:32

Politikern geschaut und auch die
Politiker selbst
34:32 - 34:35

oder deren Mitarbeiter gefunden
in diesen Daten.
34:35 - 34:37

Waren zwei Grüne dabei,
drei von der SPD,
34:37 - 34:40

darunter auch Mitarbeiter aus dem
34:40 - 34:43

Büro von Lars Klingbeil,
Netzpolitischer Specher,
34:43 - 34:51

ein Europaparlamentarier und das
zog sich sozusagen bis ins Kanzleramt und
34:51 - 34:54

auch dort in einem Büro, bei einem
Staatsminister bei der Bundeskanzlerin war
34:54 - 34:59

auch ein Mitarbeiter betroffen. Wobei die
Mitarbeiter fast interessanter sind als
34:59 - 35:02

die Politiker selbst, weil die Mitarbeiter
sehr viel inhaltliche Arbeit für die
35:02 - 35:05

Politiker machen. Und auch sowas,
35:05 - 35:08

wie deren Reisen planen,
Kontakte herstellen.
35:08 - 35:13

Jetzt wollte selbstverständlich nicht
jeder gerne mit uns reden und
35:13 - 35:16

vor allem nicht vor der Kamera.
35:16 - 35:20

Einer hat es dann getan, das ist
Valerie Wilms.
35:20 - 35:24

Bevor wir sie jetzt mal hören, schauen
mir doch erstmal in ihre Daten.
35:24 - 35:26

lachen
35:26 - 35:32

Sie hat es freigegeben für diesen Vortrag,
sage ich noch dazu. Weil hier habe ich
35:32 - 35:36

jetzt sozusagen wirklich nichts
anonymisiert, wie in dem Datensatz davor.
35:36 - 35:44

So 01.08., ist auch Frühaufsteherin, erst
mal Banking... noch mal Banking... d.h.
35:44 - 35:50

man kann also hier ziemlich gut sehen z.B.
wo Leute ihre Konten haben. Auf die Konten
35:50 - 35:55

selbst kann man nicht zugreifen, aber man
weiß wo. Bisschen unangenehmer wird's
35:55 - 36:00

dann für sie sozusagen Ende August, da
haben viele Leute ihre in Deutschland ihre
36:00 - 36:04

Steuererklärung gemacht. Das habe ich
auch als Video nochmal. Da kann man
36:04 - 36:05

nochmal so ein bisschen runterscrollen,
36:05 - 36:08

Dann sehen wir ein bißchen mehr von ihrer
36:08 - 36:14

Steuererklärung. Also man kann jetzt hier
sozusagen auf Elster-Online nicht selbst
36:14 - 36:18

zugreifen. Also wenn wir das jetzt machen
würden, würden wir sozusagen nicht
36:18 - 36:22

weiter kommen, weil dann auch nach einem
Passwort verlangt wird. Aber wir können
36:22 - 36:27

sehen, welche Vordrucke sie sich
angeschaut hat. Und können so
36:27 - 36:31

Informationen gewinnen, über Dinge,
36:31 - 36:37

die sie gedenkt zu versteuern.
Und es ist recht detailreich.
36:44 - 36:49

Ja, was hat sie nur dazu
gesagt, als wir bei ihr im Büro saßen?
36:49 - 36:54

Wir können Sie einmal kurz hören dazu.
36:54 - 36:59

Valerie Wilms: Ist rechts alles zu sehen?
Scheiße!
36:59 - 37:01

Gelächter
37:01 - 37:12

Applaus
37:12 - 37:17

S: Gab noch eine andere Geschichte,
auf die wir sie angesprochen haben.
37:17 - 37:21

Gibt ja nicht nur Steuererklärungen
sondern man schaut ja auch sowas bei
37:21 - 37:26

Google nach Tebonin nimmt man so
bei Hörsturz, Tinitus,
37:26 - 37:29

Abgeschlagenheit. Ist natürlich gerade
37:29 - 37:33

für Politiker ein großes Problem, wenn
solch Informationen an die Öffentlichkeit
37:33 - 37:38

gelangen, Menschen dann falsche Schlüsse
daraus ziehen oder auch, ja, die Leute
37:38 - 37:44

damit erpressen können. Z.B. haben wir
sie auch darauf angesprochen.
37:44 - 37:47

Will ich die Reaktion nicht vorenthalten.
37:48 - 37:52

Valerie Wilms: Ich weiß gar nicht in
welchem Zusammenhang ich dieses
37:52 - 37:55

Tebonin mir da angeguckt habe,
das ist nicht schön,
37:55 - 38:00

sowas nachträglich zu lesen. Vor allen
Dingen verknüpft mit dem eigenen Namen.
38:00 - 38:05

S: Ja, das war Valerie Wilms zu ihren
Daten. An diesem ganz kleinen Ausschnitt
38:05 - 38:11

sieht man wie Problematisch diese Daten
sind. Ich hab jetzt nicht die Beiträge
38:11 - 38:18

gezeigt, wo Menschen ihre sexuellen
Vorlieben ausleben. Weil, dass betrifft
38:18 - 38:22

natürlich auch Leute, die in
öffentlichen oder in relevanten
38:22 - 38:27

Positionen stehen. Natürlich sind auch
Richter in diesen Daten. Natürlich sind
38:27 - 38:35

auch Wirtschaftsbosse in diesen Daten. Und
natürlich sind das alles Menschen und die
38:35 - 38:40

haben Träume und die haben Gedanken, und
es überhaupt nichts, was in dritte Hände
38:40 - 38:45

gehört. Und deshalb war mit allen mit
denen wir gesprochen haben, im Zuge dieser
38:45 - 38:52

Recherche, war das für alle Betroffenen
sehr schockierend. Aber wer hat sie
38:52 - 38:57

ausgespäht? Woher kommen diese Daten? War
es irgendwie ein shady Trojaner oder so
38:57 - 39:04

auf dem Rechner? Nein. Wir sind relativ
schnell drauf gekommen, dass es
39:04 - 39:10

Browser-Plugins sind und haben dann einen
kleinen Test gemacht, haben einen Nutzer
39:10 - 39:15

gebeten Add-Ons zu deinstallieren. Und
haben dann eines herausfinden können;
39:15 - 39:26

Web-of-Trust - Was machen die so?
Safe Web Search & Browsing.
39:26 - 39:28

Applaus
39:28 - 39:34

Haben das dann noch mal mit einem sauberen
Browser sozusagen gegengetestet in der
39:34 - 39:41

Zeit als wir eine Möglichkeit hatten Live
in die Daten zuzugreifen, das hat ein
39:41 - 39:47

Securityspezialist für uns gemacht Mike
Kuketz und der hatte eine extra Webseite
39:47 - 39:50

aufgesetzt, einen sauberen Browser, nur
dieses eine Plugin installiert und wir
39:50 - 39:54

konnten ihn in den Daten sehen. Und
dadurch konnten wir sicher sein, dass es
39:54 - 39:58

eben bei diesem einen Plugin auch
tatsächlich der Fall war, dass dieser Weg
39:58 - 40:00

eben so gegangen ist.
40:00 - 40:07

A: Ja, warum ist das Tracking per App oder
Extension eigentlich so interessant für
40:07 - 40:11

die Anbieter? Nun für Unternehmen ist es
eigentlich immer sehr spannend ein
40:11 - 40:15

möglichst detailliertes Bild von einem
entsprechenden Nutzer zu gewinnen. D.h.
40:15 - 40:19

ich möchte, wenn möglich, sämtliche Daten
die über den Nutzer zur Verfügung
40:19 - 40:23

stehen. Und bei normalen Treckern ist das
ja so, dass ich als Nutzer mir eine
40:23 - 40:27

Webseite runterlade, in meinen Browser,
dann ein entsprechend ein
40:27 - 40:30

JavaScript-Applet oder ein anderes
Tracking-Tag ausgeführt wird, dass eine
40:30 - 40:32

entsprechende Verbindung aufbaut zu einem
40:32 - 40:34

Tracking-Server und da Bspw. ein Cockie
40:34 - 40:38

setzt oder eine andere Information
speichert, die mich dann als Nutzer
40:38 - 40:42

nachverfolgt. In den letzten hat sich
dagegen, verständlicherweise, eine Menge
40:42 - 40:47

Widerstand auch geregt und viele Leute
benutzen mittlerweile Blocker, die
40:47 - 40:51

verhindern, dass solche Tracking-Scripte
ausgeführt werden. Oder die Verbindung zu
40:51 - 40:55

den Tracking-Servern abfangen oder
blockieren. D.h. es wird immer schwieriger
40:55 - 40:59

für die Tracking-Anbieter qualitativ
hochwertige Daten zu bekommen und da liegt
40:59 - 41:05

es doch eigentlich nahe, dass man sich
solchen Mechanismen, in Form von einer
41:05 - 41:09

Extension, zu Nutze macht, in dem man
die Sicherheitsmaßnahmen, die es in dem
41:09 - 41:13

Browser eigentlich per Default gibt,
relativ einfach umgeht und dann über
41:13 - 41:17

diesen Side-Channel sozusagen die
Information bei jeder einzeln aufgerufenen
41:17 - 41:21

URL direkt an den Tracking-Server sendet.
Und das hat einen weiteren Vorteil für
41:21 - 41:25

die Anbieter, weil damit nicht nur die
Seiten überwacht werden können, die
41:25 - 41:28

wirklich Tracking-Codes auch explizit
beinhalten, sondern auch viele andere
41:28 - 41:33

Webseiten, die überhaupt keine Codes auf
der Seite haben. Also Bspw. Seiten von
41:33 - 41:37

öffentlich Rechtlichen Institutionen, die
ihre Nutzer im Normalfall nicht tracken.
41:37 - 41:42

D.h. es ist also möglich über dieses
Verfahren von einer kleineren Anzahl an
41:42 - 41:47

Usern allerdings ein sehr viel größeres
Spektrum an Daten, im Idealfall oder im
41:47 - 41:51

schlimmsten Fall, je nachdem wie man das
sieht, die komplette Browsinghistory von
41:51 - 41:56

diesem entsprechenden User zu gewinnen.
So, wir haben uns in unserem Datensatz
41:56 - 42:01

dafür nochmal angeschaut, wie viele von
diesen Extensions es eigentlich gibt und
42:01 - 42:05

wie viele Daten jede von diesen Extensions
generiert. Und hier haben wir wieder einen
42:05 - 42:08

doppelt logarithmischen Plot, wo auf der
einen Seite hier der Rang der
42:08 - 42:10

entsprechenden Extension aufgetragen ist
42:10 - 42:13

d.h. je mehr Datenpunkte von
der Extension
42:13 - 42:18

wir bekommen haben, umso weiter finden Sie
hier die Extension links. Und auf der
42:18 - 42:22

anderen Achse haben wir die Anzahl der
Datenpunkte entsprechend aufgetragen. Und
42:22 - 42:27

wir sehen hier, dass die populärste
Extension, das ist Web-of-Trust bereits
42:27 - 42:31

für 1 Mrd. Datenpunkte in dem Datensatz
verantwortlich ist. Und wenn man die
42:31 - 42:37

ersten 10 Extensions nehmen, sehen wir,
dass bereits 95% der Daten davon abgedeckt
42:37 - 42:42

werden. D.h. es ist also eine kleine
Anzahl von Extension, die eigentlich die
42:42 - 42:47

größte Masse an Daten hier für diesen
Anbieter produziert. Wobei es auch sehr
42:47 - 42:51

viele, also hier fast 10.000 verschiedene
Application-IDs gibt, die teilweise einige
42:51 - 42:57

100 oder bis zu einige 100.000 oder einige
Mio. Datenpunkte ihrerseits liefern. Es
42:57 - 43:01

ist nicht unbedingt gesagt, dass es auch
10.000 Extensions sind, weil wir keine
43:01 - 43:05

eindeutige Zuordnung zu der Application-ID
haben, d.h. das ist eher eine obere
43:05 - 43:08

Abschätzung. Und um jetzt ein genaueres
Bild zu bekommen,
43:08 - 43:11

wie verseucht eigentlich so ein Web-Store
43:11 - 43:14

ist, haben wir eine
Verhaltensanalyse durchgeführt,
43:14 - 43:17

wofür wir mit einem
Automatisierungsframework:
43:17 - 43:20

Webdriver - uns einfach einen
Chrome-Browser
43:20 - 43:23

genommen haben, da automatisiert
verschiedene Extensions installiert haben
43:23 - 43:29

und dann mit diesem Webdriver entsprechend
verschiedene Webseiten angesurft haben,
43:29 - 43:34

wobei wir über einen Python-basierten
Proxy-Server dann mitgeloggt haben, welche
43:34 - 43:38

URLs bzw. welche Webseiten von dem
entsprechenden Browser geöffnet wurden,
43:38 - 43:42

wenn wir bestimmte Seiten angesteuert
haben. D.h. darüber konnten wir
43:42 - 43:46

verfolgen, ob der Browser beim Öffnen von
bestimmten Seiten oder von allen URLs
43:46 - 43:51

vielleicht noch zusätzlich Informationen
eventuell an Dritte schickt. Und das haben
43:51 - 43:55

wir für ca. 500 Plugins so ausgeführt
und wie man hier sehen kann, verhalten
43:55 - 43:59

sich die meisten eigentlich so, wie man
es erwarten würde, d.h die öffnen nur die
43:59 - 44:03

URLs, die entsprechende Anzahl der URLs,
die man erwarten würde für den
44:03 - 44:08

Testdatensatz, den wir verwendet haben.
Und gleichzeitig gibt es auch einige
44:08 - 44:13

Extensions, z.B. das hier, dass sich
merkwürdig verhält und sehr viele
44:13 - 44:17

URL-Aufrufe hat. Und hier haben wir bei
einer genauen Analyse auch gesehen, dass
44:17 - 44:21

das entsprechende Plugin oder die
Extension auch Daten an einen Drittserver
44:21 - 44:25

schickt, bei jeder aufgerufenen URL. Wobei
man sagen muss, dass jetzt aus den 500
44:25 - 44:30

untersuchten Extension nur einige dabei
waren, die wirklich eventuell schadhaftes
44:30 - 44:34

Verhalten zeigen. D.h. die
Wahrscheinlichkeit, dass man sich mit
44:34 - 44:37

Extension infiziert, in dem man Sachen
runterlässt aus dem Webstore ist aktuell
44:37 - 44:44

noch relativ gering, scheint aber größer
zu werden. So, die letzte Frage ist
44:44 - 44:49

natürlich: Wie oder kann ich mich
überhaupt gegen so etwas schützen? Und
44:49 - 44:54

ich denke, daß in einigen Jahren es trotz
client-seitigen blockierens von Trackern
44:54 - 44:58

immer schwieriger sein wird sich als
Nutzer anonym im Internet zu bewegen, weil
44:58 - 45:02

es, wie wir gesehen haben, anhand von
einigen wenigen Datenpunkten möglich ist,
45:02 - 45:06

eine Identifikation von an sich
anonymisierten Daten herzustellen.
45:06 - 45:10

Dh. selbst wenn ich mit einem Tracker
oder eine Extension sämtliche Tracker
45:10 - 45:13

blockiere, habe ich immer noch solche
Dinge wie: meine IP-Adresse, meinen
45:13 - 45:17

User-Agent und die Kombination aus
mehreren solchen Eigenschaften kann schon
45:17 - 45:21

ausreichen, um mich wieder eindeutig zu
identifizieren in größeren Datensätzen.
45:21 - 45:26

D.h. wenn ich wirklich sicher im Internet
unterwegs sein möchte, müsste ich
45:26 - 45:29

zumindest darauf achten, dass ich
möglichst viele dieser Eigenschaften
45:29 - 45:33

ständig rotiere und ändere in dem
ich bspw. VPN-Lösungen benutze, die auch
45:33 - 45:38

rotierende IP-Adressen verwenden. Wobei
das auch keine Garantie natürlich ist,
45:38 - 45:42

dass man nicht getrackt werden kann.
D.h. es wird also immer schwieriger sich
45:42 - 45:48

im Internet zu bewegen, ohne dem Risiko
der Deanonymisierung ausgesetzt zu sein.
45:48 - 45:57

S: Genau, was ist so das Ergebnis von der
Recherche gewesen? Also WOT verschwand
45:57 - 46:02

relativ kurz nach der Veröffentlichung
des Berichts zunächst mal aus dem
46:02 - 46:09

Chrome-Webstore und aus dem Mozilla-Store
und es haben natürlich sehr viele Nutzer
46:09 - 46:13

wie verrückt Plugins deinstalliert.
Deswegen können wir davon ausgehen, dass
46:13 - 46:20

auch der Datenstrom dann eingebrochen ist.
Aber natürlich die Plugins, die weiterhin
46:20 - 46:26

installiert sind und Nutzer, die es jetzt
nicht deinstalliert haben, da läuft es
46:26 - 46:31

natürlich weiter. Und auch inzwischen,
jetzt ein paar Wochen nach der Recherche,
46:31 - 46:40

ist WOT wieder im Google-Chrome-Store
verfügbar. So mein persönliches Fazit
46:40 - 46:46

daraus ist, ein Stück weit defend
yourself. Sprich, Andreas hatte schon
46:46 - 46:51

angedeutet, man kann sich nicht auf die
Stores verlassen, man muss sich ein Stück
46:51 - 46:56

weit selbst schützen und selbst
überlegen, was kann ich tun um dieser
46:56 - 47:01

Überwachung zu entgehen. Ja, also wir
sind recht am Ende von unserem Talk aber
47:01 - 47:05

trotzdem ganz wichtig nochmal der Dank an
ein relativ großes Team was uns
47:05 - 47:09

unterstützt hat in dieser Zeit ja vor
allem meine Kollegin die Jasmin Klofta
47:09 - 47:12

sitzt in der ersten Reihe, ja Dankeschön.
47:12 - 47:18

Applaus
47:30 - 47:33

Herald: So, wir haben noch ein wenig Zeit
für Fragen.
47:33 - 47:36

Wer eine Frage hat, bewegt sich bitte zu
47:36 - 47:45

bitte zu einem der Mikrofone. So, ich sehe
Bewegung. Aber ein paar flüchten erstmal.
47:45 - 47:53

War vielleicht doch nicht ganz so einfach
für die Nichtdeutschsprachigen., aber sehr
47:53 - 47:56

spannend. Dahinten haben wir
eine Frage an Mikrofon 6 bitte.
47:56 - 48:02

Mikrofon 6: Hallo, angenommen die Person,
über die man die öffentlichen Daten
48:02 - 48:06

sammelt, ist nicht im Pool von den
anonymisierten Daten. Dann gibts ja eine
48:06 - 48:10

Möglichkeit für einen False-Positive.
Oder kann man das ausschließen?
48:10 - 48:15

A: Ja, natürlich gibt es auch die
Möglichkeit von einem False-Positive. Das
48:15 - 48:21

das hängt natürlich immer ein bisschen von
der Nutzung der Daten ab, ob das
48:21 - 48:25

problematisch ist oder nicht für den
Anbieter. Es kann ja auch sein, wenn ich
48:25 - 48:29

Bspw. Nutzern Werbung anzeigen möchte, es
vielleicht auch gut genug ist, wenn ich
48:29 - 48:33

den Nutzer mit einer Wahrscheinlichkeit
von 10% schon identifiziere.
48:33 - 48:35

D.h. ich kann auch mit False-Positives
48:35 - 48:36

oder der Anbieter kann auch mit
48:36 - 48:38

False-Positives entsprechend leben.
48:38 - 48:39

Aber es ist natürlich immer die
48:39 - 48:41

Möglichkeit gegeben, das der Nutzer,
48:41 - 48:43

wenn er nicht in dem Datensatz vorhanden
48:43 - 48:45

ist, auch entsprechend identifiziert wird,
48:45 - 48:49

obwohl gar nicht drin ist. Und das kann
natürlich für den Nutzer selber zu großen
48:49 - 48:51

Problemen führen. Wenn ich da Bspw. an
Credit-Scoring denke,
48:51 - 48:52

über Machinelearning,
48:52 - 48:56

wo ich also vielleicht mit jemandem in
Verbindung gebracht werde, der ich gar
48:56 - 49:00

nicht bin und Datenpunkte, die ich nicht
kontrollieren kann, entsprechend meine
49:00 - 49:03

Kreditwürdigkeit dann beeinflussen kann.
49:03 - 49:07

Herald: Gut, an Mikro 3 bitte.
49:07 - 49:13

Mikrofon 3: Meine persönliche Frage ist,
was genau kostet das? Also kann sich eine
49:13 - 49:18

kleinere, mittelgroße, Privatdetektei die
auf Datenschutz scheißt, können die sich
49:18 - 49:19

Zugang holen?
49:19 - 49:24

S: Ja, weiß nicht was die für ein Budget
haben aber diese Daten werden lizensiert.
49:24 - 49:30

I.d.R. zahlt man für die Lizenz so für
einen Monat und im Jahr ist das so
49:30 - 49:34

im 6-stelligen Bereich.
49:34 - 49:37

Mirofon 2:
Sie hatten von den 10 Schlimmsten
49:37 - 49:39

gesprochen, aber die Liste vergessen.
49:39 - 49:41

Lachen
Applaus
49:41 - 49:45

A: Den 10 Schlimmsten, ach so, ja.
49:45 - 49:48

Applaus
S: lachen genau
49:48 - 49:51

A: Also wir haben auch lange überlegt ob
wir die Extensions entsprechend
49:51 - 49:55

veröffentlichen können, wir haben
allerdings noch keine Zeit gehabt jetzt
49:55 - 49:58

eine detaillierte Analyse zu machen. Und
ich möchte keine Namen jetzt nennen von
49:58 - 50:02

Dingen, wo sich am Ende herausstellt, dass
es eigentlich gar nicht problematisch ist.
50:02 - 50:04

Wir werden auf jeden Fall dran
bleiben und versuchen alle von diesen
50:04 - 50:08

Extension, die in dem Datensatz drin sind
zu identifizieren. Aber wir wollen
50:08 - 50:12

natürlich eine Gewissheit haben, dass auch
entsprechend wir die korrekten Extensions
50:12 - 50:15

rausfiltern können, bevor wir
die Namen dann veröffentlichen.
50:15 - 50:21

Applaus
50:21 - 50:24

Herald: So, wir haben auch Fragen aus dem
Internet. Eine mal dazwischen.
50:24 - 50:31

Signal Engel: Also ich nehme jetzt mal ein
paar Fragen aus dem Internet zusammen.
50:31 - 50:35

Im wesentlichen lässt sich das
runterdampfen auf: Gibt es irgendwelche
50:35 - 50:39

technischen, juristischen oder sonstwie
gearteten Mittel um sich davor zu
50:39 - 50:44

schützen, oder dagegen vorzugehen? Oder
wurde da schon versucht da z.B. zu klagen?
50:44 - 50:46

A: Möchtest du das beantworten?
50:46 - 50:50

S: Ja, also einen Teil kann ich
beantworten. Also jetzt von unseren
50:50 - 50:55

Betroffenen hat da noch niemand geklagt.
So technisch gibt es natürlich
50:55 - 50:58

Möglichkeiten sich zu schützen.
Zumindest ein gutes Stück weit.
50:58 - 51:02

A: Ja, es gibt für den Nutzer natürlich
bedingte Möglichkeiten sich zu schützen.
51:02 - 51:06

Das Problem ist ja, das viele Nutzer das
Problem gar nicht kennen oder nicht sich
51:06 - 51:09

bewusst sind, dass ihre Daten entsprechend
gesammelt werden. Da ist also im
51:09 - 51:12

Zweifelsfall die Verantwortung bei den
Browser-Herstellern und wir sind auch ein
51:12 - 51:15

bisschen enttäuscht darüber, dass
Web-Of-Trust wieder in dem Chrome-Store
51:15 - 51:19

drin ist und auch weiterhin fleißig Daten
sammelt. Und auch die entsprechenden
51:19 - 51:20

Extensions, die schon vorher installiert
51:20 - 51:23

wurden, auch nicht entfernt wurden in dem
51:23 - 51:24

Sinne. D.h. im Zweifelsfalle ist wirklich
51:24 - 51:26

der Hersteller des Browsers am besten in
51:26 - 51:29

der Lage, den Nutzer vor solcher
Schadsoftware zu schützen, indem er ein
51:29 - 51:33

korrektes Auditing von den Extensions
durchführt, bevor sie in dem Store landen
51:33 - 51:35

und auch entsprechende Extensions,
51:35 - 51:37

die gegen diese Bedingungen verstoßen
51:37 - 51:38

schnell wieder entfernt.
51:38 - 51:42

S: Und es macht auch Sinn sich mal
verschiedene Browser, Browseranbieter
51:42 - 51:47

anzuschauen, weil es gibt ja auch neben
den Großen Kleinere, die noch mal mehr Wert
51:47 - 51:51

legen eben darauf, dass man z.B. gar
keine Plugins installieren kann.
51:51 - 51:57

Herald: An Nummer 5 bitte.
51:57 - 52:02

Mikrofon 5: Gibt es die Möglichkeit, dass
ihr die Liste, die ihr für eure Recherche
52:02 - 52:06

erstellt habt, von Unternehmen die Daten
verkaufen, veröffentlicht. Quasi als
52:06 - 52:11

not-to-work-for-Liste. Ich mein unsereins
baut ja im Zweifelsfall irgendwelchen
52:11 - 52:14

Scheiß, also liegt es
auch an uns es zu lassen.
52:14 - 52:18

Applaus
52:18 - 52:24

S: Ja, es fehlt natürlich ein Name, hier
in diesem ganzen Vortrag. Der Name des
52:24 - 52:26

Datenhändlers oder auch tatsächlich die
52:26 - 52:28

Namen der Firmen mit denen ich auch ein
52:28 - 52:29

bisschen ernsthafter ins Geschäft
gekommen bin.
52:29 - 52:31

Das sind eigentlich juristische
52:31 - 52:34

Gründe, warum wir das nicht
veröffentlichen können oder dürfen.
52:34 - 52:37

Einfach, ehrlich gesagt aus Furcht vor
52:37 - 52:42

diesen Unternehmen, aus sozusagen
Angst vor Klagen, die da kommen können.
52:42 - 52:47

Und deshalb sieht es
zumindest im Moment so aus, als dürften
52:47 - 52:51

wir die Namen nicht veröffentlichen. Aber
das ist noch work-in-progress sage ich mal.
52:51 - 52:54

Zwischenruf

Wikiwleaks
52:54 - 52:54

Lachen
52:54 - 53:00

Applaus
53:00 - 53:03

Engel: Mikro 1
53:03 - 53:08

Mikrofon 1: So einer der Klassiker ist ja
JavaScript aus und Cockies aus und nur für
53:08 - 53:12

irgendwie bestimmte Seiten, denen man
vertraut, zulassen. Jetzt sagen Sie aber
53:12 - 53:16

auch... Aber wie weit würden Sie denn
kommen, wenn man jetzt wirklich sowas
53:16 - 53:21

wegnimmt und nur über ip-basierte Daten
und sowas, wie weit würde man da mit der
53:21 - 53:22

Deanonymisierung kommen?
53:22 - 53:26

A: Also meines Wissens setzen viele
Anbieter bereits Verfahren ein die
53:26 - 53:29

eigentlich nicht mehr auf Cockies
basieren, also nur noch, wenn diese
53:29 - 53:33

verfügbar sind und die statt dessen auf
anderen Identifikationsmerkmalen basieren
53:33 - 53:38

die entsprechend schwerer zu ändern sind.
Bspw: der IP-Adresse, der Device-ID oder
53:38 - 53:42

anderen IDs, die entsprechend fix sind und
getrackt werden können über die Zeit.
53:42 - 53:47

D.h. ist relativ einfach zumindest mit
einer hohen Wahrscheinlichkeit möglich
53:47 - 53:51

Nutzer über verschiedene Endgeräte zu
identifizieren. Und ich kann mich
53:51 - 53:55

natürlich über das Client-Seitige
Browser-Tracking schützen, aber das heißt
53:55 - 53:59

nicht, dass ich mich gegen diese anderen
Tracking-Maßnahmen auch schützen kann.
53:59 - 54:01

Engel: Mikro 6.
54:01 - 54:10

Mikrofon 6: Zur Deanonymisierung. Ist es
möglich, so Deanonymisierung, stark zu
54:10 - 54:17

erschweren oder zu verhindern durch so
Methoden wie Differential Privacy?
54:17 - 54:21

A: Ja, dass ist in bestimmten Kontexten
anwendbar. Hier bei den Daten ist das
54:21 - 54:25

Problem, dass ich selbst als Nutzer
eigentlich nicht kontrolliere, was ich von
54:25 - 54:29

mir generiere, weil die Daten entweder
unbewusst oder ohne meine Zustimmung
54:29 - 54:34

erhoben werden. D.h. das einzige was ich
tun kann als Nutzer ist zusätzlich
54:34 - 54:38

Datenenpunkte zu liefern, ich habe aber
keine Möglichkeit Datenpunkte zu fälschen
54:38 - 54:43

oder nur in sehr geringem Umfang zumindest
oder auch Datenpunkte wieder zu entfernen.
54:43 - 54:49

D.h. in dem Sinne wäre das vermutlich eher
weniger angebracht aber klar im
54:49 - 54:52

Zweifelsfall ist es immer besser möglichst
wenige Informationen rauszugeben.
54:52 - 54:55

Obwohl eigentlich schon ausreicht wenige
54:55 - 54:59

kleine Informationsschnipsel zu haben,
die man dann relativ schnell auch
54:59 - 55:01

zusammen fügen kann, wie wir gesehen
haben.
55:01 - 55:03

D.h. es ist auch wirklich schwer
abzuschätzen und
55:03 - 55:05

hängt auch immer sehr stark von der Natur
55:05 - 55:10

des Datensatzes ab, wie verräterisch
einzelne Datenpunkte von mir sein können.
55:10 - 55:13

Engel: Mikro 5.
55:13 - 55:18

Mikrofon 5: Ich würde gerne ein bisschen
eine naive Frage stellen. Wieso ist das
55:18 - 55:23

eigentlich quasi möglich oder erlaubt,
also die juristische Frage. Und auf der
55:23 - 55:27

anderen Seite, scheint mir doch ein
gewisses Gefälle zu sein zu dem, was auf
55:27 - 55:32

der einen Seite gemacht wird und sie die
jetzt Sorge haben, diese Namen zu nennen,
55:32 - 55:35

auf der anderen Seite, da scheint es mir
ein gewisses juristisches Gefälle
55:35 - 55:38

zu geben, das ich gerne verstehen würde.
55:38 - 55:44

Applaus
55:44 - 55:48

S: Sehr gute Frage, vielen Dank dafür. Wir
haben tatsächlich diesen juristischen
55:48 - 55:51

Aspekt für diesen Vortrag ein Stück weit
ausgeklammert.
55:51 - 55:53

Und der ist aber trotzdem hochspannend.
55:53 - 55:58

Und wir haben viele Gespräche mit
Datenschützern darüber geführt,
55:58 - 56:02

mit Juristen darüber geführt und haben
tatsächlich auch Paragraphen gewälzt weil
56:02 - 56:06

uns genauso diese Frage beschäftigt hat,
kann das überhaupt erlaubt sein. Also
56:06 - 56:11

zumindest was man für Deutschland sagen
kann, das ist nicht erlaubt. Und zwar ganz
56:11 - 56:15

einfach aus dem Grund, weil keiner der
Nutzer irgendwo dazu zugestimmt hat. Also
56:15 - 56:19

keiner der Nutzer hat, die wir besucht
haben, hat irgendwo irgendwas angeklickt:
56:19 - 56:23

„Ja ich möchte bitte, dass meine Daten in
diesem Umfang...“ Keiner. Und das kann
56:23 - 56:30

sogar nach Aussage vom Datenschützer
eventuell strafrechtlich relevant sein,
56:30 - 56:39

also sprich in Richtung Abhören gehen.
Bislang hat sich noch niemand berufen
56:39 - 56:46

gefühlt, da tatsächlich Klage oder Anklage
zu führen. Was wir jetzt sozusagen machen
56:46 - 56:50

trägt ja vielleicht dazu bei, dass es mal
eine Eingabe gibt beim Datenschützer und
56:50 - 56:52

dass tatsächlich sich auch
mal jemand dahinter klemmt.
56:52 - 56:56

A: Gerade bei Ausländischen Unternehmen
ist es natürlich immer sehr schwierig
56:56 - 57:00

auch entsprechend eine Handhabe zu
bekommen, um die auch juristisch belangen
57:00 - 57:04

zu können. D.h. da ist auch nochmal
sicherlich ein Gefälle vorhanden und auch
57:04 - 57:09

die Strafen, die Unternehmen im
Zweifelsfall drohen, sind im Vergleich zu
57:09 - 57:13

dem Schaden, der oder zu dem Risiko, das
Jemand eingeht, indem er diese Dinge
57:13 - 57:17

veröffentlicht, eigentlich relativ gering.
Weswegen es auch relativ wenig zu solchen
57:17 - 57:18

Dingen kommt, denken wir.
57:18 - 57:21

Engel: Gut, ich denke wir haben
noch Zeit für zwei Fragen.
57:21 - 57:23

Wir haben noch eine
aus dem Internet.
57:23 - 57:27

Signal Engel: Das Internet lässt fragen,
in wie fern man sein eigenen
57:27 - 57:30

Informationen, sofern sie auftauchen, von
euch bekommen kann oder auch nicht.
57:30 - 57:33

A: Uh... schwierige Frage.
57:33 - 57:34

Applaus
57:34 - 57:41

S: Das ist recht einfach die Antwort. Gar
nicht. Die Daten gibts nicht mehr. Sorry.
57:41 - 57:42

Applaus
57:42 - 57:50

Herald:
Kommen wir zu unserer letzten Frage.
57:50 - 57:57

Mikrofon: Ja, also, Hallo, hört man das?
Ok. Ich bin dann immer ein Freund von
57:57 - 58:02

Selbstverteidigung und so wie sie sagten,
aber die Frage ist, ist das überhaupt
58:02 - 58:06

möglich? Also ich würde sagen, dass Thema
ist so komplex, dass sich wahrscheinlich
58:06 - 58:10

die meisten, die hier sind, nur dann
schützen können, wenn sie wirklich viel
58:10 - 58:17

Zeit reinstecken in diese Arbeit. Und ich
frage mich: meine Mutter, mein Vater, mein
58:17 - 58:19

Onkel, wie sollen die
sich vor sowas schützen?
58:19 - 58:22

A: Willst du oder soll ich?
S: Ja, mach ruhig.
58:22 - 58:26

A: Ja, das ist das Problem, dass ich auch
eben kurz angesprochen habe. Und zwar,
58:26 - 58:30

dass viele Nutzer auch gar nicht wissen,
dass sie getrackt werden und auch nicht
58:30 - 58:34

die technischen Kenntnisse haben, um sich
effektiv gegen sowas zu schützen. Wir
58:34 - 58:38

haben ja gesehen, obwohl die Leser von
Fefes-Blog eher technik-affin sind, gibts
58:38 - 58:42

immer noch 3.000 Nutzer, die in dem
Datensatz auftauchen, die also auch
58:42 - 58:46

getrackt wurden in dem Sinne. D.h. dass
selbst Leute mit IT-Kenntnissen und
58:46 - 58:50

IT-Sicherheitserfahrung sind nicht dagegen
gefeit auch entsprechend getrackt zu
58:50 - 58:54

werden. Weil es auch unglaublich schwierig
ist, auch für mich, sämtliche Methoden
58:54 - 58:58

nachzuvollziehen und immer auf dem
aktuellen Stand zu sein. Und es ist auch
58:58 - 59:02

sehr schwer abschätzbar, was man mit den
Daten eigentlich machen kann. Also es
59:02 - 59:06

stimmt wirklich, ja, es ist wirklich, es
gibt keine gute Lösung momentan dafür.
59:06 - 59:11

Herald: So es gibt zwar noch weitere
Fragen aber die Zeit ist leider vorbei.
59:11 - 59:15

Wer noch fragen an die Beiden hat, kann
hier gleich einfach kurz nach vorne
59:15 - 59:18

kommen. Erstmal möchte ich mich aber
herzlich bei euch beiden für diesen
59:18 - 59:20

spannenden und interessanten
Vortrag bedanken.
59:20 - 59:37

Applaus
59:37 - 59:43

Abspannmusik
59:43 - 60:01

Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!

Title:: Build your own NSA (33C3)
Description:: https://media.ccc.de/v/33c3-8034-build_your_own_nsa

How private companies leak your personal data into the public domain, and how you can buy it.

When thinking about surveillance, everyone worries about government agencies like the NSA and big corporations like Google and Facebook. But actually there are hundreds of companies that have also discovered data collection as a revenue source. We decided to do an experiment: Using simple social engineering techniques, we tried to get the most personal you may have in your procession.

['Andreas Dewes', '@sveckert']

more » « less
Video Language:: German
Duration:: 01:00:01

	C3Subtitles edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)
	ave edited German subtitles for Build your own NSA (33C3)

Show all

German subtitles

Revisions

Revision 49 Edited

C3Subtitles

Build your own NSA (33C3)

Revisions

Our website uses cookies

Operating cookies (Required)