Build your own NSA (33C3)
-
0:00 - 0:1333C3 Vorspannmusik
-
0:13 - 0:19Herald: Ich habe vorhin erzählt, dass
Snowden uns heute zugeschaltet wurde und -
0:19 - 0:30er hat uns aufgerufen, etwas zu tun. Heute
hören wir hier einen Talk, und zwar „build -
0:30 - 0:37your own NSA“ – „baue deine eigene NSA“.
Geheimdienste sammeln Daten, aber sie sind -
0:37 - 0:42nicht die Einzigen. Es gibt auch die so
genannten Datenkraken – an wen denken wir -
0:42 - 0:49da alle? An Google, an Facebook. Wer hier
hat einen Google-Account, Hände hoch, -
0:49 - 1:01traut euch! Des sind ganz schön viele. Wer
hat einen Facebook-Account? Es sind -
1:01 - 1:07allerdings nicht nur die großen Firmen wie
Facebook oder Google, die Daten sammeln. -
1:07 - 1:12Es sind auch die kleineren Firmen oder
unbekannte, wo wir die Namen noch nie -
1:12 - 1:15gehört haben und Leute, wo wir es nicht
erwarten, wie zum Beispiel ich auf der -
1:15 - 1:19Bühne. Ich weiß jetzt wer einen Google-
und wer einen Facebook-Account bei euch -
1:19 - 1:22hat. Vielen Dank für die Info.
-
1:22 - 1:26Diese Firmen, oder auch ich,
könnte jetzt hingehen, -
1:26 - 1:32diese Daten tauschen oder einfach
an die Leute die zahlen, verkaufen. -
1:32 - 1:37Mein kleines Experiment hier war
ziemlich lächerlich und natürlich banal, -
1:37 - 1:44aber Svea Eckert und Andreas
Dewes haben ein größeres -
1:44 - 1:50Experiment gemacht mit einfachen Techniken
des Social Engineerings und rausgefunden, -
1:50 - 1:55was für Daten gesammelt werden können.
In diesem Talk werden sie uns nicht nur -
1:55 - 2:01erzählen, wer, warum und wie Daten sammelt
sondern ob es auch noch eine Möglichkeit -
2:01 - 2:08gibt, unsere Privatsphäre zu schützen.
Andreas ist Data Scientist und entwickelt -
2:08 - 2:15Technologien, damit wir Wissen aus
Daten extrahieren können. Svea ist -
2:15 - 2:21freiberufliche Journalistin und
recherchiert IT-Themen und berichtet -
2:21 - 2:25darüber für die Tagesschau und die
Tagesthemen. Sie hat auch mitgewirkt bei -
2:25 - 2:32Dokumentationen zu Themen wie Wikileaks,
Facebook und dem NSA-Skandal, wo gerade -
2:32 - 2:37Edward Snowden einen großen Teil
eingenommen hat. Ich freue mich herzlich, -
2:37 - 2:42die beiden hier zu begrüßen und bitte euch
jetzt um einen ganz, ganz lauten Applaus -
2:42 - 2:45für die beiden und wünsche
euch allen viel Spaß. -
2:45 - 2:50Applaus
-
2:50 - 2:57Svea Eckert: Danke.
Andreas Dewes: Ja, hallo zusammen, also -
2:57 - 3:02wir freuen uns natürlich, dass wir hier
sein dürfen heute, ich hab wie gesagt die -
3:02 - 3:05Datenanalyse für die Recherche
hier gemacht und darf mich daher -
3:05 - 3:08erstmal entspannen jetzt und
übergebe dann das Wort an Svea. -
3:08 - 3:13S: Ja ich bin Svea Eckart, arbeite für den
NDR, beziehungsweise die ARD, und wir haben -
3:13 - 3:16’ne große Recherche gemacht, die ging
über den ganzen Sommer und mündete in -
3:16 - 3:20der relativ aufsehenerregenden
Berichterstattung Anfang November unter -
3:20 - 3:27dem Hashtag #NacktImNetz – der Eine oder
Andere hat vielleicht dazu sogar was -
3:27 - 3:34gesehen. Was wir wissen: Also: Wir wissen,
dass, wenn wir uns im Netz bewegen dass -
3:34 - 3:40Firmen das mitbekommen. Dass Firmen unser
Verhalten aufzeichnen und zumindest ein -
3:40 - 3:46Stück weit sind da verschiedene Parteien
beteiligt, die sehen, auf welcher Webseite -
3:46 - 3:52wir z. B. sind. Also hier jetzt mit einem
kleinen Tool, nur so kurz analysiert, sind -
3:52 - 3:58das jetzt 68 Parteien, die wissen, dass
ich auf dieser Webseite bin und die zum -
3:58 - 4:03Teil auch die Möglichkeit haben, mich
durchs Netz zu verfolgen. Ich denke, jeder -
4:03 - 4:10hier im Publikum weiß das und – also das
ist bekannt. Trotzdem stört es die -
4:10 - 4:15Allerwenigsten Also die allermeisten
Internetnutzer sagen „Ich habe doch nichts -
4:15 - 4:20zu verbergen“ „Da wird schon nichts böses
damit passieren, die machen ja nichts -
4:20 - 4:24mit meinen Daten, is ja sowieso nur für
Werbezwecke“ Und wenn man mal in der -
4:24 - 4:31Industrie nachfragt, dann ist die Aussage
„Also diese Daten werden total gut -
4:31 - 4:36anonymisiert“ „Da stecken wir ganz,
ganz großen Aufwand rein“ „Und -
4:36 - 4:45verkaufen? Das macht niemand!“ „Sowas
würde niemand tun“ Wirklich? Das -
4:45 - 4:50wollten wir genauer wissen: Wie komme
ich an solche Daten? Ich gründe eine -
4:50 - 4:57Firma. Ich habe also im Juli eine
Webseite aufgesetzt – das ist relativ -
4:57 - 5:04trivial. Content Management System, paar
schöne Fotos, Stockphotos und ein -
5:04 - 5:09bisschen Marketing-Sprech. Meine Firma
„Meez Technology“, die Vereinigung von -
5:09 - 5:18Technologie und Kreativität, macht
Data-Driven-Consulting und bot Kunden an, -
5:18 - 5:22Customized-Campaigns zu machen.
Was brauchen wir dafür? Ganz viele -
5:22 - 5:28Nutzer-Daten. Und diese Nutzer-Daten, an
die wollte ich gelangen. Da brauchte ich -
5:28 - 5:34eine tatkräftige Mitarbeiterin, hier ist
sie. Ich habe sie mitgebracht: Anna. -
5:34 - 5:42“Hello, Anna Rosenberg speaking! Hello,
hello?” Anna Rosenberg arbeitet also für -
5:42 - 5:47Meez Technology, sitzt in Tel Aviv,
-
5:47 - 5:50spricht kein Wort Hebräisch,
konnte ich mir dann -
5:50 - 5:53nicht aneignen für die Recherche,
war aber nicht schlimm, -
5:53 - 5:56hat auch niemand nachgefragt
-
5:56 - 5:59und ich hatte Tel Aviv ausgesucht,
obwohl ich die Stadt eigentlich -
5:59 - 6:03gar nicht kenne, aber ich hatte
Tel Aviv ausgesucht, weil mir -
6:03 - 6:06jemand sagte, Israel sei
ziemlich gut für Daten, -
6:06 - 6:10da wär man nicht so spitzfindig und ich
sollte ja kein deutsches Unternehmen -
6:10 - 6:14gründen sonst würde ich gar nichts
bekommen. Also habe ich Meez Technology in -
6:14 - 6:20Israel angesiedelt und Anna Rosenberg
hat sich auf Telefon-Jagd gemacht. -
6:20 - 6:24Das waren die Firmen, die in
Frage kamen. Die Firmen, die -
6:24 - 6:30von uns Internetnutzern Daten
sammeln, die Daten verarbeiten. -
6:30 - 6:36Meine Frage an diese Firmen war,
ob sie mir als junges, aufstrebendes -
6:36 - 6:41Startup ihre Daten verkaufen würden.
Oder viel eher noch, ob sie mir ein -
6:41 - 6:46kostenloses Sample geben würden,
weil ohne ein kostenloses Sample könnte -
6:46 - 6:50ich die Qualität der Daten gar nicht
beurteilen. Ich habe ziemlich viele von -
6:50 - 6:55diesen Firmen angerufen, angeschrieben,
deren Webseiten mir angeschaut. Ihr seht -
6:55 - 7:01dass es ein gigantisches Universum ist und
es sind noch längst nicht alle. Besonders -
7:01 - 7:07interessant sind diese Firmen hier. Die
machen sozusagen, die analysieren den -
7:07 - 7:14Internetmarkt, reichern Daten an, das sind
so ziemlich wichtige Player in diesem -
7:14 - 7:16ganzen Spiel. Weil um den Internetmarkt
zu analysieren, -
7:16 - 7:19brauchen die sehr viele Daten.
-
7:19 - 7:23Und, Ja, der eine oder andere war dann
auch tatsächlich bereit, -
7:23 - 7:27mir ein kostenloses Sample
zur Verfügung zu stellen, -
7:27 - 7:30damit ich die Güte, die Qualität
seiner Daten -
7:30 - 7:37einordnen konnte. Also ein kostenloses
Sample. Dieses Sample kam dann auch. Also -
7:37 - 7:42eines ist besonders groß, deswegen ist es
auch das, worüber wir dann sprechen. -
7:42 - 7:49Was war da drin? Also wir hatten 14
Tage so eine Art quasi Live-Zugriff auf -
7:49 - 7:54Nutzerdaten. Sprich: Nutzerdaten, die sich
immer wieder aktualisiert haben, die immer -
7:54 - 8:03wieder frisch waren. Das waren 3 Millionen
deutsche Nutzer in diesem Datensatz und -
8:03 - 8:09das waren sozusagen die
Klickstream-Daten von einem Monat. -
8:09 - 8:16Das Klick-Stream ist sozusagen das
Buzzword für Browser-History. -
8:16 - 8:20Am Anfang sind wir relativ explorativ
mit diesem Datensatz umgegangen -
8:20 - 8:26haben einfach mal ge-grep-t, und mal
geschaut was passiert denn, wenn wir in -
8:26 - 8:31diesem Datensatz nach @polizei.de suchen.
Ich setz meine Brille wieder ab, weil -
8:31 - 8:40Annas Teil ist nämlich jetzt durch. So,
alles was ge-x-t ist, hab ich gemacht, um -
8:40 - 8:46die Privatsphäre dieser Person zu
schützen. So sieht das dann aus, wenns ein -
8:46 - 8:54bisschen aufbereitet ist. Man sieht jetzt
hier z. B. 01.08.2016 05:17 Uhr: Rechner -
8:54 - 9:01an, Google. Dann wird relativ schnell nach
einem Auto geschaut. 05:30 Uhr: Das habe -
9:01 - 9:04ich jetzt mal offen gelassen, kann man
dann auch alles gleich eingeben. -
9:04 - 9:08Ah, alles klar, er sucht einen Volkswagen
-
9:08 - 9:16in der und der Kategorie. Interessant.
Gut, jetzt wollen wir natürlich wissen: -
9:16 - 9:21Was hat der mit der Polizei zu tun?
Was für ein Mensch steckt -
9:21 - 9:28hinter diesen Daten? Und wenn man jetzt
sozusagen sich da mal ein bisschen durch -
9:28 - 9:33scrollt durch diese Daten – ich hab das
jetzt als Screen-Video gemacht, damit man -
9:33 - 9:38mal so ein bisschen auch besser die
Dimensionen begreifen kann, wie groß die -
9:38 - 9:43Tiefe dieser Daten ist und wie intensiv
die sind. Man kann also gucken: Was liest -
9:43 - 9:49der, was sucht der und irgendwann ist er
mal auf der Webseite von der deutschen -
9:49 - 9:57Polizeigewerkschaft und auf dem deutschen
Beamtenbund. Könnte ja ein Polizist sein. -
9:57 - 10:01Schauen wir doch mal nach so einem
typischen Wort wie Ermittlungsverfahren -
10:01 - 10:13Ah! Ok. Ein Google-Translate-Link.
Gelächter + Applaus -
10:13 - 10:20Schauen wir doch mal. Schmeißen wir
es mal in den Decoder. Da ist es! -
10:20 - 10:23„Sehr geehrte Damen und Herren,
im Rahmen eines hier bearbeiteten -
10:23 - 10:26Ermittlungsverfahrens wegen
Computerbetrugs“ – Aktenzeichen habe ich -
10:26 - 10:31jetzt rausgenommen – „benötige ich
Bestandsdaten zu folgender IP-Adresse“ -
10:31 - 10:37– habe ich rausgenommen – Zeitstempel
Und netterweise hat dieser Nutzer in -
10:37 - 10:42Google-Translate auch seine
E-Mail-Adresse mit übersetzen lassen, -
10:42 - 10:48seinen Vor- und Nachnamen, den Ort und
die Telefonnummer … So. -
10:48 - 10:55Applaus
-
10:55 - 11:02Wir können jetzt schauen: Was erfahren wir
über diesen Menschen in diesen Daten? -
11:02 - 11:09Können also noch mal weiter
scrollen durch sein Leben im Netz. -
11:09 - 11:16Und sehen, dass er arbeitet,
also sehen, ungefähr, dass er -
11:16 - 11:22Malware-Submissions macht z. B., dass er
IP-Adressen verfolgt, aber auch, dass er -
11:22 - 11:26SWR hört und natürlich so die
-
11:26 - 11:29Peinlichkeiten im Leben
-
11:29 - 11:47Lachen - Applaus
-
11:47 - 11:52Sind da natürlich auch drin.
-
11:52 - 11:55Jetzt haben wir nur mal nach
@polizei.de gesucht. -
11:55 - 11:59Was wäre, wenn wir mal hier gucken?
-
11:59 - 12:00Haben wir auch gemacht.
-
12:00 - 12:02So sieht dann so eine Abfrage aus.
-
12:02 - 12:08Wenn man das so, sag ich mal
so, explorativ einfach macht wie wir das -
12:08 - 12:12gemacht haben. Wichtig ist das, was
zwischen den Anführungszeichen steht. -
12:12 - 12:17Man sagt mit diesem Befehl dem Computer:
Gib mir alles, gib mir jeden Nutzer, der -
12:17 - 12:20jemals diese Webseite besucht hat.
-
12:20 - 12:22Und man sieht also, dass auch Leute
-
12:22 - 12:23die, ich würde mal sagen,
-
12:23 - 12:25sicherheitskritisch sind,
-
12:25 - 12:30in diesen Daten drin sind.
-
12:30 - 12:32Was passiert nur, wenn man all diese
-
12:32 - 12:35Nutzer deanonymisieren würde?
-
12:35 - 12:39Könnte man sie denn
alle deanonymisieren? -
12:40 - 12:45Andreas: Ja, wie wir gesehen
haben, ist es im besten Fall etwas -
12:45 - 12:48peinlich, wenn man als Nutzer in solchen
Daten identifiziert wird. -
12:48 - 12:49Schlimmstenfalls kann es auch gefährlich
-
12:49 - 12:51sein für die eigene Person.
-
12:51 - 12:53Deswegen möchte ich in den nächsten
-
12:53 - 12:5415 min ein bisschen darauf eingehen,
-
12:54 - 12:56was Deanonymisierung eigentlich heißt,
-
12:56 - 12:58wie das funktioniert und was das
-
12:58 - 12:59Problem dabei ist.
-
12:59 - 13:02Dafür können wir anfangen
mit dem Datensatz. -
13:02 - 13:04Also es gibt immer einen Datensatz
-
13:04 - 13:08von anonymisierten Nutzerdaten am Anfang,
-
13:08 - 13:09den man analysieren möchte
-
13:09 - 13:12und dieser Datensatz enthält
-
13:12 - 13:12viele verschiedene Eigenschaften und
-
13:12 - 13:15
einige von diesen Eigenschaften zumindest -
13:15 - 13:16sind sensitiv, das heißt, sie sind nach
-
13:16 - 13:19Datenschutzrecht geschützt und dürfen
-
13:19 - 13:23nicht mit einer bestimmten Person
verknüpft werden, weswegen der Datensatz -
13:23 - 13:24ja im Endeffekt auch anonymisiert wurde.
-
13:24 - 13:27Und statt einer Zuordnung zu einer
-
13:27 - 13:29konkreten Person hat man diesen
-
13:29 - 13:31Datensätzen daher einfach beispielsweise
-
13:31 - 13:32eine numerische ID oder einen Identifier,
-
13:32 - 13:35der keine Rückschlüsse—im Idealfall—auf
-
13:35 - 13:37die wirkliche Person, die sich hinter den
-
13:37 - 13:40Daten verbirgt, erlaubt.
-
13:40 - 13:42Auf der anderen Seite habe ich aber auch
-
13:42 - 13:44öffentliche Informationen z. B. aus
-
13:44 - 13:45dem Internet oder anderen Quellen,
-
13:45 - 13:48die ich mir frei zusammensuchen kann und
-
13:48 - 13:50und solche öffentlichen Informationen
-
13:50 - 13:52enthalten auch Eigenschaften von Personen
-
13:52 - 13:54und enthalten zudem oft den Namen oder
-
13:54 - 13:58andere Identifikationsmerkmale der Person,
-
13:58 - 14:00die also Rückschlüsse auf die wirkliche
Person zulassen. -
14:00 - 14:03Und Deanonymisierung beinhaltet in diesem
-
14:03 - 14:08Sinne eine Suche nach Eigenschaften,
die ich in beiden -
14:08 - 14:13Datensätzen entweder direkt oder indirekt
identifizieren kann und die mir erlauben, -
14:13 - 14:18aufgrund von beispielsweise statistischen
Verfahren oder machine learning die -
14:18 - 14:23möglichen Kandidaten aus dem
anonymisierten Datensatz so weit zu -
14:23 - 14:27reduzieren, dass ich mit entweder
absoluter Sicherheit oder mit relativ -
14:27 - 14:30hoher Wahrscheinlichkeit sagen kann,
dass ein Nutzer, den ich hier in den -
14:30 - 14:34öffentlichen Daten gefunden habe,
dem Nutzer -
14:34 - 14:36in dem anonymisierten Datensatz
entspricht. -
14:36 - 14:40In dem Sinne habe ich diesen
User dann deanonymisiert. -
14:44 - 14:46Wie Svea gesagt hatte, ist der Datensatz,
-
14:46 - 14:47den wir bekommen haben, absolut
-
14:47 - 14:50unzureichend anonymisiert worden,
-
14:50 - 14:54d. h., das war sehr, sehr einfach
möglich, aus den URL-Daten, die wir -
14:54 - 14:58erhalten haben, entsprechende Nutzer
und Personennamen zu extrahieren. -
14:58 - 15:01Im Zweifelsfall hat dafür eine einzige URL
ausgereicht. -
15:01 - 15:03Hier habe ich zwei Beispiele.
-
15:03 - 15:05Einmal von Twitter und einmal von XING.
-
15:05 - 15:07Das sind also beides URLs,
-
15:07 - 15:08die Rückschlüsse
-
15:08 - 15:10entweder auf den Nutzernamen
-
15:10 - 15:11oder sogar auf den Klarnamen
-
15:11 - 15:13und weitere Angaben von
-
15:13 - 15:15der Person zulassen.
-
15:15 - 15:17Und das, was die Identifikation
hier ermöglicht, -
15:17 - 15:20ist bei der ersten Adresse oben,
-
15:20 - 15:23dass diese Analytics-Page nur
– im Normalfall – dem -
15:23 - 15:24eingeloggten Benutzer zur Verfügung steht,
-
15:24 - 15:26d.h. wenn ich diese URL in einem Datensatz
-
15:26 - 15:28sehe, kann ich mit relativ hoher
-
15:28 - 15:30Wahrscheinlichkeit davon ausgehen, dass
-
15:30 - 15:31der Nutzername, der hier auftaucht, dem
-
15:31 - 15:34Nutzernamen des anonymisierten Nutzers in
-
15:34 - 15:36meinem Datensatz entspricht.
-
15:36 - 15:39Im zweiten Fall ist es weniger
offensichtlich. -
15:39 - 15:41man kann also nur sehen, dass man hier
-
15:41 - 15:43eine öffentliche Profiladresse hat,
-
15:43 - 15:45die man auch so im Internet finden kann,
-
15:45 - 15:46was aber den Unterschied macht, ist
-
15:46 - 15:50dieses spezielle Query, das hinten
dran hängt, -
15:50 - 15:53und das nur in die URL hinzugefügt wird,
-
15:53 - 15:55wenn ich als eingeloggter Nutzer,
-
15:55 - 15:56auf mein eigenes Profilbild klicke
-
15:56 - 15:58d.h. hier ist wieder mit einer hohen
-
15:58 - 16:01Wahrscheinlichkeit die Möglichkeit
gegeben, einen Nutzer der in -
16:01 - 16:07den Daten drin ist, eindeutig mit dem
Besitzer dieses Profils zu identifizieren. -
16:07 - 16:11Und in unserm Datensatz haben wir über
100.000 Benutzer auf diese Weise -
16:11 - 16:15identifiziert. Wir haben auch die
beiden Firmen übrigens auf diese -
16:15 - 16:19Sicherheitsprobleme aufmerksam gemacht.
XING hat entsprechend schon Änderungen -
16:19 - 16:24eingeführt und Twitter hält es nicht
für ein Problem in diesem Sinne und -
16:24 - 16:28möchte da keine Änderungen machen
aktuell. Also als erstes Take-Away könnte -
16:28 - 16:32man vielleicht von dem Vortrag auch
mitnehmen, dass man bitte, bitte keine -
16:32 - 16:37persönlich identifizierbaren Informationen
in URLs packt. Wenn irgend möglich. -
16:38 - 16:44Natürlich gibt’s noch etwas
weitergehende Verfahren, um auch -
16:44 - 16:49Datensätze zu deanonymisieren, die etwas
besser anonymisiert wurden. -
16:49 - 16:52Eine schöne Arbeit hierzu ist dieses Paper
-
16:52 - 16:54das aus dem Jahr 2007 stammt, und
-
16:54 - 16:56wo sich die Forscher
-
16:56 - 16:57mit einem Datensatz beschäftigt haben,
-
16:57 - 17:00der von Netflix publiziert wurde und
-
17:00 - 17:03der also anonymisierte Bewertungsdaten
-
17:03 - 17:05von Netflix-Usern enthielt.
-
17:05 - 17:08Der Datensatz wurde auf eine
Datenanalyseplattform hochgeladen -
17:08 - 17:11mit dem Ziel, dass andere
Data-Sscientists, -
17:11 - 17:14Datenforscher, sich mit den Daten
auseinandersetzen können und -
17:14 - 17:18auf die Weise bessere Bewertungs-
oder Empfehlungsalgorithmen für neue -
17:18 - 17:24Filme finden können. Und die
Deanonymisierung dieses Datensatzes war in -
17:24 - 17:28diesem Fall möglich ebenfalls durch
die Nutzung von öffentlich verfügbaren -
17:28 - 17:33Informationen – in diesem Fall war das
beispielsweise Bewertungen, die Nutzer auf -
17:33 - 17:38der Plattform IMDB abgegeben haben, wo
also Nutzer auch Filme bewerten können wie -
17:38 - 17:42bei Netflix und wo oft Nutzer-Accounts
oder Konten mit dem wirklichen Namen des -
17:42 - 17:48Benutzers verknüpft sind. Und die
Forscher haben also geschafft, indem sie -
17:48 - 17:52die Bewertung von IMDB herangezogen haben
und diese mit den Bewertungen auf Netflix -
17:52 - 17:57verglichen, die User auf Netflix mit einer
hohen Wahrscheinlichkeit mit den Usern auf -
17:57 - 18:01IMDB zu identifizieren D. h. hier war eine
Deanonymisierung einfach dadurch möglich, -
18:01 - 18:05dass es sehr, sehr viele mögliche
Kombinationen von Filmen gibt und es sehr -
18:05 - 18:09unwahrscheinlich ist, dass zwei Personen
die gleiche Anzahl von Filmen auf die -
18:09 - 18:12gleiche Weise bewertet haben.
-
18:13 - 18:16Und diese Technik kann man auch auf
-
18:16 - 18:18unseren Datensatz anwenden,
-
18:21 - 18:24dieser enthält wie gesagt
ca. 3 Mrd. URLs -
18:24 - 18:27von 9 Mio. Web-Domains und wurde
-
18:27 - 18:29von ca. 3 Mio. Usern generiert.
-
18:31 - 18:33So. Da die Daten wie gesagt
-
18:33 - 18:35unzureichend anonymisiert wurden, haben
-
18:35 - 18:36wir für die weitere Analyse
-
18:36 - 18:37einfach mal angenommen,
-
18:37 - 18:41dass der Anbieter wirklich ein Interesse
daran hätte die Anonymisierung korrekt -
18:41 - 18:45oder möglichst gut durchzuführen und
dementsprechend sämtliche Informationen -
18:45 - 18:48außer der Domain und der Nutzer-ID aus
dem Datensatz entfernt -
18:48 - 18:50d.h. wir haben alle Informationen
weggeworfen, -
18:50 - 18:53bis auf den Fakt:
Hat dieser Nutzer, diese Domain in -
18:53 - 18:55dem Zeitraum besucht?
-
18:55 - 18:56Ja oder nein?
-
18:57 - 18:59So - Also man könnte annehmen, dass diese
-
18:59 - 19:02starke Form der Anonymisierung doch
ausreichend sein sollte, -
19:02 - 19:03um die Nutzer davor zu schützen,
-
19:03 - 19:05wieder deanonymisiert zu werden.
-
19:05 - 19:07Wir haben weiterhin auch eine Auswahl
-
19:07 - 19:09getroffen von 1 Mio. Nutzern,
-
19:09 - 19:12von denen wir über 10 Datenpunkte haben,
-
19:12 - 19:15weil das die Analyse für die weiteren
Schritte vereinfacht und für Nutzer, die -
19:15 - 19:21relativ wenige Datenpunkte haben, auch die
meisten Techniken nicht anwendbar sind. -
19:21 - 19:22So.
-
19:22 - 19:24Wenn man sich jetzt die Verteilung
-
19:24 - 19:26der Häufigkeiten der Domains
-
19:26 - 19:27in dem Datensatz anschaut,
-
19:27 - 19:29Also hier auf der X-Achse ist
-
19:29 - 19:30immer der Popularitätsrang einer
-
19:30 - 19:32entsprechenden Domain aufgetragen
-
19:32 - 19:34d. h. je
weiter links die Domain hier auftaucht, -
19:34 - 19:36um so populärer ist sie.
-
19:36 - 19:39Man hat hier bspw . Google, Facebook und
die anderen üblichen Kandidaten -
19:39 - 19:43und auf der Y-Achse ist die
Anzahl der URLs aufgetragen, -
19:43 - 19:46die von dieser entsprechenden Domain
in dem Datensatz stammen. -
19:46 - 19:48Und wie man sieht: wenn man die
-
19:48 - 19:55100 populärsten Domains nimmt, sind die
schon bereits verantwortlich für mehr als -
19:55 - 20:0099% der gesamten Daten in unserem
Datensatz. D. h. die meisten Seitenbesuche -
20:00 - 20:05finden auf den Top 100 Domains dieser
Liste statt. Und wie man sieht, fällt die -
20:05 - 20:09Verteilung danach relativ schnell ab. Also
es gibt eine Menge Domains, die nur ein -
20:09 - 20:13paar hundert mal oder sogar nur 10 oder
ein einziges mal von einem Nutzer besucht -
20:13 - 20:16wurden. Das hilft uns bei der
Anonymisierung, weil wir gleichzeitig die -
20:16 - 20:20Möglichkeit haben, über diese populären
Domains, die fast jeder User besucht hat -
20:20 - 20:23oder von denen jeder User fast eine
besucht hat, -
20:23 - 20:26eine entsprechende Auswahl zu treffen und
-
20:26 - 20:30unsere Kombinatorik darauf anzuwenden aber
wir auch gleichzeitig Long-Tail-Domains -
20:30 - 20:34haben, die also nur von wenigen Nutzern
besucht wurden und die entsprechend sehr -
20:34 - 20:37gut sich eignen, um einzelne Nutzer
wirklich mit wenigen Datenpunkten wieder -
20:37 - 20:39zu identifizieren.
-
20:40 - 20:43So, den ersten Schritt, den wir machen
müssen, um unsere -
20:43 - 20:48Deanonymisierung vorzunehmen, ist das
Katalogisieren der Nutzer. Dafür legen wir -
20:48 - 20:54eine einfache Tabelle an, wo wir in jede
Zeile entsprechend einen Eintrag für -
20:54 - 20:58einen Nutzer machen und in jede Spalte
einen Eintrag für eine Domain anlegen und -
20:58 - 21:04jedes Element hier ist entweder Null oder
Eins und ist genau Eins dann, wenn der -
21:04 - 21:08entsprechende Nutzer die entsprechende
Domain besucht hat, d. h., das ergibt eine -
21:08 - 21:13Matrix mit 9 Mio. Einträgen für die
Domains und 1 Mio. Einträgen für die -
21:13 - 21:17User, wobei die meisten Elemente dieser
Matrix Null sind. Und so eine Matrix lässt -
21:17 - 21:21sich sehr effizient auch repräsentieren
und kann leicht verarbeitet werden für -
21:21 - 21:22die weiteren Schritte.
-
21:22 - 21:26So der Algorithmus,den wir einsetzen
zu der Deanonymisierung ist -
21:26 - 21:27wirklich sehr, sehr einfach.
-
21:27 - 21:30Wir generieren im 1. Schritt die Matrix M
-
21:30 - 21:31die ich gerade gezeigt habe,
-
21:31 - 21:34generieren dann weiterhin einen Vektor V
-
21:34 - 21:36und in diesen Vektor packen wir
alle Domains, -
21:36 - 21:39die wir aus anderen Informationsquellen,
-
21:39 - 21:44also aus unserer öffentlichen Information
gewonnen haben und die wir vergleichen -
21:44 - 21:48wollen mit den Nutzern, die sich in in dem
Datensatz befinden d.h. für jede Domain -
21:48 - 21:51die wir irgendwo gesehen haben, würden wir
eine 1 in diesen Vektor schreiben und -
21:51 - 21:55würden dann entsprechend den Vektor
nehmen und mit der Matrix multiplizieren. -
21:55 - 22:01Das Ergebnis enthält dann wieder für
jeden Nutzer eine einzige Zahl und in dem -
22:01 - 22:05wir den Maximalwert dieser Zahl nehmen
können den Nutzer finden der in unserem -
22:05 - 22:09Datensatz die beste Übereinstimmung hat
mit den Domain, mit denen wir ihn -
22:09 - 22:10vergleichen wollen.
Also wirklich ein sehr, -
22:10 - 22:12sehr einfaches Verfahren, das allerdings
-
22:12 - 22:14sehr robust und auch sehr,
wie man sehen wird, -
22:14 - 22:16effektiv ist für die Deanonymisierung
-
22:16 - 22:19So, das ist natürlich alles sehr abstrakt
-
22:19 - 22:22deswegen habe ich hier mal ein Beispiel
von einem Nutzer, -
22:22 - 22:24den wir zufällig ausgewählt haben
aus unserem Datensatz -
22:24 - 22:28und wir gehen jetzt einfach mal
durch die einzelnen Punkte durch. -
22:28 - 22:29Also hier würden wir jedes mal in
jedem Schritt -
22:29 - 22:31eine Domain hinzunehmen, die der Benutzer
-
22:31 - 22:34entsprechend besucht hat und dann schauen,
-
22:34 - 22:38um wie viele Nutzer verringert das die
-
22:38 - 22:42möglichen Nutzer in unserem Datensatz, die
diese Domains besucht haben könnten. -
22:42 - 22:44Wie wir sehen wir fangen hier links mit
-
22:44 - 22:46ca. 1,1 mio. Nutzern an, dann nehmen wir
-
22:46 - 22:48unsere 1. Domain das ist gog.com
-
22:48 - 22:49Das ist eine Gaming-Webseite und
-
22:49 - 22:51da sehen wir schon
-
22:51 - 22:54haben wir eine extreme Reduktion
in der Anzahl der möglichen Nutzer -
22:54 - 22:55in dem Datensatz.
-
22:55 - 22:59Weil jetzt nur noch 15.000 Nutzer
dieser Domain drin sind, die -
22:59 - 23:03wirklich diese Domain besucht haben und
die der potentielle Nutzer sein könnten. -
23:03 - 23:07Wie wir auch sehen ist dieser Nutzer
Telekom-Kunde d.h. er hat auch diese -
23:07 - 23:12kundencenter.telekom.de Domain besucht.
Was nochmal die Anzahl der möglichen -
23:12 - 23:14Nutzer in dem Datensatz extrem reduziert.
-
23:14 - 23:16In diesem Falle auf 367.
-
23:16 - 23:18Er ist auch Sparda-Bank-Kunde,
-
23:18 - 23:22weswegen wir auch diese
banking.sparda.de hinzunehmen können, was -
23:22 - 23:26nochmal die Anzahl auf 11 reduziert und
das finale Stück des Puzzles, das wir noch -
23:26 - 23:27benötigen ist hier die Information, dass
-
23:27 - 23:30der Nutzer handelsblatt.com unterwegs war,
-
23:30 - 23:32was dann nur noch einen einzigen Nutzer
-
23:32 - 23:35ergibt in unserem Datensatz, der mit
-
23:35 - 23:37diesen Daten kompatibel ist.
-
23:37 - 23:41D.h. hätten wir diese vier Informationen
aus öffentlichen Quellen extrahiert, -
23:41 - 23:44könnten wir schon mit Sicherheit
sagen, welcher Nutzer in unserem -
23:44 - 23:48Datensatz hier entsprechend der richtige
Nutzer ist. -
23:51 - 23:52So jetzt ist natürlich die Frage:
-
23:52 - 23:56Wie gut funktioniert das Verfahren
in Abhängigkeit auch davon, wieviele -
23:56 - 23:58Informationen ich denn überwachen kann
von dem Nutzer. -
23:58 - 23:59Wir haben ja gesehen,
-
23:59 - 24:03das wir in unserem Datensatz eigentlich
den Nutzer komplett überwachen können, -
24:03 - 24:07D.h. wir können jede URL sehn, die der
Nutzer mit seinem Browser aufgerufen hat -
24:07 - 24:11Aber viele Trecker sehen ja im Prinzip nur
einige hundert oder vielleicht einige -
24:11 - 24:15tausend oder zehntausend Domains, auf den
entsprechende Skripte installiert sind. -
24:17 - 24:22Was ich deswegen hier zeige, ist die
Effektivität dieser Methode in -
24:22 - 24:25Abhängigkeit der Anzahl der Domain die
ich zur Verfügung habe. -
24:25 - 24:27Wir fangen also an hier links,
-
24:27 - 24:30wo nur die Top 50 Domains in
unserem Datensatz zur Verfügung hätten -
24:30 - 24:35und schauen uns an, wenn wir zufälliges
Sample von Usern, in diesem Fall 200, -
24:35 - 24:39versuchen zu deanonymisieren,
wo befindet sich denn der korrekte User -
24:39 - 24:42unter all den Nutzern, die wir in dem
Datensatz haben. -
24:42 - 24:44Man sieht hier für 50 Domains ist das
-
24:44 - 24:46ungefähr 160.
-
24:46 - 24:49D.h. es gibt 160 andere Nutzer
im Schnitt, die eine höhere -
24:49 - 24:53Wahrscheinlichkeit haben, mit den Daten
übereinzustimmen, als der wirklich -
24:53 - 24:54gesuchte Nutzer.
-
24:54 - 24:57So, wenn wir jetzt die Anzahl der Domains
allerdings erhöhen: -
24:57 - 25:00also wir können z.B. auf 100 gehen, sehen
wir, das der Wert schon rapide abfällt. -
25:00 - 25:03D.h. hier habe ich schon die Anzahl der
möglichen Nutzer, die zu einem wirklichen -
25:03 - 25:06Nutzer gehören könnten extrem reduziert.
-
25:06 - 25:08Auf ungefähr 25
-
25:08 - 25:10und wenn ich die Anzahl der Domains
-
25:10 - 25:12entsprechend erhöhe auf
200 oder 300 sogar, -
25:12 - 25:14bin ich sehr schnell auch in der Lage
-
25:14 - 25:17wirklich den Nutzer eindeutig
wieder zu identifizieren . -
25:17 - 25:20Also es gibt keine Fehler,
in diesem Sinne dann, für die -
25:20 - 25:23Identifikation eines bestimmten Nutzers.
-
25:23 - 25:28So, das ist natürlich alles graue Theorie
und es stellt sich die Frage: -
25:28 - 25:32Ist es überhaupt möglich, solche
öffentlichen Informationen zu gewinnen -
25:32 - 25:34oder ist das eher unwahrscheinlich,
dass man an solche -
25:34 - 25:36Informationen rankommen würde?
-
25:36 - 25:39Deswegen habe ich versucht anhand von
den Daten, die wir haben und anhand von -
25:39 - 25:43öffentlichen Informationsquellen wirklich
Deanonymisierung durchzuführen, mit den -
25:43 - 25:47Usern, die wir haben.
Und ich zeige jetzt drei Beispiele. -
25:47 - 25:50Das erste beruht auf der Analyse von
Twitter-Daten. -
25:50 - 25:53Da haben wir also einen Nutzer aus
unserem Datensatz -
25:53 - 25:58der einen Twitter-Account hatte zufällig
rausgesucht. Haben uns dann angeschaut, -
25:58 - 26:02welche URLs dieser Nutzer in dem
entsprechenden Zeitraum, über den wir die -
26:02 - 26:06Daten hatten, geteilt hat und haben dann
aus diesen Tweets hier die entsprechenden -
26:06 - 26:11URLs extrahiert, davon wieder Domains
generiert oder extrahiert und diese -
26:11 - 26:15Domains dann mit unserem Algorithmus
genutzt. -
26:15 - 26:18So. Wie wir sehen haben wir für
-
26:18 - 26:20diesen einen Nutzer dabei 8 Domains
extrahiert -
26:20 - 26:22über den entsprechenden Zeitraum.
-
26:22 - 26:27Also wir haben hier relativ
populäre Domains wie GitHub, Change.org -
26:27 - 26:29aber auch viele Blogs,
-
26:29 - 26:31Beispielsweise: rtorp.wordpress.com
-
26:31 - 26:33was nur von 129 Nutzern aus dem Datensatz
-
26:33 - 26:39besucht wurde und auch andere kleinere
Webseiten. -
26:39 - 26:44Wenn wir jetzt uns anschauen, welche
Nutzer aus unserem Datensatz haben -
26:44 - 26:51mindestens eine dieser Domains besucht, in
dem entsprechenden Zeitraum, und die Nutzer -
26:51 - 26:56gegen die Anzahl der Domains, die sie aus
diesem Satz von Domains besucht haben -
26:56 - 26:58auftragen, bekommen wir diese Grafik hier.
-
26:58 - 27:01Also die zeigt die ca. 110.000 Nutzer, die
-
27:01 - 27:06min. eine dieser Webseite besucht haben
und zeigt gleichzeitig an: Wieviele von -
27:06 - 27:10den entsprechenden Domains der Nutzer
wirklich besucht hat. Und wir sehen: -
27:10 - 27:14Also, es gibt sehr, sehr viele Nutzer,
die min. eine hiervon besucht haben. -
27:14 - 27:15Wenn wir allerdings hochgehen zu
zwei, drei oder vier davon -
27:15 - 27:18verringert sich die Anzahl sehr schnell.
-
27:18 - 27:23Und wir sehen hier, dass wir oben bei 7
einen einzigen Nutzer haben und dabei -
27:23 - 27:27handelt es sich wirklich um den Nutzer, den
wir entsprechend deanonymisieren wollten. -
27:27 - 27:31D.h. hier ist eine Zuordnung mit 100%ger
Sicherheit möglich für diesen Nutzer. -
27:31 - 27:36Wir haben das auch für andere Nutzer
durchgespielt. Wir konnten nicht immer den -
27:36 - 27:40korrekten Nutzer rausfinden. Aber wir
konnten in den meisten Fällen die Anzahl -
27:40 - 27:43möglicher Nutzer auf ca. 10–20
reduzieren. -
27:47 - 27:50Das zweite Beispiel, dass ich jetzt noch
-
27:50 - 27:55zeigen möchte, ist anhand von
YouTube-Daten gemacht worden. -
27:55 - 28:00Oft ist es so, dass viele Daten in solchen
Datensätzen wirklich anonymisiert werden, -
28:00 - 28:04aber bestimmte Daten davon ausgenommen
werden, weil es ein starkes Interesse gibt, -
28:04 - 28:05seitens der Unternehmen, diese zu nutzen.
-
28:05 - 28:08YouTube-Videos sind ein gutes Beispiel
-
28:08 - 28:13dafür, weil Unternehmen bspw. wissen
möchten, welche Videos haben bestimmte -
28:13 - 28:17Nutzer angeschaut, in welcher Kombination,
um daraus für ihr Marketing Erkenntnisse -
28:17 - 28:20abzuleiten. Und man könnte auch meinen,
dass diese Information über öffentliche -
28:20 - 28:24Videos, die eigentlich ja jeder sich
anschauen kann im Internet, -
28:24 - 28:25auch nicht sehr kritisch ist.
-
28:25 - 28:28Was wir gemacht haben deswegen,
um zu zeigen, ob das wirklich so ist, -
28:28 - 28:32ist, dass wir wieder aus unserem
Datensatz einen Nutzer extrahiert haben, -
28:32 - 28:37von diesem Nutzer die Favoritenliste der
YouTube-Videos uns besorgt haben, die auch -
28:37 - 28:40öffentlich ist im Normalfall, also man
kann das Einstellen natürlich, das es -
28:40 - 28:44nicht öffentlich ist aber 90% der User
machen das nicht und haben das -
28:44 - 28:47entsprechend dann in der Öffentlichkeit
und haben uns aus dieser Liste per -
28:47 - 28:52YouTube-API automatisiert sämtliche
Video-IDs besorgt. Und mit diesen -
28:52 - 28:56Video-IDs haben wir wieder unseren
Algorithmus gefüttert, diesmal allerdings -
28:56 - 28:59mit den kompletten URL-Daten, da die
-
28:59 - 29:02Domains halt nicht die Video-IDs
enthalten. -
29:02 - 29:05Ups... jetzt habe ich falsch
gedrückt ha so... also -
29:05 - 29:07Wie vorher haben wir also
-
29:07 - 29:11diese IDs, das sind ungefähr 20 und
haben auf der anderen Seite sämtliche -
29:11 - 29:15Nutzer, die min. 1 von diesen Videos
angeschaut haben. Wie wir sehen können -
29:15 - 29:20sind das in dem Fall ca. 20.000, wobei
wieder eine Menge von den Nutzern sich -
29:20 - 29:25min. 1 angeschaut haben. Aber die Anzahl
der potentiellen Nutzer, die sich mehrere -
29:25 - 29:30angeschaut haben rapide runtergeht. Und
wir sehen hier Bspw. für vier oder fünf -
29:30 - 29:33oder sechs haben wir nur noch eine
Handvoll User und wir haben wieder einen -
29:33 - 29:38Treffer, der hier ganz oben liegt, bei 9
angeschauten Videos und dabei handelt es -
29:38 - 29:43sich wieder um den Nutzer, den wir im
vorherigen Schritt extrahiert haben. -
29:43 - 29:44Wir sehen also, es ist relativ einfach
-
29:44 - 29:47anhand von ner kleinen Anzahl von
Datenpunkten, -
29:47 - 29:49selbst aus ner sehr großen Anzahl
von Nutzern, -
29:49 - 29:51in diesem Fall über 1 Mio. Nutzer,
-
29:51 - 29:55entsprechend auf einen User
zurückzuschließen. Und man muss dazu -
29:55 - 29:58sagen, dass solche Verfahren, dass
YouTube-Verfahren, sogar besser -
29:58 - 30:02funktioniert hat, als die Anonymisierung
über Twitter. Weil, ich schätze mal, die -
30:02 - 30:06Verteilung der Videos und Anzahl der
Videos auf YouTube noch mal höher ist als -
30:06 - 30:09die Anzahl der entsprechenden Domains die
wir zur Verfügung haben. D.h. eine -
30:09 - 30:13YouTube-Video-ID ist in dem Sinne sogar
ein stärkeres Deanonymisierungs-Signal -
30:13 - 30:16als die entsprechende Domain aus dem
Twitter-Feed. -
30:16 - 30:18So, dass letzte Beispiel:
-
30:18 - 30:26dass ich zeigen möchte - basiert auf der
Analyse von Geodaten. Dafür haben wir uns -
30:26 - 30:31angeschaut, wie wir aus unserem Datensatz
Geodaten extrahieren oder Koordinaten -
30:31 - 30:34extrahieren können. Und wir haben
rausgefunden, dass es relativ einfach -
30:34 - 30:39über Google-Maps-URLs geht. Die also wenn
man sich einen bestimmten Bereich anschaut -
30:39 - 30:44meisten oben in der URL die geographischen
Koordinaten enthalten. D.h. wir konnten -
30:44 - 30:49aus unserem Datensatz einige Mio. von
diesen Koordinatenpaaren extrahieren und -
30:49 - 30:52die auch nach entsprechenden Nutzer
gruppieren und können damit eine -
30:52 - 30:58komplette Karte von der Nutzeraktivität
anfertigen. Also wir sehen z.B. welche -
30:58 - 31:02Kartenausschnitte sich User angeschaut
haben. Wenn sie z.B. nach Urlaubszielen -
31:02 - 31:06geschaut haben, vielleicht nach ihrem
Arbeitsort, nach einem Weg, nach einer -
31:06 - 31:10Wegbeschreibung. Und können diese
Information also auch Nutzergenau -
31:10 - 31:15verarbeiten. Und Geodaten sind besonders
interessant hierfür, weil es sehr viel -
31:15 - 31:21schwieriger ist, diese selbst zu ändern,
da es ja relativ einfach ist seine -
31:21 - 31:25Surfgewohnheiten oder Videogewohnheiten im
Zweifelsfall anzupassen aber es relativ -
31:25 - 31:30schwierig ist, bspw. die Arbeitsstelle
oder den Wohnort oder sämtliche vertraute -
31:30 - 31:34Orte zu wechseln. D.h. diese Information
sehr, in diesem Sinne sticky, in dem -
31:34 - 31:38Sinne, dass sie dem User über lange Zeit
auch zuordenbar sind normalerweise. Und -
31:38 - 31:42wir können auch wieder aus verschiedenen
öffentlichen Quellen Informationen -
31:42 - 31:44extrahieren. Bspw. aus Google-Maps oder
-
31:44 - 31:47auch über Flickr, wo auch viele Fotos
geocodiert sind und -
31:47 - 31:51können dann über diese Information
ein Matching mit den Daten, die wir in -
31:51 - 31:53unserem Datensatz haben, durchführen.
-
31:53 - 31:56Und hier ist es auch so, dass wir
über eine relativ kleine Anzahl -
31:56 - 31:59also weniger als 10 Datenp unkte im
Idealfall, ähm Normalfall, -
31:59 - 32:04den einzelnen Nutzer aus dem Datensatz
extrahieren und identifizieren können. -
32:07 - 32:09So, eine Frage die ich oft gestellt
bekomme, ist: -
32:09 - 32:12Kann ich mich verstecken in meinen Daten?
-
32:12 - 32:16Also, ist es möglich dadurch,
dass ich mich unvorhergesehen verhalte, -
32:16 - 32:20dass ich vielleicht Webseiten öffne,
die ich normalerweise nie anschauen -
32:20 - 32:24würde, dass ich den Algorithmus verwirre
und dementsprechend nicht in den Daten -
32:24 - 32:30auftauche werde? Da muss leider sagen,
dass funktioniert vermutlich nicht, aus -
32:30 - 32:37dem einfachen Grund, dass wir ja ein
Matching machen über die Zuordnung von -
32:37 - 32:41Eigenschaften, die entweder erfüllt oder
nicht erfüllt sind und ich als einzelner -
32:41 - 32:44Nutzer ja nur die Möglichkeit habe,
zusätzliche Datenpunkte zu meinem -
32:44 - 32:48persönlichen Vektor hinzuzufügen aber
meistens keine Datenpunkte von diesem -
32:48 - 32:53entfernen kann. D.h. wenn ich hier schon
mit meinen bestehenden Datenpunkten zu -
32:53 - 32:56100% identifiziert bin, kann ich
eigentlich so viele Punkte hinzufügen wie -
32:56 - 33:02ich möchte und werde trotzdem nicht im
normalfall von dem Algorithmus mit einem -
33:02 - 33:06anderen User verwechselt werden können.
D.h. diese Verfahren ist in dem Sinne sehr -
33:06 - 33:13robust gegenüber der Perturbation oder
der Änderung der Daten durch den Nutzer. -
33:13 - 33:19Als kleines Zwischenfazit kann man also
sagen, dass diese Art von Datensätzen die -
33:19 - 33:22sehr viele Dimensionen und sehr viele
Eigenschaften enthalten extrem schwierig -
33:22 - 33:27zu anonymisieren sind und auch bei
entsprechender Absicht man nicht immer -
33:27 - 33:30sicher sein kann, dass
Anonymisierungsmaßnahmen, -
33:30 - 33:31die man ergreift, wirklich
-
33:31 - 33:34ausreichend sind, um sämtliche Nutzer
oder sogar nur einen kleinen Teil -
33:34 - 33:36von Nutzern in dem Datensatz zu schützen.
-
33:36 - 33:38Weiterhin ist es auch so, dass heute
-
33:38 - 33:42eigentlich immer mehr öffentlich
verfügbare Informationen über Personen -
33:42 - 33:46zur Verfügung stehen, die auch genutzt
werden können, um Daten die anonymisiert -
33:46 - 33:51wurden z.B. vor 10 Jahren oder vor 5
Jahren jetzt mit neuen Datenpunkten in dem -
33:51 - 33:55Sinne besser zu deanonymisieren. D.h. es
wird immer einfacher möglich, auch aus -
33:55 - 33:58bestehenden Datensätzen entsprechende
Nutzerdaten und -
33:58 - 34:03Personen-Identifikationsmerkmale zu
extrahieren. Und wie wir gesehen haben, -
34:03 - 34:06reichen dafür oft eigentlich schon sehr
wenige Datenpunkte aus, um wirklich -
34:06 - 34:11einzelne Nutzer herauszusuchen und
eindeutig zu identifizieren. -
34:11 - 34:18S: Ja was bedeutet das?
Was bedeutet das, wenn man mit seinen -
34:18 - 34:20eigenen Daten konfrontiert wird?
-
34:20 - 34:23Also wenn jemand anders einen mit
seinen Daten konfrontiert? -
34:23 - 34:25Also z.B. Ich?
-
34:25 - 34:28Wir haben, die Recherche war
für ein politisches Magazin -
34:28 - 34:30und deswegen haben wir vor allem nach
-
34:30 - 34:32Politikern geschaut und auch die
Politiker selbst -
34:32 - 34:35oder deren Mitarbeiter gefunden
in diesen Daten. -
34:35 - 34:37Waren zwei Grüne dabei,
drei von der SPD, -
34:37 - 34:40darunter auch Mitarbeiter aus dem
-
34:40 - 34:43Büro von Lars Klingbeil,
Netzpolitischer Specher, -
34:43 - 34:51ein Europaparlamentarier und das
zog sich sozusagen bis ins Kanzleramt und -
34:51 - 34:54auch dort in einem Büro, bei einem
Staatsminister bei der Bundeskanzlerin war -
34:54 - 34:59auch ein Mitarbeiter betroffen. Wobei die
Mitarbeiter fast interessanter sind als -
34:59 - 35:02die Politiker selbst, weil die Mitarbeiter
sehr viel inhaltliche Arbeit für die -
35:02 - 35:05Politiker machen. Und auch sowas,
-
35:05 - 35:08wie deren Reisen planen,
Kontakte herstellen. -
35:08 - 35:13Jetzt wollte selbstverständlich nicht
jeder gerne mit uns reden und -
35:13 - 35:16vor allem nicht vor der Kamera.
-
35:16 - 35:20Einer hat es dann getan, das ist
Valerie Wilms. -
35:20 - 35:24Bevor wir sie jetzt mal hören, schauen
mir doch erstmal in ihre Daten. -
35:24 - 35:26lachen
-
35:26 - 35:32Sie hat es freigegeben für diesen Vortrag,
sage ich noch dazu. Weil hier habe ich -
35:32 - 35:36jetzt sozusagen wirklich nichts
anonymisiert, wie in dem Datensatz davor. -
35:36 - 35:44So 01.08., ist auch Frühaufsteherin, erst
mal Banking... noch mal Banking... d.h. -
35:44 - 35:50man kann also hier ziemlich gut sehen z.B.
wo Leute ihre Konten haben. Auf die Konten -
35:50 - 35:55selbst kann man nicht zugreifen, aber man
weiß wo. Bisschen unangenehmer wird's -
35:55 - 36:00dann für sie sozusagen Ende August, da
haben viele Leute ihre in Deutschland ihre -
36:00 - 36:04Steuererklärung gemacht. Das habe ich
auch als Video nochmal. Da kann man -
36:04 - 36:05nochmal so ein bisschen runterscrollen,
-
36:05 - 36:08Dann sehen wir ein bißchen mehr von ihrer
-
36:08 - 36:14Steuererklärung. Also man kann jetzt hier
sozusagen auf Elster-Online nicht selbst -
36:14 - 36:18zugreifen. Also wenn wir das jetzt machen
würden, würden wir sozusagen nicht -
36:18 - 36:22weiter kommen, weil dann auch nach einem
Passwort verlangt wird. Aber wir können -
36:22 - 36:27sehen, welche Vordrucke sie sich
angeschaut hat. Und können so -
36:27 - 36:31Informationen gewinnen, über Dinge,
-
36:31 - 36:37die sie gedenkt zu versteuern.
Und es ist recht detailreich. -
36:44 - 36:49Ja, was hat sie nur dazu
gesagt, als wir bei ihr im Büro saßen? -
36:49 - 36:54Wir können Sie einmal kurz hören dazu.
-
36:54 - 36:59Valerie Wilms: Ist rechts alles zu sehen?
Scheiße! -
36:59 - 37:01Gelächter
-
37:01 - 37:12Applaus
-
37:12 - 37:17S: Gab noch eine andere Geschichte,
auf die wir sie angesprochen haben. -
37:17 - 37:21Gibt ja nicht nur Steuererklärungen
sondern man schaut ja auch sowas bei -
37:21 - 37:26Google nach Tebonin nimmt man so
bei Hörsturz, Tinitus, -
37:26 - 37:29Abgeschlagenheit. Ist natürlich gerade
-
37:29 - 37:33für Politiker ein großes Problem, wenn
solch Informationen an die Öffentlichkeit -
37:33 - 37:38gelangen, Menschen dann falsche Schlüsse
daraus ziehen oder auch, ja, die Leute -
37:38 - 37:44damit erpressen können. Z.B. haben wir
sie auch darauf angesprochen. -
37:44 - 37:47Will ich die Reaktion nicht vorenthalten.
-
37:48 - 37:52Valerie Wilms: Ich weiß gar nicht in
welchem Zusammenhang ich dieses -
37:52 - 37:55Tebonin mir da angeguckt habe,
das ist nicht schön, -
37:55 - 38:00sowas nachträglich zu lesen. Vor allen
Dingen verknüpft mit dem eigenen Namen. -
38:00 - 38:05S: Ja, das war Valerie Wilms zu ihren
Daten. An diesem ganz kleinen Ausschnitt -
38:05 - 38:11sieht man wie Problematisch diese Daten
sind. Ich hab jetzt nicht die Beiträge -
38:11 - 38:18gezeigt, wo Menschen ihre sexuellen
Vorlieben ausleben. Weil, dass betrifft -
38:18 - 38:22natürlich auch Leute, die in
öffentlichen oder in relevanten -
38:22 - 38:27Positionen stehen. Natürlich sind auch
Richter in diesen Daten. Natürlich sind -
38:27 - 38:35auch Wirtschaftsbosse in diesen Daten. Und
natürlich sind das alles Menschen und die -
38:35 - 38:40haben Träume und die haben Gedanken, und
es überhaupt nichts, was in dritte Hände -
38:40 - 38:45gehört. Und deshalb war mit allen mit
denen wir gesprochen haben, im Zuge dieser -
38:45 - 38:52Recherche, war das für alle Betroffenen
sehr schockierend. Aber wer hat sie -
38:52 - 38:57ausgespäht? Woher kommen diese Daten? War
es irgendwie ein shady Trojaner oder so -
38:57 - 39:04auf dem Rechner? Nein. Wir sind relativ
schnell drauf gekommen, dass es -
39:04 - 39:10Browser-Plugins sind und haben dann einen
kleinen Test gemacht, haben einen Nutzer -
39:10 - 39:15gebeten Add-Ons zu deinstallieren. Und
haben dann eines herausfinden können; -
39:15 - 39:26Web-of-Trust - Was machen die so?
Safe Web Search & Browsing. -
39:26 - 39:28Applaus
-
39:28 - 39:34Haben das dann noch mal mit einem sauberen
Browser sozusagen gegengetestet in der -
39:34 - 39:41Zeit als wir eine Möglichkeit hatten Live
in die Daten zuzugreifen, das hat ein -
39:41 - 39:47Securityspezialist für uns gemacht Mike
Kuketz und der hatte eine extra Webseite -
39:47 - 39:50aufgesetzt, einen sauberen Browser, nur
dieses eine Plugin installiert und wir -
39:50 - 39:54konnten ihn in den Daten sehen. Und
dadurch konnten wir sicher sein, dass es -
39:54 - 39:58eben bei diesem einen Plugin auch
tatsächlich der Fall war, dass dieser Weg -
39:58 - 40:00eben so gegangen ist.
-
40:00 - 40:07A: Ja, warum ist das Tracking per App oder
Extension eigentlich so interessant für -
40:07 - 40:11die Anbieter? Nun für Unternehmen ist es
eigentlich immer sehr spannend ein -
40:11 - 40:15möglichst detailliertes Bild von einem
entsprechenden Nutzer zu gewinnen. D.h. -
40:15 - 40:19ich möchte, wenn möglich, sämtliche Daten
die über den Nutzer zur Verfügung -
40:19 - 40:23stehen. Und bei normalen Treckern ist das
ja so, dass ich als Nutzer mir eine -
40:23 - 40:27Webseite runterlade, in meinen Browser,
dann ein entsprechend ein -
40:27 - 40:30JavaScript-Applet oder ein anderes
Tracking-Tag ausgeführt wird, dass eine -
40:30 - 40:32entsprechende Verbindung aufbaut zu einem
-
40:32 - 40:34Tracking-Server und da Bspw. ein Cockie
-
40:34 - 40:38setzt oder eine andere Information
speichert, die mich dann als Nutzer -
40:38 - 40:42nachverfolgt. In den letzten hat sich
dagegen, verständlicherweise, eine Menge -
40:42 - 40:47Widerstand auch geregt und viele Leute
benutzen mittlerweile Blocker, die -
40:47 - 40:51verhindern, dass solche Tracking-Scripte
ausgeführt werden. Oder die Verbindung zu -
40:51 - 40:55den Tracking-Servern abfangen oder
blockieren. D.h. es wird immer schwieriger -
40:55 - 40:59für die Tracking-Anbieter qualitativ
hochwertige Daten zu bekommen und da liegt -
40:59 - 41:05es doch eigentlich nahe, dass man sich
solchen Mechanismen, in Form von einer -
41:05 - 41:09Extension, zu Nutze macht, in dem man
die Sicherheitsmaßnahmen, die es in dem -
41:09 - 41:13Browser eigentlich per Default gibt,
relativ einfach umgeht und dann über -
41:13 - 41:17diesen Side-Channel sozusagen die
Information bei jeder einzeln aufgerufenen -
41:17 - 41:21URL direkt an den Tracking-Server sendet.
Und das hat einen weiteren Vorteil für -
41:21 - 41:25die Anbieter, weil damit nicht nur die
Seiten überwacht werden können, die -
41:25 - 41:28wirklich Tracking-Codes auch explizit
beinhalten, sondern auch viele andere -
41:28 - 41:33Webseiten, die überhaupt keine Codes auf
der Seite haben. Also Bspw. Seiten von -
41:33 - 41:37öffentlich Rechtlichen Institutionen, die
ihre Nutzer im Normalfall nicht tracken. -
41:37 - 41:42D.h. es ist also möglich über dieses
Verfahren von einer kleineren Anzahl an -
41:42 - 41:47Usern allerdings ein sehr viel größeres
Spektrum an Daten, im Idealfall oder im -
41:47 - 41:51schlimmsten Fall, je nachdem wie man das
sieht, die komplette Browsinghistory von -
41:51 - 41:56diesem entsprechenden User zu gewinnen.
So, wir haben uns in unserem Datensatz -
41:56 - 42:01dafür nochmal angeschaut, wie viele von
diesen Extensions es eigentlich gibt und -
42:01 - 42:05wie viele Daten jede von diesen Extensions
generiert. Und hier haben wir wieder einen -
42:05 - 42:08doppelt logarithmischen Plot, wo auf der
einen Seite hier der Rang der -
42:08 - 42:10entsprechenden Extension aufgetragen ist
-
42:10 - 42:13d.h. je mehr Datenpunkte von
der Extension -
42:13 - 42:18wir bekommen haben, umso weiter finden Sie
hier die Extension links. Und auf der -
42:18 - 42:22anderen Achse haben wir die Anzahl der
Datenpunkte entsprechend aufgetragen. Und -
42:22 - 42:27wir sehen hier, dass die populärste
Extension, das ist Web-of-Trust bereits -
42:27 - 42:31für 1 Mrd. Datenpunkte in dem Datensatz
verantwortlich ist. Und wenn man die -
42:31 - 42:37ersten 10 Extensions nehmen, sehen wir,
dass bereits 95% der Daten davon abgedeckt -
42:37 - 42:42werden. D.h. es ist also eine kleine
Anzahl von Extension, die eigentlich die -
42:42 - 42:47größte Masse an Daten hier für diesen
Anbieter produziert. Wobei es auch sehr -
42:47 - 42:51viele, also hier fast 10.000 verschiedene
Application-IDs gibt, die teilweise einige -
42:51 - 42:57100 oder bis zu einige 100.000 oder einige
Mio. Datenpunkte ihrerseits liefern. Es -
42:57 - 43:01ist nicht unbedingt gesagt, dass es auch
10.000 Extensions sind, weil wir keine -
43:01 - 43:05eindeutige Zuordnung zu der Application-ID
haben, d.h. das ist eher eine obere -
43:05 - 43:08Abschätzung. Und um jetzt ein genaueres
Bild zu bekommen, -
43:08 - 43:11wie verseucht eigentlich so ein Web-Store
-
43:11 - 43:14ist, haben wir eine
Verhaltensanalyse durchgeführt, -
43:14 - 43:17wofür wir mit einem
Automatisierungsframework: -
43:17 - 43:20Webdriver - uns einfach einen
Chrome-Browser -
43:20 - 43:23genommen haben, da automatisiert
verschiedene Extensions installiert haben -
43:23 - 43:29und dann mit diesem Webdriver entsprechend
verschiedene Webseiten angesurft haben, -
43:29 - 43:34wobei wir über einen Python-basierten
Proxy-Server dann mitgeloggt haben, welche -
43:34 - 43:38URLs bzw. welche Webseiten von dem
entsprechenden Browser geöffnet wurden, -
43:38 - 43:42wenn wir bestimmte Seiten angesteuert
haben. D.h. darüber konnten wir -
43:42 - 43:46verfolgen, ob der Browser beim Öffnen von
bestimmten Seiten oder von allen URLs -
43:46 - 43:51vielleicht noch zusätzlich Informationen
eventuell an Dritte schickt. Und das haben -
43:51 - 43:55wir für ca. 500 Plugins so ausgeführt
und wie man hier sehen kann, verhalten -
43:55 - 43:59sich die meisten eigentlich so, wie man
es erwarten würde, d.h die öffnen nur die -
43:59 - 44:03URLs, die entsprechende Anzahl der URLs,
die man erwarten würde für den -
44:03 - 44:08Testdatensatz, den wir verwendet haben.
Und gleichzeitig gibt es auch einige -
44:08 - 44:13Extensions, z.B. das hier, dass sich
merkwürdig verhält und sehr viele -
44:13 - 44:17URL-Aufrufe hat. Und hier haben wir bei
einer genauen Analyse auch gesehen, dass -
44:17 - 44:21das entsprechende Plugin oder die
Extension auch Daten an einen Drittserver -
44:21 - 44:25schickt, bei jeder aufgerufenen URL. Wobei
man sagen muss, dass jetzt aus den 500 -
44:25 - 44:30untersuchten Extension nur einige dabei
waren, die wirklich eventuell schadhaftes -
44:30 - 44:34Verhalten zeigen. D.h. die
Wahrscheinlichkeit, dass man sich mit -
44:34 - 44:37Extension infiziert, in dem man Sachen
runterlässt aus dem Webstore ist aktuell -
44:37 - 44:44noch relativ gering, scheint aber größer
zu werden. So, die letzte Frage ist -
44:44 - 44:49natürlich: Wie oder kann ich mich
überhaupt gegen so etwas schützen? Und -
44:49 - 44:54ich denke, daß in einigen Jahren es trotz
client-seitigen blockierens von Trackern -
44:54 - 44:58immer schwieriger sein wird sich als
Nutzer anonym im Internet zu bewegen, weil -
44:58 - 45:02es, wie wir gesehen haben, anhand von
einigen wenigen Datenpunkten möglich ist, -
45:02 - 45:06eine Identifikation von an sich
anonymisierten Daten herzustellen. -
45:06 - 45:10Dh. selbst wenn ich mit einem Tracker
oder eine Extension sämtliche Tracker -
45:10 - 45:13blockiere, habe ich immer noch solche
Dinge wie: meine IP-Adresse, meinen -
45:13 - 45:17User-Agent und die Kombination aus
mehreren solchen Eigenschaften kann schon -
45:17 - 45:21ausreichen, um mich wieder eindeutig zu
identifizieren in größeren Datensätzen. -
45:21 - 45:26D.h. wenn ich wirklich sicher im Internet
unterwegs sein möchte, müsste ich -
45:26 - 45:29zumindest darauf achten, dass ich
möglichst viele dieser Eigenschaften -
45:29 - 45:33ständig rotiere und ändere in dem
ich bspw. VPN-Lösungen benutze, die auch -
45:33 - 45:38rotierende IP-Adressen verwenden. Wobei
das auch keine Garantie natürlich ist, -
45:38 - 45:42dass man nicht getrackt werden kann.
D.h. es wird also immer schwieriger sich -
45:42 - 45:48im Internet zu bewegen, ohne dem Risiko
der Deanonymisierung ausgesetzt zu sein. -
45:48 - 45:57S: Genau, was ist so das Ergebnis von der
Recherche gewesen? Also WOT verschwand -
45:57 - 46:02relativ kurz nach der Veröffentlichung
des Berichts zunächst mal aus dem -
46:02 - 46:09Chrome-Webstore und aus dem Mozilla-Store
und es haben natürlich sehr viele Nutzer -
46:09 - 46:13wie verrückt Plugins deinstalliert.
Deswegen können wir davon ausgehen, dass -
46:13 - 46:20auch der Datenstrom dann eingebrochen ist.
Aber natürlich die Plugins, die weiterhin -
46:20 - 46:26installiert sind und Nutzer, die es jetzt
nicht deinstalliert haben, da läuft es -
46:26 - 46:31natürlich weiter. Und auch inzwischen,
jetzt ein paar Wochen nach der Recherche, -
46:31 - 46:40ist WOT wieder im Google-Chrome-Store
verfügbar. So mein persönliches Fazit -
46:40 - 46:46daraus ist, ein Stück weit defend
yourself. Sprich, Andreas hatte schon -
46:46 - 46:51angedeutet, man kann sich nicht auf die
Stores verlassen, man muss sich ein Stück -
46:51 - 46:56weit selbst schützen und selbst
überlegen, was kann ich tun um dieser -
46:56 - 47:01Überwachung zu entgehen. Ja, also wir
sind recht am Ende von unserem Talk aber -
47:01 - 47:05trotzdem ganz wichtig nochmal der Dank an
ein relativ großes Team was uns -
47:05 - 47:09unterstützt hat in dieser Zeit ja vor
allem meine Kollegin die Jasmin Klofta -
47:09 - 47:12sitzt in der ersten Reihe, ja Dankeschön.
-
47:12 - 47:18Applaus
-
47:30 - 47:33Herald: So, wir haben noch ein wenig Zeit
für Fragen. -
47:33 - 47:36Wer eine Frage hat, bewegt sich bitte zu
-
47:36 - 47:45bitte zu einem der Mikrofone. So, ich sehe
Bewegung. Aber ein paar flüchten erstmal. -
47:45 - 47:53War vielleicht doch nicht ganz so einfach
für die Nichtdeutschsprachigen., aber sehr -
47:53 - 47:56spannend. Dahinten haben wir
eine Frage an Mikrofon 6 bitte. -
47:56 - 48:02Mikrofon 6: Hallo, angenommen die Person,
über die man die öffentlichen Daten -
48:02 - 48:06sammelt, ist nicht im Pool von den
anonymisierten Daten. Dann gibts ja eine -
48:06 - 48:10Möglichkeit für einen False-Positive.
Oder kann man das ausschließen? -
48:10 - 48:15A: Ja, natürlich gibt es auch die
Möglichkeit von einem False-Positive. Das -
48:15 - 48:21das hängt natürlich immer ein bisschen von
der Nutzung der Daten ab, ob das -
48:21 - 48:25problematisch ist oder nicht für den
Anbieter. Es kann ja auch sein, wenn ich -
48:25 - 48:29Bspw. Nutzern Werbung anzeigen möchte, es
vielleicht auch gut genug ist, wenn ich -
48:29 - 48:33den Nutzer mit einer Wahrscheinlichkeit
von 10% schon identifiziere. -
48:33 - 48:35D.h. ich kann auch mit False-Positives
-
48:35 - 48:36oder der Anbieter kann auch mit
-
48:36 - 48:38False-Positives entsprechend leben.
-
48:38 - 48:39Aber es ist natürlich immer die
-
48:39 - 48:41Möglichkeit gegeben, das der Nutzer,
-
48:41 - 48:43wenn er nicht in dem Datensatz vorhanden
-
48:43 - 48:45ist, auch entsprechend identifiziert wird,
-
48:45 - 48:49obwohl gar nicht drin ist. Und das kann
natürlich für den Nutzer selber zu großen -
48:49 - 48:51Problemen führen. Wenn ich da Bspw. an
Credit-Scoring denke, -
48:51 - 48:52über Machinelearning,
-
48:52 - 48:56wo ich also vielleicht mit jemandem in
Verbindung gebracht werde, der ich gar -
48:56 - 49:00nicht bin und Datenpunkte, die ich nicht
kontrollieren kann, entsprechend meine -
49:00 - 49:03Kreditwürdigkeit dann beeinflussen kann.
-
49:03 - 49:07Herald: Gut, an Mikro 3 bitte.
-
49:07 - 49:13Mikrofon 3: Meine persönliche Frage ist,
was genau kostet das? Also kann sich eine -
49:13 - 49:18kleinere, mittelgroße, Privatdetektei die
auf Datenschutz scheißt, können die sich -
49:18 - 49:19Zugang holen?
-
49:19 - 49:24S: Ja, weiß nicht was die für ein Budget
haben aber diese Daten werden lizensiert. -
49:24 - 49:30I.d.R. zahlt man für die Lizenz so für
einen Monat und im Jahr ist das so -
49:30 - 49:34im 6-stelligen Bereich.
-
49:34 - 49:37Mirofon 2:
Sie hatten von den 10 Schlimmsten -
49:37 - 49:39gesprochen, aber die Liste vergessen.
-
49:39 - 49:41Lachen
Applaus -
49:41 - 49:45A: Den 10 Schlimmsten, ach so, ja.
-
49:45 - 49:48Applaus
S: lachen genau -
49:48 - 49:51A: Also wir haben auch lange überlegt ob
wir die Extensions entsprechend -
49:51 - 49:55veröffentlichen können, wir haben
allerdings noch keine Zeit gehabt jetzt -
49:55 - 49:58eine detaillierte Analyse zu machen. Und
ich möchte keine Namen jetzt nennen von -
49:58 - 50:02Dingen, wo sich am Ende herausstellt, dass
es eigentlich gar nicht problematisch ist. -
50:02 - 50:04Wir werden auf jeden Fall dran
bleiben und versuchen alle von diesen -
50:04 - 50:08Extension, die in dem Datensatz drin sind
zu identifizieren. Aber wir wollen -
50:08 - 50:12natürlich eine Gewissheit haben, dass auch
entsprechend wir die korrekten Extensions -
50:12 - 50:15rausfiltern können, bevor wir
die Namen dann veröffentlichen. -
50:15 - 50:21Applaus
-
50:21 - 50:24Herald: So, wir haben auch Fragen aus dem
Internet. Eine mal dazwischen. -
50:24 - 50:31Signal Engel: Also ich nehme jetzt mal ein
paar Fragen aus dem Internet zusammen. -
50:31 - 50:35Im wesentlichen lässt sich das
runterdampfen auf: Gibt es irgendwelche -
50:35 - 50:39technischen, juristischen oder sonstwie
gearteten Mittel um sich davor zu -
50:39 - 50:44schützen, oder dagegen vorzugehen? Oder
wurde da schon versucht da z.B. zu klagen? -
50:44 - 50:46A: Möchtest du das beantworten?
-
50:46 - 50:50S: Ja, also einen Teil kann ich
beantworten. Also jetzt von unseren -
50:50 - 50:55Betroffenen hat da noch niemand geklagt.
So technisch gibt es natürlich -
50:55 - 50:58Möglichkeiten sich zu schützen.
Zumindest ein gutes Stück weit. -
50:58 - 51:02A: Ja, es gibt für den Nutzer natürlich
bedingte Möglichkeiten sich zu schützen. -
51:02 - 51:06Das Problem ist ja, das viele Nutzer das
Problem gar nicht kennen oder nicht sich -
51:06 - 51:09bewusst sind, dass ihre Daten entsprechend
gesammelt werden. Da ist also im -
51:09 - 51:12Zweifelsfall die Verantwortung bei den
Browser-Herstellern und wir sind auch ein -
51:12 - 51:15bisschen enttäuscht darüber, dass
Web-Of-Trust wieder in dem Chrome-Store -
51:15 - 51:19drin ist und auch weiterhin fleißig Daten
sammelt. Und auch die entsprechenden -
51:19 - 51:20Extensions, die schon vorher installiert
-
51:20 - 51:23wurden, auch nicht entfernt wurden in dem
-
51:23 - 51:24Sinne. D.h. im Zweifelsfalle ist wirklich
-
51:24 - 51:26der Hersteller des Browsers am besten in
-
51:26 - 51:29der Lage, den Nutzer vor solcher
Schadsoftware zu schützen, indem er ein -
51:29 - 51:33korrektes Auditing von den Extensions
durchführt, bevor sie in dem Store landen -
51:33 - 51:35und auch entsprechende Extensions,
-
51:35 - 51:37die gegen diese Bedingungen verstoßen
-
51:37 - 51:38schnell wieder entfernt.
-
51:38 - 51:42S: Und es macht auch Sinn sich mal
verschiedene Browser, Browseranbieter -
51:42 - 51:47anzuschauen, weil es gibt ja auch neben
den Großen Kleinere, die noch mal mehr Wert -
51:47 - 51:51legen eben darauf, dass man z.B. gar
keine Plugins installieren kann. -
51:51 - 51:57Herald: An Nummer 5 bitte.
-
51:57 - 52:02Mikrofon 5: Gibt es die Möglichkeit, dass
ihr die Liste, die ihr für eure Recherche -
52:02 - 52:06erstellt habt, von Unternehmen die Daten
verkaufen, veröffentlicht. Quasi als -
52:06 - 52:11not-to-work-for-Liste. Ich mein unsereins
baut ja im Zweifelsfall irgendwelchen -
52:11 - 52:14Scheiß, also liegt es
auch an uns es zu lassen. -
52:14 - 52:18Applaus
-
52:18 - 52:24S: Ja, es fehlt natürlich ein Name, hier
in diesem ganzen Vortrag. Der Name des -
52:24 - 52:26Datenhändlers oder auch tatsächlich die
-
52:26 - 52:28Namen der Firmen mit denen ich auch ein
-
52:28 - 52:29bisschen ernsthafter ins Geschäft
gekommen bin. -
52:29 - 52:31Das sind eigentlich juristische
-
52:31 - 52:34Gründe, warum wir das nicht
veröffentlichen können oder dürfen. -
52:34 - 52:37Einfach, ehrlich gesagt aus Furcht vor
-
52:37 - 52:42diesen Unternehmen, aus sozusagen
Angst vor Klagen, die da kommen können. -
52:42 - 52:47Und deshalb sieht es
zumindest im Moment so aus, als dürften -
52:47 - 52:51wir die Namen nicht veröffentlichen. Aber
das ist noch work-in-progress sage ich mal. -
52:51 - 52:54Zwischenruf
Wikiwleaks -
52:54 - 52:54Lachen
-
52:54 - 53:00Applaus
-
53:00 - 53:03Engel: Mikro 1
-
53:03 - 53:08Mikrofon 1: So einer der Klassiker ist ja
JavaScript aus und Cockies aus und nur für -
53:08 - 53:12irgendwie bestimmte Seiten, denen man
vertraut, zulassen. Jetzt sagen Sie aber -
53:12 - 53:16auch... Aber wie weit würden Sie denn
kommen, wenn man jetzt wirklich sowas -
53:16 - 53:21wegnimmt und nur über ip-basierte Daten
und sowas, wie weit würde man da mit der -
53:21 - 53:22Deanonymisierung kommen?
-
53:22 - 53:26A: Also meines Wissens setzen viele
Anbieter bereits Verfahren ein die -
53:26 - 53:29eigentlich nicht mehr auf Cockies
basieren, also nur noch, wenn diese -
53:29 - 53:33verfügbar sind und die statt dessen auf
anderen Identifikationsmerkmalen basieren -
53:33 - 53:38die entsprechend schwerer zu ändern sind.
Bspw: der IP-Adresse, der Device-ID oder -
53:38 - 53:42anderen IDs, die entsprechend fix sind und
getrackt werden können über die Zeit. -
53:42 - 53:47D.h. ist relativ einfach zumindest mit
einer hohen Wahrscheinlichkeit möglich -
53:47 - 53:51Nutzer über verschiedene Endgeräte zu
identifizieren. Und ich kann mich -
53:51 - 53:55natürlich über das Client-Seitige
Browser-Tracking schützen, aber das heißt -
53:55 - 53:59nicht, dass ich mich gegen diese anderen
Tracking-Maßnahmen auch schützen kann. -
53:59 - 54:01Engel: Mikro 6.
-
54:01 - 54:10Mikrofon 6: Zur Deanonymisierung. Ist es
möglich, so Deanonymisierung, stark zu -
54:10 - 54:17erschweren oder zu verhindern durch so
Methoden wie Differential Privacy? -
54:17 - 54:21A: Ja, dass ist in bestimmten Kontexten
anwendbar. Hier bei den Daten ist das -
54:21 - 54:25Problem, dass ich selbst als Nutzer
eigentlich nicht kontrolliere, was ich von -
54:25 - 54:29mir generiere, weil die Daten entweder
unbewusst oder ohne meine Zustimmung -
54:29 - 54:34erhoben werden. D.h. das einzige was ich
tun kann als Nutzer ist zusätzlich -
54:34 - 54:38Datenenpunkte zu liefern, ich habe aber
keine Möglichkeit Datenpunkte zu fälschen -
54:38 - 54:43oder nur in sehr geringem Umfang zumindest
oder auch Datenpunkte wieder zu entfernen. -
54:43 - 54:49D.h. in dem Sinne wäre das vermutlich eher
weniger angebracht aber klar im -
54:49 - 54:52Zweifelsfall ist es immer besser möglichst
wenige Informationen rauszugeben. -
54:52 - 54:55Obwohl eigentlich schon ausreicht wenige
-
54:55 - 54:59kleine Informationsschnipsel zu haben,
die man dann relativ schnell auch -
54:59 - 55:01zusammen fügen kann, wie wir gesehen
haben. -
55:01 - 55:03D.h. es ist auch wirklich schwer
abzuschätzen und -
55:03 - 55:05
hängt auch immer sehr stark von der Natur -
55:05 - 55:10des Datensatzes ab, wie verräterisch
einzelne Datenpunkte von mir sein können. -
55:10 - 55:13Engel: Mikro 5.
-
55:13 - 55:18Mikrofon 5: Ich würde gerne ein bisschen
eine naive Frage stellen. Wieso ist das -
55:18 - 55:23eigentlich quasi möglich oder erlaubt,
also die juristische Frage. Und auf der -
55:23 - 55:27anderen Seite, scheint mir doch ein
gewisses Gefälle zu sein zu dem, was auf -
55:27 - 55:32der einen Seite gemacht wird und sie die
jetzt Sorge haben, diese Namen zu nennen, -
55:32 - 55:35auf der anderen Seite, da scheint es mir
ein gewisses juristisches Gefälle -
55:35 - 55:38zu geben, das ich gerne verstehen würde.
-
55:38 - 55:44Applaus
-
55:44 - 55:48S: Sehr gute Frage, vielen Dank dafür. Wir
haben tatsächlich diesen juristischen -
55:48 - 55:51Aspekt für diesen Vortrag ein Stück weit
ausgeklammert. -
55:51 - 55:53Und der ist aber trotzdem hochspannend.
-
55:53 - 55:58Und wir haben viele Gespräche mit
Datenschützern darüber geführt, -
55:58 - 56:02mit Juristen darüber geführt und haben
tatsächlich auch Paragraphen gewälzt weil -
56:02 - 56:06uns genauso diese Frage beschäftigt hat,
kann das überhaupt erlaubt sein. Also -
56:06 - 56:11zumindest was man für Deutschland sagen
kann, das ist nicht erlaubt. Und zwar ganz -
56:11 - 56:15einfach aus dem Grund, weil keiner der
Nutzer irgendwo dazu zugestimmt hat. Also -
56:15 - 56:19keiner der Nutzer hat, die wir besucht
haben, hat irgendwo irgendwas angeklickt: -
56:19 - 56:23„Ja ich möchte bitte, dass meine Daten in
diesem Umfang...“ Keiner. Und das kann -
56:23 - 56:30sogar nach Aussage vom Datenschützer
eventuell strafrechtlich relevant sein, -
56:30 - 56:39also sprich in Richtung Abhören gehen.
Bislang hat sich noch niemand berufen -
56:39 - 56:46gefühlt, da tatsächlich Klage oder Anklage
zu führen. Was wir jetzt sozusagen machen -
56:46 - 56:50trägt ja vielleicht dazu bei, dass es mal
eine Eingabe gibt beim Datenschützer und -
56:50 - 56:52dass tatsächlich sich auch
mal jemand dahinter klemmt. -
56:52 - 56:56A: Gerade bei Ausländischen Unternehmen
ist es natürlich immer sehr schwierig -
56:56 - 57:00auch entsprechend eine Handhabe zu
bekommen, um die auch juristisch belangen -
57:00 - 57:04zu können. D.h. da ist auch nochmal
sicherlich ein Gefälle vorhanden und auch -
57:04 - 57:09die Strafen, die Unternehmen im
Zweifelsfall drohen, sind im Vergleich zu -
57:09 - 57:13dem Schaden, der oder zu dem Risiko, das
Jemand eingeht, indem er diese Dinge -
57:13 - 57:17veröffentlicht, eigentlich relativ gering.
Weswegen es auch relativ wenig zu solchen -
57:17 - 57:18Dingen kommt, denken wir.
-
57:18 - 57:21Engel: Gut, ich denke wir haben
noch Zeit für zwei Fragen. -
57:21 - 57:23Wir haben noch eine
aus dem Internet. -
57:23 - 57:27Signal Engel: Das Internet lässt fragen,
in wie fern man sein eigenen -
57:27 - 57:30Informationen, sofern sie auftauchen, von
euch bekommen kann oder auch nicht. -
57:30 - 57:33A: Uh... schwierige Frage.
-
57:33 - 57:34Applaus
-
57:34 - 57:41S: Das ist recht einfach die Antwort. Gar
nicht. Die Daten gibts nicht mehr. Sorry. -
57:41 - 57:42Applaus
-
57:42 - 57:50Herald:
Kommen wir zu unserer letzten Frage. -
57:50 - 57:57Mikrofon: Ja, also, Hallo, hört man das?
Ok. Ich bin dann immer ein Freund von -
57:57 - 58:02Selbstverteidigung und so wie sie sagten,
aber die Frage ist, ist das überhaupt -
58:02 - 58:06möglich? Also ich würde sagen, dass Thema
ist so komplex, dass sich wahrscheinlich -
58:06 - 58:10die meisten, die hier sind, nur dann
schützen können, wenn sie wirklich viel -
58:10 - 58:17Zeit reinstecken in diese Arbeit. Und ich
frage mich: meine Mutter, mein Vater, mein -
58:17 - 58:19Onkel, wie sollen die
sich vor sowas schützen? -
58:19 - 58:22A: Willst du oder soll ich?
S: Ja, mach ruhig. -
58:22 - 58:26A: Ja, das ist das Problem, dass ich auch
eben kurz angesprochen habe. Und zwar, -
58:26 - 58:30dass viele Nutzer auch gar nicht wissen,
dass sie getrackt werden und auch nicht -
58:30 - 58:34die technischen Kenntnisse haben, um sich
effektiv gegen sowas zu schützen. Wir -
58:34 - 58:38haben ja gesehen, obwohl die Leser von
Fefes-Blog eher technik-affin sind, gibts -
58:38 - 58:42immer noch 3.000 Nutzer, die in dem
Datensatz auftauchen, die also auch -
58:42 - 58:46getrackt wurden in dem Sinne. D.h. dass
selbst Leute mit IT-Kenntnissen und -
58:46 - 58:50IT-Sicherheitserfahrung sind nicht dagegen
gefeit auch entsprechend getrackt zu -
58:50 - 58:54werden. Weil es auch unglaublich schwierig
ist, auch für mich, sämtliche Methoden -
58:54 - 58:58nachzuvollziehen und immer auf dem
aktuellen Stand zu sein. Und es ist auch -
58:58 - 59:02sehr schwer abschätzbar, was man mit den
Daten eigentlich machen kann. Also es -
59:02 - 59:06stimmt wirklich, ja, es ist wirklich, es
gibt keine gute Lösung momentan dafür. -
59:06 - 59:11Herald: So es gibt zwar noch weitere
Fragen aber die Zeit ist leider vorbei. -
59:11 - 59:15Wer noch fragen an die Beiden hat, kann
hier gleich einfach kurz nach vorne -
59:15 - 59:18kommen. Erstmal möchte ich mich aber
herzlich bei euch beiden für diesen -
59:18 - 59:20spannenden und interessanten
Vortrag bedanken. -
59:20 - 59:37Applaus
-
59:37 - 59:43Abspannmusik
-
59:43 - 60:01Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!
- Title:
- Build your own NSA (33C3)
- Description:
-
https://media.ccc.de/v/33c3-8034-build_your_own_nsa
How private companies leak your personal data into the public domain, and how you can buy it.
When thinking about surveillance, everyone worries about government agencies like the NSA and big corporations like Google and Facebook. But actually there are hundreds of companies that have also discovered data collection as a revenue source. We decided to do an experiment: Using simple social engineering techniques, we tried to get the most personal you may have in your procession.
['Andreas Dewes', '@sveckert']
- Video Language:
- German
- Duration:
- 01:00:01
C3Subtitles edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) | ||
ave edited German subtitles for Build your own NSA (33C3) |