0:00:00.083,0:00:13.230
33C3 Vorspannmusik
0:00:13.230,0:00:19.090
Herald: Ich habe vorhin erzählt, dass[br]Snowden uns heute zugeschaltet wurde und
0:00:19.090,0:00:29.810
er hat uns aufgerufen, etwas zu tun. Heute[br]hören wir hier einen Talk, und zwar „build
0:00:29.810,0:00:37.350
your own NSA“ – „baue deine eigene NSA“.[br]Geheimdienste sammeln Daten, aber sie sind
0:00:37.350,0:00:42.059
nicht die Einzigen. Es gibt auch die so[br]genannten Datenkraken – an wen denken wir
0:00:42.059,0:00:48.729
da alle? An Google, an Facebook. Wer hier[br]hat einen Google-Account, Hände hoch,
0:00:48.729,0:01:01.199
traut euch! Des sind ganz schön viele. Wer[br]hat einen Facebook-Account? Es sind
0:01:01.199,0:01:07.320
allerdings nicht nur die großen Firmen wie[br]Facebook oder Google, die Daten sammeln.
0:01:07.320,0:01:11.680
Es sind auch die kleineren Firmen oder[br]unbekannte, wo wir die Namen noch nie
0:01:11.680,0:01:15.480
gehört haben und Leute, wo wir es nicht[br]erwarten, wie zum Beispiel ich auf der
0:01:15.480,0:01:19.390
Bühne. Ich weiß jetzt wer einen Google-[br]und wer einen Facebook-Account bei euch
0:01:19.390,0:01:22.450
hat. Vielen Dank für die Info.
0:01:22.450,0:01:25.680
Diese Firmen, oder auch ich, [br]könnte jetzt hingehen,
0:01:25.680,0:01:32.150
diese Daten tauschen oder einfach[br]an die Leute die zahlen, verkaufen.
0:01:32.150,0:01:37.390
Mein kleines Experiment hier war[br]ziemlich lächerlich und natürlich banal,
0:01:37.390,0:01:43.710
aber Svea Eckert und Andreas[br]Dewes haben ein größeres
0:01:43.710,0:01:50.430
Experiment gemacht mit einfachen Techniken[br]des Social Engineerings und rausgefunden,
0:01:50.430,0:01:55.150
was für Daten gesammelt werden können.[br]In diesem Talk werden sie uns nicht nur
0:01:55.150,0:02:00.510
erzählen, wer, warum und wie Daten sammelt[br]sondern ob es auch noch eine Möglichkeit
0:02:00.510,0:02:07.640
gibt, unsere Privatsphäre zu schützen.[br]Andreas ist Data Scientist und entwickelt
0:02:07.640,0:02:14.909
Technologien, damit wir Wissen aus[br]Daten extrahieren können. Svea ist
0:02:14.909,0:02:20.710
freiberufliche Journalistin und[br]recherchiert IT-Themen und berichtet
0:02:20.710,0:02:24.510
darüber für die Tagesschau und die[br]Tagesthemen. Sie hat auch mitgewirkt bei
0:02:24.510,0:02:32.260
Dokumentationen zu Themen wie Wikileaks,[br]Facebook und dem NSA-Skandal, wo gerade
0:02:32.260,0:02:36.569
Edward Snowden einen großen Teil[br]eingenommen hat. Ich freue mich herzlich,
0:02:36.569,0:02:42.349
die beiden hier zu begrüßen und bitte euch[br]jetzt um einen ganz, ganz lauten Applaus
0:02:42.349,0:02:45.189
für die beiden und wünsche[br]euch allen viel Spaß.
0:02:45.189,0:02:49.970
Applaus
0:02:49.970,0:02:57.090
Svea Eckert: Danke.[br]Andreas Dewes: Ja, hallo zusammen, also
0:02:57.090,0:03:01.580
wir freuen uns natürlich, dass wir hier[br]sein dürfen heute, ich hab wie gesagt die
0:03:01.580,0:03:04.689
Datenanalyse für die Recherche[br]hier gemacht und darf mich daher
0:03:04.689,0:03:07.519
erstmal entspannen jetzt und[br]übergebe dann das Wort an Svea.
0:03:07.519,0:03:12.859
S: Ja ich bin Svea Eckart, arbeite für den[br]NDR, beziehungsweise die ARD, und wir haben
0:03:12.859,0:03:16.469
’ne große Recherche gemacht, die ging[br]über den ganzen Sommer und mündete in
0:03:16.469,0:03:20.239
der relativ aufsehenerregenden[br]Berichterstattung Anfang November unter
0:03:20.239,0:03:26.759
dem Hashtag #NacktImNetz – der Eine oder[br]Andere hat vielleicht dazu sogar was
0:03:26.759,0:03:34.059
gesehen. Was wir wissen: Also: Wir wissen,[br]dass, wenn wir uns im Netz bewegen dass
0:03:34.059,0:03:40.109
Firmen das mitbekommen. Dass Firmen unser[br]Verhalten aufzeichnen und zumindest ein
0:03:40.109,0:03:45.700
Stück weit sind da verschiedene Parteien[br]beteiligt, die sehen, auf welcher Webseite
0:03:45.700,0:03:52.370
wir z. B. sind. Also hier jetzt mit einem[br]kleinen Tool, nur so kurz analysiert, sind
0:03:52.370,0:03:57.620
das jetzt 68 Parteien, die wissen, dass[br]ich auf dieser Webseite bin und die zum
0:03:57.620,0:04:02.920
Teil auch die Möglichkeit haben, mich[br]durchs Netz zu verfolgen. Ich denke, jeder
0:04:02.920,0:04:10.430
hier im Publikum weiß das und – also das[br]ist bekannt. Trotzdem stört es die
0:04:10.430,0:04:14.980
Allerwenigsten Also die allermeisten[br]Internetnutzer sagen „Ich habe doch nichts
0:04:14.980,0:04:19.700
zu verbergen“ „Da wird schon nichts böses[br]damit passieren, die machen ja nichts
0:04:19.700,0:04:24.420
mit meinen Daten, is ja sowieso nur für[br]Werbezwecke“ Und wenn man mal in der
0:04:24.420,0:04:31.170
Industrie nachfragt, dann ist die Aussage[br]„Also diese Daten werden total gut
0:04:31.170,0:04:35.590
anonymisiert“ „Da stecken wir ganz,[br]ganz großen Aufwand rein“ „Und
0:04:35.590,0:04:44.569
verkaufen? Das macht niemand!“ „Sowas[br]würde niemand tun“ Wirklich? Das
0:04:44.569,0:04:50.310
wollten wir genauer wissen: Wie komme[br]ich an solche Daten? Ich gründe eine
0:04:50.310,0:04:56.639
Firma. Ich habe also im Juli eine[br]Webseite aufgesetzt – das ist relativ
0:04:56.639,0:05:03.979
trivial. Content Management System, paar[br]schöne Fotos, Stockphotos und ein
0:05:03.979,0:05:09.360
bisschen Marketing-Sprech. Meine Firma[br]„Meez Technology“, die Vereinigung von
0:05:09.360,0:05:18.340
Technologie und Kreativität, macht[br]Data-Driven-Consulting und bot Kunden an,
0:05:18.340,0:05:22.500
Customized-Campaigns zu machen.[br]Was brauchen wir dafür? Ganz viele
0:05:22.500,0:05:27.869
Nutzer-Daten. Und diese Nutzer-Daten, an[br]die wollte ich gelangen. Da brauchte ich
0:05:27.869,0:05:34.290
eine tatkräftige Mitarbeiterin, hier ist[br]sie. Ich habe sie mitgebracht: Anna.
0:05:34.290,0:05:42.479
“Hello, Anna Rosenberg speaking! Hello,[br]hello?” Anna Rosenberg arbeitet also für
0:05:42.479,0:05:46.720
Meez Technology, sitzt in Tel Aviv,
0:05:46.720,0:05:50.050
spricht kein Wort Hebräisch,[br]konnte ich mir dann
0:05:50.050,0:05:53.160
nicht aneignen für die Recherche, [br]war aber nicht schlimm,
0:05:53.160,0:05:56.160
hat auch niemand nachgefragt
0:05:56.160,0:05:59.250
und ich hatte Tel Aviv ausgesucht,[br]obwohl ich die Stadt eigentlich
0:05:59.250,0:06:02.730
gar nicht kenne, aber ich hatte[br]Tel Aviv ausgesucht, weil mir
0:06:02.730,0:06:05.720
jemand sagte, Israel sei[br]ziemlich gut für Daten,
0:06:05.720,0:06:09.960
da wär man nicht so spitzfindig und ich[br]sollte ja kein deutsches Unternehmen
0:06:09.960,0:06:14.430
gründen sonst würde ich gar nichts[br]bekommen. Also habe ich Meez Technology in
0:06:14.430,0:06:19.750
Israel angesiedelt und Anna Rosenberg[br]hat sich auf Telefon-Jagd gemacht.
0:06:19.750,0:06:24.189
Das waren die Firmen, die in[br]Frage kamen. Die Firmen, die
0:06:24.189,0:06:30.249
von uns Internetnutzern Daten[br]sammeln, die Daten verarbeiten.
0:06:30.249,0:06:36.209
Meine Frage an diese Firmen war,[br]ob sie mir als junges, aufstrebendes
0:06:36.209,0:06:41.269
Startup ihre Daten verkaufen würden.[br]Oder viel eher noch, ob sie mir ein
0:06:41.269,0:06:45.550
kostenloses Sample geben würden,[br]weil ohne ein kostenloses Sample könnte
0:06:45.550,0:06:50.430
ich die Qualität der Daten gar nicht[br]beurteilen. Ich habe ziemlich viele von
0:06:50.430,0:06:55.240
diesen Firmen angerufen, angeschrieben,[br]deren Webseiten mir angeschaut. Ihr seht
0:06:55.240,0:07:00.810
dass es ein gigantisches Universum ist und[br]es sind noch längst nicht alle. Besonders
0:07:00.810,0:07:07.300
interessant sind diese Firmen hier. Die[br]machen sozusagen, die analysieren den
0:07:07.300,0:07:13.710
Internetmarkt, reichern Daten an, das sind[br]so ziemlich wichtige Player in diesem
0:07:13.710,0:07:16.429
ganzen Spiel. Weil um den Internetmarkt [br]zu analysieren,
0:07:16.429,0:07:19.429
brauchen die sehr viele Daten.
0:07:19.429,0:07:22.789
Und, Ja, der eine oder andere war dann [br]auch tatsächlich bereit,
0:07:22.789,0:07:27.139
mir ein kostenloses Sample [br]zur Verfügung zu stellen,
0:07:27.139,0:07:29.579
damit ich die Güte, die Qualität [br]seiner Daten
0:07:29.579,0:07:37.220
einordnen konnte. Also ein kostenloses[br]Sample. Dieses Sample kam dann auch. Also
0:07:37.220,0:07:42.379
eines ist besonders groß, deswegen ist es[br]auch das, worüber wir dann sprechen.
0:07:42.379,0:07:48.599
Was war da drin? Also wir hatten 14[br]Tage so eine Art quasi Live-Zugriff auf
0:07:48.599,0:07:54.499
Nutzerdaten. Sprich: Nutzerdaten, die sich[br]immer wieder aktualisiert haben, die immer
0:07:54.499,0:08:02.860
wieder frisch waren. Das waren 3 Millionen[br]deutsche Nutzer in diesem Datensatz und
0:08:02.860,0:08:08.650
das waren sozusagen die[br]Klickstream-Daten von einem Monat.
0:08:08.650,0:08:15.590
Das Klick-Stream ist sozusagen das[br]Buzzword für Browser-History.
0:08:15.590,0:08:20.189
Am Anfang sind wir relativ explorativ[br]mit diesem Datensatz umgegangen
0:08:20.189,0:08:25.839
haben einfach mal ge-grep-t, und mal[br]geschaut was passiert denn, wenn wir in
0:08:25.839,0:08:31.360
diesem Datensatz nach @polizei.de suchen.[br]Ich setz meine Brille wieder ab, weil
0:08:31.360,0:08:39.669
Annas Teil ist nämlich jetzt durch. So,[br]alles was ge-x-t ist, hab ich gemacht, um
0:08:39.669,0:08:45.860
die Privatsphäre dieser Person zu[br]schützen. So sieht das dann aus, wenns ein
0:08:45.860,0:08:53.840
bisschen aufbereitet ist. Man sieht jetzt[br]hier z. B. 01.08.2016 05:17 Uhr: Rechner
0:08:53.840,0:09:01.051
an, Google. Dann wird relativ schnell nach[br]einem Auto geschaut. 05:30 Uhr: Das habe
0:09:01.051,0:09:03.640
ich jetzt mal offen gelassen, kann man [br]dann auch alles gleich eingeben.
0:09:03.640,0:09:08.490
Ah, alles klar, er sucht einen Volkswagen
0:09:08.490,0:09:16.000
in der und der Kategorie. Interessant. [br]Gut, jetzt wollen wir natürlich wissen:
0:09:16.000,0:09:21.480
Was hat der mit der Polizei zu tun? [br]Was für ein Mensch steckt
0:09:21.480,0:09:28.240
hinter diesen Daten? Und wenn man jetzt[br]sozusagen sich da mal ein bisschen durch
0:09:28.240,0:09:32.840
scrollt durch diese Daten – ich hab das[br]jetzt als Screen-Video gemacht, damit man
0:09:32.840,0:09:37.730
mal so ein bisschen auch besser die[br]Dimensionen begreifen kann, wie groß die
0:09:37.730,0:09:43.420
Tiefe dieser Daten ist und wie intensiv[br]die sind. Man kann also gucken: Was liest
0:09:43.420,0:09:48.900
der, was sucht der und irgendwann ist er[br]mal auf der Webseite von der deutschen
0:09:48.900,0:09:56.970
Polizeigewerkschaft und auf dem deutschen[br]Beamtenbund. Könnte ja ein Polizist sein.
0:09:56.970,0:10:00.710
Schauen wir doch mal nach so einem[br]typischen Wort wie Ermittlungsverfahren
0:10:00.710,0:10:13.420
Ah! Ok. Ein Google-Translate-Link. [br]Gelächter + Applaus
0:10:13.420,0:10:20.090
Schauen wir doch mal. Schmeißen wir[br]es mal in den Decoder. Da ist es!
0:10:20.090,0:10:23.220
„Sehr geehrte Damen und Herren,[br]im Rahmen eines hier bearbeiteten
0:10:23.220,0:10:26.411
Ermittlungsverfahrens wegen[br]Computerbetrugs“ – Aktenzeichen habe ich
0:10:26.411,0:10:31.311
jetzt rausgenommen – „benötige ich[br]Bestandsdaten zu folgender IP-Adresse“
0:10:31.311,0:10:37.400
– habe ich rausgenommen – Zeitstempel[br]Und netterweise hat dieser Nutzer in
0:10:37.400,0:10:42.180
Google-Translate auch seine[br]E-Mail-Adresse mit übersetzen lassen,
0:10:42.180,0:10:47.560
seinen Vor- und Nachnamen, den Ort und[br]die Telefonnummer … So.
0:10:47.560,0:10:55.050
Applaus
0:10:55.050,0:11:01.550
Wir können jetzt schauen: Was erfahren wir[br]über diesen Menschen in diesen Daten?
0:11:01.550,0:11:09.490
Können also noch mal weiter[br]scrollen durch sein Leben im Netz.
0:11:09.490,0:11:16.380
Und sehen, dass er arbeitet,[br]also sehen, ungefähr, dass er
0:11:16.380,0:11:21.940
Malware-Submissions macht z. B., dass er[br]IP-Adressen verfolgt, aber auch, dass er
0:11:21.940,0:11:26.150
SWR hört und natürlich so die[br]
0:11:26.150,0:11:29.150
Peinlichkeiten im Leben
0:11:29.150,0:11:46.860
Lachen - Applaus
0:11:46.860,0:11:51.740
Sind da natürlich auch drin. [br]
0:11:51.740,0:11:54.740
Jetzt haben wir nur mal nach [br]@polizei.de gesucht.
0:11:54.740,0:11:58.780
Was wäre, wenn wir mal hier gucken? [br]
0:11:58.780,0:11:59.780
Haben wir auch gemacht.
0:11:59.780,0:12:01.780
So sieht dann so eine Abfrage aus.
0:12:01.780,0:12:07.650
Wenn man das so, sag ich mal[br]so, explorativ einfach macht wie wir das
0:12:07.650,0:12:12.280
gemacht haben. Wichtig ist das, was[br]zwischen den Anführungszeichen steht.
0:12:12.280,0:12:17.180
Man sagt mit diesem Befehl dem Computer:[br]Gib mir alles, gib mir jeden Nutzer, der
0:12:17.180,0:12:19.680
jemals diese Webseite besucht hat.
0:12:19.680,0:12:21.850
Und man sieht also, dass auch Leute
0:12:21.850,0:12:22.850
die, ich würde mal sagen, [br][br]
0:12:22.850,0:12:25.180
sicherheitskritisch sind,
0:12:25.180,0:12:30.450
in diesen Daten drin sind.
0:12:30.450,0:12:31.880
Was passiert nur, wenn man all diese[br]
0:12:31.880,0:12:34.720
Nutzer deanonymisieren würde?
0:12:34.720,0:12:38.650
Könnte man sie denn[br]alle deanonymisieren?
0:12:39.530,0:12:44.710
Andreas: Ja, wie wir gesehen[br]haben, ist es im besten Fall etwas
0:12:44.710,0:12:47.880
peinlich, wenn man als Nutzer in solchen[br]Daten identifiziert wird.
0:12:47.880,0:12:48.880
Schlimmstenfalls kann es auch gefährlich [br]
0:12:48.880,0:12:50.760
sein für die eigene Person.
0:12:50.760,0:12:52.520
Deswegen möchte ich in den nächsten
0:12:52.520,0:12:54.360
15 min ein bisschen darauf eingehen,
0:12:54.360,0:12:56.270
was Deanonymisierung eigentlich heißt,
0:12:56.270,0:12:58.150
wie das funktioniert und was das[br]
0:12:58.150,0:12:59.490
Problem dabei ist.
0:12:59.490,0:13:02.460
Dafür können wir anfangen [br]mit dem Datensatz.
0:13:02.460,0:13:04.500
Also es gibt immer einen Datensatz
0:13:04.500,0:13:07.740
von anonymisierten Nutzerdaten am Anfang,
0:13:07.740,0:13:09.480
den man analysieren möchte
0:13:09.480,0:13:11.500
und dieser Datensatz enthält
0:13:11.500,0:13:12.500
viele verschiedene Eigenschaften und
0:13:12.500,0:13:15.121
[br]einige von diesen Eigenschaften zumindest
0:13:15.121,0:13:16.121
sind sensitiv, das heißt, sie sind nach[br]
0:13:16.121,0:13:18.900
Datenschutzrecht geschützt und dürfen
0:13:18.900,0:13:22.670
nicht mit einer bestimmten Person[br]verknüpft werden, weswegen der Datensatz
0:13:22.670,0:13:24.240
ja im Endeffekt auch anonymisiert wurde.[br]
0:13:24.240,0:13:26.970
Und statt einer Zuordnung zu einer
0:13:26.970,0:13:28.580
konkreten Person hat man diesen[br]
0:13:28.580,0:13:30.760
Datensätzen daher einfach beispielsweise
0:13:30.760,0:13:32.030
eine numerische ID oder einen Identifier,[br]
0:13:32.030,0:13:35.030
der keine Rückschlüsse—im Idealfall—auf
0:13:35.030,0:13:37.360
die wirkliche Person, die sich hinter den[br]
0:13:37.360,0:13:39.980
Daten verbirgt, erlaubt.
0:13:39.980,0:13:41.920
Auf der anderen Seite habe ich aber auch
0:13:41.920,0:13:43.750
öffentliche Informationen z. B. aus
0:13:43.750,0:13:45.390
dem Internet oder anderen Quellen,
0:13:45.390,0:13:47.690
die ich mir frei zusammensuchen kann und
0:13:47.690,0:13:49.600
und solche öffentlichen Informationen
0:13:49.600,0:13:51.500
enthalten auch Eigenschaften von Personen
0:13:51.500,0:13:53.860
und enthalten zudem oft den Namen oder
0:13:53.860,0:13:58.350
andere Identifikationsmerkmale der Person,
0:13:58.350,0:14:00.260
die also Rückschlüsse auf die wirkliche[br]Person zulassen.
0:14:00.260,0:14:03.260
Und Deanonymisierung beinhaltet in diesem
0:14:03.260,0:14:08.150
Sinne eine Suche nach Eigenschaften, [br]die ich in beiden
0:14:08.150,0:14:13.410
Datensätzen entweder direkt oder indirekt[br]identifizieren kann und die mir erlauben,
0:14:13.410,0:14:17.530
aufgrund von beispielsweise statistischen[br]Verfahren oder machine learning die
0:14:17.530,0:14:22.900
möglichen Kandidaten aus dem[br]anonymisierten Datensatz so weit zu
0:14:22.900,0:14:26.840
reduzieren, dass ich mit entweder[br]absoluter Sicherheit oder mit relativ
0:14:26.840,0:14:30.420
hoher Wahrscheinlichkeit sagen kann,[br]dass ein Nutzer, den ich hier in den
0:14:30.420,0:14:33.580
öffentlichen Daten gefunden habe, [br]dem Nutzer[br]
0:14:33.580,0:14:36.050
in dem anonymisierten Datensatz [br]entspricht.
0:14:36.060,0:14:40.440
In dem Sinne habe ich diesen[br]User dann deanonymisiert.
0:14:43.680,0:14:46.180
Wie Svea gesagt hatte, ist der Datensatz,
0:14:46.190,0:14:47.190
den wir bekommen haben, absolut[br]
0:14:47.190,0:14:50.000
unzureichend anonymisiert worden,
0:14:50.000,0:14:54.330
d. h., das war sehr, sehr einfach[br]möglich, aus den URL-Daten, die wir
0:14:54.330,0:14:58.110
erhalten haben, entsprechende Nutzer[br]und Personennamen zu extrahieren.
0:14:58.110,0:15:00.800
Im Zweifelsfall hat dafür eine einzige URL[br]ausgereicht.
0:15:00.800,0:15:02.670
Hier habe ich zwei Beispiele.
0:15:02.670,0:15:05.180
Einmal von Twitter und einmal von XING.
0:15:05.180,0:15:06.680
Das sind also beides URLs,
0:15:06.680,0:15:08.070
die Rückschlüsse
0:15:08.070,0:15:09.700
entweder auf den Nutzernamen
0:15:09.700,0:15:11.180
oder sogar auf den Klarnamen
0:15:11.180,0:15:12.850
und weitere Angaben von
0:15:12.850,0:15:14.630
der Person zulassen.
0:15:14.630,0:15:17.080
Und das, was die Identifikation [br]hier ermöglicht,
0:15:17.080,0:15:19.670
ist bei der ersten Adresse oben,
0:15:19.670,0:15:22.670
dass diese Analytics-Page nur [br]– im Normalfall – dem
0:15:22.670,0:15:23.740
eingeloggten Benutzer zur Verfügung steht,[br]
0:15:23.740,0:15:26.380
d.h. wenn ich diese URL in einem Datensatz
0:15:26.380,0:15:28.040
sehe, kann ich mit relativ hoher[br]
0:15:28.040,0:15:30.040
Wahrscheinlichkeit davon ausgehen, dass
0:15:30.040,0:15:31.390
der Nutzername, der hier auftaucht, dem[br]
0:15:31.390,0:15:34.080
Nutzernamen des anonymisierten Nutzers in
0:15:34.080,0:15:35.550
meinem Datensatz entspricht. [br]
0:15:35.550,0:15:38.590
Im zweiten Fall ist es weniger [br]offensichtlich.
0:15:38.590,0:15:40.590
man kann also nur sehen, dass man hier
0:15:40.590,0:15:42.850
eine öffentliche Profiladresse hat,
0:15:42.850,0:15:44.960
die man auch so im Internet finden kann,
0:15:44.960,0:15:45.960
was aber den Unterschied macht, ist
0:15:45.960,0:15:50.410
dieses spezielle Query, das hinten [br]dran hängt,
0:15:50.410,0:15:53.110
und das nur in die URL hinzugefügt wird,
0:15:53.110,0:15:54.740
wenn ich als eingeloggter Nutzer,
0:15:54.740,0:15:56.440
auf mein eigenes Profilbild klicke
0:15:56.440,0:15:58.290
d.h. hier ist wieder mit einer hohen
0:15:58.290,0:16:01.300
Wahrscheinlichkeit die Möglichkeit [br]gegeben, einen Nutzer der in
0:16:01.300,0:16:06.660
den Daten drin ist, eindeutig mit dem[br]Besitzer dieses Profils zu identifizieren.
0:16:06.660,0:16:10.940
Und in unserm Datensatz haben wir über[br]100.000 Benutzer auf diese Weise
0:16:10.940,0:16:14.780
identifiziert. Wir haben auch die[br]beiden Firmen übrigens auf diese
0:16:14.780,0:16:18.700
Sicherheitsprobleme aufmerksam gemacht.[br]XING hat entsprechend schon Änderungen
0:16:18.700,0:16:23.970
eingeführt und Twitter hält es nicht[br]für ein Problem in diesem Sinne und
0:16:23.970,0:16:27.911
möchte da keine Änderungen machen[br]aktuell. Also als erstes Take-Away könnte
0:16:27.911,0:16:31.730
man vielleicht von dem Vortrag auch[br]mitnehmen, dass man bitte, bitte keine
0:16:31.730,0:16:36.570
persönlich identifizierbaren Informationen[br]in URLs packt. Wenn irgend möglich.
0:16:38.470,0:16:44.330
Natürlich gibt’s noch etwas[br]weitergehende Verfahren, um auch
0:16:44.330,0:16:49.440
Datensätze zu deanonymisieren, die etwas[br]besser anonymisiert wurden.
0:16:49.440,0:16:52.090
Eine schöne Arbeit hierzu ist dieses Paper
0:16:52.090,0:16:53.770
das aus dem Jahr 2007 stammt, und
0:16:53.770,0:16:55.590
wo sich die Forscher
0:16:55.590,0:16:57.360
mit einem Datensatz beschäftigt haben,[br]
0:16:57.360,0:17:00.360
der von Netflix publiziert wurde und
0:17:00.360,0:17:03.199
der also anonymisierte Bewertungsdaten
0:17:03.199,0:17:05.109
von Netflix-Usern enthielt.
0:17:05.109,0:17:08.200
Der Datensatz wurde auf eine [br]Datenanalyseplattform hochgeladen
0:17:08.200,0:17:10.790
mit dem Ziel, dass andere [br]Data-Sscientists,
0:17:10.790,0:17:14.360
Datenforscher, sich mit den Daten [br]auseinandersetzen können und
0:17:14.360,0:17:18.049
auf die Weise bessere Bewertungs-[br]oder Empfehlungsalgorithmen für neue
0:17:18.049,0:17:24.149
Filme finden können. Und die[br]Deanonymisierung dieses Datensatzes war in
0:17:24.149,0:17:28.169
diesem Fall möglich ebenfalls durch[br]die Nutzung von öffentlich verfügbaren
0:17:28.169,0:17:32.730
Informationen – in diesem Fall war das[br]beispielsweise Bewertungen, die Nutzer auf
0:17:32.730,0:17:38.170
der Plattform IMDB abgegeben haben, wo[br]also Nutzer auch Filme bewerten können wie
0:17:38.170,0:17:42.450
bei Netflix und wo oft Nutzer-Accounts[br]oder Konten mit dem wirklichen Namen des
0:17:42.450,0:17:47.600
Benutzers verknüpft sind. Und die[br]Forscher haben also geschafft, indem sie
0:17:47.600,0:17:51.810
die Bewertung von IMDB herangezogen haben[br]und diese mit den Bewertungen auf Netflix
0:17:51.810,0:17:57.070
verglichen, die User auf Netflix mit einer[br]hohen Wahrscheinlichkeit mit den Usern auf
0:17:57.070,0:18:01.400
IMDB zu identifizieren D. h. hier war eine[br]Deanonymisierung einfach dadurch möglich,
0:18:01.400,0:18:05.151
dass es sehr, sehr viele mögliche[br]Kombinationen von Filmen gibt und es sehr
0:18:05.151,0:18:09.131
unwahrscheinlich ist, dass zwei Personen[br]die gleiche Anzahl von Filmen auf die
0:18:09.131,0:18:11.600
gleiche Weise bewertet haben.
0:18:12.660,0:18:15.660
Und diese Technik kann man auch auf
0:18:15.660,0:18:17.980
unseren Datensatz anwenden,
0:18:21.010,0:18:23.950
dieser enthält wie gesagt [br]ca. 3 Mrd. URLs
0:18:24.240,0:18:27.150
von 9 Mio. Web-Domains und wurde
0:18:27.150,0:18:29.300
von ca. 3 Mio. Usern generiert.[br]
0:18:31.110,0:18:32.650
So. Da die Daten wie gesagt
0:18:32.650,0:18:34.690
unzureichend anonymisiert wurden, haben
0:18:34.690,0:18:35.690
wir für die weitere Analyse
0:18:35.690,0:18:37.400
einfach mal angenommen,
0:18:37.400,0:18:41.161
dass der Anbieter wirklich ein Interesse[br]daran hätte die Anonymisierung korrekt
0:18:41.161,0:18:45.270
oder möglichst gut durchzuführen und[br]dementsprechend sämtliche Informationen
0:18:45.270,0:18:48.140
außer der Domain und der Nutzer-ID aus[br]dem Datensatz entfernt
0:18:48.140,0:18:50.390
d.h. wir haben alle Informationen [br]weggeworfen,
0:18:50.390,0:18:53.450
bis auf den Fakt: [br]Hat dieser Nutzer, diese Domain in
0:18:53.450,0:18:55.240
dem Zeitraum besucht?
0:18:55.240,0:18:56.470
Ja oder nein?[br]
0:18:56.700,0:18:58.670
So - Also man könnte annehmen, dass diese
0:18:58.670,0:19:01.530
starke Form der Anonymisierung doch[br]ausreichend sein sollte,
0:19:01.530,0:19:03.230
um die Nutzer davor zu schützen,
0:19:03.230,0:19:04.910
wieder deanonymisiert zu werden.[br]
0:19:05.170,0:19:07.070
Wir haben weiterhin auch eine Auswahl
0:19:07.070,0:19:09.010
getroffen von 1 Mio. Nutzern,[br]
0:19:09.010,0:19:11.710
von denen wir über 10 Datenpunkte haben,
0:19:11.710,0:19:15.230
weil das die Analyse für die weiteren[br]Schritte vereinfacht und für Nutzer, die
0:19:15.230,0:19:20.710
relativ wenige Datenpunkte haben, auch die[br]meisten Techniken nicht anwendbar sind.
0:19:21.460,0:19:22.250
So.
0:19:22.250,0:19:23.920
Wenn man sich jetzt die Verteilung
0:19:23.920,0:19:25.816
der Häufigkeiten der Domains
0:19:25.816,0:19:27.303
in dem Datensatz anschaut,
0:19:27.303,0:19:28.743
Also hier auf der X-Achse ist[br]
0:19:28.743,0:19:30.330
immer der Popularitätsrang einer
0:19:30.330,0:19:32.140
entsprechenden Domain aufgetragen
0:19:32.140,0:19:34.500
d. h. je[br]weiter links die Domain hier auftaucht,
0:19:34.500,0:19:35.500
um so populärer ist sie.
0:19:35.500,0:19:39.210
Man hat hier bspw . Google, Facebook und [br]die anderen üblichen Kandidaten
0:19:39.210,0:19:42.760
und auf der Y-Achse ist die[br]Anzahl der URLs aufgetragen,
0:19:42.760,0:19:45.840
die von dieser entsprechenden Domain [br]in dem Datensatz stammen.
0:19:45.840,0:19:48.120
Und wie man sieht: wenn man die
0:19:48.120,0:19:54.790
100 populärsten Domains nimmt, sind die[br]schon bereits verantwortlich für mehr als
0:19:54.790,0:19:59.580
99% der gesamten Daten in unserem[br]Datensatz. D. h. die meisten Seitenbesuche
0:19:59.580,0:20:05.290
finden auf den Top 100 Domains dieser[br]Liste statt. Und wie man sieht, fällt die
0:20:05.290,0:20:09.240
Verteilung danach relativ schnell ab. Also[br]es gibt eine Menge Domains, die nur ein
0:20:09.240,0:20:13.050
paar hundert mal oder sogar nur 10 oder[br]ein einziges mal von einem Nutzer besucht
0:20:13.050,0:20:16.420
wurden. Das hilft uns bei der[br]Anonymisierung, weil wir gleichzeitig die
0:20:16.420,0:20:20.241
Möglichkeit haben, über diese populären[br]Domains, die fast jeder User besucht hat
0:20:20.241,0:20:23.460
oder von denen jeder User fast eine [br]besucht hat,[br]
0:20:23.460,0:20:25.680
eine entsprechende Auswahl zu treffen und
0:20:25.680,0:20:29.740
unsere Kombinatorik darauf anzuwenden aber[br]wir auch gleichzeitig Long-Tail-Domains
0:20:29.740,0:20:33.710
haben, die also nur von wenigen Nutzern[br]besucht wurden und die entsprechend sehr
0:20:33.710,0:20:37.300
gut sich eignen, um einzelne Nutzer[br]wirklich mit wenigen Datenpunkten wieder
0:20:37.300,0:20:38.820
zu identifizieren.
0:20:40.040,0:20:43.320
So, den ersten Schritt, den wir machen [br]müssen, um unsere
0:20:43.320,0:20:48.180
Deanonymisierung vorzunehmen, ist das[br]Katalogisieren der Nutzer. Dafür legen wir
0:20:48.180,0:20:53.620
eine einfache Tabelle an, wo wir in jede[br]Zeile entsprechend einen Eintrag für
0:20:53.620,0:20:58.230
einen Nutzer machen und in jede Spalte[br]einen Eintrag für eine Domain anlegen und
0:20:58.230,0:21:04.060
jedes Element hier ist entweder Null oder[br]Eins und ist genau Eins dann, wenn der
0:21:04.060,0:21:08.120
entsprechende Nutzer die entsprechende[br]Domain besucht hat, d. h., das ergibt eine
0:21:08.120,0:21:12.590
Matrix mit 9 Mio. Einträgen für die[br]Domains und 1 Mio. Einträgen für die
0:21:12.590,0:21:16.840
User, wobei die meisten Elemente dieser[br]Matrix Null sind. Und so eine Matrix lässt
0:21:16.840,0:21:20.770
sich sehr effizient auch repräsentieren[br]und kann leicht verarbeitet werden für
0:21:20.770,0:21:22.380
die weiteren Schritte.
0:21:22.380,0:21:25.560
So der Algorithmus,den wir einsetzen [br]zu der Deanonymisierung ist
0:21:25.560,0:21:26.960
wirklich sehr, sehr einfach.
0:21:26.960,0:21:30.040
Wir generieren im 1. Schritt die Matrix M
0:21:30.040,0:21:31.480
die ich gerade gezeigt habe,
0:21:31.480,0:21:34.290
generieren dann weiterhin einen Vektor V
0:21:34.290,0:21:36.471
und in diesen Vektor packen wir [br]alle Domains,
0:21:36.471,0:21:38.771
die wir aus anderen Informationsquellen,
0:21:38.771,0:21:43.840
also aus unserer öffentlichen Information[br]gewonnen haben und die wir vergleichen
0:21:43.840,0:21:47.700
wollen mit den Nutzern, die sich in in dem[br]Datensatz befinden d.h. für jede Domain
0:21:47.700,0:21:51.470
die wir irgendwo gesehen haben, würden wir[br]eine 1 in diesen Vektor schreiben und
0:21:51.470,0:21:55.380
würden dann entsprechend den Vektor[br]nehmen und mit der Matrix multiplizieren.
0:21:55.380,0:22:01.070
Das Ergebnis enthält dann wieder für[br]jeden Nutzer eine einzige Zahl und in dem
0:22:01.070,0:22:05.040
wir den Maximalwert dieser Zahl nehmen[br]können den Nutzer finden der in unserem
0:22:05.040,0:22:08.570
Datensatz die beste Übereinstimmung hat[br]mit den Domain, mit denen wir ihn
0:22:08.570,0:22:09.570
vergleichen wollen. [br]Also wirklich ein sehr,[br]
0:22:09.570,0:22:11.500
sehr einfaches Verfahren, das allerdings
0:22:11.500,0:22:14.230
sehr robust und auch sehr,[br]wie man sehen wird,[br]
0:22:14.230,0:22:16.270
effektiv ist für die Deanonymisierung
0:22:16.270,0:22:18.700
So, das ist natürlich alles sehr abstrakt
0:22:18.700,0:22:21.740
deswegen habe ich hier mal ein Beispiel [br]von einem Nutzer,
0:22:21.740,0:22:24.460
den wir zufällig ausgewählt haben [br]aus unserem Datensatz
0:22:24.460,0:22:27.680
und wir gehen jetzt einfach mal[br]durch die einzelnen Punkte durch.
0:22:27.680,0:22:29.330
Also hier würden wir jedes mal in[br]jedem Schritt[br]
0:22:29.330,0:22:31.440
eine Domain hinzunehmen, die der Benutzer
0:22:31.440,0:22:34.400
entsprechend besucht hat und dann schauen,[br]
0:22:34.400,0:22:37.570
um wie viele Nutzer verringert das die
0:22:37.570,0:22:41.950
möglichen Nutzer in unserem Datensatz, die[br]diese Domains besucht haben könnten.
0:22:41.950,0:22:43.980
Wie wir sehen wir fangen hier links mit
0:22:43.980,0:22:46.390
ca. 1,1 mio. Nutzern an, dann nehmen wir
0:22:46.390,0:22:48.180
unsere 1. Domain das ist gog.com
0:22:48.180,0:22:49.180
Das ist eine Gaming-Webseite und
0:22:49.180,0:22:50.840
da sehen wir schon
0:22:50.840,0:22:54.100
haben wir eine extreme Reduktion [br]in der Anzahl der möglichen Nutzer
0:22:54.100,0:22:55.450
in dem Datensatz.
0:22:55.450,0:22:58.570
Weil jetzt nur noch 15.000 Nutzer [br]dieser Domain drin sind, die
0:22:58.570,0:23:02.980
wirklich diese Domain besucht haben und[br]die der potentielle Nutzer sein könnten.
0:23:02.980,0:23:07.480
Wie wir auch sehen ist dieser Nutzer[br]Telekom-Kunde d.h. er hat auch diese
0:23:07.480,0:23:11.760
kundencenter.telekom.de Domain besucht. [br]Was nochmal die Anzahl der möglichen
0:23:11.760,0:23:13.830
Nutzer in dem Datensatz extrem reduziert.[br]
0:23:13.830,0:23:16.410
In diesem Falle auf 367.
0:23:16.410,0:23:18.120
Er ist auch Sparda-Bank-Kunde,
0:23:18.120,0:23:21.690
weswegen wir auch diese[br]banking.sparda.de hinzunehmen können, was
0:23:21.690,0:23:26.210
nochmal die Anzahl auf 11 reduziert und[br]das finale Stück des Puzzles, das wir noch
0:23:26.210,0:23:27.210
benötigen ist hier die Information, dass[br]
0:23:27.210,0:23:29.930
der Nutzer handelsblatt.com unterwegs war,
0:23:29.930,0:23:32.280
was dann nur noch einen einzigen Nutzer[br]
0:23:32.280,0:23:35.030
ergibt in unserem Datensatz, der mit
0:23:35.030,0:23:36.510
diesen Daten kompatibel ist.
0:23:36.510,0:23:40.530
D.h. hätten wir diese vier Informationen [br]aus öffentlichen Quellen extrahiert,
0:23:40.530,0:23:44.230
könnten wir schon mit Sicherheit[br]sagen, welcher Nutzer in unserem
0:23:44.230,0:23:48.050
Datensatz hier entsprechend der richtige[br]Nutzer ist.
0:23:50.560,0:23:52.370
So jetzt ist natürlich die Frage:
0:23:52.370,0:23:55.700
Wie gut funktioniert das Verfahren[br]in Abhängigkeit auch davon, wieviele
0:23:55.700,0:23:57.970
Informationen ich denn überwachen kann[br]von dem Nutzer.
0:23:57.970,0:23:59.183
Wir haben ja gesehen,
0:23:59.183,0:24:03.020
das wir in unserem Datensatz eigentlich [br]den Nutzer komplett überwachen können,
0:24:03.020,0:24:06.900
D.h. wir können jede URL sehn, die der[br]Nutzer mit seinem Browser aufgerufen hat
0:24:06.900,0:24:10.770
Aber viele Trecker sehen ja im Prinzip nur[br]einige hundert oder vielleicht einige
0:24:10.770,0:24:14.800
tausend oder zehntausend Domains, auf den[br]entsprechende Skripte installiert sind.
0:24:16.630,0:24:21.740
Was ich deswegen hier zeige, ist die[br]Effektivität dieser Methode in
0:24:21.740,0:24:24.770
Abhängigkeit der Anzahl der Domain die[br]ich zur Verfügung habe.
0:24:24.770,0:24:26.860
Wir fangen also an hier links,
0:24:26.860,0:24:30.400
wo nur die Top 50 Domains in[br]unserem Datensatz zur Verfügung hätten
0:24:30.400,0:24:35.309
und schauen uns an, wenn wir zufälliges[br]Sample von Usern, in diesem Fall 200,
0:24:35.309,0:24:39.380
versuchen zu deanonymisieren, [br]wo befindet sich denn der korrekte User
0:24:39.380,0:24:42.430
unter all den Nutzern, die wir in dem [br]Datensatz haben.
0:24:42.430,0:24:44.340
Man sieht hier für 50 Domains ist das
0:24:44.340,0:24:46.260
ungefähr 160.[br]
0:24:46.260,0:24:49.050
D.h. es gibt 160 andere Nutzer [br]im Schnitt, die eine höhere
0:24:49.050,0:24:52.640
Wahrscheinlichkeit haben, mit den Daten[br]übereinzustimmen, als der wirklich
0:24:52.640,0:24:53.590
gesuchte Nutzer.
0:24:53.590,0:24:56.590
So, wenn wir jetzt die Anzahl der Domains [br]allerdings erhöhen:
0:24:56.590,0:24:59.810
also wir können z.B. auf 100 gehen, sehen[br]wir, das der Wert schon rapide abfällt.
0:24:59.810,0:25:03.470
D.h. hier habe ich schon die Anzahl der[br]möglichen Nutzer, die zu einem wirklichen
0:25:03.470,0:25:06.220
Nutzer gehören könnten extrem reduziert.[br]
0:25:06.220,0:25:07.830
Auf ungefähr 25
0:25:07.830,0:25:09.730
und wenn ich die Anzahl der Domains
0:25:09.730,0:25:11.920
entsprechend erhöhe auf [br]200 oder 300 sogar,
0:25:11.920,0:25:14.080
bin ich sehr schnell auch in der Lage
0:25:14.080,0:25:16.820
wirklich den Nutzer eindeutig[br]wieder zu identifizieren .
0:25:16.820,0:25:19.930
Also es gibt keine Fehler,[br]in diesem Sinne dann, für die
0:25:19.930,0:25:22.930
Identifikation eines bestimmten Nutzers.
0:25:22.930,0:25:27.971
So, das ist natürlich alles graue Theorie[br]und es stellt sich die Frage:
0:25:27.971,0:25:31.631
Ist es überhaupt möglich, solche [br]öffentlichen Informationen zu gewinnen
0:25:31.631,0:25:34.320
oder ist das eher unwahrscheinlich, [br]dass man an solche
0:25:34.320,0:25:36.190
Informationen rankommen würde?
0:25:36.190,0:25:38.950
Deswegen habe ich versucht anhand von [br]den Daten, die wir haben und anhand von
0:25:38.950,0:25:43.070
öffentlichen Informationsquellen wirklich[br]Deanonymisierung durchzuführen, mit den
0:25:43.070,0:25:46.810
Usern, die wir haben. [br]Und ich zeige jetzt drei Beispiele.
0:25:46.810,0:25:49.620
Das erste beruht auf der Analyse von [br]Twitter-Daten.
0:25:49.620,0:25:52.620
Da haben wir also einen Nutzer aus [br]unserem Datensatz
0:25:52.620,0:25:57.540
der einen Twitter-Account hatte zufällig[br]rausgesucht. Haben uns dann angeschaut,
0:25:57.540,0:26:01.730
welche URLs dieser Nutzer in dem[br]entsprechenden Zeitraum, über den wir die
0:26:01.730,0:26:06.460
Daten hatten, geteilt hat und haben dann[br]aus diesen Tweets hier die entsprechenden
0:26:06.460,0:26:10.880
URLs extrahiert, davon wieder Domains[br]generiert oder extrahiert und diese
0:26:10.880,0:26:15.200
Domains dann mit unserem Algorithmus[br]genutzt.
0:26:15.200,0:26:18.200
So. Wie wir sehen haben wir für
0:26:18.200,0:26:19.500
diesen einen Nutzer dabei 8 Domains[br]extrahiert
0:26:19.500,0:26:22.500
über den entsprechenden Zeitraum.
0:26:22.500,0:26:27.220
Also wir haben hier relativ[br]populäre Domains wie GitHub, Change.org
0:26:27.220,0:26:29.190
aber auch viele Blogs,
0:26:29.190,0:26:31.370
Beispielsweise: rtorp.wordpress.com [br]
0:26:31.370,0:26:33.370
was nur von 129 Nutzern aus dem Datensatz
0:26:33.370,0:26:38.830
besucht wurde und auch andere kleinere [br]Webseiten.
0:26:38.830,0:26:44.070
Wenn wir jetzt uns anschauen, welche[br]Nutzer aus unserem Datensatz haben
0:26:44.070,0:26:50.990
mindestens eine dieser Domains besucht, in[br]dem entsprechenden Zeitraum, und die Nutzer
0:26:50.990,0:26:55.700
gegen die Anzahl der Domains, die sie aus[br]diesem Satz von Domains besucht haben
0:26:55.700,0:26:58.461
auftragen, bekommen wir diese Grafik hier.
0:26:58.461,0:27:01.001
Also die zeigt die ca. 110.000 Nutzer, die
0:27:01.001,0:27:06.380
min. eine dieser Webseite besucht haben[br]und zeigt gleichzeitig an: Wieviele von
0:27:06.380,0:27:09.809
den entsprechenden Domains der Nutzer[br]wirklich besucht hat. Und wir sehen:
0:27:09.809,0:27:13.710
Also, es gibt sehr, sehr viele Nutzer, [br]die min. eine hiervon besucht haben.
0:27:13.710,0:27:15.220
Wenn wir allerdings hochgehen zu [br]zwei, drei oder vier davon[br]
0:27:15.220,0:27:18.220
verringert sich die Anzahl sehr schnell.
0:27:18.220,0:27:23.160
Und wir sehen hier, dass wir oben bei 7[br]einen einzigen Nutzer haben und dabei
0:27:23.160,0:27:27.440
handelt es sich wirklich um den Nutzer, den[br]wir entsprechend deanonymisieren wollten.
0:27:27.440,0:27:31.350
D.h. hier ist eine Zuordnung mit 100%ger[br]Sicherheit möglich für diesen Nutzer.
0:27:31.350,0:27:36.240
Wir haben das auch für andere Nutzer[br]durchgespielt. Wir konnten nicht immer den
0:27:36.240,0:27:39.840
korrekten Nutzer rausfinden. Aber wir[br]konnten in den meisten Fällen die Anzahl
0:27:39.840,0:27:43.250
möglicher Nutzer auf ca. 10–20[br]reduzieren.
0:27:47.430,0:27:49.550
Das zweite Beispiel, dass ich jetzt noch
0:27:49.550,0:27:54.999
zeigen möchte, ist anhand von[br]YouTube-Daten gemacht worden.
0:27:54.999,0:27:59.650
Oft ist es so, dass viele Daten in solchen[br]Datensätzen wirklich anonymisiert werden,
0:27:59.650,0:28:03.870
aber bestimmte Daten davon ausgenommen[br]werden, weil es ein starkes Interesse gibt,
0:28:03.870,0:28:05.220
seitens der Unternehmen, diese zu nutzen.[br]
0:28:05.220,0:28:08.220
YouTube-Videos sind ein gutes Beispiel
0:28:08.220,0:28:12.600
dafür, weil Unternehmen bspw. wissen[br]möchten, welche Videos haben bestimmte
0:28:12.600,0:28:16.830
Nutzer angeschaut, in welcher Kombination,[br]um daraus für ihr Marketing Erkenntnisse
0:28:16.830,0:28:20.390
abzuleiten. Und man könnte auch meinen,[br]dass diese Information über öffentliche
0:28:20.390,0:28:23.770
Videos, die eigentlich ja jeder sich[br]anschauen kann im Internet,
0:28:23.770,0:28:25.110
auch nicht sehr kritisch ist.
0:28:25.110,0:28:28.110
Was wir gemacht haben deswegen, [br]um zu zeigen, ob das wirklich so ist,
0:28:28.110,0:28:32.320
ist, dass wir wieder aus unserem[br]Datensatz einen Nutzer extrahiert haben,
0:28:32.320,0:28:37.140
von diesem Nutzer die Favoritenliste der[br]YouTube-Videos uns besorgt haben, die auch
0:28:37.140,0:28:40.350
öffentlich ist im Normalfall, also man[br]kann das Einstellen natürlich, das es
0:28:40.350,0:28:43.520
nicht öffentlich ist aber 90% der User[br]machen das nicht und haben das
0:28:43.520,0:28:46.830
entsprechend dann in der Öffentlichkeit[br]und haben uns aus dieser Liste per
0:28:46.830,0:28:52.020
YouTube-API automatisiert sämtliche[br]Video-IDs besorgt. Und mit diesen
0:28:52.020,0:28:55.720
Video-IDs haben wir wieder unseren[br]Algorithmus gefüttert, diesmal allerdings
0:28:55.720,0:28:59.280
mit den kompletten URL-Daten, da die
0:28:59.280,0:29:01.990
Domains halt nicht die Video-IDs[br]enthalten.
0:29:01.990,0:29:04.780
Ups... jetzt habe ich falsch[br]gedrückt ha so... also
0:29:04.780,0:29:07.010
Wie vorher haben wir also
0:29:07.010,0:29:10.890
diese IDs, das sind ungefähr 20 und[br]haben auf der anderen Seite sämtliche
0:29:10.890,0:29:14.950
Nutzer, die min. 1 von diesen Videos[br]angeschaut haben. Wie wir sehen können
0:29:14.950,0:29:19.990
sind das in dem Fall ca. 20.000, wobei[br]wieder eine Menge von den Nutzern sich
0:29:19.990,0:29:25.360
min. 1 angeschaut haben. Aber die Anzahl[br]der potentiellen Nutzer, die sich mehrere
0:29:25.360,0:29:29.799
angeschaut haben rapide runtergeht. Und[br]wir sehen hier Bspw. für vier oder fünf
0:29:29.799,0:29:33.270
oder sechs haben wir nur noch eine[br]Handvoll User und wir haben wieder einen
0:29:33.270,0:29:37.860
Treffer, der hier ganz oben liegt, bei 9[br]angeschauten Videos und dabei handelt es
0:29:37.860,0:29:42.519
sich wieder um den Nutzer, den wir im[br]vorherigen Schritt extrahiert haben.
0:29:42.519,0:29:44.440
Wir sehen also, es ist relativ einfach [br]
0:29:44.440,0:29:46.630
anhand von ner kleinen Anzahl von[br]Datenpunkten,
0:29:46.630,0:29:48.900
selbst aus ner sehr großen Anzahl [br]von Nutzern,
0:29:48.900,0:29:51.020
in diesem Fall über 1 Mio. Nutzer,
0:29:51.020,0:29:55.100
entsprechend auf einen User[br]zurückzuschließen. Und man muss dazu
0:29:55.100,0:29:58.231
sagen, dass solche Verfahren, dass[br]YouTube-Verfahren, sogar besser
0:29:58.231,0:30:02.240
funktioniert hat, als die Anonymisierung[br]über Twitter. Weil, ich schätze mal, die
0:30:02.240,0:30:05.650
Verteilung der Videos und Anzahl der[br]Videos auf YouTube noch mal höher ist als
0:30:05.650,0:30:09.260
die Anzahl der entsprechenden Domains die[br]wir zur Verfügung haben. D.h. eine
0:30:09.260,0:30:12.950
YouTube-Video-ID ist in dem Sinne sogar[br]ein stärkeres Deanonymisierungs-Signal
0:30:12.950,0:30:15.810
als die entsprechende Domain aus dem[br]Twitter-Feed.
0:30:15.810,0:30:17.820
So, dass letzte Beispiel:
0:30:17.820,0:30:25.760
dass ich zeigen möchte - basiert auf der[br]Analyse von Geodaten. Dafür haben wir uns
0:30:25.760,0:30:30.640
angeschaut, wie wir aus unserem Datensatz[br]Geodaten extrahieren oder Koordinaten
0:30:30.640,0:30:34.360
extrahieren können. Und wir haben[br]rausgefunden, dass es relativ einfach
0:30:34.360,0:30:39.070
über Google-Maps-URLs geht. Die also wenn[br]man sich einen bestimmten Bereich anschaut
0:30:39.070,0:30:44.490
meisten oben in der URL die geographischen[br]Koordinaten enthalten. D.h. wir konnten
0:30:44.490,0:30:48.930
aus unserem Datensatz einige Mio. von[br]diesen Koordinatenpaaren extrahieren und
0:30:48.930,0:30:52.280
die auch nach entsprechenden Nutzer[br]gruppieren und können damit eine
0:30:52.280,0:30:57.990
komplette Karte von der Nutzeraktivität[br]anfertigen. Also wir sehen z.B. welche
0:30:57.990,0:31:01.680
Kartenausschnitte sich User angeschaut[br]haben. Wenn sie z.B. nach Urlaubszielen
0:31:01.680,0:31:06.290
geschaut haben, vielleicht nach ihrem[br]Arbeitsort, nach einem Weg, nach einer
0:31:06.290,0:31:09.670
Wegbeschreibung. Und können diese[br]Information also auch Nutzergenau
0:31:09.670,0:31:14.581
verarbeiten. Und Geodaten sind besonders[br]interessant hierfür, weil es sehr viel
0:31:14.581,0:31:20.960
schwieriger ist, diese selbst zu ändern,[br]da es ja relativ einfach ist seine
0:31:20.960,0:31:24.910
Surfgewohnheiten oder Videogewohnheiten im[br]Zweifelsfall anzupassen aber es relativ
0:31:24.910,0:31:29.710
schwierig ist, bspw. die Arbeitsstelle[br]oder den Wohnort oder sämtliche vertraute
0:31:29.710,0:31:33.549
Orte zu wechseln. D.h. diese Information[br]sehr, in diesem Sinne sticky, in dem
0:31:33.549,0:31:38.250
Sinne, dass sie dem User über lange Zeit[br]auch zuordenbar sind normalerweise. Und
0:31:38.250,0:31:41.900
wir können auch wieder aus verschiedenen[br]öffentlichen Quellen Informationen
0:31:41.900,0:31:44.500
extrahieren. Bspw. aus Google-Maps oder[br]
0:31:44.500,0:31:47.370
auch über Flickr, wo auch viele Fotos [br]geocodiert sind und
0:31:47.370,0:31:50.860
können dann über diese Information[br]ein Matching mit den Daten, die wir in
0:31:50.860,0:31:52.670
unserem Datensatz haben, durchführen. [br]
0:31:52.670,0:31:55.870
Und hier ist es auch so, dass wir [br]über eine relativ kleine Anzahl
0:31:55.870,0:31:59.060
also weniger als 10 Datenp unkte im [br]Idealfall, ähm Normalfall,
0:31:59.060,0:32:03.980
den einzelnen Nutzer aus dem Datensatz[br]extrahieren und identifizieren können.
0:32:07.230,0:32:08.809
So, eine Frage die ich oft gestellt[br]bekomme, ist:
0:32:08.809,0:32:11.809
Kann ich mich verstecken in meinen Daten?
0:32:11.809,0:32:15.970
Also, ist es möglich dadurch,[br]dass ich mich unvorhergesehen verhalte,
0:32:15.970,0:32:19.930
dass ich vielleicht Webseiten öffne,[br]die ich normalerweise nie anschauen
0:32:19.930,0:32:23.870
würde, dass ich den Algorithmus verwirre[br]und dementsprechend nicht in den Daten
0:32:23.870,0:32:30.330
auftauche werde? Da muss leider sagen,[br]dass funktioniert vermutlich nicht, aus
0:32:30.330,0:32:36.760
dem einfachen Grund, dass wir ja ein[br]Matching machen über die Zuordnung von
0:32:36.760,0:32:40.580
Eigenschaften, die entweder erfüllt oder[br]nicht erfüllt sind und ich als einzelner
0:32:40.580,0:32:44.380
Nutzer ja nur die Möglichkeit habe,[br]zusätzliche Datenpunkte zu meinem
0:32:44.380,0:32:48.080
persönlichen Vektor hinzuzufügen aber[br]meistens keine Datenpunkte von diesem
0:32:48.080,0:32:52.640
entfernen kann. D.h. wenn ich hier schon[br]mit meinen bestehenden Datenpunkten zu
0:32:52.640,0:32:56.111
100% identifiziert bin, kann ich[br]eigentlich so viele Punkte hinzufügen wie
0:32:56.111,0:33:01.720
ich möchte und werde trotzdem nicht im[br]normalfall von dem Algorithmus mit einem
0:33:01.720,0:33:06.170
anderen User verwechselt werden können.[br]D.h. diese Verfahren ist in dem Sinne sehr
0:33:06.170,0:33:12.690
robust gegenüber der Perturbation oder[br]der Änderung der Daten durch den Nutzer.
0:33:12.690,0:33:18.550
Als kleines Zwischenfazit kann man also[br]sagen, dass diese Art von Datensätzen die
0:33:18.550,0:33:22.390
sehr viele Dimensionen und sehr viele[br]Eigenschaften enthalten extrem schwierig
0:33:22.390,0:33:27.200
zu anonymisieren sind und auch bei[br]entsprechender Absicht man nicht immer
0:33:27.200,0:33:29.650
sicher sein kann, dass[br]Anonymisierungsmaßnahmen,
0:33:29.650,0:33:31.150
die man ergreift, wirklich
0:33:31.150,0:33:34.050
ausreichend sind, um sämtliche Nutzer[br]oder sogar nur einen kleinen Teil
0:33:34.050,0:33:36.330
von Nutzern in dem Datensatz zu schützen.[br]
0:33:36.330,0:33:38.100
Weiterhin ist es auch so, dass heute
0:33:38.100,0:33:41.530
eigentlich immer mehr öffentlich[br]verfügbare Informationen über Personen
0:33:41.530,0:33:46.410
zur Verfügung stehen, die auch genutzt[br]werden können, um Daten die anonymisiert
0:33:46.410,0:33:51.040
wurden z.B. vor 10 Jahren oder vor 5[br]Jahren jetzt mit neuen Datenpunkten in dem
0:33:51.040,0:33:55.030
Sinne besser zu deanonymisieren. D.h. es[br]wird immer einfacher möglich, auch aus
0:33:55.030,0:33:58.280
bestehenden Datensätzen entsprechende[br]Nutzerdaten und
0:33:58.280,0:34:02.630
Personen-Identifikationsmerkmale zu[br]extrahieren. Und wie wir gesehen haben,
0:34:02.630,0:34:06.290
reichen dafür oft eigentlich schon sehr[br]wenige Datenpunkte aus, um wirklich
0:34:06.290,0:34:10.819
einzelne Nutzer herauszusuchen und[br]eindeutig zu identifizieren.
0:34:10.819,0:34:17.629
S: Ja was bedeutet das? [br]Was bedeutet das, wenn man mit seinen
0:34:17.629,0:34:19.589
eigenen Daten konfrontiert wird?
0:34:19.589,0:34:22.830
Also wenn jemand anders einen mit [br]seinen Daten konfrontiert?
0:34:22.830,0:34:24.700
Also z.B. Ich?
0:34:24.700,0:34:27.530
Wir haben, die Recherche war[br]für ein politisches Magazin
0:34:27.530,0:34:29.520
und deswegen haben wir vor allem nach[br]
0:34:29.520,0:34:32.330
Politikern geschaut und auch die [br]Politiker selbst
0:34:32.330,0:34:34.729
oder deren Mitarbeiter gefunden [br]in diesen Daten.
0:34:34.729,0:34:37.449
Waren zwei Grüne dabei, [br]drei von der SPD,
0:34:37.449,0:34:39.808
darunter auch Mitarbeiter aus dem[br]
0:34:39.808,0:34:42.808
Büro von Lars Klingbeil, [br]Netzpolitischer Specher,
0:34:42.808,0:34:50.549
ein Europaparlamentarier und das[br]zog sich sozusagen bis ins Kanzleramt und
0:34:50.549,0:34:54.239
auch dort in einem Büro, bei einem[br]Staatsminister bei der Bundeskanzlerin war
0:34:54.239,0:34:58.599
auch ein Mitarbeiter betroffen. Wobei die[br]Mitarbeiter fast interessanter sind als
0:34:58.599,0:35:02.389
die Politiker selbst, weil die Mitarbeiter[br]sehr viel inhaltliche Arbeit für die
0:35:02.389,0:35:04.879
Politiker machen. Und auch sowas,
0:35:04.879,0:35:08.209
wie deren Reisen planen, [br]Kontakte herstellen.
0:35:08.209,0:35:13.139
Jetzt wollte selbstverständlich nicht [br]jeder gerne mit uns reden und
0:35:13.139,0:35:16.199
vor allem nicht vor der Kamera.
0:35:16.199,0:35:19.729
Einer hat es dann getan, das ist [br]Valerie Wilms.
0:35:19.729,0:35:23.930
Bevor wir sie jetzt mal hören, schauen [br]mir doch erstmal in ihre Daten.
0:35:23.930,0:35:26.430
lachen
0:35:26.430,0:35:31.609
Sie hat es freigegeben für diesen Vortrag,[br]sage ich noch dazu. Weil hier habe ich
0:35:31.609,0:35:36.489
jetzt sozusagen wirklich nichts[br]anonymisiert, wie in dem Datensatz davor.
0:35:36.489,0:35:43.950
So 01.08., ist auch Frühaufsteherin, erst[br]mal Banking... noch mal Banking... d.h.
0:35:43.950,0:35:49.930
man kann also hier ziemlich gut sehen z.B.[br]wo Leute ihre Konten haben. Auf die Konten
0:35:49.930,0:35:55.269
selbst kann man nicht zugreifen, aber man[br]weiß wo. Bisschen unangenehmer wird's
0:35:55.269,0:36:00.449
dann für sie sozusagen Ende August, da[br]haben viele Leute ihre in Deutschland ihre
0:36:00.449,0:36:04.069
Steuererklärung gemacht. Das habe ich[br]auch als Video nochmal. Da kann man
0:36:04.069,0:36:05.069
nochmal so ein bisschen runterscrollen,[br]
0:36:05.069,0:36:07.960
Dann sehen wir ein bißchen mehr von ihrer
0:36:07.960,0:36:13.870
Steuererklärung. Also man kann jetzt hier[br]sozusagen auf Elster-Online nicht selbst
0:36:13.870,0:36:18.160
zugreifen. Also wenn wir das jetzt machen[br]würden, würden wir sozusagen nicht
0:36:18.160,0:36:22.299
weiter kommen, weil dann auch nach einem[br]Passwort verlangt wird. Aber wir können
0:36:22.299,0:36:27.190
sehen, welche Vordrucke sie sich[br]angeschaut hat. Und können so
0:36:27.190,0:36:31.040
Informationen gewinnen, über Dinge,
0:36:31.040,0:36:37.200
die sie gedenkt zu versteuern. [br]Und es ist recht detailreich.
0:36:43.530,0:36:49.359
Ja, was hat sie nur dazu[br]gesagt, als wir bei ihr im Büro saßen?
0:36:49.359,0:36:54.269
Wir können Sie einmal kurz hören dazu.
0:36:54.269,0:36:58.550
Valerie Wilms: Ist rechts alles zu sehen?[br]Scheiße!
0:36:58.550,0:37:01.450
Gelächter
0:37:01.450,0:37:12.360
Applaus
0:37:12.360,0:37:17.180
S: Gab noch eine andere Geschichte, [br]auf die wir sie angesprochen haben.
0:37:17.180,0:37:20.779
Gibt ja nicht nur Steuererklärungen[br]sondern man schaut ja auch sowas bei
0:37:20.779,0:37:26.470
Google nach Tebonin nimmt man so [br]bei Hörsturz, Tinitus,[br]
0:37:26.470,0:37:29.160
Abgeschlagenheit. Ist natürlich gerade
0:37:29.160,0:37:33.079
für Politiker ein großes Problem, wenn [br]solch Informationen an die Öffentlichkeit
0:37:33.079,0:37:38.419
gelangen, Menschen dann falsche Schlüsse[br]daraus ziehen oder auch, ja, die Leute
0:37:38.419,0:37:44.050
damit erpressen können. Z.B. haben wir [br]sie auch darauf angesprochen.
0:37:44.050,0:37:47.329
Will ich die Reaktion nicht vorenthalten.[br]
0:37:47.819,0:37:51.519
Valerie Wilms: Ich weiß gar nicht in[br]welchem Zusammenhang ich dieses
0:37:51.519,0:37:54.549
Tebonin mir da angeguckt habe, [br]das ist nicht schön,
0:37:54.549,0:37:59.890
sowas nachträglich zu lesen. Vor allen [br]Dingen verknüpft mit dem eigenen Namen.
0:37:59.890,0:38:05.480
S: Ja, das war Valerie Wilms zu ihren[br]Daten. An diesem ganz kleinen Ausschnitt
0:38:05.480,0:38:10.940
sieht man wie Problematisch diese Daten[br]sind. Ich hab jetzt nicht die Beiträge
0:38:10.940,0:38:17.640
gezeigt, wo Menschen ihre sexuellen[br]Vorlieben ausleben. Weil, dass betrifft
0:38:17.640,0:38:22.039
natürlich auch Leute, die in[br]öffentlichen oder in relevanten
0:38:22.039,0:38:27.369
Positionen stehen. Natürlich sind auch[br]Richter in diesen Daten. Natürlich sind
0:38:27.369,0:38:34.819
auch Wirtschaftsbosse in diesen Daten. Und[br]natürlich sind das alles Menschen und die
0:38:34.819,0:38:39.779
haben Träume und die haben Gedanken, und[br]es überhaupt nichts, was in dritte Hände
0:38:39.779,0:38:44.859
gehört. Und deshalb war mit allen mit[br]denen wir gesprochen haben, im Zuge dieser
0:38:44.859,0:38:51.930
Recherche, war das für alle Betroffenen[br]sehr schockierend. Aber wer hat sie
0:38:51.930,0:38:57.489
ausgespäht? Woher kommen diese Daten? War[br]es irgendwie ein shady Trojaner oder so
0:38:57.489,0:39:04.039
auf dem Rechner? Nein. Wir sind relativ[br]schnell drauf gekommen, dass es
0:39:04.039,0:39:09.579
Browser-Plugins sind und haben dann einen[br]kleinen Test gemacht, haben einen Nutzer
0:39:09.579,0:39:15.190
gebeten Add-Ons zu deinstallieren. Und[br]haben dann eines herausfinden können;
0:39:15.190,0:39:26.069
Web-of-Trust - Was machen die so?[br]Safe Web Search & Browsing.
0:39:26.069,0:39:28.220
Applaus
0:39:28.220,0:39:34.200
Haben das dann noch mal mit einem sauberen[br]Browser sozusagen gegengetestet in der
0:39:34.200,0:39:40.749
Zeit als wir eine Möglichkeit hatten Live[br]in die Daten zuzugreifen, das hat ein
0:39:40.749,0:39:46.569
Securityspezialist für uns gemacht Mike[br]Kuketz und der hatte eine extra Webseite
0:39:46.569,0:39:50.380
aufgesetzt, einen sauberen Browser, nur[br]dieses eine Plugin installiert und wir
0:39:50.380,0:39:54.069
konnten ihn in den Daten sehen. Und[br]dadurch konnten wir sicher sein, dass es
0:39:54.069,0:39:58.440
eben bei diesem einen Plugin auch[br]tatsächlich der Fall war, dass dieser Weg
0:39:58.440,0:39:59.579
eben so gegangen ist.
0:39:59.579,0:40:07.349
A: Ja, warum ist das Tracking per App oder[br]Extension eigentlich so interessant für
0:40:07.349,0:40:10.880
die Anbieter? Nun für Unternehmen ist es[br]eigentlich immer sehr spannend ein
0:40:10.880,0:40:15.380
möglichst detailliertes Bild von einem[br]entsprechenden Nutzer zu gewinnen. D.h.
0:40:15.380,0:40:19.100
ich möchte, wenn möglich, sämtliche Daten[br]die über den Nutzer zur Verfügung
0:40:19.100,0:40:23.099
stehen. Und bei normalen Treckern ist das[br]ja so, dass ich als Nutzer mir eine
0:40:23.099,0:40:26.590
Webseite runterlade, in meinen Browser,[br]dann ein entsprechend ein
0:40:26.590,0:40:30.159
JavaScript-Applet oder ein anderes[br]Tracking-Tag ausgeführt wird, dass eine
0:40:30.159,0:40:32.369
entsprechende Verbindung aufbaut zu einem[br]
0:40:32.369,0:40:34.290
Tracking-Server und da Bspw. ein Cockie
0:40:34.290,0:40:37.609
setzt oder eine andere Information[br]speichert, die mich dann als Nutzer
0:40:37.609,0:40:42.319
nachverfolgt. In den letzten hat sich[br]dagegen, verständlicherweise, eine Menge
0:40:42.319,0:40:47.319
Widerstand auch geregt und viele Leute[br]benutzen mittlerweile Blocker, die
0:40:47.319,0:40:51.249
verhindern, dass solche Tracking-Scripte[br]ausgeführt werden. Oder die Verbindung zu
0:40:51.249,0:40:54.899
den Tracking-Servern abfangen oder[br]blockieren. D.h. es wird immer schwieriger
0:40:54.899,0:40:59.299
für die Tracking-Anbieter qualitativ[br]hochwertige Daten zu bekommen und da liegt
0:40:59.299,0:41:04.870
es doch eigentlich nahe, dass man sich[br]solchen Mechanismen, in Form von einer
0:41:04.870,0:41:09.020
Extension, zu Nutze macht, in dem man[br]die Sicherheitsmaßnahmen, die es in dem
0:41:09.020,0:41:12.609
Browser eigentlich per Default gibt,[br]relativ einfach umgeht und dann über
0:41:12.609,0:41:16.969
diesen Side-Channel sozusagen die[br]Information bei jeder einzeln aufgerufenen
0:41:16.969,0:41:20.960
URL direkt an den Tracking-Server sendet.[br]Und das hat einen weiteren Vorteil für
0:41:20.960,0:41:24.530
die Anbieter, weil damit nicht nur die[br]Seiten überwacht werden können, die
0:41:24.530,0:41:28.160
wirklich Tracking-Codes auch explizit[br]beinhalten, sondern auch viele andere
0:41:28.160,0:41:33.200
Webseiten, die überhaupt keine Codes auf[br]der Seite haben. Also Bspw. Seiten von
0:41:33.200,0:41:37.349
öffentlich Rechtlichen Institutionen, die[br]ihre Nutzer im Normalfall nicht tracken.
0:41:37.349,0:41:42.011
D.h. es ist also möglich über dieses[br]Verfahren von einer kleineren Anzahl an
0:41:42.011,0:41:46.839
Usern allerdings ein sehr viel größeres[br]Spektrum an Daten, im Idealfall oder im
0:41:46.839,0:41:51.440
schlimmsten Fall, je nachdem wie man das[br]sieht, die komplette Browsinghistory von
0:41:51.440,0:41:56.009
diesem entsprechenden User zu gewinnen.[br]So, wir haben uns in unserem Datensatz
0:41:56.009,0:42:00.759
dafür nochmal angeschaut, wie viele von[br]diesen Extensions es eigentlich gibt und
0:42:00.759,0:42:05.079
wie viele Daten jede von diesen Extensions[br]generiert. Und hier haben wir wieder einen
0:42:05.079,0:42:08.499
doppelt logarithmischen Plot, wo auf der[br]einen Seite hier der Rang der
0:42:08.499,0:42:10.449
entsprechenden Extension aufgetragen ist[br]
0:42:10.449,0:42:12.859
d.h. je mehr Datenpunkte von [br]der Extension
0:42:12.859,0:42:18.210
wir bekommen haben, umso weiter finden Sie[br]hier die Extension links. Und auf der
0:42:18.210,0:42:21.879
anderen Achse haben wir die Anzahl der[br]Datenpunkte entsprechend aufgetragen. Und
0:42:21.879,0:42:26.630
wir sehen hier, dass die populärste[br]Extension, das ist Web-of-Trust bereits
0:42:26.630,0:42:31.319
für 1 Mrd. Datenpunkte in dem Datensatz[br]verantwortlich ist. Und wenn man die
0:42:31.319,0:42:36.809
ersten 10 Extensions nehmen, sehen wir,[br]dass bereits 95% der Daten davon abgedeckt
0:42:36.809,0:42:42.380
werden. D.h. es ist also eine kleine[br]Anzahl von Extension, die eigentlich die
0:42:42.380,0:42:46.660
größte Masse an Daten hier für diesen[br]Anbieter produziert. Wobei es auch sehr
0:42:46.660,0:42:50.990
viele, also hier fast 10.000 verschiedene[br]Application-IDs gibt, die teilweise einige
0:42:50.990,0:42:57.200
100 oder bis zu einige 100.000 oder einige[br]Mio. Datenpunkte ihrerseits liefern. Es
0:42:57.200,0:43:00.999
ist nicht unbedingt gesagt, dass es auch[br]10.000 Extensions sind, weil wir keine
0:43:00.999,0:43:04.839
eindeutige Zuordnung zu der Application-ID[br]haben, d.h. das ist eher eine obere
0:43:04.839,0:43:08.279
Abschätzung. Und um jetzt ein genaueres[br]Bild zu bekommen,
0:43:08.279,0:43:10.939
wie verseucht eigentlich so ein Web-Store
0:43:10.939,0:43:14.159
ist, haben wir eine[br]Verhaltensanalyse durchgeführt,
0:43:14.159,0:43:17.189
wofür wir mit einem [br]Automatisierungsframework:
0:43:17.189,0:43:19.839
Webdriver - uns einfach einen [br]Chrome-Browser
0:43:19.839,0:43:23.419
genommen haben, da automatisiert[br]verschiedene Extensions installiert haben
0:43:23.419,0:43:28.869
und dann mit diesem Webdriver entsprechend[br]verschiedene Webseiten angesurft haben,
0:43:28.869,0:43:33.589
wobei wir über einen Python-basierten[br]Proxy-Server dann mitgeloggt haben, welche
0:43:33.589,0:43:38.109
URLs bzw. welche Webseiten von dem[br]entsprechenden Browser geöffnet wurden,
0:43:38.109,0:43:41.609
wenn wir bestimmte Seiten angesteuert[br]haben. D.h. darüber konnten wir
0:43:41.609,0:43:46.069
verfolgen, ob der Browser beim Öffnen von[br]bestimmten Seiten oder von allen URLs
0:43:46.069,0:43:50.980
vielleicht noch zusätzlich Informationen[br]eventuell an Dritte schickt. Und das haben
0:43:50.980,0:43:54.680
wir für ca. 500 Plugins so ausgeführt[br]und wie man hier sehen kann, verhalten
0:43:54.680,0:43:58.719
sich die meisten eigentlich so, wie man[br]es erwarten würde, d.h die öffnen nur die
0:43:58.719,0:44:03.180
URLs, die entsprechende Anzahl der URLs,[br]die man erwarten würde für den
0:44:03.180,0:44:08.289
Testdatensatz, den wir verwendet haben. [br]Und gleichzeitig gibt es auch einige
0:44:08.289,0:44:12.750
Extensions, z.B. das hier, dass sich[br]merkwürdig verhält und sehr viele
0:44:12.750,0:44:16.640
URL-Aufrufe hat. Und hier haben wir bei[br]einer genauen Analyse auch gesehen, dass
0:44:16.640,0:44:20.710
das entsprechende Plugin oder die[br]Extension auch Daten an einen Drittserver
0:44:20.710,0:44:25.150
schickt, bei jeder aufgerufenen URL. Wobei[br]man sagen muss, dass jetzt aus den 500
0:44:25.150,0:44:30.449
untersuchten Extension nur einige dabei[br]waren, die wirklich eventuell schadhaftes
0:44:30.449,0:44:33.599
Verhalten zeigen. D.h. die[br]Wahrscheinlichkeit, dass man sich mit
0:44:33.599,0:44:37.430
Extension infiziert, in dem man Sachen[br]runterlässt aus dem Webstore ist aktuell
0:44:37.430,0:44:43.990
noch relativ gering, scheint aber größer[br]zu werden. So, die letzte Frage ist
0:44:43.990,0:44:48.559
natürlich: Wie oder kann ich mich[br]überhaupt gegen so etwas schützen? Und
0:44:48.559,0:44:53.759
ich denke, daß in einigen Jahren es trotz[br]client-seitigen blockierens von Trackern
0:44:53.759,0:44:57.680
immer schwieriger sein wird sich als[br]Nutzer anonym im Internet zu bewegen, weil
0:44:57.680,0:45:01.999
es, wie wir gesehen haben, anhand von[br]einigen wenigen Datenpunkten möglich ist,
0:45:01.999,0:45:06.069
eine Identifikation von an sich[br]anonymisierten Daten herzustellen.
0:45:06.069,0:45:09.899
Dh. selbst wenn ich mit einem Tracker [br]oder eine Extension sämtliche Tracker
0:45:09.899,0:45:13.320
blockiere, habe ich immer noch solche[br]Dinge wie: meine IP-Adresse, meinen
0:45:13.320,0:45:17.200
User-Agent und die Kombination aus[br]mehreren solchen Eigenschaften kann schon
0:45:17.200,0:45:20.989
ausreichen, um mich wieder eindeutig zu[br]identifizieren in größeren Datensätzen.
0:45:20.989,0:45:25.579
D.h. wenn ich wirklich sicher im Internet[br]unterwegs sein möchte, müsste ich
0:45:25.579,0:45:28.950
zumindest darauf achten, dass ich[br]möglichst viele dieser Eigenschaften
0:45:28.950,0:45:33.200
ständig rotiere und ändere in dem[br]ich bspw. VPN-Lösungen benutze, die auch
0:45:33.200,0:45:37.630
rotierende IP-Adressen verwenden. Wobei[br]das auch keine Garantie natürlich ist,
0:45:37.630,0:45:41.900
dass man nicht getrackt werden kann. [br]D.h. es wird also immer schwieriger sich
0:45:41.900,0:45:48.160
im Internet zu bewegen, ohne dem Risiko[br]der Deanonymisierung ausgesetzt zu sein.
0:45:48.160,0:45:57.440
S: Genau, was ist so das Ergebnis von der[br]Recherche gewesen? Also WOT verschwand
0:45:57.440,0:46:02.499
relativ kurz nach der Veröffentlichung[br]des Berichts zunächst mal aus dem
0:46:02.499,0:46:08.519
Chrome-Webstore und aus dem Mozilla-Store[br]und es haben natürlich sehr viele Nutzer
0:46:08.519,0:46:12.910
wie verrückt Plugins deinstalliert.[br]Deswegen können wir davon ausgehen, dass
0:46:12.910,0:46:20.390
auch der Datenstrom dann eingebrochen ist.[br]Aber natürlich die Plugins, die weiterhin
0:46:20.390,0:46:26.239
installiert sind und Nutzer, die es jetzt[br]nicht deinstalliert haben, da läuft es
0:46:26.239,0:46:30.650
natürlich weiter. Und auch inzwischen,[br]jetzt ein paar Wochen nach der Recherche,
0:46:30.650,0:46:40.150
ist WOT wieder im Google-Chrome-Store[br]verfügbar. So mein persönliches Fazit
0:46:40.150,0:46:46.210
daraus ist, ein Stück weit defend[br]yourself. Sprich, Andreas hatte schon
0:46:46.210,0:46:51.259
angedeutet, man kann sich nicht auf die[br]Stores verlassen, man muss sich ein Stück
0:46:51.259,0:46:55.999
weit selbst schützen und selbst[br]überlegen, was kann ich tun um dieser
0:46:55.999,0:47:00.690
Überwachung zu entgehen. Ja, also wir[br]sind recht am Ende von unserem Talk aber
0:47:00.690,0:47:05.079
trotzdem ganz wichtig nochmal der Dank an[br]ein relativ großes Team was uns
0:47:05.079,0:47:08.950
unterstützt hat in dieser Zeit ja vor[br]allem meine Kollegin die Jasmin Klofta
0:47:08.950,0:47:12.249
sitzt in der ersten Reihe, ja Dankeschön.
0:47:12.249,0:47:18.390
Applaus
0:47:29.830,0:47:32.569
Herald: So, wir haben noch ein wenig Zeit[br]für Fragen.
0:47:32.569,0:47:35.569
Wer eine Frage hat, bewegt sich bitte zu
0:47:35.569,0:47:44.789
bitte zu einem der Mikrofone. So, ich sehe[br]Bewegung. Aber ein paar flüchten erstmal.
0:47:44.789,0:47:52.919
War vielleicht doch nicht ganz so einfach[br]für die Nichtdeutschsprachigen., aber sehr
0:47:52.919,0:47:55.900
spannend. Dahinten haben wir[br]eine Frage an Mikrofon 6 bitte.
0:47:55.900,0:48:01.940
Mikrofon 6: Hallo, angenommen die Person,[br]über die man die öffentlichen Daten
0:48:01.940,0:48:06.390
sammelt, ist nicht im Pool von den[br]anonymisierten Daten. Dann gibts ja eine
0:48:06.390,0:48:09.780
Möglichkeit für einen False-Positive.[br]Oder kann man das ausschließen?
0:48:09.780,0:48:15.309
A: Ja, natürlich gibt es auch die[br]Möglichkeit von einem False-Positive. Das
0:48:15.309,0:48:21.289
das hängt natürlich immer ein bisschen von[br]der Nutzung der Daten ab, ob das
0:48:21.289,0:48:25.200
problematisch ist oder nicht für den[br]Anbieter. Es kann ja auch sein, wenn ich
0:48:25.200,0:48:29.469
Bspw. Nutzern Werbung anzeigen möchte, es[br]vielleicht auch gut genug ist, wenn ich
0:48:29.469,0:48:33.020
den Nutzer mit einer Wahrscheinlichkeit[br]von 10% schon identifiziere.
0:48:33.020,0:48:35.099
D.h. ich kann auch mit False-Positives [br]
0:48:35.099,0:48:36.119
oder der Anbieter kann auch mit [br]
0:48:36.119,0:48:37.709
False-Positives entsprechend leben.
0:48:37.709,0:48:39.159
Aber es ist natürlich immer die[br]
0:48:39.159,0:48:40.880
Möglichkeit gegeben, das der Nutzer,
0:48:40.880,0:48:42.649
wenn er nicht in dem Datensatz vorhanden[br]
0:48:42.649,0:48:45.189
ist, auch entsprechend identifiziert wird,
0:48:45.189,0:48:48.570
obwohl gar nicht drin ist. Und das kann[br]natürlich für den Nutzer selber zu großen
0:48:48.570,0:48:50.889
Problemen führen. Wenn ich da Bspw. an[br]Credit-Scoring denke,
0:48:50.889,0:48:52.289
über Machinelearning,
0:48:52.289,0:48:55.960
wo ich also vielleicht mit jemandem in[br]Verbindung gebracht werde, der ich gar
0:48:55.960,0:49:00.329
nicht bin und Datenpunkte, die ich nicht[br]kontrollieren kann, entsprechend meine
0:49:00.329,0:49:03.130
Kreditwürdigkeit dann beeinflussen kann.
0:49:03.130,0:49:06.769
Herald: Gut, an Mikro 3 bitte.
0:49:06.769,0:49:12.619
Mikrofon 3: Meine persönliche Frage ist,[br]was genau kostet das? Also kann sich eine
0:49:12.619,0:49:17.880
kleinere, mittelgroße, Privatdetektei die[br]auf Datenschutz scheißt, können die sich
0:49:17.880,0:49:18.880
Zugang holen?
0:49:18.880,0:49:24.369
S: Ja, weiß nicht was die für ein Budget[br]haben aber diese Daten werden lizensiert.
0:49:24.369,0:49:29.970
I.d.R. zahlt man für die Lizenz so für[br]einen Monat und im Jahr ist das so
0:49:29.970,0:49:33.760
im 6-stelligen Bereich.
0:49:33.760,0:49:36.899
Mirofon 2: [br]Sie hatten von den 10 Schlimmsten[br]
0:49:36.899,0:49:38.989
gesprochen, aber die Liste vergessen.
0:49:38.989,0:49:40.599
Lachen[br]Applaus
0:49:40.599,0:49:44.869
A: Den 10 Schlimmsten, ach so, ja.
0:49:44.869,0:49:47.599
Applaus[br]S: lachen genau
0:49:47.599,0:49:51.110
A: Also wir haben auch lange überlegt ob[br]wir die Extensions entsprechend
0:49:51.110,0:49:54.560
veröffentlichen können, wir haben[br]allerdings noch keine Zeit gehabt jetzt
0:49:54.560,0:49:58.340
eine detaillierte Analyse zu machen. Und[br]ich möchte keine Namen jetzt nennen von
0:49:58.340,0:50:02.069
Dingen, wo sich am Ende herausstellt, dass[br]es eigentlich gar nicht problematisch ist.
0:50:02.069,0:50:04.289
Wir werden auf jeden Fall dran[br]bleiben und versuchen alle von diesen
0:50:04.289,0:50:08.139
Extension, die in dem Datensatz drin sind[br]zu identifizieren. Aber wir wollen
0:50:08.139,0:50:12.129
natürlich eine Gewissheit haben, dass auch[br]entsprechend wir die korrekten Extensions
0:50:12.129,0:50:15.130
rausfiltern können, bevor wir[br]die Namen dann veröffentlichen.
0:50:15.130,0:50:21.060
Applaus
0:50:21.060,0:50:24.190
Herald: So, wir haben auch Fragen aus dem[br]Internet. Eine mal dazwischen.
0:50:24.190,0:50:30.950
Signal Engel: Also ich nehme jetzt mal ein[br]paar Fragen aus dem Internet zusammen.
0:50:30.950,0:50:35.030
Im wesentlichen lässt sich das[br]runterdampfen auf: Gibt es irgendwelche
0:50:35.030,0:50:39.319
technischen, juristischen oder sonstwie[br]gearteten Mittel um sich davor zu
0:50:39.319,0:50:43.799
schützen, oder dagegen vorzugehen? Oder[br]wurde da schon versucht da z.B. zu klagen?
0:50:43.799,0:50:46.300
A: Möchtest du das beantworten?
0:50:46.300,0:50:50.099
S: Ja, also einen Teil kann ich[br]beantworten. Also jetzt von unseren
0:50:50.099,0:50:54.811
Betroffenen hat da noch niemand geklagt.[br]So technisch gibt es natürlich
0:50:54.811,0:50:57.849
Möglichkeiten sich zu schützen.[br]Zumindest ein gutes Stück weit.
0:50:57.849,0:51:01.729
A: Ja, es gibt für den Nutzer natürlich[br]bedingte Möglichkeiten sich zu schützen.
0:51:01.729,0:51:06.049
Das Problem ist ja, das viele Nutzer das[br]Problem gar nicht kennen oder nicht sich
0:51:06.049,0:51:08.780
bewusst sind, dass ihre Daten entsprechend[br]gesammelt werden. Da ist also im
0:51:08.780,0:51:12.100
Zweifelsfall die Verantwortung bei den[br]Browser-Herstellern und wir sind auch ein
0:51:12.100,0:51:15.019
bisschen enttäuscht darüber, dass[br]Web-Of-Trust wieder in dem Chrome-Store
0:51:15.019,0:51:19.339
drin ist und auch weiterhin fleißig Daten[br]sammelt. Und auch die entsprechenden
0:51:19.339,0:51:20.339
Extensions, die schon vorher installiert[br]
0:51:20.339,0:51:22.690
wurden, auch nicht entfernt wurden in dem
0:51:22.690,0:51:23.690
Sinne. D.h. im Zweifelsfalle ist wirklich[br]
0:51:23.690,0:51:25.950
der Hersteller des Browsers am besten in
0:51:25.950,0:51:29.339
der Lage, den Nutzer vor solcher[br]Schadsoftware zu schützen, indem er ein
0:51:29.339,0:51:33.149
korrektes Auditing von den Extensions[br]durchführt, bevor sie in dem Store landen
0:51:33.149,0:51:34.809
und auch entsprechende Extensions,[br]
0:51:34.809,0:51:36.580
die gegen diese Bedingungen verstoßen
0:51:36.580,0:51:37.879
schnell wieder entfernt.
0:51:37.879,0:51:42.020
S: Und es macht auch Sinn sich mal[br]verschiedene Browser, Browseranbieter
0:51:42.020,0:51:47.419
anzuschauen, weil es gibt ja auch neben[br]den Großen Kleinere, die noch mal mehr Wert
0:51:47.419,0:51:50.720
legen eben darauf, dass man z.B. gar[br]keine Plugins installieren kann.
0:51:50.720,0:51:56.710
Herald: An Nummer 5 bitte.
0:51:56.710,0:52:02.089
Mikrofon 5: Gibt es die Möglichkeit, dass[br]ihr die Liste, die ihr für eure Recherche
0:52:02.089,0:52:06.109
erstellt habt, von Unternehmen die Daten[br]verkaufen, veröffentlicht. Quasi als
0:52:06.109,0:52:10.829
not-to-work-for-Liste. Ich mein unsereins[br]baut ja im Zweifelsfall irgendwelchen
0:52:10.829,0:52:14.420
Scheiß, also liegt es[br]auch an uns es zu lassen.
0:52:14.420,0:52:17.970
Applaus
0:52:17.970,0:52:23.749
S: Ja, es fehlt natürlich ein Name, hier[br]in diesem ganzen Vortrag. Der Name des
0:52:23.749,0:52:25.689
Datenhändlers oder auch tatsächlich die[br]
0:52:25.689,0:52:27.550
Namen der Firmen mit denen ich auch ein
0:52:27.550,0:52:29.350
bisschen ernsthafter ins Geschäft [br]gekommen bin.
0:52:29.350,0:52:30.890
Das sind eigentlich juristische
0:52:30.890,0:52:34.299
Gründe, warum wir das nicht [br]veröffentlichen können oder dürfen.
0:52:34.299,0:52:37.309
Einfach, ehrlich gesagt aus Furcht vor
0:52:37.309,0:52:42.430
diesen Unternehmen, aus sozusagen [br]Angst vor Klagen, die da kommen können.
0:52:42.430,0:52:46.759
Und deshalb sieht es[br]zumindest im Moment so aus, als dürften
0:52:46.759,0:52:51.390
wir die Namen nicht veröffentlichen. Aber[br]das ist noch work-in-progress sage ich mal.
0:52:51.390,0:52:53.770
Zwischenruf[br][br]Wikiwleaks[br]
0:52:53.770,0:52:54.190
Lachen
0:52:54.190,0:53:00.220
Applaus
0:53:00.220,0:53:03.010
Engel: Mikro 1
0:53:03.010,0:53:08.280
Mikrofon 1: So einer der Klassiker ist ja[br]JavaScript aus und Cockies aus und nur für
0:53:08.280,0:53:12.349
irgendwie bestimmte Seiten, denen man[br]vertraut, zulassen. Jetzt sagen Sie aber
0:53:12.349,0:53:15.949
auch... Aber wie weit würden Sie denn[br]kommen, wenn man jetzt wirklich sowas
0:53:15.949,0:53:20.710
wegnimmt und nur über ip-basierte Daten[br]und sowas, wie weit würde man da mit der
0:53:20.710,0:53:22.219
Deanonymisierung kommen?
0:53:22.219,0:53:25.930
A: Also meines Wissens setzen viele[br]Anbieter bereits Verfahren ein die
0:53:25.930,0:53:29.259
eigentlich nicht mehr auf Cockies[br]basieren, also nur noch, wenn diese
0:53:29.259,0:53:33.190
verfügbar sind und die statt dessen auf[br]anderen Identifikationsmerkmalen basieren
0:53:33.190,0:53:38.450
die entsprechend schwerer zu ändern sind.[br]Bspw: der IP-Adresse, der Device-ID oder
0:53:38.450,0:53:42.280
anderen IDs, die entsprechend fix sind und[br]getrackt werden können über die Zeit.
0:53:42.280,0:53:46.599
D.h. ist relativ einfach zumindest mit[br]einer hohen Wahrscheinlichkeit möglich
0:53:46.599,0:53:51.460
Nutzer über verschiedene Endgeräte zu[br]identifizieren. Und ich kann mich
0:53:51.460,0:53:55.239
natürlich über das Client-Seitige[br]Browser-Tracking schützen, aber das heißt
0:53:55.239,0:53:59.459
nicht, dass ich mich gegen diese anderen[br]Tracking-Maßnahmen auch schützen kann.
0:53:59.459,0:54:01.249
Engel: Mikro 6.
0:54:01.249,0:54:09.619
Mikrofon 6: Zur Deanonymisierung. Ist es[br]möglich, so Deanonymisierung, stark zu
0:54:09.619,0:54:16.720
erschweren oder zu verhindern durch so[br]Methoden wie Differential Privacy?
0:54:16.720,0:54:21.450
A: Ja, dass ist in bestimmten Kontexten[br]anwendbar. Hier bei den Daten ist das
0:54:21.450,0:54:25.140
Problem, dass ich selbst als Nutzer[br]eigentlich nicht kontrolliere, was ich von
0:54:25.140,0:54:29.410
mir generiere, weil die Daten entweder[br]unbewusst oder ohne meine Zustimmung
0:54:29.410,0:54:34.099
erhoben werden. D.h. das einzige was ich[br]tun kann als Nutzer ist zusätzlich
0:54:34.099,0:54:37.890
Datenenpunkte zu liefern, ich habe aber[br]keine Möglichkeit Datenpunkte zu fälschen
0:54:37.890,0:54:42.839
oder nur in sehr geringem Umfang zumindest[br]oder auch Datenpunkte wieder zu entfernen.
0:54:42.839,0:54:48.599
D.h. in dem Sinne wäre das vermutlich eher[br]weniger angebracht aber klar im
0:54:48.599,0:54:51.949
Zweifelsfall ist es immer besser möglichst[br]wenige Informationen rauszugeben.
0:54:51.949,0:54:54.739
Obwohl eigentlich schon ausreicht wenige
0:54:54.739,0:54:58.549
kleine Informationsschnipsel zu haben, [br]die man dann relativ schnell auch
0:54:58.549,0:55:00.679
zusammen fügen kann, wie wir gesehen [br]haben.
0:55:00.679,0:55:03.049
D.h. es ist auch wirklich schwer [br]abzuschätzen und
0:55:03.049,0:55:05.179
[br]hängt auch immer sehr stark von der Natur
0:55:05.179,0:55:10.129
des Datensatzes ab, wie verräterisch[br]einzelne Datenpunkte von mir sein können.
0:55:10.129,0:55:13.289
Engel: Mikro 5.
0:55:13.289,0:55:17.930
Mikrofon 5: Ich würde gerne ein bisschen[br]eine naive Frage stellen. Wieso ist das
0:55:17.930,0:55:22.819
eigentlich quasi möglich oder erlaubt,[br]also die juristische Frage. Und auf der
0:55:22.819,0:55:26.789
anderen Seite, scheint mir doch ein[br]gewisses Gefälle zu sein zu dem, was auf
0:55:26.789,0:55:31.829
der einen Seite gemacht wird und sie die[br]jetzt Sorge haben, diese Namen zu nennen,
0:55:31.829,0:55:35.490
auf der anderen Seite, da scheint es mir[br]ein gewisses juristisches Gefälle
0:55:35.490,0:55:38.339
zu geben, das ich gerne verstehen würde.
0:55:38.339,0:55:44.169
Applaus
0:55:44.169,0:55:47.989
S: Sehr gute Frage, vielen Dank dafür. Wir[br]haben tatsächlich diesen juristischen
0:55:47.989,0:55:50.649
Aspekt für diesen Vortrag ein Stück weit[br]ausgeklammert.
0:55:50.649,0:55:53.249
Und der ist aber trotzdem hochspannend.
0:55:53.249,0:55:57.519
Und wir haben viele Gespräche mit [br]Datenschützern darüber geführt,
0:55:57.519,0:56:01.970
mit Juristen darüber geführt und haben[br]tatsächlich auch Paragraphen gewälzt weil
0:56:01.970,0:56:06.160
uns genauso diese Frage beschäftigt hat,[br]kann das überhaupt erlaubt sein. Also
0:56:06.160,0:56:10.760
zumindest was man für Deutschland sagen[br]kann, das ist nicht erlaubt. Und zwar ganz
0:56:10.760,0:56:15.259
einfach aus dem Grund, weil keiner der[br]Nutzer irgendwo dazu zugestimmt hat. Also
0:56:15.259,0:56:19.360
keiner der Nutzer hat, die wir besucht[br]haben, hat irgendwo irgendwas angeklickt:
0:56:19.360,0:56:23.329
„Ja ich möchte bitte, dass meine Daten in[br]diesem Umfang...“ Keiner. Und das kann
0:56:23.329,0:56:30.289
sogar nach Aussage vom Datenschützer[br]eventuell strafrechtlich relevant sein,
0:56:30.289,0:56:39.030
also sprich in Richtung Abhören gehen.[br]Bislang hat sich noch niemand berufen
0:56:39.030,0:56:45.829
gefühlt, da tatsächlich Klage oder Anklage[br]zu führen. Was wir jetzt sozusagen machen
0:56:45.829,0:56:49.930
trägt ja vielleicht dazu bei, dass es mal[br]eine Eingabe gibt beim Datenschützer und
0:56:49.930,0:56:52.459
dass tatsächlich sich auch[br]mal jemand dahinter klemmt.
0:56:52.459,0:56:56.129
A: Gerade bei Ausländischen Unternehmen[br]ist es natürlich immer sehr schwierig
0:56:56.129,0:56:59.799
auch entsprechend eine Handhabe zu[br]bekommen, um die auch juristisch belangen
0:56:59.799,0:57:04.299
zu können. D.h. da ist auch nochmal[br]sicherlich ein Gefälle vorhanden und auch
0:57:04.299,0:57:08.710
die Strafen, die Unternehmen im[br]Zweifelsfall drohen, sind im Vergleich zu
0:57:08.710,0:57:12.619
dem Schaden, der oder zu dem Risiko, das[br]Jemand eingeht, indem er diese Dinge
0:57:12.619,0:57:16.770
veröffentlicht, eigentlich relativ gering.[br]Weswegen es auch relativ wenig zu solchen
0:57:16.770,0:57:18.430
Dingen kommt, denken wir.
0:57:18.430,0:57:21.079
Engel: Gut, ich denke wir haben[br]noch Zeit für zwei Fragen.
0:57:21.079,0:57:22.880
Wir haben noch eine[br]aus dem Internet.
0:57:22.880,0:57:26.530
Signal Engel: Das Internet lässt fragen,[br]in wie fern man sein eigenen
0:57:26.530,0:57:30.379
Informationen, sofern sie auftauchen, von[br]euch bekommen kann oder auch nicht.
0:57:30.379,0:57:32.940
A: Uh... schwierige Frage.
0:57:32.940,0:57:33.940
Applaus
0:57:33.940,0:57:41.400
S: Das ist recht einfach die Antwort. Gar[br]nicht. Die Daten gibts nicht mehr. Sorry.
0:57:41.400,0:57:42.420
Applaus
0:57:42.420,0:57:49.609
Herald: [br]Kommen wir zu unserer letzten Frage.
0:57:49.609,0:57:56.650
Mikrofon: Ja, also, Hallo, hört man das?[br]Ok. Ich bin dann immer ein Freund von
0:57:56.650,0:58:02.170
Selbstverteidigung und so wie sie sagten,[br]aber die Frage ist, ist das überhaupt
0:58:02.170,0:58:06.349
möglich? Also ich würde sagen, dass Thema[br]ist so komplex, dass sich wahrscheinlich
0:58:06.349,0:58:09.969
die meisten, die hier sind, nur dann[br]schützen können, wenn sie wirklich viel
0:58:09.969,0:58:16.550
Zeit reinstecken in diese Arbeit. Und ich[br]frage mich: meine Mutter, mein Vater, mein
0:58:16.550,0:58:18.910
Onkel, wie sollen die[br]sich vor sowas schützen?
0:58:18.910,0:58:22.089
A: Willst du oder soll ich?[br]S: Ja, mach ruhig.
0:58:22.089,0:58:26.049
A: Ja, das ist das Problem, dass ich auch[br]eben kurz angesprochen habe. Und zwar,
0:58:26.049,0:58:29.849
dass viele Nutzer auch gar nicht wissen,[br]dass sie getrackt werden und auch nicht
0:58:29.849,0:58:34.109
die technischen Kenntnisse haben, um sich[br]effektiv gegen sowas zu schützen. Wir
0:58:34.109,0:58:38.240
haben ja gesehen, obwohl die Leser von[br]Fefes-Blog eher technik-affin sind, gibts
0:58:38.240,0:58:42.109
immer noch 3.000 Nutzer, die in dem[br]Datensatz auftauchen, die also auch
0:58:42.109,0:58:45.859
getrackt wurden in dem Sinne. D.h. dass[br]selbst Leute mit IT-Kenntnissen und
0:58:45.859,0:58:49.710
IT-Sicherheitserfahrung sind nicht dagegen[br]gefeit auch entsprechend getrackt zu
0:58:49.710,0:58:54.150
werden. Weil es auch unglaublich schwierig[br]ist, auch für mich, sämtliche Methoden
0:58:54.150,0:58:57.790
nachzuvollziehen und immer auf dem[br]aktuellen Stand zu sein. Und es ist auch
0:58:57.790,0:59:01.999
sehr schwer abschätzbar, was man mit den[br]Daten eigentlich machen kann. Also es
0:59:01.999,0:59:05.960
stimmt wirklich, ja, es ist wirklich, es[br]gibt keine gute Lösung momentan dafür.
0:59:05.960,0:59:11.069
Herald: So es gibt zwar noch weitere[br]Fragen aber die Zeit ist leider vorbei.
0:59:11.069,0:59:14.810
Wer noch fragen an die Beiden hat, kann[br]hier gleich einfach kurz nach vorne
0:59:14.810,0:59:18.249
kommen. Erstmal möchte ich mich aber[br]herzlich bei euch beiden für diesen
0:59:18.249,0:59:20.499
spannenden und interessanten[br]Vortrag bedanken.
0:59:20.499,0:59:36.629
Applaus
0:59:36.629,0:59:42.599
Abspannmusik
0:59:42.599,1:00:01.000
Untertitel erstellt von c3subtitles.de[br]im Jahr 2017. Mach mit und hilf uns!