33C3 Vorspannmusik
Herald: Ich habe vorhin erzählt, dass
Snowden uns heute zugeschaltet wurde und
er hat uns aufgerufen, etwas zu tun. Heute
hören wir hier einen Talk, und zwar „build
your own NSA“ – „baue deine eigene NSA“.
Geheimdienste sammeln Daten, aber sie sind
nicht die Einzigen. Es gibt auch die so
genannten Datenkraken – an wen denken wir
da alle? An Google, an Facebook. Wer hier
hat einen Google-Account, Hände hoch,
traut euch! Des sind ganz schön viele. Wer
hat einen Facebook-Account? Es sind
allerdings nicht nur die großen Firmen wie
Facebook oder Google, die Daten sammeln.
Es sind auch die kleineren Firmen oder
unbekannte, wo wir die Namen noch nie
gehört haben und Leute, wo wir es nicht
erwarten, wie zum Beispiel ich auf der
Bühne. Ich weiß jetzt wer einen Google-
und wer einen Facebook-Account bei euch
hat. Vielen Dank für die Info.
Diese Firmen, oder auch ich,
könnte jetzt hingehen,
diese Daten tauschen oder einfach
an die Leute die zahlen, verkaufen.
Mein kleines Experiment hier war
ziemlich lächerlich und natürlich banal,
aber Svea Eckert und Andreas
Dewes haben ein größeres
Experiment gemacht mit einfachen Techniken
des Social Engineerings und rausgefunden,
was für Daten gesammelt werden können.
In diesem Talk werden sie uns nicht nur
erzählen, wer, warum und wie Daten sammelt
sondern ob es auch noch eine Möglichkeit
gibt, unsere Privatsphäre zu schützen.
Andreas ist Data Scientist und entwickelt
Technologien, damit wir Wissen aus
Daten extrahieren können. Svea ist
freiberufliche Journalistin und
recherchiert IT-Themen und berichtet
darüber für die Tagesschau und die
Tagesthemen. Sie hat auch mitgewirkt bei
Dokumentationen zu Themen wie Wikileaks,
Facebook und dem NSA-Skandal, wo gerade
Edward Snowden einen großen Teil
eingenommen hat. Ich freue mich herzlich,
die beiden hier zu begrüßen und bitte euch
jetzt um einen ganz, ganz lauten Applaus
für die beiden und wünsche
euch allen viel Spaß.
Applaus
Svea Eckert: Danke.
Andreas Dewes: Ja, hallo zusammen, also
wir freuen uns natürlich, dass wir hier
sein dürfen heute, ich hab wie gesagt die
Datenanalyse für die Recherche
hier gemacht und darf mich daher
erstmal entspannen jetzt und
übergebe dann das Wort an Svea.
S: Ja ich bin Svea Eckart, arbeite für den
NDR, beziehungsweise die ARD, und wir haben
’ne große Recherche gemacht, die ging
über den ganzen Sommer und mündete in
der relativ aufsehenerregenden
Berichterstattung Anfang November unter
dem Hashtag #NacktImNetz – der Eine oder
Andere hat vielleicht dazu sogar was
gesehen. Was wir wissen: Also: Wir wissen,
dass, wenn wir uns im Netz bewegen dass
Firmen das mitbekommen. Dass Firmen unser
Verhalten aufzeichnen und zumindest ein
Stück weit sind da verschiedene Parteien
beteiligt, die sehen, auf welcher Webseite
wir z. B. sind. Also hier jetzt mit einem
kleinen Tool, nur so kurz analysiert, sind
das jetzt 68 Parteien, die wissen, dass
ich auf dieser Webseite bin und die zum
Teil auch die Möglichkeit haben, mich
durchs Netz zu verfolgen. Ich denke, jeder
hier im Publikum weiß das und – also das
ist bekannt. Trotzdem stört es die
Allerwenigsten Also die allermeisten
Internetnutzer sagen „Ich habe doch nichts
zu verbergen“ „Da wird schon nichts böses
damit passieren, die machen ja nichts
mit meinen Daten, is ja sowieso nur für
Werbezwecke“ Und wenn man mal in der
Industrie nachfragt, dann ist die Aussage
„Also diese Daten werden total gut
anonymisiert“ „Da stecken wir ganz,
ganz großen Aufwand rein“ „Und
verkaufen? Das macht niemand!“ „Sowas
würde niemand tun“ Wirklich? Das
wollten wir genauer wissen: Wie komme
ich an solche Daten? Ich gründe eine
Firma. Ich habe also im Juli eine
Webseite aufgesetzt – das ist relativ
trivial. Content Management System, paar
schöne Fotos, Stockphotos und ein
bisschen Marketing-Sprech. Meine Firma
„Meez Technology“, die Vereinigung von
Technologie und Kreativität, macht
Data-Driven-Consulting und bot Kunden an,
Customized-Campaigns zu machen.
Was brauchen wir dafür? Ganz viele
Nutzer-Daten. Und diese Nutzer-Daten, an
die wollte ich gelangen. Da brauchte ich
eine tatkräftige Mitarbeiterin, hier ist
sie. Ich habe sie mitgebracht: Anna.
“Hello, Anna Rosenberg speaking! Hello,
hello?” Anna Rosenberg arbeitet also für
Meez Technology, sitzt in Tel Aviv,
spricht kein Wort Hebräisch,
konnte ich mir dann
nicht aneignen für die Recherche,
war aber nicht schlimm,
hat auch niemand nachgefragt
und ich hatte Tel Aviv ausgesucht,
obwohl ich die Stadt eigentlich
gar nicht kenne, aber ich hatte
Tel Aviv ausgesucht, weil mir
jemand sagte, Israel sei
ziemlich gut für Daten,
da wär man nicht so spitzfindig und ich
sollte ja kein deutsches Unternehmen
gründen sonst würde ich gar nichts
bekommen. Also habe ich Meez Technology in
Israel angesiedelt und Anna Rosenberg
hat sich auf Telefon-Jagd gemacht.
Das waren die Firmen, die in
Frage kamen. Die Firmen, die
von uns Internetnutzern Daten
sammeln, die Daten verarbeiten.
Meine Frage an diese Firmen war,
ob sie mir als junges, aufstrebendes
Startup ihre Daten verkaufen würden.
Oder viel eher noch, ob sie mir ein
kostenloses Sample geben würden,
weil ohne ein kostenloses Sample könnte
ich die Qualität der Daten gar nicht
beurteilen. Ich habe ziemlich viele von
diesen Firmen angerufen, angeschrieben,
deren Webseiten mir angeschaut. Ihr seht
dass es ein gigantisches Universum ist und
es sind noch längst nicht alle. Besonders
interessant sind diese Firmen hier. Die
machen sozusagen, die analysieren den
Internetmarkt, reichern Daten an, das sind
so ziemlich wichtige Player in diesem
ganzen Spiel. Weil um den Internetmarkt
zu analysieren,
brauchen die sehr viele Daten.
Und, Ja, der eine oder andere war dann
auch tatsächlich bereit,
mir ein kostenloses Sample
zur Verfügung zu stellen,
damit ich die Güte, die Qualität
seiner Daten
einordnen konnte. Also ein kostenloses
Sample. Dieses Sample kam dann auch. Also
eines ist besonders groß, deswegen ist es
auch das, worüber wir dann sprechen.
Was war da drin? Also wir hatten 14
Tage so eine Art quasi Live-Zugriff auf
Nutzerdaten. Sprich: Nutzerdaten, die sich
immer wieder aktualisiert haben, die immer
wieder frisch waren. Das waren 3 Millionen
deutsche Nutzer in diesem Datensatz und
das waren sozusagen die
Klickstream-Daten von einem Monat.
Das Klick-Stream ist sozusagen das
Buzzword für Browser-History.
Am Anfang sind wir relativ explorativ
mit diesem Datensatz umgegangen
haben einfach mal ge-grep-t, und mal
geschaut was passiert denn, wenn wir in
diesem Datensatz nach @polizei.de suchen.
Ich setz meine Brille wieder ab, weil
Annas Teil ist nämlich jetzt durch. So,
alles was ge-x-t ist, hab ich gemacht, um
die Privatsphäre dieser Person zu
schützen. So sieht das dann aus, wenns ein
bisschen aufbereitet ist. Man sieht jetzt
hier z. B. 01.08.2016 05:17 Uhr: Rechner
an, Google. Dann wird relativ schnell nach
einem Auto geschaut. 05:30 Uhr: Das habe
ich jetzt mal offen gelassen, kann man
dann auch alles gleich eingeben.
Ah, alles klar, er sucht einen Volkswagen
in der und der Kategorie. Interessant.
Gut, jetzt wollen wir natürlich wissen:
Was hat der mit der Polizei zu tun?
Was für ein Mensch steckt
hinter diesen Daten? Und wenn man jetzt
sozusagen sich da mal ein bisschen durch
scrollt durch diese Daten – ich hab das
jetzt als Screen-Video gemacht, damit man
mal so ein bisschen auch besser die
Dimensionen begreifen kann, wie groß die
Tiefe dieser Daten ist und wie intensiv
die sind. Man kann also gucken: Was liest
der, was sucht der und irgendwann ist er
mal auf der Webseite von der deutschen
Polizeigewerkschaft und auf dem deutschen
Beamtenbund. Könnte ja ein Polizist sein.
Schauen wir doch mal nach so einem
typischen Wort wie Ermittlungsverfahren
Ah! Ok. Ein Google-Translate-Link.
Gelächter + Applaus
Schauen wir doch mal. Schmeißen wir
es mal in den Decoder. Da ist es!
„Sehr geehrte Damen und Herren,
im Rahmen eines hier bearbeiteten
Ermittlungsverfahrens wegen
Computerbetrugs“ – Aktenzeichen habe ich
jetzt rausgenommen – „benötige ich
Bestandsdaten zu folgender IP-Adresse“
– habe ich rausgenommen – Zeitstempel
Und netterweise hat dieser Nutzer in
Google-Translate auch seine
E-Mail-Adresse mit übersetzen lassen,
seinen Vor- und Nachnamen, den Ort und
die Telefonnummer … So.
Applaus
Wir können jetzt schauen: Was erfahren wir
über diesen Menschen in diesen Daten?
Können also noch mal weiter
scrollen durch sein Leben im Netz.
Und sehen, dass er arbeitet,
also sehen, ungefähr, dass er
Malware-Submissions macht z. B., dass er
IP-Adressen verfolgt, aber auch, dass er
SWR hört und natürlich so die
Peinlichkeiten im Leben
Lachen - Applaus
Sind da natürlich auch drin.
Jetzt haben wir nur mal nach
@polizei.de gesucht.
Was wäre, wenn wir mal hier gucken?
Haben wir auch gemacht.
So sieht dann so eine Abfrage aus.
Wenn man das so, sag ich mal
so, explorativ einfach macht wie wir das
gemacht haben. Wichtig ist das, was
zwischen den Anführungszeichen steht.
Man sagt mit diesem Befehl dem Computer:
Gib mir alles, gib mir jeden Nutzer, der
jemals diese Webseite besucht hat.
Und man sieht also, dass auch Leute
die, ich würde mal sagen,
sicherheitskritisch sind,
in diesen Daten drin sind.
Was passiert nur, wenn man all diese
Nutzer deanonymisieren würde?
Könnte man sie denn
alle deanonymisieren?
Andreas: Ja, wie wir gesehen
haben, ist es im besten Fall etwas
peinlich, wenn man als Nutzer in solchen
Daten identifiziert wird.
Schlimmstenfalls kann es auch gefährlich
sein für die eigene Person.
Deswegen möchte ich in den nächsten
15 min ein bisschen darauf eingehen,
was Deanonymisierung eigentlich heißt,
wie das funktioniert und was das
Problem dabei ist.
Dafür können wir anfangen
mit dem Datensatz.
Also es gibt immer einen Datensatz
von anonymisierten Nutzerdaten am Anfang,
den man analysieren möchte
und dieser Datensatz enthält
viele verschiedene Eigenschaften und
einige von diesen Eigenschaften zumindest
sind sensitiv, das heißt, sie sind nach
Datenschutzrecht geschützt und dürfen
nicht mit einer bestimmten Person
verknüpft werden, weswegen der Datensatz
ja im Endeffekt auch anonymisiert wurde.
Und statt einer Zuordnung zu einer
konkreten Person hat man diesen
Datensätzen daher einfach beispielsweise
eine numerische ID oder einen Identifier,
der keine Rückschlüsse—im Idealfall—auf
die wirkliche Person, die sich hinter den
Daten verbirgt, erlaubt.
Auf der anderen Seite habe ich aber auch
öffentliche Informationen z. B. aus
dem Internet oder anderen Quellen,
die ich mir frei zusammensuchen kann und
und solche öffentlichen Informationen
enthalten auch Eigenschaften von Personen
und enthalten zudem oft den Namen oder
andere Identifikationsmerkmale der Person,
die also Rückschlüsse auf die wirkliche
Person zulassen.
Und Deanonymisierung beinhaltet in diesem
Sinne eine Suche nach Eigenschaften,
die ich in beiden
Datensätzen entweder direkt oder indirekt
identifizieren kann und die mir erlauben,
aufgrund von beispielsweise statistischen
Verfahren oder machine learning die
möglichen Kandidaten aus dem
anonymisierten Datensatz so weit zu
reduzieren, dass ich mit entweder
absoluter Sicherheit oder mit relativ
hoher Wahrscheinlichkeit sagen kann,
dass ein Nutzer, den ich hier in den
öffentlichen Daten gefunden habe,
dem Nutzer
in dem anonymisierten Datensatz
entspricht.
In dem Sinne habe ich diesen
User dann deanonymisiert.
Wie Svea gesagt hatte, ist der Datensatz,
den wir bekommen haben, absolut
unzureichend anonymisiert worden,
d. h., das war sehr, sehr einfach
möglich, aus den URL-Daten, die wir
erhalten haben, entsprechende Nutzer
und Personennamen zu extrahieren.
Im Zweifelsfall hat dafür eine einzige URL
ausgereicht.
Hier habe ich zwei Beispiele.
Einmal von Twitter und einmal von XING.
Das sind also beides URLs,
die Rückschlüsse
entweder auf den Nutzernamen
oder sogar auf den Klarnamen
und weitere Angaben von
der Person zulassen.
Und das, was die Identifikation
hier ermöglicht,
ist bei der ersten Adresse oben,
dass diese Analytics-Page nur
– im Normalfall – dem
eingeloggten Benutzer zur Verfügung steht,
d.h. wenn ich diese URL in einem Datensatz
sehe, kann ich mit relativ hoher
Wahrscheinlichkeit davon ausgehen, dass
der Nutzername, der hier auftaucht, dem
Nutzernamen des anonymisierten Nutzers in
meinem Datensatz entspricht.
Im zweiten Fall ist es weniger
offensichtlich.
man kann also nur sehen, dass man hier
eine öffentliche Profiladresse hat,
die man auch so im Internet finden kann,
was aber den Unterschied macht, ist
dieses spezielle Query, das hinten
dran hängt,
und das nur in die URL hinzugefügt wird,
wenn ich als eingeloggter Nutzer,
auf mein eigenes Profilbild klicke
d.h. hier ist wieder mit einer hohen
Wahrscheinlichkeit die Möglichkeit
gegeben, einen Nutzer der in
den Daten drin ist, eindeutig mit dem
Besitzer dieses Profils zu identifizieren.
Und in unserm Datensatz haben wir über
100.000 Benutzer auf diese Weise
identifiziert. Wir haben auch die
beiden Firmen übrigens auf diese
Sicherheitsprobleme aufmerksam gemacht.
XING hat entsprechend schon Änderungen
eingeführt und Twitter hält es nicht
für ein Problem in diesem Sinne und
möchte da keine Änderungen machen
aktuell. Also als erstes Take-Away könnte
man vielleicht von dem Vortrag auch
mitnehmen, dass man bitte, bitte keine
persönlich identifizierbaren Informationen
in URLs packt. Wenn irgend möglich.
Natürlich gibt’s noch etwas
weitergehende Verfahren, um auch
Datensätze zu deanonymisieren, die etwas
besser anonymisiert wurden.
Eine schöne Arbeit hierzu ist dieses Paper
das aus dem Jahr 2007 stammt, und
wo sich die Forscher
mit einem Datensatz beschäftigt haben,
der von Netflix publiziert wurde und
der also anonymisierte Bewertungsdaten
von Netflix-Usern enthielt.
Der Datensatz wurde auf eine
Datenanalyseplattform hochgeladen
mit dem Ziel, dass andere
Data-Sscientists,
Datenforscher, sich mit den Daten
auseinandersetzen können und
auf die Weise bessere Bewertungs-
oder Empfehlungsalgorithmen für neue
Filme finden können. Und die
Deanonymisierung dieses Datensatzes war in
diesem Fall möglich ebenfalls durch
die Nutzung von öffentlich verfügbaren
Informationen – in diesem Fall war das
beispielsweise Bewertungen, die Nutzer auf
der Plattform IMDB abgegeben haben, wo
also Nutzer auch Filme bewerten können wie
bei Netflix und wo oft Nutzer-Accounts
oder Konten mit dem wirklichen Namen des
Benutzers verknüpft sind. Und die
Forscher haben also geschafft, indem sie
die Bewertung von IMDB herangezogen haben
und diese mit den Bewertungen auf Netflix
verglichen, die User auf Netflix mit einer
hohen Wahrscheinlichkeit mit den Usern auf
IMDB zu identifizieren D. h. hier war eine
Deanonymisierung einfach dadurch möglich,
dass es sehr, sehr viele mögliche
Kombinationen von Filmen gibt und es sehr
unwahrscheinlich ist, dass zwei Personen
die gleiche Anzahl von Filmen auf die
gleiche Weise bewertet haben.
Und diese Technik kann man auch auf
unseren Datensatz anwenden,
dieser enthält wie gesagt
ca. 3 Mrd. URLs
von 9 Mio. Web-Domains und wurde
von ca. 3 Mio. Usern generiert.
So. Da die Daten wie gesagt
unzureichend anonymisiert wurden, haben
wir für die weitere Analyse
einfach mal angenommen,
dass der Anbieter wirklich ein Interesse
daran hätte die Anonymisierung korrekt
oder möglichst gut durchzuführen und
dementsprechend sämtliche Informationen
außer der Domain und der Nutzer-ID aus
dem Datensatz entfernt
d.h. wir haben alle Informationen
weggeworfen,
bis auf den Fakt:
Hat dieser Nutzer, diese Domain in
dem Zeitraum besucht?
Ja oder nein?
So - Also man könnte annehmen, dass diese
starke Form der Anonymisierung doch
ausreichend sein sollte,
um die Nutzer davor zu schützen,
wieder deanonymisiert zu werden.
Wir haben weiterhin auch eine Auswahl
getroffen von 1 Mio. Nutzern,
von denen wir über 10 Datenpunkte haben,
weil das die Analyse für die weiteren
Schritte vereinfacht und für Nutzer, die
relativ wenige Datenpunkte haben, auch die
meisten Techniken nicht anwendbar sind.
So.
Wenn man sich jetzt die Verteilung
der Häufigkeiten der Domains
in dem Datensatz anschaut,
Also hier auf der X-Achse ist
immer der Popularitätsrang einer
entsprechenden Domain aufgetragen
d. h. je
weiter links die Domain hier auftaucht,
um so populärer ist sie.
Man hat hier bspw . Google, Facebook und
die anderen üblichen Kandidaten
und auf der Y-Achse ist die
Anzahl der URLs aufgetragen,
die von dieser entsprechenden Domain
in dem Datensatz stammen.
Und wie man sieht: wenn man die
100 populärsten Domains nimmt, sind die
schon bereits verantwortlich für mehr als
99% der gesamten Daten in unserem
Datensatz. D. h. die meisten Seitenbesuche
finden auf den Top 100 Domains dieser
Liste statt. Und wie man sieht, fällt die
Verteilung danach relativ schnell ab. Also
es gibt eine Menge Domains, die nur ein
paar hundert mal oder sogar nur 10 oder
ein einziges mal von einem Nutzer besucht
wurden. Das hilft uns bei der
Anonymisierung, weil wir gleichzeitig die
Möglichkeit haben, über diese populären
Domains, die fast jeder User besucht hat
oder von denen jeder User fast eine
besucht hat,
eine entsprechende Auswahl zu treffen und
unsere Kombinatorik darauf anzuwenden aber
wir auch gleichzeitig Long-Tail-Domains
haben, die also nur von wenigen Nutzern
besucht wurden und die entsprechend sehr
gut sich eignen, um einzelne Nutzer
wirklich mit wenigen Datenpunkten wieder
zu identifizieren.
So, den ersten Schritt, den wir machen
müssen, um unsere
Deanonymisierung vorzunehmen, ist das
Katalogisieren der Nutzer. Dafür legen wir
eine einfache Tabelle an, wo wir in jede
Zeile entsprechend einen Eintrag für
einen Nutzer machen und in jede Spalte
einen Eintrag für eine Domain anlegen und
jedes Element hier ist entweder Null oder
Eins und ist genau Eins dann, wenn der
entsprechende Nutzer die entsprechende
Domain besucht hat, d. h., das ergibt eine
Matrix mit 9 Mio. Einträgen für die
Domains und 1 Mio. Einträgen für die
User, wobei die meisten Elemente dieser
Matrix Null sind. Und so eine Matrix lässt
sich sehr effizient auch repräsentieren
und kann leicht verarbeitet werden für
die weiteren Schritte.
So der Algorithmus,den wir einsetzen
zu der Deanonymisierung ist
wirklich sehr, sehr einfach.
Wir generieren im 1. Schritt die Matrix M
die ich gerade gezeigt habe,
generieren dann weiterhin einen Vektor V
und in diesen Vektor packen wir
alle Domains,
die wir aus anderen Informationsquellen,
also aus unserer öffentlichen Information
gewonnen haben und die wir vergleichen
wollen mit den Nutzern, die sich in in dem
Datensatz befinden d.h. für jede Domain
die wir irgendwo gesehen haben, würden wir
eine 1 in diesen Vektor schreiben und
würden dann entsprechend den Vektor
nehmen und mit der Matrix multiplizieren.
Das Ergebnis enthält dann wieder für
jeden Nutzer eine einzige Zahl und in dem
wir den Maximalwert dieser Zahl nehmen
können den Nutzer finden der in unserem
Datensatz die beste Übereinstimmung hat
mit den Domain, mit denen wir ihn
vergleichen wollen.
Also wirklich ein sehr,
sehr einfaches Verfahren, das allerdings
sehr robust und auch sehr,
wie man sehen wird,
effektiv ist für die Deanonymisierung
So, das ist natürlich alles sehr abstrakt
deswegen habe ich hier mal ein Beispiel
von einem Nutzer,
den wir zufällig ausgewählt haben
aus unserem Datensatz
und wir gehen jetzt einfach mal
durch die einzelnen Punkte durch.
Also hier würden wir jedes mal in
jedem Schritt
eine Domain hinzunehmen, die der Benutzer
entsprechend besucht hat und dann schauen,
um wie viele Nutzer verringert das die
möglichen Nutzer in unserem Datensatz, die
diese Domains besucht haben könnten.
Wie wir sehen wir fangen hier links mit
ca. 1,1 mio. Nutzern an, dann nehmen wir
unsere 1. Domain das ist gog.com
Das ist eine Gaming-Webseite und
da sehen wir schon
haben wir eine extreme Reduktion
in der Anzahl der möglichen Nutzer
in dem Datensatz.
Weil jetzt nur noch 15.000 Nutzer
dieser Domain drin sind, die
wirklich diese Domain besucht haben und
die der potentielle Nutzer sein könnten.
Wie wir auch sehen ist dieser Nutzer
Telekom-Kunde d.h. er hat auch diese
kundencenter.telekom.de Domain besucht.
Was nochmal die Anzahl der möglichen
Nutzer in dem Datensatz extrem reduziert.
In diesem Falle auf 367.
Er ist auch Sparda-Bank-Kunde,
weswegen wir auch diese
banking.sparda.de hinzunehmen können, was
nochmal die Anzahl auf 11 reduziert und
das finale Stück des Puzzles, das wir noch
benötigen ist hier die Information, dass
der Nutzer handelsblatt.com unterwegs war,
was dann nur noch einen einzigen Nutzer
ergibt in unserem Datensatz, der mit
diesen Daten kompatibel ist.
D.h. hätten wir diese vier Informationen
aus öffentlichen Quellen extrahiert,
könnten wir schon mit Sicherheit
sagen, welcher Nutzer in unserem
Datensatz hier entsprechend der richtige
Nutzer ist.
So jetzt ist natürlich die Frage:
Wie gut funktioniert das Verfahren
in Abhängigkeit auch davon, wieviele
Informationen ich denn überwachen kann
von dem Nutzer.
Wir haben ja gesehen,
das wir in unserem Datensatz eigentlich
den Nutzer komplett überwachen können,
D.h. wir können jede URL sehn, die der
Nutzer mit seinem Browser aufgerufen hat
Aber viele Trecker sehen ja im Prinzip nur
einige hundert oder vielleicht einige
tausend oder zehntausend Domains, auf den
entsprechende Skripte installiert sind.
Was ich deswegen hier zeige, ist die
Effektivität dieser Methode in
Abhängigkeit der Anzahl der Domain die
ich zur Verfügung habe.
Wir fangen also an hier links,
wo nur die Top 50 Domains in
unserem Datensatz zur Verfügung hätten
und schauen uns an, wenn wir zufälliges
Sample von Usern, in diesem Fall 200,
versuchen zu deanonymisieren,
wo befindet sich denn der korrekte User
unter all den Nutzern, die wir in dem
Datensatz haben.
Man sieht hier für 50 Domains ist das
ungefähr 160.
D.h. es gibt 160 andere Nutzer
im Schnitt, die eine höhere
Wahrscheinlichkeit haben, mit den Daten
übereinzustimmen, als der wirklich
gesuchte Nutzer.
So, wenn wir jetzt die Anzahl der Domains
allerdings erhöhen:
also wir können z.B. auf 100 gehen, sehen
wir, das der Wert schon rapide abfällt.
D.h. hier habe ich schon die Anzahl der
möglichen Nutzer, die zu einem wirklichen
Nutzer gehören könnten extrem reduziert.
Auf ungefähr 25
und wenn ich die Anzahl der Domains
entsprechend erhöhe auf
200 oder 300 sogar,
bin ich sehr schnell auch in der Lage
wirklich den Nutzer eindeutig
wieder zu identifizieren .
Also es gibt keine Fehler,
in diesem Sinne dann, für die
Identifikation eines bestimmten Nutzers.
So, das ist natürlich alles graue Theorie
und es stellt sich die Frage:
Ist es überhaupt möglich, solche
öffentlichen Informationen zu gewinnen
oder ist das eher unwahrscheinlich,
dass man an solche
Informationen rankommen würde?
Deswegen habe ich versucht anhand von
den Daten, die wir haben und anhand von
öffentlichen Informationsquellen wirklich
Deanonymisierung durchzuführen, mit den
Usern, die wir haben.
Und ich zeige jetzt drei Beispiele.
Das erste beruht auf der Analyse von
Twitter-Daten.
Da haben wir also einen Nutzer aus
unserem Datensatz
der einen Twitter-Account hatte zufällig
rausgesucht. Haben uns dann angeschaut,
welche URLs dieser Nutzer in dem
entsprechenden Zeitraum, über den wir die
Daten hatten, geteilt hat und haben dann
aus diesen Tweets hier die entsprechenden
URLs extrahiert, davon wieder Domains
generiert oder extrahiert und diese
Domains dann mit unserem Algorithmus
genutzt.
So. Wie wir sehen haben wir für
diesen einen Nutzer dabei 8 Domains
extrahiert
über den entsprechenden Zeitraum.
Also wir haben hier relativ
populäre Domains wie GitHub, Change.org
aber auch viele Blogs,
Beispielsweise: rtorp.wordpress.com
was nur von 129 Nutzern aus dem Datensatz
besucht wurde und auch andere kleinere
Webseiten.
Wenn wir jetzt uns anschauen, welche
Nutzer aus unserem Datensatz haben
mindestens eine dieser Domains besucht, in
dem entsprechenden Zeitraum, und die Nutzer
gegen die Anzahl der Domains, die sie aus
diesem Satz von Domains besucht haben
auftragen, bekommen wir diese Grafik hier.
Also die zeigt die ca. 110.000 Nutzer, die
min. eine dieser Webseite besucht haben
und zeigt gleichzeitig an: Wieviele von
den entsprechenden Domains der Nutzer
wirklich besucht hat. Und wir sehen:
Also, es gibt sehr, sehr viele Nutzer,
die min. eine hiervon besucht haben.
Wenn wir allerdings hochgehen zu
zwei, drei oder vier davon
verringert sich die Anzahl sehr schnell.
Und wir sehen hier, dass wir oben bei 7
einen einzigen Nutzer haben und dabei
handelt es sich wirklich um den Nutzer, den
wir entsprechend deanonymisieren wollten.
D.h. hier ist eine Zuordnung mit 100%ger
Sicherheit möglich für diesen Nutzer.
Wir haben das auch für andere Nutzer
durchgespielt. Wir konnten nicht immer den
korrekten Nutzer rausfinden. Aber wir
konnten in den meisten Fällen die Anzahl
möglicher Nutzer auf ca. 10–20
reduzieren.
Das zweite Beispiel, dass ich jetzt noch
zeigen möchte, ist anhand von
YouTube-Daten gemacht worden.
Oft ist es so, dass viele Daten in solchen
Datensätzen wirklich anonymisiert werden,
aber bestimmte Daten davon ausgenommen
werden, weil es ein starkes Interesse gibt,
seitens der Unternehmen, diese zu nutzen.
YouTube-Videos sind ein gutes Beispiel
dafür, weil Unternehmen bspw. wissen
möchten, welche Videos haben bestimmte
Nutzer angeschaut, in welcher Kombination,
um daraus für ihr Marketing Erkenntnisse
abzuleiten. Und man könnte auch meinen,
dass diese Information über öffentliche
Videos, die eigentlich ja jeder sich
anschauen kann im Internet,
auch nicht sehr kritisch ist.
Was wir gemacht haben deswegen,
um zu zeigen, ob das wirklich so ist,
ist, dass wir wieder aus unserem
Datensatz einen Nutzer extrahiert haben,
von diesem Nutzer die Favoritenliste der
YouTube-Videos uns besorgt haben, die auch
öffentlich ist im Normalfall, also man
kann das Einstellen natürlich, das es
nicht öffentlich ist aber 90% der User
machen das nicht und haben das
entsprechend dann in der Öffentlichkeit
und haben uns aus dieser Liste per
YouTube-API automatisiert sämtliche
Video-IDs besorgt. Und mit diesen
Video-IDs haben wir wieder unseren
Algorithmus gefüttert, diesmal allerdings
mit den kompletten URL-Daten, da die
Domains halt nicht die Video-IDs
enthalten.
Ups... jetzt habe ich falsch
gedrückt ha so... also
Wie vorher haben wir also
diese IDs, das sind ungefähr 20 und
haben auf der anderen Seite sämtliche
Nutzer, die min. 1 von diesen Videos
angeschaut haben. Wie wir sehen können
sind das in dem Fall ca. 20.000, wobei
wieder eine Menge von den Nutzern sich
min. 1 angeschaut haben. Aber die Anzahl
der potentiellen Nutzer, die sich mehrere
angeschaut haben rapide runtergeht. Und
wir sehen hier Bspw. für vier oder fünf
oder sechs haben wir nur noch eine
Handvoll User und wir haben wieder einen
Treffer, der hier ganz oben liegt, bei 9
angeschauten Videos und dabei handelt es
sich wieder um den Nutzer, den wir im
vorherigen Schritt extrahiert haben.
Wir sehen also, es ist relativ einfach
anhand von ner kleinen Anzahl von
Datenpunkten,
selbst aus ner sehr großen Anzahl
von Nutzern,
in diesem Fall über 1 Mio. Nutzer,
entsprechend auf einen User
zurückzuschließen. Und man muss dazu
sagen, dass solche Verfahren, dass
YouTube-Verfahren, sogar besser
funktioniert hat, als die Anonymisierung
über Twitter. Weil, ich schätze mal, die
Verteilung der Videos und Anzahl der
Videos auf YouTube noch mal höher ist als
die Anzahl der entsprechenden Domains die
wir zur Verfügung haben. D.h. eine
YouTube-Video-ID ist in dem Sinne sogar
ein stärkeres Deanonymisierungs-Signal
als die entsprechende Domain aus dem
Twitter-Feed.
So, dass letzte Beispiel:
dass ich zeigen möchte - basiert auf der
Analyse von Geodaten. Dafür haben wir uns
angeschaut, wie wir aus unserem Datensatz
Geodaten extrahieren oder Koordinaten
extrahieren können. Und wir haben
rausgefunden, dass es relativ einfach
über Google-Maps-URLs geht. Die also wenn
man sich einen bestimmten Bereich anschaut
meisten oben in der URL die geographischen
Koordinaten enthalten. D.h. wir konnten
aus unserem Datensatz einige Mio. von
diesen Koordinatenpaaren extrahieren und
die auch nach entsprechenden Nutzer
gruppieren und können damit eine
komplette Karte von der Nutzeraktivität
anfertigen. Also wir sehen z.B. welche
Kartenausschnitte sich User angeschaut
haben. Wenn sie z.B. nach Urlaubszielen
geschaut haben, vielleicht nach ihrem
Arbeitsort, nach einem Weg, nach einer
Wegbeschreibung. Und können diese
Information also auch Nutzergenau
verarbeiten. Und Geodaten sind besonders
interessant hierfür, weil es sehr viel
schwieriger ist, diese selbst zu ändern,
da es ja relativ einfach ist seine
Surfgewohnheiten oder Videogewohnheiten im
Zweifelsfall anzupassen aber es relativ
schwierig ist, bspw. die Arbeitsstelle
oder den Wohnort oder sämtliche vertraute
Orte zu wechseln. D.h. diese Information
sehr, in diesem Sinne sticky, in dem
Sinne, dass sie dem User über lange Zeit
auch zuordenbar sind normalerweise. Und
wir können auch wieder aus verschiedenen
öffentlichen Quellen Informationen
extrahieren. Bspw. aus Google-Maps oder
auch über Flickr, wo auch viele Fotos
geocodiert sind und
können dann über diese Information
ein Matching mit den Daten, die wir in
unserem Datensatz haben, durchführen.
Und hier ist es auch so, dass wir
über eine relativ kleine Anzahl
also weniger als 10 Datenp unkte im
Idealfall, ähm Normalfall,
den einzelnen Nutzer aus dem Datensatz
extrahieren und identifizieren können.
So, eine Frage die ich oft gestellt
bekomme, ist:
Kann ich mich verstecken in meinen Daten?
Also, ist es möglich dadurch,
dass ich mich unvorhergesehen verhalte,
dass ich vielleicht Webseiten öffne,
die ich normalerweise nie anschauen
würde, dass ich den Algorithmus verwirre
und dementsprechend nicht in den Daten
auftauche werde? Da muss leider sagen,
dass funktioniert vermutlich nicht, aus
dem einfachen Grund, dass wir ja ein
Matching machen über die Zuordnung von
Eigenschaften, die entweder erfüllt oder
nicht erfüllt sind und ich als einzelner
Nutzer ja nur die Möglichkeit habe,
zusätzliche Datenpunkte zu meinem
persönlichen Vektor hinzuzufügen aber
meistens keine Datenpunkte von diesem
entfernen kann. D.h. wenn ich hier schon
mit meinen bestehenden Datenpunkten zu
100% identifiziert bin, kann ich
eigentlich so viele Punkte hinzufügen wie
ich möchte und werde trotzdem nicht im
normalfall von dem Algorithmus mit einem
anderen User verwechselt werden können.
D.h. diese Verfahren ist in dem Sinne sehr
robust gegenüber der Perturbation oder
der Änderung der Daten durch den Nutzer.
Als kleines Zwischenfazit kann man also
sagen, dass diese Art von Datensätzen die
sehr viele Dimensionen und sehr viele
Eigenschaften enthalten extrem schwierig
zu anonymisieren sind und auch bei
entsprechender Absicht man nicht immer
sicher sein kann, dass
Anonymisierungsmaßnahmen,
die man ergreift, wirklich
ausreichend sind, um sämtliche Nutzer
oder sogar nur einen kleinen Teil
von Nutzern in dem Datensatz zu schützen.
Weiterhin ist es auch so, dass heute
eigentlich immer mehr öffentlich
verfügbare Informationen über Personen
zur Verfügung stehen, die auch genutzt
werden können, um Daten die anonymisiert
wurden z.B. vor 10 Jahren oder vor 5
Jahren jetzt mit neuen Datenpunkten in dem
Sinne besser zu deanonymisieren. D.h. es
wird immer einfacher möglich, auch aus
bestehenden Datensätzen entsprechende
Nutzerdaten und
Personen-Identifikationsmerkmale zu
extrahieren. Und wie wir gesehen haben,
reichen dafür oft eigentlich schon sehr
wenige Datenpunkte aus, um wirklich
einzelne Nutzer herauszusuchen und
eindeutig zu identifizieren.
S: Ja was bedeutet das?
Was bedeutet das, wenn man mit seinen
eigenen Daten konfrontiert wird?
Also wenn jemand anders einen mit
seinen Daten konfrontiert?
Also z.B. Ich?
Wir haben, die Recherche war
für ein politisches Magazin
und deswegen haben wir vor allem nach
Politikern geschaut und auch die
Politiker selbst
oder deren Mitarbeiter gefunden
in diesen Daten.
Waren zwei Grüne dabei,
drei von der SPD,
darunter auch Mitarbeiter aus dem
Büro von Lars Klingbeil,
Netzpolitischer Specher,
ein Europaparlamentarier und das
zog sich sozusagen bis ins Kanzleramt und
auch dort in einem Büro, bei einem
Staatsminister bei der Bundeskanzlerin war
auch ein Mitarbeiter betroffen. Wobei die
Mitarbeiter fast interessanter sind als
die Politiker selbst, weil die Mitarbeiter
sehr viel inhaltliche Arbeit für die
Politiker machen. Und auch sowas,
wie deren Reisen planen,
Kontakte herstellen.
Jetzt wollte selbstverständlich nicht
jeder gerne mit uns reden und
vor allem nicht vor der Kamera.
Einer hat es dann getan, das ist
Valerie Wilms.
Bevor wir sie jetzt mal hören, schauen
mir doch erstmal in ihre Daten.
lachen
Sie hat es freigegeben für diesen Vortrag,
sage ich noch dazu. Weil hier habe ich
jetzt sozusagen wirklich nichts
anonymisiert, wie in dem Datensatz davor.
So 01.08., ist auch Frühaufsteherin, erst
mal Banking... noch mal Banking... d.h.
man kann also hier ziemlich gut sehen z.B.
wo Leute ihre Konten haben. Auf die Konten
selbst kann man nicht zugreifen, aber man
weiß wo. Bisschen unangenehmer wird's
dann für sie sozusagen Ende August, da
haben viele Leute ihre in Deutschland ihre
Steuererklärung gemacht. Das habe ich
auch als Video nochmal. Da kann man
nochmal so ein bisschen runterscrollen,
Dann sehen wir ein bißchen mehr von ihrer
Steuererklärung. Also man kann jetzt hier
sozusagen auf Elster-Online nicht selbst
zugreifen. Also wenn wir das jetzt machen
würden, würden wir sozusagen nicht
weiter kommen, weil dann auch nach einem
Passwort verlangt wird. Aber wir können
sehen, welche Vordrucke sie sich
angeschaut hat. Und können so
Informationen gewinnen, über Dinge,
die sie gedenkt zu versteuern.
Und es ist recht detailreich.
Ja, was hat sie nur dazu
gesagt, als wir bei ihr im Büro saßen?
Wir können Sie einmal kurz hören dazu.
Valerie Wilms: Ist rechts alles zu sehen?
Scheiße!
Gelächter
Applaus
S: Gab noch eine andere Geschichte,
auf die wir sie angesprochen haben.
Gibt ja nicht nur Steuererklärungen
sondern man schaut ja auch sowas bei
Google nach Tebonin nimmt man so
bei Hörsturz, Tinitus,
Abgeschlagenheit. Ist natürlich gerade
für Politiker ein großes Problem, wenn
solch Informationen an die Öffentlichkeit
gelangen, Menschen dann falsche Schlüsse
daraus ziehen oder auch, ja, die Leute
damit erpressen können. Z.B. haben wir
sie auch darauf angesprochen.
Will ich die Reaktion nicht vorenthalten.
Valerie Wilms: Ich weiß gar nicht in
welchem Zusammenhang ich dieses
Tebonin mir da angeguckt habe,
das ist nicht schön,
sowas nachträglich zu lesen. Vor allen
Dingen verknüpft mit dem eigenen Namen.
S: Ja, das war Valerie Wilms zu ihren
Daten. An diesem ganz kleinen Ausschnitt
sieht man wie Problematisch diese Daten
sind. Ich hab jetzt nicht die Beiträge
gezeigt, wo Menschen ihre sexuellen
Vorlieben ausleben. Weil, dass betrifft
natürlich auch Leute, die in
öffentlichen oder in relevanten
Positionen stehen. Natürlich sind auch
Richter in diesen Daten. Natürlich sind
auch Wirtschaftsbosse in diesen Daten. Und
natürlich sind das alles Menschen und die
haben Träume und die haben Gedanken, und
es überhaupt nichts, was in dritte Hände
gehört. Und deshalb war mit allen mit
denen wir gesprochen haben, im Zuge dieser
Recherche, war das für alle Betroffenen
sehr schockierend. Aber wer hat sie
ausgespäht? Woher kommen diese Daten? War
es irgendwie ein shady Trojaner oder so
auf dem Rechner? Nein. Wir sind relativ
schnell drauf gekommen, dass es
Browser-Plugins sind und haben dann einen
kleinen Test gemacht, haben einen Nutzer
gebeten Add-Ons zu deinstallieren. Und
haben dann eines herausfinden können;
Web-of-Trust - Was machen die so?
Safe Web Search & Browsing.
Applaus
Haben das dann noch mal mit einem sauberen
Browser sozusagen gegengetestet in der
Zeit als wir eine Möglichkeit hatten Live
in die Daten zuzugreifen, das hat ein
Securityspezialist für uns gemacht Mike
Kuketz und der hatte eine extra Webseite
aufgesetzt, einen sauberen Browser, nur
dieses eine Plugin installiert und wir
konnten ihn in den Daten sehen. Und
dadurch konnten wir sicher sein, dass es
eben bei diesem einen Plugin auch
tatsächlich der Fall war, dass dieser Weg
eben so gegangen ist.
A: Ja, warum ist das Tracking per App oder
Extension eigentlich so interessant für
die Anbieter? Nun für Unternehmen ist es
eigentlich immer sehr spannend ein
möglichst detailliertes Bild von einem
entsprechenden Nutzer zu gewinnen. D.h.
ich möchte, wenn möglich, sämtliche Daten
die über den Nutzer zur Verfügung
stehen. Und bei normalen Treckern ist das
ja so, dass ich als Nutzer mir eine
Webseite runterlade, in meinen Browser,
dann ein entsprechend ein
JavaScript-Applet oder ein anderes
Tracking-Tag ausgeführt wird, dass eine
entsprechende Verbindung aufbaut zu einem
Tracking-Server und da Bspw. ein Cockie
setzt oder eine andere Information
speichert, die mich dann als Nutzer
nachverfolgt. In den letzten hat sich
dagegen, verständlicherweise, eine Menge
Widerstand auch geregt und viele Leute
benutzen mittlerweile Blocker, die
verhindern, dass solche Tracking-Scripte
ausgeführt werden. Oder die Verbindung zu
den Tracking-Servern abfangen oder
blockieren. D.h. es wird immer schwieriger
für die Tracking-Anbieter qualitativ
hochwertige Daten zu bekommen und da liegt
es doch eigentlich nahe, dass man sich
solchen Mechanismen, in Form von einer
Extension, zu Nutze macht, in dem man
die Sicherheitsmaßnahmen, die es in dem
Browser eigentlich per Default gibt,
relativ einfach umgeht und dann über
diesen Side-Channel sozusagen die
Information bei jeder einzeln aufgerufenen
URL direkt an den Tracking-Server sendet.
Und das hat einen weiteren Vorteil für
die Anbieter, weil damit nicht nur die
Seiten überwacht werden können, die
wirklich Tracking-Codes auch explizit
beinhalten, sondern auch viele andere
Webseiten, die überhaupt keine Codes auf
der Seite haben. Also Bspw. Seiten von
öffentlich Rechtlichen Institutionen, die
ihre Nutzer im Normalfall nicht tracken.
D.h. es ist also möglich über dieses
Verfahren von einer kleineren Anzahl an
Usern allerdings ein sehr viel größeres
Spektrum an Daten, im Idealfall oder im
schlimmsten Fall, je nachdem wie man das
sieht, die komplette Browsinghistory von
diesem entsprechenden User zu gewinnen.
So, wir haben uns in unserem Datensatz
dafür nochmal angeschaut, wie viele von
diesen Extensions es eigentlich gibt und
wie viele Daten jede von diesen Extensions
generiert. Und hier haben wir wieder einen
doppelt logarithmischen Plot, wo auf der
einen Seite hier der Rang der
entsprechenden Extension aufgetragen ist
d.h. je mehr Datenpunkte von
der Extension
wir bekommen haben, umso weiter finden Sie
hier die Extension links. Und auf der
anderen Achse haben wir die Anzahl der
Datenpunkte entsprechend aufgetragen. Und
wir sehen hier, dass die populärste
Extension, das ist Web-of-Trust bereits
für 1 Mrd. Datenpunkte in dem Datensatz
verantwortlich ist. Und wenn man die
ersten 10 Extensions nehmen, sehen wir,
dass bereits 95% der Daten davon abgedeckt
werden. D.h. es ist also eine kleine
Anzahl von Extension, die eigentlich die
größte Masse an Daten hier für diesen
Anbieter produziert. Wobei es auch sehr
viele, also hier fast 10.000 verschiedene
Application-IDs gibt, die teilweise einige
100 oder bis zu einige 100.000 oder einige
Mio. Datenpunkte ihrerseits liefern. Es
ist nicht unbedingt gesagt, dass es auch
10.000 Extensions sind, weil wir keine
eindeutige Zuordnung zu der Application-ID
haben, d.h. das ist eher eine obere
Abschätzung. Und um jetzt ein genaueres
Bild zu bekommen,
wie verseucht eigentlich so ein Web-Store
ist, haben wir eine
Verhaltensanalyse durchgeführt,
wofür wir mit einem
Automatisierungsframework:
Webdriver - uns einfach einen
Chrome-Browser
genommen haben, da automatisiert
verschiedene Extensions installiert haben
und dann mit diesem Webdriver entsprechend
verschiedene Webseiten angesurft haben,
wobei wir über einen Python-basierten
Proxy-Server dann mitgeloggt haben, welche
URLs bzw. welche Webseiten von dem
entsprechenden Browser geöffnet wurden,
wenn wir bestimmte Seiten angesteuert
haben. D.h. darüber konnten wir
verfolgen, ob der Browser beim Öffnen von
bestimmten Seiten oder von allen URLs
vielleicht noch zusätzlich Informationen
eventuell an Dritte schickt. Und das haben
wir für ca. 500 Plugins so ausgeführt
und wie man hier sehen kann, verhalten
sich die meisten eigentlich so, wie man
es erwarten würde, d.h die öffnen nur die
URLs, die entsprechende Anzahl der URLs,
die man erwarten würde für den
Testdatensatz, den wir verwendet haben.
Und gleichzeitig gibt es auch einige
Extensions, z.B. das hier, dass sich
merkwürdig verhält und sehr viele
URL-Aufrufe hat. Und hier haben wir bei
einer genauen Analyse auch gesehen, dass
das entsprechende Plugin oder die
Extension auch Daten an einen Drittserver
schickt, bei jeder aufgerufenen URL. Wobei
man sagen muss, dass jetzt aus den 500
untersuchten Extension nur einige dabei
waren, die wirklich eventuell schadhaftes
Verhalten zeigen. D.h. die
Wahrscheinlichkeit, dass man sich mit
Extension infiziert, in dem man Sachen
runterlässt aus dem Webstore ist aktuell
noch relativ gering, scheint aber größer
zu werden. So, die letzte Frage ist
natürlich: Wie oder kann ich mich
überhaupt gegen so etwas schützen? Und
ich denke, daß in einigen Jahren es trotz
client-seitigen blockierens von Trackern
immer schwieriger sein wird sich als
Nutzer anonym im Internet zu bewegen, weil
es, wie wir gesehen haben, anhand von
einigen wenigen Datenpunkten möglich ist,
eine Identifikation von an sich
anonymisierten Daten herzustellen.
Dh. selbst wenn ich mit einem Tracker
oder eine Extension sämtliche Tracker
blockiere, habe ich immer noch solche
Dinge wie: meine IP-Adresse, meinen
User-Agent und die Kombination aus
mehreren solchen Eigenschaften kann schon
ausreichen, um mich wieder eindeutig zu
identifizieren in größeren Datensätzen.
D.h. wenn ich wirklich sicher im Internet
unterwegs sein möchte, müsste ich
zumindest darauf achten, dass ich
möglichst viele dieser Eigenschaften
ständig rotiere und ändere in dem
ich bspw. VPN-Lösungen benutze, die auch
rotierende IP-Adressen verwenden. Wobei
das auch keine Garantie natürlich ist,
dass man nicht getrackt werden kann.
D.h. es wird also immer schwieriger sich
im Internet zu bewegen, ohne dem Risiko
der Deanonymisierung ausgesetzt zu sein.
S: Genau, was ist so das Ergebnis von der
Recherche gewesen? Also WOT verschwand
relativ kurz nach der Veröffentlichung
des Berichts zunächst mal aus dem
Chrome-Webstore und aus dem Mozilla-Store
und es haben natürlich sehr viele Nutzer
wie verrückt Plugins deinstalliert.
Deswegen können wir davon ausgehen, dass
auch der Datenstrom dann eingebrochen ist.
Aber natürlich die Plugins, die weiterhin
installiert sind und Nutzer, die es jetzt
nicht deinstalliert haben, da läuft es
natürlich weiter. Und auch inzwischen,
jetzt ein paar Wochen nach der Recherche,
ist WOT wieder im Google-Chrome-Store
verfügbar. So mein persönliches Fazit
daraus ist, ein Stück weit defend
yourself. Sprich, Andreas hatte schon
angedeutet, man kann sich nicht auf die
Stores verlassen, man muss sich ein Stück
weit selbst schützen und selbst
überlegen, was kann ich tun um dieser
Überwachung zu entgehen. Ja, also wir
sind recht am Ende von unserem Talk aber
trotzdem ganz wichtig nochmal der Dank an
ein relativ großes Team was uns
unterstützt hat in dieser Zeit ja vor
allem meine Kollegin die Jasmin Klofta
sitzt in der ersten Reihe, ja Dankeschön.
Applaus
Herald: So, wir haben noch ein wenig Zeit
für Fragen.
Wer eine Frage hat, bewegt sich bitte zu
bitte zu einem der Mikrofone. So, ich sehe
Bewegung. Aber ein paar flüchten erstmal.
War vielleicht doch nicht ganz so einfach
für die Nichtdeutschsprachigen., aber sehr
spannend. Dahinten haben wir
eine Frage an Mikrofon 6 bitte.
Mikrofon 6: Hallo, angenommen die Person,
über die man die öffentlichen Daten
sammelt, ist nicht im Pool von den
anonymisierten Daten. Dann gibts ja eine
Möglichkeit für einen False-Positive.
Oder kann man das ausschließen?
A: Ja, natürlich gibt es auch die
Möglichkeit von einem False-Positive. Das
das hängt natürlich immer ein bisschen von
der Nutzung der Daten ab, ob das
problematisch ist oder nicht für den
Anbieter. Es kann ja auch sein, wenn ich
Bspw. Nutzern Werbung anzeigen möchte, es
vielleicht auch gut genug ist, wenn ich
den Nutzer mit einer Wahrscheinlichkeit
von 10% schon identifiziere.
D.h. ich kann auch mit False-Positives
oder der Anbieter kann auch mit
False-Positives entsprechend leben.
Aber es ist natürlich immer die
Möglichkeit gegeben, das der Nutzer,
wenn er nicht in dem Datensatz vorhanden
ist, auch entsprechend identifiziert wird,
obwohl gar nicht drin ist. Und das kann
natürlich für den Nutzer selber zu großen
Problemen führen. Wenn ich da Bspw. an
Credit-Scoring denke,
über Machinelearning,
wo ich also vielleicht mit jemandem in
Verbindung gebracht werde, der ich gar
nicht bin und Datenpunkte, die ich nicht
kontrollieren kann, entsprechend meine
Kreditwürdigkeit dann beeinflussen kann.
Herald: Gut, an Mikro 3 bitte.
Mikrofon 3: Meine persönliche Frage ist,
was genau kostet das? Also kann sich eine
kleinere, mittelgroße, Privatdetektei die
auf Datenschutz scheißt, können die sich
Zugang holen?
S: Ja, weiß nicht was die für ein Budget
haben aber diese Daten werden lizensiert.
I.d.R. zahlt man für die Lizenz so für
einen Monat und im Jahr ist das so
im 6-stelligen Bereich.
Mirofon 2:
Sie hatten von den 10 Schlimmsten
gesprochen, aber die Liste vergessen.
Lachen
Applaus
A: Den 10 Schlimmsten, ach so, ja.
Applaus
S: lachen genau
A: Also wir haben auch lange überlegt ob
wir die Extensions entsprechend
veröffentlichen können, wir haben
allerdings noch keine Zeit gehabt jetzt
eine detaillierte Analyse zu machen. Und
ich möchte keine Namen jetzt nennen von
Dingen, wo sich am Ende herausstellt, dass
es eigentlich gar nicht problematisch ist.
Wir werden auf jeden Fall dran
bleiben und versuchen alle von diesen
Extension, die in dem Datensatz drin sind
zu identifizieren. Aber wir wollen
natürlich eine Gewissheit haben, dass auch
entsprechend wir die korrekten Extensions
rausfiltern können, bevor wir
die Namen dann veröffentlichen.
Applaus
Herald: So, wir haben auch Fragen aus dem
Internet. Eine mal dazwischen.
Signal Engel: Also ich nehme jetzt mal ein
paar Fragen aus dem Internet zusammen.
Im wesentlichen lässt sich das
runterdampfen auf: Gibt es irgendwelche
technischen, juristischen oder sonstwie
gearteten Mittel um sich davor zu
schützen, oder dagegen vorzugehen? Oder
wurde da schon versucht da z.B. zu klagen?
A: Möchtest du das beantworten?
S: Ja, also einen Teil kann ich
beantworten. Also jetzt von unseren
Betroffenen hat da noch niemand geklagt.
So technisch gibt es natürlich
Möglichkeiten sich zu schützen.
Zumindest ein gutes Stück weit.
A: Ja, es gibt für den Nutzer natürlich
bedingte Möglichkeiten sich zu schützen.
Das Problem ist ja, das viele Nutzer das
Problem gar nicht kennen oder nicht sich
bewusst sind, dass ihre Daten entsprechend
gesammelt werden. Da ist also im
Zweifelsfall die Verantwortung bei den
Browser-Herstellern und wir sind auch ein
bisschen enttäuscht darüber, dass
Web-Of-Trust wieder in dem Chrome-Store
drin ist und auch weiterhin fleißig Daten
sammelt. Und auch die entsprechenden
Extensions, die schon vorher installiert
wurden, auch nicht entfernt wurden in dem
Sinne. D.h. im Zweifelsfalle ist wirklich
der Hersteller des Browsers am besten in
der Lage, den Nutzer vor solcher
Schadsoftware zu schützen, indem er ein
korrektes Auditing von den Extensions
durchführt, bevor sie in dem Store landen
und auch entsprechende Extensions,
die gegen diese Bedingungen verstoßen
schnell wieder entfernt.
S: Und es macht auch Sinn sich mal
verschiedene Browser, Browseranbieter
anzuschauen, weil es gibt ja auch neben
den Großen Kleinere, die noch mal mehr Wert
legen eben darauf, dass man z.B. gar
keine Plugins installieren kann.
Herald: An Nummer 5 bitte.
Mikrofon 5: Gibt es die Möglichkeit, dass
ihr die Liste, die ihr für eure Recherche
erstellt habt, von Unternehmen die Daten
verkaufen, veröffentlicht. Quasi als
not-to-work-for-Liste. Ich mein unsereins
baut ja im Zweifelsfall irgendwelchen
Scheiß, also liegt es
auch an uns es zu lassen.
Applaus
S: Ja, es fehlt natürlich ein Name, hier
in diesem ganzen Vortrag. Der Name des
Datenhändlers oder auch tatsächlich die
Namen der Firmen mit denen ich auch ein
bisschen ernsthafter ins Geschäft
gekommen bin.
Das sind eigentlich juristische
Gründe, warum wir das nicht
veröffentlichen können oder dürfen.
Einfach, ehrlich gesagt aus Furcht vor
diesen Unternehmen, aus sozusagen
Angst vor Klagen, die da kommen können.
Und deshalb sieht es
zumindest im Moment so aus, als dürften
wir die Namen nicht veröffentlichen. Aber
das ist noch work-in-progress sage ich mal.
Zwischenruf
Wikiwleaks
Lachen
Applaus
Engel: Mikro 1
Mikrofon 1: So einer der Klassiker ist ja
JavaScript aus und Cockies aus und nur für
irgendwie bestimmte Seiten, denen man
vertraut, zulassen. Jetzt sagen Sie aber
auch... Aber wie weit würden Sie denn
kommen, wenn man jetzt wirklich sowas
wegnimmt und nur über ip-basierte Daten
und sowas, wie weit würde man da mit der
Deanonymisierung kommen?
A: Also meines Wissens setzen viele
Anbieter bereits Verfahren ein die
eigentlich nicht mehr auf Cockies
basieren, also nur noch, wenn diese
verfügbar sind und die statt dessen auf
anderen Identifikationsmerkmalen basieren
die entsprechend schwerer zu ändern sind.
Bspw: der IP-Adresse, der Device-ID oder
anderen IDs, die entsprechend fix sind und
getrackt werden können über die Zeit.
D.h. ist relativ einfach zumindest mit
einer hohen Wahrscheinlichkeit möglich
Nutzer über verschiedene Endgeräte zu
identifizieren. Und ich kann mich
natürlich über das Client-Seitige
Browser-Tracking schützen, aber das heißt
nicht, dass ich mich gegen diese anderen
Tracking-Maßnahmen auch schützen kann.
Engel: Mikro 6.
Mikrofon 6: Zur Deanonymisierung. Ist es
möglich, so Deanonymisierung, stark zu
erschweren oder zu verhindern durch so
Methoden wie Differential Privacy?
A: Ja, dass ist in bestimmten Kontexten
anwendbar. Hier bei den Daten ist das
Problem, dass ich selbst als Nutzer
eigentlich nicht kontrolliere, was ich von
mir generiere, weil die Daten entweder
unbewusst oder ohne meine Zustimmung
erhoben werden. D.h. das einzige was ich
tun kann als Nutzer ist zusätzlich
Datenenpunkte zu liefern, ich habe aber
keine Möglichkeit Datenpunkte zu fälschen
oder nur in sehr geringem Umfang zumindest
oder auch Datenpunkte wieder zu entfernen.
D.h. in dem Sinne wäre das vermutlich eher
weniger angebracht aber klar im
Zweifelsfall ist es immer besser möglichst
wenige Informationen rauszugeben.
Obwohl eigentlich schon ausreicht wenige
kleine Informationsschnipsel zu haben,
die man dann relativ schnell auch
zusammen fügen kann, wie wir gesehen
haben.
D.h. es ist auch wirklich schwer
abzuschätzen und
hängt auch immer sehr stark von der Natur
des Datensatzes ab, wie verräterisch
einzelne Datenpunkte von mir sein können.
Engel: Mikro 5.
Mikrofon 5: Ich würde gerne ein bisschen
eine naive Frage stellen. Wieso ist das
eigentlich quasi möglich oder erlaubt,
also die juristische Frage. Und auf der
anderen Seite, scheint mir doch ein
gewisses Gefälle zu sein zu dem, was auf
der einen Seite gemacht wird und sie die
jetzt Sorge haben, diese Namen zu nennen,
auf der anderen Seite, da scheint es mir
ein gewisses juristisches Gefälle
zu geben, das ich gerne verstehen würde.
Applaus
S: Sehr gute Frage, vielen Dank dafür. Wir
haben tatsächlich diesen juristischen
Aspekt für diesen Vortrag ein Stück weit
ausgeklammert.
Und der ist aber trotzdem hochspannend.
Und wir haben viele Gespräche mit
Datenschützern darüber geführt,
mit Juristen darüber geführt und haben
tatsächlich auch Paragraphen gewälzt weil
uns genauso diese Frage beschäftigt hat,
kann das überhaupt erlaubt sein. Also
zumindest was man für Deutschland sagen
kann, das ist nicht erlaubt. Und zwar ganz
einfach aus dem Grund, weil keiner der
Nutzer irgendwo dazu zugestimmt hat. Also
keiner der Nutzer hat, die wir besucht
haben, hat irgendwo irgendwas angeklickt:
„Ja ich möchte bitte, dass meine Daten in
diesem Umfang...“ Keiner. Und das kann
sogar nach Aussage vom Datenschützer
eventuell strafrechtlich relevant sein,
also sprich in Richtung Abhören gehen.
Bislang hat sich noch niemand berufen
gefühlt, da tatsächlich Klage oder Anklage
zu führen. Was wir jetzt sozusagen machen
trägt ja vielleicht dazu bei, dass es mal
eine Eingabe gibt beim Datenschützer und
dass tatsächlich sich auch
mal jemand dahinter klemmt.
A: Gerade bei Ausländischen Unternehmen
ist es natürlich immer sehr schwierig
auch entsprechend eine Handhabe zu
bekommen, um die auch juristisch belangen
zu können. D.h. da ist auch nochmal
sicherlich ein Gefälle vorhanden und auch
die Strafen, die Unternehmen im
Zweifelsfall drohen, sind im Vergleich zu
dem Schaden, der oder zu dem Risiko, das
Jemand eingeht, indem er diese Dinge
veröffentlicht, eigentlich relativ gering.
Weswegen es auch relativ wenig zu solchen
Dingen kommt, denken wir.
Engel: Gut, ich denke wir haben
noch Zeit für zwei Fragen.
Wir haben noch eine
aus dem Internet.
Signal Engel: Das Internet lässt fragen,
in wie fern man sein eigenen
Informationen, sofern sie auftauchen, von
euch bekommen kann oder auch nicht.
A: Uh... schwierige Frage.
Applaus
S: Das ist recht einfach die Antwort. Gar
nicht. Die Daten gibts nicht mehr. Sorry.
Applaus
Herald:
Kommen wir zu unserer letzten Frage.
Mikrofon: Ja, also, Hallo, hört man das?
Ok. Ich bin dann immer ein Freund von
Selbstverteidigung und so wie sie sagten,
aber die Frage ist, ist das überhaupt
möglich? Also ich würde sagen, dass Thema
ist so komplex, dass sich wahrscheinlich
die meisten, die hier sind, nur dann
schützen können, wenn sie wirklich viel
Zeit reinstecken in diese Arbeit. Und ich
frage mich: meine Mutter, mein Vater, mein
Onkel, wie sollen die
sich vor sowas schützen?
A: Willst du oder soll ich?
S: Ja, mach ruhig.
A: Ja, das ist das Problem, dass ich auch
eben kurz angesprochen habe. Und zwar,
dass viele Nutzer auch gar nicht wissen,
dass sie getrackt werden und auch nicht
die technischen Kenntnisse haben, um sich
effektiv gegen sowas zu schützen. Wir
haben ja gesehen, obwohl die Leser von
Fefes-Blog eher technik-affin sind, gibts
immer noch 3.000 Nutzer, die in dem
Datensatz auftauchen, die also auch
getrackt wurden in dem Sinne. D.h. dass
selbst Leute mit IT-Kenntnissen und
IT-Sicherheitserfahrung sind nicht dagegen
gefeit auch entsprechend getrackt zu
werden. Weil es auch unglaublich schwierig
ist, auch für mich, sämtliche Methoden
nachzuvollziehen und immer auf dem
aktuellen Stand zu sein. Und es ist auch
sehr schwer abschätzbar, was man mit den
Daten eigentlich machen kann. Also es
stimmt wirklich, ja, es ist wirklich, es
gibt keine gute Lösung momentan dafür.
Herald: So es gibt zwar noch weitere
Fragen aber die Zeit ist leider vorbei.
Wer noch fragen an die Beiden hat, kann
hier gleich einfach kurz nach vorne
kommen. Erstmal möchte ich mich aber
herzlich bei euch beiden für diesen
spannenden und interessanten
Vortrag bedanken.
Applaus
Abspannmusik
Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!