<i>33C3 Vorspannmusik</i>

Herald: Ich habe vorhin erzählt, dass
Snowden uns heute zugeschaltet wurde und

er hat uns aufgerufen, etwas zu tun. Heute
hören wir hier einen Talk, und zwar „build

your own NSA“ – „baue deine eigene NSA“.
Geheimdienste sammeln Daten, aber sie sind

nicht die Einzigen. Es gibt auch die so
genannten Datenkraken – an wen denken wir

da alle? An Google, an Facebook. Wer hier
hat einen Google-Account, Hände hoch,

traut euch! Des sind ganz schön viele. Wer
hat einen Facebook-Account? Es sind

allerdings nicht nur die großen Firmen wie
Facebook oder Google, die Daten sammeln.

Es sind auch die kleineren Firmen oder
unbekannte, wo wir die Namen noch nie

gehört haben und Leute, wo wir es nicht
erwarten, wie zum Beispiel ich auf der

Bühne. Ich weiß jetzt wer einen Google-
und wer einen Facebook-Account bei euch

hat. Vielen Dank für die Info.

Diese Firmen, oder auch ich, 
könnte jetzt hingehen,

diese Daten tauschen oder einfach
an die Leute die zahlen, verkaufen.

Mein kleines Experiment hier war
ziemlich lächerlich und natürlich banal,

aber Svea Eckert und Andreas
Dewes haben ein größeres

Experiment gemacht mit einfachen Techniken
des Social Engineerings und rausgefunden,

was für Daten gesammelt werden können.
In diesem Talk werden sie uns nicht nur

erzählen, wer, warum und wie Daten sammelt
sondern ob es auch noch eine Möglichkeit

gibt, unsere Privatsphäre zu schützen.
Andreas ist Data Scientist und entwickelt

Technologien, damit wir Wissen aus
Daten extrahieren können. Svea ist

freiberufliche Journalistin und
recherchiert IT-Themen und berichtet

darüber für die Tagesschau und die
Tagesthemen. Sie hat auch mitgewirkt bei

Dokumentationen zu Themen wie Wikileaks,
Facebook und dem NSA-Skandal, wo gerade

Edward Snowden einen großen Teil
eingenommen hat. Ich freue mich herzlich,

die beiden hier zu begrüßen und bitte euch
jetzt um einen ganz, ganz lauten Applaus

für die beiden und wünsche
euch allen viel Spaß.

<i>Applaus</i>

Svea Eckert: Danke.
Andreas Dewes: Ja, hallo zusammen, also

wir freuen uns natürlich, dass wir hier
sein dürfen heute, ich hab wie gesagt die

Datenanalyse für die Recherche
hier gemacht und darf mich daher

erstmal entspannen jetzt und
übergebe dann das Wort an Svea.

S: Ja ich bin Svea Eckart, arbeite für den
NDR, beziehungsweise die ARD, und wir haben

’ne große Recherche gemacht, die ging
über den ganzen Sommer und mündete in

der relativ aufsehenerregenden
Berichterstattung Anfang November unter

dem Hashtag #NacktImNetz – der Eine oder
Andere hat vielleicht dazu sogar was

gesehen. Was wir wissen: Also: Wir wissen,
dass, wenn wir uns im Netz bewegen dass

Firmen das mitbekommen. Dass Firmen unser
Verhalten aufzeichnen und zumindest ein

Stück weit sind da verschiedene Parteien
beteiligt, die sehen, auf welcher Webseite

wir z. B. sind. Also hier jetzt mit einem
kleinen Tool, nur so kurz analysiert, sind

das jetzt 68 Parteien, die wissen, dass
ich auf dieser Webseite bin und die zum

Teil auch die Möglichkeit haben, mich
durchs Netz zu verfolgen. Ich denke, jeder

hier im Publikum weiß das und – also das
ist bekannt. Trotzdem stört es die

Allerwenigsten Also die allermeisten
Internetnutzer sagen „Ich habe doch nichts

zu verbergen“ „Da wird schon nichts böses
damit passieren, die machen ja nichts

mit meinen Daten, is ja sowieso nur für
Werbezwecke“ Und wenn man mal in der

Industrie nachfragt, dann ist die Aussage
„Also diese Daten werden total gut

anonymisiert“ „Da stecken wir ganz,
ganz großen Aufwand rein“ „Und

verkaufen? Das macht niemand!“ „Sowas
würde niemand tun“ Wirklich? Das

wollten wir genauer wissen: Wie komme
ich an solche Daten? Ich gründe eine

Firma. Ich habe also im Juli eine
Webseite aufgesetzt – das ist relativ

trivial. Content Management System, paar
schöne Fotos, Stockphotos und ein

bisschen Marketing-Sprech. Meine Firma
„Meez Technology“, die Vereinigung von

Technologie und Kreativität, macht
Data-Driven-Consulting und bot Kunden an,

Customized-Campaigns zu machen.
Was brauchen wir dafür? Ganz viele

Nutzer-Daten. Und diese Nutzer-Daten, an
die wollte ich gelangen. Da brauchte ich

eine tatkräftige Mitarbeiterin, hier ist
sie. Ich habe sie mitgebracht: Anna.

“Hello, Anna Rosenberg speaking! Hello,
hello?” Anna Rosenberg arbeitet also für

Meez Technology, sitzt in Tel Aviv,

spricht kein Wort Hebräisch,
konnte ich mir dann

nicht aneignen für die Recherche, 
war aber nicht schlimm,

hat auch niemand nachgefragt

und ich hatte Tel Aviv ausgesucht,
obwohl ich die Stadt eigentlich

gar nicht kenne, aber ich hatte
Tel Aviv ausgesucht, weil mir

jemand sagte, Israel sei
ziemlich gut für Daten,

da wär man nicht so spitzfindig und ich
sollte ja kein deutsches Unternehmen

gründen sonst würde ich gar nichts
bekommen. Also habe ich Meez Technology in

Israel angesiedelt und Anna Rosenberg
hat sich auf Telefon-Jagd gemacht.

Das waren die Firmen, die in
Frage kamen. Die Firmen, die

von uns Internetnutzern Daten
sammeln, die Daten verarbeiten.

Meine Frage an diese Firmen war,
ob sie mir als junges, aufstrebendes

Startup ihre Daten verkaufen würden.
Oder viel eher noch, ob sie mir ein

kostenloses Sample geben würden,
weil ohne ein kostenloses Sample könnte

ich die Qualität der Daten gar nicht
beurteilen. Ich habe ziemlich viele von

diesen Firmen angerufen, angeschrieben,
deren Webseiten mir angeschaut. Ihr seht

dass es ein gigantisches Universum ist und
es sind noch längst nicht alle. Besonders

interessant sind diese Firmen hier. Die
machen sozusagen, die analysieren den

Internetmarkt, reichern Daten an, das sind
so ziemlich wichtige Player in diesem

ganzen Spiel. Weil um den Internetmarkt 
zu analysieren,

brauchen die sehr viele Daten.

Und, Ja, der eine oder andere war dann 
auch tatsächlich bereit,

mir ein kostenloses Sample 
zur Verfügung zu stellen,

damit ich die Güte, die Qualität 
seiner Daten

einordnen konnte. Also ein kostenloses
Sample. Dieses Sample kam dann auch. Also

eines ist besonders groß, deswegen ist es
auch das, worüber wir dann sprechen.

Was war da drin? Also wir hatten 14
Tage so eine Art quasi Live-Zugriff auf

Nutzerdaten. Sprich: Nutzerdaten, die sich
immer wieder aktualisiert haben, die immer

wieder frisch waren. Das waren 3 Millionen
deutsche Nutzer in diesem Datensatz und

das waren sozusagen die
Klickstream-Daten von einem Monat.

Das Klick-Stream ist sozusagen das
Buzzword für Browser-History.

Am Anfang sind wir relativ explorativ
mit diesem Datensatz umgegangen

haben einfach mal ge-grep-t, und mal
geschaut was passiert denn, wenn wir in

diesem Datensatz nach @polizei.de suchen.
Ich setz meine Brille wieder ab, weil

Annas Teil ist nämlich jetzt durch. So,
alles was ge-x-t ist, hab ich gemacht, um

die Privatsphäre dieser Person zu
schützen. So sieht das dann aus, wenns ein

bisschen aufbereitet ist. Man sieht jetzt
hier z. B. 01.08.2016 05:17 Uhr: Rechner

an, Google. Dann wird relativ schnell nach
einem Auto geschaut. 05:30 Uhr: Das habe

ich jetzt mal offen gelassen, kann man 
dann auch alles gleich eingeben.

Ah, alles klar, er sucht einen Volkswagen

in der und der Kategorie. Interessant. 
Gut, jetzt wollen wir natürlich wissen:

Was hat der mit der Polizei zu tun? 
Was für ein Mensch steckt

hinter diesen Daten? Und wenn man jetzt
sozusagen sich da mal ein bisschen durch

scrollt durch diese Daten – ich hab das
jetzt als Screen-Video gemacht, damit man

mal so ein bisschen auch besser die
Dimensionen begreifen kann, wie groß die

Tiefe dieser Daten ist und wie intensiv
die sind. Man kann also gucken: Was liest

der, was sucht der und irgendwann ist er
mal auf der Webseite von der deutschen

Polizeigewerkschaft und auf dem deutschen
Beamtenbund. Könnte ja ein Polizist sein.

Schauen wir doch mal nach so einem
typischen Wort wie Ermittlungsverfahren

Ah! Ok. Ein Google-Translate-Link. 
<i>Gelächter + Applaus</i>

Schauen wir doch mal. Schmeißen wir
es mal in den Decoder. Da ist es!

„Sehr geehrte Damen und Herren,
im Rahmen eines hier bearbeiteten

Ermittlungsverfahrens wegen
Computerbetrugs“ – Aktenzeichen habe ich

jetzt rausgenommen – „benötige ich
Bestandsdaten zu folgender IP-Adresse“

– habe ich rausgenommen – Zeitstempel
Und netterweise hat dieser Nutzer in

Google-Translate auch seine
E-Mail-Adresse mit übersetzen lassen,

seinen Vor- und Nachnamen, den Ort und
die Telefonnummer … So.

<i>Applaus</i>

Wir können jetzt schauen: Was erfahren wir
über diesen Menschen in diesen Daten?

Können also noch mal weiter
scrollen durch sein Leben im Netz.

Und sehen, dass er arbeitet,
also sehen, ungefähr, dass er

Malware-Submissions macht z. B., dass er
IP-Adressen verfolgt, aber auch, dass er

SWR hört und natürlich so die

Peinlichkeiten im Leben

<i>Lachen</i> - <i>Applaus</i>

Sind da natürlich auch drin.

Jetzt haben wir nur mal nach 
@polizei.de gesucht.

Was wäre, wenn wir mal hier gucken?

Haben wir auch gemacht.

So sieht dann so eine Abfrage aus.

Wenn man das so, sag ich mal
so, explorativ einfach macht wie wir das

gemacht haben. Wichtig ist das, was
zwischen den Anführungszeichen steht.

Man sagt mit diesem Befehl dem Computer:
Gib mir alles, gib mir jeden Nutzer, der

jemals diese Webseite besucht hat.

Und man sieht also, dass auch Leute

die, ich würde mal sagen,

sicherheitskritisch sind,

in diesen Daten drin sind.

Was passiert nur, wenn man all diese

Nutzer deanonymisieren würde?

Könnte man sie denn
alle deanonymisieren?

Andreas: Ja, wie wir gesehen
haben, ist es im besten Fall etwas

peinlich, wenn man als Nutzer in solchen
Daten identifiziert wird.

Schlimmstenfalls kann es auch gefährlich

sein für die eigene Person.

Deswegen möchte ich in den nächsten

15 min ein bisschen darauf eingehen,

was Deanonymisierung eigentlich heißt,

wie das funktioniert und was das

Problem dabei ist.

Dafür können wir anfangen 
mit dem Datensatz.

Also es gibt immer einen Datensatz

von anonymisierten Nutzerdaten am Anfang,

den man analysieren möchte

und dieser Datensatz enthält

viele verschiedene Eigenschaften und

einige von diesen Eigenschaften zumindest

sind sensitiv, das heißt, sie sind nach

Datenschutzrecht geschützt und dürfen

nicht mit einer bestimmten Person
verknüpft werden, weswegen der Datensatz

ja im Endeffekt auch anonymisiert wurde.

Und statt einer Zuordnung zu einer

konkreten Person hat man diesen

Datensätzen daher einfach beispielsweise

eine numerische ID oder einen Identifier,

der keine Rückschlüsse—im Idealfall—auf

die wirkliche Person, die sich hinter den

Daten verbirgt, erlaubt.

Auf der anderen Seite habe ich aber auch

öffentliche Informationen z. B. aus

dem Internet oder anderen Quellen,

die ich mir frei zusammensuchen kann und

und solche öffentlichen Informationen

enthalten auch Eigenschaften von Personen

und enthalten zudem oft den Namen oder

andere Identifikationsmerkmale der Person,

die also Rückschlüsse auf die wirkliche
Person zulassen.

Und Deanonymisierung beinhaltet in diesem

Sinne eine Suche nach Eigenschaften, 
die ich in beiden

Datensätzen entweder direkt oder indirekt
identifizieren kann und die mir erlauben,

aufgrund von beispielsweise statistischen
Verfahren oder machine learning die

möglichen Kandidaten aus dem
anonymisierten Datensatz so weit zu

reduzieren, dass ich mit entweder
absoluter Sicherheit oder mit relativ

hoher Wahrscheinlichkeit sagen kann,
dass ein Nutzer, den ich hier in den

öffentlichen Daten gefunden habe, 
dem Nutzer

in dem anonymisierten Datensatz 
entspricht.

In dem Sinne habe ich diesen
User dann deanonymisiert.

Wie Svea gesagt hatte, ist der Datensatz,

den wir bekommen haben, absolut

unzureichend anonymisiert worden,

d. h., das war sehr, sehr einfach
möglich, aus den URL-Daten, die wir

erhalten haben, entsprechende Nutzer
und Personennamen zu extrahieren.

Im Zweifelsfall hat dafür eine einzige URL
ausgereicht.

Hier habe ich zwei Beispiele.

Einmal von Twitter und einmal von XING.

Das sind also beides URLs,

die Rückschlüsse

entweder auf den Nutzernamen

oder sogar auf den Klarnamen

und weitere Angaben von

der Person zulassen.

Und das, was die Identifikation 
hier ermöglicht,

ist bei der ersten Adresse oben,

dass diese Analytics-Page nur 
– im Normalfall – dem

eingeloggten Benutzer zur Verfügung steht,

d.h. wenn ich diese URL in einem Datensatz

sehe, kann ich mit relativ hoher

Wahrscheinlichkeit davon ausgehen, dass

der Nutzername, der hier auftaucht, dem

Nutzernamen des anonymisierten Nutzers in

meinem Datensatz entspricht.

Im zweiten Fall ist es weniger 
offensichtlich.

man kann also nur sehen, dass man hier

eine öffentliche Profiladresse hat,

die man auch so im Internet finden kann,

was aber den Unterschied macht, ist

dieses spezielle Query, das hinten 
dran hängt,

und das nur in die URL hinzugefügt wird,

wenn ich als eingeloggter Nutzer,

auf mein eigenes Profilbild klicke

d.h. hier ist wieder mit einer hohen

Wahrscheinlichkeit die Möglichkeit 
gegeben, einen Nutzer der in

den Daten drin ist, eindeutig mit dem
Besitzer dieses Profils zu identifizieren.

Und in unserm Datensatz haben wir über
100.000 Benutzer auf diese Weise

identifiziert. Wir haben auch die
beiden Firmen übrigens auf diese

Sicherheitsprobleme aufmerksam gemacht.
XING hat entsprechend schon Änderungen

eingeführt und Twitter hält es nicht
für ein Problem in diesem Sinne und

möchte da keine Änderungen machen
aktuell. Also als erstes Take-Away könnte

man vielleicht von dem Vortrag auch
mitnehmen, dass man bitte, bitte keine

persönlich identifizierbaren Informationen
in URLs packt. Wenn irgend möglich.

Natürlich gibt’s noch etwas
weitergehende Verfahren, um auch

Datensätze zu deanonymisieren, die etwas
besser anonymisiert wurden.

Eine schöne Arbeit hierzu ist dieses Paper

das aus dem Jahr 2007 stammt, und

wo sich die Forscher

mit einem Datensatz beschäftigt haben,

der von Netflix publiziert wurde und

der also anonymisierte Bewertungsdaten

von Netflix-Usern enthielt.

Der Datensatz wurde auf eine 
Datenanalyseplattform hochgeladen

mit dem Ziel, dass andere 
Data-Sscientists,

Datenforscher, sich mit den Daten 
auseinandersetzen können und

auf die Weise bessere Bewertungs-
oder Empfehlungsalgorithmen für neue

Filme finden können. Und die
Deanonymisierung dieses Datensatzes war in

diesem Fall möglich ebenfalls durch
die Nutzung von öffentlich verfügbaren

Informationen – in diesem Fall war das
beispielsweise Bewertungen, die Nutzer auf

der Plattform IMDB abgegeben haben, wo
also Nutzer auch Filme bewerten können wie

bei Netflix und wo oft Nutzer-Accounts
oder Konten mit dem wirklichen Namen des

Benutzers verknüpft sind. Und die
Forscher haben also geschafft, indem sie

die Bewertung von IMDB herangezogen haben
und diese mit den Bewertungen auf Netflix

verglichen, die User auf Netflix mit einer
hohen Wahrscheinlichkeit mit den Usern auf

IMDB zu identifizieren D. h. hier war eine
Deanonymisierung einfach dadurch möglich,

dass es sehr, sehr viele mögliche
Kombinationen von Filmen gibt und es sehr

unwahrscheinlich ist, dass zwei Personen
die gleiche Anzahl von Filmen auf die

gleiche Weise bewertet haben.

Und diese Technik kann man auch auf

unseren Datensatz anwenden,

dieser enthält wie gesagt 
ca. 3 Mrd. URLs

von 9 Mio. Web-Domains und wurde

von ca. 3 Mio. Usern generiert.

So. Da die Daten wie gesagt

unzureichend anonymisiert wurden, haben

wir für die weitere Analyse

einfach mal angenommen,

dass der Anbieter wirklich ein Interesse
daran hätte die Anonymisierung korrekt

oder möglichst gut durchzuführen und
dementsprechend sämtliche Informationen

außer der Domain und der Nutzer-ID aus
dem Datensatz entfernt

d.h. wir haben alle Informationen 
weggeworfen,

bis auf den Fakt: 
Hat dieser Nutzer, diese Domain in

dem Zeitraum besucht?

Ja oder nein?

So - Also man könnte annehmen, dass diese

starke Form der Anonymisierung doch
ausreichend sein sollte,

um die Nutzer davor zu schützen,

wieder deanonymisiert zu werden.

Wir haben weiterhin auch eine Auswahl

getroffen von 1 Mio. Nutzern,

von denen wir über 10 Datenpunkte haben,

weil das die Analyse für die weiteren
Schritte vereinfacht und für Nutzer, die

relativ wenige Datenpunkte haben, auch die
meisten Techniken nicht anwendbar sind.

So.

Wenn man sich jetzt die Verteilung

der Häufigkeiten der Domains

in dem Datensatz anschaut,

Also hier auf der X-Achse ist

immer der Popularitätsrang einer

entsprechenden Domain aufgetragen

d. h. je
weiter links die Domain hier auftaucht,

um so populärer ist sie.

Man hat hier bspw . Google, Facebook und 
die anderen üblichen Kandidaten

und auf der Y-Achse ist die
Anzahl der URLs aufgetragen,

die von dieser entsprechenden Domain 
in dem Datensatz stammen.

Und wie man sieht: wenn man die

100 populärsten Domains nimmt, sind die
schon bereits verantwortlich für mehr als

99% der gesamten Daten in unserem
Datensatz. D. h. die meisten Seitenbesuche

finden auf den Top 100 Domains dieser
Liste statt. Und wie man sieht, fällt die

Verteilung danach relativ schnell ab. Also
es gibt eine Menge Domains, die nur ein

paar hundert mal oder sogar nur 10 oder
ein einziges mal von einem Nutzer besucht

wurden. Das hilft uns bei der
Anonymisierung, weil wir gleichzeitig die

Möglichkeit haben, über diese populären
Domains, die fast jeder User besucht hat

oder von denen jeder User fast eine 
besucht hat,

eine entsprechende Auswahl zu treffen und

unsere Kombinatorik darauf anzuwenden aber
wir auch gleichzeitig Long-Tail-Domains

haben, die also nur von wenigen Nutzern
besucht wurden und die entsprechend sehr

gut sich eignen, um einzelne Nutzer
wirklich mit wenigen Datenpunkten wieder

zu identifizieren.

So, den ersten Schritt, den wir machen 
müssen, um unsere

Deanonymisierung vorzunehmen, ist das
Katalogisieren der Nutzer. Dafür legen wir

eine einfache Tabelle an, wo wir in jede
Zeile entsprechend einen Eintrag für

einen Nutzer machen und in jede Spalte
einen Eintrag für eine Domain anlegen und

jedes Element hier ist entweder Null oder
Eins und ist genau Eins dann, wenn der

entsprechende Nutzer die entsprechende
Domain besucht hat, d. h., das ergibt eine

Matrix mit 9 Mio. Einträgen für die
Domains und 1 Mio. Einträgen für die

User, wobei die meisten Elemente dieser
Matrix Null sind. Und so eine Matrix lässt

sich sehr effizient auch repräsentieren
und kann leicht verarbeitet werden für

die weiteren Schritte.

So der Algorithmus,den wir einsetzen 
zu der Deanonymisierung ist

wirklich sehr, sehr einfach.

Wir generieren im 1. Schritt die Matrix M

die ich gerade gezeigt habe,

generieren dann weiterhin einen Vektor V

und in diesen Vektor packen wir 
alle Domains,

die wir aus anderen Informationsquellen,

also aus unserer öffentlichen Information
gewonnen haben und die wir vergleichen

wollen mit den Nutzern, die sich in in dem
Datensatz befinden d.h. für jede Domain

die wir irgendwo gesehen haben, würden wir
eine 1 in diesen Vektor schreiben und

würden dann entsprechend den Vektor
nehmen und mit der Matrix multiplizieren.

Das Ergebnis enthält dann wieder für
jeden Nutzer eine einzige Zahl und in dem

wir den Maximalwert dieser Zahl nehmen
können den Nutzer finden der in unserem

Datensatz die beste Übereinstimmung hat
mit den Domain, mit denen wir ihn

vergleichen wollen. 
Also wirklich ein sehr,

sehr einfaches Verfahren, das allerdings

sehr robust und auch sehr,
wie man sehen wird,

effektiv ist für die Deanonymisierung

So, das ist natürlich alles sehr abstrakt

deswegen habe ich hier mal ein Beispiel 
von einem Nutzer,

den wir zufällig ausgewählt haben 
aus unserem Datensatz

und wir gehen jetzt einfach mal
durch die einzelnen Punkte durch.

Also hier würden wir jedes mal in
jedem Schritt

eine Domain hinzunehmen, die der Benutzer

entsprechend besucht hat und dann schauen,

um wie viele Nutzer verringert das die

möglichen Nutzer in unserem Datensatz, die
diese Domains besucht haben könnten.

Wie wir sehen wir fangen hier links mit

ca. 1,1 mio. Nutzern an, dann nehmen wir

unsere 1. Domain das ist gog.com

Das ist eine Gaming-Webseite und

da sehen wir schon

haben wir eine extreme Reduktion 
in der Anzahl der möglichen Nutzer

in dem Datensatz.

Weil jetzt nur noch 15.000 Nutzer 
dieser Domain drin sind, die

wirklich diese Domain besucht haben und
die der potentielle Nutzer sein könnten.

Wie wir auch sehen ist dieser Nutzer
Telekom-Kunde d.h. er hat auch diese

kundencenter.telekom.de Domain besucht. 
Was nochmal die Anzahl der möglichen

Nutzer in dem Datensatz extrem reduziert.

In diesem Falle auf 367.

Er ist auch Sparda-Bank-Kunde,

weswegen wir auch diese
banking.sparda.de hinzunehmen können, was

nochmal die Anzahl auf 11 reduziert und
das finale Stück des Puzzles, das wir noch

benötigen ist hier die Information, dass

der Nutzer handelsblatt.com unterwegs war,

was dann nur noch einen einzigen Nutzer

ergibt in unserem Datensatz, der mit

diesen Daten kompatibel ist.

D.h. hätten wir diese vier Informationen 
aus öffentlichen Quellen extrahiert,

könnten wir schon mit Sicherheit
sagen, welcher Nutzer in unserem

Datensatz hier entsprechend der richtige
Nutzer ist.

So jetzt ist natürlich die Frage:

Wie gut funktioniert das Verfahren
in Abhängigkeit auch davon, wieviele

Informationen ich denn überwachen kann
von dem Nutzer.

Wir haben ja gesehen,

das wir in unserem Datensatz eigentlich 
den Nutzer komplett überwachen können,

D.h. wir können jede URL sehn, die der
Nutzer mit seinem Browser aufgerufen hat

Aber viele Trecker sehen ja im Prinzip nur
einige hundert oder vielleicht einige

tausend oder zehntausend Domains, auf den
entsprechende Skripte installiert sind.

Was ich deswegen hier zeige, ist die
Effektivität dieser Methode in

Abhängigkeit der Anzahl der Domain die
ich zur Verfügung habe.

Wir fangen also an hier links,

wo nur die Top 50 Domains in
unserem Datensatz zur Verfügung hätten

und schauen uns an, wenn wir zufälliges
Sample von Usern, in diesem Fall 200,

versuchen zu deanonymisieren, 
wo befindet sich denn der korrekte User

unter all den Nutzern, die wir in dem 
Datensatz haben.

Man sieht hier für 50 Domains ist das

ungefähr 160.

D.h. es gibt 160 andere Nutzer 
im Schnitt, die eine höhere

Wahrscheinlichkeit haben, mit den Daten
übereinzustimmen, als der wirklich

gesuchte Nutzer.

So, wenn wir jetzt die Anzahl der Domains 
allerdings erhöhen:

also wir können z.B. auf 100 gehen, sehen
wir, das der Wert schon rapide abfällt.

D.h. hier habe ich schon die Anzahl der
möglichen Nutzer, die zu einem wirklichen

Nutzer gehören könnten extrem reduziert.

Auf ungefähr 25

und wenn ich die Anzahl der Domains

entsprechend erhöhe auf 
200 oder 300 sogar,

bin ich sehr schnell auch in der Lage

wirklich den Nutzer eindeutig
wieder zu identifizieren .

Also es gibt keine Fehler,
in diesem Sinne dann, für die

Identifikation eines bestimmten Nutzers.

So, das ist natürlich alles graue Theorie
und es stellt sich die Frage:

Ist es überhaupt möglich, solche 
öffentlichen Informationen zu gewinnen

oder ist das eher unwahrscheinlich, 
dass man an solche

Informationen rankommen würde?

Deswegen habe ich versucht anhand von 
den Daten, die wir haben und anhand von

öffentlichen Informationsquellen wirklich
Deanonymisierung durchzuführen, mit den

Usern, die wir haben. 
Und ich zeige jetzt drei Beispiele.

Das erste beruht auf der Analyse von 
Twitter-Daten.

Da haben wir also einen Nutzer aus 
unserem Datensatz

der einen Twitter-Account hatte zufällig
rausgesucht. Haben uns dann angeschaut,

welche URLs dieser Nutzer in dem
entsprechenden Zeitraum, über den wir die

Daten hatten, geteilt hat und haben dann
aus diesen Tweets hier die entsprechenden

URLs extrahiert, davon wieder Domains
generiert oder extrahiert und diese

Domains dann mit unserem Algorithmus
genutzt.

So. Wie wir sehen haben wir für

diesen einen Nutzer dabei 8 Domains
extrahiert

über den entsprechenden Zeitraum.

Also wir haben hier relativ
populäre Domains wie GitHub, Change.org

aber auch viele Blogs,

Beispielsweise: rtorp.wordpress.com

was nur von 129 Nutzern aus dem Datensatz

besucht wurde und auch andere kleinere 
Webseiten.

Wenn wir jetzt uns anschauen, welche
Nutzer aus unserem Datensatz haben

mindestens eine dieser Domains besucht, in
dem entsprechenden Zeitraum, und die Nutzer

gegen die Anzahl der Domains, die sie aus
diesem Satz von Domains besucht haben

auftragen, bekommen wir diese Grafik hier.

Also die zeigt die ca. 110.000 Nutzer, die

min. eine dieser Webseite besucht haben
und zeigt gleichzeitig an: Wieviele von

den entsprechenden Domains der Nutzer
wirklich besucht hat. Und wir sehen:

Also, es gibt sehr, sehr viele Nutzer, 
die min. eine hiervon besucht haben.

Wenn wir allerdings hochgehen zu 
zwei, drei oder vier davon

verringert sich die Anzahl sehr schnell.

Und wir sehen hier, dass wir oben bei 7
einen einzigen Nutzer haben und dabei

handelt es sich wirklich um den Nutzer, den
wir entsprechend deanonymisieren wollten.

D.h. hier ist eine Zuordnung mit 100%ger
Sicherheit möglich für diesen Nutzer.

Wir haben das auch für andere Nutzer
durchgespielt. Wir konnten nicht immer den

korrekten Nutzer rausfinden. Aber wir
konnten in den meisten Fällen die Anzahl

möglicher Nutzer auf ca. 10–20
reduzieren.

Das zweite Beispiel, dass ich jetzt noch

zeigen möchte, ist anhand von
YouTube-Daten gemacht worden.

Oft ist es so, dass viele Daten in solchen
Datensätzen wirklich anonymisiert werden,

aber bestimmte Daten davon ausgenommen
werden, weil es ein starkes Interesse gibt,

seitens der Unternehmen, diese zu nutzen.

YouTube-Videos sind ein gutes Beispiel

dafür, weil Unternehmen bspw. wissen
möchten, welche Videos haben bestimmte

Nutzer angeschaut, in welcher Kombination,
um daraus für ihr Marketing Erkenntnisse

abzuleiten. Und man könnte auch meinen,
dass diese Information über öffentliche

Videos, die eigentlich ja jeder sich
anschauen kann im Internet,

auch nicht sehr kritisch ist.

Was wir gemacht haben deswegen, 
um zu zeigen, ob das wirklich so ist,

ist, dass wir wieder aus unserem
Datensatz einen Nutzer extrahiert haben,

von diesem Nutzer die Favoritenliste der
YouTube-Videos uns besorgt haben, die auch

öffentlich ist im Normalfall, also man
kann das Einstellen natürlich, das es

nicht öffentlich ist aber 90% der User
machen das nicht und haben das

entsprechend dann in der Öffentlichkeit
und haben uns aus dieser Liste per

YouTube-API automatisiert sämtliche
Video-IDs besorgt. Und mit diesen

Video-IDs haben wir wieder unseren
Algorithmus gefüttert, diesmal allerdings

mit den kompletten URL-Daten, da die

Domains halt nicht die Video-IDs
enthalten.

Ups... jetzt habe ich falsch
gedrückt ha so... also

Wie vorher haben wir also

diese IDs, das sind ungefähr 20 und
haben auf der anderen Seite sämtliche

Nutzer, die min. 1 von diesen Videos
angeschaut haben. Wie wir sehen können

sind das in dem Fall ca. 20.000, wobei
wieder eine Menge von den Nutzern sich

min. 1 angeschaut haben. Aber die Anzahl
der potentiellen Nutzer, die sich mehrere

angeschaut haben rapide runtergeht. Und
wir sehen hier Bspw. für vier oder fünf

oder sechs haben wir nur noch eine
Handvoll User und wir haben wieder einen

Treffer, der hier ganz oben liegt, bei 9
angeschauten Videos und dabei handelt es

sich wieder um den Nutzer, den wir im
vorherigen Schritt extrahiert haben.

Wir sehen also, es ist relativ einfach

anhand von ner kleinen Anzahl von
Datenpunkten,

selbst aus ner sehr großen Anzahl 
von Nutzern,

in diesem Fall über 1 Mio. Nutzer,

entsprechend auf einen User
zurückzuschließen. Und man muss dazu

sagen, dass solche Verfahren, dass
YouTube-Verfahren, sogar besser

funktioniert hat, als die Anonymisierung
über Twitter. Weil, ich schätze mal, die

Verteilung der Videos und Anzahl der
Videos auf YouTube noch mal höher ist als

die Anzahl der entsprechenden Domains die
wir zur Verfügung haben. D.h. eine

YouTube-Video-ID ist in dem Sinne sogar
ein stärkeres Deanonymisierungs-Signal

als die entsprechende Domain aus dem
Twitter-Feed.

So, dass letzte Beispiel:

dass ich zeigen möchte - basiert auf der
Analyse von Geodaten. Dafür haben wir uns

angeschaut, wie wir aus unserem Datensatz
Geodaten extrahieren oder Koordinaten

extrahieren können. Und wir haben
rausgefunden, dass es relativ einfach

über Google-Maps-URLs geht. Die also wenn
man sich einen bestimmten Bereich anschaut

meisten oben in der URL die geographischen
Koordinaten enthalten. D.h. wir konnten

aus unserem Datensatz einige Mio. von
diesen Koordinatenpaaren extrahieren und

die auch nach entsprechenden Nutzer
gruppieren und können damit eine

komplette Karte von der Nutzeraktivität
anfertigen. Also wir sehen z.B. welche

Kartenausschnitte sich User angeschaut
haben. Wenn sie z.B. nach Urlaubszielen

geschaut haben, vielleicht nach ihrem
Arbeitsort, nach einem Weg, nach einer

Wegbeschreibung. Und können diese
Information also auch Nutzergenau

verarbeiten. Und Geodaten sind besonders
interessant hierfür, weil es sehr viel

schwieriger ist, diese selbst zu ändern,
da es ja relativ einfach ist seine

Surfgewohnheiten oder Videogewohnheiten im
Zweifelsfall anzupassen aber es relativ

schwierig ist, bspw. die Arbeitsstelle
oder den Wohnort oder sämtliche vertraute

Orte zu wechseln. D.h. diese Information
sehr, in diesem Sinne sticky, in dem

Sinne, dass sie dem User über lange Zeit
auch zuordenbar sind normalerweise. Und

wir können auch wieder aus verschiedenen
öffentlichen Quellen Informationen

extrahieren. Bspw. aus Google-Maps oder

auch über Flickr, wo auch viele Fotos 
geocodiert sind und

können dann über diese Information
ein Matching mit den Daten, die wir in

unserem Datensatz haben, durchführen.

Und hier ist es auch so, dass wir 
über eine relativ kleine Anzahl

also weniger als 10 Datenp unkte im 
Idealfall, ähm Normalfall,

den einzelnen Nutzer aus dem Datensatz
extrahieren und identifizieren können.

So, eine Frage die ich oft gestellt
bekomme, ist:

Kann ich mich verstecken in meinen Daten?

Also, ist es möglich dadurch,
dass ich mich unvorhergesehen verhalte,

dass ich vielleicht Webseiten öffne,
die ich normalerweise nie anschauen

würde, dass ich den Algorithmus verwirre
und dementsprechend nicht in den Daten

auftauche werde? Da muss leider sagen,
dass funktioniert vermutlich nicht, aus

dem einfachen Grund, dass wir ja ein
Matching machen über die Zuordnung von

Eigenschaften, die entweder erfüllt oder
nicht erfüllt sind und ich als einzelner

Nutzer ja nur die Möglichkeit habe,
zusätzliche Datenpunkte zu meinem

persönlichen Vektor hinzuzufügen aber
meistens keine Datenpunkte von diesem

entfernen kann. D.h. wenn ich hier schon
mit meinen bestehenden Datenpunkten zu

100% identifiziert bin, kann ich
eigentlich so viele Punkte hinzufügen wie

ich möchte und werde trotzdem nicht im
normalfall von dem Algorithmus mit einem

anderen User verwechselt werden können.
D.h. diese Verfahren ist in dem Sinne sehr

robust gegenüber der Perturbation oder
der Änderung der Daten durch den Nutzer.

Als kleines Zwischenfazit kann man also
sagen, dass diese Art von Datensätzen die

sehr viele Dimensionen und sehr viele
Eigenschaften enthalten extrem schwierig

zu anonymisieren sind und auch bei
entsprechender Absicht man nicht immer

sicher sein kann, dass
Anonymisierungsmaßnahmen,

die man ergreift, wirklich

ausreichend sind, um sämtliche Nutzer
oder sogar nur einen kleinen Teil

von Nutzern in dem Datensatz zu schützen.

Weiterhin ist es auch so, dass heute

eigentlich immer mehr öffentlich
verfügbare Informationen über Personen

zur Verfügung stehen, die auch genutzt
werden können, um Daten die anonymisiert

wurden z.B. vor 10 Jahren oder vor 5
Jahren jetzt mit neuen Datenpunkten in dem

Sinne besser zu deanonymisieren. D.h. es
wird immer einfacher möglich, auch aus

bestehenden Datensätzen entsprechende
Nutzerdaten und

Personen-Identifikationsmerkmale zu
extrahieren. Und wie wir gesehen haben,

reichen dafür oft eigentlich schon sehr
wenige Datenpunkte aus, um wirklich

einzelne Nutzer herauszusuchen und
eindeutig zu identifizieren.

S: Ja was bedeutet das? 
Was bedeutet das, wenn man mit seinen

eigenen Daten konfrontiert wird?

Also wenn jemand anders einen mit 
seinen Daten konfrontiert?

Also z.B. Ich?

Wir haben, die Recherche war
für ein politisches Magazin

und deswegen haben wir vor allem nach

Politikern geschaut und auch die 
Politiker selbst

oder deren Mitarbeiter gefunden 
in diesen Daten.

Waren zwei Grüne dabei, 
drei von der SPD,

darunter auch Mitarbeiter aus dem

Büro von Lars Klingbeil, 
Netzpolitischer Specher,

ein Europaparlamentarier und das
zog sich sozusagen bis ins Kanzleramt und

auch dort in einem Büro, bei einem
Staatsminister bei der Bundeskanzlerin war

auch ein Mitarbeiter betroffen. Wobei die
Mitarbeiter fast interessanter sind als

die Politiker selbst, weil die Mitarbeiter
sehr viel inhaltliche Arbeit für die

Politiker machen. Und auch sowas,

wie deren Reisen planen, 
Kontakte herstellen.

Jetzt wollte selbstverständlich nicht 
jeder gerne mit uns reden und

vor allem nicht vor der Kamera.

Einer hat es dann getan, das ist 
Valerie Wilms.

Bevor wir sie jetzt mal hören, schauen 
mir doch erstmal in ihre Daten.

<i>lachen</i>

Sie hat es freigegeben für diesen Vortrag,
sage ich noch dazu. Weil hier habe ich

jetzt sozusagen wirklich nichts
anonymisiert, wie in dem Datensatz davor.

So 01.08., ist auch Frühaufsteherin, erst
mal Banking... noch mal Banking... d.h.

man kann also hier ziemlich gut sehen z.B.
wo Leute ihre Konten haben. Auf die Konten

selbst kann man nicht zugreifen, aber man
weiß wo. Bisschen unangenehmer wird's

dann für sie sozusagen Ende August, da
haben viele Leute ihre in Deutschland ihre

Steuererklärung gemacht. Das habe ich
auch als Video nochmal. Da kann man

nochmal so ein bisschen runterscrollen,

Dann sehen wir ein bißchen mehr von ihrer

Steuererklärung. Also man kann jetzt hier
sozusagen auf Elster-Online nicht selbst

zugreifen. Also wenn wir das jetzt machen
würden, würden wir sozusagen nicht

weiter kommen, weil dann auch nach einem
Passwort verlangt wird. Aber wir können

sehen, welche Vordrucke sie sich
angeschaut hat. Und können so

Informationen gewinnen, über Dinge,

die sie gedenkt zu versteuern. 
Und es ist recht detailreich.

Ja, was hat sie nur dazu
gesagt, als wir bei ihr im Büro saßen?

Wir können Sie einmal kurz hören dazu.

Valerie Wilms: Ist rechts alles zu sehen?
Scheiße!

<i>Gelächter</i>

<i>Applaus</i>

S: Gab noch eine andere Geschichte, 
auf die wir sie angesprochen haben.

Gibt ja nicht nur Steuererklärungen
sondern man schaut ja auch sowas bei

Google nach Tebonin nimmt man so 
bei Hörsturz, Tinitus,

Abgeschlagenheit. Ist natürlich gerade

für Politiker ein großes Problem, wenn 
solch Informationen an die Öffentlichkeit

gelangen, Menschen dann falsche Schlüsse
daraus ziehen oder auch, ja, die Leute

damit erpressen können. Z.B. haben wir 
sie auch darauf angesprochen.

Will ich die Reaktion nicht vorenthalten.

Valerie Wilms: Ich weiß gar nicht in
welchem Zusammenhang ich dieses

Tebonin mir da angeguckt habe, 
das ist nicht schön,

sowas nachträglich zu lesen. Vor allen 
Dingen verknüpft mit dem eigenen Namen.

S: Ja, das war Valerie Wilms zu ihren
Daten. An diesem ganz kleinen Ausschnitt

sieht man wie Problematisch diese Daten
sind. Ich hab jetzt nicht die Beiträge

gezeigt, wo Menschen ihre sexuellen
Vorlieben ausleben. Weil, dass betrifft

natürlich auch Leute, die in
öffentlichen oder in relevanten

Positionen stehen. Natürlich sind auch
Richter in diesen Daten. Natürlich sind

auch Wirtschaftsbosse in diesen Daten. Und
natürlich sind das alles Menschen und die

haben Träume und die haben Gedanken, und
es überhaupt nichts, was in dritte Hände

gehört. Und deshalb war mit allen mit
denen wir gesprochen haben, im Zuge dieser

Recherche, war das für alle Betroffenen
sehr schockierend. Aber wer hat sie

ausgespäht? Woher kommen diese Daten? War
es irgendwie ein shady Trojaner oder so

auf dem Rechner? Nein. Wir sind relativ
schnell drauf gekommen, dass es

Browser-Plugins sind und haben dann einen
kleinen Test gemacht, haben einen Nutzer

gebeten Add-Ons zu deinstallieren. Und
haben dann eines herausfinden können;

Web-of-Trust - Was machen die so?
Safe Web Search &amp; Browsing.

<i>Applaus</i>

Haben das dann noch mal mit einem sauberen
Browser sozusagen gegengetestet in der

Zeit als wir eine Möglichkeit hatten Live
in die Daten zuzugreifen, das hat ein

Securityspezialist für uns gemacht Mike
Kuketz und der hatte eine extra Webseite

aufgesetzt, einen sauberen Browser, nur
dieses eine Plugin installiert und wir

konnten ihn in den Daten sehen. Und
dadurch konnten wir sicher sein, dass es

eben bei diesem einen Plugin auch
tatsächlich der Fall war, dass dieser Weg

eben so gegangen ist.

A: Ja, warum ist das Tracking per App oder
Extension eigentlich so interessant für

die Anbieter? Nun für Unternehmen ist es
eigentlich immer sehr spannend ein

möglichst detailliertes Bild von einem
entsprechenden Nutzer zu gewinnen. D.h.

ich möchte, wenn möglich, sämtliche Daten
die über den Nutzer zur Verfügung

stehen. Und bei normalen Treckern ist das
ja so, dass ich als Nutzer mir eine

Webseite runterlade, in meinen Browser,
dann ein entsprechend ein

JavaScript-Applet oder ein anderes
Tracking-Tag ausgeführt wird, dass eine

entsprechende Verbindung aufbaut zu einem

Tracking-Server und da Bspw. ein Cockie

setzt oder eine andere Information
speichert, die mich dann als Nutzer

nachverfolgt. In den letzten hat sich
dagegen, verständlicherweise, eine Menge

Widerstand auch geregt und viele Leute
benutzen mittlerweile Blocker, die

verhindern, dass solche Tracking-Scripte
ausgeführt werden. Oder die Verbindung zu

den Tracking-Servern abfangen oder
blockieren. D.h. es wird immer schwieriger

für die Tracking-Anbieter qualitativ
hochwertige Daten zu bekommen und da liegt

es doch eigentlich nahe, dass man sich
solchen Mechanismen, in Form von einer

Extension, zu Nutze macht, in dem man
die Sicherheitsmaßnahmen, die es in dem

Browser eigentlich per Default gibt,
relativ einfach umgeht und dann über

diesen Side-Channel sozusagen die
Information bei jeder einzeln aufgerufenen

URL direkt an den Tracking-Server sendet.
Und das hat einen weiteren Vorteil für

die Anbieter, weil damit nicht nur die
Seiten überwacht werden können, die

wirklich Tracking-Codes auch explizit
beinhalten, sondern auch viele andere

Webseiten, die überhaupt keine Codes auf
der Seite haben. Also Bspw. Seiten von

öffentlich Rechtlichen Institutionen, die
ihre Nutzer im Normalfall nicht tracken.

D.h. es ist also möglich über dieses
Verfahren von einer kleineren Anzahl an

Usern allerdings ein sehr viel größeres
Spektrum an Daten, im Idealfall oder im

schlimmsten Fall, je nachdem wie man das
sieht, die komplette Browsinghistory von

diesem entsprechenden User zu gewinnen.
So, wir haben uns in unserem Datensatz

dafür nochmal angeschaut, wie viele von
diesen Extensions es eigentlich gibt und

wie viele Daten jede von diesen Extensions
generiert. Und hier haben wir wieder einen

doppelt logarithmischen Plot, wo auf der
einen Seite hier der Rang der

entsprechenden Extension aufgetragen ist

d.h. je mehr Datenpunkte von 
der Extension

wir bekommen haben, umso weiter finden Sie
hier die Extension links. Und auf der

anderen Achse haben wir die Anzahl der
Datenpunkte entsprechend aufgetragen. Und

wir sehen hier, dass die populärste
Extension, das ist Web-of-Trust bereits

für 1 Mrd. Datenpunkte in dem Datensatz
verantwortlich ist. Und wenn man die

ersten 10 Extensions nehmen, sehen wir,
dass bereits 95% der Daten davon abgedeckt

werden. D.h. es ist also eine kleine
Anzahl von Extension, die eigentlich die

größte Masse an Daten hier für diesen
Anbieter produziert. Wobei es auch sehr

viele, also hier fast 10.000 verschiedene
Application-IDs gibt, die teilweise einige

100 oder bis zu einige 100.000 oder einige
Mio. Datenpunkte ihrerseits liefern. Es

ist nicht unbedingt gesagt, dass es auch
10.000 Extensions sind, weil wir keine

eindeutige Zuordnung zu der Application-ID
haben, d.h. das ist eher eine obere

Abschätzung. Und um jetzt ein genaueres
Bild zu bekommen,

wie verseucht eigentlich so ein Web-Store

ist, haben wir eine
Verhaltensanalyse durchgeführt,

wofür wir mit einem 
Automatisierungsframework:

Webdriver - uns einfach einen 
Chrome-Browser

genommen haben, da automatisiert
verschiedene Extensions installiert haben

und dann mit diesem Webdriver entsprechend
verschiedene Webseiten angesurft haben,

wobei wir über einen Python-basierten
Proxy-Server dann mitgeloggt haben, welche

URLs bzw. welche Webseiten von dem
entsprechenden Browser geöffnet wurden,

wenn wir bestimmte Seiten angesteuert
haben. D.h. darüber konnten wir

verfolgen, ob der Browser beim Öffnen von
bestimmten Seiten oder von allen URLs

vielleicht noch zusätzlich Informationen
eventuell an Dritte schickt. Und das haben

wir für ca. 500 Plugins so ausgeführt
und wie man hier sehen kann, verhalten

sich die meisten eigentlich so, wie man
es erwarten würde, d.h die öffnen nur die

URLs, die entsprechende Anzahl der URLs,
die man erwarten würde für den

Testdatensatz, den wir verwendet haben. 
Und gleichzeitig gibt es auch einige

Extensions, z.B. das hier, dass sich
merkwürdig verhält und sehr viele

URL-Aufrufe hat. Und hier haben wir bei
einer genauen Analyse auch gesehen, dass

das entsprechende Plugin oder die
Extension auch Daten an einen Drittserver

schickt, bei jeder aufgerufenen URL. Wobei
man sagen muss, dass jetzt aus den 500

untersuchten Extension nur einige dabei
waren, die wirklich eventuell schadhaftes

Verhalten zeigen. D.h. die
Wahrscheinlichkeit, dass man sich mit

Extension infiziert, in dem man Sachen
runterlässt aus dem Webstore ist aktuell

noch relativ gering, scheint aber größer
zu werden. So, die letzte Frage ist

natürlich: Wie oder kann ich mich
überhaupt gegen so etwas schützen? Und

ich denke, daß in einigen Jahren es trotz
client-seitigen blockierens von Trackern

immer schwieriger sein wird sich als
Nutzer anonym im Internet zu bewegen, weil

es, wie wir gesehen haben, anhand von
einigen wenigen Datenpunkten möglich ist,

eine Identifikation von an sich
anonymisierten Daten herzustellen.

Dh. selbst wenn ich mit einem Tracker 
oder eine Extension sämtliche Tracker

blockiere, habe ich immer noch solche
Dinge wie: meine IP-Adresse, meinen

User-Agent und die Kombination aus
mehreren solchen Eigenschaften kann schon

ausreichen, um mich wieder eindeutig zu
identifizieren in größeren Datensätzen.

D.h. wenn ich wirklich sicher im Internet
unterwegs sein möchte, müsste ich

zumindest darauf achten, dass ich
möglichst viele dieser Eigenschaften

ständig rotiere und ändere in dem
ich bspw. VPN-Lösungen benutze, die auch

rotierende IP-Adressen verwenden. Wobei
das auch keine Garantie natürlich ist,

dass man nicht getrackt werden kann. 
D.h. es wird also immer schwieriger sich

im Internet zu bewegen, ohne dem Risiko
der Deanonymisierung ausgesetzt zu sein.

S: Genau, was ist so das Ergebnis von der
Recherche gewesen? Also WOT verschwand

relativ kurz nach der Veröffentlichung
des Berichts zunächst mal aus dem

Chrome-Webstore und aus dem Mozilla-Store
und es haben natürlich sehr viele Nutzer

wie verrückt Plugins deinstalliert.
Deswegen können wir davon ausgehen, dass

auch der Datenstrom dann eingebrochen ist.
Aber natürlich die Plugins, die weiterhin

installiert sind und Nutzer, die es jetzt
nicht deinstalliert haben, da läuft es

natürlich weiter. Und auch inzwischen,
jetzt ein paar Wochen nach der Recherche,

ist WOT wieder im Google-Chrome-Store
verfügbar. So mein persönliches Fazit

daraus ist, ein Stück weit defend
yourself. Sprich, Andreas hatte schon

angedeutet, man kann sich nicht auf die
Stores verlassen, man muss sich ein Stück

weit selbst schützen und selbst
überlegen, was kann ich tun um dieser

Überwachung zu entgehen. Ja, also wir
sind recht am Ende von unserem Talk aber

trotzdem ganz wichtig nochmal der Dank an
ein relativ großes Team was uns

unterstützt hat in dieser Zeit ja vor
allem meine Kollegin die Jasmin Klofta

sitzt in der ersten Reihe, ja Dankeschön.

<i>Applaus</i>

Herald: So, wir haben noch ein wenig Zeit
für Fragen.

Wer eine Frage hat, bewegt sich bitte zu

bitte zu einem der Mikrofone. So, ich sehe
Bewegung. Aber ein paar flüchten erstmal.

War vielleicht doch nicht ganz so einfach
für die Nichtdeutschsprachigen., aber sehr

spannend. Dahinten haben wir
eine Frage an Mikrofon 6 bitte.

Mikrofon 6: Hallo, angenommen die Person,
über die man die öffentlichen Daten

sammelt, ist nicht im Pool von den
anonymisierten Daten. Dann gibts ja eine

Möglichkeit für einen False-Positive.
Oder kann man das ausschließen?

A: Ja, natürlich gibt es auch die
Möglichkeit von einem False-Positive. Das

das hängt natürlich immer ein bisschen von
der Nutzung der Daten ab, ob das

problematisch ist oder nicht für den
Anbieter. Es kann ja auch sein, wenn ich

Bspw. Nutzern Werbung anzeigen möchte, es
vielleicht auch gut genug ist, wenn ich

den Nutzer mit einer Wahrscheinlichkeit
von 10% schon identifiziere.

D.h. ich kann auch mit False-Positives

oder der Anbieter kann auch mit

False-Positives entsprechend leben.

Aber es ist natürlich immer die

Möglichkeit gegeben, das der Nutzer,

wenn er nicht in dem Datensatz vorhanden

ist, auch entsprechend identifiziert wird,

obwohl gar nicht drin ist. Und das kann
natürlich für den Nutzer selber zu großen

Problemen führen. Wenn ich da Bspw. an
Credit-Scoring denke,

über Machinelearning,

wo ich also vielleicht mit jemandem in
Verbindung gebracht werde, der ich gar

nicht bin und Datenpunkte, die ich nicht
kontrollieren kann, entsprechend meine

Kreditwürdigkeit dann beeinflussen kann.

Herald: Gut, an Mikro 3 bitte.

Mikrofon 3: Meine persönliche Frage ist,
was genau kostet das? Also kann sich eine

kleinere, mittelgroße, Privatdetektei die
auf Datenschutz scheißt, können die sich

Zugang holen?

S: Ja, weiß nicht was die für ein Budget
haben aber diese Daten werden lizensiert.

I.d.R. zahlt man für die Lizenz so für
einen Monat und im Jahr ist das so

im 6-stelligen Bereich.

Mirofon 2: 
Sie hatten von den 10 Schlimmsten

gesprochen, aber die Liste vergessen.

<i>Lachen</i>
<i>Applaus</i>

A: Den 10 Schlimmsten, ach so, ja.

<i>Applaus</i>
S: <i>lachen</i> genau

A: Also wir haben auch lange überlegt ob
wir die Extensions entsprechend

veröffentlichen können, wir haben
allerdings noch keine Zeit gehabt jetzt

eine detaillierte Analyse zu machen. Und
ich möchte keine Namen jetzt nennen von

Dingen, wo sich am Ende herausstellt, dass
es eigentlich gar nicht problematisch ist.

Wir werden auf jeden Fall dran
bleiben und versuchen alle von diesen

Extension, die in dem Datensatz drin sind
zu identifizieren. Aber wir wollen

natürlich eine Gewissheit haben, dass auch
entsprechend wir die korrekten Extensions

rausfiltern können, bevor wir
die Namen dann veröffentlichen.

<i>Applaus</i>

Herald: So, wir haben auch Fragen aus dem
Internet. Eine mal dazwischen.

Signal Engel: Also ich nehme jetzt mal ein
paar Fragen aus dem Internet zusammen.

Im wesentlichen lässt sich das
runterdampfen auf: Gibt es irgendwelche

technischen, juristischen oder sonstwie
gearteten Mittel um sich davor zu

schützen, oder dagegen vorzugehen? Oder
wurde da schon versucht da z.B. zu klagen?

A: Möchtest du das beantworten?

S: Ja, also einen Teil kann ich
beantworten. Also jetzt von unseren

Betroffenen hat da noch niemand geklagt.
So technisch gibt es natürlich

Möglichkeiten sich zu schützen.
Zumindest ein gutes Stück weit.

A: Ja, es gibt für den Nutzer natürlich
bedingte Möglichkeiten sich zu schützen.

Das Problem ist ja, das viele Nutzer das
Problem gar nicht kennen oder nicht sich

bewusst sind, dass ihre Daten entsprechend
gesammelt werden. Da ist also im

Zweifelsfall die Verantwortung bei den
Browser-Herstellern und wir sind auch ein

bisschen enttäuscht darüber, dass
Web-Of-Trust wieder in dem Chrome-Store

drin ist und auch weiterhin fleißig Daten
sammelt. Und auch die entsprechenden

Extensions, die schon vorher installiert

wurden, auch nicht entfernt wurden in dem

Sinne. D.h. im Zweifelsfalle ist wirklich

der Hersteller des Browsers am besten in

der Lage, den Nutzer vor solcher
Schadsoftware zu schützen, indem er ein

korrektes Auditing von den Extensions
durchführt, bevor sie in dem Store landen

und auch entsprechende Extensions,

die gegen diese Bedingungen verstoßen

schnell wieder entfernt.

S: Und es macht auch Sinn sich mal
verschiedene Browser, Browseranbieter

anzuschauen, weil es gibt ja auch neben
den Großen Kleinere, die noch mal mehr Wert

legen eben darauf, dass man z.B. gar
keine Plugins installieren kann.

Herald: An Nummer 5 bitte.

Mikrofon 5: Gibt es die Möglichkeit, dass
ihr die Liste, die ihr für eure Recherche

erstellt habt, von Unternehmen die Daten
verkaufen, veröffentlicht. Quasi als

not-to-work-for-Liste. Ich mein unsereins
baut ja im Zweifelsfall irgendwelchen

Scheiß, also liegt es
auch an uns es zu lassen.

<i>Applaus</i>

S: Ja, es fehlt natürlich ein Name, hier
in diesem ganzen Vortrag. Der Name des

Datenhändlers oder auch tatsächlich die

Namen der Firmen mit denen ich auch ein

bisschen ernsthafter ins Geschäft 
gekommen bin.

Das sind eigentlich juristische

Gründe, warum wir das nicht 
veröffentlichen können oder dürfen.

Einfach, ehrlich gesagt aus Furcht vor

diesen Unternehmen, aus sozusagen 
Angst vor Klagen, die da kommen können.

Und deshalb sieht es
zumindest im Moment so aus, als dürften

wir die Namen nicht veröffentlichen. Aber
das ist noch work-in-progress sage ich mal.

<i>Zwischenruf</i>

Wikiwleaks

<i>Lachen</i>

<i>Applaus</i>

Engel: Mikro 1

Mikrofon 1: So einer der Klassiker ist ja
JavaScript aus und Cockies aus und nur für

irgendwie bestimmte Seiten, denen man
vertraut, zulassen. Jetzt sagen Sie aber

auch... Aber wie weit würden Sie denn
kommen, wenn man jetzt wirklich sowas

wegnimmt und nur über ip-basierte Daten
und sowas, wie weit würde man da mit der

Deanonymisierung kommen?

A: Also meines Wissens setzen viele
Anbieter bereits Verfahren ein die

eigentlich nicht mehr auf Cockies
basieren, also nur noch, wenn diese

verfügbar sind und die statt dessen auf
anderen Identifikationsmerkmalen basieren

die entsprechend schwerer zu ändern sind.
Bspw: der IP-Adresse, der Device-ID oder

anderen IDs, die entsprechend fix sind und
getrackt werden können über die Zeit.

D.h. ist relativ einfach zumindest mit
einer hohen Wahrscheinlichkeit möglich

Nutzer über verschiedene Endgeräte zu
identifizieren. Und ich kann mich

natürlich über das Client-Seitige
Browser-Tracking schützen, aber das heißt

nicht, dass ich mich gegen diese anderen
Tracking-Maßnahmen auch schützen kann.

Engel: Mikro 6.

Mikrofon 6: Zur Deanonymisierung. Ist es
möglich, so Deanonymisierung, stark zu

erschweren oder zu verhindern durch so
Methoden wie Differential Privacy?

A: Ja, dass ist in bestimmten Kontexten
anwendbar. Hier bei den Daten ist das

Problem, dass ich selbst als Nutzer
eigentlich nicht kontrolliere, was ich von

mir generiere, weil die Daten entweder
unbewusst oder ohne meine Zustimmung

erhoben werden. D.h. das einzige was ich
tun kann als Nutzer ist zusätzlich

Datenenpunkte zu liefern, ich habe aber
keine Möglichkeit Datenpunkte zu fälschen

oder nur in sehr geringem Umfang zumindest
oder auch Datenpunkte wieder zu entfernen.

D.h. in dem Sinne wäre das vermutlich eher
weniger angebracht aber klar im

Zweifelsfall ist es immer besser möglichst
wenige Informationen rauszugeben.

Obwohl eigentlich schon ausreicht wenige

kleine Informationsschnipsel zu haben, 
die man dann relativ schnell auch

zusammen fügen kann, wie wir gesehen 
haben.

D.h. es ist auch wirklich schwer 
abzuschätzen und

hängt auch immer sehr stark von der Natur

des Datensatzes ab, wie verräterisch
einzelne Datenpunkte von mir sein können.

Engel: Mikro 5.

Mikrofon 5: Ich würde gerne ein bisschen
eine naive Frage stellen. Wieso ist das

eigentlich quasi möglich oder erlaubt,
also die juristische Frage. Und auf der

anderen Seite, scheint mir doch ein
gewisses Gefälle zu sein zu dem, was auf

der einen Seite gemacht wird und sie die
jetzt Sorge haben, diese Namen zu nennen,

auf der anderen Seite, da scheint es mir
ein gewisses juristisches Gefälle

zu geben, das ich gerne verstehen würde.

<i>Applaus</i>

S: Sehr gute Frage, vielen Dank dafür. Wir
haben tatsächlich diesen juristischen

Aspekt für diesen Vortrag ein Stück weit
ausgeklammert.

Und der ist aber trotzdem hochspannend.

Und wir haben viele Gespräche mit 
Datenschützern darüber geführt,

mit Juristen darüber geführt und haben
tatsächlich auch Paragraphen gewälzt weil

uns genauso diese Frage beschäftigt hat,
kann das überhaupt erlaubt sein. Also

zumindest was man für Deutschland sagen
kann, das ist nicht erlaubt. Und zwar ganz

einfach aus dem Grund, weil keiner der
Nutzer irgendwo dazu zugestimmt hat. Also

keiner der Nutzer hat, die wir besucht
haben, hat irgendwo irgendwas angeklickt:

„Ja ich möchte bitte, dass meine Daten in
diesem Umfang...“ Keiner. Und das kann

sogar nach Aussage vom Datenschützer
eventuell strafrechtlich relevant sein,

also sprich in Richtung Abhören gehen.
Bislang hat sich noch niemand berufen

gefühlt, da tatsächlich Klage oder Anklage
zu führen. Was wir jetzt sozusagen machen

trägt ja vielleicht dazu bei, dass es mal
eine Eingabe gibt beim Datenschützer und

dass tatsächlich sich auch
mal jemand dahinter klemmt.

A: Gerade bei Ausländischen Unternehmen
ist es natürlich immer sehr schwierig

auch entsprechend eine Handhabe zu
bekommen, um die auch juristisch belangen

zu können. D.h. da ist auch nochmal
sicherlich ein Gefälle vorhanden und auch

die Strafen, die Unternehmen im
Zweifelsfall drohen, sind im Vergleich zu

dem Schaden, der oder zu dem Risiko, das
Jemand eingeht, indem er diese Dinge

veröffentlicht, eigentlich relativ gering.
Weswegen es auch relativ wenig zu solchen

Dingen kommt, denken wir.

Engel: Gut, ich denke wir haben
noch Zeit für zwei Fragen.

Wir haben noch eine
aus dem Internet.

Signal Engel: Das Internet lässt fragen,
in wie fern man sein eigenen

Informationen, sofern sie auftauchen, von
euch bekommen kann oder auch nicht.

A: Uh... schwierige Frage.

<i>Applaus</i>

S: Das ist recht einfach die Antwort. Gar
nicht. Die Daten gibts nicht mehr. Sorry.

<i>Applaus</i>

Herald: 
Kommen wir zu unserer letzten Frage.

Mikrofon: Ja, also, Hallo, hört man das?
Ok. Ich bin dann immer ein Freund von

Selbstverteidigung und so wie sie sagten,
aber die Frage ist, ist das überhaupt

möglich? Also ich würde sagen, dass Thema
ist so komplex, dass sich wahrscheinlich

die meisten, die hier sind, nur dann
schützen können, wenn sie wirklich viel

Zeit reinstecken in diese Arbeit. Und ich
frage mich: meine Mutter, mein Vater, mein

Onkel, wie sollen die
sich vor sowas schützen?

A: Willst du oder soll ich?
S: Ja, mach ruhig.

A: Ja, das ist das Problem, dass ich auch
eben kurz angesprochen habe. Und zwar,

dass viele Nutzer auch gar nicht wissen,
dass sie getrackt werden und auch nicht

die technischen Kenntnisse haben, um sich
effektiv gegen sowas zu schützen. Wir

haben ja gesehen, obwohl die Leser von
Fefes-Blog eher technik-affin sind, gibts

immer noch 3.000 Nutzer, die in dem
Datensatz auftauchen, die also auch

getrackt wurden in dem Sinne. D.h. dass
selbst Leute mit IT-Kenntnissen und

IT-Sicherheitserfahrung sind nicht dagegen
gefeit auch entsprechend getrackt zu

werden. Weil es auch unglaublich schwierig
ist, auch für mich, sämtliche Methoden

nachzuvollziehen und immer auf dem
aktuellen Stand zu sein. Und es ist auch

sehr schwer abschätzbar, was man mit den
Daten eigentlich machen kann. Also es

stimmt wirklich, ja, es ist wirklich, es
gibt keine gute Lösung momentan dafür.

Herald: So es gibt zwar noch weitere
Fragen aber die Zeit ist leider vorbei.

Wer noch fragen an die Beiden hat, kann
hier gleich einfach kurz nach vorne

kommen. Erstmal möchte ich mich aber
herzlich bei euch beiden für diesen

spannenden und interessanten
Vortrag bedanken.

<i>Applaus</i>

<i>Abspannmusik</i>

Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!