35C3 Vorspannmusik
Herald-Engel: Ja es ist mir eine riesige
Freude, heute hier auf dem 35C3 einen Talk
mit dem Titel "Archäologische Studien im
Datenmüll" vorzustellen. Er wird gehalten
von Katharina Nocun - sie ist Bloggerin,
Autorin, aber eigentlich kennt man sie
auch als Datenschutzaktivistin - und der
wunderbaren Letty. Also einen warmen
Applaus und viel Spaß bei diesem
spannenden Thema.
Applaus
Letty: Ja danke, Pupe. Es ist schön, dass
sich alle Haralde zum Horst machen mit dem
Französisch. Wir würden zu Beginn mal 'ne
Frage stellen - zwei Fragen stellen und
zwar die erste ist: Wie viel Personen
haben hier die Weihnachtsgeschenke bei
Amazon gekauft?
Katharina Nocun: Hola! Lachen
L: Ups! Lachen Okay ich würde mal grob
sagen die Hälfte. Lasst mal bitte eure
Arme oben, denn es geht weiter: Wer von
euch hat nur die Recherche bei Amazon
gemacht und danach woanders gekauft?
Kommen da noch welche hinzu? Ne, die die
gekauft haben bitte oben lassen, das wär
super. Okay es sieht so - okay wer nicht
bei Amazon kauft, recherchiert auch nicht
scheinbar. Okay. Oder es gab wenige, die
dazugekommen sind.
K: Also ich würd sagen das ist deutlich
mehr als 50 %.
L: Ja? Man sieht das nicht.
K: Ja, aber diejenigen, die eben
aufgezeigt haben, die werden mir sicher
zustimmen, wenn ich sage, das ist ziemlich
bequem, wenn nicht sogar verdammt bequem,
alles bei einem Anbieter zu suchen oder
auch bestellen zu können. Und man stellt
sich das in der Theorie ja auch so sehr
komfortabel vor. Ich weiß nicht, wer bei
DHL die Entscheidung getroffen hat, auf
Formel 1-Autos Werbung zu schalten. Ich
finde der Mensch hat aber sehr viel Humor.
Lachen
K: Denn in der Realität sieht es ja ein
bisschen anders aus, ne? Also so richtig gut
bezahlte Fahrer und schnelle Lieferung,
die gibt's in der Praxis eher selten und
bei Amazon würde ich sagen gar nicht. Und
der ein oder andere kennt's vielleicht,
dass da ein Paket abgegeben wurde oder
zugestellt wurde, ist noch kein - ist noch
lange keine Garantie dafür, dass es
wirklich da ist, wo man's hin haben will.
Also hier so ein Best of für alle, die es
noch nicht gelesen haben auf der Folie -
gesehen beim Tagesspiegel - Zitat: "Habe
das Paket im Müll versteckt - im blauen
Papiercontainer".
L: What could possibly go wrong?
K: Ja und da kommt ja richtig Freude auf
wenn man das liest und man denkt sich: "Ja
wie können wir dieses Problem lösen?"
Natürlich hat Amazon da ein Produkt für -
zumindest für seine US-Kunden. In den USA
kann man sich als Prime-Kunde entscheiden,
ich nutze jetzt Amazon Key. Amazon Key -
ähm ja - kontrolliert dann quasi - ist ein
intelligentes Schließsystem für die
Haustür, gibts auch fürs Auto, und dann
kann man beispielsweise sagen, ja also dem
Amazon Paketdienst dem vertraue ich
grundsätzlich - der kann die Pakete auch
innerhalb meines Hausflurs abstellen und
der kann auch die Tür aufschließen.
Passend dazu gibt's auch ein
Videoüberwachungssystem, wo man dann
kontrollieren kann beispielsweise wann die
Kinder betrunken nachts nach Hause kommen.
Und ich weiß nicht wie es euch geht, aber
ich finde das verdammt creepy. Ich würde
das niemals machen, denn ich denke mir, na
ja ich will mir genau überlegen, wem ich
Einblick in meine Wohnung geben will. Aber
als Datenschützerin habe ich mich gefragt,
ist nicht der Einblick den Amazon in unser
Leben bekommt durch unser Klickverhalten
nicht viel intimer, als so ein harmloser
Blick in den Hausflur? Weil wer bei mir in
die Wohnung guckt, der weiß vielleicht wie
ich lebe, ja? Aber wer mein
Onlineverhalten kennt - wer weiß, wann ich
wo wie klicke, der kann sich vielleicht
denken, wie ich denke - und das ist viel
intimer. Ich hab mich daher im letzten
Jahr oder vorletzten Jahr, genauer gesagt
im Jahr 2016, dazu entschieden, ein
Experiment zu machen: Ich wollte wissen,
was speichert Amazon eigentlich über seine
Nutzer und im Zuge dessen habe ich dann
auch angefangen alle meine
Weihnachtsgeschenke und sonstigen
Geschenke bei Amazon zu bestellen und auch
alles dort zu recherchieren, um einen
möglichst fetten Datensatz zu generieren.
Und mein Ziel war natürlich von Anfang an:
Ich möchte an diese Daten ran. Ich möchte
sie sezieren. Ich möchte Sie sehen. Ich
möchte wissen was genau Amazon über seine
Kunden speichert. Denn ich weiß nicht ob
ihr es wusstet, aber nach Artikel 15 der
Datenschutz-Grundverordnung hat jeder
Nutzer in ganz Europa das Recht jederzeit
zu seinem Anbieter zu gehen und zu sagen:
"Hey ich möchte eine kostenlose Kopie
meiner Daten haben" und der Anbieter muss
dann liefern. In der Praxis macht das aber
kaum jemand. Und bei Amazon hat das soweit
ich wusste noch nie jemand so richtig
durchgezogen, dass da was Verwertbares
rausgekommen ist. Also habe ich mich
entschlossen, ich gehe auf die
Datenpirsch. Was hab ich also gemacht? Ich
habe ganz viel eingekauft. Was hab ich
denn eingekauft? Ich hab fast 60 Bücher
innerhalb von 14 Monaten gekauft und falls
ihr euch jetzt fragt - ja ich hab
tatsächlich mittlerweile mindestens 50
Prozent davon auch gelesen. Ich habe...
Applaus
K: ...Ich hab außerdem aber auch so
praktische Sachen bestellt wie
beispielsweise Sprühkreide für eine
Protestaktion und eine Button-Maschine. In
meinem Kaufprofil hat sich dann aber auch
so komischer Kram angesammelt, wie
beispielsweise das
Lavendeleinschlafkissenspray. Der eine
oder andere kennt es vielleicht aus dem
Radisson Blu am CCH. Was leider nicht auf
dem Bild zu sehen ist, ist der
Hometrainer, den ich mir gekauft habe. Der
war so erfolgreich, dass ich ihn nach drei
Monaten wieder weiterverkauft hab. Ich
habe mir aber auch sinnvolle Sachen
gekauft, wie beispielsweise 'ne Maus,
einen Ordner oder auch Schnürsenkel und
bin auch durch Amazon Besitzerin der
schönsten Hausschuhe auf diesem Planeten.
Im August 2017 habe ich mir dann gedacht,
so jetzt ist der Datensatz schön fett
angefüttert mit Klicks und Käufen. Jetzt
frage ich mal meine Daten ab. Und das war
leider - muss ich sagen - der Beginn einer
langen und intensiven Brieffreundschaft
mit der Datenschutzabteilung. Und zunächst
habe ich nicht das bekommen, was ich haben
wollte. Ich habe dann aber immer weiter
nachgefragt und irgendwann haben sie
angefangen mir CD-ROMs zuzuschicken.
Lachen
K: Ja, musst' ich erstmal im Keller
gucken, wie man denn so antike Datenträger
auslesen kann und auf der ersten CD fand
sich leider auch nur das, was ich erwartet
hatte: Eine Kopie meiner Profildaten, die
auch online einsehbar sind, plus ein paar
Zusatzinformationen - also nicht das was
ich eigentlich wollte. Ich hab dann weiter
Stress gemacht, habe dann irgendwann 'ne
zweite CD-ROM zugeschickt bekommen.
Eigentlich habe ich drei zugeschickt
bekommen - die andere ist in der Post
verschwunden.
L: In der Mülltonne.
K: Wahrscheinlich. Ja und dann habe ich
auf dieser letzten CD mal geguckt was ist
denn da drauf? Und da waren so Sachen drauf
wie ein PDF, wo ich sehen konnte, was für
Suchanfragen ich getätigt habe. Ich konnte
sehen, auf welche Werbe-E-Mails ich wann
reagiert hab - auf die Sekunde genau. Und
ich konnte sehen, auf welche Werbeanzeigen
ich reagiert habe. Das Interessante war
allerdings so eine Excel-Tabelle und diese
Excel-Tabelle trug den unschuldigen Namen
"Clickstream". Die habe ich mal aufgemacht
und das hat erst mal eine ganze Zeit lang
zum Laden gebraucht. Und irgendwann habe
ich dann gesehen - okay diese Excel-
Tabelle hat 15.365 Zeilen und jede Zeile
hat bis zu 50 Zusatzangaben, also 50
Spalten. Ich war gestern mal im
Supermarkt, um das zu visualisieren. So
viel Papier wär das, wenn das ausgedruckt
wär. Mein eigentliches Ziel war es, auf
einen Stapel zu packen das wäre dann
größer als ich mit meinen 1,70m.
Allerdings haben wir das aus
Sicherheitsgründen sein lassen, denn das
wäre zusammengekracht.
L: Ja und als Katha mich gefragt hat, ob
ich ihre Daten auswerten will, dachte ich
als Erstes an meine Datenbankenvorlesung -
so Beziehung zwischen Kunden und
Lieferanten und was kauft man. Aber der
Clickstream von Amazon sind nicht nur die
Käufe. Denn eigentlich wird alles
abgespeichert, was wir mit der Seite
machen. Es ist egal ob wir nur auf die
Startseite gehen, ob wir Produkte suchen
oder ob wir uns ein Produkt genau
anschauen. Es wird sogar gespeichert, wenn
wir uns ein Bild vergrößern und natürlich
auch jede Interaktion, die wir haben, wenn
wir auf unserem Nutzerkonto sind. Und weil
wir hier ja einen Foundationstalk machen,
habe ich mir gedacht, ich will euch auch
ein bisschen mitnehmen in die Reise in die
Daten, die unbekannt sind und wie man
eigentlich mit so einem unbekannten
Datensatz vorgehen kann, ihn explorativ
analysieren kann, um zu wissen, was steckt
überhaupt in diesen Daten drin? Was kann
man vielleicht mit den Daten sehen? Also
wie schon gesagt, wir haben 50 Spalten
oder auch Dimensionen genannt, und da ich
die nicht alle hier auflisten kann, habe
ich versucht, 'ne grobe Zuordnung zu
Gruppen zu finden. Wir haben als erstes
natürlich 'ne Zeitangabe, ganz klar. Wir
haben Account-Details, sowas wie seid ihr
Prime-Kunde oder Business-Kunde, und 'nen
Ortsbezug. Amazon speichert die IP-Adresse
nicht vollständig - der letzte Block ist
weggestrichen. Aber was sie außerdem
speichern ist, in welchem Land, in welchem
Bundesland und welcher Internet-Service-
Provider, also der Internetanbieter, den
ihr da genutzt habt, um die Seite zu
besuchen. Außerdem wird natürlich die URL
gespeichert, die ihr da besucht habt und
wenn es auch noch ein Produkt ist, wird
dazu die Produkt-ID auch abgespeichert.
Achso, hm, oh jetzt habe ich die
Sessiondetails vergessen. Ja, die Session-
Details sind so alles, was so im Cookie
auch landet, damit man einfach sieht in
welcher Session man sich gerade befindet.
Und es gibt noch eine ID, die euch über
alle Dienste von Amazon hinweg
identifizieren kann. Und bei den
Navigationsdetails ist es eigentlich schon
ein bisschen klar, wo es hingeht. Amazon
sieht, von wo ihr kommt, wo ihr gerade
seid und wo geht ihr dann hin. Dieser
gesamte Verlauf wird einmal abgespeichert
- und nicht nur der Verlauf, sondern auch
was habt ihr da gemacht, welche
Interaktionen habt ihr gemacht, habt ihr
etwas in den Warenkorb hinzugefügt, habt
ihr euch ein Bild angeschaut oder habt ihr
etwas für später gespeichert? Als letztes
kann man so einen Block sehen, das heißt
Amazoninterna. Wir sehen, an welchen Web-
Server die Anfrage gestellt wurde und ob
die Anfrage eine interne IP-Adresse bei
Amazon hat. Ihr bekommt von Amazon
außerdem eine lange Liste mit all diesen
Dimensionen und die Erläuterung dazu, was
sich dahinter verbirgt. Manchmal speichert
Amazon aber nicht den Klartext, sondern
codiert etwas was z.B. wie: Null bedeutet,
ihr habt was in den Warenkorb gelegt.
Denkt man erst mal: Super hat man nicht so
viel zu parsen. Dann hab ich aber
festgestellt, als ich mir die Daten
genauer angeschaut habe, so Amazon erzählt
aber nicht, was sie alles codiert oder was
sie codieren. Manche Felder sind uns
schlicht unbekannt.
K: Ja, sagen wir mal so: Die
Brieffreundschaft dauert noch an.
L: Ich hoffe auch, wir werden darauf noch
nochmal Antwort bekommen. Wenn wir jetzt
also den Datensatz mit den 50 Spalten
vorstellen, haben wir irgendwie über
15.000 Einträge. Ich hab mal 2
herausgenommen, um einfach nur
exemplarisch zu zeigen, wie sind die
überhaupt aufgebaut. Also wir haben Datum,
wir haben 'ne Aktion, die wir machen,
sowas wie 'gesucht' oder 'gekauft', und dann
haben wir dazu die URL, aus welchem
Bundesland vielleicht das Ganze abgesetzt
wurde, welcher Internet-Provider da
dahinter steckt und wie lang die Ladezeit
war. Das haben wir natürlich nicht nur für
diese 2 Einträge, sondern wie gesagt für
über 15.000. Welchen Zeitraum betrachten
wir hier eigentlich in den Daten? Es geht
los am 1. August 2016 und es endet am
31. August 2017. Das sind dann etwa 196 Tage,
die mit Interaktionen behaftet sind und
das wären dann sozusagen 78 Einträge pro
Tag. Wenn ich mit so 'nem unbekannten
Datensatz arbeite, dann arbeite ich
eigentlich immer mit Python und dem Pandas
Package, was sich so für Datenanalyse
einfach als Standard durchgesetzt hat. Und
egal was mir Amazon sagt, was in den Daten
sind, ich schaue mir die Dimensionen immer
nochmal ganz genau an. Das heißt welche
Dimension habe ich und wie häufig wurde
sie benutzt? Es gibt extrem viele, die
immer benutzt werden - sowas wie Datum und
Uhrzeit. Die Angabe gibt es immer, aber es
gibt auch Dimensionen, die einfach nicht
so häufig genutzt werden, und wir haben
auch eine Dimension bekommen, die wurde
nie genutzt - irgendwas über Bilder. Keine
Ahnung was da drin ist. Ich hab mir dann
jede Dimension wirklich einzeln angeguckt,
was da drin steht und wie häufig das
passiert. Und bin über die Zeit gestoßen,
die wirklich eine sekundengenaue Angabe
sein soll, was man auf Amazon macht. Und
ich weiß nicht, wie man es hinbekommt, in
einer Sekunde irgendwie 45 Einträge zu
generieren, aber ich dachte mir, okay, ich
nehme erst mal noch eine andere Spalte und
schaue mal was da noch drin steht ist -
vielleicht ist das ja ein Ausreißer oder
es sind mehrere Ausreißer - weiß man ja
nicht. Dann hab ich mir so einen Tag
genauer angeguckt. Also man kann auch die
Zeitangabe nur für einen Tag nehmen. Das
ist irgendwie so eine relative
Gleichverteilung. Und dann hat man da so 3
Ausreißer - die sind irgendwie wahnsinnig
verdächtig, weil die stark abweichen von
den anderen und es gibt sogar einen der
irgendwie 710 Einträge beinhaltet aber ich
weiß ja nicht, wie intensiv Katha Amazon
genutzt hat in der Zeit von morgens bis
abends - auf jeden Fall sportlich. Dann
habe ich mir den Tag aber wirklich mal
ganz genau angeschaut. Wir haben 710
Einträge. Dann hab ich mal geguckt, was
ist denn für eine Zeitspanne die wir
haben? 20 Minuten und 35 Sekunden. Das
heißt für einen Eintrag würde Katha 1,74
Sekunden brauchen. Das Ganze würde dann
wahrscheinlich so aussehen.
Lachen
K: Ja und wenn ich das schaffe, spätestens
an der Stelle sollte ich meine Karriere
als Progamer überdenken.
L: Ja. Ich bin daraufhin nochmal genauer
in die Daten eingestiegen und Pandas hat
so 'nen value_counts, was das Histogramm
sozusagen darstellen würde -
Häufigkeitsverteilung und die Funktion und
ich wir sind jetzt richtig dicke auf jeden
Fall. Ich hab mir die wirklich komplett
nochmal angeschaut. Wo kommt das her? Mir
ist aufgefallen, dass diese Aktion nicht
immer definiert ist, die wird nur so 4.600
Mal überhaupt angegeben. Wo ich mir
dachte, okay, 'ne Interaktion - naja
vielleicht kann man's nicht immer
klassifizieren und dann sind mir zwei
andere Sachen noch aufgefallen: request
und lazy-load. Die zwei Sachen finde ich,
hören sich nicht wie eine Interaktion an.
Und da ich Webentwicklerin halt auch bin,
war mir so hm okay vielleicht wird da noch
etwas anderes in den Daten stecken. Und
hab mir daraufhin die URLs mal genauer
angeschaut, die in den Daten stecken und
spätestens bei Ajax, was 'ne
Webtechnologie ist, sagt mir mh
Nutzerinteraktion? Schauen wir mal in den
Browser. Wie gesagt, ich bin
Webentwicklerin, und so'n Browser verrät
'ne Menge über eine Webseite, wenn Fehler
drin sind oder was für einen Traffic im
Netzwerkverkehr - äh im Netzwerk
stattfindet. Und das hab ich auch mal für
Amazon gemacht und hab mir mal ein Spiel
einfach ausgesucht und hab geguckt was
wird eigentlich so alles geladen, während
man auf der Seite ist. Und ja, jede
Webseite lädt eine Menge Sachen nach. Und
als es dann irgendwann mal fertig geladen
hat, dachte mir okay, und jetzt suche ich
in dieser Auflistung nach den URLs, die
ich nicht zuordnen konnte. Und siehe da,
es sind wirklich Sachen die einfach
nachgeladen werden. So etwas wie ein Prime
Button oder Bilder und Rezensionen, was
für mich jetzt per se keine
Nutzerinteraktion ist. Aber es landet
komplett in dem Clickstream drin. Wenn wir
also die realen Nutzerinteraktionen suchen
von den über 15.000 Einträgen, dann hab
ich eine Annahme getroffen: Eine
Nutzerinteraktion muss die Page Action
angegeben haben, ansonsten ist es keine.
So selektieren wir die erst mal als
Erstes. Dann möchte ich auch nicht, dass
es ein request ist, weil das sieht auch
aus wie keine Interaktion und es darf auch
kein lazy-load sein. Wenn wir diesen
gesamten Wust nehmen und einfach mal aus
den Daten rauswerfen, dann haben wir 75 %
der Daten einfach mal weggeworfen haben
nur noch 3.747 Einträge übrig, die reale
oder die ich als Annahme als reale
Nutzerinteraktion sehe. Ich weiß nicht,
wie viele von euch auf GitHub unterwegs
sind, aber ich liebe den Graph, der so ein
bisschen die Aktivität zeigt, die man auf
GitHub hat. Das Gleiche könnte man auch
für Amazon machen. Und ich weiß nicht, ob
ich darüber so glücklich wäre bei mir.
Jedenfalls steht jedes Kästchen für eine
Interaktion und die extrem dunklen lilanen
Kästchen zeigen bis zu 180 Interaktionen,
die man mal am Tag getätigt hat
K: Beispielsweise vor Weihnachten.
L: Genau - sieht man besonders gut. Aber
das heißt ja auch noch nicht, dass jede
Interaktion wirklich zu einem Kauf
überleitet. Und ich hab mal versucht
herauszufinden, wie Amazon überhaupt
klassifiziert, ob man etwas kauft. Und ich
dachte mir, hey, Page Action, du bist ja
eine gute Idee anzugucken und Amazon wird
doch mit Sicherheit ordentliche, gepflegte
Daten haben und sowas wie ein "Order" drin
stehen haben oder 'nen "Purchase" - nix
da. Amazon hat aus irgendwelchen Gründen
'ne Horde an Einträgen, die man per Hand
herausfinden muss aus seinem Datensatz.
Damit man überhaupt eine Idee davon
bekommt, welche Interaktionen sind
wirklich Käufe und welche nicht. Ich habe
auch nicht herausgefunden ob's hinter
dieser Nummerierung von "PlaceOrder"
irgendeinen Zusammenhang gibt, wann die
auftreten, das ist nicht aus dem Datensatz
ersichtlich gewesen. Wenn wir also mal die
Interaktion mit den Käufen vergleichen -
leider sind die Kästchen ein bisschen hell
- von den 196 Tagen, an denen man
interagiert hat, hat man am Ende nur an 24
Tagen gekauft. Also ist ein viel, viel
geringerer Teil. Aber man sieht den
Dezember - da hat Katha auf jeden Fall
viermal hintereinander gekauft. Und in
ihren Daten habe ich außerdem gesehen,
dass sie extrem interessiert an Büchern
ist und im Dezember einfach mal 32 Bücher
an 4 Tagen gekauft hat.
Lachen
L: Wir lassen das Thema mit den
Interaktionen und Käufen jetzt mal hinter
uns und begeben uns auf die Orte, in denen
Katha war, als sie auf Amazon
herumgebrowst ist. Als Erstes ist mir
aufgefallen, in Berlin ist sie am
häufigsten im Internet auf Amazon. Okay,
vielleicht wohnt sie da. Dann hat man
irgendwie Brandenburg und Schleswig-
Holstein noch ziemlich häufig. Weiß ich
nicht, was der Bezug dazu ist, und dann
weniger häufig aber auch existent
Nordrhein-Westfalen und Niedersachsen.
K: Ja, ich lös mal auf. Ich wohne in
Berlin, das ist richtig, und um aus Berlin
rauszukommen muss man grundsätzlich erstmal
immer durch Brandenburg durch. In der
Zeit, in der ich diesen Versuch gemacht
habe, bin ich beruflich nach Schleswig-
Holstein gependelt. Das heißt man konnte
in dem Datensatz recht gut sehen, an
welchen Tagen ich wo gearbeitet habe. In
Nordrhein-Westfalen lebt meine Familie und
immer wenn ich nach Nordrhein-Westfalen
gefahren bin, bin ich auch durch
Niedersachsen durchgefahren. Was mich so
ein bisschen überrascht hat war, dass ich
an dem Datensatz schon vermuten konnte,
wann ich meine Eltern besucht habe. Und
das war dann doch ein bisschen creepy.
L: Das ist einfach nur die Spalte, die man
anschauen kann, wenn es um die
Bundesländer geht.
K: Ah ja, und genau. Woher weiß Amazon,
dass in NRW meine Eltern wohnen? Ganz
einfach: kurz vor Weihnachten ratet mal wo
ich meine Pakete hingeschickt hab, ne,
weil ich auf den letzten Drücker gekauft
habe. Und das sind solche kleinen
Verbindungen, wo man wirklich sagen kann
man: naja, wenn ich mehrere Datensätze als
Amazon habe, kann ich da total einfach
auch sehr private Details rausfinden.
L: Genau. Als Nächstes habe ich mir im
Vorfeld die Internet Service Provider mal
genauer angeschaut und da ist mir eins
aufgefallen: einige verraten, wo sie sind.
So weiß ich zum Beispiel, dass Katha im
Freifunk in Hamburg unterwegs war.
K: Ja, da bin ich immer umgestiegen, weil
ich nach Kiel gefahren bin.
L: Und dann hab ich da was im Februar 2017
gesehen, da war sie auf den Bahamas.
K: Nicht was ihr denkt, das war Urlaub.
Lachen
L: Und im Juli 2017 war sie in Polen.
K: Genau, das war ein Familienurlaub.
L: Es gibt da noch einen anderen
Aufenthalt, der mir aufgefallen ist. Und
ich vermute, du hast eine Beziehung zu
Universitäten oder Bibliotheken.
K: Ja, ich schreib tatsächlich am liebsten
in der Bibliothek.
L: Viele von euch werden den Verein zur
Förderung eines Deutschen Forschungsnetzes
kennen in Form von eduroam. Das ist die
Einrichtung, die in Deutschland das
Internet in Bildungs- und
Forschungseinrichtungen, Universitäten
oder Bibliotheken zur Verfügung stellt und
auch das sieht man in den Daten. Was
Amazon irgendwie scheinbar beim Internet
Service Provider macht, ist, sie erlauben
nur 50 Zeichen und da ist der Name vom DFN
definitiv zu lang für. Aber wir gucken mal
was du so in 'ner Bibliothek machst,
während du eigentlich arbeiten solltest.
Du rutschst mal kurz aus zu Amazon, so
wenige Sekunden - das kann mal passieren.
Dann kommt das schlechte Gewissen
wahrscheinlich. Dann hast du so 'ne Käufe
von oder so 'ne Aufenthalte von einer
Minute - bestimmt zielgerichtet irgendwas
gesucht und für später weggespeichert. Was
machst du 15 Minuten lang auf Amazon? Das
kann man doch schon fast Prokrastination
nennen.
K: Na, das würde ich jetzt nicht so sagen.
L: Nee, stimmt, denn wir haben noch was
Besseres: Du warst über anderthalb Stunden
auf der Seite von Amazon.
Lachen
K: Reine Recherche.
L: Was auf dieser Page Action, die ich
erwähnt habe, jetzt so häufig, für die
Nutzerinteraktion irgendwie hervorgetreten
ist, dass Amazon ab einem ganz bestimmten
Zeitpunkt versucht hat herauszufinden, ob
man den Tab gerade in den Vordergrund oder
den Hintergrund legt. Da Kathas Datensatz
jetzt nur ein begrenzter Datensatz ist,
kann ich nicht sagen, ob das Zufall ist
oder ob Amazon versucht, wirklich
kontinuierlich die Erkennung zu
verbessern, damit sie einfach wirklich
wissen, wann interagiert man mit der
Seite, wann legt man etwas in den
Hintergrund.
K: Ja und spannend fand ich in dem
Datensatz auch, dass man gar nicht so viel
technischen Sachverstand auch benötigt, um
sich ein grobes Bild davon zu machen, was
da alles drin schlummert. Ich habe
beispielsweise mal in der Spalte V geguckt
- die Spalte V steht für Referrer und das
kann man für Nicht-Techies übersetzen
ungefähr wie: "Naja woher kommst du
denn?". Das heißt, Amazon merkt sich, von
welcher Seite ich sie ansurfe und in
meinem Fall war es so, dass ich mehrere
Artikel von Spiegel Online dann mit dem
kompletten Link in meinem Clickstream
gefunden habe und das ist deshalb
interessant, weil man dann natürlich sagen
kann, so okay, welche Medien konsumiert
dieser jemand eigentlich, oder vielleicht
auch wofür interessiert er sich inhaltlich
außerhalb Amazons sonst noch? Ich habe
auch einen Link gefunden vom Telepolis von
heise online, ein Artikel in dem es um
CETA geht. CETA ist das Handelsabkommen
zwischen Kanada und der EU und das ist ein
kritischer Beitrag und da kann man sich
natürlich auch überlegen, okay, wenn
Amazon wirklich weiß, von was für
politischen Artikeln wir kommen, dann kann
man daraus natürlich auch Rückschlüsse
über das politische Mindset ziehen. In der
Tat habe ich in der Zeit eine Kampagne
gegen CETA in Schleswig-Holstein geleitet
und deshalb bin ich auch gependelt. Und
man kann gar nicht genug betonen, wie groß
der Unterschied zwischen gekauften Daten,
- äh - gekauften Produkten und geklickten
Produkten ist. Ich habe hier für diesen
Vortrag mal alles was ich in der Zeit
gekauft habe auf meinem Küchentisch
drapiert. Wenn ich aber alle Produkte, die
ich nur angesehen habe, auf ein Foto
quetschen wollen würde dann müsste ich
nicht nur meine komplette Küche
leerräumen, sondern wahrscheinlich meine
ganze Wohnung. Denn das wird sonst nicht
reinpassen. Das ist viel, viel mehr.
L: Was man in den Daten außerdem gesehen
hat ist, dass man sagen kann, dass Katha
auf jeden Fall über 500 Mal nach Begriffen
gesucht hat und auch dass sie ungefähr 450
Mal direkt auf Produkte zugegangen ist.
Man kann aber schon sagen, dass es noch
eine ganze Ecke mehr ist, weil das sind
nur die Sachen die offensichtlich waren
und wenn man nochmal per Hand wieder in
diesen Datensatz reinspringt und nach
Mustern sucht, kann man auch sehen, dass
es noch mehr Produkte sind, die man sich
angeschaut hat.
K: Ja, ich hab mich dann natürlich
gefragt, was sieht eigentlich jemand, der
mich persönlich nicht kennt, nur diesen
Datensatz sieht. Wen sieht er dann? Und
finde ich das eigentlich okay? Und ich hab
mir dann mal so einige Sachen angeschaut, die
ich angeklickt habe und mal aus
unterschiedlichen Brillen betrachtet.
Nehmen wir mal das Thema Lebensplanung.
Stellen wir mal vor jemand fragt sich,
naja, wie stellt sich Katharina Nocun ihre
Zukunft so vor, wie ist ihre
Lebensplanung? Und der guckt sich meinen
Clickstream an - was findet der da? Ich
hab mir ein Buch angeschaut, das sich mit
Pro-Argumenten fürs Kinderkriegen
auseinandersetzt. Dann habe ich mir aber
auch ein Buch angeschaut was ich mit
alternativen Partnerschaftsformen und
Polyamorie auseinandersetzt und natürlich
noch ein Buch von einer Aussteigerin, die
sagt, ich werde der Konsumgesellschaft den
Rücken kehren. Und wenn man diese 3
Produkte und noch ein paar mehr in der
Richtung zusammenlegt, wird man denken, so
okay, das ist zumindest eine
außergewöhnliche, originelle bis hin zu
exotische oder vielleicht auch schwierige
Lebensplanung, wenn man das alles unter
einen Hut bekommen will. Aber wie ist es
denn tatsächlich? Das Buch über Kinder
habe ich mir angeschaut, weil ich auf den
Autor aufmerksam geworden bin, weil ich
den Blog "Spreeblick" sehr schätze und
schlichtweg wissen wollte, naja was
schreibt der Typ denn sonst noch. Bei dem
zweiten Buch war es so, dass ich den Autor
kenne und er hat mich zur Lesung
eingeladen - da wollte ich mich vorher
schlau machen, worum geht denn eigentlich
bei der Veranstaltung? Und bei dem dritten
Buch ist es schlichtweg so, wir sind beim
selben Verlag. Ich wollte einfach gucken,
was hat der Verlag bei dem ich bin, sonst
noch in der Sachbuchsparte? Das heißt
Clickstream oder das Bild, das aus meinem
Clickstream generiert wird, und die
Person, die ich bin, sind womöglich zwei
ganz unterschiedliche Dinge. Nehmen wir
mal das Thema Gesundheit, da wird es noch
viel deutlicher. Ich hab mir Schnaps
angeguckt, dafür gibt's sogar eine eigene
Kategorie bei Amazon: Alkohol. Man könnte
ja jetzt Vermutungen anstellen, warum
interessiere ich mich für Schnaps. Naja,
vielleicht habe ich ja gesundheitliche
Probleme und möchte ein bisschen
Selbstmedikation betreiben. Ich habe mir
tatsächlich ein Buch über Arthrose
angeschaut - ne ziemlich schwere Krankheit
- und was noch viel erschreckender ist,
ich habe mir nicht nur ein, zwei, drei,
sondern sehr viele Bücher zum Thema Krebs
angeschaut. Hier exemplarisch eins mit dem
Titel "Krebs natürlich heilen". Und wenn
man diese - meinen Clickstream - so
anschauen würde, würde man ja denken,
Katharina Nocun ist ein gesundheitliches
Wrack. Aber wie sieht es denn wirklich
aus? Ich muss sagen, dieser Gin ist
wirklich gut, ich trinke ihn wirklich
gerne.
Lachen
K: Die Bücher über schwere Krankheiten
habe ich mir aber deshalb angeschaut, weil
ich eine Recherche betrieben habe. Ich
wollte wissen, wie hoch ist der Anteil an
esoterischen Quatsch-Büchern in der Amazon
Bestsellerliste beim Thema Gesundheit. Und
diese Intention sieht man aber nicht, wenn
man nur den Clickstream sieht. Ich habe
weder Krebs, noch Arthrose, noch
irgendwelche Anzeichen dafür. Interessant
wird es auch bei der politischen
Einstellung. In meinem Clickstream finden
sich unglaublich viele Bücher die sich mit
dem Thema AfD auseinandersetzen und zwar
einmal kontra AfD, aber auch Bücher von
rechten, rechtsextremen Autoren und
Verschwörungstheoretikern. Und wenn man
nur meinen Clickstream betrachtet, wird
man mich glaube ich für eine ziemlich
merkwürdige bis unsympathische Person
halten. Und man wird denken, die ist
rechts. Tatsächlich war es natürlich so,
ich setze mich kritisch mit der AfD in
meinem Blog auseinander und habe
recherchiert und da recherchiert man...
Applaus
L: Ja, die AfD kann wirklich niemand
unterstützen, das muss man hier mal echt
sagen.
K: Ja und da wollte ich mir natürlich auch
ein bisschen angucken, naja, was schreibt
denn so die rechte Ecke oder was
publizieren so ein paar Scharfmacher aus
der rechten Ecke und wie hoch ist das
eigentlich bei den Amazon Bestsellerlisten
gerankt. Und wer aber nur meinen Datensatz
sieht, der sieht das nicht - der wird mich
vielleicht für rechtsextrem halten.
Interessant werden solche Zusammenhänge,
wenn man sich überlegt, wer ein Interesse
an solchen Daten haben könnte. Denn wo
Daten sind, entstehen schnell
Begehrlichkeiten und natürlich gibt es
auch Behörden, die durchaus ein Interesse
daran haben können, solche Nutzerdaten
abzufragen und zwar alles was da ist und
wenn der Clickstream da ist, dann wird er
auch abgefragt. Und stellen wir uns mal
vor, ein Polizeibeamter kommt auf die
Idee, die Katha, die ist vielleicht cyber-
kriminell oder vielleicht ist sie auch ein
potenzieller Gefährder oder von ihr geht
eine drohende Gefahr aus. Und wir wollen
jetzt gezielt mal gucken, ob es
irgendwelche Indizien gibt, die diese
These stützt. Was sehen diese Leute? Naja,
zunächst einmal findet sich auf meiner
Liste ein sogenanntes Killerspiel. Es ist
schon mal extrem sympathisch aus, wenn man
aus Behördensicht da mal draufguckt. Dann
habe ich mir auch noch angeschaut, ein
schwarzes T-Shirt mit einem Aufdruck auf
dem steht "Chemist - only because
superwoman is not an official job title".
Man könnte also denken, ich habe durchaus
interessante Skills und Hobbys. Als
Nächstes ein verdächtig aussehender
Gegenstand - ein Kochtopf, und eine
Sturmmaske. Ja und ich weiß nicht, wie ihr
das seht, aber aus Behördensicht wird das
überhaupt nicht gut für mich aussehen,
wenn man schon mal mit der Brille
draufguckt, naja die könnte was planen,
die könnte gefährlich sein. Ich glaube, an
der Stelle wäre es dann höchste Zeit für
einen Hausbesuch. Aber ihr könnt euch
natürlich denken, es gibt eine total
einfache und harmlose Erklärung für jedes
Produkt. Genau, "könnte ja jeder sagen",
kommt hier vorne aus dem Publikum. Das
wäre dann das Gegenargument und damit habe
ich schlechte Karten. Und ich weiß nicht,
wie es euch geht, aber ich finde so eine
Möglichkeit, sich zu überlegen, was allein
aus so einem Datenabfall an Konsequenzen
für mich entstehen könnte im Worst Case
Szenario, extrem bedrohlich.
L: Genau, denn Katha hat mir ihr Vertrauen
geschenkt, dass ich die Daten anschaue und
vertraulich behandele. Wie sieht das aber
Amazon? Amazon ist groß, ziemlich groß,
hat ungefähr 300 Millionen Nutzer und ich
habe die Analyse für eine Person gemacht.
Amazon kann natürlich die Analyse für alle
Nutzer machen und erkennt darin Muster und
weiß am Ende auch, welches Produkt mit
welchem im Warenkorb landet.
K: Ja und was bedeutet im Warenkorb
landet, ne? Amazon weiß beispielsweise,
was kaufen Leute, die auch dieses Produkt
gekauft haben. Ein einfachstes Beispiel
ist ja die Feinwaage, ne. Als Koch möchte
man vielleicht exakt wissen, wieviel muss
hier rein und wieviel hab ich jetzt hier
rein getan. Und wenn man das aber kaufen
will, kriegt man direkt so diese geilen
Produktvorschläge.
Lachen
K: Durchaus ein Zeichen dafür, dass es
auch andere Verwendungszwecke für
Feinwaagen gibt. Und ihr lacht, aber das
kann wirklich ernsthafte Konsequenzen für
einen Menschen haben, wenn er vielleicht
ohne es zu wissen in einer Schublade
landet, mit der überhaupt nichts am Hut
hat. Anderes Beispiel: Wenn ich jetzt nach
einem Glasschneider bei Amazon suche,
kriege ich eine Sturmmaske empfohlen.
Lachen
K: Was man bei Reitequipment empfohlen
bekommt, kann sich der eine oder andere
vielleicht denken. Und das ist ein
Problem, denn ich weiß nicht, wie es euch
geht, aber ich möchte gerne wissen in
welchen Schubladen ich lande und ich
möchte da vielleicht auch mitreden, wenn
diese Schubladen mir unangenehm sind. Oder
vielleicht finde ich auch, dass es gewisse
Schubladen einfach nicht geben sollte. Und
das Problem ist, dass ich bei meiner
Datenabfrage eben nur diesen winzigen
kleinen Mosaikstein aus dem großen
Datensatz bekommen habe, aber die
eigentliche Information über die
Möglichkeiten der Auswertung für diesen
einen Datensatz, die kann ich erst
vollumfänglich erfassen, wenn ich das
Ganze kenne. Das wird aber Amazon nicht
rausrücken und Amazon wird auch keine
Algorithmen zu Suchvorschlägen oder
sonstwas rausrücken, denn das ist
natürlich ein Geschäftsgeheimnis. Ich
denke aber das sind die eigentlich
spannenden Daten, die wir brauchen, um uns
wirklich ein Bild davon zu machen, wie
dieses Unternehmen uns sieht und wie
dieses Unternehmen uns auch gezielt
manipuliert, um uns beispielsweise
einzureden, dass wir mehr kaufen sollen.
Applaus
K: Und ich weiß nicht, wie ihr das seht,
aber der Name "Amazon" ist super passend.
Also, ich weiß nicht wer auf die Idee gekommen
ist damals, aber es ist ein Knüller. Der
Amazonas ist der größte Strom Südamerikas
und er speist sich aus unglaublich vielen
kleinen Bächen und Flüssen. Und genauso
ist es ja mit Amazon, ja? Ich habe in
meinem Experiment nur einen einzigen
Dienst von Amazon genutzt. Ich hätte den
Versuch aber natürlich auch ganz anders
machen können. Was wäre dann gewesen, wenn
ich beispielsweise während der kompletten
Zeit alle Videos, alle Filme nur noch mit
Amazon Prime gesehen hätte? Was wäre
gewesen, wenn ich mich entschieden hätte
in dieses Experiment Alexa, also Amazon
Echo mit reinzufügen und mir dieses Ding
vielleicht ins Schlafzimmer zu stellen?
Ich glaube der Datensatz wäre um einiges
aufschlussreicher und ich für meinen Teil
habe an dieser Stelle ganz bewusst am
Anfang des Experiments entschieden, nein,
das möchte ich nicht. Nein, es geht mir zu
weit. Ich stelle mir so ein Ding nicht in
die Wohnung.
Applaus
K: Und vor ein paar Wochen war ich dann
sehr froh, dass ich diese Entscheidung so
getroffen hatte damals. Denn ich weiß
nicht ob ihr es mitbekommen habt. Es war
groß in den Nachrichten, ein Nutzer hat
kürzlich bei Amazon seine Daten von Amazon
Echo abgefragt und hat daraufhin den
Datensatz einer vollkommen anderen Person
zurückbekommen. Nochmal so als Hinweis,
dass das Ding echt nicht ins Schlafzimmer
gehört. Und ja, nochmal um es deutlich zu
machen. Wenn jemand wirklich all diese
Dienste nutzt oder viele Dienste nutzt,
dann loggt ihr euch meistens mit derselben
Amazon-ID ein.
L: Genau, das ist ja auch das, was in 'nem
Amazon Datensatz gespeichert wurde. Also
wenn ihr woanders auf einen anderen Dienst
geht, dann wird das einfach mitgeloggt,
egal ob das jetzt auch wegen der gleichen
Login-Adresse ist. Ihr habt auf jeden Fall
auch das im Cookie stehen, welche ID ihr
dahinter habt.
K: Und ihr fragt euch ja jetzt, das ist ja
schön und gut dass du deine Daten hast,
das ist toll für mich, aber was ist mit
meinen Daten und wie komme ich an die? Es
gibt viele Wege um an seine Daten zu
kommen. Ich kann euch einfach mal
erzählen, wie ich das gemacht habe.
Zunächst einmal: ich hab mir die AGB
durchgelesen - tatsächlich vollständig. Es
ist ein ganz neues Erlebnis. Ich bin jetzt
top informiert.
Applaus
K: Und ich habe mir die
Datenschutzerklärung durchgelesen. Ja und
warum habe ich das gemacht? Sowohl in AGB
und Datenschutzerklärung sind schon mal so
grob Datenkategorien angesprochen, und die
kann ich mir notieren, damit ich so weiß, was
kann ich dann erwarten oder was sollte ich
erwarten, was bei so einer Auskunft
rauskommen sollte. Zusätzlich habe ich
meinen gesunden Menschenverstand benutzt,
um mal zu überlegen...
Applaus
K: ...um mal zu überlegen, naja was kann
ich denn nach den Gesetzen der Logik
erwarten. Also beispielsweise, ich bin auf
Amazon, eine Woche später kriege ich eine
E-Mail, "wollen sie dieses Produkt nicht
doch kaufen?", also müssen die für eine
Woche speichern, was ich geklickt hab. Und
egal wie oft die sagen, "Nein, haben wir
nicht". Das ist eine Lüge weil sonst wird
es technisch sehr schwierig sein, das
umzusetzen. Und aus diesen Informationen
hab ich dann eine Checkliste gebaut mit
meiner Erwartungshaltung. Was erwarte ich,
was in der vollständigen Antwort drin sein
sollte, und erst dann habe ich die Anfrage
formuliert und gestellt. Und ich kann gar
nicht oft genug betonen, wie wichtig es
ist, bei Anfragen immer 'ne Frist zu
nennen. Ohne Frist wird sich da niemand
bewegen. Zwar gibt es nach der
Datenschutz-Grundverordnung einen
Zeitrahmen, in dem die euch antworten
sollten, idealerweise innerhalb von einem
Monat, aber es schadet nicht, diese Frist
trotzdem nochmal explizit reinzuschreiben
und auch sofort nochmal zu erinnern, wenn
die Zeit überschritten wird. Und
motivierend kann natürlich auch sein, wenn
man noch reinschreibt, naja wenn ihr nicht
antwortet - müsst ihr wissen, aber dann
wenn ich mich an die Aufsichtsbehörden.
Mit der Anfrage ist es leider noch nicht
getan. Wenn ihr so eine Anfrage stellt,
stellt euch auf eine Brieffreundschaft ein
- ist ja vielleicht auch etwas Schönes,
wenn ihr diese Anfrage stellt, werdet ihr
zuerst mit hoher Wahrscheinlichkeit die
Antwort zurückbekommen: "Naja, schauen Sie
mal in Ihrem Profil nach, da sind all Ihre
Daten". Das ist natürlich Quatsch, das ist
nur ein Bruchteil von den Daten, die ihr
eigentlich haben wollt. Also verschicken
wir einen "friendly reminder". Als
nächstes kommt vielleicht ein Brief oder
eine E-Mail: "Ja, wir haben hier ihre
Daten" und dann schaut ihr da rein und
denkt so, okay, da hat jemand die Profildaten
jetzt nochmal in PDF gepackt oder
ausgedruckt. Hmm.
L: Ausgedruckt und wieder eingescannt.
K: Genau. Auch nicht das, was wir haben
wollen - solltet ihr euch gar nicht drauf
einlassen, damit zufrieden geben. Also
wieder "friendly reminder". Dann habt ihr
das nächste Level erreicht. Dann wird
irgendwann die Einsicht kommen so "Huch,
wir haben ein paar Daten gefunden, wir
haben die Ihnen jetzt mal geschickt". Das
ist so die Stelle mit der CD und an der
Stelle wird's eben spannend. Die
Wahrscheinlichkeit, dass ihr dieses Spiel
ein paar Mal wiederholen müsst, ist sehr
hoch. Und irgendwann, wenn ihr das oft
genug wiederholt habt, habt ihr dann euren
Datensatz. Und diesen Datensatz könnt ihr
dann nach Belieben durchsuchen,
durchforsten, analysieren, und glaubt mir,
es lohnt sich. Denn es ist eine Sache,
abstrakt zu wissen, dass man überwacht
wird auf Schritt und Klick, und etwas
vollkommen anderes, seinen eigenen
kaputten Schlafrhythmus der letzten
anderthalb Jahre vor sich zu sehen.
Lachen
K: Und das ist etwas, das würde ich keinem
Einzelhändler anvertrauen wollen.
Applaus
K: Und ich habe mir danach die Frage
gestellt, möchte ich das? Und jeder, der
so einen Datensatz sieht, wird sich diese
Frage zwangsläufig auch stellen. Und in
meinem Fall war es dann so, dass ich mich
entschieden habe, in Zukunft meine
gebrauchten Bücher direkt beim Anbieter zu
kaufen, nicht mehr über Amazon Marketplace.
Das ein oder andere Mal hab ich damit
sogar Geld gespart.
Applaus
K: Und die Information darüber, was der
Dienst speichert, ermöglicht uns ja auch
vielleicht zu sagen, ich nutze den Dienst
in Zukunft anders oder aber ich nutze ihn
vielleicht gar nicht mehr. Und wenn ihr
ihn gar nicht mehr nutzt, dann würde ich
empfehlen, naja dann könnt ihr auch so ein
Löschantrag verschicken. Kostet nix. Ist
auch vielleicht eine kurze
Brieffreundschaft und wir haben uns bei
diesem Vortrag auch überlegt, dass wir
nicht sagen wollen, das ist ein
individuelles Problem von Nutzerinnen und
Nutzern, die Amazon nutzen. Nein, das
Problem ist, dass Amazon ähnlich agiert
wie andere Dienste auch, um mal ehrlich zu
sein. Überwachung ist längst zur
Standardeinstellung geworden. Und was das
für den Einzelnen bedeutet, das wollten
wir sichtbar machen, aber wir finden
trotzdem, wir müssen alle gemeinsam dafür
kämpfen, dass Datenschutz, Privatsphäre,
Datensparsamkeit verdammt nochmal die
Standardeinstellung ist
großer Applaus
K: Ja und damit sind wir auch schon am
Ende. Mehr Infos und Formulare für eigene
Datenanträge, Auskünfte, Löschanträge
findet ihr bei mir im Blog.
L: Und wer sich für die Datenanalyse
interessiert, da veröffentliche ich gleich
auf Ama..., ach auf Amazon... auf
GitHub...
Lachen
L: ...ein Repository, wo sich jeder auch
die Daten anschauen kann und sich selber
seinen eigenen kaputten Schlafrhythmus mal
angucken kann.
K: Vielen Dank!
L: Dankeschön!
Herald: Ja wunderbar!
Applaus
Herald: Einen großen Applaus!
großer Applaus
Abspannmusik
Untertitel erstellt von c3subtitles.de
im Jahr 2020. Mach mit und hilf uns!
Abspannmusik