< Return to Video

35C3 - Archäologische Studien im Datenmüll

  • 0:00 - 0:18
    35C3 Vorspannmusik
  • 0:18 - 0:25
    Herald-Engel: Ja es ist mir eine riesige
    Freude, heute hier auf dem 35C3 einen Talk
  • 0:25 - 0:30
    mit dem Titel "Archäologische Studien im
    Datenmüll" vorzustellen. Er wird gehalten
  • 0:30 - 0:35
    von Katharina Nocun - sie ist Bloggerin,
    Autorin, aber eigentlich kennt man sie
  • 0:35 - 0:39
    auch als Datenschutzaktivistin - und der
    wunderbaren Letty. Also einen warmen
  • 0:39 - 0:42
    Applaus und viel Spaß bei diesem
    spannenden Thema.
  • 0:42 - 0:53
    Applaus
  • 0:53 - 0:58
    Letty: Ja danke, Pupe. Es ist schön, dass
    sich alle Haralde zum Horst machen mit dem
  • 0:58 - 1:03
    Französisch. Wir würden zu Beginn mal 'ne
    Frage stellen - zwei Fragen stellen und
  • 1:03 - 1:07
    zwar die erste ist: Wie viel Personen
    haben hier die Weihnachtsgeschenke bei
  • 1:07 - 1:10
    Amazon gekauft?
    Katharina Nocun: Hola! Lachen
  • 1:10 - 1:15
    L: Ups! Lachen Okay ich würde mal grob
    sagen die Hälfte. Lasst mal bitte eure
  • 1:15 - 1:19
    Arme oben, denn es geht weiter: Wer von
    euch hat nur die Recherche bei Amazon
  • 1:19 - 1:23
    gemacht und danach woanders gekauft?
    Kommen da noch welche hinzu? Ne, die die
  • 1:23 - 1:27
    gekauft haben bitte oben lassen, das wär
    super. Okay es sieht so - okay wer nicht
  • 1:27 - 1:31
    bei Amazon kauft, recherchiert auch nicht
    scheinbar. Okay. Oder es gab wenige, die
  • 1:31 - 1:34
    dazugekommen sind.
    K: Also ich würd sagen das ist deutlich
  • 1:34 - 1:38
    mehr als 50 %.
    L: Ja? Man sieht das nicht.
  • 1:38 - 1:40
    K: Ja, aber diejenigen, die eben
    aufgezeigt haben, die werden mir sicher
  • 1:40 - 1:45
    zustimmen, wenn ich sage, das ist ziemlich
    bequem, wenn nicht sogar verdammt bequem,
  • 1:45 - 1:49
    alles bei einem Anbieter zu suchen oder
    auch bestellen zu können. Und man stellt
  • 1:49 - 1:56
    sich das in der Theorie ja auch so sehr
    komfortabel vor. Ich weiß nicht, wer bei
  • 1:56 - 2:01
    DHL die Entscheidung getroffen hat, auf
    Formel 1-Autos Werbung zu schalten. Ich
  • 2:01 - 2:05
    finde der Mensch hat aber sehr viel Humor.
    Lachen
  • 2:05 - 2:09
    K: Denn in der Realität sieht es ja ein
    bisschen anders aus, ne? Also so richtig gut
  • 2:09 - 2:14
    bezahlte Fahrer und schnelle Lieferung,
    die gibt's in der Praxis eher selten und
  • 2:14 - 2:20
    bei Amazon würde ich sagen gar nicht. Und
    der ein oder andere kennt's vielleicht,
  • 2:20 - 2:26
    dass da ein Paket abgegeben wurde oder
    zugestellt wurde, ist noch kein - ist noch
  • 2:26 - 2:30
    lange keine Garantie dafür, dass es
    wirklich da ist, wo man's hin haben will.
  • 2:30 - 2:35
    Also hier so ein Best of für alle, die es
    noch nicht gelesen haben auf der Folie -
  • 2:35 - 2:41
    gesehen beim Tagesspiegel - Zitat: "Habe
    das Paket im Müll versteckt - im blauen
  • 2:41 - 2:43
    Papiercontainer".
    L: What could possibly go wrong?
  • 2:43 - 2:49
    K: Ja und da kommt ja richtig Freude auf
    wenn man das liest und man denkt sich: "Ja
  • 2:49 - 2:54
    wie können wir dieses Problem lösen?"
    Natürlich hat Amazon da ein Produkt für -
  • 2:54 - 3:01
    zumindest für seine US-Kunden. In den USA
    kann man sich als Prime-Kunde entscheiden,
  • 3:01 - 3:05
    ich nutze jetzt Amazon Key. Amazon Key -
    ähm ja - kontrolliert dann quasi - ist ein
  • 3:05 - 3:08
    intelligentes Schließsystem für die
    Haustür, gibts auch fürs Auto, und dann
  • 3:08 - 3:14
    kann man beispielsweise sagen, ja also dem
    Amazon Paketdienst dem vertraue ich
  • 3:14 - 3:20
    grundsätzlich - der kann die Pakete auch
    innerhalb meines Hausflurs abstellen und
  • 3:20 - 3:23
    der kann auch die Tür aufschließen.
    Passend dazu gibt's auch ein
  • 3:23 - 3:27
    Videoüberwachungssystem, wo man dann
    kontrollieren kann beispielsweise wann die
  • 3:27 - 3:33
    Kinder betrunken nachts nach Hause kommen.
    Und ich weiß nicht wie es euch geht, aber
  • 3:33 - 3:36
    ich finde das verdammt creepy. Ich würde
    das niemals machen, denn ich denke mir, na
  • 3:36 - 3:42
    ja ich will mir genau überlegen, wem ich
    Einblick in meine Wohnung geben will. Aber
  • 3:42 - 3:47
    als Datenschützerin habe ich mich gefragt,
    ist nicht der Einblick den Amazon in unser
  • 3:47 - 3:51
    Leben bekommt durch unser Klickverhalten
    nicht viel intimer, als so ein harmloser
  • 3:51 - 3:56
    Blick in den Hausflur? Weil wer bei mir in
    die Wohnung guckt, der weiß vielleicht wie
  • 3:56 - 4:00
    ich lebe, ja? Aber wer mein
    Onlineverhalten kennt - wer weiß, wann ich
  • 4:00 - 4:05
    wo wie klicke, der kann sich vielleicht
    denken, wie ich denke - und das ist viel
  • 4:05 - 4:12
    intimer. Ich hab mich daher im letzten
    Jahr oder vorletzten Jahr, genauer gesagt
  • 4:12 - 4:17
    im Jahr 2016, dazu entschieden, ein
    Experiment zu machen: Ich wollte wissen,
  • 4:17 - 4:22
    was speichert Amazon eigentlich über seine
    Nutzer und im Zuge dessen habe ich dann
  • 4:22 - 4:24
    auch angefangen alle meine
    Weihnachtsgeschenke und sonstigen
  • 4:24 - 4:28
    Geschenke bei Amazon zu bestellen und auch
    alles dort zu recherchieren, um einen
  • 4:28 - 4:37
    möglichst fetten Datensatz zu generieren.
    Und mein Ziel war natürlich von Anfang an:
  • 4:37 - 4:43
    Ich möchte an diese Daten ran. Ich möchte
    sie sezieren. Ich möchte Sie sehen. Ich
  • 4:43 - 4:47
    möchte wissen was genau Amazon über seine
    Kunden speichert. Denn ich weiß nicht ob
  • 4:47 - 4:52
    ihr es wusstet, aber nach Artikel 15 der
    Datenschutz-Grundverordnung hat jeder
  • 4:52 - 4:57
    Nutzer in ganz Europa das Recht jederzeit
    zu seinem Anbieter zu gehen und zu sagen:
  • 4:57 - 5:01
    "Hey ich möchte eine kostenlose Kopie
    meiner Daten haben" und der Anbieter muss
  • 5:01 - 5:07
    dann liefern. In der Praxis macht das aber
    kaum jemand. Und bei Amazon hat das soweit
  • 5:07 - 5:10
    ich wusste noch nie jemand so richtig
    durchgezogen, dass da was Verwertbares
  • 5:10 - 5:14
    rausgekommen ist. Also habe ich mich
    entschlossen, ich gehe auf die
  • 5:14 - 5:21
    Datenpirsch. Was hab ich also gemacht? Ich
    habe ganz viel eingekauft. Was hab ich
  • 5:21 - 5:27
    denn eingekauft? Ich hab fast 60 Bücher
    innerhalb von 14 Monaten gekauft und falls
  • 5:27 - 5:30
    ihr euch jetzt fragt - ja ich hab
    tatsächlich mittlerweile mindestens 50
  • 5:30 - 5:36
    Prozent davon auch gelesen. Ich habe...
    Applaus
  • 5:36 - 5:42
    K: ...Ich hab außerdem aber auch so
    praktische Sachen bestellt wie
  • 5:42 - 5:48
    beispielsweise Sprühkreide für eine
    Protestaktion und eine Button-Maschine. In
  • 5:48 - 5:52
    meinem Kaufprofil hat sich dann aber auch
    so komischer Kram angesammelt, wie
  • 5:52 - 5:56
    beispielsweise das
    Lavendeleinschlafkissenspray. Der eine
  • 5:56 - 6:02
    oder andere kennt es vielleicht aus dem
    Radisson Blu am CCH. Was leider nicht auf
  • 6:02 - 6:07
    dem Bild zu sehen ist, ist der
    Hometrainer, den ich mir gekauft habe. Der
  • 6:07 - 6:11
    war so erfolgreich, dass ich ihn nach drei
    Monaten wieder weiterverkauft hab. Ich
  • 6:11 - 6:15
    habe mir aber auch sinnvolle Sachen
    gekauft, wie beispielsweise 'ne Maus,
  • 6:15 - 6:19
    einen Ordner oder auch Schnürsenkel und
    bin auch durch Amazon Besitzerin der
  • 6:19 - 6:26
    schönsten Hausschuhe auf diesem Planeten.
    Im August 2017 habe ich mir dann gedacht,
  • 6:26 - 6:31
    so jetzt ist der Datensatz schön fett
    angefüttert mit Klicks und Käufen. Jetzt
  • 6:31 - 6:37
    frage ich mal meine Daten ab. Und das war
    leider - muss ich sagen - der Beginn einer
  • 6:37 - 6:43
    langen und intensiven Brieffreundschaft
    mit der Datenschutzabteilung. Und zunächst
  • 6:43 - 6:46
    habe ich nicht das bekommen, was ich haben
    wollte. Ich habe dann aber immer weiter
  • 6:46 - 6:50
    nachgefragt und irgendwann haben sie
    angefangen mir CD-ROMs zuzuschicken.
  • 6:50 - 6:54
    Lachen
    K: Ja, musst' ich erstmal im Keller
  • 6:54 - 6:58
    gucken, wie man denn so antike Datenträger
    auslesen kann und auf der ersten CD fand
  • 6:58 - 7:04
    sich leider auch nur das, was ich erwartet
    hatte: Eine Kopie meiner Profildaten, die
  • 7:04 - 7:07
    auch online einsehbar sind, plus ein paar
    Zusatzinformationen - also nicht das was
  • 7:07 - 7:11
    ich eigentlich wollte. Ich hab dann weiter
    Stress gemacht, habe dann irgendwann 'ne
  • 7:11 - 7:15
    zweite CD-ROM zugeschickt bekommen.
    Eigentlich habe ich drei zugeschickt
  • 7:15 - 7:17
    bekommen - die andere ist in der Post
    verschwunden.
  • 7:17 - 7:23
    L: In der Mülltonne.
    K: Wahrscheinlich. Ja und dann habe ich
  • 7:23 - 7:27
    auf dieser letzten CD mal geguckt was ist
    denn da drauf? Und da waren so Sachen drauf
  • 7:27 - 7:32
    wie ein PDF, wo ich sehen konnte, was für
    Suchanfragen ich getätigt habe. Ich konnte
  • 7:32 - 7:36
    sehen, auf welche Werbe-E-Mails ich wann
    reagiert hab - auf die Sekunde genau. Und
  • 7:36 - 7:41
    ich konnte sehen, auf welche Werbeanzeigen
    ich reagiert habe. Das Interessante war
  • 7:41 - 7:47
    allerdings so eine Excel-Tabelle und diese
    Excel-Tabelle trug den unschuldigen Namen
  • 7:47 - 7:52
    "Clickstream". Die habe ich mal aufgemacht
    und das hat erst mal eine ganze Zeit lang
  • 7:52 - 7:57
    zum Laden gebraucht. Und irgendwann habe
    ich dann gesehen - okay diese Excel-
  • 7:57 - 8:07
    Tabelle hat 15.365 Zeilen und jede Zeile
    hat bis zu 50 Zusatzangaben, also 50
  • 8:07 - 8:12
    Spalten. Ich war gestern mal im
    Supermarkt, um das zu visualisieren. So
  • 8:12 - 8:15
    viel Papier wär das, wenn das ausgedruckt
    wär. Mein eigentliches Ziel war es, auf
  • 8:15 - 8:18
    einen Stapel zu packen das wäre dann
    größer als ich mit meinen 1,70m.
  • 8:18 - 8:22
    Allerdings haben wir das aus
    Sicherheitsgründen sein lassen, denn das
  • 8:22 - 8:27
    wäre zusammengekracht.
    L: Ja und als Katha mich gefragt hat, ob
  • 8:27 - 8:31
    ich ihre Daten auswerten will, dachte ich
    als Erstes an meine Datenbankenvorlesung -
  • 8:31 - 8:35
    so Beziehung zwischen Kunden und
    Lieferanten und was kauft man. Aber der
  • 8:35 - 8:39
    Clickstream von Amazon sind nicht nur die
    Käufe. Denn eigentlich wird alles
  • 8:39 - 8:42
    abgespeichert, was wir mit der Seite
    machen. Es ist egal ob wir nur auf die
  • 8:42 - 8:46
    Startseite gehen, ob wir Produkte suchen
    oder ob wir uns ein Produkt genau
  • 8:46 - 8:51
    anschauen. Es wird sogar gespeichert, wenn
    wir uns ein Bild vergrößern und natürlich
  • 8:51 - 8:56
    auch jede Interaktion, die wir haben, wenn
    wir auf unserem Nutzerkonto sind. Und weil
  • 8:56 - 8:59
    wir hier ja einen Foundationstalk machen,
    habe ich mir gedacht, ich will euch auch
  • 8:59 - 9:02
    ein bisschen mitnehmen in die Reise in die
    Daten, die unbekannt sind und wie man
  • 9:02 - 9:06
    eigentlich mit so einem unbekannten
    Datensatz vorgehen kann, ihn explorativ
  • 9:06 - 9:09
    analysieren kann, um zu wissen, was steckt
    überhaupt in diesen Daten drin? Was kann
  • 9:09 - 9:14
    man vielleicht mit den Daten sehen? Also
    wie schon gesagt, wir haben 50 Spalten
  • 9:14 - 9:17
    oder auch Dimensionen genannt, und da ich
    die nicht alle hier auflisten kann, habe
  • 9:17 - 9:21
    ich versucht, 'ne grobe Zuordnung zu
    Gruppen zu finden. Wir haben als erstes
  • 9:21 - 9:26
    natürlich 'ne Zeitangabe, ganz klar. Wir
    haben Account-Details, sowas wie seid ihr
  • 9:26 - 9:32
    Prime-Kunde oder Business-Kunde, und 'nen
    Ortsbezug. Amazon speichert die IP-Adresse
  • 9:32 - 9:35
    nicht vollständig - der letzte Block ist
    weggestrichen. Aber was sie außerdem
  • 9:35 - 9:40
    speichern ist, in welchem Land, in welchem
    Bundesland und welcher Internet-Service-
  • 9:40 - 9:43
    Provider, also der Internetanbieter, den
    ihr da genutzt habt, um die Seite zu
  • 9:43 - 9:48
    besuchen. Außerdem wird natürlich die URL
    gespeichert, die ihr da besucht habt und
  • 9:48 - 9:53
    wenn es auch noch ein Produkt ist, wird
    dazu die Produkt-ID auch abgespeichert.
  • 9:53 - 9:58
    Achso, hm, oh jetzt habe ich die
    Sessiondetails vergessen. Ja, die Session-
  • 9:58 - 10:02
    Details sind so alles, was so im Cookie
    auch landet, damit man einfach sieht in
  • 10:02 - 10:06
    welcher Session man sich gerade befindet.
    Und es gibt noch eine ID, die euch über
  • 10:06 - 10:12
    alle Dienste von Amazon hinweg
    identifizieren kann. Und bei den
  • 10:12 - 10:16
    Navigationsdetails ist es eigentlich schon
    ein bisschen klar, wo es hingeht. Amazon
  • 10:16 - 10:20
    sieht, von wo ihr kommt, wo ihr gerade
    seid und wo geht ihr dann hin. Dieser
  • 10:20 - 10:25
    gesamte Verlauf wird einmal abgespeichert
    - und nicht nur der Verlauf, sondern auch
  • 10:25 - 10:28
    was habt ihr da gemacht, welche
    Interaktionen habt ihr gemacht, habt ihr
  • 10:28 - 10:32
    etwas in den Warenkorb hinzugefügt, habt
    ihr euch ein Bild angeschaut oder habt ihr
  • 10:32 - 10:37
    etwas für später gespeichert? Als letztes
    kann man so einen Block sehen, das heißt
  • 10:37 - 10:42
    Amazoninterna. Wir sehen, an welchen Web-
    Server die Anfrage gestellt wurde und ob
  • 10:42 - 10:47
    die Anfrage eine interne IP-Adresse bei
    Amazon hat. Ihr bekommt von Amazon
  • 10:47 - 10:51
    außerdem eine lange Liste mit all diesen
    Dimensionen und die Erläuterung dazu, was
  • 10:51 - 10:57
    sich dahinter verbirgt. Manchmal speichert
    Amazon aber nicht den Klartext, sondern
  • 10:57 - 11:01
    codiert etwas was z.B. wie: Null bedeutet,
    ihr habt was in den Warenkorb gelegt.
  • 11:01 - 11:05
    Denkt man erst mal: Super hat man nicht so
    viel zu parsen. Dann hab ich aber
  • 11:05 - 11:08
    festgestellt, als ich mir die Daten
    genauer angeschaut habe, so Amazon erzählt
  • 11:08 - 11:12
    aber nicht, was sie alles codiert oder was
    sie codieren. Manche Felder sind uns
  • 11:12 - 11:15
    schlicht unbekannt.
    K: Ja, sagen wir mal so: Die
  • 11:15 - 11:18
    Brieffreundschaft dauert noch an.
    L: Ich hoffe auch, wir werden darauf noch
  • 11:18 - 11:22
    nochmal Antwort bekommen. Wenn wir jetzt
    also den Datensatz mit den 50 Spalten
  • 11:22 - 11:27
    vorstellen, haben wir irgendwie über
    15.000 Einträge. Ich hab mal 2
  • 11:27 - 11:29
    herausgenommen, um einfach nur
    exemplarisch zu zeigen, wie sind die
  • 11:29 - 11:33
    überhaupt aufgebaut. Also wir haben Datum,
    wir haben 'ne Aktion, die wir machen,
  • 11:33 - 11:37
    sowas wie 'gesucht' oder 'gekauft', und dann
    haben wir dazu die URL, aus welchem
  • 11:37 - 11:41
    Bundesland vielleicht das Ganze abgesetzt
    wurde, welcher Internet-Provider da
  • 11:41 - 11:45
    dahinter steckt und wie lang die Ladezeit
    war. Das haben wir natürlich nicht nur für
  • 11:45 - 11:52
    diese 2 Einträge, sondern wie gesagt für
    über 15.000. Welchen Zeitraum betrachten
  • 11:52 - 11:56
    wir hier eigentlich in den Daten? Es geht
    los am 1. August 2016 und es endet am
  • 11:56 - 12:03
    31. August 2017. Das sind dann etwa 196 Tage,
    die mit Interaktionen behaftet sind und
  • 12:03 - 12:09
    das wären dann sozusagen 78 Einträge pro
    Tag. Wenn ich mit so 'nem unbekannten
  • 12:09 - 12:13
    Datensatz arbeite, dann arbeite ich
    eigentlich immer mit Python und dem Pandas
  • 12:13 - 12:17
    Package, was sich so für Datenanalyse
    einfach als Standard durchgesetzt hat. Und
  • 12:17 - 12:20
    egal was mir Amazon sagt, was in den Daten
    sind, ich schaue mir die Dimensionen immer
  • 12:20 - 12:24
    nochmal ganz genau an. Das heißt welche
    Dimension habe ich und wie häufig wurde
  • 12:24 - 12:29
    sie benutzt? Es gibt extrem viele, die
    immer benutzt werden - sowas wie Datum und
  • 12:29 - 12:33
    Uhrzeit. Die Angabe gibt es immer, aber es
    gibt auch Dimensionen, die einfach nicht
  • 12:33 - 12:36
    so häufig genutzt werden, und wir haben
    auch eine Dimension bekommen, die wurde
  • 12:36 - 12:42
    nie genutzt - irgendwas über Bilder. Keine
    Ahnung was da drin ist. Ich hab mir dann
  • 12:42 - 12:45
    jede Dimension wirklich einzeln angeguckt,
    was da drin steht und wie häufig das
  • 12:45 - 12:50
    passiert. Und bin über die Zeit gestoßen,
    die wirklich eine sekundengenaue Angabe
  • 12:50 - 12:55
    sein soll, was man auf Amazon macht. Und
    ich weiß nicht, wie man es hinbekommt, in
  • 12:55 - 12:59
    einer Sekunde irgendwie 45 Einträge zu
    generieren, aber ich dachte mir, okay, ich
  • 12:59 - 13:02
    nehme erst mal noch eine andere Spalte und
    schaue mal was da noch drin steht ist -
  • 13:02 - 13:06
    vielleicht ist das ja ein Ausreißer oder
    es sind mehrere Ausreißer - weiß man ja
  • 13:06 - 13:10
    nicht. Dann hab ich mir so einen Tag
    genauer angeguckt. Also man kann auch die
  • 13:10 - 13:13
    Zeitangabe nur für einen Tag nehmen. Das
    ist irgendwie so eine relative
  • 13:13 - 13:17
    Gleichverteilung. Und dann hat man da so 3
    Ausreißer - die sind irgendwie wahnsinnig
  • 13:17 - 13:21
    verdächtig, weil die stark abweichen von
    den anderen und es gibt sogar einen der
  • 13:21 - 13:27
    irgendwie 710 Einträge beinhaltet aber ich
    weiß ja nicht, wie intensiv Katha Amazon
  • 13:27 - 13:33
    genutzt hat in der Zeit von morgens bis
    abends - auf jeden Fall sportlich. Dann
  • 13:33 - 13:36
    habe ich mir den Tag aber wirklich mal
    ganz genau angeschaut. Wir haben 710
  • 13:36 - 13:39
    Einträge. Dann hab ich mal geguckt, was
    ist denn für eine Zeitspanne die wir
  • 13:39 - 13:46
    haben? 20 Minuten und 35 Sekunden. Das
    heißt für einen Eintrag würde Katha 1,74
  • 13:46 - 13:50
    Sekunden brauchen. Das Ganze würde dann
    wahrscheinlich so aussehen.
  • 13:50 - 13:52
    Lachen
    K: Ja und wenn ich das schaffe, spätestens
  • 13:52 - 13:55
    an der Stelle sollte ich meine Karriere
    als Progamer überdenken.
  • 13:55 - 14:00
    L: Ja. Ich bin daraufhin nochmal genauer
    in die Daten eingestiegen und Pandas hat
  • 14:00 - 14:03
    so 'nen value_counts, was das Histogramm
    sozusagen darstellen würde -
  • 14:03 - 14:07
    Häufigkeitsverteilung und die Funktion und
    ich wir sind jetzt richtig dicke auf jeden
  • 14:07 - 14:13
    Fall. Ich hab mir die wirklich komplett
    nochmal angeschaut. Wo kommt das her? Mir
  • 14:13 - 14:17
    ist aufgefallen, dass diese Aktion nicht
    immer definiert ist, die wird nur so 4.600
  • 14:17 - 14:21
    Mal überhaupt angegeben. Wo ich mir
    dachte, okay, 'ne Interaktion - naja
  • 14:21 - 14:24
    vielleicht kann man's nicht immer
    klassifizieren und dann sind mir zwei
  • 14:24 - 14:28
    andere Sachen noch aufgefallen: request
    und lazy-load. Die zwei Sachen finde ich,
  • 14:28 - 14:33
    hören sich nicht wie eine Interaktion an.
    Und da ich Webentwicklerin halt auch bin,
  • 14:33 - 14:38
    war mir so hm okay vielleicht wird da noch
    etwas anderes in den Daten stecken. Und
  • 14:38 - 14:42
    hab mir daraufhin die URLs mal genauer
    angeschaut, die in den Daten stecken und
  • 14:42 - 14:45
    spätestens bei Ajax, was 'ne
    Webtechnologie ist, sagt mir mh
  • 14:45 - 14:48
    Nutzerinteraktion? Schauen wir mal in den
    Browser. Wie gesagt, ich bin
  • 14:48 - 14:53
    Webentwicklerin, und so'n Browser verrät
    'ne Menge über eine Webseite, wenn Fehler
  • 14:53 - 14:57
    drin sind oder was für einen Traffic im
    Netzwerkverkehr - äh im Netzwerk
  • 14:57 - 15:01
    stattfindet. Und das hab ich auch mal für
    Amazon gemacht und hab mir mal ein Spiel
  • 15:01 - 15:04
    einfach ausgesucht und hab geguckt was
    wird eigentlich so alles geladen, während
  • 15:04 - 15:09
    man auf der Seite ist. Und ja, jede
    Webseite lädt eine Menge Sachen nach. Und
  • 15:09 - 15:13
    als es dann irgendwann mal fertig geladen
    hat, dachte mir okay, und jetzt suche ich
  • 15:13 - 15:17
    in dieser Auflistung nach den URLs, die
    ich nicht zuordnen konnte. Und siehe da,
  • 15:17 - 15:21
    es sind wirklich Sachen die einfach
    nachgeladen werden. So etwas wie ein Prime
  • 15:21 - 15:25
    Button oder Bilder und Rezensionen, was
    für mich jetzt per se keine
  • 15:25 - 15:29
    Nutzerinteraktion ist. Aber es landet
    komplett in dem Clickstream drin. Wenn wir
  • 15:29 - 15:34
    also die realen Nutzerinteraktionen suchen
    von den über 15.000 Einträgen, dann hab
  • 15:34 - 15:39
    ich eine Annahme getroffen: Eine
    Nutzerinteraktion muss die Page Action
  • 15:39 - 15:43
    angegeben haben, ansonsten ist es keine.
    So selektieren wir die erst mal als
  • 15:43 - 15:46
    Erstes. Dann möchte ich auch nicht, dass
    es ein request ist, weil das sieht auch
  • 15:46 - 15:51
    aus wie keine Interaktion und es darf auch
    kein lazy-load sein. Wenn wir diesen
  • 15:51 - 15:55
    gesamten Wust nehmen und einfach mal aus
    den Daten rauswerfen, dann haben wir 75 %
  • 15:55 - 16:01
    der Daten einfach mal weggeworfen haben
    nur noch 3.747 Einträge übrig, die reale
  • 16:01 - 16:07
    oder die ich als Annahme als reale
    Nutzerinteraktion sehe. Ich weiß nicht,
  • 16:07 - 16:11
    wie viele von euch auf GitHub unterwegs
    sind, aber ich liebe den Graph, der so ein
  • 16:11 - 16:15
    bisschen die Aktivität zeigt, die man auf
    GitHub hat. Das Gleiche könnte man auch
  • 16:15 - 16:20
    für Amazon machen. Und ich weiß nicht, ob
    ich darüber so glücklich wäre bei mir.
  • 16:20 - 16:24
    Jedenfalls steht jedes Kästchen für eine
    Interaktion und die extrem dunklen lilanen
  • 16:24 - 16:29
    Kästchen zeigen bis zu 180 Interaktionen,
    die man mal am Tag getätigt hat
  • 16:29 - 16:34
    K: Beispielsweise vor Weihnachten.
    L: Genau - sieht man besonders gut. Aber
  • 16:34 - 16:38
    das heißt ja auch noch nicht, dass jede
    Interaktion wirklich zu einem Kauf
  • 16:38 - 16:42
    überleitet. Und ich hab mal versucht
    herauszufinden, wie Amazon überhaupt
  • 16:42 - 16:46
    klassifiziert, ob man etwas kauft. Und ich
    dachte mir, hey, Page Action, du bist ja
  • 16:46 - 16:50
    eine gute Idee anzugucken und Amazon wird
    doch mit Sicherheit ordentliche, gepflegte
  • 16:50 - 16:55
    Daten haben und sowas wie ein "Order" drin
    stehen haben oder 'nen "Purchase" - nix
  • 16:55 - 17:00
    da. Amazon hat aus irgendwelchen Gründen
    'ne Horde an Einträgen, die man per Hand
  • 17:00 - 17:06
    herausfinden muss aus seinem Datensatz.
    Damit man überhaupt eine Idee davon
  • 17:06 - 17:10
    bekommt, welche Interaktionen sind
    wirklich Käufe und welche nicht. Ich habe
  • 17:10 - 17:14
    auch nicht herausgefunden ob's hinter
    dieser Nummerierung von "PlaceOrder"
  • 17:14 - 17:18
    irgendeinen Zusammenhang gibt, wann die
    auftreten, das ist nicht aus dem Datensatz
  • 17:18 - 17:25
    ersichtlich gewesen. Wenn wir also mal die
    Interaktion mit den Käufen vergleichen -
  • 17:25 - 17:29
    leider sind die Kästchen ein bisschen hell
    - von den 196 Tagen, an denen man
  • 17:29 - 17:33
    interagiert hat, hat man am Ende nur an 24
    Tagen gekauft. Also ist ein viel, viel
  • 17:33 - 17:38
    geringerer Teil. Aber man sieht den
    Dezember - da hat Katha auf jeden Fall
  • 17:38 - 17:41
    viermal hintereinander gekauft. Und in
    ihren Daten habe ich außerdem gesehen,
  • 17:41 - 17:46
    dass sie extrem interessiert an Büchern
    ist und im Dezember einfach mal 32 Bücher
  • 17:46 - 17:50
    an 4 Tagen gekauft hat.
    Lachen
  • 17:50 - 17:53
    L: Wir lassen das Thema mit den
    Interaktionen und Käufen jetzt mal hinter
  • 17:53 - 17:58
    uns und begeben uns auf die Orte, in denen
    Katha war, als sie auf Amazon
  • 17:58 - 18:04
    herumgebrowst ist. Als Erstes ist mir
    aufgefallen, in Berlin ist sie am
  • 18:04 - 18:09
    häufigsten im Internet auf Amazon. Okay,
    vielleicht wohnt sie da. Dann hat man
  • 18:09 - 18:12
    irgendwie Brandenburg und Schleswig-
    Holstein noch ziemlich häufig. Weiß ich
  • 18:12 - 18:16
    nicht, was der Bezug dazu ist, und dann
    weniger häufig aber auch existent
  • 18:16 - 18:21
    Nordrhein-Westfalen und Niedersachsen.
    K: Ja, ich lös mal auf. Ich wohne in
  • 18:21 - 18:26
    Berlin, das ist richtig, und um aus Berlin
    rauszukommen muss man grundsätzlich erstmal
  • 18:26 - 18:31
    immer durch Brandenburg durch. In der
    Zeit, in der ich diesen Versuch gemacht
  • 18:31 - 18:36
    habe, bin ich beruflich nach Schleswig-
    Holstein gependelt. Das heißt man konnte
  • 18:36 - 18:40
    in dem Datensatz recht gut sehen, an
    welchen Tagen ich wo gearbeitet habe. In
  • 18:40 - 18:44
    Nordrhein-Westfalen lebt meine Familie und
    immer wenn ich nach Nordrhein-Westfalen
  • 18:44 - 18:47
    gefahren bin, bin ich auch durch
    Niedersachsen durchgefahren. Was mich so
  • 18:47 - 18:52
    ein bisschen überrascht hat war, dass ich
    an dem Datensatz schon vermuten konnte,
  • 18:52 - 18:56
    wann ich meine Eltern besucht habe. Und
    das war dann doch ein bisschen creepy.
  • 18:56 - 18:59
    L: Das ist einfach nur die Spalte, die man
    anschauen kann, wenn es um die
  • 18:59 - 19:04
    Bundesländer geht.
    K: Ah ja, und genau. Woher weiß Amazon,
  • 19:04 - 19:08
    dass in NRW meine Eltern wohnen? Ganz
    einfach: kurz vor Weihnachten ratet mal wo
  • 19:08 - 19:12
    ich meine Pakete hingeschickt hab, ne,
    weil ich auf den letzten Drücker gekauft
  • 19:12 - 19:15
    habe. Und das sind solche kleinen
    Verbindungen, wo man wirklich sagen kann
  • 19:15 - 19:18
    man: naja, wenn ich mehrere Datensätze als
    Amazon habe, kann ich da total einfach
  • 19:18 - 19:24
    auch sehr private Details rausfinden.
    L: Genau. Als Nächstes habe ich mir im
  • 19:24 - 19:28
    Vorfeld die Internet Service Provider mal
    genauer angeschaut und da ist mir eins
  • 19:28 - 19:32
    aufgefallen: einige verraten, wo sie sind.
    So weiß ich zum Beispiel, dass Katha im
  • 19:32 - 19:35
    Freifunk in Hamburg unterwegs war.
    K: Ja, da bin ich immer umgestiegen, weil
  • 19:35 - 19:39
    ich nach Kiel gefahren bin.
    L: Und dann hab ich da was im Februar 2017
  • 19:39 - 19:44
    gesehen, da war sie auf den Bahamas.
    K: Nicht was ihr denkt, das war Urlaub.
  • 19:44 - 19:49
    Lachen
    L: Und im Juli 2017 war sie in Polen.
  • 19:49 - 19:53
    K: Genau, das war ein Familienurlaub.
    L: Es gibt da noch einen anderen
  • 19:53 - 19:57
    Aufenthalt, der mir aufgefallen ist. Und
    ich vermute, du hast eine Beziehung zu
  • 19:57 - 20:01
    Universitäten oder Bibliotheken.
    K: Ja, ich schreib tatsächlich am liebsten
  • 20:01 - 20:05
    in der Bibliothek.
    L: Viele von euch werden den Verein zur
  • 20:05 - 20:09
    Förderung eines Deutschen Forschungsnetzes
    kennen in Form von eduroam. Das ist die
  • 20:09 - 20:12
    Einrichtung, die in Deutschland das
    Internet in Bildungs- und
  • 20:12 - 20:16
    Forschungseinrichtungen, Universitäten
    oder Bibliotheken zur Verfügung stellt und
  • 20:16 - 20:20
    auch das sieht man in den Daten. Was
    Amazon irgendwie scheinbar beim Internet
  • 20:20 - 20:25
    Service Provider macht, ist, sie erlauben
    nur 50 Zeichen und da ist der Name vom DFN
  • 20:25 - 20:30
    definitiv zu lang für. Aber wir gucken mal
    was du so in 'ner Bibliothek machst,
  • 20:30 - 20:34
    während du eigentlich arbeiten solltest.
    Du rutschst mal kurz aus zu Amazon, so
  • 20:34 - 20:38
    wenige Sekunden - das kann mal passieren.
    Dann kommt das schlechte Gewissen
  • 20:38 - 20:42
    wahrscheinlich. Dann hast du so 'ne Käufe
    von oder so 'ne Aufenthalte von einer
  • 20:42 - 20:48
    Minute - bestimmt zielgerichtet irgendwas
    gesucht und für später weggespeichert. Was
  • 20:48 - 20:51
    machst du 15 Minuten lang auf Amazon? Das
    kann man doch schon fast Prokrastination
  • 20:51 - 20:54
    nennen.
    K: Na, das würde ich jetzt nicht so sagen.
  • 20:54 - 20:59
    L: Nee, stimmt, denn wir haben noch was
    Besseres: Du warst über anderthalb Stunden
  • 20:59 - 21:02
    auf der Seite von Amazon.
    Lachen
  • 21:02 - 21:08
    K: Reine Recherche.
    L: Was auf dieser Page Action, die ich
  • 21:08 - 21:11
    erwähnt habe, jetzt so häufig, für die
    Nutzerinteraktion irgendwie hervorgetreten
  • 21:11 - 21:16
    ist, dass Amazon ab einem ganz bestimmten
    Zeitpunkt versucht hat herauszufinden, ob
  • 21:16 - 21:20
    man den Tab gerade in den Vordergrund oder
    den Hintergrund legt. Da Kathas Datensatz
  • 21:20 - 21:24
    jetzt nur ein begrenzter Datensatz ist,
    kann ich nicht sagen, ob das Zufall ist
  • 21:24 - 21:28
    oder ob Amazon versucht, wirklich
    kontinuierlich die Erkennung zu
  • 21:28 - 21:31
    verbessern, damit sie einfach wirklich
    wissen, wann interagiert man mit der
  • 21:31 - 21:34
    Seite, wann legt man etwas in den
    Hintergrund.
  • 21:34 - 21:39
    K: Ja und spannend fand ich in dem
    Datensatz auch, dass man gar nicht so viel
  • 21:39 - 21:44
    technischen Sachverstand auch benötigt, um
    sich ein grobes Bild davon zu machen, was
  • 21:44 - 21:48
    da alles drin schlummert. Ich habe
    beispielsweise mal in der Spalte V geguckt
  • 21:48 - 21:53
    - die Spalte V steht für Referrer und das
    kann man für Nicht-Techies übersetzen
  • 21:53 - 21:58
    ungefähr wie: "Naja woher kommst du
    denn?". Das heißt, Amazon merkt sich, von
  • 21:58 - 22:02
    welcher Seite ich sie ansurfe und in
    meinem Fall war es so, dass ich mehrere
  • 22:02 - 22:06
    Artikel von Spiegel Online dann mit dem
    kompletten Link in meinem Clickstream
  • 22:06 - 22:09
    gefunden habe und das ist deshalb
    interessant, weil man dann natürlich sagen
  • 22:09 - 22:13
    kann, so okay, welche Medien konsumiert
    dieser jemand eigentlich, oder vielleicht
  • 22:13 - 22:18
    auch wofür interessiert er sich inhaltlich
    außerhalb Amazons sonst noch? Ich habe
  • 22:18 - 22:24
    auch einen Link gefunden vom Telepolis von
    heise online, ein Artikel in dem es um
  • 22:24 - 22:30
    CETA geht. CETA ist das Handelsabkommen
    zwischen Kanada und der EU und das ist ein
  • 22:30 - 22:34
    kritischer Beitrag und da kann man sich
    natürlich auch überlegen, okay, wenn
  • 22:34 - 22:38
    Amazon wirklich weiß, von was für
    politischen Artikeln wir kommen, dann kann
  • 22:38 - 22:42
    man daraus natürlich auch Rückschlüsse
    über das politische Mindset ziehen. In der
  • 22:42 - 22:46
    Tat habe ich in der Zeit eine Kampagne
    gegen CETA in Schleswig-Holstein geleitet
  • 22:46 - 22:53
    und deshalb bin ich auch gependelt. Und
    man kann gar nicht genug betonen, wie groß
  • 22:53 - 23:01
    der Unterschied zwischen gekauften Daten,
    - äh - gekauften Produkten und geklickten
  • 23:01 - 23:06
    Produkten ist. Ich habe hier für diesen
    Vortrag mal alles was ich in der Zeit
  • 23:06 - 23:10
    gekauft habe auf meinem Küchentisch
    drapiert. Wenn ich aber alle Produkte, die
  • 23:10 - 23:15
    ich nur angesehen habe, auf ein Foto
    quetschen wollen würde dann müsste ich
  • 23:15 - 23:18
    nicht nur meine komplette Küche
    leerräumen, sondern wahrscheinlich meine
  • 23:18 - 23:23
    ganze Wohnung. Denn das wird sonst nicht
    reinpassen. Das ist viel, viel mehr.
  • 23:23 - 23:27
    L: Was man in den Daten außerdem gesehen
    hat ist, dass man sagen kann, dass Katha
  • 23:27 - 23:32
    auf jeden Fall über 500 Mal nach Begriffen
    gesucht hat und auch dass sie ungefähr 450
  • 23:32 - 23:37
    Mal direkt auf Produkte zugegangen ist.
    Man kann aber schon sagen, dass es noch
  • 23:37 - 23:41
    eine ganze Ecke mehr ist, weil das sind
    nur die Sachen die offensichtlich waren
  • 23:41 - 23:44
    und wenn man nochmal per Hand wieder in
    diesen Datensatz reinspringt und nach
  • 23:44 - 23:47
    Mustern sucht, kann man auch sehen, dass
    es noch mehr Produkte sind, die man sich
  • 23:47 - 23:50
    angeschaut hat.
    K: Ja, ich hab mich dann natürlich
  • 23:50 - 23:57
    gefragt, was sieht eigentlich jemand, der
    mich persönlich nicht kennt, nur diesen
  • 23:57 - 24:04
    Datensatz sieht. Wen sieht er dann? Und
    finde ich das eigentlich okay? Und ich hab
  • 24:04 - 24:07
    mir dann mal so einige Sachen angeschaut, die
    ich angeklickt habe und mal aus
  • 24:07 - 24:12
    unterschiedlichen Brillen betrachtet.
    Nehmen wir mal das Thema Lebensplanung.
  • 24:12 - 24:17
    Stellen wir mal vor jemand fragt sich,
    naja, wie stellt sich Katharina Nocun ihre
  • 24:17 - 24:20
    Zukunft so vor, wie ist ihre
    Lebensplanung? Und der guckt sich meinen
  • 24:20 - 24:24
    Clickstream an - was findet der da? Ich
    hab mir ein Buch angeschaut, das sich mit
  • 24:24 - 24:29
    Pro-Argumenten fürs Kinderkriegen
    auseinandersetzt. Dann habe ich mir aber
  • 24:29 - 24:33
    auch ein Buch angeschaut was ich mit
    alternativen Partnerschaftsformen und
  • 24:33 - 24:39
    Polyamorie auseinandersetzt und natürlich
    noch ein Buch von einer Aussteigerin, die
  • 24:39 - 24:45
    sagt, ich werde der Konsumgesellschaft den
    Rücken kehren. Und wenn man diese 3
  • 24:45 - 24:49
    Produkte und noch ein paar mehr in der
    Richtung zusammenlegt, wird man denken, so
  • 24:49 - 24:52
    okay, das ist zumindest eine
    außergewöhnliche, originelle bis hin zu
  • 24:52 - 24:56
    exotische oder vielleicht auch schwierige
    Lebensplanung, wenn man das alles unter
  • 24:56 - 25:02
    einen Hut bekommen will. Aber wie ist es
    denn tatsächlich? Das Buch über Kinder
  • 25:02 - 25:07
    habe ich mir angeschaut, weil ich auf den
    Autor aufmerksam geworden bin, weil ich
  • 25:07 - 25:11
    den Blog "Spreeblick" sehr schätze und
    schlichtweg wissen wollte, naja was
  • 25:11 - 25:16
    schreibt der Typ denn sonst noch. Bei dem
    zweiten Buch war es so, dass ich den Autor
  • 25:16 - 25:18
    kenne und er hat mich zur Lesung
    eingeladen - da wollte ich mich vorher
  • 25:18 - 25:23
    schlau machen, worum geht denn eigentlich
    bei der Veranstaltung? Und bei dem dritten
  • 25:23 - 25:27
    Buch ist es schlichtweg so, wir sind beim
    selben Verlag. Ich wollte einfach gucken,
  • 25:27 - 25:33
    was hat der Verlag bei dem ich bin, sonst
    noch in der Sachbuchsparte? Das heißt
  • 25:33 - 25:40
    Clickstream oder das Bild, das aus meinem
    Clickstream generiert wird, und die
  • 25:40 - 25:46
    Person, die ich bin, sind womöglich zwei
    ganz unterschiedliche Dinge. Nehmen wir
  • 25:46 - 25:50
    mal das Thema Gesundheit, da wird es noch
    viel deutlicher. Ich hab mir Schnaps
  • 25:50 - 25:57
    angeguckt, dafür gibt's sogar eine eigene
    Kategorie bei Amazon: Alkohol. Man könnte
  • 25:57 - 26:02
    ja jetzt Vermutungen anstellen, warum
    interessiere ich mich für Schnaps. Naja,
  • 26:02 - 26:05
    vielleicht habe ich ja gesundheitliche
    Probleme und möchte ein bisschen
  • 26:05 - 26:10
    Selbstmedikation betreiben. Ich habe mir
    tatsächlich ein Buch über Arthrose
  • 26:10 - 26:15
    angeschaut - ne ziemlich schwere Krankheit
    - und was noch viel erschreckender ist,
  • 26:15 - 26:21
    ich habe mir nicht nur ein, zwei, drei,
    sondern sehr viele Bücher zum Thema Krebs
  • 26:21 - 26:28
    angeschaut. Hier exemplarisch eins mit dem
    Titel "Krebs natürlich heilen". Und wenn
  • 26:28 - 26:31
    man diese - meinen Clickstream - so
    anschauen würde, würde man ja denken,
  • 26:31 - 26:38
    Katharina Nocun ist ein gesundheitliches
    Wrack. Aber wie sieht es denn wirklich
  • 26:38 - 26:41
    aus? Ich muss sagen, dieser Gin ist
    wirklich gut, ich trinke ihn wirklich
  • 26:41 - 26:43
    gerne.
    Lachen
  • 26:43 - 26:48
    K: Die Bücher über schwere Krankheiten
    habe ich mir aber deshalb angeschaut, weil
  • 26:48 - 26:53
    ich eine Recherche betrieben habe. Ich
    wollte wissen, wie hoch ist der Anteil an
  • 26:53 - 27:00
    esoterischen Quatsch-Büchern in der Amazon
    Bestsellerliste beim Thema Gesundheit. Und
  • 27:00 - 27:05
    diese Intention sieht man aber nicht, wenn
    man nur den Clickstream sieht. Ich habe
  • 27:05 - 27:09
    weder Krebs, noch Arthrose, noch
    irgendwelche Anzeichen dafür. Interessant
  • 27:09 - 27:14
    wird es auch bei der politischen
    Einstellung. In meinem Clickstream finden
  • 27:14 - 27:18
    sich unglaublich viele Bücher die sich mit
    dem Thema AfD auseinandersetzen und zwar
  • 27:18 - 27:27
    einmal kontra AfD, aber auch Bücher von
    rechten, rechtsextremen Autoren und
  • 27:27 - 27:33
    Verschwörungstheoretikern. Und wenn man
    nur meinen Clickstream betrachtet, wird
  • 27:33 - 27:37
    man mich glaube ich für eine ziemlich
    merkwürdige bis unsympathische Person
  • 27:37 - 27:43
    halten. Und man wird denken, die ist
    rechts. Tatsächlich war es natürlich so,
  • 27:43 - 27:46
    ich setze mich kritisch mit der AfD in
    meinem Blog auseinander und habe
  • 27:46 - 27:50
    recherchiert und da recherchiert man...
    Applaus
  • 27:50 - 27:53
    L: Ja, die AfD kann wirklich niemand
    unterstützen, das muss man hier mal echt
  • 27:53 - 27:57
    sagen.
    K: Ja und da wollte ich mir natürlich auch
  • 27:57 - 28:02
    ein bisschen angucken, naja, was schreibt
    denn so die rechte Ecke oder was
  • 28:02 - 28:06
    publizieren so ein paar Scharfmacher aus
    der rechten Ecke und wie hoch ist das
  • 28:06 - 28:12
    eigentlich bei den Amazon Bestsellerlisten
    gerankt. Und wer aber nur meinen Datensatz
  • 28:12 - 28:15
    sieht, der sieht das nicht - der wird mich
    vielleicht für rechtsextrem halten.
  • 28:15 - 28:22
    Interessant werden solche Zusammenhänge,
    wenn man sich überlegt, wer ein Interesse
  • 28:22 - 28:27
    an solchen Daten haben könnte. Denn wo
    Daten sind, entstehen schnell
  • 28:27 - 28:32
    Begehrlichkeiten und natürlich gibt es
    auch Behörden, die durchaus ein Interesse
  • 28:32 - 28:37
    daran haben können, solche Nutzerdaten
    abzufragen und zwar alles was da ist und
  • 28:37 - 28:42
    wenn der Clickstream da ist, dann wird er
    auch abgefragt. Und stellen wir uns mal
  • 28:42 - 28:47
    vor, ein Polizeibeamter kommt auf die
    Idee, die Katha, die ist vielleicht cyber-
  • 28:47 - 28:52
    kriminell oder vielleicht ist sie auch ein
    potenzieller Gefährder oder von ihr geht
  • 28:52 - 28:57
    eine drohende Gefahr aus. Und wir wollen
    jetzt gezielt mal gucken, ob es
  • 28:57 - 29:05
    irgendwelche Indizien gibt, die diese
    These stützt. Was sehen diese Leute? Naja,
  • 29:05 - 29:13
    zunächst einmal findet sich auf meiner
    Liste ein sogenanntes Killerspiel. Es ist
  • 29:13 - 29:19
    schon mal extrem sympathisch aus, wenn man
    aus Behördensicht da mal draufguckt. Dann
  • 29:19 - 29:24
    habe ich mir auch noch angeschaut, ein
    schwarzes T-Shirt mit einem Aufdruck auf
  • 29:24 - 29:30
    dem steht "Chemist - only because
    superwoman is not an official job title".
  • 29:30 - 29:36
    Man könnte also denken, ich habe durchaus
    interessante Skills und Hobbys. Als
  • 29:36 - 29:44
    Nächstes ein verdächtig aussehender
    Gegenstand - ein Kochtopf, und eine
  • 29:44 - 29:51
    Sturmmaske. Ja und ich weiß nicht, wie ihr
    das seht, aber aus Behördensicht wird das
  • 29:51 - 29:54
    überhaupt nicht gut für mich aussehen,
    wenn man schon mal mit der Brille
  • 29:54 - 29:59
    draufguckt, naja die könnte was planen,
    die könnte gefährlich sein. Ich glaube, an
  • 29:59 - 30:02
    der Stelle wäre es dann höchste Zeit für
    einen Hausbesuch. Aber ihr könnt euch
  • 30:02 - 30:09
    natürlich denken, es gibt eine total
    einfache und harmlose Erklärung für jedes
  • 30:09 - 30:16
    Produkt. Genau, "könnte ja jeder sagen",
    kommt hier vorne aus dem Publikum. Das
  • 30:16 - 30:20
    wäre dann das Gegenargument und damit habe
    ich schlechte Karten. Und ich weiß nicht,
  • 30:20 - 30:25
    wie es euch geht, aber ich finde so eine
    Möglichkeit, sich zu überlegen, was allein
  • 30:25 - 30:30
    aus so einem Datenabfall an Konsequenzen
    für mich entstehen könnte im Worst Case
  • 30:30 - 30:34
    Szenario, extrem bedrohlich.
    L: Genau, denn Katha hat mir ihr Vertrauen
  • 30:34 - 30:38
    geschenkt, dass ich die Daten anschaue und
    vertraulich behandele. Wie sieht das aber
  • 30:38 - 30:45
    Amazon? Amazon ist groß, ziemlich groß,
    hat ungefähr 300 Millionen Nutzer und ich
  • 30:45 - 30:48
    habe die Analyse für eine Person gemacht.
    Amazon kann natürlich die Analyse für alle
  • 30:48 - 30:52
    Nutzer machen und erkennt darin Muster und
    weiß am Ende auch, welches Produkt mit
  • 30:52 - 30:59
    welchem im Warenkorb landet.
    K: Ja und was bedeutet im Warenkorb
  • 30:59 - 31:03
    landet, ne? Amazon weiß beispielsweise,
    was kaufen Leute, die auch dieses Produkt
  • 31:03 - 31:10
    gekauft haben. Ein einfachstes Beispiel
    ist ja die Feinwaage, ne. Als Koch möchte
  • 31:10 - 31:14
    man vielleicht exakt wissen, wieviel muss
    hier rein und wieviel hab ich jetzt hier
  • 31:14 - 31:19
    rein getan. Und wenn man das aber kaufen
    will, kriegt man direkt so diese geilen
  • 31:19 - 31:21
    Produktvorschläge.
    Lachen
  • 31:21 - 31:29
    K: Durchaus ein Zeichen dafür, dass es
    auch andere Verwendungszwecke für
  • 31:29 - 31:36
    Feinwaagen gibt. Und ihr lacht, aber das
    kann wirklich ernsthafte Konsequenzen für
  • 31:36 - 31:40
    einen Menschen haben, wenn er vielleicht
    ohne es zu wissen in einer Schublade
  • 31:40 - 31:44
    landet, mit der überhaupt nichts am Hut
    hat. Anderes Beispiel: Wenn ich jetzt nach
  • 31:44 - 31:50
    einem Glasschneider bei Amazon suche,
    kriege ich eine Sturmmaske empfohlen.
  • 31:50 - 31:55
    Lachen
    K: Was man bei Reitequipment empfohlen
  • 31:55 - 32:01
    bekommt, kann sich der eine oder andere
    vielleicht denken. Und das ist ein
  • 32:01 - 32:05
    Problem, denn ich weiß nicht, wie es euch
    geht, aber ich möchte gerne wissen in
  • 32:05 - 32:09
    welchen Schubladen ich lande und ich
    möchte da vielleicht auch mitreden, wenn
  • 32:09 - 32:13
    diese Schubladen mir unangenehm sind. Oder
    vielleicht finde ich auch, dass es gewisse
  • 32:13 - 32:18
    Schubladen einfach nicht geben sollte. Und
    das Problem ist, dass ich bei meiner
  • 32:18 - 32:23
    Datenabfrage eben nur diesen winzigen
    kleinen Mosaikstein aus dem großen
  • 32:23 - 32:26
    Datensatz bekommen habe, aber die
    eigentliche Information über die
  • 32:26 - 32:30
    Möglichkeiten der Auswertung für diesen
    einen Datensatz, die kann ich erst
  • 32:30 - 32:35
    vollumfänglich erfassen, wenn ich das
    Ganze kenne. Das wird aber Amazon nicht
  • 32:35 - 32:38
    rausrücken und Amazon wird auch keine
    Algorithmen zu Suchvorschlägen oder
  • 32:38 - 32:42
    sonstwas rausrücken, denn das ist
    natürlich ein Geschäftsgeheimnis. Ich
  • 32:42 - 32:46
    denke aber das sind die eigentlich
    spannenden Daten, die wir brauchen, um uns
  • 32:46 - 32:50
    wirklich ein Bild davon zu machen, wie
    dieses Unternehmen uns sieht und wie
  • 32:50 - 32:54
    dieses Unternehmen uns auch gezielt
    manipuliert, um uns beispielsweise
  • 32:54 - 33:06
    einzureden, dass wir mehr kaufen sollen.
    Applaus
  • 33:06 - 33:13
    K: Und ich weiß nicht, wie ihr das seht,
    aber der Name "Amazon" ist super passend.
  • 33:13 - 33:17
    Also, ich weiß nicht wer auf die Idee gekommen
    ist damals, aber es ist ein Knüller. Der
  • 33:17 - 33:23
    Amazonas ist der größte Strom Südamerikas
    und er speist sich aus unglaublich vielen
  • 33:23 - 33:28
    kleinen Bächen und Flüssen. Und genauso
    ist es ja mit Amazon, ja? Ich habe in
  • 33:28 - 33:33
    meinem Experiment nur einen einzigen
    Dienst von Amazon genutzt. Ich hätte den
  • 33:33 - 33:37
    Versuch aber natürlich auch ganz anders
    machen können. Was wäre dann gewesen, wenn
  • 33:37 - 33:44
    ich beispielsweise während der kompletten
    Zeit alle Videos, alle Filme nur noch mit
  • 33:44 - 33:49
    Amazon Prime gesehen hätte? Was wäre
    gewesen, wenn ich mich entschieden hätte
  • 33:49 - 33:54
    in dieses Experiment Alexa, also Amazon
    Echo mit reinzufügen und mir dieses Ding
  • 33:54 - 33:59
    vielleicht ins Schlafzimmer zu stellen?
    Ich glaube der Datensatz wäre um einiges
  • 33:59 - 34:04
    aufschlussreicher und ich für meinen Teil
    habe an dieser Stelle ganz bewusst am
  • 34:04 - 34:09
    Anfang des Experiments entschieden, nein,
    das möchte ich nicht. Nein, es geht mir zu
  • 34:09 - 34:13
    weit. Ich stelle mir so ein Ding nicht in
    die Wohnung.
  • 34:13 - 34:22
    Applaus
    K: Und vor ein paar Wochen war ich dann
  • 34:22 - 34:26
    sehr froh, dass ich diese Entscheidung so
    getroffen hatte damals. Denn ich weiß
  • 34:26 - 34:30
    nicht ob ihr es mitbekommen habt. Es war
    groß in den Nachrichten, ein Nutzer hat
  • 34:30 - 34:35
    kürzlich bei Amazon seine Daten von Amazon
    Echo abgefragt und hat daraufhin den
  • 34:35 - 34:40
    Datensatz einer vollkommen anderen Person
    zurückbekommen. Nochmal so als Hinweis,
  • 34:40 - 34:50
    dass das Ding echt nicht ins Schlafzimmer
    gehört. Und ja, nochmal um es deutlich zu
  • 34:50 - 34:54
    machen. Wenn jemand wirklich all diese
    Dienste nutzt oder viele Dienste nutzt,
  • 34:54 - 34:56
    dann loggt ihr euch meistens mit derselben
    Amazon-ID ein.
  • 34:56 - 35:02
    L: Genau, das ist ja auch das, was in 'nem
    Amazon Datensatz gespeichert wurde. Also
  • 35:02 - 35:04
    wenn ihr woanders auf einen anderen Dienst
    geht, dann wird das einfach mitgeloggt,
  • 35:04 - 35:09
    egal ob das jetzt auch wegen der gleichen
    Login-Adresse ist. Ihr habt auf jeden Fall
  • 35:09 - 35:13
    auch das im Cookie stehen, welche ID ihr
    dahinter habt.
  • 35:13 - 35:16
    K: Und ihr fragt euch ja jetzt, das ist ja
    schön und gut dass du deine Daten hast,
  • 35:16 - 35:22
    das ist toll für mich, aber was ist mit
    meinen Daten und wie komme ich an die? Es
  • 35:22 - 35:25
    gibt viele Wege um an seine Daten zu
    kommen. Ich kann euch einfach mal
  • 35:25 - 35:30
    erzählen, wie ich das gemacht habe.
    Zunächst einmal: ich hab mir die AGB
  • 35:30 - 35:35
    durchgelesen - tatsächlich vollständig. Es
    ist ein ganz neues Erlebnis. Ich bin jetzt
  • 35:35 - 35:41
    top informiert.
    Applaus
  • 35:41 - 35:44
    K: Und ich habe mir die
    Datenschutzerklärung durchgelesen. Ja und
  • 35:44 - 35:49
    warum habe ich das gemacht? Sowohl in AGB
    und Datenschutzerklärung sind schon mal so
  • 35:49 - 35:54
    grob Datenkategorien angesprochen, und die
    kann ich mir notieren, damit ich so weiß, was
  • 35:54 - 35:58
    kann ich dann erwarten oder was sollte ich
    erwarten, was bei so einer Auskunft
  • 35:58 - 36:05
    rauskommen sollte. Zusätzlich habe ich
    meinen gesunden Menschenverstand benutzt,
  • 36:05 - 36:08
    um mal zu überlegen...
    Applaus
  • 36:08 - 36:15
    K: ...um mal zu überlegen, naja was kann
    ich denn nach den Gesetzen der Logik
  • 36:15 - 36:19
    erwarten. Also beispielsweise, ich bin auf
    Amazon, eine Woche später kriege ich eine
  • 36:19 - 36:22
    E-Mail, "wollen sie dieses Produkt nicht
    doch kaufen?", also müssen die für eine
  • 36:22 - 36:26
    Woche speichern, was ich geklickt hab. Und
    egal wie oft die sagen, "Nein, haben wir
  • 36:26 - 36:30
    nicht". Das ist eine Lüge weil sonst wird
    es technisch sehr schwierig sein, das
  • 36:30 - 36:35
    umzusetzen. Und aus diesen Informationen
    hab ich dann eine Checkliste gebaut mit
  • 36:35 - 36:39
    meiner Erwartungshaltung. Was erwarte ich,
    was in der vollständigen Antwort drin sein
  • 36:39 - 36:45
    sollte, und erst dann habe ich die Anfrage
    formuliert und gestellt. Und ich kann gar
  • 36:45 - 36:50
    nicht oft genug betonen, wie wichtig es
    ist, bei Anfragen immer 'ne Frist zu
  • 36:50 - 36:55
    nennen. Ohne Frist wird sich da niemand
    bewegen. Zwar gibt es nach der
  • 36:55 - 36:59
    Datenschutz-Grundverordnung einen
    Zeitrahmen, in dem die euch antworten
  • 36:59 - 37:04
    sollten, idealerweise innerhalb von einem
    Monat, aber es schadet nicht, diese Frist
  • 37:04 - 37:08
    trotzdem nochmal explizit reinzuschreiben
    und auch sofort nochmal zu erinnern, wenn
  • 37:08 - 37:13
    die Zeit überschritten wird. Und
    motivierend kann natürlich auch sein, wenn
  • 37:13 - 37:16
    man noch reinschreibt, naja wenn ihr nicht
    antwortet - müsst ihr wissen, aber dann
  • 37:16 - 37:23
    wenn ich mich an die Aufsichtsbehörden.
    Mit der Anfrage ist es leider noch nicht
  • 37:23 - 37:28
    getan. Wenn ihr so eine Anfrage stellt,
    stellt euch auf eine Brieffreundschaft ein
  • 37:28 - 37:33
    - ist ja vielleicht auch etwas Schönes,
    wenn ihr diese Anfrage stellt, werdet ihr
  • 37:33 - 37:37
    zuerst mit hoher Wahrscheinlichkeit die
    Antwort zurückbekommen: "Naja, schauen Sie
  • 37:37 - 37:41
    mal in Ihrem Profil nach, da sind all Ihre
    Daten". Das ist natürlich Quatsch, das ist
  • 37:41 - 37:45
    nur ein Bruchteil von den Daten, die ihr
    eigentlich haben wollt. Also verschicken
  • 37:45 - 37:51
    wir einen "friendly reminder". Als
    nächstes kommt vielleicht ein Brief oder
  • 37:51 - 37:55
    eine E-Mail: "Ja, wir haben hier ihre
    Daten" und dann schaut ihr da rein und
  • 37:55 - 38:00
    denkt so, okay, da hat jemand die Profildaten
    jetzt nochmal in PDF gepackt oder
  • 38:00 - 38:02
    ausgedruckt. Hmm.
    L: Ausgedruckt und wieder eingescannt.
  • 38:02 - 38:07
    K: Genau. Auch nicht das, was wir haben
    wollen - solltet ihr euch gar nicht drauf
  • 38:07 - 38:13
    einlassen, damit zufrieden geben. Also
    wieder "friendly reminder". Dann habt ihr
  • 38:13 - 38:18
    das nächste Level erreicht. Dann wird
    irgendwann die Einsicht kommen so "Huch,
  • 38:18 - 38:21
    wir haben ein paar Daten gefunden, wir
    haben die Ihnen jetzt mal geschickt". Das
  • 38:21 - 38:28
    ist so die Stelle mit der CD und an der
    Stelle wird's eben spannend. Die
  • 38:28 - 38:31
    Wahrscheinlichkeit, dass ihr dieses Spiel
    ein paar Mal wiederholen müsst, ist sehr
  • 38:31 - 38:35
    hoch. Und irgendwann, wenn ihr das oft
    genug wiederholt habt, habt ihr dann euren
  • 38:35 - 38:40
    Datensatz. Und diesen Datensatz könnt ihr
    dann nach Belieben durchsuchen,
  • 38:40 - 38:45
    durchforsten, analysieren, und glaubt mir,
    es lohnt sich. Denn es ist eine Sache,
  • 38:45 - 38:49
    abstrakt zu wissen, dass man überwacht
    wird auf Schritt und Klick, und etwas
  • 38:49 - 38:53
    vollkommen anderes, seinen eigenen
    kaputten Schlafrhythmus der letzten
  • 38:53 - 38:57
    anderthalb Jahre vor sich zu sehen.
    Lachen
  • 38:57 - 39:01
    K: Und das ist etwas, das würde ich keinem
    Einzelhändler anvertrauen wollen.
  • 39:01 - 39:05
    Applaus
    K: Und ich habe mir danach die Frage
  • 39:05 - 39:09
    gestellt, möchte ich das? Und jeder, der
    so einen Datensatz sieht, wird sich diese
  • 39:09 - 39:13
    Frage zwangsläufig auch stellen. Und in
    meinem Fall war es dann so, dass ich mich
  • 39:13 - 39:19
    entschieden habe, in Zukunft meine
    gebrauchten Bücher direkt beim Anbieter zu
  • 39:19 - 39:22
    kaufen, nicht mehr über Amazon Marketplace.
    Das ein oder andere Mal hab ich damit
  • 39:22 - 39:27
    sogar Geld gespart.
    Applaus
  • 39:27 - 39:32
    K: Und die Information darüber, was der
    Dienst speichert, ermöglicht uns ja auch
  • 39:32 - 39:36
    vielleicht zu sagen, ich nutze den Dienst
    in Zukunft anders oder aber ich nutze ihn
  • 39:36 - 39:40
    vielleicht gar nicht mehr. Und wenn ihr
    ihn gar nicht mehr nutzt, dann würde ich
  • 39:40 - 39:45
    empfehlen, naja dann könnt ihr auch so ein
    Löschantrag verschicken. Kostet nix. Ist
  • 39:45 - 39:52
    auch vielleicht eine kurze
    Brieffreundschaft und wir haben uns bei
  • 39:52 - 39:58
    diesem Vortrag auch überlegt, dass wir
    nicht sagen wollen, das ist ein
  • 39:58 - 40:03
    individuelles Problem von Nutzerinnen und
    Nutzern, die Amazon nutzen. Nein, das
  • 40:03 - 40:07
    Problem ist, dass Amazon ähnlich agiert
    wie andere Dienste auch, um mal ehrlich zu
  • 40:07 - 40:13
    sein. Überwachung ist längst zur
    Standardeinstellung geworden. Und was das
  • 40:13 - 40:16
    für den Einzelnen bedeutet, das wollten
    wir sichtbar machen, aber wir finden
  • 40:16 - 40:22
    trotzdem, wir müssen alle gemeinsam dafür
    kämpfen, dass Datenschutz, Privatsphäre,
  • 40:22 - 40:27
    Datensparsamkeit verdammt nochmal die
    Standardeinstellung ist
  • 40:27 - 40:37
    großer Applaus
    K: Ja und damit sind wir auch schon am
  • 40:37 - 40:42
    Ende. Mehr Infos und Formulare für eigene
    Datenanträge, Auskünfte, Löschanträge
  • 40:42 - 40:46
    findet ihr bei mir im Blog.
    L: Und wer sich für die Datenanalyse
  • 40:46 - 40:50
    interessiert, da veröffentliche ich gleich
    auf Ama..., ach auf Amazon... auf
  • 40:50 - 40:52
    GitHub...
    Lachen
  • 40:52 - 40:56
    L: ...ein Repository, wo sich jeder auch
    die Daten anschauen kann und sich selber
  • 40:56 - 41:00
    seinen eigenen kaputten Schlafrhythmus mal
    angucken kann.
  • 41:00 - 41:03
    K: Vielen Dank!
    L: Dankeschön!
  • 41:03 - 41:05
    Herald: Ja wunderbar!
    Applaus
  • 41:05 - 41:08
    Herald: Einen großen Applaus!
    großer Applaus
  • 41:08 - 41:10
    Abspannmusik
  • 41:10 - 41:15
    Untertitel erstellt von c3subtitles.de
    im Jahr 2020. Mach mit und hilf uns!
  • 41:15 - 41:32
    Abspannmusik
Title:
35C3 - Archäologische Studien im Datenmüll
Description:

more » « less
Video Language:
German
Duration:
41:32

German subtitles

Revisions