33C3 Vorspannmusik Herald: Ich habe vorhin erzählt, dass Snowden uns heute zugeschaltet wurde und er hat uns aufgerufen, etwas zu tun. Heute hören wir hier einen Talk, und zwar „build your own NSA“ – „baue deine eigene NSA“. Geheimdienste sammeln Daten, aber sie sind nicht die Einzigen. Es gibt auch die so genannten Datenkraken – an wen denken wir da alle? An Google, an Facebook. Wer hier hat einen Google-Account, Hände hoch, traut euch! Des sind ganz schön viele. Wer hat einen Facebook-Account? Es sind allerdings nicht nur die großen Firmen wie Facebook oder Google, die Daten sammeln. Es sind auch die kleineren Firmen oder unbekannte, wo wir die Namen noch nie gehört haben und Leute, wo wir es nicht erwarten, wie zum Beispiel ich auf der Bühne. Ich weiß jetzt wer einen Google- und wer einen Facebook-Account bei euch hat. Vielen Dank für die Info. Diese Firmen, oder auch ich, könnte jetzt hingehen, diese Daten tauschen oder einfach an die Leute die zahlen, verkaufen. Mein kleines Experiment hier war ziemlich lächerlich und natürlich banal, aber Svea Eckert und Andreas Dewes haben ein größeres Experiment gemacht mit einfachen Techniken des Social Engineerings und rausgefunden, was für Daten gesammelt werden können. In diesem Talk werden sie uns nicht nur erzählen, wer, warum und wie Daten sammelt sondern ob es auch noch eine Möglichkeit gibt, unsere Privatsphäre zu schützen. Andreas ist Data Scientist und entwickelt Technologien, damit wir Wissen aus Daten extrahieren können. Svea ist freiberufliche Journalistin und recherchiert IT-Themen und berichtet darüber für die Tagesschau und die Tagesthemen. Sie hat auch mitgewirkt bei Dokumentationen zu Themen wie Wikileaks, Facebook und dem NSA-Skandal, wo gerade Edward Snowden einen großen Teil eingenommen hat. Ich freue mich herzlich, die beiden hier zu begrüßen und bitte euch jetzt um einen ganz, ganz lauten Applaus für die beiden und wünsche euch allen viel Spaß. Applaus Svea Eckert: Danke. Andreas Dewes: Ja, hallo zusammen, also wir freuen uns natürlich, dass wir hier sein dürfen heute, ich hab wie gesagt die Datenanalyse für die Recherche hier gemacht und darf mich daher erstmal entspannen jetzt und übergebe dann das Wort an Svea. S: Ja ich bin Svea Eckart, arbeite für den NDR, beziehungsweise die ARD, und wir haben ’ne große Recherche gemacht, die ging über den ganzen Sommer und mündete in der relativ aufsehenerregenden Berichterstattung Anfang November unter dem Hashtag #NacktImNetz – der Eine oder Andere hat vielleicht dazu sogar was gesehen. Was wir wissen: Also: Wir wissen, dass, wenn wir uns im Netz bewegen dass Firmen das mitbekommen. Dass Firmen unser Verhalten aufzeichnen und zumindest ein Stück weit sind da verschiedene Parteien beteiligt, die sehen, auf welcher Webseite wir z. B. sind. Also hier jetzt mit einem kleinen Tool, nur so kurz analysiert, sind das jetzt 68 Parteien, die wissen, dass ich auf dieser Webseite bin und die zum Teil auch die Möglichkeit haben, mich durchs Netz zu verfolgen. Ich denke, jeder hier im Publikum weiß das und – also das ist bekannt. Trotzdem stört es die Allerwenigsten Also die allermeisten Internetnutzer sagen „Ich habe doch nichts zu verbergen“ „Da wird schon nichts böses damit passieren, die machen ja nichts mit meinen Daten, is ja sowieso nur für Werbezwecke“ Und wenn man mal in der Industrie nachfragt, dann ist die Aussage „Also diese Daten werden total gut anonymisiert“ „Da stecken wir ganz, ganz großen Aufwand rein“ „Und verkaufen? Das macht niemand!“ „Sowas würde niemand tun“ Wirklich? Das wollten wir genauer wissen: Wie komme ich an solche Daten? Ich gründe eine Firma. Ich habe also im Juli eine Webseite aufgesetzt – das ist relativ trivial. Content Management System, paar schöne Fotos, Stockphotos und ein bisschen Marketing-Sprech. Meine Firma „Meez Technology“, die Vereinigung von Technologie und Kreativität, macht Data-Driven-Consulting und bot Kunden an, Customized-Campaigns zu machen. Was brauchen wir dafür? Ganz viele Nutzer-Daten. Und diese Nutzer-Daten, an die wollte ich gelangen. Da brauchte ich eine tatkräftige Mitarbeiterin, hier ist sie. Ich habe sie mitgebracht: Anna. “Hello, Anna Rosenberg speaking! Hello, hello?” Anna Rosenberg arbeitet also für Meez Technology, sitzt in Tel Aviv, spricht kein Wort Hebräisch, konnte ich mir dann nicht aneignen für die Recherche, war aber nicht schlimm, hat auch niemand nachgefragt und ich hatte Tel Aviv ausgesucht, obwohl ich die Stadt eigentlich gar nicht kenne, aber ich hatte Tel Aviv ausgesucht, weil mir jemand sagte, Israel sei ziemlich gut für Daten, da wär man nicht so spitzfindig und ich sollte ja kein deutsches Unternehmen gründen sonst würde ich gar nichts bekommen. Also habe ich Meez Technology in Israel angesiedelt und Anna Rosenberg hat sich auf Telefon-Jagd gemacht. Das waren die Firmen, die in Frage kamen. Die Firmen, die von uns Internetnutzern Daten sammeln, die Daten verarbeiten. Meine Frage an diese Firmen war, ob sie mir als junges, aufstrebendes Startup ihre Daten verkaufen würden. Oder viel eher noch, ob sie mir ein kostenloses Sample geben würden, weil ohne ein kostenloses Sample könnte ich die Qualität der Daten gar nicht beurteilen. Ich habe ziemlich viele von diesen Firmen angerufen, angeschrieben, deren Webseiten mir angeschaut. Ihr seht dass es ein gigantisches Universum ist und es sind noch längst nicht alle. Besonders interessant sind diese Firmen hier. Die machen sozusagen, die analysieren den Internetmarkt, reichern Daten an, das sind so ziemlich wichtige Player in diesem ganzen Spiel. Weil um den Internetmarkt zu analysieren, brauchen die sehr viele Daten. Und, Ja, der eine oder andere war dann auch tatsächlich bereit, mir ein kostenloses Sample zur Verfügung zu stellen, damit ich die Güte, die Qualität seiner Daten einordnen konnte. Also ein kostenloses Sample. Dieses Sample kam dann auch. Also eines ist besonders groß, deswegen ist es auch das, worüber wir dann sprechen. Was war da drin? Also wir hatten 14 Tage so eine Art quasi Live-Zugriff auf Nutzerdaten. Sprich: Nutzerdaten, die sich immer wieder aktualisiert haben, die immer wieder frisch waren. Das waren 3 Millionen deutsche Nutzer in diesem Datensatz und das waren sozusagen die Klickstream-Daten von einem Monat. Das Klick-Stream ist sozusagen das Buzzword für Browser-History. Am Anfang sind wir relativ explorativ mit diesem Datensatz umgegangen haben einfach mal ge-grep-t, und mal geschaut was passiert denn, wenn wir in diesem Datensatz nach @polizei.de suchen. Ich setz meine Brille wieder ab, weil Annas Teil ist nämlich jetzt durch. So, alles was ge-x-t ist, hab ich gemacht, um die Privatsphäre dieser Person zu schützen. So sieht das dann aus, wenns ein bisschen aufbereitet ist. Man sieht jetzt hier z. B. 01.08.2016 05:17 Uhr: Rechner an, Google. Dann wird relativ schnell nach einem Auto geschaut. 05:30 Uhr: Das habe ich jetzt mal offen gelassen, kann man dann auch alles gleich eingeben. Ah, alles klar, er sucht einen Volkswagen in der und der Kategorie. Interessant. Gut, jetzt wollen wir natürlich wissen: Was hat der mit der Polizei zu tun? Was für ein Mensch steckt hinter diesen Daten? Und wenn man jetzt sozusagen sich da mal ein bisschen durch scrollt durch diese Daten – ich hab das jetzt als Screen-Video gemacht, damit man mal so ein bisschen auch besser die Dimensionen begreifen kann, wie groß die Tiefe dieser Daten ist und wie intensiv die sind. Man kann also gucken: Was liest der, was sucht der und irgendwann ist er mal auf der Webseite von der deutschen Polizeigewerkschaft und auf dem deutschen Beamtenbund. Könnte ja ein Polizist sein. Schauen wir doch mal nach so einem typischen Wort wie Ermittlungsverfahren Ah! Ok. Ein Google-Translate-Link. Gelächter + Applaus Schauen wir doch mal. Schmeißen wir es mal in den Decoder. Da ist es! „Sehr geehrte Damen und Herren, im Rahmen eines hier bearbeiteten Ermittlungsverfahrens wegen Computerbetrugs“ – Aktenzeichen habe ich jetzt rausgenommen – „benötige ich Bestandsdaten zu folgender IP-Adresse“ – habe ich rausgenommen – Zeitstempel Und netterweise hat dieser Nutzer in Google-Translate auch seine E-Mail-Adresse mit übersetzen lassen, seinen Vor- und Nachnamen, den Ort und die Telefonnummer … So. Applaus Wir können jetzt schauen: Was erfahren wir über diesen Menschen in diesen Daten? Können also noch mal weiter scrollen durch sein Leben im Netz. Und sehen, dass er arbeitet, also sehen, ungefähr, dass er Malware-Submissions macht z. B., dass er IP-Adressen verfolgt, aber auch, dass er SWR hört und natürlich so die Peinlichkeiten im Leben Lachen - Applaus Sind da natürlich auch drin. Jetzt haben wir nur mal nach @polizei.de gesucht. Was wäre, wenn wir mal hier gucken? Haben wir auch gemacht. So sieht dann so eine Abfrage aus. Wenn man das so, sag ich mal so, explorativ einfach macht wie wir das gemacht haben. Wichtig ist das, was zwischen den Anführungszeichen steht. Man sagt mit diesem Befehl dem Computer: Gib mir alles, gib mir jeden Nutzer, der jemals diese Webseite besucht hat. Und man sieht also, dass auch Leute die, ich würde mal sagen, sicherheitskritisch sind, in diesen Daten drin sind. Was passiert nur, wenn man all diese Nutzer deanonymisieren würde? Könnte man sie denn alle deanonymisieren? Andreas: Ja, wie wir gesehen haben, ist es im besten Fall etwas peinlich, wenn man als Nutzer in solchen Daten identifiziert wird. Schlimmstenfalls kann es auch gefährlich sein für die eigene Person. Deswegen möchte ich in den nächsten 15 min ein bisschen darauf eingehen, was Deanonymisierung eigentlich heißt, wie das funktioniert und was das Problem dabei ist. Dafür können wir anfangen mit dem Datensatz. Also es gibt immer einen Datensatz von anonymisierten Nutzerdaten am Anfang, den man analysieren möchte und dieser Datensatz enthält viele verschiedene Eigenschaften und einige von diesen Eigenschaften zumindest sind sensitiv, das heißt, sie sind nach Datenschutzrecht geschützt und dürfen nicht mit einer bestimmten Person verknüpft werden, weswegen der Datensatz ja im Endeffekt auch anonymisiert wurde. Und statt einer Zuordnung zu einer konkreten Person hat man diesen Datensätzen daher einfach beispielsweise eine numerische ID oder einen Identifier, der keine Rückschlüsse—im Idealfall—auf die wirkliche Person, die sich hinter den Daten verbirgt, erlaubt. Auf der anderen Seite habe ich aber auch öffentliche Informationen z. B. aus dem Internet oder anderen Quellen, die ich mir frei zusammensuchen kann und und solche öffentlichen Informationen enthalten auch Eigenschaften von Personen und enthalten zudem oft den Namen oder andere Identifikationsmerkmale der Person, die also Rückschlüsse auf die wirkliche Person zulassen. Und Deanonymisierung beinhaltet in diesem Sinne eine Suche nach Eigenschaften, die ich in beiden Datensätzen entweder direkt oder indirekt identifizieren kann und die mir erlauben, aufgrund von beispielsweise statistischen Verfahren oder machine learning die möglichen Kandidaten aus dem anonymisierten Datensatz so weit zu reduzieren, dass ich mit entweder absoluter Sicherheit oder mit relativ hoher Wahrscheinlichkeit sagen kann, dass ein Nutzer, den ich hier in den öffentlichen Daten gefunden habe, dem Nutzer in dem anonymisierten Datensatz entspricht. In dem Sinne habe ich diesen User dann deanonymisiert. Wie Svea gesagt hatte, ist der Datensatz, den wir bekommen haben, absolut unzureichend anonymisiert worden, d. h., das war sehr, sehr einfach möglich, aus den URL-Daten, die wir erhalten haben, entsprechende Nutzer und Personennamen zu extrahieren. Im Zweifelsfall hat dafür eine einzige URL ausgereicht. Hier habe ich zwei Beispiele. Einmal von Twitter und einmal von XING. Das sind also beides URLs, die Rückschlüsse entweder auf den Nutzernamen oder sogar auf den Klarnamen und weitere Angaben von der Person zulassen. Und das, was die Identifikation hier ermöglicht, ist bei der ersten Adresse oben, dass diese Analytics-Page nur – im Normalfall – dem eingeloggten Benutzer zur Verfügung steht, d.h. wenn ich diese URL in einem Datensatz sehe, kann ich mit relativ hoher Wahrscheinlichkeit davon ausgehen, dass der Nutzername, der hier auftaucht, dem Nutzernamen des anonymisierten Nutzers in meinem Datensatz entspricht. Im zweiten Fall ist es weniger offensichtlich. man kann also nur sehen, dass man hier eine öffentliche Profiladresse hat, die man auch so im Internet finden kann, was aber den Unterschied macht, ist dieses spezielle Query, das hinten dran hängt, und das nur in die URL hinzugefügt wird, wenn ich als eingeloggter Nutzer, auf mein eigenes Profilbild klicke d.h. hier ist wieder mit einer hohen Wahrscheinlichkeit die Möglichkeit gegeben, einen Nutzer der in den Daten drin ist, eindeutig mit dem Besitzer dieses Profils zu identifizieren. Und in unserm Datensatz haben wir über 100.000 Benutzer auf diese Weise identifiziert. Wir haben auch die beiden Firmen übrigens auf diese Sicherheitsprobleme aufmerksam gemacht. XING hat entsprechend schon Änderungen eingeführt und Twitter hält es nicht für ein Problem in diesem Sinne und möchte da keine Änderungen machen aktuell. Also als erstes Take-Away könnte man vielleicht von dem Vortrag auch mitnehmen, dass man bitte, bitte keine persönlich identifizierbaren Informationen in URLs packt. Wenn irgend möglich. Natürlich gibt’s noch etwas weitergehende Verfahren, um auch Datensätze zu deanonymisieren, die etwas besser anonymisiert wurden. Eine schöne Arbeit hierzu ist dieses Paper das aus dem Jahr 2007 stammt, und wo sich die Forscher mit einem Datensatz beschäftigt haben, der von Netflix publiziert wurde und der also anonymisierte Bewertungsdaten von Netflix-Usern enthielt. Der Datensatz wurde auf eine Datenanalyseplattform hochgeladen mit dem Ziel, dass andere Data-Sscientists, Datenforscher, sich mit den Daten auseinandersetzen können und auf die Weise bessere Bewertungs- oder Empfehlungsalgorithmen für neue Filme finden können. Und die Deanonymisierung dieses Datensatzes war in diesem Fall möglich ebenfalls durch die Nutzung von öffentlich verfügbaren Informationen – in diesem Fall war das beispielsweise Bewertungen, die Nutzer auf der Plattform IMDB abgegeben haben, wo also Nutzer auch Filme bewerten können wie bei Netflix und wo oft Nutzer-Accounts oder Konten mit dem wirklichen Namen des Benutzers verknüpft sind. Und die Forscher haben also geschafft, indem sie die Bewertung von IMDB herangezogen haben und diese mit den Bewertungen auf Netflix verglichen, die User auf Netflix mit einer hohen Wahrscheinlichkeit mit den Usern auf IMDB zu identifizieren D. h. hier war eine Deanonymisierung einfach dadurch möglich, dass es sehr, sehr viele mögliche Kombinationen von Filmen gibt und es sehr unwahrscheinlich ist, dass zwei Personen die gleiche Anzahl von Filmen auf die gleiche Weise bewertet haben. Und diese Technik kann man auch auf unseren Datensatz anwenden, dieser enthält wie gesagt ca. 3 Mrd. URLs von 9 Mio. Web-Domains und wurde von ca. 3 Mio. Usern generiert. So. Da die Daten wie gesagt unzureichend anonymisiert wurden, haben wir für die weitere Analyse einfach mal angenommen, dass der Anbieter wirklich ein Interesse daran hätte die Anonymisierung korrekt oder möglichst gut durchzuführen und dementsprechend sämtliche Informationen außer der Domain und der Nutzer-ID aus dem Datensatz entfernt d.h. wir haben alle Informationen weggeworfen, bis auf den Fakt: Hat dieser Nutzer, diese Domain in dem Zeitraum besucht? Ja oder nein? So - Also man könnte annehmen, dass diese starke Form der Anonymisierung doch ausreichend sein sollte, um die Nutzer davor zu schützen, wieder deanonymisiert zu werden. Wir haben weiterhin auch eine Auswahl getroffen von 1 Mio. Nutzern, von denen wir über 10 Datenpunkte haben, weil das die Analyse für die weiteren Schritte vereinfacht und für Nutzer, die relativ wenige Datenpunkte haben, auch die meisten Techniken nicht anwendbar sind. So. Wenn man sich jetzt die Verteilung der Häufigkeiten der Domains in dem Datensatz anschaut, Also hier auf der X-Achse ist immer der Popularitätsrang einer entsprechenden Domain aufgetragen d. h. je weiter links die Domain hier auftaucht, um so populärer ist sie. Man hat hier bspw . Google, Facebook und die anderen üblichen Kandidaten und auf der Y-Achse ist die Anzahl der URLs aufgetragen, die von dieser entsprechenden Domain in dem Datensatz stammen. Und wie man sieht: wenn man die 100 populärsten Domains nimmt, sind die schon bereits verantwortlich für mehr als 99% der gesamten Daten in unserem Datensatz. D. h. die meisten Seitenbesuche finden auf den Top 100 Domains dieser Liste statt. Und wie man sieht, fällt die Verteilung danach relativ schnell ab. Also es gibt eine Menge Domains, die nur ein paar hundert mal oder sogar nur 10 oder ein einziges mal von einem Nutzer besucht wurden. Das hilft uns bei der Anonymisierung, weil wir gleichzeitig die Möglichkeit haben, über diese populären Domains, die fast jeder User besucht hat oder von denen jeder User fast eine besucht hat, eine entsprechende Auswahl zu treffen und unsere Kombinatorik darauf anzuwenden aber wir auch gleichzeitig Long-Tail-Domains haben, die also nur von wenigen Nutzern besucht wurden und die entsprechend sehr gut sich eignen, um einzelne Nutzer wirklich mit wenigen Datenpunkten wieder zu identifizieren. So, den ersten Schritt, den wir machen müssen, um unsere Deanonymisierung vorzunehmen, ist das Katalogisieren der Nutzer. Dafür legen wir eine einfache Tabelle an, wo wir in jede Zeile entsprechend einen Eintrag für einen Nutzer machen und in jede Spalte einen Eintrag für eine Domain anlegen und jedes Element hier ist entweder Null oder Eins und ist genau Eins dann, wenn der entsprechende Nutzer die entsprechende Domain besucht hat, d. h., das ergibt eine Matrix mit 9 Mio. Einträgen für die Domains und 1 Mio. Einträgen für die User, wobei die meisten Elemente dieser Matrix Null sind. Und so eine Matrix lässt sich sehr effizient auch repräsentieren und kann leicht verarbeitet werden für die weiteren Schritte. So der Algorithmus,den wir einsetzen zu der Deanonymisierung ist wirklich sehr, sehr einfach. Wir generieren im 1. Schritt die Matrix M die ich gerade gezeigt habe, generieren dann weiterhin einen Vektor V und in diesen Vektor packen wir alle Domains, die wir aus anderen Informationsquellen, also aus unserer öffentlichen Information gewonnen haben und die wir vergleichen wollen mit den Nutzern, die sich in in dem Datensatz befinden d.h. für jede Domain die wir irgendwo gesehen haben, würden wir eine 1 in diesen Vektor schreiben und würden dann entsprechend den Vektor nehmen und mit der Matrix multiplizieren. Das Ergebnis enthält dann wieder für jeden Nutzer eine einzige Zahl und in dem wir den Maximalwert dieser Zahl nehmen können den Nutzer finden der in unserem Datensatz die beste Übereinstimmung hat mit den Domain, mit denen wir ihn vergleichen wollen. Also wirklich ein sehr, sehr einfaches Verfahren, das allerdings sehr robust und auch sehr, wie man sehen wird, effektiv ist für die Deanonymisierung So, das ist natürlich alles sehr abstrakt deswegen habe ich hier mal ein Beispiel von einem Nutzer, den wir zufällig ausgewählt haben aus unserem Datensatz und wir gehen jetzt einfach mal durch die einzelnen Punkte durch. Also hier würden wir jedes mal in jedem Schritt eine Domain hinzunehmen, die der Benutzer entsprechend besucht hat und dann schauen, um wie viele Nutzer verringert das die möglichen Nutzer in unserem Datensatz, die diese Domains besucht haben könnten. Wie wir sehen wir fangen hier links mit ca. 1,1 mio. Nutzern an, dann nehmen wir unsere 1. Domain das ist gog.com Das ist eine Gaming-Webseite und da sehen wir schon haben wir eine extreme Reduktion in der Anzahl der möglichen Nutzer in dem Datensatz. Weil jetzt nur noch 15.000 Nutzer dieser Domain drin sind, die wirklich diese Domain besucht haben und die der potentielle Nutzer sein könnten. Wie wir auch sehen ist dieser Nutzer Telekom-Kunde d.h. er hat auch diese kundencenter.telekom.de Domain besucht. Was nochmal die Anzahl der möglichen Nutzer in dem Datensatz extrem reduziert. In diesem Falle auf 367. Er ist auch Sparda-Bank-Kunde, weswegen wir auch diese banking.sparda.de hinzunehmen können, was nochmal die Anzahl auf 11 reduziert und das finale Stück des Puzzles, das wir noch benötigen ist hier die Information, dass der Nutzer handelsblatt.com unterwegs war, was dann nur noch einen einzigen Nutzer ergibt in unserem Datensatz, der mit diesen Daten kompatibel ist. D.h. hätten wir diese vier Informationen aus öffentlichen Quellen extrahiert, könnten wir schon mit Sicherheit sagen, welcher Nutzer in unserem Datensatz hier entsprechend der richtige Nutzer ist. So jetzt ist natürlich die Frage: Wie gut funktioniert das Verfahren in Abhängigkeit auch davon, wieviele Informationen ich denn überwachen kann von dem Nutzer. Wir haben ja gesehen, das wir in unserem Datensatz eigentlich den Nutzer komplett überwachen können, D.h. wir können jede URL sehn, die der Nutzer mit seinem Browser aufgerufen hat Aber viele Trecker sehen ja im Prinzip nur einige hundert oder vielleicht einige tausend oder zehntausend Domains, auf den entsprechende Skripte installiert sind. Was ich deswegen hier zeige, ist die Effektivität dieser Methode in Abhängigkeit der Anzahl der Domain die ich zur Verfügung habe. Wir fangen also an hier links, wo nur die Top 50 Domains in unserem Datensatz zur Verfügung hätten und schauen uns an, wenn wir zufälliges Sample von Usern, in diesem Fall 200, versuchen zu deanonymisieren, wo befindet sich denn der korrekte User unter all den Nutzern, die wir in dem Datensatz haben. Man sieht hier für 50 Domains ist das ungefähr 160. D.h. es gibt 160 andere Nutzer im Schnitt, die eine höhere Wahrscheinlichkeit haben, mit den Daten übereinzustimmen, als der wirklich gesuchte Nutzer. So, wenn wir jetzt die Anzahl der Domains allerdings erhöhen: also wir können z.B. auf 100 gehen, sehen wir, das der Wert schon rapide abfällt. D.h. hier habe ich schon die Anzahl der möglichen Nutzer, die zu einem wirklichen Nutzer gehören könnten extrem reduziert. Auf ungefähr 25 und wenn ich die Anzahl der Domains entsprechend erhöhe auf 200 oder 300 sogar, bin ich sehr schnell auch in der Lage wirklich den Nutzer eindeutig wieder zu identifizieren . Also es gibt keine Fehler, in diesem Sinne dann, für die Identifikation eines bestimmten Nutzers. So, das ist natürlich alles graue Theorie und es stellt sich die Frage: Ist es überhaupt möglich, solche öffentlichen Informationen zu gewinnen oder ist das eher unwahrscheinlich, dass man an solche Informationen rankommen würde? Deswegen habe ich versucht anhand von den Daten, die wir haben und anhand von öffentlichen Informationsquellen wirklich Deanonymisierung durchzuführen, mit den Usern, die wir haben. Und ich zeige jetzt drei Beispiele. Das erste beruht auf der Analyse von Twitter-Daten. Da haben wir also einen Nutzer aus unserem Datensatz der einen Twitter-Account hatte zufällig rausgesucht. Haben uns dann angeschaut, welche URLs dieser Nutzer in dem entsprechenden Zeitraum, über den wir die Daten hatten, geteilt hat und haben dann aus diesen Tweets hier die entsprechenden URLs extrahiert, davon wieder Domains generiert oder extrahiert und diese Domains dann mit unserem Algorithmus genutzt. So. Wie wir sehen haben wir für diesen einen Nutzer dabei 8 Domains extrahiert über den entsprechenden Zeitraum. Also wir haben hier relativ populäre Domains wie GitHub, Change.org aber auch viele Blogs, Beispielsweise: rtorp.wordpress.com was nur von 129 Nutzern aus dem Datensatz besucht wurde und auch andere kleinere Webseiten. Wenn wir jetzt uns anschauen, welche Nutzer aus unserem Datensatz haben mindestens eine dieser Domains besucht, in dem entsprechenden Zeitraum, und die Nutzer gegen die Anzahl der Domains, die sie aus diesem Satz von Domains besucht haben auftragen, bekommen wir diese Grafik hier. Also die zeigt die ca. 110.000 Nutzer, die min. eine dieser Webseite besucht haben und zeigt gleichzeitig an: Wieviele von den entsprechenden Domains der Nutzer wirklich besucht hat. Und wir sehen: Also, es gibt sehr, sehr viele Nutzer, die min. eine hiervon besucht haben. Wenn wir allerdings hochgehen zu zwei, drei oder vier davon verringert sich die Anzahl sehr schnell. Und wir sehen hier, dass wir oben bei 7 einen einzigen Nutzer haben und dabei handelt es sich wirklich um den Nutzer, den wir entsprechend deanonymisieren wollten. D.h. hier ist eine Zuordnung mit 100%ger Sicherheit möglich für diesen Nutzer. Wir haben das auch für andere Nutzer durchgespielt. Wir konnten nicht immer den korrekten Nutzer rausfinden. Aber wir konnten in den meisten Fällen die Anzahl möglicher Nutzer auf ca. 10–20 reduzieren. Das zweite Beispiel, dass ich jetzt noch zeigen möchte, ist anhand von YouTube-Daten gemacht worden. Oft ist es so, dass viele Daten in solchen Datensätzen wirklich anonymisiert werden, aber bestimmte Daten davon ausgenommen werden, weil es ein starkes Interesse gibt, seitens der Unternehmen, diese zu nutzen. YouTube-Videos sind ein gutes Beispiel dafür, weil Unternehmen bspw. wissen möchten, welche Videos haben bestimmte Nutzer angeschaut, in welcher Kombination, um daraus für ihr Marketing Erkenntnisse abzuleiten. Und man könnte auch meinen, dass diese Information über öffentliche Videos, die eigentlich ja jeder sich anschauen kann im Internet, auch nicht sehr kritisch ist. Was wir gemacht haben deswegen, um zu zeigen, ob das wirklich so ist, ist, dass wir wieder aus unserem Datensatz einen Nutzer extrahiert haben, von diesem Nutzer die Favoritenliste der YouTube-Videos uns besorgt haben, die auch öffentlich ist im Normalfall, also man kann das Einstellen natürlich, das es nicht öffentlich ist aber 90% der User machen das nicht und haben das entsprechend dann in der Öffentlichkeit und haben uns aus dieser Liste per YouTube-API automatisiert sämtliche Video-IDs besorgt. Und mit diesen Video-IDs haben wir wieder unseren Algorithmus gefüttert, diesmal allerdings mit den kompletten URL-Daten, da die Domains halt nicht die Video-IDs enthalten. Ups... jetzt habe ich falsch gedrückt ha so... also Wie vorher haben wir also diese IDs, das sind ungefähr 20 und haben auf der anderen Seite sämtliche Nutzer, die min. 1 von diesen Videos angeschaut haben. Wie wir sehen können sind das in dem Fall ca. 20.000, wobei wieder eine Menge von den Nutzern sich min. 1 angeschaut haben. Aber die Anzahl der potentiellen Nutzer, die sich mehrere angeschaut haben rapide runtergeht. Und wir sehen hier Bspw. für vier oder fünf oder sechs haben wir nur noch eine Handvoll User und wir haben wieder einen Treffer, der hier ganz oben liegt, bei 9 angeschauten Videos und dabei handelt es sich wieder um den Nutzer, den wir im vorherigen Schritt extrahiert haben. Wir sehen also, es ist relativ einfach anhand von ner kleinen Anzahl von Datenpunkten, selbst aus ner sehr großen Anzahl von Nutzern, in diesem Fall über 1 Mio. Nutzer, entsprechend auf einen User zurückzuschließen. Und man muss dazu sagen, dass solche Verfahren, dass YouTube-Verfahren, sogar besser funktioniert hat, als die Anonymisierung über Twitter. Weil, ich schätze mal, die Verteilung der Videos und Anzahl der Videos auf YouTube noch mal höher ist als die Anzahl der entsprechenden Domains die wir zur Verfügung haben. D.h. eine YouTube-Video-ID ist in dem Sinne sogar ein stärkeres Deanonymisierungs-Signal als die entsprechende Domain aus dem Twitter-Feed. So, dass letzte Beispiel: dass ich zeigen möchte - basiert auf der Analyse von Geodaten. Dafür haben wir uns angeschaut, wie wir aus unserem Datensatz Geodaten extrahieren oder Koordinaten extrahieren können. Und wir haben rausgefunden, dass es relativ einfach über Google-Maps-URLs geht. Die also wenn man sich einen bestimmten Bereich anschaut meisten oben in der URL die geographischen Koordinaten enthalten. D.h. wir konnten aus unserem Datensatz einige Mio. von diesen Koordinatenpaaren extrahieren und die auch nach entsprechenden Nutzer gruppieren und können damit eine komplette Karte von der Nutzeraktivität anfertigen. Also wir sehen z.B. welche Kartenausschnitte sich User angeschaut haben. Wenn sie z.B. nach Urlaubszielen geschaut haben, vielleicht nach ihrem Arbeitsort, nach einem Weg, nach einer Wegbeschreibung. Und können diese Information also auch Nutzergenau verarbeiten. Und Geodaten sind besonders interessant hierfür, weil es sehr viel schwieriger ist, diese selbst zu ändern, da es ja relativ einfach ist seine Surfgewohnheiten oder Videogewohnheiten im Zweifelsfall anzupassen aber es relativ schwierig ist, bspw. die Arbeitsstelle oder den Wohnort oder sämtliche vertraute Orte zu wechseln. D.h. diese Information sehr, in diesem Sinne sticky, in dem Sinne, dass sie dem User über lange Zeit auch zuordenbar sind normalerweise. Und wir können auch wieder aus verschiedenen öffentlichen Quellen Informationen extrahieren. Bspw. aus Google-Maps oder auch über Flickr, wo auch viele Fotos geocodiert sind und können dann über diese Information ein Matching mit den Daten, die wir in unserem Datensatz haben, durchführen. Und hier ist es auch so, dass wir über eine relativ kleine Anzahl also weniger als 10 Datenp unkte im Idealfall, ähm Normalfall, den einzelnen Nutzer aus dem Datensatz extrahieren und identifizieren können. So, eine Frage die ich oft gestellt bekomme, ist: Kann ich mich verstecken in meinen Daten? Also, ist es möglich dadurch, dass ich mich unvorhergesehen verhalte, dass ich vielleicht Webseiten öffne, die ich normalerweise nie anschauen würde, dass ich den Algorithmus verwirre und dementsprechend nicht in den Daten auftauche werde? Da muss leider sagen, dass funktioniert vermutlich nicht, aus dem einfachen Grund, dass wir ja ein Matching machen über die Zuordnung von Eigenschaften, die entweder erfüllt oder nicht erfüllt sind und ich als einzelner Nutzer ja nur die Möglichkeit habe, zusätzliche Datenpunkte zu meinem persönlichen Vektor hinzuzufügen aber meistens keine Datenpunkte von diesem entfernen kann. D.h. wenn ich hier schon mit meinen bestehenden Datenpunkten zu 100% identifiziert bin, kann ich eigentlich so viele Punkte hinzufügen wie ich möchte und werde trotzdem nicht im normalfall von dem Algorithmus mit einem anderen User verwechselt werden können. D.h. diese Verfahren ist in dem Sinne sehr robust gegenüber der Perturbation oder der Änderung der Daten durch den Nutzer. Als kleines Zwischenfazit kann man also sagen, dass diese Art von Datensätzen die sehr viele Dimensionen und sehr viele Eigenschaften enthalten extrem schwierig zu anonymisieren sind und auch bei entsprechender Absicht man nicht immer sicher sein kann, dass Anonymisierungsmaßnahmen, die man ergreift, wirklich ausreichend sind, um sämtliche Nutzer oder sogar nur einen kleinen Teil von Nutzern in dem Datensatz zu schützen. Weiterhin ist es auch so, dass heute eigentlich immer mehr öffentlich verfügbare Informationen über Personen zur Verfügung stehen, die auch genutzt werden können, um Daten die anonymisiert wurden z.B. vor 10 Jahren oder vor 5 Jahren jetzt mit neuen Datenpunkten in dem Sinne besser zu deanonymisieren. D.h. es wird immer einfacher möglich, auch aus bestehenden Datensätzen entsprechende Nutzerdaten und Personen-Identifikationsmerkmale zu extrahieren. Und wie wir gesehen haben, reichen dafür oft eigentlich schon sehr wenige Datenpunkte aus, um wirklich einzelne Nutzer herauszusuchen und eindeutig zu identifizieren. S: Ja was bedeutet das? Was bedeutet das, wenn man mit seinen eigenen Daten konfrontiert wird? Also wenn jemand anders einen mit seinen Daten konfrontiert? Also z.B. Ich? Wir haben, die Recherche war für ein politisches Magazin und deswegen haben wir vor allem nach Politikern geschaut und auch die Politiker selbst oder deren Mitarbeiter gefunden in diesen Daten. Waren zwei Grüne dabei, drei von der SPD, darunter auch Mitarbeiter aus dem Büro von Lars Klingbeil, Netzpolitischer Specher, ein Europaparlamentarier und das zog sich sozusagen bis ins Kanzleramt und auch dort in einem Büro, bei einem Staatsminister bei der Bundeskanzlerin war auch ein Mitarbeiter betroffen. Wobei die Mitarbeiter fast interessanter sind als die Politiker selbst, weil die Mitarbeiter sehr viel inhaltliche Arbeit für die Politiker machen. Und auch sowas, wie deren Reisen planen, Kontakte herstellen. Jetzt wollte selbstverständlich nicht jeder gerne mit uns reden und vor allem nicht vor der Kamera. Einer hat es dann getan, das ist Valerie Wilms. Bevor wir sie jetzt mal hören, schauen mir doch erstmal in ihre Daten. lachen Sie hat es freigegeben für diesen Vortrag, sage ich noch dazu. Weil hier habe ich jetzt sozusagen wirklich nichts anonymisiert, wie in dem Datensatz davor. So 01.08., ist auch Frühaufsteherin, erst mal Banking... noch mal Banking... d.h. man kann also hier ziemlich gut sehen z.B. wo Leute ihre Konten haben. Auf die Konten selbst kann man nicht zugreifen, aber man weiß wo. Bisschen unangenehmer wird's dann für sie sozusagen Ende August, da haben viele Leute ihre in Deutschland ihre Steuererklärung gemacht. Das habe ich auch als Video nochmal. Da kann man nochmal so ein bisschen runterscrollen, Dann sehen wir ein bißchen mehr von ihrer Steuererklärung. Also man kann jetzt hier sozusagen auf Elster-Online nicht selbst zugreifen. Also wenn wir das jetzt machen würden, würden wir sozusagen nicht weiter kommen, weil dann auch nach einem Passwort verlangt wird. Aber wir können sehen, welche Vordrucke sie sich angeschaut hat. Und können so Informationen gewinnen, über Dinge, die sie gedenkt zu versteuern. Und es ist recht detailreich. Ja, was hat sie nur dazu gesagt, als wir bei ihr im Büro saßen? Wir können Sie einmal kurz hören dazu. Valerie Wilms: Ist rechts alles zu sehen? Scheiße! Gelächter Applaus S: Gab noch eine andere Geschichte, auf die wir sie angesprochen haben. Gibt ja nicht nur Steuererklärungen sondern man schaut ja auch sowas bei Google nach Tebonin nimmt man so bei Hörsturz, Tinitus, Abgeschlagenheit. Ist natürlich gerade für Politiker ein großes Problem, wenn solch Informationen an die Öffentlichkeit gelangen, Menschen dann falsche Schlüsse daraus ziehen oder auch, ja, die Leute damit erpressen können. Z.B. haben wir sie auch darauf angesprochen. Will ich die Reaktion nicht vorenthalten. Valerie Wilms: Ich weiß gar nicht in welchem Zusammenhang ich dieses Tebonin mir da angeguckt habe, das ist nicht schön, sowas nachträglich zu lesen. Vor allen Dingen verknüpft mit dem eigenen Namen. S: Ja, das war Valerie Wilms zu ihren Daten. An diesem ganz kleinen Ausschnitt sieht man wie Problematisch diese Daten sind. Ich hab jetzt nicht die Beiträge gezeigt, wo Menschen ihre sexuellen Vorlieben ausleben. Weil, dass betrifft natürlich auch Leute, die in öffentlichen oder in relevanten Positionen stehen. Natürlich sind auch Richter in diesen Daten. Natürlich sind auch Wirtschaftsbosse in diesen Daten. Und natürlich sind das alles Menschen und die haben Träume und die haben Gedanken, und es überhaupt nichts, was in dritte Hände gehört. Und deshalb war mit allen mit denen wir gesprochen haben, im Zuge dieser Recherche, war das für alle Betroffenen sehr schockierend. Aber wer hat sie ausgespäht? Woher kommen diese Daten? War es irgendwie ein shady Trojaner oder so auf dem Rechner? Nein. Wir sind relativ schnell drauf gekommen, dass es Browser-Plugins sind und haben dann einen kleinen Test gemacht, haben einen Nutzer gebeten Add-Ons zu deinstallieren. Und haben dann eines herausfinden können; Web-of-Trust - Was machen die so? Safe Web Search & Browsing. Applaus Haben das dann noch mal mit einem sauberen Browser sozusagen gegengetestet in der Zeit als wir eine Möglichkeit hatten Live in die Daten zuzugreifen, das hat ein Securityspezialist für uns gemacht Mike Kuketz und der hatte eine extra Webseite aufgesetzt, einen sauberen Browser, nur dieses eine Plugin installiert und wir konnten ihn in den Daten sehen. Und dadurch konnten wir sicher sein, dass es eben bei diesem einen Plugin auch tatsächlich der Fall war, dass dieser Weg eben so gegangen ist. A: Ja, warum ist das Tracking per App oder Extension eigentlich so interessant für die Anbieter? Nun für Unternehmen ist es eigentlich immer sehr spannend ein möglichst detailliertes Bild von einem entsprechenden Nutzer zu gewinnen. D.h. ich möchte, wenn möglich, sämtliche Daten die über den Nutzer zur Verfügung stehen. Und bei normalen Treckern ist das ja so, dass ich als Nutzer mir eine Webseite runterlade, in meinen Browser, dann ein entsprechend ein JavaScript-Applet oder ein anderes Tracking-Tag ausgeführt wird, dass eine entsprechende Verbindung aufbaut zu einem Tracking-Server und da Bspw. ein Cockie setzt oder eine andere Information speichert, die mich dann als Nutzer nachverfolgt. In den letzten hat sich dagegen, verständlicherweise, eine Menge Widerstand auch geregt und viele Leute benutzen mittlerweile Blocker, die verhindern, dass solche Tracking-Scripte ausgeführt werden. Oder die Verbindung zu den Tracking-Servern abfangen oder blockieren. D.h. es wird immer schwieriger für die Tracking-Anbieter qualitativ hochwertige Daten zu bekommen und da liegt es doch eigentlich nahe, dass man sich solchen Mechanismen, in Form von einer Extension, zu Nutze macht, in dem man die Sicherheitsmaßnahmen, die es in dem Browser eigentlich per Default gibt, relativ einfach umgeht und dann über diesen Side-Channel sozusagen die Information bei jeder einzeln aufgerufenen URL direkt an den Tracking-Server sendet. Und das hat einen weiteren Vorteil für die Anbieter, weil damit nicht nur die Seiten überwacht werden können, die wirklich Tracking-Codes auch explizit beinhalten, sondern auch viele andere Webseiten, die überhaupt keine Codes auf der Seite haben. Also Bspw. Seiten von öffentlich Rechtlichen Institutionen, die ihre Nutzer im Normalfall nicht tracken. D.h. es ist also möglich über dieses Verfahren von einer kleineren Anzahl an Usern allerdings ein sehr viel größeres Spektrum an Daten, im Idealfall oder im schlimmsten Fall, je nachdem wie man das sieht, die komplette Browsinghistory von diesem entsprechenden User zu gewinnen. So, wir haben uns in unserem Datensatz dafür nochmal angeschaut, wie viele von diesen Extensions es eigentlich gibt und wie viele Daten jede von diesen Extensions generiert. Und hier haben wir wieder einen doppelt logarithmischen Plot, wo auf der einen Seite hier der Rang der entsprechenden Extension aufgetragen ist d.h. je mehr Datenpunkte von der Extension wir bekommen haben, umso weiter finden Sie hier die Extension links. Und auf der anderen Achse haben wir die Anzahl der Datenpunkte entsprechend aufgetragen. Und wir sehen hier, dass die populärste Extension, das ist Web-of-Trust bereits für 1 Mrd. Datenpunkte in dem Datensatz verantwortlich ist. Und wenn man die ersten 10 Extensions nehmen, sehen wir, dass bereits 95% der Daten davon abgedeckt werden. D.h. es ist also eine kleine Anzahl von Extension, die eigentlich die größte Masse an Daten hier für diesen Anbieter produziert. Wobei es auch sehr viele, also hier fast 10.000 verschiedene Application-IDs gibt, die teilweise einige 100 oder bis zu einige 100.000 oder einige Mio. Datenpunkte ihrerseits liefern. Es ist nicht unbedingt gesagt, dass es auch 10.000 Extensions sind, weil wir keine eindeutige Zuordnung zu der Application-ID haben, d.h. das ist eher eine obere Abschätzung. Und um jetzt ein genaueres Bild zu bekommen, wie verseucht eigentlich so ein Web-Store ist, haben wir eine Verhaltensanalyse durchgeführt, wofür wir mit einem Automatisierungsframework: Webdriver - uns einfach einen Chrome-Browser genommen haben, da automatisiert verschiedene Extensions installiert haben und dann mit diesem Webdriver entsprechend verschiedene Webseiten angesurft haben, wobei wir über einen Python-basierten Proxy-Server dann mitgeloggt haben, welche URLs bzw. welche Webseiten von dem entsprechenden Browser geöffnet wurden, wenn wir bestimmte Seiten angesteuert haben. D.h. darüber konnten wir verfolgen, ob der Browser beim Öffnen von bestimmten Seiten oder von allen URLs vielleicht noch zusätzlich Informationen eventuell an Dritte schickt. Und das haben wir für ca. 500 Plugins so ausgeführt und wie man hier sehen kann, verhalten sich die meisten eigentlich so, wie man es erwarten würde, d.h die öffnen nur die URLs, die entsprechende Anzahl der URLs, die man erwarten würde für den Testdatensatz, den wir verwendet haben. Und gleichzeitig gibt es auch einige Extensions, z.B. das hier, dass sich merkwürdig verhält und sehr viele URL-Aufrufe hat. Und hier haben wir bei einer genauen Analyse auch gesehen, dass das entsprechende Plugin oder die Extension auch Daten an einen Drittserver schickt, bei jeder aufgerufenen URL. Wobei man sagen muss, dass jetzt aus den 500 untersuchten Extension nur einige dabei waren, die wirklich eventuell schadhaftes Verhalten zeigen. D.h. die Wahrscheinlichkeit, dass man sich mit Extension infiziert, in dem man Sachen runterlässt aus dem Webstore ist aktuell noch relativ gering, scheint aber größer zu werden. So, die letzte Frage ist natürlich: Wie oder kann ich mich überhaupt gegen so etwas schützen? Und ich denke, daß in einigen Jahren es trotz client-seitigen blockierens von Trackern immer schwieriger sein wird sich als Nutzer anonym im Internet zu bewegen, weil es, wie wir gesehen haben, anhand von einigen wenigen Datenpunkten möglich ist, eine Identifikation von an sich anonymisierten Daten herzustellen. Dh. selbst wenn ich mit einem Tracker oder eine Extension sämtliche Tracker blockiere, habe ich immer noch solche Dinge wie: meine IP-Adresse, meinen User-Agent und die Kombination aus mehreren solchen Eigenschaften kann schon ausreichen, um mich wieder eindeutig zu identifizieren in größeren Datensätzen. D.h. wenn ich wirklich sicher im Internet unterwegs sein möchte, müsste ich zumindest darauf achten, dass ich möglichst viele dieser Eigenschaften ständig rotiere und ändere in dem ich bspw. VPN-Lösungen benutze, die auch rotierende IP-Adressen verwenden. Wobei das auch keine Garantie natürlich ist, dass man nicht getrackt werden kann. D.h. es wird also immer schwieriger sich im Internet zu bewegen, ohne dem Risiko der Deanonymisierung ausgesetzt zu sein. S: Genau, was ist so das Ergebnis von der Recherche gewesen? Also WOT verschwand relativ kurz nach der Veröffentlichung des Berichts zunächst mal aus dem Chrome-Webstore und aus dem Mozilla-Store und es haben natürlich sehr viele Nutzer wie verrückt Plugins deinstalliert. Deswegen können wir davon ausgehen, dass auch der Datenstrom dann eingebrochen ist. Aber natürlich die Plugins, die weiterhin installiert sind und Nutzer, die es jetzt nicht deinstalliert haben, da läuft es natürlich weiter. Und auch inzwischen, jetzt ein paar Wochen nach der Recherche, ist WOT wieder im Google-Chrome-Store verfügbar. So mein persönliches Fazit daraus ist, ein Stück weit defend yourself. Sprich, Andreas hatte schon angedeutet, man kann sich nicht auf die Stores verlassen, man muss sich ein Stück weit selbst schützen und selbst überlegen, was kann ich tun um dieser Überwachung zu entgehen. Ja, also wir sind recht am Ende von unserem Talk aber trotzdem ganz wichtig nochmal der Dank an ein relativ großes Team was uns unterstützt hat in dieser Zeit ja vor allem meine Kollegin die Jasmin Klofta sitzt in der ersten Reihe, ja Dankeschön. Applaus Herald: So, wir haben noch ein wenig Zeit für Fragen. Wer eine Frage hat, bewegt sich bitte zu bitte zu einem der Mikrofone. So, ich sehe Bewegung. Aber ein paar flüchten erstmal. War vielleicht doch nicht ganz so einfach für die Nichtdeutschsprachigen., aber sehr spannend. Dahinten haben wir eine Frage an Mikrofon 6 bitte. Mikrofon 6: Hallo, angenommen die Person, über die man die öffentlichen Daten sammelt, ist nicht im Pool von den anonymisierten Daten. Dann gibts ja eine Möglichkeit für einen False-Positive. Oder kann man das ausschließen? A: Ja, natürlich gibt es auch die Möglichkeit von einem False-Positive. Das das hängt natürlich immer ein bisschen von der Nutzung der Daten ab, ob das problematisch ist oder nicht für den Anbieter. Es kann ja auch sein, wenn ich Bspw. Nutzern Werbung anzeigen möchte, es vielleicht auch gut genug ist, wenn ich den Nutzer mit einer Wahrscheinlichkeit von 10% schon identifiziere. D.h. ich kann auch mit False-Positives oder der Anbieter kann auch mit False-Positives entsprechend leben. Aber es ist natürlich immer die Möglichkeit gegeben, das der Nutzer, wenn er nicht in dem Datensatz vorhanden ist, auch entsprechend identifiziert wird, obwohl gar nicht drin ist. Und das kann natürlich für den Nutzer selber zu großen Problemen führen. Wenn ich da Bspw. an Credit-Scoring denke, über Machinelearning, wo ich also vielleicht mit jemandem in Verbindung gebracht werde, der ich gar nicht bin und Datenpunkte, die ich nicht kontrollieren kann, entsprechend meine Kreditwürdigkeit dann beeinflussen kann. Herald: Gut, an Mikro 3 bitte. Mikrofon 3: Meine persönliche Frage ist, was genau kostet das? Also kann sich eine kleinere, mittelgroße, Privatdetektei die auf Datenschutz scheißt, können die sich Zugang holen? S: Ja, weiß nicht was die für ein Budget haben aber diese Daten werden lizensiert. I.d.R. zahlt man für die Lizenz so für einen Monat und im Jahr ist das so im 6-stelligen Bereich. Mirofon 2: Sie hatten von den 10 Schlimmsten gesprochen, aber die Liste vergessen. Lachen Applaus A: Den 10 Schlimmsten, ach so, ja. Applaus S: lachen genau A: Also wir haben auch lange überlegt ob wir die Extensions entsprechend veröffentlichen können, wir haben allerdings noch keine Zeit gehabt jetzt eine detaillierte Analyse zu machen. Und ich möchte keine Namen jetzt nennen von Dingen, wo sich am Ende herausstellt, dass es eigentlich gar nicht problematisch ist. Wir werden auf jeden Fall dran bleiben und versuchen alle von diesen Extension, die in dem Datensatz drin sind zu identifizieren. Aber wir wollen natürlich eine Gewissheit haben, dass auch entsprechend wir die korrekten Extensions rausfiltern können, bevor wir die Namen dann veröffentlichen. Applaus Herald: So, wir haben auch Fragen aus dem Internet. Eine mal dazwischen. Signal Engel: Also ich nehme jetzt mal ein paar Fragen aus dem Internet zusammen. Im wesentlichen lässt sich das runterdampfen auf: Gibt es irgendwelche technischen, juristischen oder sonstwie gearteten Mittel um sich davor zu schützen, oder dagegen vorzugehen? Oder wurde da schon versucht da z.B. zu klagen? A: Möchtest du das beantworten? S: Ja, also einen Teil kann ich beantworten. Also jetzt von unseren Betroffenen hat da noch niemand geklagt. So technisch gibt es natürlich Möglichkeiten sich zu schützen. Zumindest ein gutes Stück weit. A: Ja, es gibt für den Nutzer natürlich bedingte Möglichkeiten sich zu schützen. Das Problem ist ja, das viele Nutzer das Problem gar nicht kennen oder nicht sich bewusst sind, dass ihre Daten entsprechend gesammelt werden. Da ist also im Zweifelsfall die Verantwortung bei den Browser-Herstellern und wir sind auch ein bisschen enttäuscht darüber, dass Web-Of-Trust wieder in dem Chrome-Store drin ist und auch weiterhin fleißig Daten sammelt. Und auch die entsprechenden Extensions, die schon vorher installiert wurden, auch nicht entfernt wurden in dem Sinne. D.h. im Zweifelsfalle ist wirklich der Hersteller des Browsers am besten in der Lage, den Nutzer vor solcher Schadsoftware zu schützen, indem er ein korrektes Auditing von den Extensions durchführt, bevor sie in dem Store landen und auch entsprechende Extensions, die gegen diese Bedingungen verstoßen schnell wieder entfernt. S: Und es macht auch Sinn sich mal verschiedene Browser, Browseranbieter anzuschauen, weil es gibt ja auch neben den Großen Kleinere, die noch mal mehr Wert legen eben darauf, dass man z.B. gar keine Plugins installieren kann. Herald: An Nummer 5 bitte. Mikrofon 5: Gibt es die Möglichkeit, dass ihr die Liste, die ihr für eure Recherche erstellt habt, von Unternehmen die Daten verkaufen, veröffentlicht. Quasi als not-to-work-for-Liste. Ich mein unsereins baut ja im Zweifelsfall irgendwelchen Scheiß, also liegt es auch an uns es zu lassen. Applaus S: Ja, es fehlt natürlich ein Name, hier in diesem ganzen Vortrag. Der Name des Datenhändlers oder auch tatsächlich die Namen der Firmen mit denen ich auch ein bisschen ernsthafter ins Geschäft gekommen bin. Das sind eigentlich juristische Gründe, warum wir das nicht veröffentlichen können oder dürfen. Einfach, ehrlich gesagt aus Furcht vor diesen Unternehmen, aus sozusagen Angst vor Klagen, die da kommen können. Und deshalb sieht es zumindest im Moment so aus, als dürften wir die Namen nicht veröffentlichen. Aber das ist noch work-in-progress sage ich mal. Zwischenruf Wikiwleaks Lachen Applaus Engel: Mikro 1 Mikrofon 1: So einer der Klassiker ist ja JavaScript aus und Cockies aus und nur für irgendwie bestimmte Seiten, denen man vertraut, zulassen. Jetzt sagen Sie aber auch... Aber wie weit würden Sie denn kommen, wenn man jetzt wirklich sowas wegnimmt und nur über ip-basierte Daten und sowas, wie weit würde man da mit der Deanonymisierung kommen? A: Also meines Wissens setzen viele Anbieter bereits Verfahren ein die eigentlich nicht mehr auf Cockies basieren, also nur noch, wenn diese verfügbar sind und die statt dessen auf anderen Identifikationsmerkmalen basieren die entsprechend schwerer zu ändern sind. Bspw: der IP-Adresse, der Device-ID oder anderen IDs, die entsprechend fix sind und getrackt werden können über die Zeit. D.h. ist relativ einfach zumindest mit einer hohen Wahrscheinlichkeit möglich Nutzer über verschiedene Endgeräte zu identifizieren. Und ich kann mich natürlich über das Client-Seitige Browser-Tracking schützen, aber das heißt nicht, dass ich mich gegen diese anderen Tracking-Maßnahmen auch schützen kann. Engel: Mikro 6. Mikrofon 6: Zur Deanonymisierung. Ist es möglich, so Deanonymisierung, stark zu erschweren oder zu verhindern durch so Methoden wie Differential Privacy? A: Ja, dass ist in bestimmten Kontexten anwendbar. Hier bei den Daten ist das Problem, dass ich selbst als Nutzer eigentlich nicht kontrolliere, was ich von mir generiere, weil die Daten entweder unbewusst oder ohne meine Zustimmung erhoben werden. D.h. das einzige was ich tun kann als Nutzer ist zusätzlich Datenenpunkte zu liefern, ich habe aber keine Möglichkeit Datenpunkte zu fälschen oder nur in sehr geringem Umfang zumindest oder auch Datenpunkte wieder zu entfernen. D.h. in dem Sinne wäre das vermutlich eher weniger angebracht aber klar im Zweifelsfall ist es immer besser möglichst wenige Informationen rauszugeben. Obwohl eigentlich schon ausreicht wenige kleine Informationsschnipsel zu haben, die man dann relativ schnell auch zusammen fügen kann, wie wir gesehen haben. D.h. es ist auch wirklich schwer abzuschätzen und hängt auch immer sehr stark von der Natur des Datensatzes ab, wie verräterisch einzelne Datenpunkte von mir sein können. Engel: Mikro 5. Mikrofon 5: Ich würde gerne ein bisschen eine naive Frage stellen. Wieso ist das eigentlich quasi möglich oder erlaubt, also die juristische Frage. Und auf der anderen Seite, scheint mir doch ein gewisses Gefälle zu sein zu dem, was auf der einen Seite gemacht wird und sie die jetzt Sorge haben, diese Namen zu nennen, auf der anderen Seite, da scheint es mir ein gewisses juristisches Gefälle zu geben, das ich gerne verstehen würde. Applaus S: Sehr gute Frage, vielen Dank dafür. Wir haben tatsächlich diesen juristischen Aspekt für diesen Vortrag ein Stück weit ausgeklammert. Und der ist aber trotzdem hochspannend. Und wir haben viele Gespräche mit Datenschützern darüber geführt, mit Juristen darüber geführt und haben tatsächlich auch Paragraphen gewälzt weil uns genauso diese Frage beschäftigt hat, kann das überhaupt erlaubt sein. Also zumindest was man für Deutschland sagen kann, das ist nicht erlaubt. Und zwar ganz einfach aus dem Grund, weil keiner der Nutzer irgendwo dazu zugestimmt hat. Also keiner der Nutzer hat, die wir besucht haben, hat irgendwo irgendwas angeklickt: „Ja ich möchte bitte, dass meine Daten in diesem Umfang...“ Keiner. Und das kann sogar nach Aussage vom Datenschützer eventuell strafrechtlich relevant sein, also sprich in Richtung Abhören gehen. Bislang hat sich noch niemand berufen gefühlt, da tatsächlich Klage oder Anklage zu führen. Was wir jetzt sozusagen machen trägt ja vielleicht dazu bei, dass es mal eine Eingabe gibt beim Datenschützer und dass tatsächlich sich auch mal jemand dahinter klemmt. A: Gerade bei Ausländischen Unternehmen ist es natürlich immer sehr schwierig auch entsprechend eine Handhabe zu bekommen, um die auch juristisch belangen zu können. D.h. da ist auch nochmal sicherlich ein Gefälle vorhanden und auch die Strafen, die Unternehmen im Zweifelsfall drohen, sind im Vergleich zu dem Schaden, der oder zu dem Risiko, das Jemand eingeht, indem er diese Dinge veröffentlicht, eigentlich relativ gering. Weswegen es auch relativ wenig zu solchen Dingen kommt, denken wir. Engel: Gut, ich denke wir haben noch Zeit für zwei Fragen. Wir haben noch eine aus dem Internet. Signal Engel: Das Internet lässt fragen, in wie fern man sein eigenen Informationen, sofern sie auftauchen, von euch bekommen kann oder auch nicht. A: Uh... schwierige Frage. Applaus S: Das ist recht einfach die Antwort. Gar nicht. Die Daten gibts nicht mehr. Sorry. Applaus Herald: Kommen wir zu unserer letzten Frage. Mikrofon: Ja, also, Hallo, hört man das? Ok. Ich bin dann immer ein Freund von Selbstverteidigung und so wie sie sagten, aber die Frage ist, ist das überhaupt möglich? Also ich würde sagen, dass Thema ist so komplex, dass sich wahrscheinlich die meisten, die hier sind, nur dann schützen können, wenn sie wirklich viel Zeit reinstecken in diese Arbeit. Und ich frage mich: meine Mutter, mein Vater, mein Onkel, wie sollen die sich vor sowas schützen? A: Willst du oder soll ich? S: Ja, mach ruhig. A: Ja, das ist das Problem, dass ich auch eben kurz angesprochen habe. Und zwar, dass viele Nutzer auch gar nicht wissen, dass sie getrackt werden und auch nicht die technischen Kenntnisse haben, um sich effektiv gegen sowas zu schützen. Wir haben ja gesehen, obwohl die Leser von Fefes-Blog eher technik-affin sind, gibts immer noch 3.000 Nutzer, die in dem Datensatz auftauchen, die also auch getrackt wurden in dem Sinne. D.h. dass selbst Leute mit IT-Kenntnissen und IT-Sicherheitserfahrung sind nicht dagegen gefeit auch entsprechend getrackt zu werden. Weil es auch unglaublich schwierig ist, auch für mich, sämtliche Methoden nachzuvollziehen und immer auf dem aktuellen Stand zu sein. Und es ist auch sehr schwer abschätzbar, was man mit den Daten eigentlich machen kann. Also es stimmt wirklich, ja, es ist wirklich, es gibt keine gute Lösung momentan dafür. Herald: So es gibt zwar noch weitere Fragen aber die Zeit ist leider vorbei. Wer noch fragen an die Beiden hat, kann hier gleich einfach kurz nach vorne kommen. Erstmal möchte ich mich aber herzlich bei euch beiden für diesen spannenden und interessanten Vortrag bedanken. Applaus Abspannmusik Untertitel erstellt von c3subtitles.de im Jahr 2017. Mach mit und hilf uns!