33C3 Vorspannmusik
Herald Carina Haupt: David Kriesel ist
Data Scientist. Und der eine oder andere
kennt ihn vielleicht noch vom 31C3, wo er
den relativ bekannt gewordenen berühmten
Xerox Scanning Bug Vortrag gehalten hat.
Applaus
Dieser hat ihn offensichtlich nicht nur
hier bekannt gemacht. Sondern auch zu
internationaler Bekanntheit verholfen. Und
damit begrüsse ich ihn und freue mich auf
einen spannenden Talk und bitte Euch
nochmal um einen ganz ganz herzlichen
Applaus für David.
Applaus
David: Dankeschön
Applaus
Ja, dankeschön. Herzlich willkommen. Auch
nochmal von mir. Auch an die Leute im
Internet. Und auch an die Leute vom
Spiegel. Von denen ich weiss, dass sie
anwesend sind. Es ist schön wieder hier
zu sein. Mein Name ist David Kriesel. Ich
bin Informatiker aus Bonn. Und ich mache
beruflich, es wurde schon gesagt Data
Science und Machine Learning. Und salopp
gesagt, versuche ich für meine
Arbeitgeber aus grossen Datenmengen Wissen
zu ziehen. Und seit 2014 habe ich knapp
100 000 Artikel von Spiegel Online
ge-vorratsdaten-speichert.
GelächterApplaus
Und das habe ich einfach niemanden
erzählt.
Gelächter
Und während ich da so zweieinhalb Jahre
sitze und das niemanden erzähle, ist die
Stimmung medial irgendwie umgeschlagen.
Vor zweieinhalb Jahren war die Welt noch
in Ordnung und heute ist die Rede von
Lügenpresse und Fake News und genau aus
dieser Zeit des Stimmungsumbruchs haben
wir jetzt einen riesigen Datensatz über
den vielleicht grössten Meinungsmacher
unserer Nation. Und mit diesem Datensatz
werden wir heute zwei Sachen machen:
Erstens, wir werden den Datensatz
durchleuchten und was über Spiegel Online
lernen. Und zwar so, dass ihr das auch mit
nach Hause nehmen und beim Lesen dann
anwenden könnt. Und zweitens, wir werden
Einblick erhalten wie die Datensammelwut
von heute funktioniert und wie mächtig
oder vielleicht auch nicht mächtig die
ist. Und das machen wir so, dass es für
jeden verstehbar ist, nicht nur für
Informatiker. Und zusätzlich werde ich,
wie in meinem letzten Vortrag vor zwei
Jahren ein bisschen auf das
Gesellschaftliche eingehen. Und wir werden
an ein paar passenden Beispielen
beleuchten, wie die moderne
Datenverarbeitung unsere Gesellschaft
beeinflussen kann. Und ob wir die Welt,
mit dieser allumfassenden Datensammelwut
besser machen oder schlechter machen, dass
kann dann ja später jeder von euch für
sich selbst entscheiden. Am besten fangen
wir an, in dem ich kurz beschreibe wie
genau Spiegelmining funktioniert. Rund um
die Uhr, alle paar Minuten schaut einer
meiner Server vollautomatisch auf Spiegel
Online nach ob dort neue Artikel stehen
und werden neue Artikel gefunden, dann
werden die heruntergalden und
abgespeichert. Und auf diese Weise hat der
Datensatz einen coolen Vorteil der ja
jetzt vielleicht nicht sofort ersichtlich
ist: ich erhalte neue Artikel binnen
Minuten, nachdem sie veröffentlicht
wurden. Das heisst, ich kriege die im
Originalzustand, also vor allen
Verbesserungen und Änderungen,
die im Nachhinein vorgenommen
werden und das ist natürlich
viel aussagekräftiger.
Man erhält ein unverfälschten Eindruck und
es ist nicht so wie wenn man einen Artikel
runterlädt, die vieleicht schon Jahre alt
und tausend mal editiert sind. Aus den
heruntergeladenen Artikeln lese ich dann
sogenannte Features. Feature ist einfach
das Fachwort für ein Artikelmerkmal. Ganz
einfache Features eines Artikels können
zum Beispiel der
Veröffentlichungszeitpunkt oder die
Rubrik sein, in der der Artikel steckt.
Und die Features nehme ich dann und mache
damit Auswertungen, von den sehen wir
heute noch ein paar. Und die interessanten
unter den Auswertungen nutze ich dann, um
auf meiner Seite eine Blogartikelserie zu
schreiben, um meinen Lesern einen Einblick
in Spiegel Online und die Data Science
gleichermassen zu geben und das war es.
Spiegelmining in wenigen Minuten. Und am
Anfang machen wir jetzt ein paar sehr
einfache Auswertungen, so sehen wir wie
das funktioniert und verschaffen uns
gleichzeitig einen Überblick über
Spiegel Online und als erstes zählen wir
mal wie häufig die einzelnen Rubriken so
vorkommen. Das ist die Ansicht. Die
Größe der Kreise gibt die Artikelanzahl
pro Rubrik wieder und wie wir sehen, wird
Spiegel Online dominiert von Politik, das
ist der große rote Kreis rechts oben, von
Panorama, das ist der grüne Kreis in der
Mitte und vom Sport, das ist der
fliederfarbene Kreis ganz unten. Ich
weiss, was fliederfarben ist. Ich höre
schon Leute lachen.
Applaus
Also die drei Rubriken, die machen
zusammen die Hälfte der Artikel aus. Und
das nächste supereinfache Feature ist der
Veröffentlichungszeitpunkt von jedem
Artikel. Damit messen wir jetzt einfach
mal, wieviele Artikel Spiegel Online am
Tag so schreibt. Der Plot sieht jetzt
richtig richtig krass unordentlich aus,
dass man da fast keine Werte erkennen
kann. Das liegt an den Wochenenden.
Da wird um die Hälfte weniger
veröffentlicht als normal. Und deswegen
schwankt das so krass. Und hier gibt es
dann auch gleich den ersten Bericht aus
der Praxis: wie man deutlich sieht, habe
ich Anfang März 2015 ein paar Tage Loch
in den Daten. Und der Grund ist, dass der
März ein Monat mit "ae" ist.
GelächterApplaus
Also, mir ist das nach kurzer Zeit zum
Glück aufgefallen. Also wenn Ihr Daten
aufnehmt, dann programmiert Euch bitte mal
irgendeine Form von Warnsystem, das
anschlägt, wenn länger keine Daten mehr
eintrudeln. Ich hatte das zum Glück und
das hat mir hier sehr geholfen. Jetzt
schlägt es in ein paar Minuten an und da
hatte ich so irgendwie ein paar Tage keine
Ahnung. Zurück zum Plot: Wegen der
Unordnung mit den Wochenenden ändern wir
jetzt unseren Plot und berechnen statt den
Artikeln pro Tag jetzt die Artikel pro
Woche. Und man sieht jetzt auch was und da
sehen wir, dass Spiegel Online im Schnitt
so 700 Artikel die Woche veröffentlicht,
also so 100 am Tag. Und das ist schon
ziemlich viel Output. Übrigens die beiden
krassen Einbrüche, die Ihr hier seht, das
sind die Weihnachtswochen, da wird weniger
veröffentlicht und der Datensatz für
diesen Vortrag ist vom 4. Dezember,
deswegen ist dieser Weihnachts-Low dieses
Mal einfach noch nicht drin. Und wenn man
jetzt Features einzeln betrachtet, aber
richtig interessant wird es, wenn wir
Features zusammen betrachten. Wir
verwursten jetzt also mal
Veröffentlichungszeitpunkt und Rubrik
zusammen. Und dann können wir sehen, das
beispielsweise der Output in den Rubriken
Panorama und Politik stabil ist. Während
Wissenschaft und Uni-Spiegel ganz schön
zusammengestrichen wurden. Das gilt
übrigens in abgeschwächter Form auch für
andere Ressorts. Solche Infos, welche
Ressorts gerade gerupft werden, sind zum
Beispiel relativ interessant, wenn man
Konkurrent von Spiegel Online ist. Das
kann man ohne weiteres auslesen. Und wir
sehen, geschickt Features ausdenken und
zusammenstöpseln, ist die halbe Welt.
Jetzt nehmen wir mal die Textlänge der
Artikel dazu. Hier sind die typischen
Artikellängen im Spiegel angegeben und
zwar pro Rubrik. Und man sieht, dass der
typische Kulturartikel fast dreimal so
lang ist, wie der typische Panorama- oder
Sportartikel und immerhin noch doppelt so
lang wie der typische Politikartikel. Und
jetzt hatten wir schon gesehen, das
Panorama, Sport und Politik trotz ihrer
kurzen Artikellängen genau die drei
dominierenden Ressorts sind. Und daraus
können wir folgern, das Spiegel Online es
eher auf Reichweite anlegt und auf
Abdeckungsbreite als auf Tiefe. Die
Strategie Reichweite um jeden Preis
scheint Spiegel Online auch noch so zu
verstärken. Die zusammengestrichenen
Rubriken waren alles welche mit eher
langen Texten. Und bevor das hier jetzt
falsch ankommt, ich sage das ohne jede
Wertung im Sinne von gut oder schlecht das
ist ja eine valide Strategie für ein
Medium und ich beschreibe einfach nur
gemessene Daten. Und es ist keineswegs der
Zweck der Veranstaltung irgendwie
substanzlos in Richtung von Spiegel Online
zu haten. Wer hatet wird nicht ernst
genommen. Das habe ich ja in meinem
letzten Vortrag schon ausführlich
beschrieben. Und die meisten Sachen, die
hier im Vortrag noch kommen, denkt daran,
die sind bei den anderen wahrscheinlich
ähnlich. Wichtig ist auch dass man mit
den Features experimentiert. Hier ist zum
Beispiel ein Diagramm, das zeigt, dass
Veröffentlichungsvolumen pro Wochentag
und Stunde. Die Zeilen sind die Wochentage
und die Spalten sind die Stunden eines
Tages. Pro Wochentag und Stunde sehen wir
einen Block. Und in den grossen Blöcken
sind viele Artikel erschienen und in den
kleinen wenige. Und jetzt lernen wir daran
mal, wie es in der Data Science zugeht:
Erstens: In der Data Science findet man
immer wieder Botschaften bestätigt, die
man vorher schon erahnt hat. Das ist der
langweilige Teil der Data Science. Aber
das ist gut, um die eigenen Messverfahren
zu überprüfen. Wir sehen hier, zu den
unchristlichen Zeiten wird viel weniger
veröffentlicht. Bahnbrechende Erkenntnis:
Auch der Spiegel-Online-Redakteur
möchte mal schlafen.
Gelächter
Zweitens: In der Data Science findet man
aber auch immer Systematiken da, wo man
keine erwartet hat. Und das passiert oft
dann, wenn man Features verbindet. Wir
färben jetzt mal jeden dieser Blöcke
ein, nach der typischen Textlänge. Rote
Blöcke enthalten typischerweise lange
Texte und blaue Blöcke eher kurze. Und
zack Es gibt einen klaren Zusammenhang
zwischen Tageszeit und Länge der Artikel.
Für mich als Nicht-Journalist war das
damals überraschend. Die typische Länge
der veröffentlichten Artikel die ist von
Montag bis Freitag zwischen 5 bis 6 Uhr
früh am grössten. Das gleiche am
Wochenende. Hier gibt es zum Tagesstart
auch nur längere Artikel, ein bisschen
später natürlich. Und das Rätsels
Lösung zu diesem Phänomen kommt später
noch. Und als Drittes, ist die Data
Science natürlich auch dazu da fieseste
Vorurteile zu schüren. Ich führe Euch
das mal vor. Jetzt gebt mir bitte mal ein
Handzeichen, wer von Euch denkt, dass die
Leutchen aus dem Kulturressort morgens
bitte, gerne ein bisschen länger pennen
als die anderen.
Gelächter
Also, vielleicht für das Internet: Wir
haben einen Raum von 1600 Leuten, der ist
proppenvoll und fast alle haben die Hand
gehoben. Und die Lösung ist: stimmt!
Gelächter
Die Kulturwissenschaftler
Applaus
Die Kulturwissenschaftler veröffentlichen
typischerweise später. In der oberen
Verteilung sind alle Artikel ausser
Kultur. Da ist ab 5 Uhr morgens
Aktivität. Und in der unteren Verteilung
sind die Kulturartikel, da geht es
mindestens 2 Stunden später los. Aber zum
Ausgleich gehen die auch früher nach Hause.
Gelächter
Applaus
Aber, damit wir hier nicht wirklich
Vorurteile schüren, ich war bei Spiegel
Online eingeladen im Oktober und da habe
ich das auch so gesagt. Und dann haben sie
gesagt: 'David, nein, nein!' Manche
Artikel werden natürlich auch vorab
gescheduled, das will ich hier
fairerweise dazusagen.
Und ich mache das auch als Ermahnung, dass
ihr, wenn Ihr damit arbeitet, immer
nochmal selbst nachdenken müsst. was Ihr
auch solchen Auswertungen wirklich folgern
könnt. Besonders dann, wenn Ihr schon mit
einem Vorurteil da rein gegangen seid, so
wie wir jetzt. Wir haben gerade gesehen,
wie solche Auswertungen grundsätzlich
funktionieren, also können wir jetzt
einen Schritt weitergehen. Und im Internet
wird es ja genau immer dann besonders
knusprig, wenn personenbezogene Daten ins
Spiel kommen.
Also, habe ich mir gedacht,
es wäre doch mal ein nettes Feature, wenn
wir mal die Autoren aus den Spiegel
Artikeln rauslesen. Und das machen wir
jetzt. Und die werten wir gleich auf zwei
Arten aus: Die erste Auswertung wird eine
ganz neue Auswertung in diesem Vortrag,
also eine ganz neue Art. Und die zweite
Auswertung wird ein bisschen politisch
inkorrekt. In unserer ersten Auswertung
werden wir versuchen Spiegel Online
interne Personalstrukturen einfach von
aussen zu lesen. Wenn man zu jedem Artikel
eine Liste an Autoren hat, dann weiss man
ja nicht nur, wer jeden Artikel
geschrieben hat, sondern man weiss auch,
wer mit wem schreibt. Und bei Autoren, die
oft zusammen Artikel schreiben, dürfen
wir davon ausgehen, dass die intensiv
zusammenarbeiten. Wir wissen also
sozusagen, welche Autoren wichtig
füreinander sind, was die Artikel angeht.
Wer wenig oder gar nicht zusammenschreibt,
der ist in dieser Ansicht nicht wichtig
füreinander. Aus diesen Wichtigkeiten
können wir dann eine Autorenlandkarte
bauen. Und hier ist sie. Das ist ein Teil
des sozialen Netzwerkes der Spiegel Online
Autoren generiert über die letzten
2 Jahre. Und jeder Autor ist so ein Bubble
Und Autoren, die nur ganz selten
vorkommen, die habe ich hier gefiltert.
Und man sieht genau, dass es da Grüppchen
von Autoren gibt, die sich dichter
zusammentun. Und das sieht aus, als wären
es die Teams. Und jetzt müssen wir
natürlich kontrollieren, ob unser
Durchleuchten von aussen, auch wirklich
funktioniert. Und um das zu machen,
färben wir die Autoren mal nach Ihren
Ressorts ein. Die Ressorts, die kriegt man
aus dem Spiegel Online Impressum. Siehe
da, in vielen Fällen haben sich
tatsächlich die Ressorts vollautomatisch
in der Landkarte zusammengetan. Hier in
pink ist Sport. Wissenschaft und
Gesundheit. Netzwelt. Politik. Ein
bisschen verteilter, da habe ich jetzt
nicht alle eingekreist. Panorama. Reise.
Ich nenne jetzt nicht alle Teams, aber Ihr
seht das Prinzip. Die hellblauen
verteilten Punkte sind übrigens das Team
von bento, die arbeiten ein bisschen
übergreifender. Das ist
die Kinderausgabe vom Spiegel.
Gelächter
Applaus
Und der Punkt ist, wir haben jetzt relativ
genau von aussen durchleuchten können,
wer mit wem intern in einem Team steckt.
Und der Witz ist, schaut die ganzen grauen
Bubble an. Die sind grau, weil sie nicht
mehr über das Spiegel Impressum
zugeordnet werden konnten. Das sind zum
Beispiel ausgeschiedene Kollegen. Der
Spiegel Chefredakteur ist kürzlich auch
grau geworden. Aber durch ihre Nähe zu
den gefärbten Gruppen, können wir die
trotzdem grob einem Team zuordnen. Wir
können also etwas über die sagen, obwohl
wir eigentlich gar nichts über die
wissen. Und sowas ist dann interessant.
Wir können also einfach live von aussen
über die Personalstrukturen Buch führen.
Aber jetzt... Ihr wartet bestimmt schon
alle zum politisch inkorrekten Teil. Ich
möchte Euch nämlich für etwas
sensibilisieren. In diesem Plot ist jede
Zeile ein Autor. Und von links nach rechts
vergeht die Zeit. Und jeder farbige Strich
ist ein vom jeweiligen Autor
veröffentlichter Artikel. Und wenn wir
die Autoren kennen und das tun wir ja
jetzt, dann wissen wir natürlich auch
sehr genau, wer wann veröffentlicht. Wir
sehen zum Beispiel diese Zeile mit
regelmässigen Muster, das ist ein
Kolumnist, der veröffentlicht genau im
Wochentakt, bis auf ein paar Ausnahmen.
Bei den Leuten, die Tagesgeschehen
veröffentlichen, ist die Dichte höher.
Und das heisst, wir wissen bei denen
umgekehrt auch relativ gut, wann die
Urlaub machen. So, weil das sind nämlich
die Lücken in den dichtgefüllten Zeilen.
Und, wenn aber wir die Urlaube ungefähr
kennen, dann wissen wir auch ungefähr,
wessen Urlaube sich überproportional
überschneiden.
Gelächter
Sachen wie Weihnachten, die fast alle
Urlaub machen, die kann man ja einfach
rausrechnen. Und ich appelliere jetzt an
Eure Berufserfahrung und mutmasse mal ganz
wild, dass Ihr auch schon mal Kollegen
hattet, die irgendwie immer gleichzeitig
im Urlaub waren. Also, Spass beiseite. Aus
solchen Daten kann man ohne weiteres
lesen, wer mit was hat. Jetzt wisst Ihr
auch, warum ich die Autoren hier
anonymisiert habe. Es ist übrigens total
klar, dass das, was wir hier finden, nicht
alles Pärchen sein müssen. Das sind die
Pärchenkandidaten. Aber, wenn man an der
Praxis und sowas interessiert ist, dann
ist man ja damit schon mal auf 99% des
Weges zum Ziel. Es gibt Firmen, die werten
sowas aus, so illegal das auch ist. Jetzt
habt Ihr alle gerade gelacht, Kann ich mal
um Handzeichen bitten, wer von Euch heute
bei seiner Firma Urlaub genommen hat.
Über jeden gibt es solche Daten. Glaubt
mir. Und wir halten jetzt mal inne, und
dann machen wir uns nochmal klar, was wir
gerade gesehen haben und was die
gesellschaftlichen Implikationen sind. Was
wir gerade gesehen haben, ist
Wissensgewinnung über interne
Firmeninformationen und über
höchstpersönliche Lebensbereiche. Und
aus Daten, die erstmal gar nicht danach
aussehen. Wir hatten ja eigentlich einen
Satz Spiegelartikel. Und plötzlich,
überraschend, haben wir gute
Anhaltspunkte, wer mit wem was hat, und
wir können Teamstrukturen erahnen. Und
damit komme ich zu wichtigsten Message des
Vortrags: Wenn Ihr Daten veröffentlicht,
dann entscheidet nicht Ihr, was Ihr da
veröffentlicht, das entscheidet der
Gegner. Wir haben noch nicht einmal die
Daten selbst betrachtet. Wir haben die
Artikel selbst ja gar nicht angefasst. Was
wir angefasst haben, waren nur Metadaten.
Zeiten und Autoren, genau wie bei der
Vorratsdatenspeicherung. Das sind ja auch
nur Metadaten. Gebt mal ein paar Monate
eurer Metadaten, einfach nur, wem Ihr wann
Mails und Whatsapp geschickt habt und wann
Ihr auf welchen Webseiten wart. Keine
Inhalte. Danach kann ich Euch sagen, wer
Eure besten Freunde sind, ob Ihr eine
Affäre habt, wie Ihr sexuell orientiert
seid, ob Ihr schwanger seid, ob Ihr eine
Krankheit habt, was Eure politische
Einstellung ist, wie euer Glaube
ausgerichtet ist, und ob Ihr finanzielle
Probleme habt und alles, was ich gerade
vergessen habe. Das Missbrauchsprofil für
einen solchen Datensatz, wie den der
Vorratsdatenspeicherung, das kann man gar
nicht in Worte fassen. Und ich will da
überhaupt nicht mit
Verschwörungstheorien anfangen, wir
können ja mal alle glauben, dass die
Vorratsdatenspeicherung für die
Aufklärung von Verbrechen nützlich sein
kann, das ist ja auch total plausibel. Und
wir können ja auch mal glauben, dass die
Person, die die Vorratsdatenspeicherung
jetzt etablieren guten Willens sind. Lasst
uns das einfach mal annehmen. Das heisst
aber nicht, dass morgen keiner an die
Macht kommt, der das vielleicht ganz
anders macht. Was wir hier gerade
erhalten, ist die Infrastruktur, für eine
Generalüberwachung, die selbst George
Orwell's Big Brother die Schamesröte ins
Gesicht treiben würde.
Applaus
Und diese Überwachungsinfrastruktur, die
stellen wir jetzt extra schon mal bereit
für den Fall, dass eine zukünftige
Regierung böswillig ist und sie nutzen
will. Das ist, was gerade passiert. Jetzt
haben wir einen kurzen Exkurs über
Metadaten gemacht, und wir gehen jetzt
zurück zu Spiegel Online, damit sich Eure
Laune wieder hebt. Und deswegen kommt
jetzt ein kleiner Einschub, den könnt Ihr
dann direkt anwenden, wenn Ihr das
nächste Mal Spiegel Online lest. Und
danach machen wir mal ein bisschen was
Grösseres. Als ich die Autoren aus den
Artikeln rauslesen wollte, da war ich
irgendwann ziemlich genervt. Also manchmal
stehen die oben unter dem Titel, wie hier
links im Bild. Oder die stehen unten, wie
rechts im Bild. Und wenn die Autoren oben
stehen, sind sie ausgeschrieben. Und wenn
sie unten stehen, sind es Kürzel. Oben
stehen sie im wirklichen Satz, hier zum
Beispiel von Marcel Rosenbach. Und unten
die Kürzel sind ohne Satz drumrum. Manche
Autoren haben nur Vor- und Nachname.
Manche Namen haben aber auch vier oder
fünf Worte. Wie zum Beispiel der
freundliche Herr Philip Alvares De Souza
Suarez. Das habe ich mir extra hier
aufgeschrieben, fünf Worte. Das ist ein
Name. Also Data Science kann technisch
nervig sein. Sagt nicht, ich hätte Euch
nicht gewarnt. Und jedenfalls habe ich mir
gedacht, wtf, warum stehen da Autoren in
verschiedenen Formen und vor allem an
verschiedenen Orten? Also habe ich mir mal
das als Feature reingenommen, ob die
Autoren oben oder unten stehen. Und dann
habe ich Messwerte zwischen den
beiden Artikelgruppen verglichen, Autoren
oben und Autoren unten. Und es stellt sich
raus, wenn die Autoren unten stehen, also
nicht namentlich ausgeschrieben sind, ist
ein typischer Artikel knapp 300 Worte
lang. Wir sehen hier die Verteilung der
Artikellängen von Artikeln ohne
ausgeschriebenen Namen. Und nach rechts
werden die Artikel länger, da wird es
immer weniger. Und stehen die Autoren aber
oben, sind also ausgeschrieben, ist ein
Artikel typischerweise mehr als
zweieinhalb mal so lang. Knapp 750 Worte.
Man weiss schon, womit man gegoogelt
werden will als Redakteur.
Gelächter
Und nochwas: bei den langen Artikeln ist
auch nur bei ca. 2% eine
Nachrichtenagentur mit dabei. Bei den
kurzen ist bei knapp 80% eine
Nachrichtenagentur mit dabei. Also Fazit
für Euch zum mI t nach Hause nehmen: Wenn
Ihr längere Artikel wollt, die Spiegel
Online selbst verfasst hat, dann achtet
drauf, dass die Autoren drangeschrieben
sind. Wenn Ihr kurze Agenturmeldungen
wollt, sind die Kürzel gut.
Applaus
Und wir hatten ja schon gesehen, dass am
Tagesanfang primär längere Artikel
erscheinen und das waren eben in
Wirklichkeit die selbst geschriebenen.
Morgens ist der Prozentsatz von denen
vergleichsweise hoch. Und jetzt könen wir
die Gelegenheit nutzen und einen Schritt
zurücktreten und gucken, was wir bis
jetzt gemacht haben. Und wir haben unsere
Riesenmenge Artikel, immer auf äusserst
einfache Art und Weise auseinander
geschnitten und ausgewertet. Wir haben die
in Wochentage oder Uhrzeiten
auseinandergeschnitten. Oder in Rubriken.
Und dafür, wie einfach diese Ideen sind,
haben wir eigentlich ein paar ganz gute
Ergebnisse bekommen. Aber, was wir noch
gar nicht gemacht haben, ist uns dem
Datensatz mal inhaltlich zu nähern. Und
es wäre doch total cool, wenn wir die
Artikelmenge mal nach den wirklichen
Themen über die berichtet wird,
auseinanderschneiden und auswerten
können. Spiegel Online liefert uns
hierbei auch eine gute Hilfe: Artikel
werden dort verschlagwortet. Jeder Artikel
bekommt von seinem Autor so um die 10
Keywords zugewiesen. Der Artikel links im
Bild hat zum Beispiel die Keywords
Politik, Ausland, Saudi Arabien und König
Salman von Saudi Arabien. Also habe ich
die Keywords mal ausgelesen. Ueber alle
Artikel hinweg habe ich um die 65000
verschiedene Keywords gefunden. Und jetzt
gucken wir, wie oft, welche Keywords
zusammen in den selben Artikeln kommen.
Und Keywords, die fast ausschliesslich
zusammen vorkommen, die sind sozusagen
verheiratet, die sieht man einfach als
eins in der Auswertung. Und umgekehrt gibt
es natürlich Keywords, die beide für
sich genommen existieren, aber nie oder
fast nie zusammen, die sind dann
unverwandt. Und dann gibt es noch einen
interessanten Mittelweg:
Hier ist ein Beispiel.
GelächterApplaus
Artikel mit dem Keyword "Angela Merkel",
die haben meist auch das Keyword Politik.
Und umgekehrt ist das aber nicht so. Das
Keyword Politik ist viel grösser. Und es
gibt extrem viele Politikartikel ohne
Angela Merkel. Und diese Keywords sind
nicht die selben, aber es ist klar, die
haben eine Verbindung. Und wir messen also
für alle 65000 Keywords, paarweise, wie
verwandt die so sind. Und dann verbinden
wir Keywords, die stark verwandt sind mit
so ganz strammen, dicken Federn. Ich meine
jetzt wirklich Federn im physikalischen
Sinne, die die Keywords zueinander
hinziehen. Zwischen schwächer verwandten
Keywords kommen schwächere Federn, die
werden dann länger. Und jetzt machen wir
eine Physiksimulation. und schauen zu, wie
sich diese abertausenden Federn
zurechtzurren. Verwandte Keywords werden
jetzt tendenziell nahe beeinander layoutet
und weniger verwandte nicht so nah. Was
hier ensteht ist eine thematische
Landkarte, von allen Sachen über die
Spiegel Online in den letzten 2 Jahren
berichtet hat. Und jetzt gerade sieht es
so aus, als passiert da fast nichts mehr,
aber gerade passiert die Detailarbeit. Das
sieht man nur von soweit oben nicht. Und
deswegen zoomen wir jetzt mal ganz weit
rein, damit wir lernen, was wir da
erschaffen haben. Hier ist die Volkswagen
Abgasaffäre. Wie Ihr seht haben die
Keywords unterschiedliche Grössen. Die
Grösse der einzelnen Keywords spiegelt
die Anzahl der Artikel wieder, die das
Keyword innehaben. Und das sind sozusagen
die Artikel, die in dem Keyword
drinstecken. Und die Farbe zeigt an, was
die vorherrschende Rubrik ist über alle
Artikel, die in einem Keyword drin
stecken. Dieses Okergelb heisst
Wirtschaft. Passt! Der Witz ist, diese
Darstellungsweise ist extrem mächtig und
vielseitig. Über die Farbe der Keywords
da können mit dieser Darstellungsweise
noch viel mehr Infos rüberbringen, als
nur, welche Themen verwandt sind. Und mit
der Farbe können wir beliebige Messwerte
anzeigen. Und wenn ich danach so farbige
Keywordlandschaften habe, dann können wir
sehen, ob es zwischen Thema und Messwert
einen Zusammenhang gibt und das machen wir
heute auch noch. Aber erstmal gucken wir
ein bisschen weiter rum, hier sind
verschiedene Flugzeugunglücke. Der
Themenkomplex befindet sich zwischen
Panorama - Grün und Politik - Rot. Wobei
die politischen Anteile von dem Flugzeug
kommen, das über der
Ukrainisch-Russischen Grenze abgeschossen
wurde. Jetzt versagt meine Singstimme.
So besser. So hier ist Griechenland-Krise.
Das ist offensichtloch ein Thema zwischen
Politik und Wirtschaft rot und wieder oker
und Wolfgang Schäuble ist da direkt mal
als Aufpasser dazu-layoutet worden.
Interessanterweise hat der keine Farbe,
der ist grau und das ist nicht
altersbedingt sondern das liegt daran,
das es im Keyword Wolfgang Schäuble kein
dominierendes Ressort gab und
jetzt machen wir mal was Topaktuelles.
Das ist die US-Wahl dieses Jahr.
Wir sehen Hillary Clinton
und Donald Trump und alles was da so drum
rum wimmelt und das ist offensichtlich
ein politisches Thema, es ist rot und man
beachte, wie hier das Keyword Emails
dazu-layoutet wurde. Und von hier aus
machen wir uns jetzt mal
die Größe der gesamten Landschaft klar.
Ich weiss nicht, wer heute
Morgen von euch in dem Vortrag über
Mikroskope war, da hat der Vortragende
immer und immer mehr reingezoomt, um klar
zu machen wie klein die Sachen sind und
wir machen das jetzt umgekehrt, wir wollen
darstellen wie riesig die Landkarte ist
und wir zoomen immer und immer mehr raus.
Wir haben raus-gezoomt. Der alte
Bildauschnit ist dick eingerahmt, damit
ihr seht wo der ist. Und wir sehen,
dass der US-Wahlkampf eingebettet ist
in größeren Landstrich der
Auslandspolitik.
Links sehen wir den Bürgerkrieg in Syrien
darüber der Islamische Staat und von da
geht es über den Islamistischen Terror
weiter nach Frankreich.
GelächterApplaus
Jaa, die Mathematik ist gnadenlos, ne.
Oben sind die aktuellen Türkei-Thematiken,
also das ist deren Putschversuch und
deren Demokratur
und rechts von der Mitte ist Russland
und der Ukraine Konflikt und
links unten ist Israel und der Nahost
Konflikt und wir zoomen nch weiter raus.
Hier ist nun die gesamte politische
Landschaft, diesmal haben wir mit zwei
Rechtecken markiert, wo wir herkommen wir
kommen, ursprünglich von der US-Wahl und
dann von der Auslandspolitik. Also die
Auslandspolitik ist oben rechts und unten
rechts ist der Inlandsteil und seit Neuem
gibt es nen riesigen Knubbel, der in der
Mitte, das ist die Flüchtlingsthematik,
die ist mittlerweile so groß, wie eine
eigene Unterrubrik und die ist als dritte
Kraft genau zwischen Ausland und Inland
etabliert, ja. Was ja auch genau passt.
Wir zoomen nochmal weiter raus. Ja, jetzt
kann man gar nichts mehr erkennne, außer
verschieden farbigen Landschaften. Ich sag
also mal, für eine grobe Orientierung,
hier kommen wir her, das rote ist der
Politikteil. Rechts darüber in
giftgrün das Panorama. Das wird
durchteilt von der Wirtschaft, die Kette
von türkisen Clustern entlang der
Unterseite des Hauptkontinentes ist die
Netzwelt. Blau im Osten ist der Kulturteil
und so weiter und so fort. Wir können
jetzt nicht alle durchgehen, ihr seht, die
Gebiete gehen noch ineinander über und
wir wissen jetzt fast, wie riesig diese
Landkarte ist, einmal rauszoomen haben wir
nämlich noch. Hier ist die große weite
Welt, ja den unteren Teil haben wir schon
grob kennengelernt, und hier sind wir
eigentlich her gekommen, und auf dem Rest
der Welt, etwas entrückt ist
die Wissenschaft, das ...
Gelächter im Saal
Applaus
Ich sehe, ihr könnt das nachvollziehen
und habt da auch mal gearbeitet.
Gelächter
Und ganz weit weg vom
Hauptkontinent ist der Sport.
Gelächter
So, und jetzt sehen wir erstmal, wie gross
das ist und wie breit der Spiegel angelegt
ist und diese riesige Landkarte gibts
übrigens bei mir auf der Website, da
könnt ihr auch selbst drin rumforschen,
wie in GoogleMaps, so drin rum scrollen,
das macht auch mehr Spaß als wenn ich das
hier nur vorkaue und darum gehts jetzt
auch weiter. Wir wenden die jetzt an. Ja,
Spiegel Online bietet unter sehr vielen
Artikeln an, ja, ähmm, ..
Publikum GemurmelGelächter
Ich, das Gelächter geht los, bevor ich
etwas gesagt habe. Ihr wisst doch gar
nicht, was ich sagen will, ne? Das man
seine eigene Meinung dazu äußern darf.
Publikum und David Gelächter
Und unter manchen Artikeln sperren sie
diese Funktion aber, ne,
einzelnes Gelächter
und das untersuchen wir jetzt mal,
Und ich hatte euch am Anfang des Vortrages
gesagt, das Artikel direkt nach nen paar
Minuten nach ihrem erscheinen von mir
abgerufen werden, also wenn ich sag, das
was nicht kommentiert werden darf, dann
war das sehr wahrscheinlich, direkt vom
Start weg so. So schnell
randaliert kein Mensch.
leichtes Gelächter im Publikum
Also, bevor wir jetzt ne Themenlandkarte
damit malen, schauen wir mal ganz kurz auf
die zeitliche Entwicklung, der
Kommentierbarkeit, und zwar einfach, damit
wir ne Orientierung haben. In dem Plot
sehen wir pro Kalenderwoche wieviel
Prozent der erschienen Artikel kommentiert
werden durften, und wieviele nicht.
In Rot sind die Nichtkomentierbaren und
Blau die Kommentierbaren und als ich 2014
angefangen habe runterzuladen, waren
erstmal ne ganze Zeit so 80 Prozent der
Artikel kommentierbar. Und genau seit dem
Zeitpunkt der großen
Flüchtlingsberichterstattung im Sommer
2015, ja, sinkt der (Graph) der Artikel
der kommentierbaren Nachrichten
kontinuierlich ab, und jetzt seit kurzem
ist wirklich die Mehrzahl der Artikel ohne
Kommentarfunktion, ne, dir rote Linie
überholt die Blaue, und die
Kommentierbarkeit wird übrigens nicht nur
im Politikressort weniger, das passiert
übergreifend in fast allen Ressorts und
ob seit dem der Hass im Netz irgendwie
themenübergreifend soviel schlimmer
geworden ist oder Spiegel-Online jetzt
einfach soviel Angst vor fiesen
Kommentaren hat, das kann ich aus denn
Zahlen nicht ablesen, das müsst ihr dann
für euch selbst entscheiden. Interessant
ist aber noch der kleine, grüne Plot im
Bild, ne , das sind auch nicht
kommentierbare Artikel. Aber bei denen
steht so ein kleiner Entschuldigungstext
dran, ja. Das hier die Kommentarfunktion
wegen der Netikette und so weiter gesperrt
ist. Ihr braucht das hier jetzt nicht
lesen, ich bring das nur zur Ansicht, und
diesen Entschuldigungstext haben sie zu
Anfang der Flüchtlingsberichterstattung
eingeführt und es scheint so, als war
Spiegel-Online da selbst ein bisschen
unwohl mit dem krassen Anstieg der
Kommentarsperrungen. Aber wie man am Plot
sieht, haben sie den Hinweis ganz flott
wieder aufgegeben, obwohl die
Kommentiermöglichkeiten immer und immer
mehr gesperrt werden. So und jetzt gehts
zur Landkarte. Wir färben ein Keyword
röter, wenn unterdurchschnittlich viele
Artikel darin kommentierbar sind und wir
färben ein Keyword eher blau, wenn das
Keyword überdurchschnittlich
kommentierbar ist. Graue Keywords
repräsentieren so den Durchschnitt, da
dann so 70 Prozent kommentierbar
und das gibt
natürlich auch alle Farben dazwischen.
Also wenn so'n Keyword wirklich
aufleuchtet, dann ist das irgendwo am Ende
der Skala oder am Anfang. Und die
Landkarte stell ich auch bald auf meine
Website, die jetzt kommt, da könnt ihr da
auch selbst drin rumklicken. So, und wir
fangen mal mit ein paar einfachen Sachen
an. Ja ihr ahnt es, Sport darf man quasi
komplett kommentieren, ja, knallblau. Und
falls ihr euch fragt, was der knallrote
Punkt da ist, das ist ein bestimmtes
Artikelformat, das ist technisch ohne
Kommentarfunktion. Sowas kommt schon mal
vor, ich sag nur, weil ich gleich sonst 13
mal die Frage kriege. Und wo man in der
Regel auch gut kommentieren darf, das sind
Wissenschaftsthemen und Wirtschaftsthemen
Hier sind die Bahnstreiks, ja.
Da darf nach Kräften auf die Bahn
eingekloppt werden.
Gelächter
Und wo wir schon von Streik reden, ist
bestimmt jeder hier im Raum in Gedanken,
bei der Lufthansa, die streiken ja als
Hauptkonzernaktivität. Alles blau, ja
Gelächer im Saal
Alles blau, auch die dürfen fiese
Kommentare abkriegen. Ich würd ja
mitlachen, aber ich bin mit dem Flugzeug
hier in Hamburg, ne
Gelächter im Saal
kleiner Applaus
So, nach dem ganzen blau. jetzt mal was
rotes. Knallrote Landschaft, ergibt sich
um die Justiz. Das sind Berichte über die
Kriminalität; Morde, Attentate, ja, "the
full packedge" und hier will man eher
weniger Lesekommentare, ja. So, die Justiz
hat so 30 Prozent Kommentierbarkeit von
den üblichen 70 Prozent. Hier ist die
ganze Geschichte rund um den NSU-Prozeß.
Der ist hier ja auch Thema. Tiefrot, ja,
generell auch alles, was mit Rechtsradikal
und Nazis und so zu tun hat, darf eher
wenig kommentiert werden und der
Kernknubbel hier, der hat so um die 18
Prozent, ja, ist also noch weniger als die
Justiz und die waren schon rot. Was auch
tiefrot ist, ist alles um die
Flüchtlingsthematik und zwar nicht nur
das Konkrete, sondern auch der
weitergefasste Rahmen, Asylrecht
und so weiter. Seht ihr sogar im Bild. Und
von Aussen sieht das aus, als sperrt der
Spiegel seine Kommentarfunktion komplett
systematisch und zwar nach Themen, Ja? Und
das wir sowas direkt visuell raus finden
können, das macht diese Landkarte so
unheimlich mächtig. Allgemein ist es in
der Data-Science nicht nur wichtig richtig
auszuwerten, es ist genauso wichtig, die
Informationen möglichst anschaulich
visuell aufzubereiten. So können dann
nämlich auch Leute, die keine
Informatiker sind, sofort komplexe
Zusammenhänge erkennen. Es gibt ja nur
eine Breitbandverbindung ins Gehirn und
das sind die Augen. Richtig interessant
wirds, wenn man mal guckt, wie
Spiegel-Online die Kommentierbarkeit hart
national ordnet. Das hier ist der ganze
Nahost-Konflikt, um Israel, ja, wie ihr an
dem satten Rot seht, zum Nahostkonflikt
und Israel hat man bei fast allen Artikeln
die Klappe zu halten. So und jetzt
schwenken wir mal vom Nahost-Konflikt zum
Ukraine-Konflikt. Ja lächelt seufzend
akustische Aufruhr im Publikum
Einzelapplaus
Ja.
Applaus
Also. Ihr könnt euch mit nach Hause
nehmen. Meine Damen und Herren:
Russen bashen ist OK.
Gelächter im Publikum
Ja, was wir hier - Live und in Farbe -
sichtbar gemacht haben, ist nichts anderes
als unsere westliche Filterbuble. Die kann
man messen. Zum Iran darf man seinen Senf
dazugeben, zu Großbritanien auch. Zur
Türkei, da ist Spiegel-Online sich noch
nicht ganz sicher.
Gelächter
Und Frankreich ist interessant, diese
Region der Landkarte, die möchte
eigentlich blau sein aber die ganzen
Keywords rund um die Terrorserie dort, die
sind knallrot und die strahlen in die
Nachbarn aus und das schauen wir uns jetzt
doch mal ein bisschen genauer an, Das sind
alles Frankreichartikel aber nach Zeit.
Die blaue Linie ist das Aufkommen der
kommentierbaren Artikel, die rote Linie
wieder das Aufkommen der
Nichtkommentierbaren und wir sehen: wie
Frankreich von 2014 bis 2015 erstmal
überwiegend kommentierbar ist und die
blaue Linie ist über der roten, und hier
ist die Terrorserie in Paris im November
2015 und es wird plötzlich enorm viel
berichtet. Also sehen wir ne krasse Spitze
am Frankreichartikeln, ne, und davon sind
die Meisten nicht kommentierbar. Also:
Frankreich an sich dürft ihr gerne
kommentieren aber bezüglich der
Anschläge dort bitte nicht. Und das
Interessante ist, der Effekt wirkt fort,
Seit der Terrorserie ist Frankreich
generell nicht mehr so kommentierbar. Die
rote Linie ist meist über der Blauen. Und
jetzt tretten wir wieder einen Schritt
zurück. Und natürlich sehe ich auch, das
der Spiegel Themenbereiche aufgrund der
Erfahrungen in der Verasngenheit sperren
kann. Und generell müssen wir auch
zugeben, das ist das gute Recht von
Spiegel-Online zu entscheiden, wo und in
welcher Form sie Anderen auf ihrer Seite
ne Plattform geben und wo sie das eben
nicht tun. Aber genauso ist es auch unser
gutes Recht diese Systematik hier mal
sichtbar zu machen. Und ich denke, das
sieht insgesamt so aus als verböte
Spiegel-Online genau zu denjeniegen Themen
die Kommentierung, bei denen zu erwarten
ist, das die Meinungen der Leser politisch
nicht opportun sind. Ob das jetzt etwas
über Spiegel-Online aussagt oder über
seine Leser oder irgendwie ein
gesamtgesellschaftliches Problem ist, das
müsst ihr dann wieder selbst entscheiden.
Was die Auswertung angeht, haben wir den
Vortrag bis jetzt im Grunde zweigeteilt.
Am Anfang haben wir die Artikelsammlung in
nur wenige Töpfe unterteilt, und danach
haben wir die Artikelsammlung in viel mehr
Töpfe unterteilt, das sind die wenigen,
jeder Artikel konnte sogar in mehreren
Töpfen sein. Ne, das war ja so? Wenn nen
Artikel mehrere Keywords hatte, dann war
er auch in mehreren Töpfen. Und das war
ne viel komplexere, aber auch viel
mächtigere Art der Unterteilung. Und
jetzt merkt ihr euch diese beiden Arten
der Unterteilung mal kurz und damit machen
wir was politisches, wir gehen über zum
Thema Wahlkampf. Ja, Wahlkämpfe
funktionieren grob so, das man die Menge
aller Wähler auseinander schneidet,
wie wir unsere Artikel auseinander
geschnitten haben. Das heißt dann 'Voter
Targeting'. Und bei der US-Wahl konnte man
z.B. sagen man schneidet die Wähler grob
nach Geschlecht, Hautfarbe, Alter und
Gehalt. Das wird dann in der Tat auch so
gemacht. Dann könnte man sozusagen allen
schwarzen Frauen in Kalifonien, die
zuwischen 30 und 40 sind und über 60.000
Dollar im Jahr verdienen, zugeschnittene
Wahlwerbung schicken. Und das ist ne
relativ grobe Art der Unterteilung und die
ist sozusagen analog zu unseren groben
Unterteilungen hier, auf der linken Seite
der Folie. Aber was wäre dann die rechte
Seite? Vor einiger Zeit hat dieser Artikel
des Schweizer Tagesanzeiger die Runde
gemacht. Ich bin sicher viele von euch
kennen den, der ging ziemlich durchs Netz,
der wurde am Tag 13 mal als Lesebefehl
geschickt, und so weiter und so fort. Also
ich glaube, ich habe den bestimmt 50 mal
bekommen, weil ich mich halt auch mit dem
Maschinen-Learning auseinandersetze.
Und in dem Artikel steht im Grunde, das ne
Datenanalysefirma es geschafft habe, eine
extrem feine Unterteilung von Wählern
hinzukriegen. Das wäre, sozusagen, analog
zu unserer sehr mächtigen
Themenlandkarte. Und in dem Artikel steht
weiter, das hätte diese Firma sowohl für
die Präsidentschaftswahl, als auch für
das Brexit-Referendum gemacht. Und es
wurde dann behauptet, deswegen wäre Trump
gewählt worden und deswegen wäre der
Brexit durchgekommen. Das ist natürlich
spooky. Und das verkauft sich gut. Ja -
uijuijuijuijui - Die selbe Firma hinter
Trump und hinter dem Brexit, ja, da glüht
der Aluhut, wirklich.
Gelächter
Applaus
Und die sagen, ihre Unterteilung der
Wählerschaft sei so fein, das man jedem
Wähler seine genau passende Wahlwerbung
schicken könnte. Und sie sagen nicht nur
das, sie sagen sie können das sogar noch
genauer, sie können sogar den
Gesprächston treffen, so dass der Wähler
wahrscheinlich drauf hört. Generell
würde ich sagen, ne, tiefer hängen.
Es ist überhaupt nicht klar, was die
Firma den beiden Wahlkämpfen überhaupt
wirklich gebracht hat. Die Infos kommen im
wesentlich nämlich von der Firma selbst
und ich glaube, ehrlich gesagt ja, da hat
die Firma einen hervorragenden Vertriebler
geschickt und der hat dann wirklich der
Presse einen brillianten Vortrag gehalten
und die Presse hat's dann einfach gekauft.
So und die Kernaussage ist doch nur: Ihr
könnt jetzt Wahlwerbung bekommen, oder
Werbung im Allgemeinen, die extrem
genau auf euch zugeschnitten ist und euch
so effizienter zu Dingen verleitet. Mit
anderen Worten: Endlich kriegen nur noch
diejenigen Viagra-Spam, die das Produkt
auch wirklich benötigen.
Das ist ja zunächst mal nicht schlimm.
verhaltendes Gelächter
Ja, Aber kaufen und eben wählen, das
müssen die Leute schon noch selbst, es
ist nicht so das BigData die Leute
fernsteuert. Das müssen wir schon
festhalten, also man könnte sagen: Wer
vor so zielgerichteter Werbung Angst hat,
der sollte vielleicht die eigene
Urteilsfähigkeit hinterfragen.
Applaus
Ja. Ja. Bestimmt haben auch ein paar von
euch diesen Gedankengang gehabt und an der
Stelle hat ich keinen Applaus erwartet.
Sich selbst haben sie sich ein
bisschen bruhigt, mit diesem Gedankengang.
Das Problem ist nur, ich glaube,
die eigene Urteilsfähigkeit hinterfragen,
das macht kaum einer. In der Realität
wählen die Leute doch irgendwie
denjenigen, der ihnen am meisten, am
emotional passensten, kurz vor der Wahl
was zubrüllt. Ja. Und so laufen Wahlen.
Das ist ja auch politisch so gewollt, Wo
kämen wir auch hin, wenn Wahlen irgendwie
langfristigen Erfolg belohnen würden, ne.
verhaltendes Lachen
Und dieses emotionale Zurufen und das geht
mit so höchst personalisierter Werbung
urplötzlich, unglaublich effizient. Und
das bedeutet, ja, Data-Science-Techniken
können Wahlen beeinflussen. Ja vorhin
hatte ich die Voratsdatenspeicherung
angeprangert ja ich bin ja auf dem CCC,
also vermute ich, dass die Meisten von
von mit mir einer Meinung waren. Und damit
kommen wir genau zum Punkt; Wisst ihr, was
die Firma aus dem Artikel genommen hat, um
die Wähler so ultragenau zu vermessen?
Das waren überhaupt gar keinen
staatlichen Überwachungsdaten, das waren
Facebook-Likes. Also Daten, die die Leute
selbst über sich ins Netz gestellt
hatten, ne. Und es ist wichtig mit
staatlicher Überwachung kritisch zu sein.
Ja das dürfen wir und das müssen wir
auch, wenn wir kein Unrechtsstaat werden
wollen. Aber wenn wir dann gleichzeitig
völlig unkritisch sind mit uns selbst,
ja, und wirklich jeden Mist ins Facebook
oder ähnliche Plattformen pumpen, ja,
dann haben wir nichts gewonnen.
Applaus
Mein Vortrag neigt sich dem Ende zu. Es
kommen jetzt noch zwei Sachen: eine kleine
Überraschung und dann habe ich noch ne
Bitte an euch alle. Und zuerst gibt es die
Überraschung. Ja, habe ich vorhin gesagt,
ich hätte 100.000 Artikel von
Spiegel-Online geladen?
Ich meinte über 700.000
Applaus
Ne, ich lade jeden Artikel nicht nur
einmal runter, wenn er erscheint somdern
mehrfach in wachsenden Zeitabständen.
Und mit anderen Worten, wir können messen,
was in Artikeln geändert wurde.
Gelächter
Applaus
So und aus Zeitgründen, gibts damit keine
riesen Auswertung. Erstens aus
Zeitgründen hier im Vortrag aber auch
zweitens aus persönlichen Zeitgründen ne,
ich muss irgendwann auch nochmal arbeiten.
Aber wir haben ne kleine Demo.
Ich hab zum Beispiel mal geguckt, ob
Titel geändert werden, ne.
Und bei sowas findet man einfach lustige
Sachen. Es gibt nicht nur den Titel,
der hier offensichtlich ist.
Sondern es gibt auch zusätzlich den
Html-Titel, die Techniker unter euch
kennen den. Der wird oben im Browser
angezeigt und auch die Html-Titel erfasse
ich natürlich. So und am 21.Januar -
wobei der hier sichtbare Artikel ist am
20. Januar 2015 rausgekommen - und am
21.Januar und das war einen Tag nachdem
der Artikel erschienen war, wurde mir
angezeigt: Der Html-Titel hat sich
geändert aus "SAP wächst 2014 langsamer
als geplant." Ich hab mich dann gefragt:
He, warum wurde er denn geändert, ja also
wie war der vorher. Ganz einfach: Als der
Artikel rauskam, wuchs nähmlich nicht SAP
sondern der SAP-Chef
wuchs langsamer als geplant.
Gelächter
Sowas finde ich an sich ganz sympatisch,
Gelächter
denn es zeigt, das bei Spiegel Online noch
Menschen an den Texten sitzen und keine
Computer und im Moment heisst der Artikel
übrigens: SAP kann Wachstums- und
Gewinnziele nicht erfüllen. Also das hat
nochmal irgendwem nicht gefallen, ne. Und
irgendwann zwischendurch haben sie es
nochmal geändert. Also, jetzt wisst ihr
erst, wie mächtig der Datensatz
tatsächlich ist. Ich hab von jedem
Artikel diverse zeitlich versetzte
Versionen und das erlaubt natürlich viel,
viel krassere Auswertungen und damit fang
ich aber selbst erst an und deswegen ist
heute noch so wenig davon im Vortrag, aber
das war meine Überraschung und jetzt
kommt meine Bitte. Ihr habt jetzt alles
mögliche gesehen und wir haben Artikel
auf einfach und komplexe Weise unterteilt.
Wir haben gesehen, das verschiedene
Arten der Unterteilung und Darstellung
verschieden mächtig sind und wir haben
verschiedenste Features aus den Artikeln
gelesen: Rubrik, Zeiten, Kommentierbarkeit
Autor. Jede Menge weiterer Features sind
denkbar. Auch kompliziertere Features ja.
Man könnte zum Bsp für jeden Artikel die
darin enthaltenden Links raus ziehen und
dann gucken, ob bestimmte Autoren Kumpels
haben, auf die sie oft verlinken.
Der Fantasie sind wirklich keine Grenzen
gesetzt. Und zum Schluss haben wir sogar
gesehen, wir können für jeden Artikel
messen, was verändert wurde, ne.
Wir können z.B. gucken, wo die Leser am
meisten randalieren. Da guckt man, indem
man guckt, wo die Kommentarfunktionen erst
geöffnet und später dann geschlossen
sind. Also meine Bitte an euch, jeder der
hier zuguckt, schickt mir bitte einen Mail
mit seinem kreativsten Auswertungsideen
für den Datensatz. Und in dem
Zusammenhang hab ich noch ne Message, die
ihr euch auch mitnehmen könnt. Wenn ihr
was im Bereich der Data-Science macht,
Rohdaten sind geil.
Gelächer
Applaus
Behaltet immer alle Rohdaten, wenn ihr es
irgendwie vom Speicher bezahlen könnt.
Ne, dann könnt ihr nämlich im nachhinein
alles mögliche tun. Ich hab alle Rohdaten
komplett da. Das sind über 60 GB
pures HTML.
Gelächter
Und neue Features im nachhinein dazu
auswerten, ist deswegen überhaupt
kein Problem. Darum bitte, bitte, lasst
eurer Fantasie freien Lauf. Erfindet neue
Features, erfindet wonach die ausgewertet
werden sollen. Schickt mir einfach, was
ihr euch denkt, ja. Vieleicht ist nicht
alles, was ihr wollt möglich und
vielleicht schau ich auch nicht alles
sofort. Ich bin ja auch berufstätig und
zum Jahresanfang werde ich stramm
eingespannt sein Aber ich versuch was
möglich zu machen. Also einfach
einschicken. Seit kreativ. Und damit
bleibts mir nur noch, ein dickes
Dankeschömn zu sagen dafür das ihr diese
Stunde mit mir verbracht habt.
Hier sind noch die Links. Und bis dann.
Applaus
JubelApplaus
Herald: Ganz so schell wirst du
natürlich noch nicht entlassen, weil wir
haben noch unsere Fragerunde. Erstmal
herzlichen Dank, immer schön zu sehen,
wie die Mathematik doch spannend sein
kann, um eben solche Daten zu analysieren.
Und ja, wie immer, wenn ihr Fragen habt,
tretet vor zu den Mikrofonen. Und alle die
schnell, ich glaube nebenan startet der
Jahresrückblick mit Fefe oder
David Kreisel: Ne der Fefe sitzt da vorne
im Publikum.
Herald: Ach ja, der sitzt noch hier. So
schnell wird er dann drüben noch nicht
starten, vielleicht wollen die schon mal
einen Platz. Genau. .... Wo haben wir
Fragen, an Mikro 3, beginnen wir dort:
Mik 3: Hi, super Vortrag, fand ich echt
Klasse. Was mich mal interessieren würde:
Hast du mal geguckt, ob die Split testen
und die Artikel-Überschriften ändern
anhand von wieviel Leute drauf klicken
oder sowas?
David: Ja das würde man messen daran,
wie viele verschiedene Titel man so findet
und wenn diese Zahl der durchschnittlichen
Titel pro Artikel ansteigt, dann passiert
das und wenn ich das richtig interpretiere
dann testen sie das gerade. Also es ist
noch nicht übergreifend, es ist immer nur
so stossweise, vielleicht will mich auch
einer korrigieren von Spiegel Online, aber
so wie meine Daten aussehen, ja hab ich
getestet, sie versuchen es gerade. Also
was ist Splittesten? Vieleicht mal fürs
Publikum. Man veröffentlicht Artikel mit
verschiedenen Titeln und dann guckt man,
wo am meisten Leute klicken, bei welchem
Titel und der Titel darf dann weiter
leben. Ihr verändert also durch euren
Besuch direkt die Nachrichtenseite.
Mikro 1: Ja hi. Ich wollte fragen, ob du
auch Spiegel-plus Artikel, die es ja seit
Mitte diesen Jahres, glaube ich, gibt mit
einbezogen hast und wenn ja, hast du einen
plus Account?
David: Äh, ja.
leichtes Gelächter im Publikum
Ich habe die mit einbezogen, ähm, und
natürlich habe ich auch einen
plus-Account, der das vollautomatisch
entschlüsselt,
räusper
und dazu also
Gelächter
wenn einer Näheres - Ich hab mich da
wahnsinnig geärgert - kurz - als die
plus-Artikel rauskamen, weil ich die
nicht auf Anhieb de-krypten konnte.
Und dazu gibts jetzt bei mir einen
Blogartikel, seitdem,
wie man die de-kryptet.
Applaus
Ich muss übrigens mal was Positives
sagen, die Spiegel plus Artikel sind im
Median 1100 Worte lang, also man muss
schon sagen,
da kriegt ihr auch was fürs Geld.
leichtes Gelächterleichter Applaus
Mikro 7: Hast du im Rahmen deiner Analysen
auch auf die Inhalte geguckt, das du
vielleicht die Worthäufigkeit analysiert
hast und die Zuordnung zu Ressorts oder zu
Schlagworten anhand der Inhalte
abgeglichen hast, um vielleicht raus
zufinden, ob die Verschlagwortung
vollständig oder richtig ist.
David: Ne hab ich noch nicht gemacht. Man
kann ja die Schlagworte nehmen und da hab
ich es mir bequem gemacht oder man
versucht jetzt ne Analyse zu machen, was
die relevanten Worte im Artikel sind und
das hab ich noch nicht gemacht, Das wären
dann sozusagen die schöneren Schlagworte.
Aber ne, hab ich noch nicht gemacht.
Herald -Frage aus dem Internet:
Signal Angel: IRC möchte wissen, welche
Software du benutzt hast, um die Daten zu
sammeln. zu analysieren, zu visualisieren
und ob es
die Daten irgendwo gibt, außer bei dir.
David: OK. Nein gibts noch nicht, irgendwo
außer bei mir, weil ich mir auch gar
nicht sicher bin, ob ich die verteilen
darf. Ich benutze den Python Data Stack
und die Software zum runterladen hab ich
mir selbst geschrieben, die läuft auf
einem meiner Server und darüberhinaus
nutze ich Pandas für die Analyse, das ist
auf Python aufbauend und dann diese ganze
MaschinLearning Sachen da drüber
scikit-learn. Also den ganzen Py DataStack
googelt danach einfach, da findet ihr viel
und zum Visualisieren hab ich hier Tableau
genommen, das ist ne
Visualisierungssoftware. Die schon
voragregierte und vorerechnete Daten bis
zu ein paar GigaByte ganz gut verkraftet
und da kann man sehr schnell schöne
Visualisierungen draus ziehen und zum
Visualisieren der Graphen hab ich Gephi
genommen.
Mikro 4: Hast du Daten Real-Time
analysiert oder
alles im nachhinein gemacht?
David: Ich versteh die Frage nicht.
Mirko: Ob du die Daten während du sie
gesammelt hast analysiert hast?
David: Ach so, ne. Das wird alles
rohdatenmäßig gesammelt, dann wird das
im weiteren Schritt erst mal, werden die
Rohfeatures rausge-parsed und das sind dann
so wenige, das sie in der Tat dann in
einen RAM passen und ich dann darauf
weitere High-Level Feature machen kann.
Das passiert so in 3 Layern. Also es ist
nicht direkt dabei aber während wir hier
gesprochen haben, ist schon wieder 10 mal
runter geladen worden. Insofern ist das
schon gleichzeitig zum Runterladen.
Das Runterladen geht weiter.
Mikro 3: Eine Idee für die Auswertung: Du
könntest mal gucken, ob bestimmte
Wortgruppen in älteren Artikeln nochmal
vorkamen, um zu sehen welche zusammen
kopiert wurden.
David: Du meinst, ja ja , so ne Auswertung
im Sinne von: In jedem Artikel kriegt ihr
durchschnittlich 73 Prozent neuen Content
quasi, ja?
Gelächter
Mikro: Ja
David: Guter Punkt
Applaus
David: Machen wir so.
Mikro: Hallo, ich wollte nur kurz einen
Denkanstoss geben, ich formuliere das mal
als Frage. Könnte es sein, das diese
Nichtkommentierbarkeit von Israel-Artikeln
auch einfach ein Ressourcen-Problem ist,
weil es da vielleicht mehr aus
juristischen Gründen zu zensieren gibt
für die Redaktion?
David: Das kann selbstverständlich sein.
Ja natürlich.
Mikro: Z.B. gibt es ja durchaus
Sigularitäten mit dem deutschen
Strafrecht, das man bestimmte Sachen
nicht sagen darf.
David: Ja. Also, hätte es nur Israel
erwischt, hätte ich das auch sofort auch
gedacht. Aber ja kann natürlich sein.
Das ist auch so ganz wichtig an so
Data-Science, ich hab das hier jetzt
teilweise bisschen ketzerisch vorgetragen
aber natürlich müsst ihr schon selbst
nochmal gucken, was ihr aus den Daten
folgert. Ja natürlich, das kann sein. Am
besten wissen das natürlich nur die
Spiegelleute. Aber Israel war ja nicht der
einzige Punkt der nichtkommentierbar war
und zur reinen Justiz gibt es keine
Singularität im deutschen Strafrecht.
Mikro 6: Hallo David, vielen Dank für den
Talk. Hast du überlegt die Software
irgendwie Open Source anzubieten , so
dass man sie z.B. für
andere Quellen anpassen kann. Tagesschau
etc.
David: Hab ich nicht überlegt. Aber
ehrlich gesagt, so aufwendig ist es auch
nicht. Ihr schreibt euch nen Script, was
euch alle paar Minuten mal losläuft und
die Artikel runter lädt und das
speicherst in einer Datenbank fertig. Also
das Open Source, ist das uninteressanteste
was es gibt. Ddas findet ihr in 1000
Varianten sauberer als ich das gemacht hab
nochmal, glaube ich. Aber ja, man könnte
mal eine Vergleichsauswertung mit anderen
Medien starten, ja.
Mikro 1: Wie hast du den Strain aus deiner
Karte entfernt, du hast da ne ganze Menge
Dimensionen auf zwei Dimensionen runter
gebrochen ..
David: Den was aus meiner Karte entfernt?
Mikro: Die Spannung, weil du hast ja sehr
viel Dimensionen auf zwei Dimensionen
reduziert ...
David: Ja,
Mikro: .. und wie hast du sichergestellt,
das jetzt nicht Inseln bei einander sind,
die gar nicht zusammen gehören oder
manche anderen nicht beieinander sind,
die aufgrund von Inseln, die dazwischen
liegen nicht nah genug zueinander kamen.
David: In der Theorie kann man das nie
ausschliessen, aber in dem Graoh steckt
sehr viel Verfahren drin. Also ich hab
zunächst mal zugesehen, das ich
überhaupt nur die wichtigen Kanten pro
Knoten behalte, sonst hat man wirklich
viel zu viele Kanten und dann gibts da
professionelle Graph-Layouting-Verfahren
für, also Gephi bietet was, das heißt
VsAtlas 2 und das war das, was ihr in den
hübschen Video gesehen habt, damit geht
das sehr gut, Also du must das natürlich
ein bisschen Schmakes da rein investieren,
wie du die Kanten vorher ausfilters und
dann, dann bist du immer noch nicht sicher
in der Theorie, aber dann siehst ja, ob
das Bild gut wird oder nicht.
Mikro 2: Du meintest, du warst im Oktober
beim Spiegel, wie war den deren Reaktion
zu deinen Analysen?
David: Positiv, also, ob das jetzt nur
daran lag, dass die sowieso nichts dagegen
tun können, weiss ich nicht,
aber ehrlich gesagt,
Gelächter
hab ich das als sehr positiv und
interessiert wargenommen und auch ich hab
was gelernt und das war eigentlich einen
ziemlich cooler Termin, also sportlicher
als die Kollegen bei Xerox sag ich mal.
großes GelächterApplaus
Mikro: Ist vielleicht ne Suggestivfrage,
vielleicht auch in Richtung, wie man
weiterforschen könnte. Das Verfahren, das
du benutzt hast, um die thematische Nähe
verschiedener Tags zueinander zu
bestimmen, wäre es mathematisch
ACHTUNG: Mathematiker-Kauderwelsh ..
nicht korrekter, wenn du eine singuläre
Zerlegung der Adjazentmatrix
dieser Schlagworte baust,
ähnlich wie Google Page Rank
das gemacht hat.
David: Ja. Aber dann kann man nicht so
einen schönen Graphen draus basteln und
es kommt wahrscheinlich was ähnliches
raus, sein wir ehrlich. Ich sehe ja die
Werte der Kanten und wahrscheinlich ist es
am Ende das Selbe.
Mikro: Ja wenn du genug Dimensionen
benutzt ist es äquivalent.
David: Ja.
Alles ist still, Mensch.
Mikro 3: Nochmal kurz zu den Landkarten,
das sind irgendwelche
MonteCarlo Methoden diese Springs ...
David: Ja
Mikro: ... im Endeffekt positionieren, wie
stabil sind die?
David: Ich denke, ich hab mich da in die
Theorie nicht eingearbeitet weiter, es
würde mich wundern, wenn du da ne
Stabilität drüber nachweisen könntest.
"Fest steht, sie sind etabliert für
große Graphen." weil da ist sowieso nix
mehr zu planarisieren in der Größe und
dann sieht man halt zu zu iterieren bis es
stimmt und wenn es schlecht aussieht, dann
drückt man nochmal auf den Startknopf.
Also so ist wirklich die Praxis.
Mikro: Hallo. Hast du mal Markov auf deine
Daten geworfen,
um Spiegelartikel zu generieren.
GelächterApplaus
David: Nein! Könntest du mir bitte damit
eine Email schicken?
Gekiecher und Gelächter im Saal
Mikro: Sehr gerne.
David: Oh wir haben Spaß, ich seh das
schon ..
GelächterApplaus
D: Da machen wir aber nicht nur die
Artikel Generierung sondern dann wird
bitte auch direkt dazu generiert, zu
welchem Thema kommentiert werden darf
und zu welchen nicht, ne ...
vereinzeltes Gelächter
Ruf aus dem Publikum: Autoren generieren
David: Autoren generieren, das ist auch
schön, ja.
Gelächter
Herald: So wir sind auch am Ende unserer
Zeit. Wer noch Fragen hat, du bist sicher
gleich noch ...
David: Ich geh hier jetzt da raus, zur
nächsten Bierbar, die da ist, falls die
nicht vor Saal 2 ist, ist die vor Saal 1
dann bin ich da.
Wir machen jetzt DDos auf
die Bierbar. Ja.
Applaus
Herald: Ja ist ja auch Zeit.
Applaus
Herald : Auch von mir auch nochmal ein
Herzlichen Dank ....
33c3 - Abspann-Musik
Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!