Return to Video

SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)

  • 0:00 - 0:13
    33C3 Vorspannmusik
  • 0:13 - 0:18
    Herald Carina Haupt: David Kriesel ist
    Data Scientist. Und der eine oder andere
  • 0:18 - 0:25
    kennt ihn vielleicht noch vom 31C3, wo er
    den relativ bekannt gewordenen berühmten
  • 0:25 - 0:27
    Xerox Scanning Bug Vortrag gehalten hat.
  • 0:27 - 0:35
    Applaus
  • 0:35 - 0:41
    Dieser hat ihn offensichtlich nicht nur
    hier bekannt gemacht. Sondern auch zu
  • 0:41 - 0:46
    internationaler Bekanntheit verholfen. Und
    damit begrüsse ich ihn und freue mich auf
  • 0:46 - 0:51
    einen spannenden Talk und bitte Euch
    nochmal um einen ganz ganz herzlichen
  • 0:51 - 0:54
    Applaus für David.
  • 0:54 - 0:57
    Applaus
  • 0:57 - 0:59
    David: Dankeschön
  • 0:59 - 1:01
    Applaus
  • 1:01 - 1:07
    Ja, dankeschön. Herzlich willkommen. Auch
    nochmal von mir. Auch an die Leute im
  • 1:07 - 1:12
    Internet. Und auch an die Leute vom
    Spiegel. Von denen ich weiss, dass sie
  • 1:12 - 1:18
    anwesend sind. Es ist schön wieder hier
    zu sein. Mein Name ist David Kriesel. Ich
  • 1:18 - 1:23
    bin Informatiker aus Bonn. Und ich mache
    beruflich, es wurde schon gesagt Data
  • 1:23 - 1:27
    Science und Machine Learning. Und salopp
    gesagt, versuche ich für meine
  • 1:27 - 1:34
    Arbeitgeber aus grossen Datenmengen Wissen
    zu ziehen. Und seit 2014 habe ich knapp
  • 1:34 - 1:39
    100 000 Artikel von Spiegel Online
    ge-vorratsdaten-speichert.
  • 1:39 - 1:46
    GelächterApplaus
  • 1:46 - 1:50
    Und das habe ich einfach niemanden
    erzählt.
  • 1:50 - 1:51
    Gelächter
  • 1:51 - 1:55
    Und während ich da so zweieinhalb Jahre
    sitze und das niemanden erzähle, ist die
  • 1:55 - 1:59
    Stimmung medial irgendwie umgeschlagen.
    Vor zweieinhalb Jahren war die Welt noch
  • 1:59 - 2:05
    in Ordnung und heute ist die Rede von
    Lügenpresse und Fake News und genau aus
  • 2:05 - 2:10
    dieser Zeit des Stimmungsumbruchs haben
    wir jetzt einen riesigen Datensatz über
  • 2:10 - 2:15
    den vielleicht grössten Meinungsmacher
    unserer Nation. Und mit diesem Datensatz
  • 2:15 - 2:19
    werden wir heute zwei Sachen machen:
    Erstens, wir werden den Datensatz
  • 2:19 - 2:24
    durchleuchten und was über Spiegel Online
    lernen. Und zwar so, dass ihr das auch mit
  • 2:24 - 2:30
    nach Hause nehmen und beim Lesen dann
    anwenden könnt. Und zweitens, wir werden
  • 2:30 - 2:34
    Einblick erhalten wie die Datensammelwut
    von heute funktioniert und wie mächtig
  • 2:34 - 2:38
    oder vielleicht auch nicht mächtig die
    ist. Und das machen wir so, dass es für
  • 2:38 - 2:43
    jeden verstehbar ist, nicht nur für
    Informatiker. Und zusätzlich werde ich,
  • 2:43 - 2:46
    wie in meinem letzten Vortrag vor zwei
    Jahren ein bisschen auf das
  • 2:46 - 2:50
    Gesellschaftliche eingehen. Und wir werden
    an ein paar passenden Beispielen
  • 2:50 - 2:53
    beleuchten, wie die moderne
    Datenverarbeitung unsere Gesellschaft
  • 2:53 - 2:57
    beeinflussen kann. Und ob wir die Welt,
    mit dieser allumfassenden Datensammelwut
  • 2:57 - 3:01
    besser machen oder schlechter machen, dass
    kann dann ja später jeder von euch für
  • 3:01 - 3:07
    sich selbst entscheiden. Am besten fangen
    wir an, in dem ich kurz beschreibe wie
  • 3:07 - 3:12
    genau Spiegelmining funktioniert. Rund um
    die Uhr, alle paar Minuten schaut einer
  • 3:12 - 3:17
    meiner Server vollautomatisch auf Spiegel
    Online nach ob dort neue Artikel stehen
  • 3:17 - 3:20
    und werden neue Artikel gefunden, dann
    werden die heruntergalden und
  • 3:20 - 3:25
    abgespeichert. Und auf diese Weise hat der
    Datensatz einen coolen Vorteil der ja
  • 3:25 - 3:30
    jetzt vielleicht nicht sofort ersichtlich
    ist: ich erhalte neue Artikel binnen
  • 3:30 - 3:34
    Minuten, nachdem sie veröffentlicht
    wurden. Das heisst, ich kriege die im
  • 3:34 - 3:36
    Originalzustand, also vor allen
  • 3:36 - 3:37
    Verbesserungen und Änderungen,
  • 3:37 - 3:39
    die im Nachhinein vorgenommen
  • 3:39 - 3:42
    werden und das ist natürlich
    viel aussagekräftiger.
  • 3:42 - 3:46
    Man erhält ein unverfälschten Eindruck und
    es ist nicht so wie wenn man einen Artikel
  • 3:46 - 3:50
    runterlädt, die vieleicht schon Jahre alt
    und tausend mal editiert sind. Aus den
  • 3:50 - 3:54
    heruntergeladenen Artikeln lese ich dann
    sogenannte Features. Feature ist einfach
  • 3:54 - 3:58
    das Fachwort für ein Artikelmerkmal. Ganz
    einfache Features eines Artikels können
  • 3:58 - 4:00
    zum Beispiel der
    Veröffentlichungszeitpunkt oder die
  • 4:00 - 4:04
    Rubrik sein, in der der Artikel steckt.
    Und die Features nehme ich dann und mache
  • 4:04 - 4:09
    damit Auswertungen, von den sehen wir
    heute noch ein paar. Und die interessanten
  • 4:09 - 4:13
    unter den Auswertungen nutze ich dann, um
    auf meiner Seite eine Blogartikelserie zu
  • 4:13 - 4:17
    schreiben, um meinen Lesern einen Einblick
    in Spiegel Online und die Data Science
  • 4:17 - 4:21
    gleichermassen zu geben und das war es.
    Spiegelmining in wenigen Minuten. Und am
  • 4:21 - 4:25
    Anfang machen wir jetzt ein paar sehr
    einfache Auswertungen, so sehen wir wie
  • 4:25 - 4:28
    das funktioniert und verschaffen uns
    gleichzeitig einen Überblick über
  • 4:28 - 4:32
    Spiegel Online und als erstes zählen wir
    mal wie häufig die einzelnen Rubriken so
  • 4:32 - 4:37
    vorkommen. Das ist die Ansicht. Die
    Größe der Kreise gibt die Artikelanzahl
  • 4:37 - 4:42
    pro Rubrik wieder und wie wir sehen, wird
    Spiegel Online dominiert von Politik, das
  • 4:42 - 4:48
    ist der große rote Kreis rechts oben, von
    Panorama, das ist der grüne Kreis in der
  • 4:48 - 4:52
    Mitte und vom Sport, das ist der
    fliederfarbene Kreis ganz unten. Ich
  • 4:52 - 4:55
    weiss, was fliederfarben ist. Ich höre
    schon Leute lachen.
  • 4:55 - 4:57
    Applaus
  • 4:57 - 5:04
    Also die drei Rubriken, die machen
    zusammen die Hälfte der Artikel aus. Und
  • 5:04 - 5:08
    das nächste supereinfache Feature ist der
    Veröffentlichungszeitpunkt von jedem
  • 5:08 - 5:12
    Artikel. Damit messen wir jetzt einfach
    mal, wieviele Artikel Spiegel Online am
  • 5:12 - 5:16
    Tag so schreibt. Der Plot sieht jetzt
    richtig richtig krass unordentlich aus,
  • 5:16 - 5:20
    dass man da fast keine Werte erkennen
    kann. Das liegt an den Wochenenden.
  • 5:20 - 5:23
    Da wird um die Hälfte weniger
    veröffentlicht als normal. Und deswegen
  • 5:23 - 5:27
    schwankt das so krass. Und hier gibt es
    dann auch gleich den ersten Bericht aus
  • 5:27 - 5:32
    der Praxis: wie man deutlich sieht, habe
    ich Anfang März 2015 ein paar Tage Loch
  • 5:32 - 5:37
    in den Daten. Und der Grund ist, dass der
    März ein Monat mit "ae" ist.
  • 5:37 - 5:40
    GelächterApplaus
  • 5:46 - 5:53
    Also, mir ist das nach kurzer Zeit zum
    Glück aufgefallen. Also wenn Ihr Daten
  • 5:53 - 5:57
    aufnehmt, dann programmiert Euch bitte mal
    irgendeine Form von Warnsystem, das
  • 5:57 - 6:01
    anschlägt, wenn länger keine Daten mehr
    eintrudeln. Ich hatte das zum Glück und
  • 6:01 - 6:04
    das hat mir hier sehr geholfen. Jetzt
    schlägt es in ein paar Minuten an und da
  • 6:04 - 6:08
    hatte ich so irgendwie ein paar Tage keine
    Ahnung. Zurück zum Plot: Wegen der
  • 6:08 - 6:11
    Unordnung mit den Wochenenden ändern wir
    jetzt unseren Plot und berechnen statt den
  • 6:11 - 6:15
    Artikeln pro Tag jetzt die Artikel pro
    Woche. Und man sieht jetzt auch was und da
  • 6:15 - 6:19
    sehen wir, dass Spiegel Online im Schnitt
    so 700 Artikel die Woche veröffentlicht,
  • 6:19 - 6:24
    also so 100 am Tag. Und das ist schon
    ziemlich viel Output. Übrigens die beiden
  • 6:24 - 6:29
    krassen Einbrüche, die Ihr hier seht, das
    sind die Weihnachtswochen, da wird weniger
  • 6:29 - 6:32
    veröffentlicht und der Datensatz für
    diesen Vortrag ist vom 4. Dezember,
  • 6:32 - 6:36
    deswegen ist dieser Weihnachts-Low dieses
    Mal einfach noch nicht drin. Und wenn man
  • 6:36 - 6:41
    jetzt Features einzeln betrachtet, aber
    richtig interessant wird es, wenn wir
  • 6:41 - 6:44
    Features zusammen betrachten. Wir
    verwursten jetzt also mal
  • 6:44 - 6:48
    Veröffentlichungszeitpunkt und Rubrik
    zusammen. Und dann können wir sehen, das
  • 6:48 - 6:55
    beispielsweise der Output in den Rubriken
    Panorama und Politik stabil ist. Während
  • 6:55 - 6:59
    Wissenschaft und Uni-Spiegel ganz schön
    zusammengestrichen wurden. Das gilt
  • 6:59 - 7:03
    übrigens in abgeschwächter Form auch für
    andere Ressorts. Solche Infos, welche
  • 7:03 - 7:07
    Ressorts gerade gerupft werden, sind zum
    Beispiel relativ interessant, wenn man
  • 7:07 - 7:11
    Konkurrent von Spiegel Online ist. Das
    kann man ohne weiteres auslesen. Und wir
  • 7:11 - 7:15
    sehen, geschickt Features ausdenken und
    zusammenstöpseln, ist die halbe Welt.
  • 7:15 - 7:20
    Jetzt nehmen wir mal die Textlänge der
    Artikel dazu. Hier sind die typischen
  • 7:20 - 7:25
    Artikellängen im Spiegel angegeben und
    zwar pro Rubrik. Und man sieht, dass der
  • 7:25 - 7:30
    typische Kulturartikel fast dreimal so
    lang ist, wie der typische Panorama- oder
  • 7:30 - 7:36
    Sportartikel und immerhin noch doppelt so
    lang wie der typische Politikartikel. Und
  • 7:36 - 7:40
    jetzt hatten wir schon gesehen, das
    Panorama, Sport und Politik trotz ihrer
  • 7:40 - 7:44
    kurzen Artikellängen genau die drei
    dominierenden Ressorts sind. Und daraus
  • 7:44 - 7:49
    können wir folgern, das Spiegel Online es
    eher auf Reichweite anlegt und auf
  • 7:49 - 7:55
    Abdeckungsbreite als auf Tiefe. Die
    Strategie Reichweite um jeden Preis
  • 7:55 - 7:58
    scheint Spiegel Online auch noch so zu
    verstärken. Die zusammengestrichenen
  • 7:58 - 8:02
    Rubriken waren alles welche mit eher
    langen Texten. Und bevor das hier jetzt
  • 8:02 - 8:06
    falsch ankommt, ich sage das ohne jede
    Wertung im Sinne von gut oder schlecht das
  • 8:06 - 8:09
    ist ja eine valide Strategie für ein
    Medium und ich beschreibe einfach nur
  • 8:09 - 8:13
    gemessene Daten. Und es ist keineswegs der
    Zweck der Veranstaltung irgendwie
  • 8:13 - 8:17
    substanzlos in Richtung von Spiegel Online
    zu haten. Wer hatet wird nicht ernst
  • 8:17 - 8:20
    genommen. Das habe ich ja in meinem
    letzten Vortrag schon ausführlich
  • 8:20 - 8:24
    beschrieben. Und die meisten Sachen, die
    hier im Vortrag noch kommen, denkt daran,
  • 8:24 - 8:29
    die sind bei den anderen wahrscheinlich
    ähnlich. Wichtig ist auch dass man mit
  • 8:29 - 8:34
    den Features experimentiert. Hier ist zum
    Beispiel ein Diagramm, das zeigt, dass
  • 8:34 - 8:38
    Veröffentlichungsvolumen pro Wochentag
    und Stunde. Die Zeilen sind die Wochentage
  • 8:38 - 8:43
    und die Spalten sind die Stunden eines
    Tages. Pro Wochentag und Stunde sehen wir
  • 8:43 - 8:46
    einen Block. Und in den grossen Blöcken
    sind viele Artikel erschienen und in den
  • 8:46 - 8:52
    kleinen wenige. Und jetzt lernen wir daran
    mal, wie es in der Data Science zugeht:
  • 8:52 - 8:56
    Erstens: In der Data Science findet man
    immer wieder Botschaften bestätigt, die
  • 8:56 - 9:02
    man vorher schon erahnt hat. Das ist der
    langweilige Teil der Data Science. Aber
  • 9:02 - 9:06
    das ist gut, um die eigenen Messverfahren
    zu überprüfen. Wir sehen hier, zu den
  • 9:06 - 9:10
    unchristlichen Zeiten wird viel weniger
    veröffentlicht. Bahnbrechende Erkenntnis:
  • 9:10 - 9:13
    Auch der Spiegel-Online-Redakteur
    möchte mal schlafen.
  • 9:13 - 9:14
    Gelächter
  • 9:14 - 9:21
    Zweitens: In der Data Science findet man
    aber auch immer Systematiken da, wo man
  • 9:21 - 9:26
    keine erwartet hat. Und das passiert oft
    dann, wenn man Features verbindet. Wir
  • 9:26 - 9:30
    färben jetzt mal jeden dieser Blöcke
    ein, nach der typischen Textlänge. Rote
  • 9:30 - 9:35
    Blöcke enthalten typischerweise lange
    Texte und blaue Blöcke eher kurze. Und
  • 9:35 - 9:40
    zack Es gibt einen klaren Zusammenhang
    zwischen Tageszeit und Länge der Artikel.
  • 9:40 - 9:44
    Für mich als Nicht-Journalist war das
    damals überraschend. Die typische Länge
  • 9:44 - 9:48
    der veröffentlichten Artikel die ist von
    Montag bis Freitag zwischen 5 bis 6 Uhr
  • 9:48 - 9:54
    früh am grössten. Das gleiche am
    Wochenende. Hier gibt es zum Tagesstart
  • 9:54 - 9:59
    auch nur längere Artikel, ein bisschen
    später natürlich. Und das Rätsels
  • 9:59 - 10:03
    Lösung zu diesem Phänomen kommt später
    noch. Und als Drittes, ist die Data
  • 10:03 - 10:09
    Science natürlich auch dazu da fieseste
    Vorurteile zu schüren. Ich führe Euch
  • 10:09 - 10:13
    das mal vor. Jetzt gebt mir bitte mal ein
    Handzeichen, wer von Euch denkt, dass die
  • 10:13 - 10:18
    Leutchen aus dem Kulturressort morgens
    bitte, gerne ein bisschen länger pennen
  • 10:18 - 10:19
    als die anderen.
  • 10:19 - 10:20
    Gelächter
  • 10:20 - 10:25
    Also, vielleicht für das Internet: Wir
    haben einen Raum von 1600 Leuten, der ist
  • 10:25 - 10:32
    proppenvoll und fast alle haben die Hand
    gehoben. Und die Lösung ist: stimmt!
  • 10:32 - 10:34
    Gelächter
  • 10:34 - 10:37
    Die Kulturwissenschaftler
  • 10:37 - 10:39
    Applaus
  • 10:39 - 10:44
    Die Kulturwissenschaftler veröffentlichen
    typischerweise später. In der oberen
  • 10:44 - 10:47
    Verteilung sind alle Artikel ausser
    Kultur. Da ist ab 5 Uhr morgens
  • 10:47 - 10:52
    Aktivität. Und in der unteren Verteilung
    sind die Kulturartikel, da geht es
  • 10:52 - 10:58
    mindestens 2 Stunden später los. Aber zum
    Ausgleich gehen die auch früher nach Hause.
  • 10:58 - 11:01
    Gelächter
  • 11:01 - 11:03
    Applaus
  • 11:03 - 11:08
    Aber, damit wir hier nicht wirklich
    Vorurteile schüren, ich war bei Spiegel
  • 11:08 - 11:13
    Online eingeladen im Oktober und da habe
    ich das auch so gesagt. Und dann haben sie
  • 11:13 - 11:17
    gesagt: 'David, nein, nein!' Manche
    Artikel werden natürlich auch vorab
  • 11:17 - 11:21
    gescheduled, das will ich hier
    fairerweise dazusagen.
  • 11:21 - 11:24
    Und ich mache das auch als Ermahnung, dass
  • 11:24 - 11:27
    ihr, wenn Ihr damit arbeitet, immer
    nochmal selbst nachdenken müsst. was Ihr
  • 11:27 - 11:31
    auch solchen Auswertungen wirklich folgern
    könnt. Besonders dann, wenn Ihr schon mit
  • 11:31 - 11:35
    einem Vorurteil da rein gegangen seid, so
    wie wir jetzt. Wir haben gerade gesehen,
  • 11:35 - 11:39
    wie solche Auswertungen grundsätzlich
    funktionieren, also können wir jetzt
  • 11:39 - 11:43
    einen Schritt weitergehen. Und im Internet
    wird es ja genau immer dann besonders
  • 11:43 - 11:47
    knusprig, wenn personenbezogene Daten ins
    Spiel kommen.
  • 11:50 - 11:53
    Also, habe ich mir gedacht,
  • 11:53 - 11:57
    es wäre doch mal ein nettes Feature, wenn
    wir mal die Autoren aus den Spiegel
  • 11:57 - 12:01
    Artikeln rauslesen. Und das machen wir
    jetzt. Und die werten wir gleich auf zwei
  • 12:01 - 12:05
    Arten aus: Die erste Auswertung wird eine
    ganz neue Auswertung in diesem Vortrag,
  • 12:05 - 12:08
    also eine ganz neue Art. Und die zweite
    Auswertung wird ein bisschen politisch
  • 12:08 - 12:14
    inkorrekt. In unserer ersten Auswertung
    werden wir versuchen Spiegel Online
  • 12:14 - 12:18
    interne Personalstrukturen einfach von
    aussen zu lesen. Wenn man zu jedem Artikel
  • 12:18 - 12:22
    eine Liste an Autoren hat, dann weiss man
    ja nicht nur, wer jeden Artikel
  • 12:22 - 12:26
    geschrieben hat, sondern man weiss auch,
    wer mit wem schreibt. Und bei Autoren, die
  • 12:26 - 12:30
    oft zusammen Artikel schreiben, dürfen
    wir davon ausgehen, dass die intensiv
  • 12:30 - 12:33
    zusammenarbeiten. Wir wissen also
    sozusagen, welche Autoren wichtig
  • 12:33 - 12:37
    füreinander sind, was die Artikel angeht.
    Wer wenig oder gar nicht zusammenschreibt,
  • 12:37 - 12:41
    der ist in dieser Ansicht nicht wichtig
    füreinander. Aus diesen Wichtigkeiten
  • 12:41 - 12:46
    können wir dann eine Autorenlandkarte
    bauen. Und hier ist sie. Das ist ein Teil
  • 12:46 - 12:50
    des sozialen Netzwerkes der Spiegel Online
    Autoren generiert über die letzten
  • 12:50 - 12:54
    2 Jahre. Und jeder Autor ist so ein Bubble
    Und Autoren, die nur ganz selten
  • 12:54 - 12:59
    vorkommen, die habe ich hier gefiltert.
    Und man sieht genau, dass es da Grüppchen
  • 12:59 - 13:03
    von Autoren gibt, die sich dichter
    zusammentun. Und das sieht aus, als wären
  • 13:03 - 13:07
    es die Teams. Und jetzt müssen wir
    natürlich kontrollieren, ob unser
  • 13:07 - 13:10
    Durchleuchten von aussen, auch wirklich
    funktioniert. Und um das zu machen,
  • 13:10 - 13:14
    färben wir die Autoren mal nach Ihren
    Ressorts ein. Die Ressorts, die kriegt man
  • 13:14 - 13:19
    aus dem Spiegel Online Impressum. Siehe
    da, in vielen Fällen haben sich
  • 13:19 - 13:23
    tatsächlich die Ressorts vollautomatisch
    in der Landkarte zusammengetan. Hier in
  • 13:23 - 13:29
    pink ist Sport. Wissenschaft und
    Gesundheit. Netzwelt. Politik. Ein
  • 13:29 - 13:33
    bisschen verteilter, da habe ich jetzt
    nicht alle eingekreist. Panorama. Reise.
  • 13:33 - 13:37
    Ich nenne jetzt nicht alle Teams, aber Ihr
    seht das Prinzip. Die hellblauen
  • 13:37 - 13:41
    verteilten Punkte sind übrigens das Team
    von bento, die arbeiten ein bisschen
  • 13:41 - 13:44
    übergreifender. Das ist
    die Kinderausgabe vom Spiegel.
  • 13:44 - 13:45
    Gelächter
  • 13:45 - 13:48
    Applaus
  • 13:49 - 13:55
    Und der Punkt ist, wir haben jetzt relativ
    genau von aussen durchleuchten können,
  • 13:55 - 13:59
    wer mit wem intern in einem Team steckt.
    Und der Witz ist, schaut die ganzen grauen
  • 13:59 - 14:03
    Bubble an. Die sind grau, weil sie nicht
    mehr über das Spiegel Impressum
  • 14:03 - 14:07
    zugeordnet werden konnten. Das sind zum
    Beispiel ausgeschiedene Kollegen. Der
  • 14:07 - 14:13
    Spiegel Chefredakteur ist kürzlich auch
    grau geworden. Aber durch ihre Nähe zu
  • 14:13 - 14:17
    den gefärbten Gruppen, können wir die
    trotzdem grob einem Team zuordnen. Wir
  • 14:17 - 14:21
    können also etwas über die sagen, obwohl
    wir eigentlich gar nichts über die
  • 14:21 - 14:24
    wissen. Und sowas ist dann interessant.
    Wir können also einfach live von aussen
  • 14:24 - 14:28
    über die Personalstrukturen Buch führen.
    Aber jetzt... Ihr wartet bestimmt schon
  • 14:28 - 14:32
    alle zum politisch inkorrekten Teil. Ich
    möchte Euch nämlich für etwas
  • 14:32 - 14:37
    sensibilisieren. In diesem Plot ist jede
    Zeile ein Autor. Und von links nach rechts
  • 14:37 - 14:43
    vergeht die Zeit. Und jeder farbige Strich
    ist ein vom jeweiligen Autor
  • 14:43 - 14:46
    veröffentlichter Artikel. Und wenn wir
    die Autoren kennen und das tun wir ja
  • 14:46 - 14:50
    jetzt, dann wissen wir natürlich auch
    sehr genau, wer wann veröffentlicht. Wir
  • 14:50 - 14:53
    sehen zum Beispiel diese Zeile mit
    regelmässigen Muster, das ist ein
  • 14:53 - 14:57
    Kolumnist, der veröffentlicht genau im
    Wochentakt, bis auf ein paar Ausnahmen.
  • 14:57 - 15:01
    Bei den Leuten, die Tagesgeschehen
    veröffentlichen, ist die Dichte höher.
  • 15:01 - 15:05
    Und das heisst, wir wissen bei denen
    umgekehrt auch relativ gut, wann die
  • 15:05 - 15:10
    Urlaub machen. So, weil das sind nämlich
    die Lücken in den dichtgefüllten Zeilen.
  • 15:10 - 15:14
    Und, wenn aber wir die Urlaube ungefähr
    kennen, dann wissen wir auch ungefähr,
  • 15:14 - 15:17
    wessen Urlaube sich überproportional
    überschneiden.
  • 15:17 - 15:20
    Gelächter
  • 15:20 - 15:23
    Sachen wie Weihnachten, die fast alle
    Urlaub machen, die kann man ja einfach
  • 15:23 - 15:28
    rausrechnen. Und ich appelliere jetzt an
    Eure Berufserfahrung und mutmasse mal ganz
  • 15:28 - 15:32
    wild, dass Ihr auch schon mal Kollegen
    hattet, die irgendwie immer gleichzeitig
  • 15:32 - 15:39
    im Urlaub waren. Also, Spass beiseite. Aus
    solchen Daten kann man ohne weiteres
  • 15:39 - 15:44
    lesen, wer mit was hat. Jetzt wisst Ihr
    auch, warum ich die Autoren hier
  • 15:44 - 15:49
    anonymisiert habe. Es ist übrigens total
    klar, dass das, was wir hier finden, nicht
  • 15:49 - 15:53
    alles Pärchen sein müssen. Das sind die
    Pärchenkandidaten. Aber, wenn man an der
  • 15:53 - 15:59
    Praxis und sowas interessiert ist, dann
    ist man ja damit schon mal auf 99% des
  • 15:59 - 16:04
    Weges zum Ziel. Es gibt Firmen, die werten
    sowas aus, so illegal das auch ist. Jetzt
  • 16:04 - 16:08
    habt Ihr alle gerade gelacht, Kann ich mal
    um Handzeichen bitten, wer von Euch heute
  • 16:08 - 16:15
    bei seiner Firma Urlaub genommen hat.
    Über jeden gibt es solche Daten. Glaubt
  • 16:15 - 16:20
    mir. Und wir halten jetzt mal inne, und
    dann machen wir uns nochmal klar, was wir
  • 16:20 - 16:23
    gerade gesehen haben und was die
    gesellschaftlichen Implikationen sind. Was
  • 16:23 - 16:26
    wir gerade gesehen haben, ist
    Wissensgewinnung über interne
  • 16:26 - 16:30
    Firmeninformationen und über
    höchstpersönliche Lebensbereiche. Und
  • 16:30 - 16:33
    aus Daten, die erstmal gar nicht danach
    aussehen. Wir hatten ja eigentlich einen
  • 16:33 - 16:36
    Satz Spiegelartikel. Und plötzlich,
    überraschend, haben wir gute
  • 16:36 - 16:40
    Anhaltspunkte, wer mit wem was hat, und
    wir können Teamstrukturen erahnen. Und
  • 16:40 - 16:44
    damit komme ich zu wichtigsten Message des
    Vortrags: Wenn Ihr Daten veröffentlicht,
  • 16:44 - 16:48
    dann entscheidet nicht Ihr, was Ihr da
    veröffentlicht, das entscheidet der
  • 16:48 - 16:53
    Gegner. Wir haben noch nicht einmal die
    Daten selbst betrachtet. Wir haben die
  • 16:53 - 16:57
    Artikel selbst ja gar nicht angefasst. Was
    wir angefasst haben, waren nur Metadaten.
  • 16:57 - 17:01
    Zeiten und Autoren, genau wie bei der
    Vorratsdatenspeicherung. Das sind ja auch
  • 17:01 - 17:07
    nur Metadaten. Gebt mal ein paar Monate
    eurer Metadaten, einfach nur, wem Ihr wann
  • 17:07 - 17:11
    Mails und Whatsapp geschickt habt und wann
    Ihr auf welchen Webseiten wart. Keine
  • 17:11 - 17:15
    Inhalte. Danach kann ich Euch sagen, wer
    Eure besten Freunde sind, ob Ihr eine
  • 17:15 - 17:19
    Affäre habt, wie Ihr sexuell orientiert
    seid, ob Ihr schwanger seid, ob Ihr eine
  • 17:19 - 17:22
    Krankheit habt, was Eure politische
    Einstellung ist, wie euer Glaube
  • 17:22 - 17:26
    ausgerichtet ist, und ob Ihr finanzielle
    Probleme habt und alles, was ich gerade
  • 17:26 - 17:31
    vergessen habe. Das Missbrauchsprofil für
    einen solchen Datensatz, wie den der
  • 17:31 - 17:35
    Vorratsdatenspeicherung, das kann man gar
    nicht in Worte fassen. Und ich will da
  • 17:35 - 17:38
    überhaupt nicht mit
    Verschwörungstheorien anfangen, wir
  • 17:38 - 17:41
    können ja mal alle glauben, dass die
    Vorratsdatenspeicherung für die
  • 17:41 - 17:45
    Aufklärung von Verbrechen nützlich sein
    kann, das ist ja auch total plausibel. Und
  • 17:45 - 17:49
    wir können ja auch mal glauben, dass die
    Person, die die Vorratsdatenspeicherung
  • 17:49 - 17:52
    jetzt etablieren guten Willens sind. Lasst
    uns das einfach mal annehmen. Das heisst
  • 17:52 - 17:55
    aber nicht, dass morgen keiner an die
    Macht kommt, der das vielleicht ganz
  • 17:55 - 18:02
    anders macht. Was wir hier gerade
    erhalten, ist die Infrastruktur, für eine
  • 18:02 - 18:06
    Generalüberwachung, die selbst George
    Orwell's Big Brother die Schamesröte ins
  • 18:06 - 18:10
    Gesicht treiben würde.
  • 18:10 - 18:16
    Applaus
  • 18:16 - 18:21
    Und diese Überwachungsinfrastruktur, die
    stellen wir jetzt extra schon mal bereit
  • 18:21 - 18:25
    für den Fall, dass eine zukünftige
    Regierung böswillig ist und sie nutzen
  • 18:25 - 18:31
    will. Das ist, was gerade passiert. Jetzt
    haben wir einen kurzen Exkurs über
  • 18:31 - 18:34
    Metadaten gemacht, und wir gehen jetzt
    zurück zu Spiegel Online, damit sich Eure
  • 18:34 - 18:38
    Laune wieder hebt. Und deswegen kommt
    jetzt ein kleiner Einschub, den könnt Ihr
  • 18:38 - 18:42
    dann direkt anwenden, wenn Ihr das
    nächste Mal Spiegel Online lest. Und
  • 18:42 - 18:45
    danach machen wir mal ein bisschen was
    Grösseres. Als ich die Autoren aus den
  • 18:45 - 18:53
    Artikeln rauslesen wollte, da war ich
    irgendwann ziemlich genervt. Also manchmal
  • 18:53 - 18:57
    stehen die oben unter dem Titel, wie hier
    links im Bild. Oder die stehen unten, wie
  • 18:57 - 19:02
    rechts im Bild. Und wenn die Autoren oben
    stehen, sind sie ausgeschrieben. Und wenn
  • 19:02 - 19:07
    sie unten stehen, sind es Kürzel. Oben
    stehen sie im wirklichen Satz, hier zum
  • 19:07 - 19:12
    Beispiel von Marcel Rosenbach. Und unten
    die Kürzel sind ohne Satz drumrum. Manche
  • 19:12 - 19:15
    Autoren haben nur Vor- und Nachname.
    Manche Namen haben aber auch vier oder
  • 19:15 - 19:21
    fünf Worte. Wie zum Beispiel der
    freundliche Herr Philip Alvares De Souza
  • 19:21 - 19:25
    Suarez. Das habe ich mir extra hier
    aufgeschrieben, fünf Worte. Das ist ein
  • 19:25 - 19:29
    Name. Also Data Science kann technisch
    nervig sein. Sagt nicht, ich hätte Euch
  • 19:29 - 19:36
    nicht gewarnt. Und jedenfalls habe ich mir
    gedacht, wtf, warum stehen da Autoren in
  • 19:36 - 19:40
    verschiedenen Formen und vor allem an
    verschiedenen Orten? Also habe ich mir mal
  • 19:40 - 19:46
    das als Feature reingenommen, ob die
    Autoren oben oder unten stehen. Und dann
  • 19:46 - 19:50
    habe ich Messwerte zwischen den
    beiden Artikelgruppen verglichen, Autoren
  • 19:50 - 19:56
    oben und Autoren unten. Und es stellt sich
    raus, wenn die Autoren unten stehen, also
  • 19:56 - 20:00
    nicht namentlich ausgeschrieben sind, ist
    ein typischer Artikel knapp 300 Worte
  • 20:00 - 20:03
    lang. Wir sehen hier die Verteilung der
    Artikellängen von Artikeln ohne
  • 20:03 - 20:07
    ausgeschriebenen Namen. Und nach rechts
    werden die Artikel länger, da wird es
  • 20:07 - 20:12
    immer weniger. Und stehen die Autoren aber
    oben, sind also ausgeschrieben, ist ein
  • 20:12 - 20:17
    Artikel typischerweise mehr als
    zweieinhalb mal so lang. Knapp 750 Worte.
  • 20:17 - 20:21
    Man weiss schon, womit man gegoogelt
    werden will als Redakteur.
  • 20:21 - 20:22
    Gelächter
  • 20:22 - 20:27
    Und nochwas: bei den langen Artikeln ist
    auch nur bei ca. 2% eine
  • 20:27 - 20:31
    Nachrichtenagentur mit dabei. Bei den
    kurzen ist bei knapp 80% eine
  • 20:31 - 20:35
    Nachrichtenagentur mit dabei. Also Fazit
    für Euch zum mI t nach Hause nehmen: Wenn
  • 20:35 - 20:39
    Ihr längere Artikel wollt, die Spiegel
    Online selbst verfasst hat, dann achtet
  • 20:39 - 20:43
    drauf, dass die Autoren drangeschrieben
    sind. Wenn Ihr kurze Agenturmeldungen
  • 20:43 - 20:45
    wollt, sind die Kürzel gut.
  • 20:45 - 20:50
    Applaus
  • 20:50 - 20:55
    Und wir hatten ja schon gesehen, dass am
    Tagesanfang primär längere Artikel
  • 20:55 - 20:58
    erscheinen und das waren eben in
    Wirklichkeit die selbst geschriebenen.
  • 20:58 - 21:03
    Morgens ist der Prozentsatz von denen
    vergleichsweise hoch. Und jetzt könen wir
  • 21:03 - 21:05
    die Gelegenheit nutzen und einen Schritt
    zurücktreten und gucken, was wir bis
  • 21:05 - 21:11
    jetzt gemacht haben. Und wir haben unsere
    Riesenmenge Artikel, immer auf äusserst
  • 21:11 - 21:14
    einfache Art und Weise auseinander
    geschnitten und ausgewertet. Wir haben die
  • 21:14 - 21:18
    in Wochentage oder Uhrzeiten
    auseinandergeschnitten. Oder in Rubriken.
  • 21:18 - 21:22
    Und dafür, wie einfach diese Ideen sind,
    haben wir eigentlich ein paar ganz gute
  • 21:22 - 21:25
    Ergebnisse bekommen. Aber, was wir noch
    gar nicht gemacht haben, ist uns dem
  • 21:25 - 21:29
    Datensatz mal inhaltlich zu nähern. Und
    es wäre doch total cool, wenn wir die
  • 21:29 - 21:33
    Artikelmenge mal nach den wirklichen
    Themen über die berichtet wird,
  • 21:33 - 21:42
    auseinanderschneiden und auswerten
    können. Spiegel Online liefert uns
  • 21:42 - 21:46
    hierbei auch eine gute Hilfe: Artikel
    werden dort verschlagwortet. Jeder Artikel
  • 21:46 - 21:51
    bekommt von seinem Autor so um die 10
    Keywords zugewiesen. Der Artikel links im
  • 21:51 - 21:56
    Bild hat zum Beispiel die Keywords
    Politik, Ausland, Saudi Arabien und König
  • 21:56 - 22:00
    Salman von Saudi Arabien. Also habe ich
    die Keywords mal ausgelesen. Ueber alle
  • 22:00 - 22:05
    Artikel hinweg habe ich um die 65000
    verschiedene Keywords gefunden. Und jetzt
  • 22:05 - 22:09
    gucken wir, wie oft, welche Keywords
    zusammen in den selben Artikeln kommen.
  • 22:09 - 22:13
    Und Keywords, die fast ausschliesslich
    zusammen vorkommen, die sind sozusagen
  • 22:13 - 22:17
    verheiratet, die sieht man einfach als
    eins in der Auswertung. Und umgekehrt gibt
  • 22:17 - 22:21
    es natürlich Keywords, die beide für
    sich genommen existieren, aber nie oder
  • 22:21 - 22:25
    fast nie zusammen, die sind dann
    unverwandt. Und dann gibt es noch einen
  • 22:25 - 22:32
    interessanten Mittelweg:
    Hier ist ein Beispiel.
  • 22:32 - 22:35
    GelächterApplaus
  • 22:35 - 22:39
    Artikel mit dem Keyword "Angela Merkel",
    die haben meist auch das Keyword Politik.
  • 22:39 - 22:44
    Und umgekehrt ist das aber nicht so. Das
    Keyword Politik ist viel grösser. Und es
  • 22:44 - 22:48
    gibt extrem viele Politikartikel ohne
    Angela Merkel. Und diese Keywords sind
  • 22:48 - 22:52
    nicht die selben, aber es ist klar, die
    haben eine Verbindung. Und wir messen also
  • 22:52 - 22:58
    für alle 65000 Keywords, paarweise, wie
    verwandt die so sind. Und dann verbinden
  • 22:58 - 23:02
    wir Keywords, die stark verwandt sind mit
    so ganz strammen, dicken Federn. Ich meine
  • 23:02 - 23:06
    jetzt wirklich Federn im physikalischen
    Sinne, die die Keywords zueinander
  • 23:06 - 23:10
    hinziehen. Zwischen schwächer verwandten
    Keywords kommen schwächere Federn, die
  • 23:10 - 23:14
    werden dann länger. Und jetzt machen wir
    eine Physiksimulation. und schauen zu, wie
  • 23:14 - 23:21
    sich diese abertausenden Federn
    zurechtzurren. Verwandte Keywords werden
  • 23:21 - 23:25
    jetzt tendenziell nahe beeinander layoutet
    und weniger verwandte nicht so nah. Was
  • 23:25 - 23:29
    hier ensteht ist eine thematische
    Landkarte, von allen Sachen über die
  • 23:29 - 23:33
    Spiegel Online in den letzten 2 Jahren
    berichtet hat. Und jetzt gerade sieht es
  • 23:33 - 23:37
    so aus, als passiert da fast nichts mehr,
    aber gerade passiert die Detailarbeit. Das
  • 23:37 - 23:41
    sieht man nur von soweit oben nicht. Und
    deswegen zoomen wir jetzt mal ganz weit
  • 23:41 - 23:45
    rein, damit wir lernen, was wir da
    erschaffen haben. Hier ist die Volkswagen
  • 23:45 - 23:49
    Abgasaffäre. Wie Ihr seht haben die
    Keywords unterschiedliche Grössen. Die
  • 23:49 - 23:53
    Grösse der einzelnen Keywords spiegelt
    die Anzahl der Artikel wieder, die das
  • 23:53 - 23:56
    Keyword innehaben. Und das sind sozusagen
    die Artikel, die in dem Keyword
  • 23:56 - 24:01
    drinstecken. Und die Farbe zeigt an, was
    die vorherrschende Rubrik ist über alle
  • 24:01 - 24:05
    Artikel, die in einem Keyword drin
    stecken. Dieses Okergelb heisst
  • 24:05 - 24:10
    Wirtschaft. Passt! Der Witz ist, diese
    Darstellungsweise ist extrem mächtig und
  • 24:10 - 24:14
    vielseitig. Über die Farbe der Keywords
    da können mit dieser Darstellungsweise
  • 24:14 - 24:19
    noch viel mehr Infos rüberbringen, als
    nur, welche Themen verwandt sind. Und mit
  • 24:19 - 24:24
    der Farbe können wir beliebige Messwerte
    anzeigen. Und wenn ich danach so farbige
  • 24:24 - 24:28
    Keywordlandschaften habe, dann können wir
    sehen, ob es zwischen Thema und Messwert
  • 24:28 - 24:32
    einen Zusammenhang gibt und das machen wir
    heute auch noch. Aber erstmal gucken wir
  • 24:32 - 24:37
    ein bisschen weiter rum, hier sind
    verschiedene Flugzeugunglücke. Der
  • 24:37 - 24:49
    Themenkomplex befindet sich zwischen
    Panorama - Grün und Politik - Rot. Wobei
  • 24:49 - 24:52
    die politischen Anteile von dem Flugzeug
    kommen, das über der
  • 24:52 - 25:00
    Ukrainisch-Russischen Grenze abgeschossen
    wurde. Jetzt versagt meine Singstimme.
  • 25:00 - 25:07
    So besser. So hier ist Griechenland-Krise.
    Das ist offensichtloch ein Thema zwischen
  • 25:07 - 25:11
    Politik und Wirtschaft rot und wieder oker
    und Wolfgang Schäuble ist da direkt mal
  • 25:11 - 25:16
    als Aufpasser dazu-layoutet worden.
    Interessanterweise hat der keine Farbe,
  • 25:16 - 25:19
    der ist grau und das ist nicht
    altersbedingt sondern das liegt daran,
  • 25:19 - 25:23
    das es im Keyword Wolfgang Schäuble kein
    dominierendes Ressort gab und
  • 25:23 - 25:25
    jetzt machen wir mal was Topaktuelles.
  • 25:25 - 25:28
    Das ist die US-Wahl dieses Jahr.
    Wir sehen Hillary Clinton
  • 25:28 - 25:32
    und Donald Trump und alles was da so drum
    rum wimmelt und das ist offensichtlich
  • 25:32 - 25:37
    ein politisches Thema, es ist rot und man
    beachte, wie hier das Keyword Emails
  • 25:37 - 25:42
    dazu-layoutet wurde. Und von hier aus
    machen wir uns jetzt mal
  • 25:42 - 25:44
    die Größe der gesamten Landschaft klar.
  • 25:44 - 25:47
    Ich weiss nicht, wer heute
    Morgen von euch in dem Vortrag über
  • 25:47 - 25:51
    Mikroskope war, da hat der Vortragende
    immer und immer mehr reingezoomt, um klar
  • 25:51 - 25:55
    zu machen wie klein die Sachen sind und
    wir machen das jetzt umgekehrt, wir wollen
  • 25:55 - 25:59
    darstellen wie riesig die Landkarte ist
    und wir zoomen immer und immer mehr raus.
  • 25:59 - 26:03
    Wir haben raus-gezoomt. Der alte
    Bildauschnit ist dick eingerahmt, damit
  • 26:03 - 26:07
    ihr seht wo der ist. Und wir sehen,
    dass der US-Wahlkampf eingebettet ist
  • 26:07 - 26:09
    in größeren Landstrich der
    Auslandspolitik.
  • 26:09 - 26:12
    Links sehen wir den Bürgerkrieg in Syrien
  • 26:12 - 26:16
    darüber der Islamische Staat und von da
    geht es über den Islamistischen Terror
  • 26:16 - 26:18
    weiter nach Frankreich.
  • 26:18 - 26:25
    GelächterApplaus
  • 26:25 - 26:32
    Jaa, die Mathematik ist gnadenlos, ne.
    Oben sind die aktuellen Türkei-Thematiken,
  • 26:32 - 26:34
    also das ist deren Putschversuch und
    deren Demokratur
  • 26:34 - 26:38
    und rechts von der Mitte ist Russland
    und der Ukraine Konflikt und
  • 26:38 - 26:41

    links unten ist Israel und der Nahost
  • 26:41 - 26:47
    Konflikt und wir zoomen nch weiter raus.
    Hier ist nun die gesamte politische
  • 26:47 - 26:51
    Landschaft, diesmal haben wir mit zwei
    Rechtecken markiert, wo wir herkommen wir
  • 26:51 - 26:55
    kommen, ursprünglich von der US-Wahl und
    dann von der Auslandspolitik. Also die
  • 26:55 - 26:59
    Auslandspolitik ist oben rechts und unten
    rechts ist der Inlandsteil und seit Neuem
  • 26:59 - 27:03
    gibt es nen riesigen Knubbel, der in der
    Mitte, das ist die Flüchtlingsthematik,
  • 27:03 - 27:07
    die ist mittlerweile so groß, wie eine
    eigene Unterrubrik und die ist als dritte
  • 27:07 - 27:10
    Kraft genau zwischen Ausland und Inland
    etabliert, ja. Was ja auch genau passt.
  • 27:10 - 27:16
    Wir zoomen nochmal weiter raus. Ja, jetzt
    kann man gar nichts mehr erkennne, außer
  • 27:16 - 27:20
    verschieden farbigen Landschaften. Ich sag
    also mal, für eine grobe Orientierung,
  • 27:20 - 27:23
    hier kommen wir her, das rote ist der
    Politikteil. Rechts darüber in
  • 27:23 - 27:28
    giftgrün das Panorama. Das wird
    durchteilt von der Wirtschaft, die Kette
  • 27:28 - 27:32
    von türkisen Clustern entlang der
    Unterseite des Hauptkontinentes ist die
  • 27:32 - 27:37
    Netzwelt. Blau im Osten ist der Kulturteil
    und so weiter und so fort. Wir können
  • 27:37 - 27:41
    jetzt nicht alle durchgehen, ihr seht, die
    Gebiete gehen noch ineinander über und
  • 27:41 - 27:45
    wir wissen jetzt fast, wie riesig diese
    Landkarte ist, einmal rauszoomen haben wir
  • 27:45 - 27:49
    nämlich noch. Hier ist die große weite
    Welt, ja den unteren Teil haben wir schon
  • 27:49 - 27:54
    grob kennengelernt, und hier sind wir
    eigentlich her gekommen, und auf dem Rest
  • 27:54 - 27:57
    der Welt, etwas entrückt ist
    die Wissenschaft, das ...
  • 27:57 - 28:03
    Gelächter im Saal
    Applaus
  • 28:06 - 28:10
    Ich sehe, ihr könnt das nachvollziehen
    und habt da auch mal gearbeitet.
  • 28:10 - 28:11
    Gelächter
  • 28:11 - 28:14
    Und ganz weit weg vom
    Hauptkontinent ist der Sport.
  • 28:14 - 28:14
    Gelächter
  • 28:14 - 28:19
    So, und jetzt sehen wir erstmal, wie gross
    das ist und wie breit der Spiegel angelegt
  • 28:19 - 28:22
    ist und diese riesige Landkarte gibts
    übrigens bei mir auf der Website, da
  • 28:22 - 28:25
    könnt ihr auch selbst drin rumforschen,
    wie in GoogleMaps, so drin rum scrollen,
  • 28:25 - 28:29
    das macht auch mehr Spaß als wenn ich das
    hier nur vorkaue und darum gehts jetzt
  • 28:29 - 28:33
    auch weiter. Wir wenden die jetzt an. Ja,
    Spiegel Online bietet unter sehr vielen
  • 28:33 - 28:36
    Artikeln an, ja, ähmm, ..
  • 28:36 - 28:38
    Publikum GemurmelGelächter
  • 28:38 - 28:42
    Ich, das Gelächter geht los, bevor ich
    etwas gesagt habe. Ihr wisst doch gar
  • 28:42 - 28:46
    nicht, was ich sagen will, ne? Das man
    seine eigene Meinung dazu äußern darf.
  • 28:46 - 28:48
    Publikum und David Gelächter
  • 28:48 - 28:52
    Und unter manchen Artikeln sperren sie
    diese Funktion aber, ne,
  • 28:52 - 28:53
    einzelnes Gelächter
  • 28:53 - 28:54
    und das untersuchen wir jetzt mal,
  • 28:54 - 28:58
    Und ich hatte euch am Anfang des Vortrages
    gesagt, das Artikel direkt nach nen paar
  • 28:58 - 29:02
    Minuten nach ihrem erscheinen von mir
    abgerufen werden, also wenn ich sag, das
  • 29:02 - 29:06
    was nicht kommentiert werden darf, dann
    war das sehr wahrscheinlich, direkt vom
  • 29:06 - 29:08
    Start weg so. So schnell
    randaliert kein Mensch.
  • 29:08 - 29:10
    leichtes Gelächter im Publikum
  • 29:10 - 29:14
    Also, bevor wir jetzt ne Themenlandkarte
    damit malen, schauen wir mal ganz kurz auf
  • 29:14 - 29:18
    die zeitliche Entwicklung, der
    Kommentierbarkeit, und zwar einfach, damit
  • 29:18 - 29:21
    wir ne Orientierung haben. In dem Plot
    sehen wir pro Kalenderwoche wieviel
  • 29:21 - 29:26
    Prozent der erschienen Artikel kommentiert
    werden durften, und wieviele nicht.
  • 29:26 - 29:30
    In Rot sind die Nichtkomentierbaren und
    Blau die Kommentierbaren und als ich 2014
  • 29:30 - 29:34
    angefangen habe runterzuladen, waren
    erstmal ne ganze Zeit so 80 Prozent der
  • 29:34 - 29:38
    Artikel kommentierbar. Und genau seit dem
    Zeitpunkt der großen
  • 29:38 - 29:43
    Flüchtlingsberichterstattung im Sommer
    2015, ja, sinkt der (Graph) der Artikel
  • 29:43 - 29:47
    der kommentierbaren Nachrichten
    kontinuierlich ab, und jetzt seit kurzem
  • 29:47 - 29:51
    ist wirklich die Mehrzahl der Artikel ohne
    Kommentarfunktion, ne, dir rote Linie
  • 29:51 - 29:55
    überholt die Blaue, und die
    Kommentierbarkeit wird übrigens nicht nur
  • 29:55 - 30:00
    im Politikressort weniger, das passiert
    übergreifend in fast allen Ressorts und
  • 30:00 - 30:03
    ob seit dem der Hass im Netz irgendwie
    themenübergreifend soviel schlimmer
  • 30:03 - 30:07
    geworden ist oder Spiegel-Online jetzt
    einfach soviel Angst vor fiesen
  • 30:07 - 30:11
    Kommentaren hat, das kann ich aus denn
    Zahlen nicht ablesen, das müsst ihr dann
  • 30:11 - 30:16
    für euch selbst entscheiden. Interessant
    ist aber noch der kleine, grüne Plot im
  • 30:16 - 30:20
    Bild, ne , das sind auch nicht
    kommentierbare Artikel. Aber bei denen
  • 30:20 - 30:24
    steht so ein kleiner Entschuldigungstext
    dran, ja. Das hier die Kommentarfunktion
  • 30:24 - 30:28
    wegen der Netikette und so weiter gesperrt
    ist. Ihr braucht das hier jetzt nicht
  • 30:28 - 30:32
    lesen, ich bring das nur zur Ansicht, und
    diesen Entschuldigungstext haben sie zu
  • 30:32 - 30:37
    Anfang der Flüchtlingsberichterstattung
    eingeführt und es scheint so, als war
  • 30:37 - 30:40
    Spiegel-Online da selbst ein bisschen
    unwohl mit dem krassen Anstieg der
  • 30:40 - 30:44
    Kommentarsperrungen. Aber wie man am Plot
    sieht, haben sie den Hinweis ganz flott
  • 30:44 - 30:48
    wieder aufgegeben, obwohl die
    Kommentiermöglichkeiten immer und immer
  • 30:48 - 30:53
    mehr gesperrt werden. So und jetzt gehts
    zur Landkarte. Wir färben ein Keyword
  • 30:53 - 30:58
    röter, wenn unterdurchschnittlich viele
    Artikel darin kommentierbar sind und wir
  • 30:58 - 31:01
    färben ein Keyword eher blau, wenn das
    Keyword überdurchschnittlich
  • 31:01 - 31:05
    kommentierbar ist. Graue Keywords
    repräsentieren so den Durchschnitt, da
  • 31:05 - 31:08
    dann so 70 Prozent kommentierbar
    und das gibt
  • 31:08 - 31:11
    natürlich auch alle Farben dazwischen.
    Also wenn so'n Keyword wirklich
  • 31:11 - 31:15
    aufleuchtet, dann ist das irgendwo am Ende
    der Skala oder am Anfang. Und die
  • 31:15 - 31:19
    Landkarte stell ich auch bald auf meine
    Website, die jetzt kommt, da könnt ihr da
  • 31:19 - 31:22
    auch selbst drin rumklicken. So, und wir
    fangen mal mit ein paar einfachen Sachen
  • 31:22 - 31:27
    an. Ja ihr ahnt es, Sport darf man quasi
    komplett kommentieren, ja, knallblau. Und
  • 31:27 - 31:31
    falls ihr euch fragt, was der knallrote
    Punkt da ist, das ist ein bestimmtes
  • 31:31 - 31:35
    Artikelformat, das ist technisch ohne
    Kommentarfunktion. Sowas kommt schon mal
  • 31:35 - 31:39
    vor, ich sag nur, weil ich gleich sonst 13
    mal die Frage kriege. Und wo man in der
  • 31:39 - 31:43
    Regel auch gut kommentieren darf, das sind
    Wissenschaftsthemen und Wirtschaftsthemen
  • 31:43 - 31:45
    Hier sind die Bahnstreiks, ja.
  • 31:45 - 31:49
    Da darf nach Kräften auf die Bahn
    eingekloppt werden.
  • 31:49 - 31:50
    Gelächter
  • 31:50 - 31:56
    Und wo wir schon von Streik reden, ist
    bestimmt jeder hier im Raum in Gedanken,
  • 31:56 - 32:02
    bei der Lufthansa, die streiken ja als
    Hauptkonzernaktivität. Alles blau, ja
  • 32:02 - 32:03
    Gelächer im Saal
  • 32:03 - 32:06
    Alles blau, auch die dürfen fiese
    Kommentare abkriegen. Ich würd ja
  • 32:06 - 32:09
    mitlachen, aber ich bin mit dem Flugzeug
    hier in Hamburg, ne
  • 32:09 - 32:11
    Gelächter im Saal
    kleiner Applaus
  • 32:11 - 32:16
    So, nach dem ganzen blau. jetzt mal was
    rotes. Knallrote Landschaft, ergibt sich
  • 32:16 - 32:22
    um die Justiz. Das sind Berichte über die
    Kriminalität; Morde, Attentate, ja, "the
  • 32:22 - 32:27
    full packedge" und hier will man eher
    weniger Lesekommentare, ja. So, die Justiz
  • 32:27 - 32:33
    hat so 30 Prozent Kommentierbarkeit von
    den üblichen 70 Prozent. Hier ist die
  • 32:33 - 32:38
    ganze Geschichte rund um den NSU-Prozeß.
    Der ist hier ja auch Thema. Tiefrot, ja,
  • 32:38 - 32:42
    generell auch alles, was mit Rechtsradikal
    und Nazis und so zu tun hat, darf eher
  • 32:42 - 32:46
    wenig kommentiert werden und der
    Kernknubbel hier, der hat so um die 18
  • 32:46 - 32:53
    Prozent, ja, ist also noch weniger als die
    Justiz und die waren schon rot. Was auch
  • 32:53 - 32:55
    tiefrot ist, ist alles um die
    Flüchtlingsthematik und zwar nicht nur
  • 32:55 - 32:58
    das Konkrete, sondern auch der
    weitergefasste Rahmen, Asylrecht
  • 32:58 - 33:03
    und so weiter. Seht ihr sogar im Bild. Und
    von Aussen sieht das aus, als sperrt der
  • 33:03 - 33:09
    Spiegel seine Kommentarfunktion komplett
    systematisch und zwar nach Themen, Ja? Und
  • 33:09 - 33:12
    das wir sowas direkt visuell raus finden
    können, das macht diese Landkarte so
  • 33:12 - 33:16
    unheimlich mächtig. Allgemein ist es in
    der Data-Science nicht nur wichtig richtig
  • 33:16 - 33:20
    auszuwerten, es ist genauso wichtig, die
    Informationen möglichst anschaulich
  • 33:20 - 33:23
    visuell aufzubereiten. So können dann
    nämlich auch Leute, die keine
  • 33:23 - 33:27
    Informatiker sind, sofort komplexe
    Zusammenhänge erkennen. Es gibt ja nur
  • 33:27 - 33:32
    eine Breitbandverbindung ins Gehirn und
    das sind die Augen. Richtig interessant
  • 33:32 - 33:37
    wirds, wenn man mal guckt, wie
    Spiegel-Online die Kommentierbarkeit hart
  • 33:37 - 33:43
    national ordnet. Das hier ist der ganze
    Nahost-Konflikt, um Israel, ja, wie ihr an
  • 33:43 - 33:48
    dem satten Rot seht, zum Nahostkonflikt
    und Israel hat man bei fast allen Artikeln
  • 33:48 - 33:54
    die Klappe zu halten. So und jetzt
    schwenken wir mal vom Nahost-Konflikt zum
  • 33:54 - 33:58
    Ukraine-Konflikt. Ja lächelt seufzend
  • 33:58 - 34:03
    akustische Aufruhr im Publikum
    Einzelapplaus
  • 34:03 - 34:04
    Ja.
  • 34:04 - 34:06
    Applaus
  • 34:06 - 34:10
    Also. Ihr könnt euch mit nach Hause
    nehmen. Meine Damen und Herren:
  • 34:10 - 34:12
    Russen bashen ist OK.
  • 34:12 - 34:13
    Gelächter im Publikum
  • 34:13 - 34:16
    Ja, was wir hier - Live und in Farbe -
    sichtbar gemacht haben, ist nichts anderes
  • 34:16 - 34:21
    als unsere westliche Filterbuble. Die kann
    man messen. Zum Iran darf man seinen Senf
  • 34:21 - 34:27
    dazugeben, zu Großbritanien auch. Zur
    Türkei, da ist Spiegel-Online sich noch
  • 34:27 - 34:28
    nicht ganz sicher.
  • 34:28 - 34:29
    Gelächter
  • 34:29 - 34:34
    Und Frankreich ist interessant, diese
    Region der Landkarte, die möchte
  • 34:34 - 34:39
    eigentlich blau sein aber die ganzen
    Keywords rund um die Terrorserie dort, die
  • 34:39 - 34:42
    sind knallrot und die strahlen in die
    Nachbarn aus und das schauen wir uns jetzt
  • 34:42 - 34:47
    doch mal ein bisschen genauer an, Das sind
    alles Frankreichartikel aber nach Zeit.
  • 34:47 - 34:52
    Die blaue Linie ist das Aufkommen der
    kommentierbaren Artikel, die rote Linie
  • 34:52 - 34:56
    wieder das Aufkommen der
    Nichtkommentierbaren und wir sehen: wie
  • 34:56 - 35:01
    Frankreich von 2014 bis 2015 erstmal
    überwiegend kommentierbar ist und die
  • 35:01 - 35:06
    blaue Linie ist über der roten, und hier
    ist die Terrorserie in Paris im November
  • 35:06 - 35:12
    2015 und es wird plötzlich enorm viel
    berichtet. Also sehen wir ne krasse Spitze
  • 35:12 - 35:18
    am Frankreichartikeln, ne, und davon sind
    die Meisten nicht kommentierbar. Also:
  • 35:18 - 35:20
    Frankreich an sich dürft ihr gerne
    kommentieren aber bezüglich der
  • 35:20 - 35:26
    Anschläge dort bitte nicht. Und das
    Interessante ist, der Effekt wirkt fort,
  • 35:26 - 35:30
    Seit der Terrorserie ist Frankreich
    generell nicht mehr so kommentierbar. Die
  • 35:30 - 35:35
    rote Linie ist meist über der Blauen. Und
    jetzt tretten wir wieder einen Schritt
  • 35:35 - 35:41
    zurück. Und natürlich sehe ich auch, das
    der Spiegel Themenbereiche aufgrund der
  • 35:41 - 35:44
    Erfahrungen in der Verasngenheit sperren
    kann. Und generell müssen wir auch
  • 35:44 - 35:48
    zugeben, das ist das gute Recht von
    Spiegel-Online zu entscheiden, wo und in
  • 35:48 - 35:52
    welcher Form sie Anderen auf ihrer Seite
    ne Plattform geben und wo sie das eben
  • 35:52 - 35:56
    nicht tun. Aber genauso ist es auch unser
    gutes Recht diese Systematik hier mal
  • 35:56 - 36:01
    sichtbar zu machen. Und ich denke, das
    sieht insgesamt so aus als verböte
  • 36:01 - 36:06
    Spiegel-Online genau zu denjeniegen Themen
    die Kommentierung, bei denen zu erwarten
  • 36:06 - 36:13
    ist, das die Meinungen der Leser politisch
    nicht opportun sind. Ob das jetzt etwas
  • 36:13 - 36:16
    über Spiegel-Online aussagt oder über
    seine Leser oder irgendwie ein
  • 36:16 - 36:20
    gesamtgesellschaftliches Problem ist, das
    müsst ihr dann wieder selbst entscheiden.
  • 36:20 - 36:27
    Was die Auswertung angeht, haben wir den
    Vortrag bis jetzt im Grunde zweigeteilt.
  • 36:27 - 36:34
    Am Anfang haben wir die Artikelsammlung in
    nur wenige Töpfe unterteilt, und danach
  • 36:34 - 36:38
    haben wir die Artikelsammlung in viel mehr
    Töpfe unterteilt, das sind die wenigen,
  • 36:38 - 36:42
    jeder Artikel konnte sogar in mehreren
    Töpfen sein. Ne, das war ja so? Wenn nen
  • 36:42 - 36:46
    Artikel mehrere Keywords hatte, dann war
    er auch in mehreren Töpfen. Und das war
  • 36:46 - 36:51
    ne viel komplexere, aber auch viel
    mächtigere Art der Unterteilung. Und
  • 36:51 - 36:55
    jetzt merkt ihr euch diese beiden Arten
    der Unterteilung mal kurz und damit machen
  • 36:55 - 37:00
    wir was politisches, wir gehen über zum
    Thema Wahlkampf. Ja, Wahlkämpfe
  • 37:00 - 37:04
    funktionieren grob so, das man die Menge
    aller Wähler auseinander schneidet,
  • 37:04 - 37:08
    wie wir unsere Artikel auseinander
    geschnitten haben. Das heißt dann 'Voter
  • 37:08 - 37:15
    Targeting'. Und bei der US-Wahl konnte man
    z.B. sagen man schneidet die Wähler grob
  • 37:15 - 37:19
    nach Geschlecht, Hautfarbe, Alter und
    Gehalt. Das wird dann in der Tat auch so
  • 37:19 - 37:23
    gemacht. Dann könnte man sozusagen allen
    schwarzen Frauen in Kalifonien, die
  • 37:23 - 37:28
    zuwischen 30 und 40 sind und über 60.000
    Dollar im Jahr verdienen, zugeschnittene
  • 37:28 - 37:34
    Wahlwerbung schicken. Und das ist ne
    relativ grobe Art der Unterteilung und die
  • 37:34 - 37:38
    ist sozusagen analog zu unseren groben
    Unterteilungen hier, auf der linken Seite
  • 37:38 - 37:51
    der Folie. Aber was wäre dann die rechte
    Seite? Vor einiger Zeit hat dieser Artikel
  • 37:51 - 37:55
    des Schweizer Tagesanzeiger die Runde
    gemacht. Ich bin sicher viele von euch
  • 37:55 - 38:01
    kennen den, der ging ziemlich durchs Netz,
    der wurde am Tag 13 mal als Lesebefehl
  • 38:01 - 38:04
    geschickt, und so weiter und so fort. Also
    ich glaube, ich habe den bestimmt 50 mal
  • 38:04 - 38:09
    bekommen, weil ich mich halt auch mit dem
    Maschinen-Learning auseinandersetze.
  • 38:09 - 38:14
    Und in dem Artikel steht im Grunde, das ne
    Datenanalysefirma es geschafft habe, eine
  • 38:14 - 38:19
    extrem feine Unterteilung von Wählern
    hinzukriegen. Das wäre, sozusagen, analog
  • 38:19 - 38:23
    zu unserer sehr mächtigen
    Themenlandkarte. Und in dem Artikel steht
  • 38:23 - 38:28
    weiter, das hätte diese Firma sowohl für
    die Präsidentschaftswahl, als auch für
  • 38:28 - 38:33
    das Brexit-Referendum gemacht. Und es
    wurde dann behauptet, deswegen wäre Trump
  • 38:33 - 38:39
    gewählt worden und deswegen wäre der
    Brexit durchgekommen. Das ist natürlich
  • 38:39 - 38:43
    spooky. Und das verkauft sich gut. Ja -
    uijuijuijuijui - Die selbe Firma hinter
  • 38:43 - 38:49
    Trump und hinter dem Brexit, ja, da glüht
    der Aluhut, wirklich.
  • 38:49 - 38:54
    Gelächter
    Applaus
  • 38:54 - 39:02
    Und die sagen, ihre Unterteilung der
    Wählerschaft sei so fein, das man jedem
  • 39:02 - 39:07
    Wähler seine genau passende Wahlwerbung
    schicken könnte. Und sie sagen nicht nur
  • 39:07 - 39:10
    das, sie sagen sie können das sogar noch
    genauer, sie können sogar den
  • 39:10 - 39:15
    Gesprächston treffen, so dass der Wähler
    wahrscheinlich drauf hört. Generell
  • 39:15 - 39:19
    würde ich sagen, ne, tiefer hängen.
    Es ist überhaupt nicht klar, was die
  • 39:19 - 39:24
    Firma den beiden Wahlkämpfen überhaupt
    wirklich gebracht hat. Die Infos kommen im
  • 39:24 - 39:28
    wesentlich nämlich von der Firma selbst
    und ich glaube, ehrlich gesagt ja, da hat
  • 39:28 - 39:32
    die Firma einen hervorragenden Vertriebler
    geschickt und der hat dann wirklich der
  • 39:32 - 39:38
    Presse einen brillianten Vortrag gehalten
    und die Presse hat's dann einfach gekauft.
  • 39:38 - 39:42
    So und die Kernaussage ist doch nur: Ihr
    könnt jetzt Wahlwerbung bekommen, oder
  • 39:42 - 39:46
    Werbung im Allgemeinen, die extrem
    genau auf euch zugeschnitten ist und euch
  • 39:46 - 39:52
    so effizienter zu Dingen verleitet. Mit
    anderen Worten: Endlich kriegen nur noch
  • 39:52 - 39:55
    diejenigen Viagra-Spam, die das Produkt
    auch wirklich benötigen.
  • 39:55 - 39:57
    Das ist ja zunächst mal nicht schlimm.
  • 39:57 - 39:58
    verhaltendes Gelächter
  • 39:58 - 40:02
    Ja, Aber kaufen und eben wählen, das
    müssen die Leute schon noch selbst, es
  • 40:02 - 40:05
    ist nicht so das BigData die Leute
    fernsteuert. Das müssen wir schon
  • 40:05 - 40:10
    festhalten, also man könnte sagen: Wer
    vor so zielgerichteter Werbung Angst hat,
  • 40:10 - 40:14
    der sollte vielleicht die eigene
    Urteilsfähigkeit hinterfragen.
  • 40:14 - 40:19
    Applaus
  • 40:20 - 40:26
    Ja. Ja. Bestimmt haben auch ein paar von
    euch diesen Gedankengang gehabt und an der
  • 40:26 - 40:31
    Stelle hat ich keinen Applaus erwartet.
    Sich selbst haben sie sich ein
  • 40:31 - 40:34
    bisschen bruhigt, mit diesem Gedankengang.
    Das Problem ist nur, ich glaube,
  • 40:34 - 40:39
    die eigene Urteilsfähigkeit hinterfragen,
    das macht kaum einer. In der Realität
  • 40:39 - 40:43
    wählen die Leute doch irgendwie
    denjenigen, der ihnen am meisten, am
  • 40:43 - 40:48
    emotional passensten, kurz vor der Wahl
    was zubrüllt. Ja. Und so laufen Wahlen.
  • 40:48 - 40:52
    Das ist ja auch politisch so gewollt, Wo
    kämen wir auch hin, wenn Wahlen irgendwie
  • 40:52 - 40:55
    langfristigen Erfolg belohnen würden, ne.
  • 40:55 - 40:56
    verhaltendes Lachen
  • 40:56 - 41:01
    Und dieses emotionale Zurufen und das geht
    mit so höchst personalisierter Werbung
  • 41:01 - 41:08
    urplötzlich, unglaublich effizient. Und
    das bedeutet, ja, Data-Science-Techniken
  • 41:08 - 41:13
    können Wahlen beeinflussen. Ja vorhin
    hatte ich die Voratsdatenspeicherung
  • 41:13 - 41:18
    angeprangert ja ich bin ja auf dem CCC,
    also vermute ich, dass die Meisten von
  • 41:18 - 41:22
    von mit mir einer Meinung waren. Und damit
    kommen wir genau zum Punkt; Wisst ihr, was
  • 41:22 - 41:26
    die Firma aus dem Artikel genommen hat, um
    die Wähler so ultragenau zu vermessen?
  • 41:26 - 41:30
    Das waren überhaupt gar keinen
    staatlichen Überwachungsdaten, das waren
  • 41:30 - 41:35
    Facebook-Likes. Also Daten, die die Leute
    selbst über sich ins Netz gestellt
  • 41:35 - 41:39
    hatten, ne. Und es ist wichtig mit
    staatlicher Überwachung kritisch zu sein.
  • 41:39 - 41:43
    Ja das dürfen wir und das müssen wir
    auch, wenn wir kein Unrechtsstaat werden
  • 41:43 - 41:47
    wollen. Aber wenn wir dann gleichzeitig
    völlig unkritisch sind mit uns selbst,
  • 41:47 - 41:53
    ja, und wirklich jeden Mist ins Facebook
    oder ähnliche Plattformen pumpen, ja,
  • 41:53 - 41:55
    dann haben wir nichts gewonnen.
  • 41:56 - 42:06
    Applaus
  • 42:06 - 42:11
    Mein Vortrag neigt sich dem Ende zu. Es
    kommen jetzt noch zwei Sachen: eine kleine
  • 42:11 - 42:17
    Überraschung und dann habe ich noch ne
    Bitte an euch alle. Und zuerst gibt es die
  • 42:17 - 42:23
    Überraschung. Ja, habe ich vorhin gesagt,
    ich hätte 100.000 Artikel von
  • 42:23 - 42:28
    Spiegel-Online geladen?
    Ich meinte über 700.000
  • 42:28 - 42:32
    Applaus
  • 42:32 - 42:37
    Ne, ich lade jeden Artikel nicht nur
    einmal runter, wenn er erscheint somdern
  • 42:37 - 42:40
    mehrfach in wachsenden Zeitabständen.
    Und mit anderen Worten, wir können messen,
  • 42:40 - 42:43
    was in Artikeln geändert wurde.
  • 42:43 - 42:50
    Gelächter
    Applaus
  • 42:50 - 42:54
    So und aus Zeitgründen, gibts damit keine
    riesen Auswertung. Erstens aus
  • 42:54 - 42:58
    Zeitgründen hier im Vortrag aber auch
    zweitens aus persönlichen Zeitgründen ne,
  • 42:58 - 43:02
    ich muss irgendwann auch nochmal arbeiten.
    Aber wir haben ne kleine Demo.
  • 43:02 - 43:07
    Ich hab zum Beispiel mal geguckt, ob
    Titel geändert werden, ne.
  • 43:07 - 43:11
    Und bei sowas findet man einfach lustige
    Sachen. Es gibt nicht nur den Titel,
  • 43:11 - 43:12
    der hier offensichtlich ist.
  • 43:12 - 43:16
    Sondern es gibt auch zusätzlich den
    Html-Titel, die Techniker unter euch
  • 43:16 - 43:21
    kennen den. Der wird oben im Browser
    angezeigt und auch die Html-Titel erfasse
  • 43:21 - 43:27
    ich natürlich. So und am 21.Januar -
    wobei der hier sichtbare Artikel ist am
  • 43:27 - 43:32
    20. Januar 2015 rausgekommen - und am
    21.Januar und das war einen Tag nachdem
  • 43:32 - 43:37
    der Artikel erschienen war, wurde mir
    angezeigt: Der Html-Titel hat sich
  • 43:37 - 43:43
    geändert aus "SAP wächst 2014 langsamer
    als geplant." Ich hab mich dann gefragt:
  • 43:43 - 43:48
    He, warum wurde er denn geändert, ja also
    wie war der vorher. Ganz einfach: Als der
  • 43:48 - 43:54
    Artikel rauskam, wuchs nähmlich nicht SAP
    sondern der SAP-Chef
  • 43:54 - 43:56
    wuchs langsamer als geplant.
  • 43:56 - 43:58
    Gelächter
  • 43:58 - 44:00
    Sowas finde ich an sich ganz sympatisch,
  • 44:00 - 44:02
    Gelächter
  • 44:02 - 44:06
    denn es zeigt, das bei Spiegel Online noch
    Menschen an den Texten sitzen und keine
  • 44:06 - 44:11
    Computer und im Moment heisst der Artikel
    übrigens: SAP kann Wachstums- und
  • 44:11 - 44:15
    Gewinnziele nicht erfüllen. Also das hat
    nochmal irgendwem nicht gefallen, ne. Und
  • 44:15 - 44:19
    irgendwann zwischendurch haben sie es
    nochmal geändert. Also, jetzt wisst ihr
  • 44:19 - 44:22
    erst, wie mächtig der Datensatz
    tatsächlich ist. Ich hab von jedem
  • 44:22 - 44:26
    Artikel diverse zeitlich versetzte
    Versionen und das erlaubt natürlich viel,
  • 44:26 - 44:30
    viel krassere Auswertungen und damit fang
    ich aber selbst erst an und deswegen ist
  • 44:30 - 44:33
    heute noch so wenig davon im Vortrag, aber
    das war meine Überraschung und jetzt
  • 44:33 - 44:39
    kommt meine Bitte. Ihr habt jetzt alles
    mögliche gesehen und wir haben Artikel
  • 44:39 - 44:44
    auf einfach und komplexe Weise unterteilt.
    Wir haben gesehen, das verschiedene
  • 44:44 - 44:47
    Arten der Unterteilung und Darstellung
    verschieden mächtig sind und wir haben
  • 44:47 - 44:51
    verschiedenste Features aus den Artikeln
    gelesen: Rubrik, Zeiten, Kommentierbarkeit
  • 44:51 - 44:57
    Autor. Jede Menge weiterer Features sind
    denkbar. Auch kompliziertere Features ja.
  • 44:57 - 45:01
    Man könnte zum Bsp für jeden Artikel die
    darin enthaltenden Links raus ziehen und
  • 45:01 - 45:05
    dann gucken, ob bestimmte Autoren Kumpels
    haben, auf die sie oft verlinken.
  • 45:05 - 45:09
    Der Fantasie sind wirklich keine Grenzen
    gesetzt. Und zum Schluss haben wir sogar
  • 45:09 - 45:15
    gesehen, wir können für jeden Artikel
    messen, was verändert wurde, ne.
  • 45:15 - 45:20
    Wir können z.B. gucken, wo die Leser am
    meisten randalieren. Da guckt man, indem
  • 45:20 - 45:23
    man guckt, wo die Kommentarfunktionen erst
    geöffnet und später dann geschlossen
  • 45:23 - 45:29
    sind. Also meine Bitte an euch, jeder der
    hier zuguckt, schickt mir bitte einen Mail
  • 45:29 - 45:35
    mit seinem kreativsten Auswertungsideen
    für den Datensatz. Und in dem
  • 45:35 - 45:37
    Zusammenhang hab ich noch ne Message, die
    ihr euch auch mitnehmen könnt. Wenn ihr
  • 45:37 - 45:41
    was im Bereich der Data-Science macht,
    Rohdaten sind geil.
  • 45:41 - 45:54
    Gelächer
    Applaus
  • 45:54 - 45:58
    Behaltet immer alle Rohdaten, wenn ihr es
    irgendwie vom Speicher bezahlen könnt.
  • 45:58 - 46:02
    Ne, dann könnt ihr nämlich im nachhinein
    alles mögliche tun. Ich hab alle Rohdaten
  • 46:02 - 46:05
    komplett da. Das sind über 60 GB
    pures HTML.
  • 46:05 - 46:06
    Gelächter
  • 46:07 - 46:11
    Und neue Features im nachhinein dazu
    auswerten, ist deswegen überhaupt
  • 46:11 - 46:14
    kein Problem. Darum bitte, bitte, lasst
    eurer Fantasie freien Lauf. Erfindet neue
  • 46:14 - 46:18
    Features, erfindet wonach die ausgewertet
    werden sollen. Schickt mir einfach, was
  • 46:18 - 46:22
    ihr euch denkt, ja. Vieleicht ist nicht
    alles, was ihr wollt möglich und
  • 46:22 - 46:25
    vielleicht schau ich auch nicht alles
    sofort. Ich bin ja auch berufstätig und
  • 46:25 - 46:29
    zum Jahresanfang werde ich stramm
    eingespannt sein Aber ich versuch was
  • 46:29 - 46:34
    möglich zu machen. Also einfach
    einschicken. Seit kreativ. Und damit
  • 46:34 - 46:38
    bleibts mir nur noch, ein dickes
    Dankeschömn zu sagen dafür das ihr diese
  • 46:38 - 46:42
    Stunde mit mir verbracht habt.
    Hier sind noch die Links. Und bis dann.
  • 46:42 - 47:02
    Applaus
    JubelApplaus
  • 47:02 - 47:06
    Herald: Ganz so schell wirst du
    natürlich noch nicht entlassen, weil wir
  • 47:06 - 47:11
    haben noch unsere Fragerunde. Erstmal
    herzlichen Dank, immer schön zu sehen,
  • 47:11 - 47:15
    wie die Mathematik doch spannend sein
    kann, um eben solche Daten zu analysieren.
  • 47:15 - 47:24
    Und ja, wie immer, wenn ihr Fragen habt,
    tretet vor zu den Mikrofonen. Und alle die
  • 47:24 - 47:30
    schnell, ich glaube nebenan startet der
    Jahresrückblick mit Fefe oder
  • 47:30 - 47:33
    David Kreisel: Ne der Fefe sitzt da vorne
    im Publikum.
  • 47:33 - 47:41
    Herald: Ach ja, der sitzt noch hier. So
    schnell wird er dann drüben noch nicht
  • 47:41 - 47:47
    starten, vielleicht wollen die schon mal
    einen Platz. Genau. .... Wo haben wir
  • 47:47 - 47:49
    Fragen, an Mikro 3, beginnen wir dort:
  • 47:49 - 47:55
    Mik 3: Hi, super Vortrag, fand ich echt
    Klasse. Was mich mal interessieren würde:
  • 47:55 - 47:58
    Hast du mal geguckt, ob die Split testen
    und die Artikel-Überschriften ändern
  • 47:58 - 48:01
    anhand von wieviel Leute drauf klicken
    oder sowas?
  • 48:01 - 48:05
    David: Ja das würde man messen daran,
    wie viele verschiedene Titel man so findet
  • 48:05 - 48:09
    und wenn diese Zahl der durchschnittlichen
    Titel pro Artikel ansteigt, dann passiert
  • 48:09 - 48:15
    das und wenn ich das richtig interpretiere
    dann testen sie das gerade. Also es ist
  • 48:15 - 48:18
    noch nicht übergreifend, es ist immer nur
    so stossweise, vielleicht will mich auch
  • 48:18 - 48:22
    einer korrigieren von Spiegel Online, aber
    so wie meine Daten aussehen, ja hab ich
  • 48:22 - 48:27
    getestet, sie versuchen es gerade. Also
    was ist Splittesten? Vieleicht mal fürs
  • 48:27 - 48:31
    Publikum. Man veröffentlicht Artikel mit
    verschiedenen Titeln und dann guckt man,
  • 48:31 - 48:34
    wo am meisten Leute klicken, bei welchem
    Titel und der Titel darf dann weiter
  • 48:34 - 48:39
    leben. Ihr verändert also durch euren
    Besuch direkt die Nachrichtenseite.
  • 48:39 - 48:46
    Mikro 1: Ja hi. Ich wollte fragen, ob du
    auch Spiegel-plus Artikel, die es ja seit
  • 48:46 - 48:50
    Mitte diesen Jahres, glaube ich, gibt mit
    einbezogen hast und wenn ja, hast du einen
  • 48:50 - 48:51
    plus Account?
  • 48:51 - 48:52
    David: Äh, ja.
  • 48:52 - 48:54
    leichtes Gelächter im Publikum
  • 48:54 - 48:58
    Ich habe die mit einbezogen, ähm, und
    natürlich habe ich auch einen
  • 48:58 - 49:00
    plus-Account, der das vollautomatisch
    entschlüsselt,
  • 49:00 - 49:01
    räusper
  • 49:01 - 49:02
    und dazu also
  • 49:02 - 49:03
    Gelächter
  • 49:03 - 49:06
    wenn einer Näheres - Ich hab mich da
    wahnsinnig geärgert - kurz - als die
  • 49:06 - 49:10
    plus-Artikel rauskamen, weil ich die
    nicht auf Anhieb de-krypten konnte.
  • 49:10 - 49:12
    Und dazu gibts jetzt bei mir einen
    Blogartikel, seitdem,
  • 49:12 - 49:15
    wie man die de-kryptet.
  • 49:15 - 49:19
    Applaus
  • 49:19 - 49:23
    Ich muss übrigens mal was Positives
    sagen, die Spiegel plus Artikel sind im
  • 49:23 - 49:26
    Median 1100 Worte lang, also man muss
    schon sagen,
  • 49:26 - 49:27
    da kriegt ihr auch was fürs Geld.
  • 49:27 - 49:30
    leichtes Gelächterleichter Applaus
  • 49:30 - 49:40
    Mikro 7: Hast du im Rahmen deiner Analysen
    auch auf die Inhalte geguckt, das du
  • 49:40 - 49:46
    vielleicht die Worthäufigkeit analysiert
    hast und die Zuordnung zu Ressorts oder zu
  • 49:46 - 49:51
    Schlagworten anhand der Inhalte
    abgeglichen hast, um vielleicht raus
  • 49:51 - 49:55
    zufinden, ob die Verschlagwortung
    vollständig oder richtig ist.
  • 49:55 - 49:59
    David: Ne hab ich noch nicht gemacht. Man
    kann ja die Schlagworte nehmen und da hab
  • 49:59 - 50:02
    ich es mir bequem gemacht oder man
    versucht jetzt ne Analyse zu machen, was
  • 50:02 - 50:05
    die relevanten Worte im Artikel sind und
    das hab ich noch nicht gemacht, Das wären
  • 50:05 - 50:08
    dann sozusagen die schöneren Schlagworte.
    Aber ne, hab ich noch nicht gemacht.
  • 50:08 - 50:12
    Herald -Frage aus dem Internet:
  • 50:12 - 50:16
    Signal Angel: IRC möchte wissen, welche
    Software du benutzt hast, um die Daten zu
  • 50:16 - 50:20
    sammeln. zu analysieren, zu visualisieren
    und ob es
  • 50:20 - 50:21
    die Daten irgendwo gibt, außer bei dir.
  • 50:21 - 50:24
    David: OK. Nein gibts noch nicht, irgendwo
    außer bei mir, weil ich mir auch gar
  • 50:24 - 50:31
    nicht sicher bin, ob ich die verteilen
    darf. Ich benutze den Python Data Stack
  • 50:31 - 50:35
    und die Software zum runterladen hab ich
    mir selbst geschrieben, die läuft auf
  • 50:35 - 50:41
    einem meiner Server und darüberhinaus
    nutze ich Pandas für die Analyse, das ist
  • 50:41 - 50:44
    auf Python aufbauend und dann diese ganze
    MaschinLearning Sachen da drüber
  • 50:44 - 50:49
    scikit-learn. Also den ganzen Py DataStack
    googelt danach einfach, da findet ihr viel
  • 50:49 - 50:52
    und zum Visualisieren hab ich hier Tableau
    genommen, das ist ne
  • 50:52 - 50:57
    Visualisierungssoftware. Die schon
    voragregierte und vorerechnete Daten bis
  • 50:57 - 51:00
    zu ein paar GigaByte ganz gut verkraftet
    und da kann man sehr schnell schöne
  • 51:00 - 51:05
    Visualisierungen draus ziehen und zum
  • 51:05 - 51:06
    Visualisieren der Graphen hab ich Gephi
    genommen.
  • 51:06 - 51:13
    Mikro 4: Hast du Daten Real-Time
    analysiert oder
  • 51:13 - 51:14
    alles im nachhinein gemacht?
  • 51:14 - 51:16
    David: Ich versteh die Frage nicht.
  • 51:16 - 51:20
    Mirko: Ob du die Daten während du sie
    gesammelt hast analysiert hast?
  • 51:20 - 51:23
    David: Ach so, ne. Das wird alles
    rohdatenmäßig gesammelt, dann wird das
  • 51:23 - 51:29
    im weiteren Schritt erst mal, werden die
    Rohfeatures rausge-parsed und das sind dann
  • 51:29 - 51:32
    so wenige, das sie in der Tat dann in
    einen RAM passen und ich dann darauf
  • 51:32 - 51:36
    weitere High-Level Feature machen kann.
    Das passiert so in 3 Layern. Also es ist
  • 51:36 - 51:41
    nicht direkt dabei aber während wir hier
    gesprochen haben, ist schon wieder 10 mal
  • 51:41 - 51:44
    runter geladen worden. Insofern ist das
    schon gleichzeitig zum Runterladen.
  • 51:44 - 51:49
    Das Runterladen geht weiter.
  • 51:49 - 51:54
    Mikro 3: Eine Idee für die Auswertung: Du
    könntest mal gucken, ob bestimmte
  • 51:54 - 51:57
    Wortgruppen in älteren Artikeln nochmal
    vorkamen, um zu sehen welche zusammen
  • 51:57 - 51:58
    kopiert wurden.
  • 51:58 - 52:03
    David: Du meinst, ja ja , so ne Auswertung
    im Sinne von: In jedem Artikel kriegt ihr
  • 52:03 - 52:07
    durchschnittlich 73 Prozent neuen Content
    quasi, ja?
  • 52:07 - 52:09
    Gelächter
  • 52:09 - 52:10
    Mikro: Ja
  • 52:10 - 52:12
    David: Guter Punkt
  • 52:12 - 52:13
    Applaus
  • 52:13 - 52:15
    David: Machen wir so.
  • 52:17 - 52:23
    Mikro: Hallo, ich wollte nur kurz einen
    Denkanstoss geben, ich formuliere das mal
  • 52:23 - 52:28
    als Frage. Könnte es sein, das diese
    Nichtkommentierbarkeit von Israel-Artikeln
  • 52:28 - 52:32
    auch einfach ein Ressourcen-Problem ist,
    weil es da vielleicht mehr aus
  • 52:32 - 52:36
    juristischen Gründen zu zensieren gibt
    für die Redaktion?
  • 52:36 - 52:38
    David: Das kann selbstverständlich sein.
    Ja natürlich.
  • 52:38 - 52:41
    Mikro: Z.B. gibt es ja durchaus
    Sigularitäten mit dem deutschen
  • 52:41 - 52:43
    Strafrecht, das man bestimmte Sachen
    nicht sagen darf.
  • 52:43 - 52:49
    David: Ja. Also, hätte es nur Israel
    erwischt, hätte ich das auch sofort auch
  • 52:49 - 52:52
    gedacht. Aber ja kann natürlich sein.
    Das ist auch so ganz wichtig an so
  • 52:52 - 52:55
    Data-Science, ich hab das hier jetzt
    teilweise bisschen ketzerisch vorgetragen
  • 52:55 - 52:58
    aber natürlich müsst ihr schon selbst
    nochmal gucken, was ihr aus den Daten
  • 52:58 - 53:02
    folgert. Ja natürlich, das kann sein. Am
    besten wissen das natürlich nur die
  • 53:02 - 53:06
    Spiegelleute. Aber Israel war ja nicht der
    einzige Punkt der nichtkommentierbar war
  • 53:06 - 53:13
    und zur reinen Justiz gibt es keine
    Singularität im deutschen Strafrecht.
  • 53:13 - 53:18
    Mikro 6: Hallo David, vielen Dank für den
    Talk. Hast du überlegt die Software
  • 53:18 - 53:22
    irgendwie Open Source anzubieten , so
    dass man sie z.B. für
  • 53:22 - 53:25
    andere Quellen anpassen kann. Tagesschau
    etc.
  • 53:25 - 53:30
    David: Hab ich nicht überlegt. Aber
    ehrlich gesagt, so aufwendig ist es auch
  • 53:30 - 53:36
    nicht. Ihr schreibt euch nen Script, was
    euch alle paar Minuten mal losläuft und
  • 53:36 - 53:41
    die Artikel runter lädt und das
    speicherst in einer Datenbank fertig. Also
  • 53:41 - 53:45
    das Open Source, ist das uninteressanteste
    was es gibt. Ddas findet ihr in 1000
  • 53:45 - 53:49
    Varianten sauberer als ich das gemacht hab
    nochmal, glaube ich. Aber ja, man könnte
  • 53:49 - 53:52
    mal eine Vergleichsauswertung mit anderen
    Medien starten, ja.
  • 53:52 - 53:58
    Mikro 1: Wie hast du den Strain aus deiner
    Karte entfernt, du hast da ne ganze Menge
  • 53:58 - 54:00
    Dimensionen auf zwei Dimensionen runter
    gebrochen ..
  • 54:00 - 54:02
    David: Den was aus meiner Karte entfernt?
  • 54:02 - 54:04
    Mikro: Die Spannung, weil du hast ja sehr
  • 54:04 - 54:07
    viel Dimensionen auf zwei Dimensionen
    reduziert ...
  • 54:07 - 54:07
    David: Ja,
  • 54:07 - 54:09
    Mikro: .. und wie hast du sichergestellt,
    das jetzt nicht Inseln bei einander sind,
  • 54:09 - 54:12
    die gar nicht zusammen gehören oder
    manche anderen nicht beieinander sind,
  • 54:12 - 54:15
    die aufgrund von Inseln, die dazwischen
    liegen nicht nah genug zueinander kamen.
  • 54:15 - 54:18
    David: In der Theorie kann man das nie
    ausschliessen, aber in dem Graoh steckt
  • 54:18 - 54:22
    sehr viel Verfahren drin. Also ich hab
    zunächst mal zugesehen, das ich
  • 54:22 - 54:25
    überhaupt nur die wichtigen Kanten pro
    Knoten behalte, sonst hat man wirklich
  • 54:25 - 54:30
    viel zu viele Kanten und dann gibts da
    professionelle Graph-Layouting-Verfahren
  • 54:30 - 54:34
    für, also Gephi bietet was, das heißt
    VsAtlas 2 und das war das, was ihr in den
  • 54:34 - 54:38
    hübschen Video gesehen habt, damit geht
    das sehr gut, Also du must das natürlich
  • 54:38 - 54:43
    ein bisschen Schmakes da rein investieren,
    wie du die Kanten vorher ausfilters und
  • 54:43 - 54:47
    dann, dann bist du immer noch nicht sicher
    in der Theorie, aber dann siehst ja, ob
  • 54:47 - 54:50
    das Bild gut wird oder nicht.
  • 54:50 - 54:55
    Mikro 2: Du meintest, du warst im Oktober
    beim Spiegel, wie war den deren Reaktion
  • 54:55 - 54:57
    zu deinen Analysen?
  • 54:57 - 55:01
    David: Positiv, also, ob das jetzt nur
    daran lag, dass die sowieso nichts dagegen
  • 55:01 - 55:04
    tun können, weiss ich nicht,
    aber ehrlich gesagt,
  • 55:04 - 55:05
    Gelächter
  • 55:05 - 55:08
    hab ich das als sehr positiv und
    interessiert wargenommen und auch ich hab
  • 55:08 - 55:13
    was gelernt und das war eigentlich einen
    ziemlich cooler Termin, also sportlicher
  • 55:13 - 55:17
    als die Kollegen bei Xerox sag ich mal.
  • 55:17 - 55:23
    großes GelächterApplaus
  • 55:23 - 55:34
    Mikro: Ist vielleicht ne Suggestivfrage,
    vielleicht auch in Richtung, wie man
  • 55:34 - 55:43
    weiterforschen könnte. Das Verfahren, das
    du benutzt hast, um die thematische Nähe
  • 55:43 - 55:47
    verschiedener Tags zueinander zu
    bestimmen, wäre es mathematisch
  • 55:47 - 55:49
    ACHTUNG: Mathematiker-Kauderwelsh ..
  • 55:49 - 55:52
    nicht korrekter, wenn du eine singuläre
    Zerlegung der Adjazentmatrix
  • 55:52 - 55:55
    dieser Schlagworte baust,
    ähnlich wie Google Page Rank
  • 55:55 - 55:56
    das gemacht hat.
  • 55:56 - 56:02
    David: Ja. Aber dann kann man nicht so
    einen schönen Graphen draus basteln und
  • 56:02 - 56:06
    es kommt wahrscheinlich was ähnliches
    raus, sein wir ehrlich. Ich sehe ja die
  • 56:06 - 56:09
    Werte der Kanten und wahrscheinlich ist es
    am Ende das Selbe.
  • 56:09 - 56:16
    Mikro: Ja wenn du genug Dimensionen
    benutzt ist es äquivalent.
  • 56:19 - 56:22
    David: Ja.
    Alles ist still, Mensch.
  • 56:22 - 56:26
    Mikro 3: Nochmal kurz zu den Landkarten,
    das sind irgendwelche
  • 56:26 - 56:28
    MonteCarlo Methoden diese Springs ...
  • 56:28 - 56:29
    David: Ja
  • 56:29 - 56:34
    Mikro: ... im Endeffekt positionieren, wie
    stabil sind die?
  • 56:34 - 56:38
    David: Ich denke, ich hab mich da in die
    Theorie nicht eingearbeitet weiter, es
  • 56:38 - 56:41
    würde mich wundern, wenn du da ne
    Stabilität drüber nachweisen könntest.
  • 56:41 - 56:45
    "Fest steht, sie sind etabliert für
    große Graphen." weil da ist sowieso nix
  • 56:45 - 56:50
    mehr zu planarisieren in der Größe und
    dann sieht man halt zu zu iterieren bis es
  • 56:50 - 56:54
    stimmt und wenn es schlecht aussieht, dann
    drückt man nochmal auf den Startknopf.
  • 56:54 - 56:57
    Also so ist wirklich die Praxis.
  • 56:58 - 57:03
    Mikro: Hallo. Hast du mal Markov auf deine
    Daten geworfen,
  • 57:03 - 57:05
    um Spiegelartikel zu generieren.
  • 57:05 - 57:07
    GelächterApplaus
  • 57:07 - 57:09
    David: Nein! Könntest du mir bitte damit
    eine Email schicken?
  • 57:09 - 57:12
    Gekiecher und Gelächter im Saal
    Mikro: Sehr gerne.
  • 57:12 - 57:14
    David: Oh wir haben Spaß, ich seh das
    schon ..
  • 57:14 - 57:17
    GelächterApplaus
  • 57:17 - 57:25
    D: Da machen wir aber nicht nur die
    Artikel Generierung sondern dann wird
  • 57:25 - 57:29
    bitte auch direkt dazu generiert, zu
    welchem Thema kommentiert werden darf
  • 57:29 - 57:31
    und zu welchen nicht, ne ...
  • 57:31 - 57:32
    vereinzeltes Gelächter
    Ruf aus dem Publikum: Autoren generieren
  • 57:32 - 57:35
    David: Autoren generieren, das ist auch
    schön, ja.
  • 57:35 - 57:37
    Gelächter
  • 57:37 - 57:45
    Herald: So wir sind auch am Ende unserer
    Zeit. Wer noch Fragen hat, du bist sicher
  • 57:45 - 57:46
    gleich noch ...
  • 57:46 - 57:50
    David: Ich geh hier jetzt da raus, zur
    nächsten Bierbar, die da ist, falls die
  • 57:50 - 57:57
    nicht vor Saal 2 ist, ist die vor Saal 1
    dann bin ich da.
  • 57:57 - 57:59
    Wir machen jetzt DDos auf
    die Bierbar. Ja.
  • 57:59 - 58:00
    Applaus
  • 58:00 - 58:03
    Herald: Ja ist ja auch Zeit.
  • 58:03 - 58:12
    Applaus
  • 58:12 - 58:19
    Herald : Auch von mir auch nochmal ein
    Herzlichen Dank ....
  • 58:20 - 58:26
    33c3 - Abspann-Musik
  • 58:26 - 58:46
    Untertitel erstellt von c3subtitles.de
    im Jahr 2017. Mach mit und hilf uns!
Title:
SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
Description:

more » « less
Video Language:
German
Duration:
58:46

German subtitles

Revisions Compare revisions