SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)

Edit subtitles

0:00 - 0:13

33C3 Vorspannmusik
0:13 - 0:18

Herald Carina Haupt: David Kriesel ist
Data Scientist. Und der eine oder andere
0:18 - 0:25

kennt ihn vielleicht noch vom 31C3, wo er
den relativ bekannt gewordenen berühmten
0:25 - 0:27

Xerox Scanning Bug Vortrag gehalten hat.
0:27 - 0:35

Applaus
0:35 - 0:41

Dieser hat ihn offensichtlich nicht nur
hier bekannt gemacht. Sondern auch zu
0:41 - 0:46

internationaler Bekanntheit verholfen. Und
damit begrüsse ich ihn und freue mich auf
0:46 - 0:51

einen spannenden Talk und bitte Euch
nochmal um einen ganz ganz herzlichen
0:51 - 0:54

Applaus für David.
0:54 - 0:57

Applaus
0:57 - 0:59

David: Dankeschön
0:59 - 1:01

Applaus
1:01 - 1:07

Ja, dankeschön. Herzlich willkommen. Auch
nochmal von mir. Auch an die Leute im
1:07 - 1:12

Internet. Und auch an die Leute vom
Spiegel. Von denen ich weiss, dass sie
1:12 - 1:18

anwesend sind. Es ist schön wieder hier
zu sein. Mein Name ist David Kriesel. Ich
1:18 - 1:23

bin Informatiker aus Bonn. Und ich mache
beruflich, es wurde schon gesagt Data
1:23 - 1:27

Science und Machine Learning. Und salopp
gesagt, versuche ich für meine
1:27 - 1:34

Arbeitgeber aus grossen Datenmengen Wissen
zu ziehen. Und seit 2014 habe ich knapp
1:34 - 1:39

100 000 Artikel von Spiegel Online
ge-vorratsdaten-speichert.
1:39 - 1:46

GelächterApplaus
1:46 - 1:50

Und das habe ich einfach niemanden
erzählt.
1:50 - 1:51

Gelächter
1:51 - 1:55

Und während ich da so zweieinhalb Jahre
sitze und das niemanden erzähle, ist die
1:55 - 1:59

Stimmung medial irgendwie umgeschlagen.
Vor zweieinhalb Jahren war die Welt noch
1:59 - 2:05

in Ordnung und heute ist die Rede von
Lügenpresse und Fake News und genau aus
2:05 - 2:10

dieser Zeit des Stimmungsumbruchs haben
wir jetzt einen riesigen Datensatz über
2:10 - 2:15

den vielleicht grössten Meinungsmacher
unserer Nation. Und mit diesem Datensatz
2:15 - 2:19

werden wir heute zwei Sachen machen:
Erstens, wir werden den Datensatz
2:19 - 2:24

durchleuchten und was über Spiegel Online
lernen. Und zwar so, dass ihr das auch mit
2:24 - 2:30

nach Hause nehmen und beim Lesen dann
anwenden könnt. Und zweitens, wir werden
2:30 - 2:34

Einblick erhalten wie die Datensammelwut
von heute funktioniert und wie mächtig
2:34 - 2:38

oder vielleicht auch nicht mächtig die
ist. Und das machen wir so, dass es für
2:38 - 2:43

jeden verstehbar ist, nicht nur für
Informatiker. Und zusätzlich werde ich,
2:43 - 2:46

wie in meinem letzten Vortrag vor zwei
Jahren ein bisschen auf das
2:46 - 2:50

Gesellschaftliche eingehen. Und wir werden
an ein paar passenden Beispielen
2:50 - 2:53

beleuchten, wie die moderne
Datenverarbeitung unsere Gesellschaft
2:53 - 2:57

beeinflussen kann. Und ob wir die Welt,
mit dieser allumfassenden Datensammelwut
2:57 - 3:01

besser machen oder schlechter machen, dass
kann dann ja später jeder von euch für
3:01 - 3:07

sich selbst entscheiden. Am besten fangen
wir an, in dem ich kurz beschreibe wie
3:07 - 3:12

genau Spiegelmining funktioniert. Rund um
die Uhr, alle paar Minuten schaut einer
3:12 - 3:17

meiner Server vollautomatisch auf Spiegel
Online nach ob dort neue Artikel stehen
3:17 - 3:20

und werden neue Artikel gefunden, dann
werden die heruntergalden und
3:20 - 3:25

abgespeichert. Und auf diese Weise hat der
Datensatz einen coolen Vorteil der ja
3:25 - 3:30

jetzt vielleicht nicht sofort ersichtlich
ist: ich erhalte neue Artikel binnen
3:30 - 3:34

Minuten, nachdem sie veröffentlicht
wurden. Das heisst, ich kriege die im
3:34 - 3:36

Originalzustand, also vor allen
3:36 - 3:37

Verbesserungen und Änderungen,
3:37 - 3:39

die im Nachhinein vorgenommen
3:39 - 3:42

werden und das ist natürlich
viel aussagekräftiger.
3:42 - 3:46

Man erhält ein unverfälschten Eindruck und
es ist nicht so wie wenn man einen Artikel
3:46 - 3:50

runterlädt, die vieleicht schon Jahre alt
und tausend mal editiert sind. Aus den
3:50 - 3:54

heruntergeladenen Artikeln lese ich dann
sogenannte Features. Feature ist einfach
3:54 - 3:58

das Fachwort für ein Artikelmerkmal. Ganz
einfache Features eines Artikels können
3:58 - 4:00

zum Beispiel der
Veröffentlichungszeitpunkt oder die
4:00 - 4:04

Rubrik sein, in der der Artikel steckt.
Und die Features nehme ich dann und mache
4:04 - 4:09

damit Auswertungen, von den sehen wir
heute noch ein paar. Und die interessanten
4:09 - 4:13

unter den Auswertungen nutze ich dann, um
auf meiner Seite eine Blogartikelserie zu
4:13 - 4:17

schreiben, um meinen Lesern einen Einblick
in Spiegel Online und die Data Science
4:17 - 4:21

gleichermassen zu geben und das war es.
Spiegelmining in wenigen Minuten. Und am
4:21 - 4:25

Anfang machen wir jetzt ein paar sehr
einfache Auswertungen, so sehen wir wie
4:25 - 4:28

das funktioniert und verschaffen uns
gleichzeitig einen Überblick über
4:28 - 4:32

Spiegel Online und als erstes zählen wir
mal wie häufig die einzelnen Rubriken so
4:32 - 4:37

vorkommen. Das ist die Ansicht. Die
Größe der Kreise gibt die Artikelanzahl
4:37 - 4:42

pro Rubrik wieder und wie wir sehen, wird
Spiegel Online dominiert von Politik, das
4:42 - 4:48

ist der große rote Kreis rechts oben, von
Panorama, das ist der grüne Kreis in der
4:48 - 4:52

Mitte und vom Sport, das ist der
fliederfarbene Kreis ganz unten. Ich
4:52 - 4:55

weiss, was fliederfarben ist. Ich höre
schon Leute lachen.
4:55 - 4:57

Applaus
4:57 - 5:04

Also die drei Rubriken, die machen
zusammen die Hälfte der Artikel aus. Und
5:04 - 5:08

das nächste supereinfache Feature ist der
Veröffentlichungszeitpunkt von jedem
5:08 - 5:12

Artikel. Damit messen wir jetzt einfach
mal, wieviele Artikel Spiegel Online am
5:12 - 5:16

Tag so schreibt. Der Plot sieht jetzt
richtig richtig krass unordentlich aus,
5:16 - 5:20

dass man da fast keine Werte erkennen
kann. Das liegt an den Wochenenden.
5:20 - 5:23

Da wird um die Hälfte weniger
veröffentlicht als normal. Und deswegen
5:23 - 5:27

schwankt das so krass. Und hier gibt es
dann auch gleich den ersten Bericht aus
5:27 - 5:32

der Praxis: wie man deutlich sieht, habe
ich Anfang März 2015 ein paar Tage Loch
5:32 - 5:37

in den Daten. Und der Grund ist, dass der
März ein Monat mit "ae" ist.
5:37 - 5:40

GelächterApplaus
5:46 - 5:53

Also, mir ist das nach kurzer Zeit zum
Glück aufgefallen. Also wenn Ihr Daten
5:53 - 5:57

aufnehmt, dann programmiert Euch bitte mal
irgendeine Form von Warnsystem, das
5:57 - 6:01

anschlägt, wenn länger keine Daten mehr
eintrudeln. Ich hatte das zum Glück und
6:01 - 6:04

das hat mir hier sehr geholfen. Jetzt
schlägt es in ein paar Minuten an und da
6:04 - 6:08

hatte ich so irgendwie ein paar Tage keine
Ahnung. Zurück zum Plot: Wegen der
6:08 - 6:11

Unordnung mit den Wochenenden ändern wir
jetzt unseren Plot und berechnen statt den
6:11 - 6:15

Artikeln pro Tag jetzt die Artikel pro
Woche. Und man sieht jetzt auch was und da
6:15 - 6:19

sehen wir, dass Spiegel Online im Schnitt
so 700 Artikel die Woche veröffentlicht,
6:19 - 6:24

also so 100 am Tag. Und das ist schon
ziemlich viel Output. Übrigens die beiden
6:24 - 6:29

krassen Einbrüche, die Ihr hier seht, das
sind die Weihnachtswochen, da wird weniger
6:29 - 6:32

veröffentlicht und der Datensatz für
diesen Vortrag ist vom 4. Dezember,
6:32 - 6:36

deswegen ist dieser Weihnachts-Low dieses
Mal einfach noch nicht drin. Und wenn man
6:36 - 6:41

jetzt Features einzeln betrachtet, aber
richtig interessant wird es, wenn wir
6:41 - 6:44

Features zusammen betrachten. Wir
verwursten jetzt also mal
6:44 - 6:48

Veröffentlichungszeitpunkt und Rubrik
zusammen. Und dann können wir sehen, das
6:48 - 6:55

beispielsweise der Output in den Rubriken
Panorama und Politik stabil ist. Während
6:55 - 6:59

Wissenschaft und Uni-Spiegel ganz schön
zusammengestrichen wurden. Das gilt
6:59 - 7:03

übrigens in abgeschwächter Form auch für
andere Ressorts. Solche Infos, welche
7:03 - 7:07

Ressorts gerade gerupft werden, sind zum
Beispiel relativ interessant, wenn man
7:07 - 7:11

Konkurrent von Spiegel Online ist. Das
kann man ohne weiteres auslesen. Und wir
7:11 - 7:15

sehen, geschickt Features ausdenken und
zusammenstöpseln, ist die halbe Welt.
7:15 - 7:20

Jetzt nehmen wir mal die Textlänge der
Artikel dazu. Hier sind die typischen
7:20 - 7:25

Artikellängen im Spiegel angegeben und
zwar pro Rubrik. Und man sieht, dass der
7:25 - 7:30

typische Kulturartikel fast dreimal so
lang ist, wie der typische Panorama- oder
7:30 - 7:36

Sportartikel und immerhin noch doppelt so
lang wie der typische Politikartikel. Und
7:36 - 7:40

jetzt hatten wir schon gesehen, das
Panorama, Sport und Politik trotz ihrer
7:40 - 7:44

kurzen Artikellängen genau die drei
dominierenden Ressorts sind. Und daraus
7:44 - 7:49

können wir folgern, das Spiegel Online es
eher auf Reichweite anlegt und auf
7:49 - 7:55

Abdeckungsbreite als auf Tiefe. Die
Strategie Reichweite um jeden Preis
7:55 - 7:58

scheint Spiegel Online auch noch so zu
verstärken. Die zusammengestrichenen
7:58 - 8:02

Rubriken waren alles welche mit eher
langen Texten. Und bevor das hier jetzt
8:02 - 8:06

falsch ankommt, ich sage das ohne jede
Wertung im Sinne von gut oder schlecht das
8:06 - 8:09

ist ja eine valide Strategie für ein
Medium und ich beschreibe einfach nur
8:09 - 8:13

gemessene Daten. Und es ist keineswegs der
Zweck der Veranstaltung irgendwie
8:13 - 8:17

substanzlos in Richtung von Spiegel Online
zu haten. Wer hatet wird nicht ernst
8:17 - 8:20

genommen. Das habe ich ja in meinem
letzten Vortrag schon ausführlich
8:20 - 8:24

beschrieben. Und die meisten Sachen, die
hier im Vortrag noch kommen, denkt daran,
8:24 - 8:29

die sind bei den anderen wahrscheinlich
ähnlich. Wichtig ist auch dass man mit
8:29 - 8:34

den Features experimentiert. Hier ist zum
Beispiel ein Diagramm, das zeigt, dass
8:34 - 8:38

Veröffentlichungsvolumen pro Wochentag
und Stunde. Die Zeilen sind die Wochentage
8:38 - 8:43

und die Spalten sind die Stunden eines
Tages. Pro Wochentag und Stunde sehen wir
8:43 - 8:46

einen Block. Und in den grossen Blöcken
sind viele Artikel erschienen und in den
8:46 - 8:52

kleinen wenige. Und jetzt lernen wir daran
mal, wie es in der Data Science zugeht:
8:52 - 8:56

Erstens: In der Data Science findet man
immer wieder Botschaften bestätigt, die
8:56 - 9:02

man vorher schon erahnt hat. Das ist der
langweilige Teil der Data Science. Aber
9:02 - 9:06

das ist gut, um die eigenen Messverfahren
zu überprüfen. Wir sehen hier, zu den
9:06 - 9:10

unchristlichen Zeiten wird viel weniger
veröffentlicht. Bahnbrechende Erkenntnis:
9:10 - 9:13

Auch der Spiegel-Online-Redakteur
möchte mal schlafen.
9:13 - 9:14

Gelächter
9:14 - 9:21

Zweitens: In der Data Science findet man
aber auch immer Systematiken da, wo man
9:21 - 9:26

keine erwartet hat. Und das passiert oft
dann, wenn man Features verbindet. Wir
9:26 - 9:30

färben jetzt mal jeden dieser Blöcke
ein, nach der typischen Textlänge. Rote
9:30 - 9:35

Blöcke enthalten typischerweise lange
Texte und blaue Blöcke eher kurze. Und
9:35 - 9:40

zack Es gibt einen klaren Zusammenhang
zwischen Tageszeit und Länge der Artikel.
9:40 - 9:44

Für mich als Nicht-Journalist war das
damals überraschend. Die typische Länge
9:44 - 9:48

der veröffentlichten Artikel die ist von
Montag bis Freitag zwischen 5 bis 6 Uhr
9:48 - 9:54

früh am grössten. Das gleiche am
Wochenende. Hier gibt es zum Tagesstart
9:54 - 9:59

auch nur längere Artikel, ein bisschen
später natürlich. Und das Rätsels
9:59 - 10:03

Lösung zu diesem Phänomen kommt später
noch. Und als Drittes, ist die Data
10:03 - 10:09

Science natürlich auch dazu da fieseste
Vorurteile zu schüren. Ich führe Euch
10:09 - 10:13

das mal vor. Jetzt gebt mir bitte mal ein
Handzeichen, wer von Euch denkt, dass die
10:13 - 10:18

Leutchen aus dem Kulturressort morgens
bitte, gerne ein bisschen länger pennen
10:18 - 10:19

als die anderen.
10:19 - 10:20

Gelächter
10:20 - 10:25

Also, vielleicht für das Internet: Wir
haben einen Raum von 1600 Leuten, der ist
10:25 - 10:32

proppenvoll und fast alle haben die Hand
gehoben. Und die Lösung ist: stimmt!
10:32 - 10:34

Gelächter
10:34 - 10:37

Die Kulturwissenschaftler
10:37 - 10:39

Applaus
10:39 - 10:44

Die Kulturwissenschaftler veröffentlichen
typischerweise später. In der oberen
10:44 - 10:47

Verteilung sind alle Artikel ausser
Kultur. Da ist ab 5 Uhr morgens
10:47 - 10:52

Aktivität. Und in der unteren Verteilung
sind die Kulturartikel, da geht es
10:52 - 10:58

mindestens 2 Stunden später los. Aber zum
Ausgleich gehen die auch früher nach Hause.
10:58 - 11:01

Gelächter
11:01 - 11:03

Applaus
11:03 - 11:08

Aber, damit wir hier nicht wirklich
Vorurteile schüren, ich war bei Spiegel
11:08 - 11:13

Online eingeladen im Oktober und da habe
ich das auch so gesagt. Und dann haben sie
11:13 - 11:17

gesagt: 'David, nein, nein!' Manche
Artikel werden natürlich auch vorab
11:17 - 11:21

gescheduled, das will ich hier
fairerweise dazusagen.
11:21 - 11:24

Und ich mache das auch als Ermahnung, dass
11:24 - 11:27

ihr, wenn Ihr damit arbeitet, immer
nochmal selbst nachdenken müsst. was Ihr
11:27 - 11:31

auch solchen Auswertungen wirklich folgern
könnt. Besonders dann, wenn Ihr schon mit
11:31 - 11:35

einem Vorurteil da rein gegangen seid, so
wie wir jetzt. Wir haben gerade gesehen,
11:35 - 11:39

wie solche Auswertungen grundsätzlich
funktionieren, also können wir jetzt
11:39 - 11:43

einen Schritt weitergehen. Und im Internet
wird es ja genau immer dann besonders
11:43 - 11:47

knusprig, wenn personenbezogene Daten ins
Spiel kommen.
11:50 - 11:53

Also, habe ich mir gedacht,
11:53 - 11:57

es wäre doch mal ein nettes Feature, wenn
wir mal die Autoren aus den Spiegel
11:57 - 12:01

Artikeln rauslesen. Und das machen wir
jetzt. Und die werten wir gleich auf zwei
12:01 - 12:05

Arten aus: Die erste Auswertung wird eine
ganz neue Auswertung in diesem Vortrag,
12:05 - 12:08

also eine ganz neue Art. Und die zweite
Auswertung wird ein bisschen politisch
12:08 - 12:14

inkorrekt. In unserer ersten Auswertung
werden wir versuchen Spiegel Online
12:14 - 12:18

interne Personalstrukturen einfach von
aussen zu lesen. Wenn man zu jedem Artikel
12:18 - 12:22

eine Liste an Autoren hat, dann weiss man
ja nicht nur, wer jeden Artikel
12:22 - 12:26

geschrieben hat, sondern man weiss auch,
wer mit wem schreibt. Und bei Autoren, die
12:26 - 12:30

oft zusammen Artikel schreiben, dürfen
wir davon ausgehen, dass die intensiv
12:30 - 12:33

zusammenarbeiten. Wir wissen also
sozusagen, welche Autoren wichtig
12:33 - 12:37

füreinander sind, was die Artikel angeht.
Wer wenig oder gar nicht zusammenschreibt,
12:37 - 12:41

der ist in dieser Ansicht nicht wichtig
füreinander. Aus diesen Wichtigkeiten
12:41 - 12:46

können wir dann eine Autorenlandkarte
bauen. Und hier ist sie. Das ist ein Teil
12:46 - 12:50

des sozialen Netzwerkes der Spiegel Online
Autoren generiert über die letzten
12:50 - 12:54

2 Jahre. Und jeder Autor ist so ein Bubble
Und Autoren, die nur ganz selten
12:54 - 12:59

vorkommen, die habe ich hier gefiltert.
Und man sieht genau, dass es da Grüppchen
12:59 - 13:03

von Autoren gibt, die sich dichter
zusammentun. Und das sieht aus, als wären
13:03 - 13:07

es die Teams. Und jetzt müssen wir
natürlich kontrollieren, ob unser
13:07 - 13:10

Durchleuchten von aussen, auch wirklich
funktioniert. Und um das zu machen,
13:10 - 13:14

färben wir die Autoren mal nach Ihren
Ressorts ein. Die Ressorts, die kriegt man
13:14 - 13:19

aus dem Spiegel Online Impressum. Siehe
da, in vielen Fällen haben sich
13:19 - 13:23

tatsächlich die Ressorts vollautomatisch
in der Landkarte zusammengetan. Hier in
13:23 - 13:29

pink ist Sport. Wissenschaft und
Gesundheit. Netzwelt. Politik. Ein
13:29 - 13:33

bisschen verteilter, da habe ich jetzt
nicht alle eingekreist. Panorama. Reise.
13:33 - 13:37

Ich nenne jetzt nicht alle Teams, aber Ihr
seht das Prinzip. Die hellblauen
13:37 - 13:41

verteilten Punkte sind übrigens das Team
von bento, die arbeiten ein bisschen
13:41 - 13:44

übergreifender. Das ist
die Kinderausgabe vom Spiegel.
13:44 - 13:45

Gelächter
13:45 - 13:48

Applaus
13:49 - 13:55

Und der Punkt ist, wir haben jetzt relativ
genau von aussen durchleuchten können,
13:55 - 13:59

wer mit wem intern in einem Team steckt.
Und der Witz ist, schaut die ganzen grauen
13:59 - 14:03

Bubble an. Die sind grau, weil sie nicht
mehr über das Spiegel Impressum
14:03 - 14:07

zugeordnet werden konnten. Das sind zum
Beispiel ausgeschiedene Kollegen. Der
14:07 - 14:13

Spiegel Chefredakteur ist kürzlich auch
grau geworden. Aber durch ihre Nähe zu
14:13 - 14:17

den gefärbten Gruppen, können wir die
trotzdem grob einem Team zuordnen. Wir
14:17 - 14:21

können also etwas über die sagen, obwohl
wir eigentlich gar nichts über die
14:21 - 14:24

wissen. Und sowas ist dann interessant.
Wir können also einfach live von aussen
14:24 - 14:28

über die Personalstrukturen Buch führen.
Aber jetzt... Ihr wartet bestimmt schon
14:28 - 14:32

alle zum politisch inkorrekten Teil. Ich
möchte Euch nämlich für etwas
14:32 - 14:37

sensibilisieren. In diesem Plot ist jede
Zeile ein Autor. Und von links nach rechts
14:37 - 14:43

vergeht die Zeit. Und jeder farbige Strich
ist ein vom jeweiligen Autor
14:43 - 14:46

veröffentlichter Artikel. Und wenn wir
die Autoren kennen und das tun wir ja
14:46 - 14:50

jetzt, dann wissen wir natürlich auch
sehr genau, wer wann veröffentlicht. Wir
14:50 - 14:53

sehen zum Beispiel diese Zeile mit
regelmässigen Muster, das ist ein
14:53 - 14:57

Kolumnist, der veröffentlicht genau im
Wochentakt, bis auf ein paar Ausnahmen.
14:57 - 15:01

Bei den Leuten, die Tagesgeschehen
veröffentlichen, ist die Dichte höher.
15:01 - 15:05

Und das heisst, wir wissen bei denen
umgekehrt auch relativ gut, wann die
15:05 - 15:10

Urlaub machen. So, weil das sind nämlich
die Lücken in den dichtgefüllten Zeilen.
15:10 - 15:14

Und, wenn aber wir die Urlaube ungefähr
kennen, dann wissen wir auch ungefähr,
15:14 - 15:17

wessen Urlaube sich überproportional
überschneiden.
15:17 - 15:20

Gelächter
15:20 - 15:23

Sachen wie Weihnachten, die fast alle
Urlaub machen, die kann man ja einfach
15:23 - 15:28

rausrechnen. Und ich appelliere jetzt an
Eure Berufserfahrung und mutmasse mal ganz
15:28 - 15:32

wild, dass Ihr auch schon mal Kollegen
hattet, die irgendwie immer gleichzeitig
15:32 - 15:39

im Urlaub waren. Also, Spass beiseite. Aus
solchen Daten kann man ohne weiteres
15:39 - 15:44

lesen, wer mit was hat. Jetzt wisst Ihr
auch, warum ich die Autoren hier
15:44 - 15:49

anonymisiert habe. Es ist übrigens total
klar, dass das, was wir hier finden, nicht
15:49 - 15:53

alles Pärchen sein müssen. Das sind die
Pärchenkandidaten. Aber, wenn man an der
15:53 - 15:59

Praxis und sowas interessiert ist, dann
ist man ja damit schon mal auf 99% des
15:59 - 16:04

Weges zum Ziel. Es gibt Firmen, die werten
sowas aus, so illegal das auch ist. Jetzt
16:04 - 16:08

habt Ihr alle gerade gelacht, Kann ich mal
um Handzeichen bitten, wer von Euch heute
16:08 - 16:15

bei seiner Firma Urlaub genommen hat.
Über jeden gibt es solche Daten. Glaubt
16:15 - 16:20

mir. Und wir halten jetzt mal inne, und
dann machen wir uns nochmal klar, was wir
16:20 - 16:23

gerade gesehen haben und was die
gesellschaftlichen Implikationen sind. Was
16:23 - 16:26

wir gerade gesehen haben, ist
Wissensgewinnung über interne
16:26 - 16:30

Firmeninformationen und über
höchstpersönliche Lebensbereiche. Und
16:30 - 16:33

aus Daten, die erstmal gar nicht danach
aussehen. Wir hatten ja eigentlich einen
16:33 - 16:36

Satz Spiegelartikel. Und plötzlich,
überraschend, haben wir gute
16:36 - 16:40

Anhaltspunkte, wer mit wem was hat, und
wir können Teamstrukturen erahnen. Und
16:40 - 16:44

damit komme ich zu wichtigsten Message des
Vortrags: Wenn Ihr Daten veröffentlicht,
16:44 - 16:48

dann entscheidet nicht Ihr, was Ihr da
veröffentlicht, das entscheidet der
16:48 - 16:53

Gegner. Wir haben noch nicht einmal die
Daten selbst betrachtet. Wir haben die
16:53 - 16:57

Artikel selbst ja gar nicht angefasst. Was
wir angefasst haben, waren nur Metadaten.
16:57 - 17:01

Zeiten und Autoren, genau wie bei der
Vorratsdatenspeicherung. Das sind ja auch
17:01 - 17:07

nur Metadaten. Gebt mal ein paar Monate
eurer Metadaten, einfach nur, wem Ihr wann
17:07 - 17:11

Mails und Whatsapp geschickt habt und wann
Ihr auf welchen Webseiten wart. Keine
17:11 - 17:15

Inhalte. Danach kann ich Euch sagen, wer
Eure besten Freunde sind, ob Ihr eine
17:15 - 17:19

Affäre habt, wie Ihr sexuell orientiert
seid, ob Ihr schwanger seid, ob Ihr eine
17:19 - 17:22

Krankheit habt, was Eure politische
Einstellung ist, wie euer Glaube
17:22 - 17:26

ausgerichtet ist, und ob Ihr finanzielle
Probleme habt und alles, was ich gerade
17:26 - 17:31

vergessen habe. Das Missbrauchsprofil für
einen solchen Datensatz, wie den der
17:31 - 17:35

Vorratsdatenspeicherung, das kann man gar
nicht in Worte fassen. Und ich will da
17:35 - 17:38

überhaupt nicht mit
Verschwörungstheorien anfangen, wir
17:38 - 17:41

können ja mal alle glauben, dass die
Vorratsdatenspeicherung für die
17:41 - 17:45

Aufklärung von Verbrechen nützlich sein
kann, das ist ja auch total plausibel. Und
17:45 - 17:49

wir können ja auch mal glauben, dass die
Person, die die Vorratsdatenspeicherung
17:49 - 17:52

jetzt etablieren guten Willens sind. Lasst
uns das einfach mal annehmen. Das heisst
17:52 - 17:55

aber nicht, dass morgen keiner an die
Macht kommt, der das vielleicht ganz
17:55 - 18:02

anders macht. Was wir hier gerade
erhalten, ist die Infrastruktur, für eine
18:02 - 18:06

Generalüberwachung, die selbst George
Orwell's Big Brother die Schamesröte ins
18:06 - 18:10

Gesicht treiben würde.
18:10 - 18:16

Applaus
18:16 - 18:21

Und diese Überwachungsinfrastruktur, die
stellen wir jetzt extra schon mal bereit
18:21 - 18:25

für den Fall, dass eine zukünftige
Regierung böswillig ist und sie nutzen
18:25 - 18:31

will. Das ist, was gerade passiert. Jetzt
haben wir einen kurzen Exkurs über
18:31 - 18:34

Metadaten gemacht, und wir gehen jetzt
zurück zu Spiegel Online, damit sich Eure
18:34 - 18:38

Laune wieder hebt. Und deswegen kommt
jetzt ein kleiner Einschub, den könnt Ihr
18:38 - 18:42

dann direkt anwenden, wenn Ihr das
nächste Mal Spiegel Online lest. Und
18:42 - 18:45

danach machen wir mal ein bisschen was
Grösseres. Als ich die Autoren aus den
18:45 - 18:53

Artikeln rauslesen wollte, da war ich
irgendwann ziemlich genervt. Also manchmal
18:53 - 18:57

stehen die oben unter dem Titel, wie hier
links im Bild. Oder die stehen unten, wie
18:57 - 19:02

rechts im Bild. Und wenn die Autoren oben
stehen, sind sie ausgeschrieben. Und wenn
19:02 - 19:07

sie unten stehen, sind es Kürzel. Oben
stehen sie im wirklichen Satz, hier zum
19:07 - 19:12

Beispiel von Marcel Rosenbach. Und unten
die Kürzel sind ohne Satz drumrum. Manche
19:12 - 19:15

Autoren haben nur Vor- und Nachname.
Manche Namen haben aber auch vier oder
19:15 - 19:21

fünf Worte. Wie zum Beispiel der
freundliche Herr Philip Alvares De Souza
19:21 - 19:25

Suarez. Das habe ich mir extra hier
aufgeschrieben, fünf Worte. Das ist ein
19:25 - 19:29

Name. Also Data Science kann technisch
nervig sein. Sagt nicht, ich hätte Euch
19:29 - 19:36

nicht gewarnt. Und jedenfalls habe ich mir
gedacht, wtf, warum stehen da Autoren in
19:36 - 19:40

verschiedenen Formen und vor allem an
verschiedenen Orten? Also habe ich mir mal
19:40 - 19:46

das als Feature reingenommen, ob die
Autoren oben oder unten stehen. Und dann
19:46 - 19:50

habe ich Messwerte zwischen den
beiden Artikelgruppen verglichen, Autoren
19:50 - 19:56

oben und Autoren unten. Und es stellt sich
raus, wenn die Autoren unten stehen, also
19:56 - 20:00

nicht namentlich ausgeschrieben sind, ist
ein typischer Artikel knapp 300 Worte
20:00 - 20:03

lang. Wir sehen hier die Verteilung der
Artikellängen von Artikeln ohne
20:03 - 20:07

ausgeschriebenen Namen. Und nach rechts
werden die Artikel länger, da wird es
20:07 - 20:12

immer weniger. Und stehen die Autoren aber
oben, sind also ausgeschrieben, ist ein
20:12 - 20:17

Artikel typischerweise mehr als
zweieinhalb mal so lang. Knapp 750 Worte.
20:17 - 20:21

Man weiss schon, womit man gegoogelt
werden will als Redakteur.
20:21 - 20:22

Gelächter
20:22 - 20:27

Und nochwas: bei den langen Artikeln ist
auch nur bei ca. 2% eine
20:27 - 20:31

Nachrichtenagentur mit dabei. Bei den
kurzen ist bei knapp 80% eine
20:31 - 20:35

Nachrichtenagentur mit dabei. Also Fazit
für Euch zum mI t nach Hause nehmen: Wenn
20:35 - 20:39

Ihr längere Artikel wollt, die Spiegel
Online selbst verfasst hat, dann achtet
20:39 - 20:43

drauf, dass die Autoren drangeschrieben
sind. Wenn Ihr kurze Agenturmeldungen
20:43 - 20:45

wollt, sind die Kürzel gut.
20:45 - 20:50

Applaus
20:50 - 20:55

Und wir hatten ja schon gesehen, dass am
Tagesanfang primär längere Artikel
20:55 - 20:58

erscheinen und das waren eben in
Wirklichkeit die selbst geschriebenen.
20:58 - 21:03

Morgens ist der Prozentsatz von denen
vergleichsweise hoch. Und jetzt könen wir
21:03 - 21:05

die Gelegenheit nutzen und einen Schritt
zurücktreten und gucken, was wir bis
21:05 - 21:11

jetzt gemacht haben. Und wir haben unsere
Riesenmenge Artikel, immer auf äusserst
21:11 - 21:14

einfache Art und Weise auseinander
geschnitten und ausgewertet. Wir haben die
21:14 - 21:18

in Wochentage oder Uhrzeiten
auseinandergeschnitten. Oder in Rubriken.
21:18 - 21:22

Und dafür, wie einfach diese Ideen sind,
haben wir eigentlich ein paar ganz gute
21:22 - 21:25

Ergebnisse bekommen. Aber, was wir noch
gar nicht gemacht haben, ist uns dem
21:25 - 21:29

Datensatz mal inhaltlich zu nähern. Und
es wäre doch total cool, wenn wir die
21:29 - 21:33

Artikelmenge mal nach den wirklichen
Themen über die berichtet wird,
21:33 - 21:42

auseinanderschneiden und auswerten
können. Spiegel Online liefert uns
21:42 - 21:46

hierbei auch eine gute Hilfe: Artikel
werden dort verschlagwortet. Jeder Artikel
21:46 - 21:51

bekommt von seinem Autor so um die 10
Keywords zugewiesen. Der Artikel links im
21:51 - 21:56

Bild hat zum Beispiel die Keywords
Politik, Ausland, Saudi Arabien und König
21:56 - 22:00

Salman von Saudi Arabien. Also habe ich
die Keywords mal ausgelesen. Ueber alle
22:00 - 22:05

Artikel hinweg habe ich um die 65000
verschiedene Keywords gefunden. Und jetzt
22:05 - 22:09

gucken wir, wie oft, welche Keywords
zusammen in den selben Artikeln kommen.
22:09 - 22:13

Und Keywords, die fast ausschliesslich
zusammen vorkommen, die sind sozusagen
22:13 - 22:17

verheiratet, die sieht man einfach als
eins in der Auswertung. Und umgekehrt gibt
22:17 - 22:21

es natürlich Keywords, die beide für
sich genommen existieren, aber nie oder
22:21 - 22:25

fast nie zusammen, die sind dann
unverwandt. Und dann gibt es noch einen
22:25 - 22:32

interessanten Mittelweg:
Hier ist ein Beispiel.
22:32 - 22:35

GelächterApplaus
22:35 - 22:39

Artikel mit dem Keyword "Angela Merkel",
die haben meist auch das Keyword Politik.
22:39 - 22:44

Und umgekehrt ist das aber nicht so. Das
Keyword Politik ist viel grösser. Und es
22:44 - 22:48

gibt extrem viele Politikartikel ohne
Angela Merkel. Und diese Keywords sind
22:48 - 22:52

nicht die selben, aber es ist klar, die
haben eine Verbindung. Und wir messen also
22:52 - 22:58

für alle 65000 Keywords, paarweise, wie
verwandt die so sind. Und dann verbinden
22:58 - 23:02

wir Keywords, die stark verwandt sind mit
so ganz strammen, dicken Federn. Ich meine
23:02 - 23:06

jetzt wirklich Federn im physikalischen
Sinne, die die Keywords zueinander
23:06 - 23:10

hinziehen. Zwischen schwächer verwandten
Keywords kommen schwächere Federn, die
23:10 - 23:14

werden dann länger. Und jetzt machen wir
eine Physiksimulation. und schauen zu, wie
23:14 - 23:21

sich diese abertausenden Federn
zurechtzurren. Verwandte Keywords werden
23:21 - 23:25

jetzt tendenziell nahe beeinander layoutet
und weniger verwandte nicht so nah. Was
23:25 - 23:29

hier ensteht ist eine thematische
Landkarte, von allen Sachen über die
23:29 - 23:33

Spiegel Online in den letzten 2 Jahren
berichtet hat. Und jetzt gerade sieht es
23:33 - 23:37

so aus, als passiert da fast nichts mehr,
aber gerade passiert die Detailarbeit. Das
23:37 - 23:41

sieht man nur von soweit oben nicht. Und
deswegen zoomen wir jetzt mal ganz weit
23:41 - 23:45

rein, damit wir lernen, was wir da
erschaffen haben. Hier ist die Volkswagen
23:45 - 23:49

Abgasaffäre. Wie Ihr seht haben die
Keywords unterschiedliche Grössen. Die
23:49 - 23:53

Grösse der einzelnen Keywords spiegelt
die Anzahl der Artikel wieder, die das
23:53 - 23:56

Keyword innehaben. Und das sind sozusagen
die Artikel, die in dem Keyword
23:56 - 24:01

drinstecken. Und die Farbe zeigt an, was
die vorherrschende Rubrik ist über alle
24:01 - 24:05

Artikel, die in einem Keyword drin
stecken. Dieses Okergelb heisst
24:05 - 24:10

Wirtschaft. Passt! Der Witz ist, diese
Darstellungsweise ist extrem mächtig und
24:10 - 24:14

vielseitig. Über die Farbe der Keywords
da können mit dieser Darstellungsweise
24:14 - 24:19

noch viel mehr Infos rüberbringen, als
nur, welche Themen verwandt sind. Und mit
24:19 - 24:24

der Farbe können wir beliebige Messwerte
anzeigen. Und wenn ich danach so farbige
24:24 - 24:28

Keywordlandschaften habe, dann können wir
sehen, ob es zwischen Thema und Messwert
24:28 - 24:32

einen Zusammenhang gibt und das machen wir
heute auch noch. Aber erstmal gucken wir
24:32 - 24:37

ein bisschen weiter rum, hier sind
verschiedene Flugzeugunglücke. Der
24:37 - 24:49

Themenkomplex befindet sich zwischen
Panorama - Grün und Politik - Rot. Wobei
24:49 - 24:52

die politischen Anteile von dem Flugzeug
kommen, das über der
24:52 - 25:00

Ukrainisch-Russischen Grenze abgeschossen
wurde. Jetzt versagt meine Singstimme.
25:00 - 25:07

So besser. So hier ist Griechenland-Krise.
Das ist offensichtloch ein Thema zwischen
25:07 - 25:11

Politik und Wirtschaft rot und wieder oker
und Wolfgang Schäuble ist da direkt mal
25:11 - 25:16

als Aufpasser dazu-layoutet worden.
Interessanterweise hat der keine Farbe,
25:16 - 25:19

der ist grau und das ist nicht
altersbedingt sondern das liegt daran,
25:19 - 25:23

das es im Keyword Wolfgang Schäuble kein
dominierendes Ressort gab und
25:23 - 25:25

jetzt machen wir mal was Topaktuelles.
25:25 - 25:28

Das ist die US-Wahl dieses Jahr.
Wir sehen Hillary Clinton
25:28 - 25:32

und Donald Trump und alles was da so drum
rum wimmelt und das ist offensichtlich
25:32 - 25:37

ein politisches Thema, es ist rot und man
beachte, wie hier das Keyword Emails
25:37 - 25:42

dazu-layoutet wurde. Und von hier aus
machen wir uns jetzt mal
25:42 - 25:44

die Größe der gesamten Landschaft klar.
25:44 - 25:47

Ich weiss nicht, wer heute
Morgen von euch in dem Vortrag über
25:47 - 25:51

Mikroskope war, da hat der Vortragende
immer und immer mehr reingezoomt, um klar
25:51 - 25:55

zu machen wie klein die Sachen sind und
wir machen das jetzt umgekehrt, wir wollen
25:55 - 25:59

darstellen wie riesig die Landkarte ist
und wir zoomen immer und immer mehr raus.
25:59 - 26:03

Wir haben raus-gezoomt. Der alte
Bildauschnit ist dick eingerahmt, damit
26:03 - 26:07

ihr seht wo der ist. Und wir sehen,
dass der US-Wahlkampf eingebettet ist
26:07 - 26:09

in größeren Landstrich der
Auslandspolitik.
26:09 - 26:12

Links sehen wir den Bürgerkrieg in Syrien
26:12 - 26:16

darüber der Islamische Staat und von da
geht es über den Islamistischen Terror
26:16 - 26:18

weiter nach Frankreich.
26:18 - 26:25

GelächterApplaus
26:25 - 26:32

Jaa, die Mathematik ist gnadenlos, ne.
Oben sind die aktuellen Türkei-Thematiken,
26:32 - 26:34

also das ist deren Putschversuch und
deren Demokratur
26:34 - 26:38

und rechts von der Mitte ist Russland
und der Ukraine Konflikt und
26:38 - 26:41

links unten ist Israel und der Nahost
26:41 - 26:47

Konflikt und wir zoomen nch weiter raus.
Hier ist nun die gesamte politische
26:47 - 26:51

Landschaft, diesmal haben wir mit zwei
Rechtecken markiert, wo wir herkommen wir
26:51 - 26:55

kommen, ursprünglich von der US-Wahl und
dann von der Auslandspolitik. Also die
26:55 - 26:59

Auslandspolitik ist oben rechts und unten
rechts ist der Inlandsteil und seit Neuem
26:59 - 27:03

gibt es nen riesigen Knubbel, der in der
Mitte, das ist die Flüchtlingsthematik,
27:03 - 27:07

die ist mittlerweile so groß, wie eine
eigene Unterrubrik und die ist als dritte
27:07 - 27:10

Kraft genau zwischen Ausland und Inland
etabliert, ja. Was ja auch genau passt.
27:10 - 27:16

Wir zoomen nochmal weiter raus. Ja, jetzt
kann man gar nichts mehr erkennne, außer
27:16 - 27:20

verschieden farbigen Landschaften. Ich sag
also mal, für eine grobe Orientierung,
27:20 - 27:23

hier kommen wir her, das rote ist der
Politikteil. Rechts darüber in
27:23 - 27:28

giftgrün das Panorama. Das wird
durchteilt von der Wirtschaft, die Kette
27:28 - 27:32

von türkisen Clustern entlang der
Unterseite des Hauptkontinentes ist die
27:32 - 27:37

Netzwelt. Blau im Osten ist der Kulturteil
und so weiter und so fort. Wir können
27:37 - 27:41

jetzt nicht alle durchgehen, ihr seht, die
Gebiete gehen noch ineinander über und
27:41 - 27:45

wir wissen jetzt fast, wie riesig diese
Landkarte ist, einmal rauszoomen haben wir
27:45 - 27:49

nämlich noch. Hier ist die große weite
Welt, ja den unteren Teil haben wir schon
27:49 - 27:54

grob kennengelernt, und hier sind wir
eigentlich her gekommen, und auf dem Rest
27:54 - 27:57

der Welt, etwas entrückt ist
die Wissenschaft, das ...
27:57 - 28:03

Gelächter im Saal
Applaus
28:06 - 28:10

Ich sehe, ihr könnt das nachvollziehen
und habt da auch mal gearbeitet.
28:10 - 28:11

Gelächter
28:11 - 28:14

Und ganz weit weg vom
Hauptkontinent ist der Sport.
28:14 - 28:14

Gelächter
28:14 - 28:19

So, und jetzt sehen wir erstmal, wie gross
das ist und wie breit der Spiegel angelegt
28:19 - 28:22

ist und diese riesige Landkarte gibts
übrigens bei mir auf der Website, da
28:22 - 28:25

könnt ihr auch selbst drin rumforschen,
wie in GoogleMaps, so drin rum scrollen,
28:25 - 28:29

das macht auch mehr Spaß als wenn ich das
hier nur vorkaue und darum gehts jetzt
28:29 - 28:33

auch weiter. Wir wenden die jetzt an. Ja,
Spiegel Online bietet unter sehr vielen
28:33 - 28:36

Artikeln an, ja, ähmm, ..
28:36 - 28:38

Publikum GemurmelGelächter
28:38 - 28:42

Ich, das Gelächter geht los, bevor ich
etwas gesagt habe. Ihr wisst doch gar
28:42 - 28:46

nicht, was ich sagen will, ne? Das man
seine eigene Meinung dazu äußern darf.
28:46 - 28:48

Publikum und David Gelächter
28:48 - 28:52

Und unter manchen Artikeln sperren sie
diese Funktion aber, ne,
28:52 - 28:53

einzelnes Gelächter
28:53 - 28:54

und das untersuchen wir jetzt mal,
28:54 - 28:58

Und ich hatte euch am Anfang des Vortrages
gesagt, das Artikel direkt nach nen paar
28:58 - 29:02

Minuten nach ihrem erscheinen von mir
abgerufen werden, also wenn ich sag, das
29:02 - 29:06

was nicht kommentiert werden darf, dann
war das sehr wahrscheinlich, direkt vom
29:06 - 29:08

Start weg so. So schnell
randaliert kein Mensch.
29:08 - 29:10

leichtes Gelächter im Publikum
29:10 - 29:14

Also, bevor wir jetzt ne Themenlandkarte
damit malen, schauen wir mal ganz kurz auf
29:14 - 29:18

die zeitliche Entwicklung, der
Kommentierbarkeit, und zwar einfach, damit
29:18 - 29:21

wir ne Orientierung haben. In dem Plot
sehen wir pro Kalenderwoche wieviel
29:21 - 29:26

Prozent der erschienen Artikel kommentiert
werden durften, und wieviele nicht.
29:26 - 29:30

In Rot sind die Nichtkomentierbaren und
Blau die Kommentierbaren und als ich 2014
29:30 - 29:34

angefangen habe runterzuladen, waren
erstmal ne ganze Zeit so 80 Prozent der
29:34 - 29:38

Artikel kommentierbar. Und genau seit dem
Zeitpunkt der großen
29:38 - 29:43

Flüchtlingsberichterstattung im Sommer
2015, ja, sinkt der (Graph) der Artikel
29:43 - 29:47

der kommentierbaren Nachrichten
kontinuierlich ab, und jetzt seit kurzem
29:47 - 29:51

ist wirklich die Mehrzahl der Artikel ohne
Kommentarfunktion, ne, dir rote Linie
29:51 - 29:55

überholt die Blaue, und die
Kommentierbarkeit wird übrigens nicht nur
29:55 - 30:00

im Politikressort weniger, das passiert
übergreifend in fast allen Ressorts und
30:00 - 30:03

ob seit dem der Hass im Netz irgendwie
themenübergreifend soviel schlimmer
30:03 - 30:07

geworden ist oder Spiegel-Online jetzt
einfach soviel Angst vor fiesen
30:07 - 30:11

Kommentaren hat, das kann ich aus denn
Zahlen nicht ablesen, das müsst ihr dann
30:11 - 30:16

für euch selbst entscheiden. Interessant
ist aber noch der kleine, grüne Plot im
30:16 - 30:20

Bild, ne , das sind auch nicht
kommentierbare Artikel. Aber bei denen
30:20 - 30:24

steht so ein kleiner Entschuldigungstext
dran, ja. Das hier die Kommentarfunktion
30:24 - 30:28

wegen der Netikette und so weiter gesperrt
ist. Ihr braucht das hier jetzt nicht
30:28 - 30:32

lesen, ich bring das nur zur Ansicht, und
diesen Entschuldigungstext haben sie zu
30:32 - 30:37

Anfang der Flüchtlingsberichterstattung
eingeführt und es scheint so, als war
30:37 - 30:40

Spiegel-Online da selbst ein bisschen
unwohl mit dem krassen Anstieg der
30:40 - 30:44

Kommentarsperrungen. Aber wie man am Plot
sieht, haben sie den Hinweis ganz flott
30:44 - 30:48

wieder aufgegeben, obwohl die
Kommentiermöglichkeiten immer und immer
30:48 - 30:53

mehr gesperrt werden. So und jetzt gehts
zur Landkarte. Wir färben ein Keyword
30:53 - 30:58

röter, wenn unterdurchschnittlich viele
Artikel darin kommentierbar sind und wir
30:58 - 31:01

färben ein Keyword eher blau, wenn das
Keyword überdurchschnittlich
31:01 - 31:05

kommentierbar ist. Graue Keywords
repräsentieren so den Durchschnitt, da
31:05 - 31:08

dann so 70 Prozent kommentierbar
und das gibt
31:08 - 31:11

natürlich auch alle Farben dazwischen.
Also wenn so'n Keyword wirklich
31:11 - 31:15

aufleuchtet, dann ist das irgendwo am Ende
der Skala oder am Anfang. Und die
31:15 - 31:19

Landkarte stell ich auch bald auf meine
Website, die jetzt kommt, da könnt ihr da
31:19 - 31:22

auch selbst drin rumklicken. So, und wir
fangen mal mit ein paar einfachen Sachen
31:22 - 31:27

an. Ja ihr ahnt es, Sport darf man quasi
komplett kommentieren, ja, knallblau. Und
31:27 - 31:31

falls ihr euch fragt, was der knallrote
Punkt da ist, das ist ein bestimmtes
31:31 - 31:35

Artikelformat, das ist technisch ohne
Kommentarfunktion. Sowas kommt schon mal
31:35 - 31:39

vor, ich sag nur, weil ich gleich sonst 13
mal die Frage kriege. Und wo man in der
31:39 - 31:43

Regel auch gut kommentieren darf, das sind
Wissenschaftsthemen und Wirtschaftsthemen
31:43 - 31:45

Hier sind die Bahnstreiks, ja.
31:45 - 31:49

Da darf nach Kräften auf die Bahn
eingekloppt werden.
31:49 - 31:50

Gelächter
31:50 - 31:56

Und wo wir schon von Streik reden, ist
bestimmt jeder hier im Raum in Gedanken,
31:56 - 32:02

bei der Lufthansa, die streiken ja als
Hauptkonzernaktivität. Alles blau, ja
32:02 - 32:03

Gelächer im Saal
32:03 - 32:06

Alles blau, auch die dürfen fiese
Kommentare abkriegen. Ich würd ja
32:06 - 32:09

mitlachen, aber ich bin mit dem Flugzeug
hier in Hamburg, ne
32:09 - 32:11

Gelächter im Saal
kleiner Applaus
32:11 - 32:16

So, nach dem ganzen blau. jetzt mal was
rotes. Knallrote Landschaft, ergibt sich
32:16 - 32:22

um die Justiz. Das sind Berichte über die
Kriminalität; Morde, Attentate, ja, "the
32:22 - 32:27

full packedge" und hier will man eher
weniger Lesekommentare, ja. So, die Justiz
32:27 - 32:33

hat so 30 Prozent Kommentierbarkeit von
den üblichen 70 Prozent. Hier ist die
32:33 - 32:38

ganze Geschichte rund um den NSU-Prozeß.
Der ist hier ja auch Thema. Tiefrot, ja,
32:38 - 32:42

generell auch alles, was mit Rechtsradikal
und Nazis und so zu tun hat, darf eher
32:42 - 32:46

wenig kommentiert werden und der
Kernknubbel hier, der hat so um die 18
32:46 - 32:53

Prozent, ja, ist also noch weniger als die
Justiz und die waren schon rot. Was auch
32:53 - 32:55

tiefrot ist, ist alles um die
Flüchtlingsthematik und zwar nicht nur
32:55 - 32:58

das Konkrete, sondern auch der
weitergefasste Rahmen, Asylrecht
32:58 - 33:03

und so weiter. Seht ihr sogar im Bild. Und
von Aussen sieht das aus, als sperrt der
33:03 - 33:09

Spiegel seine Kommentarfunktion komplett
systematisch und zwar nach Themen, Ja? Und
33:09 - 33:12

das wir sowas direkt visuell raus finden
können, das macht diese Landkarte so
33:12 - 33:16

unheimlich mächtig. Allgemein ist es in
der Data-Science nicht nur wichtig richtig
33:16 - 33:20

auszuwerten, es ist genauso wichtig, die
Informationen möglichst anschaulich
33:20 - 33:23

visuell aufzubereiten. So können dann
nämlich auch Leute, die keine
33:23 - 33:27

Informatiker sind, sofort komplexe
Zusammenhänge erkennen. Es gibt ja nur
33:27 - 33:32

eine Breitbandverbindung ins Gehirn und
das sind die Augen. Richtig interessant
33:32 - 33:37

wirds, wenn man mal guckt, wie
Spiegel-Online die Kommentierbarkeit hart
33:37 - 33:43

national ordnet. Das hier ist der ganze
Nahost-Konflikt, um Israel, ja, wie ihr an
33:43 - 33:48

dem satten Rot seht, zum Nahostkonflikt
und Israel hat man bei fast allen Artikeln
33:48 - 33:54

die Klappe zu halten. So und jetzt
schwenken wir mal vom Nahost-Konflikt zum
33:54 - 33:58

Ukraine-Konflikt. Ja lächelt seufzend
33:58 - 34:03

akustische Aufruhr im Publikum
Einzelapplaus
34:03 - 34:04

Ja.
34:04 - 34:06

Applaus
34:06 - 34:10

Also. Ihr könnt euch mit nach Hause
nehmen. Meine Damen und Herren:
34:10 - 34:12

Russen bashen ist OK.
34:12 - 34:13

Gelächter im Publikum
34:13 - 34:16

Ja, was wir hier - Live und in Farbe -
sichtbar gemacht haben, ist nichts anderes
34:16 - 34:21

als unsere westliche Filterbuble. Die kann
man messen. Zum Iran darf man seinen Senf
34:21 - 34:27

dazugeben, zu Großbritanien auch. Zur
Türkei, da ist Spiegel-Online sich noch
34:27 - 34:28

nicht ganz sicher.
34:28 - 34:29

Gelächter
34:29 - 34:34

Und Frankreich ist interessant, diese
Region der Landkarte, die möchte
34:34 - 34:39

eigentlich blau sein aber die ganzen
Keywords rund um die Terrorserie dort, die
34:39 - 34:42

sind knallrot und die strahlen in die
Nachbarn aus und das schauen wir uns jetzt
34:42 - 34:47

doch mal ein bisschen genauer an, Das sind
alles Frankreichartikel aber nach Zeit.
34:47 - 34:52

Die blaue Linie ist das Aufkommen der
kommentierbaren Artikel, die rote Linie
34:52 - 34:56

wieder das Aufkommen der
Nichtkommentierbaren und wir sehen: wie
34:56 - 35:01

Frankreich von 2014 bis 2015 erstmal
überwiegend kommentierbar ist und die
35:01 - 35:06

blaue Linie ist über der roten, und hier
ist die Terrorserie in Paris im November
35:06 - 35:12

2015 und es wird plötzlich enorm viel
berichtet. Also sehen wir ne krasse Spitze
35:12 - 35:18

am Frankreichartikeln, ne, und davon sind
die Meisten nicht kommentierbar. Also:
35:18 - 35:20

Frankreich an sich dürft ihr gerne
kommentieren aber bezüglich der
35:20 - 35:26

Anschläge dort bitte nicht. Und das
Interessante ist, der Effekt wirkt fort,
35:26 - 35:30

Seit der Terrorserie ist Frankreich
generell nicht mehr so kommentierbar. Die
35:30 - 35:35

rote Linie ist meist über der Blauen. Und
jetzt tretten wir wieder einen Schritt
35:35 - 35:41

zurück. Und natürlich sehe ich auch, das
der Spiegel Themenbereiche aufgrund der
35:41 - 35:44

Erfahrungen in der Verasngenheit sperren
kann. Und generell müssen wir auch
35:44 - 35:48

zugeben, das ist das gute Recht von
Spiegel-Online zu entscheiden, wo und in
35:48 - 35:52

welcher Form sie Anderen auf ihrer Seite
ne Plattform geben und wo sie das eben
35:52 - 35:56

nicht tun. Aber genauso ist es auch unser
gutes Recht diese Systematik hier mal
35:56 - 36:01

sichtbar zu machen. Und ich denke, das
sieht insgesamt so aus als verböte
36:01 - 36:06

Spiegel-Online genau zu denjeniegen Themen
die Kommentierung, bei denen zu erwarten
36:06 - 36:13

ist, das die Meinungen der Leser politisch
nicht opportun sind. Ob das jetzt etwas
36:13 - 36:16

über Spiegel-Online aussagt oder über
seine Leser oder irgendwie ein
36:16 - 36:20

gesamtgesellschaftliches Problem ist, das
müsst ihr dann wieder selbst entscheiden.
36:20 - 36:27

Was die Auswertung angeht, haben wir den
Vortrag bis jetzt im Grunde zweigeteilt.
36:27 - 36:34

Am Anfang haben wir die Artikelsammlung in
nur wenige Töpfe unterteilt, und danach
36:34 - 36:38

haben wir die Artikelsammlung in viel mehr
Töpfe unterteilt, das sind die wenigen,
36:38 - 36:42

jeder Artikel konnte sogar in mehreren
Töpfen sein. Ne, das war ja so? Wenn nen
36:42 - 36:46

Artikel mehrere Keywords hatte, dann war
er auch in mehreren Töpfen. Und das war
36:46 - 36:51

ne viel komplexere, aber auch viel
mächtigere Art der Unterteilung. Und
36:51 - 36:55

jetzt merkt ihr euch diese beiden Arten
der Unterteilung mal kurz und damit machen
36:55 - 37:00

wir was politisches, wir gehen über zum
Thema Wahlkampf. Ja, Wahlkämpfe
37:00 - 37:04

funktionieren grob so, das man die Menge
aller Wähler auseinander schneidet,
37:04 - 37:08

wie wir unsere Artikel auseinander
geschnitten haben. Das heißt dann 'Voter
37:08 - 37:15

Targeting'. Und bei der US-Wahl konnte man
z.B. sagen man schneidet die Wähler grob
37:15 - 37:19

nach Geschlecht, Hautfarbe, Alter und
Gehalt. Das wird dann in der Tat auch so
37:19 - 37:23

gemacht. Dann könnte man sozusagen allen
schwarzen Frauen in Kalifonien, die
37:23 - 37:28

zuwischen 30 und 40 sind und über 60.000
Dollar im Jahr verdienen, zugeschnittene
37:28 - 37:34

Wahlwerbung schicken. Und das ist ne
relativ grobe Art der Unterteilung und die
37:34 - 37:38

ist sozusagen analog zu unseren groben
Unterteilungen hier, auf der linken Seite
37:38 - 37:51

der Folie. Aber was wäre dann die rechte
Seite? Vor einiger Zeit hat dieser Artikel
37:51 - 37:55

des Schweizer Tagesanzeiger die Runde
gemacht. Ich bin sicher viele von euch
37:55 - 38:01

kennen den, der ging ziemlich durchs Netz,
der wurde am Tag 13 mal als Lesebefehl
38:01 - 38:04

geschickt, und so weiter und so fort. Also
ich glaube, ich habe den bestimmt 50 mal
38:04 - 38:09

bekommen, weil ich mich halt auch mit dem
Maschinen-Learning auseinandersetze.
38:09 - 38:14

Und in dem Artikel steht im Grunde, das ne
Datenanalysefirma es geschafft habe, eine
38:14 - 38:19

extrem feine Unterteilung von Wählern
hinzukriegen. Das wäre, sozusagen, analog
38:19 - 38:23

zu unserer sehr mächtigen
Themenlandkarte. Und in dem Artikel steht
38:23 - 38:28

weiter, das hätte diese Firma sowohl für
die Präsidentschaftswahl, als auch für
38:28 - 38:33

das Brexit-Referendum gemacht. Und es
wurde dann behauptet, deswegen wäre Trump
38:33 - 38:39

gewählt worden und deswegen wäre der
Brexit durchgekommen. Das ist natürlich
38:39 - 38:43

spooky. Und das verkauft sich gut. Ja -
uijuijuijuijui - Die selbe Firma hinter
38:43 - 38:49

Trump und hinter dem Brexit, ja, da glüht
der Aluhut, wirklich.
38:49 - 38:54

Gelächter
Applaus
38:54 - 39:02

Und die sagen, ihre Unterteilung der
Wählerschaft sei so fein, das man jedem
39:02 - 39:07

Wähler seine genau passende Wahlwerbung
schicken könnte. Und sie sagen nicht nur
39:07 - 39:10

das, sie sagen sie können das sogar noch
genauer, sie können sogar den
39:10 - 39:15

Gesprächston treffen, so dass der Wähler
wahrscheinlich drauf hört. Generell
39:15 - 39:19

würde ich sagen, ne, tiefer hängen.
Es ist überhaupt nicht klar, was die
39:19 - 39:24

Firma den beiden Wahlkämpfen überhaupt
wirklich gebracht hat. Die Infos kommen im
39:24 - 39:28

wesentlich nämlich von der Firma selbst
und ich glaube, ehrlich gesagt ja, da hat
39:28 - 39:32

die Firma einen hervorragenden Vertriebler
geschickt und der hat dann wirklich der
39:32 - 39:38

Presse einen brillianten Vortrag gehalten
und die Presse hat's dann einfach gekauft.
39:38 - 39:42

So und die Kernaussage ist doch nur: Ihr
könnt jetzt Wahlwerbung bekommen, oder
39:42 - 39:46

Werbung im Allgemeinen, die extrem
genau auf euch zugeschnitten ist und euch
39:46 - 39:52

so effizienter zu Dingen verleitet. Mit
anderen Worten: Endlich kriegen nur noch
39:52 - 39:55

diejenigen Viagra-Spam, die das Produkt
auch wirklich benötigen.
39:55 - 39:57

Das ist ja zunächst mal nicht schlimm.
39:57 - 39:58

verhaltendes Gelächter
39:58 - 40:02

Ja, Aber kaufen und eben wählen, das
müssen die Leute schon noch selbst, es
40:02 - 40:05

ist nicht so das BigData die Leute
fernsteuert. Das müssen wir schon
40:05 - 40:10

festhalten, also man könnte sagen: Wer
vor so zielgerichteter Werbung Angst hat,
40:10 - 40:14

der sollte vielleicht die eigene
Urteilsfähigkeit hinterfragen.
40:14 - 40:19

Applaus
40:20 - 40:26

Ja. Ja. Bestimmt haben auch ein paar von
euch diesen Gedankengang gehabt und an der
40:26 - 40:31

Stelle hat ich keinen Applaus erwartet.
Sich selbst haben sie sich ein
40:31 - 40:34

bisschen bruhigt, mit diesem Gedankengang.
Das Problem ist nur, ich glaube,
40:34 - 40:39

die eigene Urteilsfähigkeit hinterfragen,
das macht kaum einer. In der Realität
40:39 - 40:43

wählen die Leute doch irgendwie
denjenigen, der ihnen am meisten, am
40:43 - 40:48

emotional passensten, kurz vor der Wahl
was zubrüllt. Ja. Und so laufen Wahlen.
40:48 - 40:52

Das ist ja auch politisch so gewollt, Wo
kämen wir auch hin, wenn Wahlen irgendwie
40:52 - 40:55

langfristigen Erfolg belohnen würden, ne.
40:55 - 40:56

verhaltendes Lachen
40:56 - 41:01

Und dieses emotionale Zurufen und das geht
mit so höchst personalisierter Werbung
41:01 - 41:08

urplötzlich, unglaublich effizient. Und
das bedeutet, ja, Data-Science-Techniken
41:08 - 41:13

können Wahlen beeinflussen. Ja vorhin
hatte ich die Voratsdatenspeicherung
41:13 - 41:18

angeprangert ja ich bin ja auf dem CCC,
also vermute ich, dass die Meisten von
41:18 - 41:22

von mit mir einer Meinung waren. Und damit
kommen wir genau zum Punkt; Wisst ihr, was
41:22 - 41:26

die Firma aus dem Artikel genommen hat, um
die Wähler so ultragenau zu vermessen?
41:26 - 41:30

Das waren überhaupt gar keinen
staatlichen Überwachungsdaten, das waren
41:30 - 41:35

Facebook-Likes. Also Daten, die die Leute
selbst über sich ins Netz gestellt
41:35 - 41:39

hatten, ne. Und es ist wichtig mit
staatlicher Überwachung kritisch zu sein.
41:39 - 41:43

Ja das dürfen wir und das müssen wir
auch, wenn wir kein Unrechtsstaat werden
41:43 - 41:47

wollen. Aber wenn wir dann gleichzeitig
völlig unkritisch sind mit uns selbst,
41:47 - 41:53

ja, und wirklich jeden Mist ins Facebook
oder ähnliche Plattformen pumpen, ja,
41:53 - 41:55

dann haben wir nichts gewonnen.
41:56 - 42:06

Applaus
42:06 - 42:11

Mein Vortrag neigt sich dem Ende zu. Es
kommen jetzt noch zwei Sachen: eine kleine
42:11 - 42:17

Überraschung und dann habe ich noch ne
Bitte an euch alle. Und zuerst gibt es die
42:17 - 42:23

Überraschung. Ja, habe ich vorhin gesagt,
ich hätte 100.000 Artikel von
42:23 - 42:28

Spiegel-Online geladen?
Ich meinte über 700.000
42:28 - 42:32

Applaus
42:32 - 42:37

Ne, ich lade jeden Artikel nicht nur
einmal runter, wenn er erscheint somdern
42:37 - 42:40

mehrfach in wachsenden Zeitabständen.
Und mit anderen Worten, wir können messen,
42:40 - 42:43

was in Artikeln geändert wurde.
42:43 - 42:50

Gelächter
Applaus
42:50 - 42:54

So und aus Zeitgründen, gibts damit keine
riesen Auswertung. Erstens aus
42:54 - 42:58

Zeitgründen hier im Vortrag aber auch
zweitens aus persönlichen Zeitgründen ne,
42:58 - 43:02

ich muss irgendwann auch nochmal arbeiten.
Aber wir haben ne kleine Demo.
43:02 - 43:07

Ich hab zum Beispiel mal geguckt, ob
Titel geändert werden, ne.
43:07 - 43:11

Und bei sowas findet man einfach lustige
Sachen. Es gibt nicht nur den Titel,
43:11 - 43:12

der hier offensichtlich ist.
43:12 - 43:16

Sondern es gibt auch zusätzlich den
Html-Titel, die Techniker unter euch
43:16 - 43:21

kennen den. Der wird oben im Browser
angezeigt und auch die Html-Titel erfasse
43:21 - 43:27

ich natürlich. So und am 21.Januar -
wobei der hier sichtbare Artikel ist am
43:27 - 43:32

20. Januar 2015 rausgekommen - und am
21.Januar und das war einen Tag nachdem
43:32 - 43:37

der Artikel erschienen war, wurde mir
angezeigt: Der Html-Titel hat sich
43:37 - 43:43

geändert aus "SAP wächst 2014 langsamer
als geplant." Ich hab mich dann gefragt:
43:43 - 43:48

He, warum wurde er denn geändert, ja also
wie war der vorher. Ganz einfach: Als der
43:48 - 43:54

Artikel rauskam, wuchs nähmlich nicht SAP
sondern der SAP-Chef
43:54 - 43:56

wuchs langsamer als geplant.
43:56 - 43:58

Gelächter
43:58 - 44:00

Sowas finde ich an sich ganz sympatisch,
44:00 - 44:02

Gelächter
44:02 - 44:06

denn es zeigt, das bei Spiegel Online noch
Menschen an den Texten sitzen und keine
44:06 - 44:11

Computer und im Moment heisst der Artikel
übrigens: SAP kann Wachstums- und
44:11 - 44:15

Gewinnziele nicht erfüllen. Also das hat
nochmal irgendwem nicht gefallen, ne. Und
44:15 - 44:19

irgendwann zwischendurch haben sie es
nochmal geändert. Also, jetzt wisst ihr
44:19 - 44:22

erst, wie mächtig der Datensatz
tatsächlich ist. Ich hab von jedem
44:22 - 44:26

Artikel diverse zeitlich versetzte
Versionen und das erlaubt natürlich viel,
44:26 - 44:30

viel krassere Auswertungen und damit fang
ich aber selbst erst an und deswegen ist
44:30 - 44:33

heute noch so wenig davon im Vortrag, aber
das war meine Überraschung und jetzt
44:33 - 44:39

kommt meine Bitte. Ihr habt jetzt alles
mögliche gesehen und wir haben Artikel
44:39 - 44:44

auf einfach und komplexe Weise unterteilt.
Wir haben gesehen, das verschiedene
44:44 - 44:47

Arten der Unterteilung und Darstellung
verschieden mächtig sind und wir haben
44:47 - 44:51

verschiedenste Features aus den Artikeln
gelesen: Rubrik, Zeiten, Kommentierbarkeit
44:51 - 44:57

Autor. Jede Menge weiterer Features sind
denkbar. Auch kompliziertere Features ja.
44:57 - 45:01

Man könnte zum Bsp für jeden Artikel die
darin enthaltenden Links raus ziehen und
45:01 - 45:05

dann gucken, ob bestimmte Autoren Kumpels
haben, auf die sie oft verlinken.
45:05 - 45:09

Der Fantasie sind wirklich keine Grenzen
gesetzt. Und zum Schluss haben wir sogar
45:09 - 45:15

gesehen, wir können für jeden Artikel
messen, was verändert wurde, ne.
45:15 - 45:20

Wir können z.B. gucken, wo die Leser am
meisten randalieren. Da guckt man, indem
45:20 - 45:23

man guckt, wo die Kommentarfunktionen erst
geöffnet und später dann geschlossen
45:23 - 45:29

sind. Also meine Bitte an euch, jeder der
hier zuguckt, schickt mir bitte einen Mail
45:29 - 45:35

mit seinem kreativsten Auswertungsideen
für den Datensatz. Und in dem
45:35 - 45:37

Zusammenhang hab ich noch ne Message, die
ihr euch auch mitnehmen könnt. Wenn ihr
45:37 - 45:41

was im Bereich der Data-Science macht,
Rohdaten sind geil.
45:41 - 45:54

Gelächer
Applaus
45:54 - 45:58

Behaltet immer alle Rohdaten, wenn ihr es
irgendwie vom Speicher bezahlen könnt.
45:58 - 46:02

Ne, dann könnt ihr nämlich im nachhinein
alles mögliche tun. Ich hab alle Rohdaten
46:02 - 46:05

komplett da. Das sind über 60 GB
pures HTML.
46:05 - 46:06

Gelächter
46:07 - 46:11

Und neue Features im nachhinein dazu
auswerten, ist deswegen überhaupt
46:11 - 46:14

kein Problem. Darum bitte, bitte, lasst
eurer Fantasie freien Lauf. Erfindet neue
46:14 - 46:18

Features, erfindet wonach die ausgewertet
werden sollen. Schickt mir einfach, was
46:18 - 46:22

ihr euch denkt, ja. Vieleicht ist nicht
alles, was ihr wollt möglich und
46:22 - 46:25

vielleicht schau ich auch nicht alles
sofort. Ich bin ja auch berufstätig und
46:25 - 46:29

zum Jahresanfang werde ich stramm
eingespannt sein Aber ich versuch was
46:29 - 46:34

möglich zu machen. Also einfach
einschicken. Seit kreativ. Und damit
46:34 - 46:38

bleibts mir nur noch, ein dickes
Dankeschömn zu sagen dafür das ihr diese
46:38 - 46:42

Stunde mit mir verbracht habt.
Hier sind noch die Links. Und bis dann.
46:42 - 47:02

Applaus
JubelApplaus
47:02 - 47:06

Herald: Ganz so schell wirst du
natürlich noch nicht entlassen, weil wir
47:06 - 47:11

haben noch unsere Fragerunde. Erstmal
herzlichen Dank, immer schön zu sehen,
47:11 - 47:15

wie die Mathematik doch spannend sein
kann, um eben solche Daten zu analysieren.
47:15 - 47:24

Und ja, wie immer, wenn ihr Fragen habt,
tretet vor zu den Mikrofonen. Und alle die
47:24 - 47:30

schnell, ich glaube nebenan startet der
Jahresrückblick mit Fefe oder
47:30 - 47:33

David Kreisel: Ne der Fefe sitzt da vorne
im Publikum.
47:33 - 47:41

Herald: Ach ja, der sitzt noch hier. So
schnell wird er dann drüben noch nicht
47:41 - 47:47

starten, vielleicht wollen die schon mal
einen Platz. Genau. .... Wo haben wir
47:47 - 47:49

Fragen, an Mikro 3, beginnen wir dort:
47:49 - 47:55

Mik 3: Hi, super Vortrag, fand ich echt
Klasse. Was mich mal interessieren würde:
47:55 - 47:58

Hast du mal geguckt, ob die Split testen
und die Artikel-Überschriften ändern
47:58 - 48:01

anhand von wieviel Leute drauf klicken
oder sowas?
48:01 - 48:05

David: Ja das würde man messen daran,
wie viele verschiedene Titel man so findet
48:05 - 48:09

und wenn diese Zahl der durchschnittlichen
Titel pro Artikel ansteigt, dann passiert
48:09 - 48:15

das und wenn ich das richtig interpretiere
dann testen sie das gerade. Also es ist
48:15 - 48:18

noch nicht übergreifend, es ist immer nur
so stossweise, vielleicht will mich auch
48:18 - 48:22

einer korrigieren von Spiegel Online, aber
so wie meine Daten aussehen, ja hab ich
48:22 - 48:27

getestet, sie versuchen es gerade. Also
was ist Splittesten? Vieleicht mal fürs
48:27 - 48:31

Publikum. Man veröffentlicht Artikel mit
verschiedenen Titeln und dann guckt man,
48:31 - 48:34

wo am meisten Leute klicken, bei welchem
Titel und der Titel darf dann weiter
48:34 - 48:39

leben. Ihr verändert also durch euren
Besuch direkt die Nachrichtenseite.
48:39 - 48:46

Mikro 1: Ja hi. Ich wollte fragen, ob du
auch Spiegel-plus Artikel, die es ja seit
48:46 - 48:50

Mitte diesen Jahres, glaube ich, gibt mit
einbezogen hast und wenn ja, hast du einen
48:50 - 48:51

plus Account?
48:51 - 48:52

David: Äh, ja.
48:52 - 48:54

leichtes Gelächter im Publikum
48:54 - 48:58

Ich habe die mit einbezogen, ähm, und
natürlich habe ich auch einen
48:58 - 49:00

plus-Account, der das vollautomatisch
entschlüsselt,
49:00 - 49:01

räusper
49:01 - 49:02

und dazu also
49:02 - 49:03

Gelächter
49:03 - 49:06

wenn einer Näheres - Ich hab mich da
wahnsinnig geärgert - kurz - als die
49:06 - 49:10

plus-Artikel rauskamen, weil ich die
nicht auf Anhieb de-krypten konnte.
49:10 - 49:12

Und dazu gibts jetzt bei mir einen
Blogartikel, seitdem,
49:12 - 49:15

wie man die de-kryptet.
49:15 - 49:19

Applaus
49:19 - 49:23

Ich muss übrigens mal was Positives
sagen, die Spiegel plus Artikel sind im
49:23 - 49:26

Median 1100 Worte lang, also man muss
schon sagen,
49:26 - 49:27

da kriegt ihr auch was fürs Geld.
49:27 - 49:30

leichtes Gelächterleichter Applaus
49:30 - 49:40

Mikro 7: Hast du im Rahmen deiner Analysen
auch auf die Inhalte geguckt, das du
49:40 - 49:46

vielleicht die Worthäufigkeit analysiert
hast und die Zuordnung zu Ressorts oder zu
49:46 - 49:51

Schlagworten anhand der Inhalte
abgeglichen hast, um vielleicht raus
49:51 - 49:55

zufinden, ob die Verschlagwortung
vollständig oder richtig ist.
49:55 - 49:59

David: Ne hab ich noch nicht gemacht. Man
kann ja die Schlagworte nehmen und da hab
49:59 - 50:02

ich es mir bequem gemacht oder man
versucht jetzt ne Analyse zu machen, was
50:02 - 50:05

die relevanten Worte im Artikel sind und
das hab ich noch nicht gemacht, Das wären
50:05 - 50:08

dann sozusagen die schöneren Schlagworte.
Aber ne, hab ich noch nicht gemacht.
50:08 - 50:12

Herald -Frage aus dem Internet:
50:12 - 50:16

Signal Angel: IRC möchte wissen, welche
Software du benutzt hast, um die Daten zu
50:16 - 50:20

sammeln. zu analysieren, zu visualisieren
und ob es
50:20 - 50:21

die Daten irgendwo gibt, außer bei dir.
50:21 - 50:24

David: OK. Nein gibts noch nicht, irgendwo
außer bei mir, weil ich mir auch gar
50:24 - 50:31

nicht sicher bin, ob ich die verteilen
darf. Ich benutze den Python Data Stack
50:31 - 50:35

und die Software zum runterladen hab ich
mir selbst geschrieben, die läuft auf
50:35 - 50:41

einem meiner Server und darüberhinaus
nutze ich Pandas für die Analyse, das ist
50:41 - 50:44

auf Python aufbauend und dann diese ganze
MaschinLearning Sachen da drüber
50:44 - 50:49

scikit-learn. Also den ganzen Py DataStack
googelt danach einfach, da findet ihr viel
50:49 - 50:52

und zum Visualisieren hab ich hier Tableau
genommen, das ist ne
50:52 - 50:57

Visualisierungssoftware. Die schon
voragregierte und vorerechnete Daten bis
50:57 - 51:00

zu ein paar GigaByte ganz gut verkraftet
und da kann man sehr schnell schöne
51:00 - 51:05

Visualisierungen draus ziehen und zum
51:05 - 51:06

Visualisieren der Graphen hab ich Gephi
genommen.
51:06 - 51:13

Mikro 4: Hast du Daten Real-Time
analysiert oder
51:13 - 51:14

alles im nachhinein gemacht?
51:14 - 51:16

David: Ich versteh die Frage nicht.
51:16 - 51:20

Mirko: Ob du die Daten während du sie
gesammelt hast analysiert hast?
51:20 - 51:23

David: Ach so, ne. Das wird alles
rohdatenmäßig gesammelt, dann wird das
51:23 - 51:29

im weiteren Schritt erst mal, werden die
Rohfeatures rausge-parsed und das sind dann
51:29 - 51:32

so wenige, das sie in der Tat dann in
einen RAM passen und ich dann darauf
51:32 - 51:36

weitere High-Level Feature machen kann.
Das passiert so in 3 Layern. Also es ist
51:36 - 51:41

nicht direkt dabei aber während wir hier
gesprochen haben, ist schon wieder 10 mal
51:41 - 51:44

runter geladen worden. Insofern ist das
schon gleichzeitig zum Runterladen.
51:44 - 51:49

Das Runterladen geht weiter.
51:49 - 51:54

Mikro 3: Eine Idee für die Auswertung: Du
könntest mal gucken, ob bestimmte
51:54 - 51:57

Wortgruppen in älteren Artikeln nochmal
vorkamen, um zu sehen welche zusammen
51:57 - 51:58

kopiert wurden.
51:58 - 52:03

David: Du meinst, ja ja , so ne Auswertung
im Sinne von: In jedem Artikel kriegt ihr
52:03 - 52:07

durchschnittlich 73 Prozent neuen Content
quasi, ja?
52:07 - 52:09

Gelächter
52:09 - 52:10

Mikro: Ja
52:10 - 52:12

David: Guter Punkt
52:12 - 52:13

Applaus
52:13 - 52:15

David: Machen wir so.
52:17 - 52:23

Mikro: Hallo, ich wollte nur kurz einen
Denkanstoss geben, ich formuliere das mal
52:23 - 52:28

als Frage. Könnte es sein, das diese
Nichtkommentierbarkeit von Israel-Artikeln
52:28 - 52:32

auch einfach ein Ressourcen-Problem ist,
weil es da vielleicht mehr aus
52:32 - 52:36

juristischen Gründen zu zensieren gibt
für die Redaktion?
52:36 - 52:38

David: Das kann selbstverständlich sein.
Ja natürlich.
52:38 - 52:41

Mikro: Z.B. gibt es ja durchaus
Sigularitäten mit dem deutschen
52:41 - 52:43

Strafrecht, das man bestimmte Sachen
nicht sagen darf.
52:43 - 52:49

David: Ja. Also, hätte es nur Israel
erwischt, hätte ich das auch sofort auch
52:49 - 52:52

gedacht. Aber ja kann natürlich sein.
Das ist auch so ganz wichtig an so
52:52 - 52:55

Data-Science, ich hab das hier jetzt
teilweise bisschen ketzerisch vorgetragen
52:55 - 52:58

aber natürlich müsst ihr schon selbst
nochmal gucken, was ihr aus den Daten
52:58 - 53:02

folgert. Ja natürlich, das kann sein. Am
besten wissen das natürlich nur die
53:02 - 53:06

Spiegelleute. Aber Israel war ja nicht der
einzige Punkt der nichtkommentierbar war
53:06 - 53:13

und zur reinen Justiz gibt es keine
Singularität im deutschen Strafrecht.
53:13 - 53:18

Mikro 6: Hallo David, vielen Dank für den
Talk. Hast du überlegt die Software
53:18 - 53:22

irgendwie Open Source anzubieten , so
dass man sie z.B. für
53:22 - 53:25

andere Quellen anpassen kann. Tagesschau
etc.
53:25 - 53:30

David: Hab ich nicht überlegt. Aber
ehrlich gesagt, so aufwendig ist es auch
53:30 - 53:36

nicht. Ihr schreibt euch nen Script, was
euch alle paar Minuten mal losläuft und
53:36 - 53:41

die Artikel runter lädt und das
speicherst in einer Datenbank fertig. Also
53:41 - 53:45

das Open Source, ist das uninteressanteste
was es gibt. Ddas findet ihr in 1000
53:45 - 53:49

Varianten sauberer als ich das gemacht hab
nochmal, glaube ich. Aber ja, man könnte
53:49 - 53:52

mal eine Vergleichsauswertung mit anderen
Medien starten, ja.
53:52 - 53:58

Mikro 1: Wie hast du den Strain aus deiner
Karte entfernt, du hast da ne ganze Menge
53:58 - 54:00

Dimensionen auf zwei Dimensionen runter
gebrochen ..
54:00 - 54:02

David: Den was aus meiner Karte entfernt?
54:02 - 54:04

Mikro: Die Spannung, weil du hast ja sehr
54:04 - 54:07

viel Dimensionen auf zwei Dimensionen
reduziert ...
54:07 - 54:07

David: Ja,
54:07 - 54:09

Mikro: .. und wie hast du sichergestellt,
das jetzt nicht Inseln bei einander sind,
54:09 - 54:12

die gar nicht zusammen gehören oder
manche anderen nicht beieinander sind,
54:12 - 54:15

die aufgrund von Inseln, die dazwischen
liegen nicht nah genug zueinander kamen.
54:15 - 54:18

David: In der Theorie kann man das nie
ausschliessen, aber in dem Graoh steckt
54:18 - 54:22

sehr viel Verfahren drin. Also ich hab
zunächst mal zugesehen, das ich
54:22 - 54:25

überhaupt nur die wichtigen Kanten pro
Knoten behalte, sonst hat man wirklich
54:25 - 54:30

viel zu viele Kanten und dann gibts da
professionelle Graph-Layouting-Verfahren
54:30 - 54:34

für, also Gephi bietet was, das heißt
VsAtlas 2 und das war das, was ihr in den
54:34 - 54:38

hübschen Video gesehen habt, damit geht
das sehr gut, Also du must das natürlich
54:38 - 54:43

ein bisschen Schmakes da rein investieren,
wie du die Kanten vorher ausfilters und
54:43 - 54:47

dann, dann bist du immer noch nicht sicher
in der Theorie, aber dann siehst ja, ob
54:47 - 54:50

das Bild gut wird oder nicht.
54:50 - 54:55

Mikro 2: Du meintest, du warst im Oktober
beim Spiegel, wie war den deren Reaktion
54:55 - 54:57

zu deinen Analysen?
54:57 - 55:01

David: Positiv, also, ob das jetzt nur
daran lag, dass die sowieso nichts dagegen
55:01 - 55:04

tun können, weiss ich nicht,
aber ehrlich gesagt,
55:04 - 55:05

Gelächter
55:05 - 55:08

hab ich das als sehr positiv und
interessiert wargenommen und auch ich hab
55:08 - 55:13

was gelernt und das war eigentlich einen
ziemlich cooler Termin, also sportlicher
55:13 - 55:17

als die Kollegen bei Xerox sag ich mal.
55:17 - 55:23

großes GelächterApplaus
55:23 - 55:34

Mikro: Ist vielleicht ne Suggestivfrage,
vielleicht auch in Richtung, wie man
55:34 - 55:43

weiterforschen könnte. Das Verfahren, das
du benutzt hast, um die thematische Nähe
55:43 - 55:47

verschiedener Tags zueinander zu
bestimmen, wäre es mathematisch
55:47 - 55:49

ACHTUNG: Mathematiker-Kauderwelsh ..
55:49 - 55:52

nicht korrekter, wenn du eine singuläre
Zerlegung der Adjazentmatrix
55:52 - 55:55

dieser Schlagworte baust,
ähnlich wie Google Page Rank
55:55 - 55:56

das gemacht hat.
55:56 - 56:02

David: Ja. Aber dann kann man nicht so
einen schönen Graphen draus basteln und
56:02 - 56:06

es kommt wahrscheinlich was ähnliches
raus, sein wir ehrlich. Ich sehe ja die
56:06 - 56:09

Werte der Kanten und wahrscheinlich ist es
am Ende das Selbe.
56:09 - 56:16

Mikro: Ja wenn du genug Dimensionen
benutzt ist es äquivalent.
56:19 - 56:22

David: Ja.
Alles ist still, Mensch.
56:22 - 56:26

Mikro 3: Nochmal kurz zu den Landkarten,
das sind irgendwelche
56:26 - 56:28

MonteCarlo Methoden diese Springs ...
56:28 - 56:29

David: Ja
56:29 - 56:34

Mikro: ... im Endeffekt positionieren, wie
stabil sind die?
56:34 - 56:38

David: Ich denke, ich hab mich da in die
Theorie nicht eingearbeitet weiter, es
56:38 - 56:41

würde mich wundern, wenn du da ne
Stabilität drüber nachweisen könntest.
56:41 - 56:45

"Fest steht, sie sind etabliert für
große Graphen." weil da ist sowieso nix
56:45 - 56:50

mehr zu planarisieren in der Größe und
dann sieht man halt zu zu iterieren bis es
56:50 - 56:54

stimmt und wenn es schlecht aussieht, dann
drückt man nochmal auf den Startknopf.
56:54 - 56:57

Also so ist wirklich die Praxis.
56:58 - 57:03

Mikro: Hallo. Hast du mal Markov auf deine
Daten geworfen,
57:03 - 57:05

um Spiegelartikel zu generieren.
57:05 - 57:07

GelächterApplaus
57:07 - 57:09

David: Nein! Könntest du mir bitte damit
eine Email schicken?
57:09 - 57:12

Gekiecher und Gelächter im Saal
Mikro: Sehr gerne.
57:12 - 57:14

David: Oh wir haben Spaß, ich seh das
schon ..
57:14 - 57:17

GelächterApplaus
57:17 - 57:25

D: Da machen wir aber nicht nur die
Artikel Generierung sondern dann wird
57:25 - 57:29

bitte auch direkt dazu generiert, zu
welchem Thema kommentiert werden darf
57:29 - 57:31

und zu welchen nicht, ne ...
57:31 - 57:32

vereinzeltes Gelächter
Ruf aus dem Publikum: Autoren generieren
57:32 - 57:35

David: Autoren generieren, das ist auch
schön, ja.
57:35 - 57:37

Gelächter
57:37 - 57:45

Herald: So wir sind auch am Ende unserer
Zeit. Wer noch Fragen hat, du bist sicher
57:45 - 57:46

gleich noch ...
57:46 - 57:50

David: Ich geh hier jetzt da raus, zur
nächsten Bierbar, die da ist, falls die
57:50 - 57:57

nicht vor Saal 2 ist, ist die vor Saal 1
dann bin ich da.
57:57 - 57:59

Wir machen jetzt DDos auf
die Bierbar. Ja.
57:59 - 58:00

Applaus
58:00 - 58:03

Herald: Ja ist ja auch Zeit.
58:03 - 58:12

Applaus
58:12 - 58:19

Herald : Auch von mir auch nochmal ein
Herzlichen Dank ....
58:20 - 58:26

33c3 - Abspann-Musik
58:26 - 58:46

Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!

Title:: SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
Description:: more » « less
Video Language:: German
Duration:: 58:46

	C3Subtitles edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	Bar Sch edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	// edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	// edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	// edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	// edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	// edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
	// edited German subtitles for SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)

Show all

German subtitles

Revisions

Revision 42 Edited

C3Subtitles

SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)

Revisions

Our website uses cookies

Operating cookies (Required)