SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)
-
0:00 - 0:1333C3 Vorspannmusik
-
0:13 - 0:18Herald Carina Haupt: David Kriesel ist
Data Scientist. Und der eine oder andere -
0:18 - 0:25kennt ihn vielleicht noch vom 31C3, wo er
den relativ bekannt gewordenen berühmten -
0:25 - 0:27Xerox Scanning Bug Vortrag gehalten hat.
-
0:27 - 0:35Applaus
-
0:35 - 0:41Dieser hat ihn offensichtlich nicht nur
hier bekannt gemacht. Sondern auch zu -
0:41 - 0:46internationaler Bekanntheit verholfen. Und
damit begrüsse ich ihn und freue mich auf -
0:46 - 0:51einen spannenden Talk und bitte Euch
nochmal um einen ganz ganz herzlichen -
0:51 - 0:54Applaus für David.
-
0:54 - 0:57Applaus
-
0:57 - 0:59David: Dankeschön
-
0:59 - 1:01Applaus
-
1:01 - 1:07Ja, dankeschön. Herzlich willkommen. Auch
nochmal von mir. Auch an die Leute im -
1:07 - 1:12Internet. Und auch an die Leute vom
Spiegel. Von denen ich weiss, dass sie -
1:12 - 1:18anwesend sind. Es ist schön wieder hier
zu sein. Mein Name ist David Kriesel. Ich -
1:18 - 1:23bin Informatiker aus Bonn. Und ich mache
beruflich, es wurde schon gesagt Data -
1:23 - 1:27Science und Machine Learning. Und salopp
gesagt, versuche ich für meine -
1:27 - 1:34Arbeitgeber aus grossen Datenmengen Wissen
zu ziehen. Und seit 2014 habe ich knapp -
1:34 - 1:39100 000 Artikel von Spiegel Online
ge-vorratsdaten-speichert. -
1:39 - 1:46GelächterApplaus
-
1:46 - 1:50Und das habe ich einfach niemanden
erzählt. -
1:50 - 1:51Gelächter
-
1:51 - 1:55Und während ich da so zweieinhalb Jahre
sitze und das niemanden erzähle, ist die -
1:55 - 1:59Stimmung medial irgendwie umgeschlagen.
Vor zweieinhalb Jahren war die Welt noch -
1:59 - 2:05in Ordnung und heute ist die Rede von
Lügenpresse und Fake News und genau aus -
2:05 - 2:10dieser Zeit des Stimmungsumbruchs haben
wir jetzt einen riesigen Datensatz über -
2:10 - 2:15den vielleicht grössten Meinungsmacher
unserer Nation. Und mit diesem Datensatz -
2:15 - 2:19werden wir heute zwei Sachen machen:
Erstens, wir werden den Datensatz -
2:19 - 2:24durchleuchten und was über Spiegel Online
lernen. Und zwar so, dass ihr das auch mit -
2:24 - 2:30nach Hause nehmen und beim Lesen dann
anwenden könnt. Und zweitens, wir werden -
2:30 - 2:34Einblick erhalten wie die Datensammelwut
von heute funktioniert und wie mächtig -
2:34 - 2:38oder vielleicht auch nicht mächtig die
ist. Und das machen wir so, dass es für -
2:38 - 2:43jeden verstehbar ist, nicht nur für
Informatiker. Und zusätzlich werde ich, -
2:43 - 2:46wie in meinem letzten Vortrag vor zwei
Jahren ein bisschen auf das -
2:46 - 2:50Gesellschaftliche eingehen. Und wir werden
an ein paar passenden Beispielen -
2:50 - 2:53beleuchten, wie die moderne
Datenverarbeitung unsere Gesellschaft -
2:53 - 2:57beeinflussen kann. Und ob wir die Welt,
mit dieser allumfassenden Datensammelwut -
2:57 - 3:01besser machen oder schlechter machen, dass
kann dann ja später jeder von euch für -
3:01 - 3:07sich selbst entscheiden. Am besten fangen
wir an, in dem ich kurz beschreibe wie -
3:07 - 3:12genau Spiegelmining funktioniert. Rund um
die Uhr, alle paar Minuten schaut einer -
3:12 - 3:17meiner Server vollautomatisch auf Spiegel
Online nach ob dort neue Artikel stehen -
3:17 - 3:20und werden neue Artikel gefunden, dann
werden die heruntergalden und -
3:20 - 3:25abgespeichert. Und auf diese Weise hat der
Datensatz einen coolen Vorteil der ja -
3:25 - 3:30jetzt vielleicht nicht sofort ersichtlich
ist: ich erhalte neue Artikel binnen -
3:30 - 3:34Minuten, nachdem sie veröffentlicht
wurden. Das heisst, ich kriege die im -
3:34 - 3:36Originalzustand, also vor allen
-
3:36 - 3:37Verbesserungen und Änderungen,
-
3:37 - 3:39die im Nachhinein vorgenommen
-
3:39 - 3:42werden und das ist natürlich
viel aussagekräftiger. -
3:42 - 3:46Man erhält ein unverfälschten Eindruck und
es ist nicht so wie wenn man einen Artikel -
3:46 - 3:50runterlädt, die vieleicht schon Jahre alt
und tausend mal editiert sind. Aus den -
3:50 - 3:54heruntergeladenen Artikeln lese ich dann
sogenannte Features. Feature ist einfach -
3:54 - 3:58das Fachwort für ein Artikelmerkmal. Ganz
einfache Features eines Artikels können -
3:58 - 4:00zum Beispiel der
Veröffentlichungszeitpunkt oder die -
4:00 - 4:04Rubrik sein, in der der Artikel steckt.
Und die Features nehme ich dann und mache -
4:04 - 4:09damit Auswertungen, von den sehen wir
heute noch ein paar. Und die interessanten -
4:09 - 4:13unter den Auswertungen nutze ich dann, um
auf meiner Seite eine Blogartikelserie zu -
4:13 - 4:17schreiben, um meinen Lesern einen Einblick
in Spiegel Online und die Data Science -
4:17 - 4:21gleichermassen zu geben und das war es.
Spiegelmining in wenigen Minuten. Und am -
4:21 - 4:25Anfang machen wir jetzt ein paar sehr
einfache Auswertungen, so sehen wir wie -
4:25 - 4:28das funktioniert und verschaffen uns
gleichzeitig einen Überblick über -
4:28 - 4:32Spiegel Online und als erstes zählen wir
mal wie häufig die einzelnen Rubriken so -
4:32 - 4:37vorkommen. Das ist die Ansicht. Die
Größe der Kreise gibt die Artikelanzahl -
4:37 - 4:42pro Rubrik wieder und wie wir sehen, wird
Spiegel Online dominiert von Politik, das -
4:42 - 4:48ist der große rote Kreis rechts oben, von
Panorama, das ist der grüne Kreis in der -
4:48 - 4:52Mitte und vom Sport, das ist der
fliederfarbene Kreis ganz unten. Ich -
4:52 - 4:55weiss, was fliederfarben ist. Ich höre
schon Leute lachen. -
4:55 - 4:57Applaus
-
4:57 - 5:04Also die drei Rubriken, die machen
zusammen die Hälfte der Artikel aus. Und -
5:04 - 5:08das nächste supereinfache Feature ist der
Veröffentlichungszeitpunkt von jedem -
5:08 - 5:12Artikel. Damit messen wir jetzt einfach
mal, wieviele Artikel Spiegel Online am -
5:12 - 5:16Tag so schreibt. Der Plot sieht jetzt
richtig richtig krass unordentlich aus, -
5:16 - 5:20dass man da fast keine Werte erkennen
kann. Das liegt an den Wochenenden. -
5:20 - 5:23Da wird um die Hälfte weniger
veröffentlicht als normal. Und deswegen -
5:23 - 5:27schwankt das so krass. Und hier gibt es
dann auch gleich den ersten Bericht aus -
5:27 - 5:32der Praxis: wie man deutlich sieht, habe
ich Anfang März 2015 ein paar Tage Loch -
5:32 - 5:37in den Daten. Und der Grund ist, dass der
März ein Monat mit "ae" ist. -
5:37 - 5:40GelächterApplaus
-
5:46 - 5:53Also, mir ist das nach kurzer Zeit zum
Glück aufgefallen. Also wenn Ihr Daten -
5:53 - 5:57aufnehmt, dann programmiert Euch bitte mal
irgendeine Form von Warnsystem, das -
5:57 - 6:01anschlägt, wenn länger keine Daten mehr
eintrudeln. Ich hatte das zum Glück und -
6:01 - 6:04das hat mir hier sehr geholfen. Jetzt
schlägt es in ein paar Minuten an und da -
6:04 - 6:08hatte ich so irgendwie ein paar Tage keine
Ahnung. Zurück zum Plot: Wegen der -
6:08 - 6:11Unordnung mit den Wochenenden ändern wir
jetzt unseren Plot und berechnen statt den -
6:11 - 6:15Artikeln pro Tag jetzt die Artikel pro
Woche. Und man sieht jetzt auch was und da -
6:15 - 6:19sehen wir, dass Spiegel Online im Schnitt
so 700 Artikel die Woche veröffentlicht, -
6:19 - 6:24also so 100 am Tag. Und das ist schon
ziemlich viel Output. Übrigens die beiden -
6:24 - 6:29krassen Einbrüche, die Ihr hier seht, das
sind die Weihnachtswochen, da wird weniger -
6:29 - 6:32veröffentlicht und der Datensatz für
diesen Vortrag ist vom 4. Dezember, -
6:32 - 6:36deswegen ist dieser Weihnachts-Low dieses
Mal einfach noch nicht drin. Und wenn man -
6:36 - 6:41jetzt Features einzeln betrachtet, aber
richtig interessant wird es, wenn wir -
6:41 - 6:44Features zusammen betrachten. Wir
verwursten jetzt also mal -
6:44 - 6:48Veröffentlichungszeitpunkt und Rubrik
zusammen. Und dann können wir sehen, das -
6:48 - 6:55beispielsweise der Output in den Rubriken
Panorama und Politik stabil ist. Während -
6:55 - 6:59Wissenschaft und Uni-Spiegel ganz schön
zusammengestrichen wurden. Das gilt -
6:59 - 7:03übrigens in abgeschwächter Form auch für
andere Ressorts. Solche Infos, welche -
7:03 - 7:07Ressorts gerade gerupft werden, sind zum
Beispiel relativ interessant, wenn man -
7:07 - 7:11Konkurrent von Spiegel Online ist. Das
kann man ohne weiteres auslesen. Und wir -
7:11 - 7:15sehen, geschickt Features ausdenken und
zusammenstöpseln, ist die halbe Welt. -
7:15 - 7:20Jetzt nehmen wir mal die Textlänge der
Artikel dazu. Hier sind die typischen -
7:20 - 7:25Artikellängen im Spiegel angegeben und
zwar pro Rubrik. Und man sieht, dass der -
7:25 - 7:30typische Kulturartikel fast dreimal so
lang ist, wie der typische Panorama- oder -
7:30 - 7:36Sportartikel und immerhin noch doppelt so
lang wie der typische Politikartikel. Und -
7:36 - 7:40jetzt hatten wir schon gesehen, das
Panorama, Sport und Politik trotz ihrer -
7:40 - 7:44kurzen Artikellängen genau die drei
dominierenden Ressorts sind. Und daraus -
7:44 - 7:49können wir folgern, das Spiegel Online es
eher auf Reichweite anlegt und auf -
7:49 - 7:55Abdeckungsbreite als auf Tiefe. Die
Strategie Reichweite um jeden Preis -
7:55 - 7:58scheint Spiegel Online auch noch so zu
verstärken. Die zusammengestrichenen -
7:58 - 8:02Rubriken waren alles welche mit eher
langen Texten. Und bevor das hier jetzt -
8:02 - 8:06falsch ankommt, ich sage das ohne jede
Wertung im Sinne von gut oder schlecht das -
8:06 - 8:09ist ja eine valide Strategie für ein
Medium und ich beschreibe einfach nur -
8:09 - 8:13gemessene Daten. Und es ist keineswegs der
Zweck der Veranstaltung irgendwie -
8:13 - 8:17substanzlos in Richtung von Spiegel Online
zu haten. Wer hatet wird nicht ernst -
8:17 - 8:20genommen. Das habe ich ja in meinem
letzten Vortrag schon ausführlich -
8:20 - 8:24beschrieben. Und die meisten Sachen, die
hier im Vortrag noch kommen, denkt daran, -
8:24 - 8:29die sind bei den anderen wahrscheinlich
ähnlich. Wichtig ist auch dass man mit -
8:29 - 8:34den Features experimentiert. Hier ist zum
Beispiel ein Diagramm, das zeigt, dass -
8:34 - 8:38Veröffentlichungsvolumen pro Wochentag
und Stunde. Die Zeilen sind die Wochentage -
8:38 - 8:43und die Spalten sind die Stunden eines
Tages. Pro Wochentag und Stunde sehen wir -
8:43 - 8:46einen Block. Und in den grossen Blöcken
sind viele Artikel erschienen und in den -
8:46 - 8:52kleinen wenige. Und jetzt lernen wir daran
mal, wie es in der Data Science zugeht: -
8:52 - 8:56Erstens: In der Data Science findet man
immer wieder Botschaften bestätigt, die -
8:56 - 9:02man vorher schon erahnt hat. Das ist der
langweilige Teil der Data Science. Aber -
9:02 - 9:06das ist gut, um die eigenen Messverfahren
zu überprüfen. Wir sehen hier, zu den -
9:06 - 9:10unchristlichen Zeiten wird viel weniger
veröffentlicht. Bahnbrechende Erkenntnis: -
9:10 - 9:13Auch der Spiegel-Online-Redakteur
möchte mal schlafen. -
9:13 - 9:14Gelächter
-
9:14 - 9:21Zweitens: In der Data Science findet man
aber auch immer Systematiken da, wo man -
9:21 - 9:26keine erwartet hat. Und das passiert oft
dann, wenn man Features verbindet. Wir -
9:26 - 9:30färben jetzt mal jeden dieser Blöcke
ein, nach der typischen Textlänge. Rote -
9:30 - 9:35Blöcke enthalten typischerweise lange
Texte und blaue Blöcke eher kurze. Und -
9:35 - 9:40zack Es gibt einen klaren Zusammenhang
zwischen Tageszeit und Länge der Artikel. -
9:40 - 9:44Für mich als Nicht-Journalist war das
damals überraschend. Die typische Länge -
9:44 - 9:48der veröffentlichten Artikel die ist von
Montag bis Freitag zwischen 5 bis 6 Uhr -
9:48 - 9:54früh am grössten. Das gleiche am
Wochenende. Hier gibt es zum Tagesstart -
9:54 - 9:59auch nur längere Artikel, ein bisschen
später natürlich. Und das Rätsels -
9:59 - 10:03Lösung zu diesem Phänomen kommt später
noch. Und als Drittes, ist die Data -
10:03 - 10:09Science natürlich auch dazu da fieseste
Vorurteile zu schüren. Ich führe Euch -
10:09 - 10:13das mal vor. Jetzt gebt mir bitte mal ein
Handzeichen, wer von Euch denkt, dass die -
10:13 - 10:18Leutchen aus dem Kulturressort morgens
bitte, gerne ein bisschen länger pennen -
10:18 - 10:19als die anderen.
-
10:19 - 10:20Gelächter
-
10:20 - 10:25Also, vielleicht für das Internet: Wir
haben einen Raum von 1600 Leuten, der ist -
10:25 - 10:32proppenvoll und fast alle haben die Hand
gehoben. Und die Lösung ist: stimmt! -
10:32 - 10:34Gelächter
-
10:34 - 10:37Die Kulturwissenschaftler
-
10:37 - 10:39Applaus
-
10:39 - 10:44Die Kulturwissenschaftler veröffentlichen
typischerweise später. In der oberen -
10:44 - 10:47Verteilung sind alle Artikel ausser
Kultur. Da ist ab 5 Uhr morgens -
10:47 - 10:52Aktivität. Und in der unteren Verteilung
sind die Kulturartikel, da geht es -
10:52 - 10:58mindestens 2 Stunden später los. Aber zum
Ausgleich gehen die auch früher nach Hause. -
10:58 - 11:01Gelächter
-
11:01 - 11:03Applaus
-
11:03 - 11:08Aber, damit wir hier nicht wirklich
Vorurteile schüren, ich war bei Spiegel -
11:08 - 11:13Online eingeladen im Oktober und da habe
ich das auch so gesagt. Und dann haben sie -
11:13 - 11:17gesagt: 'David, nein, nein!' Manche
Artikel werden natürlich auch vorab -
11:17 - 11:21gescheduled, das will ich hier
fairerweise dazusagen. -
11:21 - 11:24Und ich mache das auch als Ermahnung, dass
-
11:24 - 11:27ihr, wenn Ihr damit arbeitet, immer
nochmal selbst nachdenken müsst. was Ihr -
11:27 - 11:31auch solchen Auswertungen wirklich folgern
könnt. Besonders dann, wenn Ihr schon mit -
11:31 - 11:35einem Vorurteil da rein gegangen seid, so
wie wir jetzt. Wir haben gerade gesehen, -
11:35 - 11:39wie solche Auswertungen grundsätzlich
funktionieren, also können wir jetzt -
11:39 - 11:43einen Schritt weitergehen. Und im Internet
wird es ja genau immer dann besonders -
11:43 - 11:47knusprig, wenn personenbezogene Daten ins
Spiel kommen. -
11:50 - 11:53Also, habe ich mir gedacht,
-
11:53 - 11:57es wäre doch mal ein nettes Feature, wenn
wir mal die Autoren aus den Spiegel -
11:57 - 12:01Artikeln rauslesen. Und das machen wir
jetzt. Und die werten wir gleich auf zwei -
12:01 - 12:05Arten aus: Die erste Auswertung wird eine
ganz neue Auswertung in diesem Vortrag, -
12:05 - 12:08also eine ganz neue Art. Und die zweite
Auswertung wird ein bisschen politisch -
12:08 - 12:14inkorrekt. In unserer ersten Auswertung
werden wir versuchen Spiegel Online -
12:14 - 12:18interne Personalstrukturen einfach von
aussen zu lesen. Wenn man zu jedem Artikel -
12:18 - 12:22eine Liste an Autoren hat, dann weiss man
ja nicht nur, wer jeden Artikel -
12:22 - 12:26geschrieben hat, sondern man weiss auch,
wer mit wem schreibt. Und bei Autoren, die -
12:26 - 12:30oft zusammen Artikel schreiben, dürfen
wir davon ausgehen, dass die intensiv -
12:30 - 12:33zusammenarbeiten. Wir wissen also
sozusagen, welche Autoren wichtig -
12:33 - 12:37füreinander sind, was die Artikel angeht.
Wer wenig oder gar nicht zusammenschreibt, -
12:37 - 12:41der ist in dieser Ansicht nicht wichtig
füreinander. Aus diesen Wichtigkeiten -
12:41 - 12:46können wir dann eine Autorenlandkarte
bauen. Und hier ist sie. Das ist ein Teil -
12:46 - 12:50des sozialen Netzwerkes der Spiegel Online
Autoren generiert über die letzten -
12:50 - 12:542 Jahre. Und jeder Autor ist so ein Bubble
Und Autoren, die nur ganz selten -
12:54 - 12:59vorkommen, die habe ich hier gefiltert.
Und man sieht genau, dass es da Grüppchen -
12:59 - 13:03von Autoren gibt, die sich dichter
zusammentun. Und das sieht aus, als wären -
13:03 - 13:07es die Teams. Und jetzt müssen wir
natürlich kontrollieren, ob unser -
13:07 - 13:10Durchleuchten von aussen, auch wirklich
funktioniert. Und um das zu machen, -
13:10 - 13:14färben wir die Autoren mal nach Ihren
Ressorts ein. Die Ressorts, die kriegt man -
13:14 - 13:19aus dem Spiegel Online Impressum. Siehe
da, in vielen Fällen haben sich -
13:19 - 13:23tatsächlich die Ressorts vollautomatisch
in der Landkarte zusammengetan. Hier in -
13:23 - 13:29pink ist Sport. Wissenschaft und
Gesundheit. Netzwelt. Politik. Ein -
13:29 - 13:33bisschen verteilter, da habe ich jetzt
nicht alle eingekreist. Panorama. Reise. -
13:33 - 13:37Ich nenne jetzt nicht alle Teams, aber Ihr
seht das Prinzip. Die hellblauen -
13:37 - 13:41verteilten Punkte sind übrigens das Team
von bento, die arbeiten ein bisschen -
13:41 - 13:44übergreifender. Das ist
die Kinderausgabe vom Spiegel. -
13:44 - 13:45Gelächter
-
13:45 - 13:48Applaus
-
13:49 - 13:55Und der Punkt ist, wir haben jetzt relativ
genau von aussen durchleuchten können, -
13:55 - 13:59wer mit wem intern in einem Team steckt.
Und der Witz ist, schaut die ganzen grauen -
13:59 - 14:03Bubble an. Die sind grau, weil sie nicht
mehr über das Spiegel Impressum -
14:03 - 14:07zugeordnet werden konnten. Das sind zum
Beispiel ausgeschiedene Kollegen. Der -
14:07 - 14:13Spiegel Chefredakteur ist kürzlich auch
grau geworden. Aber durch ihre Nähe zu -
14:13 - 14:17den gefärbten Gruppen, können wir die
trotzdem grob einem Team zuordnen. Wir -
14:17 - 14:21können also etwas über die sagen, obwohl
wir eigentlich gar nichts über die -
14:21 - 14:24wissen. Und sowas ist dann interessant.
Wir können also einfach live von aussen -
14:24 - 14:28über die Personalstrukturen Buch führen.
Aber jetzt... Ihr wartet bestimmt schon -
14:28 - 14:32alle zum politisch inkorrekten Teil. Ich
möchte Euch nämlich für etwas -
14:32 - 14:37sensibilisieren. In diesem Plot ist jede
Zeile ein Autor. Und von links nach rechts -
14:37 - 14:43vergeht die Zeit. Und jeder farbige Strich
ist ein vom jeweiligen Autor -
14:43 - 14:46veröffentlichter Artikel. Und wenn wir
die Autoren kennen und das tun wir ja -
14:46 - 14:50jetzt, dann wissen wir natürlich auch
sehr genau, wer wann veröffentlicht. Wir -
14:50 - 14:53sehen zum Beispiel diese Zeile mit
regelmässigen Muster, das ist ein -
14:53 - 14:57Kolumnist, der veröffentlicht genau im
Wochentakt, bis auf ein paar Ausnahmen. -
14:57 - 15:01Bei den Leuten, die Tagesgeschehen
veröffentlichen, ist die Dichte höher. -
15:01 - 15:05Und das heisst, wir wissen bei denen
umgekehrt auch relativ gut, wann die -
15:05 - 15:10Urlaub machen. So, weil das sind nämlich
die Lücken in den dichtgefüllten Zeilen. -
15:10 - 15:14Und, wenn aber wir die Urlaube ungefähr
kennen, dann wissen wir auch ungefähr, -
15:14 - 15:17wessen Urlaube sich überproportional
überschneiden. -
15:17 - 15:20Gelächter
-
15:20 - 15:23Sachen wie Weihnachten, die fast alle
Urlaub machen, die kann man ja einfach -
15:23 - 15:28rausrechnen. Und ich appelliere jetzt an
Eure Berufserfahrung und mutmasse mal ganz -
15:28 - 15:32wild, dass Ihr auch schon mal Kollegen
hattet, die irgendwie immer gleichzeitig -
15:32 - 15:39im Urlaub waren. Also, Spass beiseite. Aus
solchen Daten kann man ohne weiteres -
15:39 - 15:44lesen, wer mit was hat. Jetzt wisst Ihr
auch, warum ich die Autoren hier -
15:44 - 15:49anonymisiert habe. Es ist übrigens total
klar, dass das, was wir hier finden, nicht -
15:49 - 15:53alles Pärchen sein müssen. Das sind die
Pärchenkandidaten. Aber, wenn man an der -
15:53 - 15:59Praxis und sowas interessiert ist, dann
ist man ja damit schon mal auf 99% des -
15:59 - 16:04Weges zum Ziel. Es gibt Firmen, die werten
sowas aus, so illegal das auch ist. Jetzt -
16:04 - 16:08habt Ihr alle gerade gelacht, Kann ich mal
um Handzeichen bitten, wer von Euch heute -
16:08 - 16:15bei seiner Firma Urlaub genommen hat.
Über jeden gibt es solche Daten. Glaubt -
16:15 - 16:20mir. Und wir halten jetzt mal inne, und
dann machen wir uns nochmal klar, was wir -
16:20 - 16:23gerade gesehen haben und was die
gesellschaftlichen Implikationen sind. Was -
16:23 - 16:26wir gerade gesehen haben, ist
Wissensgewinnung über interne -
16:26 - 16:30Firmeninformationen und über
höchstpersönliche Lebensbereiche. Und -
16:30 - 16:33aus Daten, die erstmal gar nicht danach
aussehen. Wir hatten ja eigentlich einen -
16:33 - 16:36Satz Spiegelartikel. Und plötzlich,
überraschend, haben wir gute -
16:36 - 16:40Anhaltspunkte, wer mit wem was hat, und
wir können Teamstrukturen erahnen. Und -
16:40 - 16:44damit komme ich zu wichtigsten Message des
Vortrags: Wenn Ihr Daten veröffentlicht, -
16:44 - 16:48dann entscheidet nicht Ihr, was Ihr da
veröffentlicht, das entscheidet der -
16:48 - 16:53Gegner. Wir haben noch nicht einmal die
Daten selbst betrachtet. Wir haben die -
16:53 - 16:57Artikel selbst ja gar nicht angefasst. Was
wir angefasst haben, waren nur Metadaten. -
16:57 - 17:01Zeiten und Autoren, genau wie bei der
Vorratsdatenspeicherung. Das sind ja auch -
17:01 - 17:07nur Metadaten. Gebt mal ein paar Monate
eurer Metadaten, einfach nur, wem Ihr wann -
17:07 - 17:11Mails und Whatsapp geschickt habt und wann
Ihr auf welchen Webseiten wart. Keine -
17:11 - 17:15Inhalte. Danach kann ich Euch sagen, wer
Eure besten Freunde sind, ob Ihr eine -
17:15 - 17:19Affäre habt, wie Ihr sexuell orientiert
seid, ob Ihr schwanger seid, ob Ihr eine -
17:19 - 17:22Krankheit habt, was Eure politische
Einstellung ist, wie euer Glaube -
17:22 - 17:26ausgerichtet ist, und ob Ihr finanzielle
Probleme habt und alles, was ich gerade -
17:26 - 17:31vergessen habe. Das Missbrauchsprofil für
einen solchen Datensatz, wie den der -
17:31 - 17:35Vorratsdatenspeicherung, das kann man gar
nicht in Worte fassen. Und ich will da -
17:35 - 17:38überhaupt nicht mit
Verschwörungstheorien anfangen, wir -
17:38 - 17:41können ja mal alle glauben, dass die
Vorratsdatenspeicherung für die -
17:41 - 17:45Aufklärung von Verbrechen nützlich sein
kann, das ist ja auch total plausibel. Und -
17:45 - 17:49wir können ja auch mal glauben, dass die
Person, die die Vorratsdatenspeicherung -
17:49 - 17:52jetzt etablieren guten Willens sind. Lasst
uns das einfach mal annehmen. Das heisst -
17:52 - 17:55aber nicht, dass morgen keiner an die
Macht kommt, der das vielleicht ganz -
17:55 - 18:02anders macht. Was wir hier gerade
erhalten, ist die Infrastruktur, für eine -
18:02 - 18:06Generalüberwachung, die selbst George
Orwell's Big Brother die Schamesröte ins -
18:06 - 18:10Gesicht treiben würde.
-
18:10 - 18:16Applaus
-
18:16 - 18:21Und diese Überwachungsinfrastruktur, die
stellen wir jetzt extra schon mal bereit -
18:21 - 18:25für den Fall, dass eine zukünftige
Regierung böswillig ist und sie nutzen -
18:25 - 18:31will. Das ist, was gerade passiert. Jetzt
haben wir einen kurzen Exkurs über -
18:31 - 18:34Metadaten gemacht, und wir gehen jetzt
zurück zu Spiegel Online, damit sich Eure -
18:34 - 18:38Laune wieder hebt. Und deswegen kommt
jetzt ein kleiner Einschub, den könnt Ihr -
18:38 - 18:42dann direkt anwenden, wenn Ihr das
nächste Mal Spiegel Online lest. Und -
18:42 - 18:45danach machen wir mal ein bisschen was
Grösseres. Als ich die Autoren aus den -
18:45 - 18:53Artikeln rauslesen wollte, da war ich
irgendwann ziemlich genervt. Also manchmal -
18:53 - 18:57stehen die oben unter dem Titel, wie hier
links im Bild. Oder die stehen unten, wie -
18:57 - 19:02rechts im Bild. Und wenn die Autoren oben
stehen, sind sie ausgeschrieben. Und wenn -
19:02 - 19:07sie unten stehen, sind es Kürzel. Oben
stehen sie im wirklichen Satz, hier zum -
19:07 - 19:12Beispiel von Marcel Rosenbach. Und unten
die Kürzel sind ohne Satz drumrum. Manche -
19:12 - 19:15Autoren haben nur Vor- und Nachname.
Manche Namen haben aber auch vier oder -
19:15 - 19:21fünf Worte. Wie zum Beispiel der
freundliche Herr Philip Alvares De Souza -
19:21 - 19:25Suarez. Das habe ich mir extra hier
aufgeschrieben, fünf Worte. Das ist ein -
19:25 - 19:29Name. Also Data Science kann technisch
nervig sein. Sagt nicht, ich hätte Euch -
19:29 - 19:36nicht gewarnt. Und jedenfalls habe ich mir
gedacht, wtf, warum stehen da Autoren in -
19:36 - 19:40verschiedenen Formen und vor allem an
verschiedenen Orten? Also habe ich mir mal -
19:40 - 19:46das als Feature reingenommen, ob die
Autoren oben oder unten stehen. Und dann -
19:46 - 19:50habe ich Messwerte zwischen den
beiden Artikelgruppen verglichen, Autoren -
19:50 - 19:56oben und Autoren unten. Und es stellt sich
raus, wenn die Autoren unten stehen, also -
19:56 - 20:00nicht namentlich ausgeschrieben sind, ist
ein typischer Artikel knapp 300 Worte -
20:00 - 20:03lang. Wir sehen hier die Verteilung der
Artikellängen von Artikeln ohne -
20:03 - 20:07ausgeschriebenen Namen. Und nach rechts
werden die Artikel länger, da wird es -
20:07 - 20:12immer weniger. Und stehen die Autoren aber
oben, sind also ausgeschrieben, ist ein -
20:12 - 20:17Artikel typischerweise mehr als
zweieinhalb mal so lang. Knapp 750 Worte. -
20:17 - 20:21Man weiss schon, womit man gegoogelt
werden will als Redakteur. -
20:21 - 20:22Gelächter
-
20:22 - 20:27Und nochwas: bei den langen Artikeln ist
auch nur bei ca. 2% eine -
20:27 - 20:31Nachrichtenagentur mit dabei. Bei den
kurzen ist bei knapp 80% eine -
20:31 - 20:35Nachrichtenagentur mit dabei. Also Fazit
für Euch zum mI t nach Hause nehmen: Wenn -
20:35 - 20:39Ihr längere Artikel wollt, die Spiegel
Online selbst verfasst hat, dann achtet -
20:39 - 20:43drauf, dass die Autoren drangeschrieben
sind. Wenn Ihr kurze Agenturmeldungen -
20:43 - 20:45wollt, sind die Kürzel gut.
-
20:45 - 20:50Applaus
-
20:50 - 20:55Und wir hatten ja schon gesehen, dass am
Tagesanfang primär längere Artikel -
20:55 - 20:58erscheinen und das waren eben in
Wirklichkeit die selbst geschriebenen. -
20:58 - 21:03Morgens ist der Prozentsatz von denen
vergleichsweise hoch. Und jetzt könen wir -
21:03 - 21:05die Gelegenheit nutzen und einen Schritt
zurücktreten und gucken, was wir bis -
21:05 - 21:11jetzt gemacht haben. Und wir haben unsere
Riesenmenge Artikel, immer auf äusserst -
21:11 - 21:14einfache Art und Weise auseinander
geschnitten und ausgewertet. Wir haben die -
21:14 - 21:18in Wochentage oder Uhrzeiten
auseinandergeschnitten. Oder in Rubriken. -
21:18 - 21:22Und dafür, wie einfach diese Ideen sind,
haben wir eigentlich ein paar ganz gute -
21:22 - 21:25Ergebnisse bekommen. Aber, was wir noch
gar nicht gemacht haben, ist uns dem -
21:25 - 21:29Datensatz mal inhaltlich zu nähern. Und
es wäre doch total cool, wenn wir die -
21:29 - 21:33Artikelmenge mal nach den wirklichen
Themen über die berichtet wird, -
21:33 - 21:42auseinanderschneiden und auswerten
können. Spiegel Online liefert uns -
21:42 - 21:46hierbei auch eine gute Hilfe: Artikel
werden dort verschlagwortet. Jeder Artikel -
21:46 - 21:51bekommt von seinem Autor so um die 10
Keywords zugewiesen. Der Artikel links im -
21:51 - 21:56Bild hat zum Beispiel die Keywords
Politik, Ausland, Saudi Arabien und König -
21:56 - 22:00Salman von Saudi Arabien. Also habe ich
die Keywords mal ausgelesen. Ueber alle -
22:00 - 22:05Artikel hinweg habe ich um die 65000
verschiedene Keywords gefunden. Und jetzt -
22:05 - 22:09gucken wir, wie oft, welche Keywords
zusammen in den selben Artikeln kommen. -
22:09 - 22:13Und Keywords, die fast ausschliesslich
zusammen vorkommen, die sind sozusagen -
22:13 - 22:17verheiratet, die sieht man einfach als
eins in der Auswertung. Und umgekehrt gibt -
22:17 - 22:21es natürlich Keywords, die beide für
sich genommen existieren, aber nie oder -
22:21 - 22:25fast nie zusammen, die sind dann
unverwandt. Und dann gibt es noch einen -
22:25 - 22:32interessanten Mittelweg:
Hier ist ein Beispiel. -
22:32 - 22:35GelächterApplaus
-
22:35 - 22:39Artikel mit dem Keyword "Angela Merkel",
die haben meist auch das Keyword Politik. -
22:39 - 22:44Und umgekehrt ist das aber nicht so. Das
Keyword Politik ist viel grösser. Und es -
22:44 - 22:48gibt extrem viele Politikartikel ohne
Angela Merkel. Und diese Keywords sind -
22:48 - 22:52nicht die selben, aber es ist klar, die
haben eine Verbindung. Und wir messen also -
22:52 - 22:58für alle 65000 Keywords, paarweise, wie
verwandt die so sind. Und dann verbinden -
22:58 - 23:02wir Keywords, die stark verwandt sind mit
so ganz strammen, dicken Federn. Ich meine -
23:02 - 23:06jetzt wirklich Federn im physikalischen
Sinne, die die Keywords zueinander -
23:06 - 23:10hinziehen. Zwischen schwächer verwandten
Keywords kommen schwächere Federn, die -
23:10 - 23:14werden dann länger. Und jetzt machen wir
eine Physiksimulation. und schauen zu, wie -
23:14 - 23:21sich diese abertausenden Federn
zurechtzurren. Verwandte Keywords werden -
23:21 - 23:25jetzt tendenziell nahe beeinander layoutet
und weniger verwandte nicht so nah. Was -
23:25 - 23:29hier ensteht ist eine thematische
Landkarte, von allen Sachen über die -
23:29 - 23:33Spiegel Online in den letzten 2 Jahren
berichtet hat. Und jetzt gerade sieht es -
23:33 - 23:37so aus, als passiert da fast nichts mehr,
aber gerade passiert die Detailarbeit. Das -
23:37 - 23:41sieht man nur von soweit oben nicht. Und
deswegen zoomen wir jetzt mal ganz weit -
23:41 - 23:45rein, damit wir lernen, was wir da
erschaffen haben. Hier ist die Volkswagen -
23:45 - 23:49Abgasaffäre. Wie Ihr seht haben die
Keywords unterschiedliche Grössen. Die -
23:49 - 23:53Grösse der einzelnen Keywords spiegelt
die Anzahl der Artikel wieder, die das -
23:53 - 23:56Keyword innehaben. Und das sind sozusagen
die Artikel, die in dem Keyword -
23:56 - 24:01drinstecken. Und die Farbe zeigt an, was
die vorherrschende Rubrik ist über alle -
24:01 - 24:05Artikel, die in einem Keyword drin
stecken. Dieses Okergelb heisst -
24:05 - 24:10Wirtschaft. Passt! Der Witz ist, diese
Darstellungsweise ist extrem mächtig und -
24:10 - 24:14vielseitig. Über die Farbe der Keywords
da können mit dieser Darstellungsweise -
24:14 - 24:19noch viel mehr Infos rüberbringen, als
nur, welche Themen verwandt sind. Und mit -
24:19 - 24:24der Farbe können wir beliebige Messwerte
anzeigen. Und wenn ich danach so farbige -
24:24 - 24:28Keywordlandschaften habe, dann können wir
sehen, ob es zwischen Thema und Messwert -
24:28 - 24:32einen Zusammenhang gibt und das machen wir
heute auch noch. Aber erstmal gucken wir -
24:32 - 24:37ein bisschen weiter rum, hier sind
verschiedene Flugzeugunglücke. Der -
24:37 - 24:49Themenkomplex befindet sich zwischen
Panorama - Grün und Politik - Rot. Wobei -
24:49 - 24:52die politischen Anteile von dem Flugzeug
kommen, das über der -
24:52 - 25:00Ukrainisch-Russischen Grenze abgeschossen
wurde. Jetzt versagt meine Singstimme. -
25:00 - 25:07So besser. So hier ist Griechenland-Krise.
Das ist offensichtloch ein Thema zwischen -
25:07 - 25:11Politik und Wirtschaft rot und wieder oker
und Wolfgang Schäuble ist da direkt mal -
25:11 - 25:16als Aufpasser dazu-layoutet worden.
Interessanterweise hat der keine Farbe, -
25:16 - 25:19der ist grau und das ist nicht
altersbedingt sondern das liegt daran, -
25:19 - 25:23das es im Keyword Wolfgang Schäuble kein
dominierendes Ressort gab und -
25:23 - 25:25jetzt machen wir mal was Topaktuelles.
-
25:25 - 25:28Das ist die US-Wahl dieses Jahr.
Wir sehen Hillary Clinton -
25:28 - 25:32und Donald Trump und alles was da so drum
rum wimmelt und das ist offensichtlich -
25:32 - 25:37ein politisches Thema, es ist rot und man
beachte, wie hier das Keyword Emails -
25:37 - 25:42dazu-layoutet wurde. Und von hier aus
machen wir uns jetzt mal -
25:42 - 25:44die Größe der gesamten Landschaft klar.
-
25:44 - 25:47Ich weiss nicht, wer heute
Morgen von euch in dem Vortrag über -
25:47 - 25:51Mikroskope war, da hat der Vortragende
immer und immer mehr reingezoomt, um klar -
25:51 - 25:55zu machen wie klein die Sachen sind und
wir machen das jetzt umgekehrt, wir wollen -
25:55 - 25:59darstellen wie riesig die Landkarte ist
und wir zoomen immer und immer mehr raus. -
25:59 - 26:03Wir haben raus-gezoomt. Der alte
Bildauschnit ist dick eingerahmt, damit -
26:03 - 26:07ihr seht wo der ist. Und wir sehen,
dass der US-Wahlkampf eingebettet ist -
26:07 - 26:09in größeren Landstrich der
Auslandspolitik. -
26:09 - 26:12Links sehen wir den Bürgerkrieg in Syrien
-
26:12 - 26:16darüber der Islamische Staat und von da
geht es über den Islamistischen Terror -
26:16 - 26:18weiter nach Frankreich.
-
26:18 - 26:25GelächterApplaus
-
26:25 - 26:32Jaa, die Mathematik ist gnadenlos, ne.
Oben sind die aktuellen Türkei-Thematiken, -
26:32 - 26:34also das ist deren Putschversuch und
deren Demokratur -
26:34 - 26:38und rechts von der Mitte ist Russland
und der Ukraine Konflikt und -
26:38 - 26:41
links unten ist Israel und der Nahost -
26:41 - 26:47Konflikt und wir zoomen nch weiter raus.
Hier ist nun die gesamte politische -
26:47 - 26:51Landschaft, diesmal haben wir mit zwei
Rechtecken markiert, wo wir herkommen wir -
26:51 - 26:55kommen, ursprünglich von der US-Wahl und
dann von der Auslandspolitik. Also die -
26:55 - 26:59Auslandspolitik ist oben rechts und unten
rechts ist der Inlandsteil und seit Neuem -
26:59 - 27:03gibt es nen riesigen Knubbel, der in der
Mitte, das ist die Flüchtlingsthematik, -
27:03 - 27:07die ist mittlerweile so groß, wie eine
eigene Unterrubrik und die ist als dritte -
27:07 - 27:10Kraft genau zwischen Ausland und Inland
etabliert, ja. Was ja auch genau passt. -
27:10 - 27:16Wir zoomen nochmal weiter raus. Ja, jetzt
kann man gar nichts mehr erkennne, außer -
27:16 - 27:20verschieden farbigen Landschaften. Ich sag
also mal, für eine grobe Orientierung, -
27:20 - 27:23hier kommen wir her, das rote ist der
Politikteil. Rechts darüber in -
27:23 - 27:28giftgrün das Panorama. Das wird
durchteilt von der Wirtschaft, die Kette -
27:28 - 27:32von türkisen Clustern entlang der
Unterseite des Hauptkontinentes ist die -
27:32 - 27:37Netzwelt. Blau im Osten ist der Kulturteil
und so weiter und so fort. Wir können -
27:37 - 27:41jetzt nicht alle durchgehen, ihr seht, die
Gebiete gehen noch ineinander über und -
27:41 - 27:45wir wissen jetzt fast, wie riesig diese
Landkarte ist, einmal rauszoomen haben wir -
27:45 - 27:49nämlich noch. Hier ist die große weite
Welt, ja den unteren Teil haben wir schon -
27:49 - 27:54grob kennengelernt, und hier sind wir
eigentlich her gekommen, und auf dem Rest -
27:54 - 27:57der Welt, etwas entrückt ist
die Wissenschaft, das ... -
27:57 - 28:03Gelächter im Saal
Applaus -
28:06 - 28:10Ich sehe, ihr könnt das nachvollziehen
und habt da auch mal gearbeitet. -
28:10 - 28:11Gelächter
-
28:11 - 28:14Und ganz weit weg vom
Hauptkontinent ist der Sport. -
28:14 - 28:14Gelächter
-
28:14 - 28:19So, und jetzt sehen wir erstmal, wie gross
das ist und wie breit der Spiegel angelegt -
28:19 - 28:22ist und diese riesige Landkarte gibts
übrigens bei mir auf der Website, da -
28:22 - 28:25könnt ihr auch selbst drin rumforschen,
wie in GoogleMaps, so drin rum scrollen, -
28:25 - 28:29das macht auch mehr Spaß als wenn ich das
hier nur vorkaue und darum gehts jetzt -
28:29 - 28:33auch weiter. Wir wenden die jetzt an. Ja,
Spiegel Online bietet unter sehr vielen -
28:33 - 28:36Artikeln an, ja, ähmm, ..
-
28:36 - 28:38Publikum GemurmelGelächter
-
28:38 - 28:42Ich, das Gelächter geht los, bevor ich
etwas gesagt habe. Ihr wisst doch gar -
28:42 - 28:46nicht, was ich sagen will, ne? Das man
seine eigene Meinung dazu äußern darf. -
28:46 - 28:48Publikum und David Gelächter
-
28:48 - 28:52Und unter manchen Artikeln sperren sie
diese Funktion aber, ne, -
28:52 - 28:53einzelnes Gelächter
-
28:53 - 28:54und das untersuchen wir jetzt mal,
-
28:54 - 28:58Und ich hatte euch am Anfang des Vortrages
gesagt, das Artikel direkt nach nen paar -
28:58 - 29:02Minuten nach ihrem erscheinen von mir
abgerufen werden, also wenn ich sag, das -
29:02 - 29:06was nicht kommentiert werden darf, dann
war das sehr wahrscheinlich, direkt vom -
29:06 - 29:08Start weg so. So schnell
randaliert kein Mensch. -
29:08 - 29:10leichtes Gelächter im Publikum
-
29:10 - 29:14Also, bevor wir jetzt ne Themenlandkarte
damit malen, schauen wir mal ganz kurz auf -
29:14 - 29:18die zeitliche Entwicklung, der
Kommentierbarkeit, und zwar einfach, damit -
29:18 - 29:21wir ne Orientierung haben. In dem Plot
sehen wir pro Kalenderwoche wieviel -
29:21 - 29:26Prozent der erschienen Artikel kommentiert
werden durften, und wieviele nicht. -
29:26 - 29:30In Rot sind die Nichtkomentierbaren und
Blau die Kommentierbaren und als ich 2014 -
29:30 - 29:34angefangen habe runterzuladen, waren
erstmal ne ganze Zeit so 80 Prozent der -
29:34 - 29:38Artikel kommentierbar. Und genau seit dem
Zeitpunkt der großen -
29:38 - 29:43Flüchtlingsberichterstattung im Sommer
2015, ja, sinkt der (Graph) der Artikel -
29:43 - 29:47der kommentierbaren Nachrichten
kontinuierlich ab, und jetzt seit kurzem -
29:47 - 29:51ist wirklich die Mehrzahl der Artikel ohne
Kommentarfunktion, ne, dir rote Linie -
29:51 - 29:55überholt die Blaue, und die
Kommentierbarkeit wird übrigens nicht nur -
29:55 - 30:00im Politikressort weniger, das passiert
übergreifend in fast allen Ressorts und -
30:00 - 30:03ob seit dem der Hass im Netz irgendwie
themenübergreifend soviel schlimmer -
30:03 - 30:07geworden ist oder Spiegel-Online jetzt
einfach soviel Angst vor fiesen -
30:07 - 30:11Kommentaren hat, das kann ich aus denn
Zahlen nicht ablesen, das müsst ihr dann -
30:11 - 30:16für euch selbst entscheiden. Interessant
ist aber noch der kleine, grüne Plot im -
30:16 - 30:20Bild, ne , das sind auch nicht
kommentierbare Artikel. Aber bei denen -
30:20 - 30:24steht so ein kleiner Entschuldigungstext
dran, ja. Das hier die Kommentarfunktion -
30:24 - 30:28wegen der Netikette und so weiter gesperrt
ist. Ihr braucht das hier jetzt nicht -
30:28 - 30:32lesen, ich bring das nur zur Ansicht, und
diesen Entschuldigungstext haben sie zu -
30:32 - 30:37Anfang der Flüchtlingsberichterstattung
eingeführt und es scheint so, als war -
30:37 - 30:40Spiegel-Online da selbst ein bisschen
unwohl mit dem krassen Anstieg der -
30:40 - 30:44Kommentarsperrungen. Aber wie man am Plot
sieht, haben sie den Hinweis ganz flott -
30:44 - 30:48wieder aufgegeben, obwohl die
Kommentiermöglichkeiten immer und immer -
30:48 - 30:53mehr gesperrt werden. So und jetzt gehts
zur Landkarte. Wir färben ein Keyword -
30:53 - 30:58röter, wenn unterdurchschnittlich viele
Artikel darin kommentierbar sind und wir -
30:58 - 31:01färben ein Keyword eher blau, wenn das
Keyword überdurchschnittlich -
31:01 - 31:05kommentierbar ist. Graue Keywords
repräsentieren so den Durchschnitt, da -
31:05 - 31:08dann so 70 Prozent kommentierbar
und das gibt -
31:08 - 31:11natürlich auch alle Farben dazwischen.
Also wenn so'n Keyword wirklich -
31:11 - 31:15aufleuchtet, dann ist das irgendwo am Ende
der Skala oder am Anfang. Und die -
31:15 - 31:19Landkarte stell ich auch bald auf meine
Website, die jetzt kommt, da könnt ihr da -
31:19 - 31:22auch selbst drin rumklicken. So, und wir
fangen mal mit ein paar einfachen Sachen -
31:22 - 31:27an. Ja ihr ahnt es, Sport darf man quasi
komplett kommentieren, ja, knallblau. Und -
31:27 - 31:31falls ihr euch fragt, was der knallrote
Punkt da ist, das ist ein bestimmtes -
31:31 - 31:35Artikelformat, das ist technisch ohne
Kommentarfunktion. Sowas kommt schon mal -
31:35 - 31:39vor, ich sag nur, weil ich gleich sonst 13
mal die Frage kriege. Und wo man in der -
31:39 - 31:43Regel auch gut kommentieren darf, das sind
Wissenschaftsthemen und Wirtschaftsthemen -
31:43 - 31:45Hier sind die Bahnstreiks, ja.
-
31:45 - 31:49Da darf nach Kräften auf die Bahn
eingekloppt werden. -
31:49 - 31:50Gelächter
-
31:50 - 31:56Und wo wir schon von Streik reden, ist
bestimmt jeder hier im Raum in Gedanken, -
31:56 - 32:02bei der Lufthansa, die streiken ja als
Hauptkonzernaktivität. Alles blau, ja -
32:02 - 32:03Gelächer im Saal
-
32:03 - 32:06Alles blau, auch die dürfen fiese
Kommentare abkriegen. Ich würd ja -
32:06 - 32:09mitlachen, aber ich bin mit dem Flugzeug
hier in Hamburg, ne -
32:09 - 32:11Gelächter im Saal
kleiner Applaus -
32:11 - 32:16So, nach dem ganzen blau. jetzt mal was
rotes. Knallrote Landschaft, ergibt sich -
32:16 - 32:22um die Justiz. Das sind Berichte über die
Kriminalität; Morde, Attentate, ja, "the -
32:22 - 32:27full packedge" und hier will man eher
weniger Lesekommentare, ja. So, die Justiz -
32:27 - 32:33hat so 30 Prozent Kommentierbarkeit von
den üblichen 70 Prozent. Hier ist die -
32:33 - 32:38ganze Geschichte rund um den NSU-Prozeß.
Der ist hier ja auch Thema. Tiefrot, ja, -
32:38 - 32:42generell auch alles, was mit Rechtsradikal
und Nazis und so zu tun hat, darf eher -
32:42 - 32:46wenig kommentiert werden und der
Kernknubbel hier, der hat so um die 18 -
32:46 - 32:53Prozent, ja, ist also noch weniger als die
Justiz und die waren schon rot. Was auch -
32:53 - 32:55tiefrot ist, ist alles um die
Flüchtlingsthematik und zwar nicht nur -
32:55 - 32:58das Konkrete, sondern auch der
weitergefasste Rahmen, Asylrecht -
32:58 - 33:03und so weiter. Seht ihr sogar im Bild. Und
von Aussen sieht das aus, als sperrt der -
33:03 - 33:09Spiegel seine Kommentarfunktion komplett
systematisch und zwar nach Themen, Ja? Und -
33:09 - 33:12das wir sowas direkt visuell raus finden
können, das macht diese Landkarte so -
33:12 - 33:16unheimlich mächtig. Allgemein ist es in
der Data-Science nicht nur wichtig richtig -
33:16 - 33:20auszuwerten, es ist genauso wichtig, die
Informationen möglichst anschaulich -
33:20 - 33:23visuell aufzubereiten. So können dann
nämlich auch Leute, die keine -
33:23 - 33:27Informatiker sind, sofort komplexe
Zusammenhänge erkennen. Es gibt ja nur -
33:27 - 33:32eine Breitbandverbindung ins Gehirn und
das sind die Augen. Richtig interessant -
33:32 - 33:37wirds, wenn man mal guckt, wie
Spiegel-Online die Kommentierbarkeit hart -
33:37 - 33:43national ordnet. Das hier ist der ganze
Nahost-Konflikt, um Israel, ja, wie ihr an -
33:43 - 33:48dem satten Rot seht, zum Nahostkonflikt
und Israel hat man bei fast allen Artikeln -
33:48 - 33:54die Klappe zu halten. So und jetzt
schwenken wir mal vom Nahost-Konflikt zum -
33:54 - 33:58Ukraine-Konflikt. Ja lächelt seufzend
-
33:58 - 34:03akustische Aufruhr im Publikum
Einzelapplaus -
34:03 - 34:04Ja.
-
34:04 - 34:06Applaus
-
34:06 - 34:10Also. Ihr könnt euch mit nach Hause
nehmen. Meine Damen und Herren: -
34:10 - 34:12Russen bashen ist OK.
-
34:12 - 34:13Gelächter im Publikum
-
34:13 - 34:16Ja, was wir hier - Live und in Farbe -
sichtbar gemacht haben, ist nichts anderes -
34:16 - 34:21als unsere westliche Filterbuble. Die kann
man messen. Zum Iran darf man seinen Senf -
34:21 - 34:27dazugeben, zu Großbritanien auch. Zur
Türkei, da ist Spiegel-Online sich noch -
34:27 - 34:28nicht ganz sicher.
-
34:28 - 34:29Gelächter
-
34:29 - 34:34Und Frankreich ist interessant, diese
Region der Landkarte, die möchte -
34:34 - 34:39eigentlich blau sein aber die ganzen
Keywords rund um die Terrorserie dort, die -
34:39 - 34:42sind knallrot und die strahlen in die
Nachbarn aus und das schauen wir uns jetzt -
34:42 - 34:47doch mal ein bisschen genauer an, Das sind
alles Frankreichartikel aber nach Zeit. -
34:47 - 34:52Die blaue Linie ist das Aufkommen der
kommentierbaren Artikel, die rote Linie -
34:52 - 34:56wieder das Aufkommen der
Nichtkommentierbaren und wir sehen: wie -
34:56 - 35:01Frankreich von 2014 bis 2015 erstmal
überwiegend kommentierbar ist und die -
35:01 - 35:06blaue Linie ist über der roten, und hier
ist die Terrorserie in Paris im November -
35:06 - 35:122015 und es wird plötzlich enorm viel
berichtet. Also sehen wir ne krasse Spitze -
35:12 - 35:18am Frankreichartikeln, ne, und davon sind
die Meisten nicht kommentierbar. Also: -
35:18 - 35:20Frankreich an sich dürft ihr gerne
kommentieren aber bezüglich der -
35:20 - 35:26Anschläge dort bitte nicht. Und das
Interessante ist, der Effekt wirkt fort, -
35:26 - 35:30Seit der Terrorserie ist Frankreich
generell nicht mehr so kommentierbar. Die -
35:30 - 35:35rote Linie ist meist über der Blauen. Und
jetzt tretten wir wieder einen Schritt -
35:35 - 35:41zurück. Und natürlich sehe ich auch, das
der Spiegel Themenbereiche aufgrund der -
35:41 - 35:44Erfahrungen in der Verasngenheit sperren
kann. Und generell müssen wir auch -
35:44 - 35:48zugeben, das ist das gute Recht von
Spiegel-Online zu entscheiden, wo und in -
35:48 - 35:52welcher Form sie Anderen auf ihrer Seite
ne Plattform geben und wo sie das eben -
35:52 - 35:56nicht tun. Aber genauso ist es auch unser
gutes Recht diese Systematik hier mal -
35:56 - 36:01sichtbar zu machen. Und ich denke, das
sieht insgesamt so aus als verböte -
36:01 - 36:06Spiegel-Online genau zu denjeniegen Themen
die Kommentierung, bei denen zu erwarten -
36:06 - 36:13ist, das die Meinungen der Leser politisch
nicht opportun sind. Ob das jetzt etwas -
36:13 - 36:16über Spiegel-Online aussagt oder über
seine Leser oder irgendwie ein -
36:16 - 36:20gesamtgesellschaftliches Problem ist, das
müsst ihr dann wieder selbst entscheiden. -
36:20 - 36:27Was die Auswertung angeht, haben wir den
Vortrag bis jetzt im Grunde zweigeteilt. -
36:27 - 36:34Am Anfang haben wir die Artikelsammlung in
nur wenige Töpfe unterteilt, und danach -
36:34 - 36:38haben wir die Artikelsammlung in viel mehr
Töpfe unterteilt, das sind die wenigen, -
36:38 - 36:42jeder Artikel konnte sogar in mehreren
Töpfen sein. Ne, das war ja so? Wenn nen -
36:42 - 36:46Artikel mehrere Keywords hatte, dann war
er auch in mehreren Töpfen. Und das war -
36:46 - 36:51ne viel komplexere, aber auch viel
mächtigere Art der Unterteilung. Und -
36:51 - 36:55jetzt merkt ihr euch diese beiden Arten
der Unterteilung mal kurz und damit machen -
36:55 - 37:00wir was politisches, wir gehen über zum
Thema Wahlkampf. Ja, Wahlkämpfe -
37:00 - 37:04funktionieren grob so, das man die Menge
aller Wähler auseinander schneidet, -
37:04 - 37:08wie wir unsere Artikel auseinander
geschnitten haben. Das heißt dann 'Voter -
37:08 - 37:15Targeting'. Und bei der US-Wahl konnte man
z.B. sagen man schneidet die Wähler grob -
37:15 - 37:19nach Geschlecht, Hautfarbe, Alter und
Gehalt. Das wird dann in der Tat auch so -
37:19 - 37:23gemacht. Dann könnte man sozusagen allen
schwarzen Frauen in Kalifonien, die -
37:23 - 37:28zuwischen 30 und 40 sind und über 60.000
Dollar im Jahr verdienen, zugeschnittene -
37:28 - 37:34Wahlwerbung schicken. Und das ist ne
relativ grobe Art der Unterteilung und die -
37:34 - 37:38ist sozusagen analog zu unseren groben
Unterteilungen hier, auf der linken Seite -
37:38 - 37:51der Folie. Aber was wäre dann die rechte
Seite? Vor einiger Zeit hat dieser Artikel -
37:51 - 37:55des Schweizer Tagesanzeiger die Runde
gemacht. Ich bin sicher viele von euch -
37:55 - 38:01kennen den, der ging ziemlich durchs Netz,
der wurde am Tag 13 mal als Lesebefehl -
38:01 - 38:04geschickt, und so weiter und so fort. Also
ich glaube, ich habe den bestimmt 50 mal -
38:04 - 38:09bekommen, weil ich mich halt auch mit dem
Maschinen-Learning auseinandersetze. -
38:09 - 38:14Und in dem Artikel steht im Grunde, das ne
Datenanalysefirma es geschafft habe, eine -
38:14 - 38:19extrem feine Unterteilung von Wählern
hinzukriegen. Das wäre, sozusagen, analog -
38:19 - 38:23zu unserer sehr mächtigen
Themenlandkarte. Und in dem Artikel steht -
38:23 - 38:28weiter, das hätte diese Firma sowohl für
die Präsidentschaftswahl, als auch für -
38:28 - 38:33das Brexit-Referendum gemacht. Und es
wurde dann behauptet, deswegen wäre Trump -
38:33 - 38:39gewählt worden und deswegen wäre der
Brexit durchgekommen. Das ist natürlich -
38:39 - 38:43spooky. Und das verkauft sich gut. Ja -
uijuijuijuijui - Die selbe Firma hinter -
38:43 - 38:49Trump und hinter dem Brexit, ja, da glüht
der Aluhut, wirklich. -
38:49 - 38:54Gelächter
Applaus -
38:54 - 39:02Und die sagen, ihre Unterteilung der
Wählerschaft sei so fein, das man jedem -
39:02 - 39:07Wähler seine genau passende Wahlwerbung
schicken könnte. Und sie sagen nicht nur -
39:07 - 39:10das, sie sagen sie können das sogar noch
genauer, sie können sogar den -
39:10 - 39:15Gesprächston treffen, so dass der Wähler
wahrscheinlich drauf hört. Generell -
39:15 - 39:19würde ich sagen, ne, tiefer hängen.
Es ist überhaupt nicht klar, was die -
39:19 - 39:24Firma den beiden Wahlkämpfen überhaupt
wirklich gebracht hat. Die Infos kommen im -
39:24 - 39:28wesentlich nämlich von der Firma selbst
und ich glaube, ehrlich gesagt ja, da hat -
39:28 - 39:32die Firma einen hervorragenden Vertriebler
geschickt und der hat dann wirklich der -
39:32 - 39:38Presse einen brillianten Vortrag gehalten
und die Presse hat's dann einfach gekauft. -
39:38 - 39:42So und die Kernaussage ist doch nur: Ihr
könnt jetzt Wahlwerbung bekommen, oder -
39:42 - 39:46Werbung im Allgemeinen, die extrem
genau auf euch zugeschnitten ist und euch -
39:46 - 39:52so effizienter zu Dingen verleitet. Mit
anderen Worten: Endlich kriegen nur noch -
39:52 - 39:55diejenigen Viagra-Spam, die das Produkt
auch wirklich benötigen. -
39:55 - 39:57Das ist ja zunächst mal nicht schlimm.
-
39:57 - 39:58verhaltendes Gelächter
-
39:58 - 40:02Ja, Aber kaufen und eben wählen, das
müssen die Leute schon noch selbst, es -
40:02 - 40:05ist nicht so das BigData die Leute
fernsteuert. Das müssen wir schon -
40:05 - 40:10festhalten, also man könnte sagen: Wer
vor so zielgerichteter Werbung Angst hat, -
40:10 - 40:14der sollte vielleicht die eigene
Urteilsfähigkeit hinterfragen. -
40:14 - 40:19Applaus
-
40:20 - 40:26Ja. Ja. Bestimmt haben auch ein paar von
euch diesen Gedankengang gehabt und an der -
40:26 - 40:31Stelle hat ich keinen Applaus erwartet.
Sich selbst haben sie sich ein -
40:31 - 40:34bisschen bruhigt, mit diesem Gedankengang.
Das Problem ist nur, ich glaube, -
40:34 - 40:39die eigene Urteilsfähigkeit hinterfragen,
das macht kaum einer. In der Realität -
40:39 - 40:43wählen die Leute doch irgendwie
denjenigen, der ihnen am meisten, am -
40:43 - 40:48emotional passensten, kurz vor der Wahl
was zubrüllt. Ja. Und so laufen Wahlen. -
40:48 - 40:52Das ist ja auch politisch so gewollt, Wo
kämen wir auch hin, wenn Wahlen irgendwie -
40:52 - 40:55langfristigen Erfolg belohnen würden, ne.
-
40:55 - 40:56verhaltendes Lachen
-
40:56 - 41:01Und dieses emotionale Zurufen und das geht
mit so höchst personalisierter Werbung -
41:01 - 41:08urplötzlich, unglaublich effizient. Und
das bedeutet, ja, Data-Science-Techniken -
41:08 - 41:13können Wahlen beeinflussen. Ja vorhin
hatte ich die Voratsdatenspeicherung -
41:13 - 41:18angeprangert ja ich bin ja auf dem CCC,
also vermute ich, dass die Meisten von -
41:18 - 41:22von mit mir einer Meinung waren. Und damit
kommen wir genau zum Punkt; Wisst ihr, was -
41:22 - 41:26die Firma aus dem Artikel genommen hat, um
die Wähler so ultragenau zu vermessen? -
41:26 - 41:30Das waren überhaupt gar keinen
staatlichen Überwachungsdaten, das waren -
41:30 - 41:35Facebook-Likes. Also Daten, die die Leute
selbst über sich ins Netz gestellt -
41:35 - 41:39hatten, ne. Und es ist wichtig mit
staatlicher Überwachung kritisch zu sein. -
41:39 - 41:43Ja das dürfen wir und das müssen wir
auch, wenn wir kein Unrechtsstaat werden -
41:43 - 41:47wollen. Aber wenn wir dann gleichzeitig
völlig unkritisch sind mit uns selbst, -
41:47 - 41:53ja, und wirklich jeden Mist ins Facebook
oder ähnliche Plattformen pumpen, ja, -
41:53 - 41:55dann haben wir nichts gewonnen.
-
41:56 - 42:06Applaus
-
42:06 - 42:11Mein Vortrag neigt sich dem Ende zu. Es
kommen jetzt noch zwei Sachen: eine kleine -
42:11 - 42:17Überraschung und dann habe ich noch ne
Bitte an euch alle. Und zuerst gibt es die -
42:17 - 42:23Überraschung. Ja, habe ich vorhin gesagt,
ich hätte 100.000 Artikel von -
42:23 - 42:28Spiegel-Online geladen?
Ich meinte über 700.000 -
42:28 - 42:32Applaus
-
42:32 - 42:37Ne, ich lade jeden Artikel nicht nur
einmal runter, wenn er erscheint somdern -
42:37 - 42:40mehrfach in wachsenden Zeitabständen.
Und mit anderen Worten, wir können messen, -
42:40 - 42:43was in Artikeln geändert wurde.
-
42:43 - 42:50Gelächter
Applaus -
42:50 - 42:54So und aus Zeitgründen, gibts damit keine
riesen Auswertung. Erstens aus -
42:54 - 42:58Zeitgründen hier im Vortrag aber auch
zweitens aus persönlichen Zeitgründen ne, -
42:58 - 43:02ich muss irgendwann auch nochmal arbeiten.
Aber wir haben ne kleine Demo. -
43:02 - 43:07Ich hab zum Beispiel mal geguckt, ob
Titel geändert werden, ne. -
43:07 - 43:11Und bei sowas findet man einfach lustige
Sachen. Es gibt nicht nur den Titel, -
43:11 - 43:12der hier offensichtlich ist.
-
43:12 - 43:16Sondern es gibt auch zusätzlich den
Html-Titel, die Techniker unter euch -
43:16 - 43:21kennen den. Der wird oben im Browser
angezeigt und auch die Html-Titel erfasse -
43:21 - 43:27ich natürlich. So und am 21.Januar -
wobei der hier sichtbare Artikel ist am -
43:27 - 43:3220. Januar 2015 rausgekommen - und am
21.Januar und das war einen Tag nachdem -
43:32 - 43:37der Artikel erschienen war, wurde mir
angezeigt: Der Html-Titel hat sich -
43:37 - 43:43geändert aus "SAP wächst 2014 langsamer
als geplant." Ich hab mich dann gefragt: -
43:43 - 43:48He, warum wurde er denn geändert, ja also
wie war der vorher. Ganz einfach: Als der -
43:48 - 43:54Artikel rauskam, wuchs nähmlich nicht SAP
sondern der SAP-Chef -
43:54 - 43:56wuchs langsamer als geplant.
-
43:56 - 43:58Gelächter
-
43:58 - 44:00Sowas finde ich an sich ganz sympatisch,
-
44:00 - 44:02Gelächter
-
44:02 - 44:06denn es zeigt, das bei Spiegel Online noch
Menschen an den Texten sitzen und keine -
44:06 - 44:11Computer und im Moment heisst der Artikel
übrigens: SAP kann Wachstums- und -
44:11 - 44:15Gewinnziele nicht erfüllen. Also das hat
nochmal irgendwem nicht gefallen, ne. Und -
44:15 - 44:19irgendwann zwischendurch haben sie es
nochmal geändert. Also, jetzt wisst ihr -
44:19 - 44:22erst, wie mächtig der Datensatz
tatsächlich ist. Ich hab von jedem -
44:22 - 44:26Artikel diverse zeitlich versetzte
Versionen und das erlaubt natürlich viel, -
44:26 - 44:30viel krassere Auswertungen und damit fang
ich aber selbst erst an und deswegen ist -
44:30 - 44:33heute noch so wenig davon im Vortrag, aber
das war meine Überraschung und jetzt -
44:33 - 44:39kommt meine Bitte. Ihr habt jetzt alles
mögliche gesehen und wir haben Artikel -
44:39 - 44:44auf einfach und komplexe Weise unterteilt.
Wir haben gesehen, das verschiedene -
44:44 - 44:47Arten der Unterteilung und Darstellung
verschieden mächtig sind und wir haben -
44:47 - 44:51verschiedenste Features aus den Artikeln
gelesen: Rubrik, Zeiten, Kommentierbarkeit -
44:51 - 44:57Autor. Jede Menge weiterer Features sind
denkbar. Auch kompliziertere Features ja. -
44:57 - 45:01Man könnte zum Bsp für jeden Artikel die
darin enthaltenden Links raus ziehen und -
45:01 - 45:05dann gucken, ob bestimmte Autoren Kumpels
haben, auf die sie oft verlinken. -
45:05 - 45:09Der Fantasie sind wirklich keine Grenzen
gesetzt. Und zum Schluss haben wir sogar -
45:09 - 45:15gesehen, wir können für jeden Artikel
messen, was verändert wurde, ne. -
45:15 - 45:20Wir können z.B. gucken, wo die Leser am
meisten randalieren. Da guckt man, indem -
45:20 - 45:23man guckt, wo die Kommentarfunktionen erst
geöffnet und später dann geschlossen -
45:23 - 45:29sind. Also meine Bitte an euch, jeder der
hier zuguckt, schickt mir bitte einen Mail -
45:29 - 45:35mit seinem kreativsten Auswertungsideen
für den Datensatz. Und in dem -
45:35 - 45:37Zusammenhang hab ich noch ne Message, die
ihr euch auch mitnehmen könnt. Wenn ihr -
45:37 - 45:41was im Bereich der Data-Science macht,
Rohdaten sind geil. -
45:41 - 45:54Gelächer
Applaus -
45:54 - 45:58Behaltet immer alle Rohdaten, wenn ihr es
irgendwie vom Speicher bezahlen könnt. -
45:58 - 46:02Ne, dann könnt ihr nämlich im nachhinein
alles mögliche tun. Ich hab alle Rohdaten -
46:02 - 46:05komplett da. Das sind über 60 GB
pures HTML. -
46:05 - 46:06Gelächter
-
46:07 - 46:11Und neue Features im nachhinein dazu
auswerten, ist deswegen überhaupt -
46:11 - 46:14kein Problem. Darum bitte, bitte, lasst
eurer Fantasie freien Lauf. Erfindet neue -
46:14 - 46:18Features, erfindet wonach die ausgewertet
werden sollen. Schickt mir einfach, was -
46:18 - 46:22ihr euch denkt, ja. Vieleicht ist nicht
alles, was ihr wollt möglich und -
46:22 - 46:25vielleicht schau ich auch nicht alles
sofort. Ich bin ja auch berufstätig und -
46:25 - 46:29zum Jahresanfang werde ich stramm
eingespannt sein Aber ich versuch was -
46:29 - 46:34möglich zu machen. Also einfach
einschicken. Seit kreativ. Und damit -
46:34 - 46:38bleibts mir nur noch, ein dickes
Dankeschömn zu sagen dafür das ihr diese -
46:38 - 46:42Stunde mit mir verbracht habt.
Hier sind noch die Links. Und bis dann. -
46:42 - 47:02Applaus
JubelApplaus -
47:02 - 47:06Herald: Ganz so schell wirst du
natürlich noch nicht entlassen, weil wir -
47:06 - 47:11haben noch unsere Fragerunde. Erstmal
herzlichen Dank, immer schön zu sehen, -
47:11 - 47:15wie die Mathematik doch spannend sein
kann, um eben solche Daten zu analysieren. -
47:15 - 47:24Und ja, wie immer, wenn ihr Fragen habt,
tretet vor zu den Mikrofonen. Und alle die -
47:24 - 47:30schnell, ich glaube nebenan startet der
Jahresrückblick mit Fefe oder -
47:30 - 47:33David Kreisel: Ne der Fefe sitzt da vorne
im Publikum. -
47:33 - 47:41Herald: Ach ja, der sitzt noch hier. So
schnell wird er dann drüben noch nicht -
47:41 - 47:47starten, vielleicht wollen die schon mal
einen Platz. Genau. .... Wo haben wir -
47:47 - 47:49Fragen, an Mikro 3, beginnen wir dort:
-
47:49 - 47:55Mik 3: Hi, super Vortrag, fand ich echt
Klasse. Was mich mal interessieren würde: -
47:55 - 47:58Hast du mal geguckt, ob die Split testen
und die Artikel-Überschriften ändern -
47:58 - 48:01anhand von wieviel Leute drauf klicken
oder sowas? -
48:01 - 48:05David: Ja das würde man messen daran,
wie viele verschiedene Titel man so findet -
48:05 - 48:09und wenn diese Zahl der durchschnittlichen
Titel pro Artikel ansteigt, dann passiert -
48:09 - 48:15das und wenn ich das richtig interpretiere
dann testen sie das gerade. Also es ist -
48:15 - 48:18noch nicht übergreifend, es ist immer nur
so stossweise, vielleicht will mich auch -
48:18 - 48:22einer korrigieren von Spiegel Online, aber
so wie meine Daten aussehen, ja hab ich -
48:22 - 48:27getestet, sie versuchen es gerade. Also
was ist Splittesten? Vieleicht mal fürs -
48:27 - 48:31Publikum. Man veröffentlicht Artikel mit
verschiedenen Titeln und dann guckt man, -
48:31 - 48:34wo am meisten Leute klicken, bei welchem
Titel und der Titel darf dann weiter -
48:34 - 48:39leben. Ihr verändert also durch euren
Besuch direkt die Nachrichtenseite. -
48:39 - 48:46Mikro 1: Ja hi. Ich wollte fragen, ob du
auch Spiegel-plus Artikel, die es ja seit -
48:46 - 48:50Mitte diesen Jahres, glaube ich, gibt mit
einbezogen hast und wenn ja, hast du einen -
48:50 - 48:51plus Account?
-
48:51 - 48:52David: Äh, ja.
-
48:52 - 48:54leichtes Gelächter im Publikum
-
48:54 - 48:58Ich habe die mit einbezogen, ähm, und
natürlich habe ich auch einen -
48:58 - 49:00plus-Account, der das vollautomatisch
entschlüsselt, -
49:00 - 49:01räusper
-
49:01 - 49:02und dazu also
-
49:02 - 49:03Gelächter
-
49:03 - 49:06wenn einer Näheres - Ich hab mich da
wahnsinnig geärgert - kurz - als die -
49:06 - 49:10plus-Artikel rauskamen, weil ich die
nicht auf Anhieb de-krypten konnte. -
49:10 - 49:12Und dazu gibts jetzt bei mir einen
Blogartikel, seitdem, -
49:12 - 49:15wie man die de-kryptet.
-
49:15 - 49:19Applaus
-
49:19 - 49:23Ich muss übrigens mal was Positives
sagen, die Spiegel plus Artikel sind im -
49:23 - 49:26Median 1100 Worte lang, also man muss
schon sagen, -
49:26 - 49:27da kriegt ihr auch was fürs Geld.
-
49:27 - 49:30leichtes Gelächterleichter Applaus
-
49:30 - 49:40Mikro 7: Hast du im Rahmen deiner Analysen
auch auf die Inhalte geguckt, das du -
49:40 - 49:46vielleicht die Worthäufigkeit analysiert
hast und die Zuordnung zu Ressorts oder zu -
49:46 - 49:51Schlagworten anhand der Inhalte
abgeglichen hast, um vielleicht raus -
49:51 - 49:55zufinden, ob die Verschlagwortung
vollständig oder richtig ist. -
49:55 - 49:59David: Ne hab ich noch nicht gemacht. Man
kann ja die Schlagworte nehmen und da hab -
49:59 - 50:02ich es mir bequem gemacht oder man
versucht jetzt ne Analyse zu machen, was -
50:02 - 50:05die relevanten Worte im Artikel sind und
das hab ich noch nicht gemacht, Das wären -
50:05 - 50:08dann sozusagen die schöneren Schlagworte.
Aber ne, hab ich noch nicht gemacht. -
50:08 - 50:12Herald -Frage aus dem Internet:
-
50:12 - 50:16Signal Angel: IRC möchte wissen, welche
Software du benutzt hast, um die Daten zu -
50:16 - 50:20sammeln. zu analysieren, zu visualisieren
und ob es -
50:20 - 50:21die Daten irgendwo gibt, außer bei dir.
-
50:21 - 50:24David: OK. Nein gibts noch nicht, irgendwo
außer bei mir, weil ich mir auch gar -
50:24 - 50:31nicht sicher bin, ob ich die verteilen
darf. Ich benutze den Python Data Stack -
50:31 - 50:35und die Software zum runterladen hab ich
mir selbst geschrieben, die läuft auf -
50:35 - 50:41einem meiner Server und darüberhinaus
nutze ich Pandas für die Analyse, das ist -
50:41 - 50:44auf Python aufbauend und dann diese ganze
MaschinLearning Sachen da drüber -
50:44 - 50:49scikit-learn. Also den ganzen Py DataStack
googelt danach einfach, da findet ihr viel -
50:49 - 50:52und zum Visualisieren hab ich hier Tableau
genommen, das ist ne -
50:52 - 50:57Visualisierungssoftware. Die schon
voragregierte und vorerechnete Daten bis -
50:57 - 51:00zu ein paar GigaByte ganz gut verkraftet
und da kann man sehr schnell schöne -
51:00 - 51:05Visualisierungen draus ziehen und zum
-
51:05 - 51:06Visualisieren der Graphen hab ich Gephi
genommen. -
51:06 - 51:13Mikro 4: Hast du Daten Real-Time
analysiert oder -
51:13 - 51:14alles im nachhinein gemacht?
-
51:14 - 51:16David: Ich versteh die Frage nicht.
-
51:16 - 51:20Mirko: Ob du die Daten während du sie
gesammelt hast analysiert hast? -
51:20 - 51:23David: Ach so, ne. Das wird alles
rohdatenmäßig gesammelt, dann wird das -
51:23 - 51:29im weiteren Schritt erst mal, werden die
Rohfeatures rausge-parsed und das sind dann -
51:29 - 51:32so wenige, das sie in der Tat dann in
einen RAM passen und ich dann darauf -
51:32 - 51:36weitere High-Level Feature machen kann.
Das passiert so in 3 Layern. Also es ist -
51:36 - 51:41nicht direkt dabei aber während wir hier
gesprochen haben, ist schon wieder 10 mal -
51:41 - 51:44runter geladen worden. Insofern ist das
schon gleichzeitig zum Runterladen. -
51:44 - 51:49Das Runterladen geht weiter.
-
51:49 - 51:54Mikro 3: Eine Idee für die Auswertung: Du
könntest mal gucken, ob bestimmte -
51:54 - 51:57Wortgruppen in älteren Artikeln nochmal
vorkamen, um zu sehen welche zusammen -
51:57 - 51:58kopiert wurden.
-
51:58 - 52:03David: Du meinst, ja ja , so ne Auswertung
im Sinne von: In jedem Artikel kriegt ihr -
52:03 - 52:07durchschnittlich 73 Prozent neuen Content
quasi, ja? -
52:07 - 52:09Gelächter
-
52:09 - 52:10Mikro: Ja
-
52:10 - 52:12David: Guter Punkt
-
52:12 - 52:13Applaus
-
52:13 - 52:15David: Machen wir so.
-
52:17 - 52:23Mikro: Hallo, ich wollte nur kurz einen
Denkanstoss geben, ich formuliere das mal -
52:23 - 52:28als Frage. Könnte es sein, das diese
Nichtkommentierbarkeit von Israel-Artikeln -
52:28 - 52:32auch einfach ein Ressourcen-Problem ist,
weil es da vielleicht mehr aus -
52:32 - 52:36juristischen Gründen zu zensieren gibt
für die Redaktion? -
52:36 - 52:38David: Das kann selbstverständlich sein.
Ja natürlich. -
52:38 - 52:41Mikro: Z.B. gibt es ja durchaus
Sigularitäten mit dem deutschen -
52:41 - 52:43Strafrecht, das man bestimmte Sachen
nicht sagen darf. -
52:43 - 52:49David: Ja. Also, hätte es nur Israel
erwischt, hätte ich das auch sofort auch -
52:49 - 52:52gedacht. Aber ja kann natürlich sein.
Das ist auch so ganz wichtig an so -
52:52 - 52:55Data-Science, ich hab das hier jetzt
teilweise bisschen ketzerisch vorgetragen -
52:55 - 52:58aber natürlich müsst ihr schon selbst
nochmal gucken, was ihr aus den Daten -
52:58 - 53:02folgert. Ja natürlich, das kann sein. Am
besten wissen das natürlich nur die -
53:02 - 53:06Spiegelleute. Aber Israel war ja nicht der
einzige Punkt der nichtkommentierbar war -
53:06 - 53:13und zur reinen Justiz gibt es keine
Singularität im deutschen Strafrecht. -
53:13 - 53:18Mikro 6: Hallo David, vielen Dank für den
Talk. Hast du überlegt die Software -
53:18 - 53:22irgendwie Open Source anzubieten , so
dass man sie z.B. für -
53:22 - 53:25andere Quellen anpassen kann. Tagesschau
etc. -
53:25 - 53:30David: Hab ich nicht überlegt. Aber
ehrlich gesagt, so aufwendig ist es auch -
53:30 - 53:36nicht. Ihr schreibt euch nen Script, was
euch alle paar Minuten mal losläuft und -
53:36 - 53:41die Artikel runter lädt und das
speicherst in einer Datenbank fertig. Also -
53:41 - 53:45das Open Source, ist das uninteressanteste
was es gibt. Ddas findet ihr in 1000 -
53:45 - 53:49Varianten sauberer als ich das gemacht hab
nochmal, glaube ich. Aber ja, man könnte -
53:49 - 53:52mal eine Vergleichsauswertung mit anderen
Medien starten, ja. -
53:52 - 53:58Mikro 1: Wie hast du den Strain aus deiner
Karte entfernt, du hast da ne ganze Menge -
53:58 - 54:00Dimensionen auf zwei Dimensionen runter
gebrochen .. -
54:00 - 54:02David: Den was aus meiner Karte entfernt?
-
54:02 - 54:04Mikro: Die Spannung, weil du hast ja sehr
-
54:04 - 54:07viel Dimensionen auf zwei Dimensionen
reduziert ... -
54:07 - 54:07David: Ja,
-
54:07 - 54:09Mikro: .. und wie hast du sichergestellt,
das jetzt nicht Inseln bei einander sind, -
54:09 - 54:12die gar nicht zusammen gehören oder
manche anderen nicht beieinander sind, -
54:12 - 54:15die aufgrund von Inseln, die dazwischen
liegen nicht nah genug zueinander kamen. -
54:15 - 54:18David: In der Theorie kann man das nie
ausschliessen, aber in dem Graoh steckt -
54:18 - 54:22sehr viel Verfahren drin. Also ich hab
zunächst mal zugesehen, das ich -
54:22 - 54:25überhaupt nur die wichtigen Kanten pro
Knoten behalte, sonst hat man wirklich -
54:25 - 54:30viel zu viele Kanten und dann gibts da
professionelle Graph-Layouting-Verfahren -
54:30 - 54:34für, also Gephi bietet was, das heißt
VsAtlas 2 und das war das, was ihr in den -
54:34 - 54:38hübschen Video gesehen habt, damit geht
das sehr gut, Also du must das natürlich -
54:38 - 54:43ein bisschen Schmakes da rein investieren,
wie du die Kanten vorher ausfilters und -
54:43 - 54:47dann, dann bist du immer noch nicht sicher
in der Theorie, aber dann siehst ja, ob -
54:47 - 54:50das Bild gut wird oder nicht.
-
54:50 - 54:55Mikro 2: Du meintest, du warst im Oktober
beim Spiegel, wie war den deren Reaktion -
54:55 - 54:57zu deinen Analysen?
-
54:57 - 55:01David: Positiv, also, ob das jetzt nur
daran lag, dass die sowieso nichts dagegen -
55:01 - 55:04tun können, weiss ich nicht,
aber ehrlich gesagt, -
55:04 - 55:05Gelächter
-
55:05 - 55:08hab ich das als sehr positiv und
interessiert wargenommen und auch ich hab -
55:08 - 55:13was gelernt und das war eigentlich einen
ziemlich cooler Termin, also sportlicher -
55:13 - 55:17als die Kollegen bei Xerox sag ich mal.
-
55:17 - 55:23großes GelächterApplaus
-
55:23 - 55:34Mikro: Ist vielleicht ne Suggestivfrage,
vielleicht auch in Richtung, wie man -
55:34 - 55:43weiterforschen könnte. Das Verfahren, das
du benutzt hast, um die thematische Nähe -
55:43 - 55:47verschiedener Tags zueinander zu
bestimmen, wäre es mathematisch -
55:47 - 55:49ACHTUNG: Mathematiker-Kauderwelsh ..
-
55:49 - 55:52nicht korrekter, wenn du eine singuläre
Zerlegung der Adjazentmatrix -
55:52 - 55:55dieser Schlagworte baust,
ähnlich wie Google Page Rank -
55:55 - 55:56das gemacht hat.
-
55:56 - 56:02David: Ja. Aber dann kann man nicht so
einen schönen Graphen draus basteln und -
56:02 - 56:06es kommt wahrscheinlich was ähnliches
raus, sein wir ehrlich. Ich sehe ja die -
56:06 - 56:09Werte der Kanten und wahrscheinlich ist es
am Ende das Selbe. -
56:09 - 56:16Mikro: Ja wenn du genug Dimensionen
benutzt ist es äquivalent. -
56:19 - 56:22David: Ja.
Alles ist still, Mensch. -
56:22 - 56:26Mikro 3: Nochmal kurz zu den Landkarten,
das sind irgendwelche -
56:26 - 56:28MonteCarlo Methoden diese Springs ...
-
56:28 - 56:29David: Ja
-
56:29 - 56:34Mikro: ... im Endeffekt positionieren, wie
stabil sind die? -
56:34 - 56:38David: Ich denke, ich hab mich da in die
Theorie nicht eingearbeitet weiter, es -
56:38 - 56:41würde mich wundern, wenn du da ne
Stabilität drüber nachweisen könntest. -
56:41 - 56:45"Fest steht, sie sind etabliert für
große Graphen." weil da ist sowieso nix -
56:45 - 56:50mehr zu planarisieren in der Größe und
dann sieht man halt zu zu iterieren bis es -
56:50 - 56:54stimmt und wenn es schlecht aussieht, dann
drückt man nochmal auf den Startknopf. -
56:54 - 56:57Also so ist wirklich die Praxis.
-
56:58 - 57:03Mikro: Hallo. Hast du mal Markov auf deine
Daten geworfen, -
57:03 - 57:05um Spiegelartikel zu generieren.
-
57:05 - 57:07GelächterApplaus
-
57:07 - 57:09David: Nein! Könntest du mir bitte damit
eine Email schicken? -
57:09 - 57:12Gekiecher und Gelächter im Saal
Mikro: Sehr gerne. -
57:12 - 57:14David: Oh wir haben Spaß, ich seh das
schon .. -
57:14 - 57:17GelächterApplaus
-
57:17 - 57:25D: Da machen wir aber nicht nur die
Artikel Generierung sondern dann wird -
57:25 - 57:29bitte auch direkt dazu generiert, zu
welchem Thema kommentiert werden darf -
57:29 - 57:31und zu welchen nicht, ne ...
-
57:31 - 57:32vereinzeltes Gelächter
Ruf aus dem Publikum: Autoren generieren -
57:32 - 57:35David: Autoren generieren, das ist auch
schön, ja. -
57:35 - 57:37Gelächter
-
57:37 - 57:45Herald: So wir sind auch am Ende unserer
Zeit. Wer noch Fragen hat, du bist sicher -
57:45 - 57:46gleich noch ...
-
57:46 - 57:50David: Ich geh hier jetzt da raus, zur
nächsten Bierbar, die da ist, falls die -
57:50 - 57:57nicht vor Saal 2 ist, ist die vor Saal 1
dann bin ich da. -
57:57 - 57:59Wir machen jetzt DDos auf
die Bierbar. Ja. -
57:59 - 58:00Applaus
-
58:00 - 58:03Herald: Ja ist ja auch Zeit.
-
58:03 - 58:12Applaus
-
58:12 - 58:19Herald : Auch von mir auch nochmal ein
Herzlichen Dank .... -
58:20 - 58:2633c3 - Abspann-Musik
-
58:26 - 58:46Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!
Show all