WEBVTT
00:00:00.000 --> 00:00:13.230
33C3 Vorspannmusik
00:00:13.230 --> 00:00:18.370
Herald Carina Haupt: David Kriesel ist
Data Scientist. Und der eine oder andere
00:00:18.370 --> 00:00:24.919
kennt ihn vielleicht noch vom 31C3, wo er
den relativ bekannt gewordenen berühmten
00:00:24.919 --> 00:00:27.039
Xerox Scanning Bug Vortrag gehalten hat.
00:00:27.039 --> 00:00:34.950
Applaus
00:00:34.950 --> 00:00:41.460
Dieser hat ihn offensichtlich nicht nur
hier bekannt gemacht. Sondern auch zu
00:00:41.460 --> 00:00:45.840
internationaler Bekanntheit verholfen. Und
damit begrüsse ich ihn und freue mich auf
00:00:45.840 --> 00:00:51.380
einen spannenden Talk und bitte Euch
nochmal um einen ganz ganz herzlichen
00:00:51.380 --> 00:00:54.100
Applaus für David.
00:00:54.100 --> 00:00:57.040
Applaus
00:00:57.040 --> 00:00:59.320
David: Dankeschön
00:00:59.320 --> 00:01:01.060
Applaus
00:01:01.060 --> 00:01:06.720
Ja, dankeschön. Herzlich willkommen. Auch
nochmal von mir. Auch an die Leute im
00:01:06.720 --> 00:01:11.580
Internet. Und auch an die Leute vom
Spiegel. Von denen ich weiss, dass sie
00:01:11.580 --> 00:01:18.390
anwesend sind. Es ist schön wieder hier
zu sein. Mein Name ist David Kriesel. Ich
00:01:18.390 --> 00:01:22.570
bin Informatiker aus Bonn. Und ich mache
beruflich, es wurde schon gesagt Data
00:01:22.570 --> 00:01:26.620
Science und Machine Learning. Und salopp
gesagt, versuche ich für meine
00:01:26.620 --> 00:01:33.540
Arbeitgeber aus grossen Datenmengen Wissen
zu ziehen. Und seit 2014 habe ich knapp
00:01:33.540 --> 00:01:38.750
100 000 Artikel von Spiegel Online
ge-vorratsdaten-speichert.
00:01:38.750 --> 00:01:45.550
GelächterApplaus
00:01:45.550 --> 00:01:49.590
Und das habe ich einfach niemanden
erzählt.
00:01:49.590 --> 00:01:51.320
Gelächter
00:01:51.320 --> 00:01:55.420
Und während ich da so zweieinhalb Jahre
sitze und das niemanden erzähle, ist die
00:01:55.420 --> 00:01:59.470
Stimmung medial irgendwie umgeschlagen.
Vor zweieinhalb Jahren war die Welt noch
00:01:59.470 --> 00:02:04.600
in Ordnung und heute ist die Rede von
Lügenpresse und Fake News und genau aus
00:02:04.600 --> 00:02:09.669
dieser Zeit des Stimmungsumbruchs haben
wir jetzt einen riesigen Datensatz über
00:02:09.669 --> 00:02:15.290
den vielleicht grössten Meinungsmacher
unserer Nation. Und mit diesem Datensatz
00:02:15.290 --> 00:02:18.950
werden wir heute zwei Sachen machen:
Erstens, wir werden den Datensatz
00:02:18.950 --> 00:02:23.720
durchleuchten und was über Spiegel Online
lernen. Und zwar so, dass ihr das auch mit
00:02:23.720 --> 00:02:29.629
nach Hause nehmen und beim Lesen dann
anwenden könnt. Und zweitens, wir werden
00:02:29.629 --> 00:02:34.129
Einblick erhalten wie die Datensammelwut
von heute funktioniert und wie mächtig
00:02:34.129 --> 00:02:38.029
oder vielleicht auch nicht mächtig die
ist. Und das machen wir so, dass es für
00:02:38.029 --> 00:02:42.750
jeden verstehbar ist, nicht nur für
Informatiker. Und zusätzlich werde ich,
00:02:42.750 --> 00:02:46.359
wie in meinem letzten Vortrag vor zwei
Jahren ein bisschen auf das
00:02:46.359 --> 00:02:50.069
Gesellschaftliche eingehen. Und wir werden
an ein paar passenden Beispielen
00:02:50.069 --> 00:02:53.429
beleuchten, wie die moderne
Datenverarbeitung unsere Gesellschaft
00:02:53.429 --> 00:02:57.210
beeinflussen kann. Und ob wir die Welt,
mit dieser allumfassenden Datensammelwut
00:02:57.210 --> 00:03:01.119
besser machen oder schlechter machen, dass
kann dann ja später jeder von euch für
00:03:01.119 --> 00:03:06.510
sich selbst entscheiden. Am besten fangen
wir an, in dem ich kurz beschreibe wie
00:03:06.510 --> 00:03:12.010
genau Spiegelmining funktioniert. Rund um
die Uhr, alle paar Minuten schaut einer
00:03:12.010 --> 00:03:16.599
meiner Server vollautomatisch auf Spiegel
Online nach ob dort neue Artikel stehen
00:03:16.599 --> 00:03:20.340
und werden neue Artikel gefunden, dann
werden die heruntergalden und
00:03:20.340 --> 00:03:25.141
abgespeichert. Und auf diese Weise hat der
Datensatz einen coolen Vorteil der ja
00:03:25.141 --> 00:03:29.519
jetzt vielleicht nicht sofort ersichtlich
ist: ich erhalte neue Artikel binnen
00:03:29.519 --> 00:03:33.960
Minuten, nachdem sie veröffentlicht
wurden. Das heisst, ich kriege die im
00:03:33.960 --> 00:03:35.650
Originalzustand, also vor allen
00:03:35.650 --> 00:03:37.470
Verbesserungen und Änderungen,
00:03:37.470 --> 00:03:38.920
die im Nachhinein vorgenommen
00:03:38.920 --> 00:03:41.519
werden und das ist natürlich
viel aussagekräftiger.
00:03:41.519 --> 00:03:45.589
Man erhält ein unverfälschten Eindruck und
es ist nicht so wie wenn man einen Artikel
00:03:45.589 --> 00:03:50.129
runterlädt, die vieleicht schon Jahre alt
und tausend mal editiert sind. Aus den
00:03:50.129 --> 00:03:54.059
heruntergeladenen Artikeln lese ich dann
sogenannte Features. Feature ist einfach
00:03:54.059 --> 00:03:57.919
das Fachwort für ein Artikelmerkmal. Ganz
einfache Features eines Artikels können
00:03:57.919 --> 00:04:00.420
zum Beispiel der
Veröffentlichungszeitpunkt oder die
00:04:00.420 --> 00:04:04.260
Rubrik sein, in der der Artikel steckt.
Und die Features nehme ich dann und mache
00:04:04.260 --> 00:04:08.739
damit Auswertungen, von den sehen wir
heute noch ein paar. Und die interessanten
00:04:08.739 --> 00:04:12.979
unter den Auswertungen nutze ich dann, um
auf meiner Seite eine Blogartikelserie zu
00:04:12.979 --> 00:04:16.959
schreiben, um meinen Lesern einen Einblick
in Spiegel Online und die Data Science
00:04:16.959 --> 00:04:21.060
gleichermassen zu geben und das war es.
Spiegelmining in wenigen Minuten. Und am
00:04:21.060 --> 00:04:24.750
Anfang machen wir jetzt ein paar sehr
einfache Auswertungen, so sehen wir wie
00:04:24.750 --> 00:04:28.110
das funktioniert und verschaffen uns
gleichzeitig einen Überblick über
00:04:28.110 --> 00:04:32.060
Spiegel Online und als erstes zählen wir
mal wie häufig die einzelnen Rubriken so
00:04:32.060 --> 00:04:37.400
vorkommen. Das ist die Ansicht. Die
Größe der Kreise gibt die Artikelanzahl
00:04:37.400 --> 00:04:42.340
pro Rubrik wieder und wie wir sehen, wird
Spiegel Online dominiert von Politik, das
00:04:42.340 --> 00:04:47.740
ist der große rote Kreis rechts oben, von
Panorama, das ist der grüne Kreis in der
00:04:47.740 --> 00:04:51.930
Mitte und vom Sport, das ist der
fliederfarbene Kreis ganz unten. Ich
00:04:51.930 --> 00:04:54.740
weiss, was fliederfarben ist. Ich höre
schon Leute lachen.
00:04:54.740 --> 00:04:57.490
Applaus
00:04:57.490 --> 00:05:04.270
Also die drei Rubriken, die machen
zusammen die Hälfte der Artikel aus. Und
00:05:04.270 --> 00:05:08.169
das nächste supereinfache Feature ist der
Veröffentlichungszeitpunkt von jedem
00:05:08.169 --> 00:05:11.910
Artikel. Damit messen wir jetzt einfach
mal, wieviele Artikel Spiegel Online am
00:05:11.910 --> 00:05:16.120
Tag so schreibt. Der Plot sieht jetzt
richtig richtig krass unordentlich aus,
00:05:16.120 --> 00:05:19.730
dass man da fast keine Werte erkennen
kann. Das liegt an den Wochenenden.
00:05:19.730 --> 00:05:23.020
Da wird um die Hälfte weniger
veröffentlicht als normal. Und deswegen
00:05:23.020 --> 00:05:27.019
schwankt das so krass. Und hier gibt es
dann auch gleich den ersten Bericht aus
00:05:27.019 --> 00:05:32.240
der Praxis: wie man deutlich sieht, habe
ich Anfang März 2015 ein paar Tage Loch
00:05:32.240 --> 00:05:36.770
in den Daten. Und der Grund ist, dass der
März ein Monat mit "ae" ist.
00:05:36.770 --> 00:05:40.180
GelächterApplaus
00:05:45.950 --> 00:05:52.639
Also, mir ist das nach kurzer Zeit zum
Glück aufgefallen. Also wenn Ihr Daten
00:05:52.639 --> 00:05:56.940
aufnehmt, dann programmiert Euch bitte mal
irgendeine Form von Warnsystem, das
00:05:56.940 --> 00:06:00.710
anschlägt, wenn länger keine Daten mehr
eintrudeln. Ich hatte das zum Glück und
00:06:00.710 --> 00:06:04.380
das hat mir hier sehr geholfen. Jetzt
schlägt es in ein paar Minuten an und da
00:06:04.380 --> 00:06:08.009
hatte ich so irgendwie ein paar Tage keine
Ahnung. Zurück zum Plot: Wegen der
00:06:08.009 --> 00:06:10.969
Unordnung mit den Wochenenden ändern wir
jetzt unseren Plot und berechnen statt den
00:06:10.969 --> 00:06:14.821
Artikeln pro Tag jetzt die Artikel pro
Woche. Und man sieht jetzt auch was und da
00:06:14.821 --> 00:06:19.340
sehen wir, dass Spiegel Online im Schnitt
so 700 Artikel die Woche veröffentlicht,
00:06:19.340 --> 00:06:23.979
also so 100 am Tag. Und das ist schon
ziemlich viel Output. Übrigens die beiden
00:06:23.979 --> 00:06:28.830
krassen Einbrüche, die Ihr hier seht, das
sind die Weihnachtswochen, da wird weniger
00:06:28.830 --> 00:06:32.430
veröffentlicht und der Datensatz für
diesen Vortrag ist vom 4. Dezember,
00:06:32.430 --> 00:06:36.490
deswegen ist dieser Weihnachts-Low dieses
Mal einfach noch nicht drin. Und wenn man
00:06:36.490 --> 00:06:41.090
jetzt Features einzeln betrachtet, aber
richtig interessant wird es, wenn wir
00:06:41.090 --> 00:06:43.979
Features zusammen betrachten. Wir
verwursten jetzt also mal
00:06:43.979 --> 00:06:48.440
Veröffentlichungszeitpunkt und Rubrik
zusammen. Und dann können wir sehen, das
00:06:48.440 --> 00:06:54.740
beispielsweise der Output in den Rubriken
Panorama und Politik stabil ist. Während
00:06:54.740 --> 00:06:58.840
Wissenschaft und Uni-Spiegel ganz schön
zusammengestrichen wurden. Das gilt
00:06:58.840 --> 00:07:02.759
übrigens in abgeschwächter Form auch für
andere Ressorts. Solche Infos, welche
00:07:02.759 --> 00:07:06.990
Ressorts gerade gerupft werden, sind zum
Beispiel relativ interessant, wenn man
00:07:06.990 --> 00:07:10.840
Konkurrent von Spiegel Online ist. Das
kann man ohne weiteres auslesen. Und wir
00:07:10.840 --> 00:07:15.470
sehen, geschickt Features ausdenken und
zusammenstöpseln, ist die halbe Welt.
00:07:15.470 --> 00:07:20.160
Jetzt nehmen wir mal die Textlänge der
Artikel dazu. Hier sind die typischen
00:07:20.160 --> 00:07:25.050
Artikellängen im Spiegel angegeben und
zwar pro Rubrik. Und man sieht, dass der
00:07:25.050 --> 00:07:30.160
typische Kulturartikel fast dreimal so
lang ist, wie der typische Panorama- oder
00:07:30.160 --> 00:07:35.569
Sportartikel und immerhin noch doppelt so
lang wie der typische Politikartikel. Und
00:07:35.569 --> 00:07:40.110
jetzt hatten wir schon gesehen, das
Panorama, Sport und Politik trotz ihrer
00:07:40.110 --> 00:07:43.680
kurzen Artikellängen genau die drei
dominierenden Ressorts sind. Und daraus
00:07:43.680 --> 00:07:48.509
können wir folgern, das Spiegel Online es
eher auf Reichweite anlegt und auf
00:07:48.509 --> 00:07:54.600
Abdeckungsbreite als auf Tiefe. Die
Strategie Reichweite um jeden Preis
00:07:54.600 --> 00:07:58.179
scheint Spiegel Online auch noch so zu
verstärken. Die zusammengestrichenen
00:07:58.179 --> 00:08:01.760
Rubriken waren alles welche mit eher
langen Texten. Und bevor das hier jetzt
00:08:01.760 --> 00:08:05.660
falsch ankommt, ich sage das ohne jede
Wertung im Sinne von gut oder schlecht das
00:08:05.660 --> 00:08:09.140
ist ja eine valide Strategie für ein
Medium und ich beschreibe einfach nur
00:08:09.140 --> 00:08:12.789
gemessene Daten. Und es ist keineswegs der
Zweck der Veranstaltung irgendwie
00:08:12.789 --> 00:08:16.609
substanzlos in Richtung von Spiegel Online
zu haten. Wer hatet wird nicht ernst
00:08:16.609 --> 00:08:19.869
genommen. Das habe ich ja in meinem
letzten Vortrag schon ausführlich
00:08:19.869 --> 00:08:23.900
beschrieben. Und die meisten Sachen, die
hier im Vortrag noch kommen, denkt daran,
00:08:23.900 --> 00:08:29.169
die sind bei den anderen wahrscheinlich
ähnlich. Wichtig ist auch dass man mit
00:08:29.169 --> 00:08:33.740
den Features experimentiert. Hier ist zum
Beispiel ein Diagramm, das zeigt, dass
00:08:33.740 --> 00:08:38.260
Veröffentlichungsvolumen pro Wochentag
und Stunde. Die Zeilen sind die Wochentage
00:08:38.260 --> 00:08:42.559
und die Spalten sind die Stunden eines
Tages. Pro Wochentag und Stunde sehen wir
00:08:42.559 --> 00:08:46.450
einen Block. Und in den grossen Blöcken
sind viele Artikel erschienen und in den
00:08:46.450 --> 00:08:51.970
kleinen wenige. Und jetzt lernen wir daran
mal, wie es in der Data Science zugeht:
00:08:51.970 --> 00:08:56.300
Erstens: In der Data Science findet man
immer wieder Botschaften bestätigt, die
00:08:56.300 --> 00:09:01.720
man vorher schon erahnt hat. Das ist der
langweilige Teil der Data Science. Aber
00:09:01.720 --> 00:09:05.531
das ist gut, um die eigenen Messverfahren
zu überprüfen. Wir sehen hier, zu den
00:09:05.531 --> 00:09:10.400
unchristlichen Zeiten wird viel weniger
veröffentlicht. Bahnbrechende Erkenntnis:
00:09:10.400 --> 00:09:12.970
Auch der Spiegel-Online-Redakteur
möchte mal schlafen.
00:09:12.970 --> 00:09:14.200
Gelächter
00:09:14.200 --> 00:09:20.580
Zweitens: In der Data Science findet man
aber auch immer Systematiken da, wo man
00:09:20.580 --> 00:09:25.690
keine erwartet hat. Und das passiert oft
dann, wenn man Features verbindet. Wir
00:09:25.690 --> 00:09:29.840
färben jetzt mal jeden dieser Blöcke
ein, nach der typischen Textlänge. Rote
00:09:29.840 --> 00:09:35.120
Blöcke enthalten typischerweise lange
Texte und blaue Blöcke eher kurze. Und
00:09:35.120 --> 00:09:40.120
zack Es gibt einen klaren Zusammenhang
zwischen Tageszeit und Länge der Artikel.
00:09:40.120 --> 00:09:43.921
Für mich als Nicht-Journalist war das
damals überraschend. Die typische Länge
00:09:43.921 --> 00:09:47.950
der veröffentlichten Artikel die ist von
Montag bis Freitag zwischen 5 bis 6 Uhr
00:09:47.950 --> 00:09:53.930
früh am grössten. Das gleiche am
Wochenende. Hier gibt es zum Tagesstart
00:09:53.930 --> 00:09:58.580
auch nur längere Artikel, ein bisschen
später natürlich. Und das Rätsels
00:09:58.580 --> 00:10:02.550
Lösung zu diesem Phänomen kommt später
noch. Und als Drittes, ist die Data
00:10:02.550 --> 00:10:08.660
Science natürlich auch dazu da fieseste
Vorurteile zu schüren. Ich führe Euch
00:10:08.660 --> 00:10:13.010
das mal vor. Jetzt gebt mir bitte mal ein
Handzeichen, wer von Euch denkt, dass die
00:10:13.010 --> 00:10:17.620
Leutchen aus dem Kulturressort morgens
bitte, gerne ein bisschen länger pennen
00:10:17.620 --> 00:10:18.620
als die anderen.
00:10:18.620 --> 00:10:20.220
Gelächter
00:10:20.220 --> 00:10:25.100
Also, vielleicht für das Internet: Wir
haben einen Raum von 1600 Leuten, der ist
00:10:25.100 --> 00:10:32.200
proppenvoll und fast alle haben die Hand
gehoben. Und die Lösung ist: stimmt!
00:10:32.200 --> 00:10:33.850
Gelächter
00:10:33.850 --> 00:10:37.150
Die Kulturwissenschaftler
00:10:37.150 --> 00:10:38.800
Applaus
00:10:38.800 --> 00:10:43.870
Die Kulturwissenschaftler veröffentlichen
typischerweise später. In der oberen
00:10:43.870 --> 00:10:47.280
Verteilung sind alle Artikel ausser
Kultur. Da ist ab 5 Uhr morgens
00:10:47.280 --> 00:10:51.530
Aktivität. Und in der unteren Verteilung
sind die Kulturartikel, da geht es
00:10:51.530 --> 00:10:58.180
mindestens 2 Stunden später los. Aber zum
Ausgleich gehen die auch früher nach Hause.
00:10:58.180 --> 00:11:00.510
Gelächter
00:11:00.510 --> 00:11:02.830
Applaus
00:11:02.830 --> 00:11:08.100
Aber, damit wir hier nicht wirklich
Vorurteile schüren, ich war bei Spiegel
00:11:08.100 --> 00:11:13.080
Online eingeladen im Oktober und da habe
ich das auch so gesagt. Und dann haben sie
00:11:13.080 --> 00:11:17.090
gesagt: 'David, nein, nein!' Manche
Artikel werden natürlich auch vorab
00:11:17.090 --> 00:11:21.490
gescheduled, das will ich hier
fairerweise dazusagen.
00:11:21.490 --> 00:11:23.650
Und ich mache das auch als Ermahnung, dass
00:11:23.650 --> 00:11:27.250
ihr, wenn Ihr damit arbeitet, immer
nochmal selbst nachdenken müsst. was Ihr
00:11:27.250 --> 00:11:31.060
auch solchen Auswertungen wirklich folgern
könnt. Besonders dann, wenn Ihr schon mit
00:11:31.060 --> 00:11:34.970
einem Vorurteil da rein gegangen seid, so
wie wir jetzt. Wir haben gerade gesehen,
00:11:34.970 --> 00:11:38.580
wie solche Auswertungen grundsätzlich
funktionieren, also können wir jetzt
00:11:38.580 --> 00:11:42.670
einen Schritt weitergehen. Und im Internet
wird es ja genau immer dann besonders
00:11:42.670 --> 00:11:46.880
knusprig, wenn personenbezogene Daten ins
Spiel kommen.
00:11:50.020 --> 00:11:52.560
Also, habe ich mir gedacht,
00:11:52.560 --> 00:11:56.630
es wäre doch mal ein nettes Feature, wenn
wir mal die Autoren aus den Spiegel
00:11:56.630 --> 00:12:00.750
Artikeln rauslesen. Und das machen wir
jetzt. Und die werten wir gleich auf zwei
00:12:00.750 --> 00:12:04.620
Arten aus: Die erste Auswertung wird eine
ganz neue Auswertung in diesem Vortrag,
00:12:04.620 --> 00:12:08.500
also eine ganz neue Art. Und die zweite
Auswertung wird ein bisschen politisch
00:12:08.500 --> 00:12:13.750
inkorrekt. In unserer ersten Auswertung
werden wir versuchen Spiegel Online
00:12:13.750 --> 00:12:18.310
interne Personalstrukturen einfach von
aussen zu lesen. Wenn man zu jedem Artikel
00:12:18.310 --> 00:12:21.850
eine Liste an Autoren hat, dann weiss man
ja nicht nur, wer jeden Artikel
00:12:21.850 --> 00:12:25.940
geschrieben hat, sondern man weiss auch,
wer mit wem schreibt. Und bei Autoren, die
00:12:25.940 --> 00:12:29.510
oft zusammen Artikel schreiben, dürfen
wir davon ausgehen, dass die intensiv
00:12:29.510 --> 00:12:32.740
zusammenarbeiten. Wir wissen also
sozusagen, welche Autoren wichtig
00:12:32.740 --> 00:12:37.320
füreinander sind, was die Artikel angeht.
Wer wenig oder gar nicht zusammenschreibt,
00:12:37.320 --> 00:12:40.950
der ist in dieser Ansicht nicht wichtig
füreinander. Aus diesen Wichtigkeiten
00:12:40.950 --> 00:12:45.820
können wir dann eine Autorenlandkarte
bauen. Und hier ist sie. Das ist ein Teil
00:12:45.820 --> 00:12:49.790
des sozialen Netzwerkes der Spiegel Online
Autoren generiert über die letzten
00:12:49.790 --> 00:12:54.140
2 Jahre. Und jeder Autor ist so ein Bubble
Und Autoren, die nur ganz selten
00:12:54.140 --> 00:12:59.190
vorkommen, die habe ich hier gefiltert.
Und man sieht genau, dass es da Grüppchen
00:12:59.190 --> 00:13:03.180
von Autoren gibt, die sich dichter
zusammentun. Und das sieht aus, als wären
00:13:03.180 --> 00:13:06.800
es die Teams. Und jetzt müssen wir
natürlich kontrollieren, ob unser
00:13:06.800 --> 00:13:10.470
Durchleuchten von aussen, auch wirklich
funktioniert. Und um das zu machen,
00:13:10.470 --> 00:13:14.450
färben wir die Autoren mal nach Ihren
Ressorts ein. Die Ressorts, die kriegt man
00:13:14.450 --> 00:13:19.301
aus dem Spiegel Online Impressum. Siehe
da, in vielen Fällen haben sich
00:13:19.301 --> 00:13:23.440
tatsächlich die Ressorts vollautomatisch
in der Landkarte zusammengetan. Hier in
00:13:23.440 --> 00:13:28.800
pink ist Sport. Wissenschaft und
Gesundheit. Netzwelt. Politik. Ein
00:13:28.800 --> 00:13:32.620
bisschen verteilter, da habe ich jetzt
nicht alle eingekreist. Panorama. Reise.
00:13:32.620 --> 00:13:36.510
Ich nenne jetzt nicht alle Teams, aber Ihr
seht das Prinzip. Die hellblauen
00:13:36.510 --> 00:13:40.510
verteilten Punkte sind übrigens das Team
von bento, die arbeiten ein bisschen
00:13:40.510 --> 00:13:43.960
übergreifender. Das ist
die Kinderausgabe vom Spiegel.
00:13:43.960 --> 00:13:44.960
Gelächter
00:13:44.960 --> 00:13:48.350
Applaus
00:13:48.510 --> 00:13:54.690
Und der Punkt ist, wir haben jetzt relativ
genau von aussen durchleuchten können,
00:13:54.690 --> 00:13:59.010
wer mit wem intern in einem Team steckt.
Und der Witz ist, schaut die ganzen grauen
00:13:59.010 --> 00:14:03.350
Bubble an. Die sind grau, weil sie nicht
mehr über das Spiegel Impressum
00:14:03.350 --> 00:14:07.000
zugeordnet werden konnten. Das sind zum
Beispiel ausgeschiedene Kollegen. Der
00:14:07.000 --> 00:14:13.300
Spiegel Chefredakteur ist kürzlich auch
grau geworden. Aber durch ihre Nähe zu
00:14:13.300 --> 00:14:17.451
den gefärbten Gruppen, können wir die
trotzdem grob einem Team zuordnen. Wir
00:14:17.451 --> 00:14:20.980
können also etwas über die sagen, obwohl
wir eigentlich gar nichts über die
00:14:20.980 --> 00:14:24.150
wissen. Und sowas ist dann interessant.
Wir können also einfach live von aussen
00:14:24.150 --> 00:14:27.940
über die Personalstrukturen Buch führen.
Aber jetzt... Ihr wartet bestimmt schon
00:14:27.940 --> 00:14:32.490
alle zum politisch inkorrekten Teil. Ich
möchte Euch nämlich für etwas
00:14:32.490 --> 00:14:37.430
sensibilisieren. In diesem Plot ist jede
Zeile ein Autor. Und von links nach rechts
00:14:37.430 --> 00:14:42.790
vergeht die Zeit. Und jeder farbige Strich
ist ein vom jeweiligen Autor
00:14:42.790 --> 00:14:46.430
veröffentlichter Artikel. Und wenn wir
die Autoren kennen und das tun wir ja
00:14:46.430 --> 00:14:50.100
jetzt, dann wissen wir natürlich auch
sehr genau, wer wann veröffentlicht. Wir
00:14:50.100 --> 00:14:53.370
sehen zum Beispiel diese Zeile mit
regelmässigen Muster, das ist ein
00:14:53.370 --> 00:14:57.030
Kolumnist, der veröffentlicht genau im
Wochentakt, bis auf ein paar Ausnahmen.
00:14:57.030 --> 00:15:00.540
Bei den Leuten, die Tagesgeschehen
veröffentlichen, ist die Dichte höher.
00:15:00.540 --> 00:15:04.640
Und das heisst, wir wissen bei denen
umgekehrt auch relativ gut, wann die
00:15:04.640 --> 00:15:10.320
Urlaub machen. So, weil das sind nämlich
die Lücken in den dichtgefüllten Zeilen.
00:15:10.320 --> 00:15:14.010
Und, wenn aber wir die Urlaube ungefähr
kennen, dann wissen wir auch ungefähr,
00:15:14.010 --> 00:15:17.290
wessen Urlaube sich überproportional
überschneiden.
00:15:17.290 --> 00:15:19.540
Gelächter
00:15:19.540 --> 00:15:23.203
Sachen wie Weihnachten, die fast alle
Urlaub machen, die kann man ja einfach
00:15:23.203 --> 00:15:28.350
rausrechnen. Und ich appelliere jetzt an
Eure Berufserfahrung und mutmasse mal ganz
00:15:28.350 --> 00:15:32.340
wild, dass Ihr auch schon mal Kollegen
hattet, die irgendwie immer gleichzeitig
00:15:32.340 --> 00:15:38.540
im Urlaub waren. Also, Spass beiseite. Aus
solchen Daten kann man ohne weiteres
00:15:38.540 --> 00:15:44.040
lesen, wer mit was hat. Jetzt wisst Ihr
auch, warum ich die Autoren hier
00:15:44.040 --> 00:15:49.190
anonymisiert habe. Es ist übrigens total
klar, dass das, was wir hier finden, nicht
00:15:49.190 --> 00:15:53.340
alles Pärchen sein müssen. Das sind die
Pärchenkandidaten. Aber, wenn man an der
00:15:53.340 --> 00:15:59.050
Praxis und sowas interessiert ist, dann
ist man ja damit schon mal auf 99% des
00:15:59.050 --> 00:16:03.620
Weges zum Ziel. Es gibt Firmen, die werten
sowas aus, so illegal das auch ist. Jetzt
00:16:03.620 --> 00:16:07.880
habt Ihr alle gerade gelacht, Kann ich mal
um Handzeichen bitten, wer von Euch heute
00:16:07.880 --> 00:16:15.390
bei seiner Firma Urlaub genommen hat.
Über jeden gibt es solche Daten. Glaubt
00:16:15.390 --> 00:16:19.850
mir. Und wir halten jetzt mal inne, und
dann machen wir uns nochmal klar, was wir
00:16:19.850 --> 00:16:23.460
gerade gesehen haben und was die
gesellschaftlichen Implikationen sind. Was
00:16:23.460 --> 00:16:26.390
wir gerade gesehen haben, ist
Wissensgewinnung über interne
00:16:26.390 --> 00:16:29.590
Firmeninformationen und über
höchstpersönliche Lebensbereiche. Und
00:16:29.590 --> 00:16:33.420
aus Daten, die erstmal gar nicht danach
aussehen. Wir hatten ja eigentlich einen
00:16:33.420 --> 00:16:36.430
Satz Spiegelartikel. Und plötzlich,
überraschend, haben wir gute
00:16:36.430 --> 00:16:40.140
Anhaltspunkte, wer mit wem was hat, und
wir können Teamstrukturen erahnen. Und
00:16:40.140 --> 00:16:44.230
damit komme ich zu wichtigsten Message des
Vortrags: Wenn Ihr Daten veröffentlicht,
00:16:44.230 --> 00:16:47.850
dann entscheidet nicht Ihr, was Ihr da
veröffentlicht, das entscheidet der
00:16:47.850 --> 00:16:52.740
Gegner. Wir haben noch nicht einmal die
Daten selbst betrachtet. Wir haben die
00:16:52.740 --> 00:16:56.830
Artikel selbst ja gar nicht angefasst. Was
wir angefasst haben, waren nur Metadaten.
00:16:56.830 --> 00:17:00.590
Zeiten und Autoren, genau wie bei der
Vorratsdatenspeicherung. Das sind ja auch
00:17:00.590 --> 00:17:06.900
nur Metadaten. Gebt mal ein paar Monate
eurer Metadaten, einfach nur, wem Ihr wann
00:17:06.900 --> 00:17:10.879
Mails und Whatsapp geschickt habt und wann
Ihr auf welchen Webseiten wart. Keine
00:17:10.879 --> 00:17:14.559
Inhalte. Danach kann ich Euch sagen, wer
Eure besten Freunde sind, ob Ihr eine
00:17:14.559 --> 00:17:19.180
Affäre habt, wie Ihr sexuell orientiert
seid, ob Ihr schwanger seid, ob Ihr eine
00:17:19.180 --> 00:17:22.400
Krankheit habt, was Eure politische
Einstellung ist, wie euer Glaube
00:17:22.400 --> 00:17:26.320
ausgerichtet ist, und ob Ihr finanzielle
Probleme habt und alles, was ich gerade
00:17:26.320 --> 00:17:30.930
vergessen habe. Das Missbrauchsprofil für
einen solchen Datensatz, wie den der
00:17:30.930 --> 00:17:34.890
Vorratsdatenspeicherung, das kann man gar
nicht in Worte fassen. Und ich will da
00:17:34.890 --> 00:17:37.580
überhaupt nicht mit
Verschwörungstheorien anfangen, wir
00:17:37.580 --> 00:17:40.920
können ja mal alle glauben, dass die
Vorratsdatenspeicherung für die
00:17:40.920 --> 00:17:44.790
Aufklärung von Verbrechen nützlich sein
kann, das ist ja auch total plausibel. Und
00:17:44.790 --> 00:17:48.770
wir können ja auch mal glauben, dass die
Person, die die Vorratsdatenspeicherung
00:17:48.770 --> 00:17:52.355
jetzt etablieren guten Willens sind. Lasst
uns das einfach mal annehmen. Das heisst
00:17:52.355 --> 00:17:55.200
aber nicht, dass morgen keiner an die
Macht kommt, der das vielleicht ganz
00:17:55.200 --> 00:18:01.660
anders macht. Was wir hier gerade
erhalten, ist die Infrastruktur, für eine
00:18:01.660 --> 00:18:06.240
Generalüberwachung, die selbst George
Orwell's Big Brother die Schamesröte ins
00:18:06.240 --> 00:18:10.400
Gesicht treiben würde.
00:18:10.400 --> 00:18:15.990
Applaus
00:18:15.990 --> 00:18:21.200
Und diese Überwachungsinfrastruktur, die
stellen wir jetzt extra schon mal bereit
00:18:21.200 --> 00:18:25.400
für den Fall, dass eine zukünftige
Regierung böswillig ist und sie nutzen
00:18:25.400 --> 00:18:31.220
will. Das ist, was gerade passiert. Jetzt
haben wir einen kurzen Exkurs über
00:18:31.220 --> 00:18:34.410
Metadaten gemacht, und wir gehen jetzt
zurück zu Spiegel Online, damit sich Eure
00:18:34.410 --> 00:18:38.170
Laune wieder hebt. Und deswegen kommt
jetzt ein kleiner Einschub, den könnt Ihr
00:18:38.170 --> 00:18:41.520
dann direkt anwenden, wenn Ihr das
nächste Mal Spiegel Online lest. Und
00:18:41.520 --> 00:18:45.210
danach machen wir mal ein bisschen was
Grösseres. Als ich die Autoren aus den
00:18:45.210 --> 00:18:53.310
Artikeln rauslesen wollte, da war ich
irgendwann ziemlich genervt. Also manchmal
00:18:53.310 --> 00:18:57.410
stehen die oben unter dem Titel, wie hier
links im Bild. Oder die stehen unten, wie
00:18:57.410 --> 00:19:01.560
rechts im Bild. Und wenn die Autoren oben
stehen, sind sie ausgeschrieben. Und wenn
00:19:01.560 --> 00:19:06.550
sie unten stehen, sind es Kürzel. Oben
stehen sie im wirklichen Satz, hier zum
00:19:06.550 --> 00:19:11.870
Beispiel von Marcel Rosenbach. Und unten
die Kürzel sind ohne Satz drumrum. Manche
00:19:11.870 --> 00:19:15.490
Autoren haben nur Vor- und Nachname.
Manche Namen haben aber auch vier oder
00:19:15.490 --> 00:19:20.920
fünf Worte. Wie zum Beispiel der
freundliche Herr Philip Alvares De Souza
00:19:20.920 --> 00:19:24.600
Suarez. Das habe ich mir extra hier
aufgeschrieben, fünf Worte. Das ist ein
00:19:24.600 --> 00:19:29.230
Name. Also Data Science kann technisch
nervig sein. Sagt nicht, ich hätte Euch
00:19:29.230 --> 00:19:35.700
nicht gewarnt. Und jedenfalls habe ich mir
gedacht, wtf, warum stehen da Autoren in
00:19:35.700 --> 00:19:39.770
verschiedenen Formen und vor allem an
verschiedenen Orten? Also habe ich mir mal
00:19:39.770 --> 00:19:45.500
das als Feature reingenommen, ob die
Autoren oben oder unten stehen. Und dann
00:19:45.500 --> 00:19:49.570
habe ich Messwerte zwischen den
beiden Artikelgruppen verglichen, Autoren
00:19:49.570 --> 00:19:55.520
oben und Autoren unten. Und es stellt sich
raus, wenn die Autoren unten stehen, also
00:19:55.520 --> 00:19:59.500
nicht namentlich ausgeschrieben sind, ist
ein typischer Artikel knapp 300 Worte
00:19:59.500 --> 00:20:02.920
lang. Wir sehen hier die Verteilung der
Artikellängen von Artikeln ohne
00:20:02.920 --> 00:20:06.661
ausgeschriebenen Namen. Und nach rechts
werden die Artikel länger, da wird es
00:20:06.661 --> 00:20:11.780
immer weniger. Und stehen die Autoren aber
oben, sind also ausgeschrieben, ist ein
00:20:11.780 --> 00:20:16.660
Artikel typischerweise mehr als
zweieinhalb mal so lang. Knapp 750 Worte.
00:20:16.660 --> 00:20:20.920
Man weiss schon, womit man gegoogelt
werden will als Redakteur.
00:20:20.920 --> 00:20:21.920
Gelächter
00:20:21.920 --> 00:20:27.440
Und nochwas: bei den langen Artikeln ist
auch nur bei ca. 2% eine
00:20:27.440 --> 00:20:31.160
Nachrichtenagentur mit dabei. Bei den
kurzen ist bei knapp 80% eine
00:20:31.160 --> 00:20:35.170
Nachrichtenagentur mit dabei. Also Fazit
für Euch zum mI t nach Hause nehmen: Wenn
00:20:35.170 --> 00:20:39.000
Ihr längere Artikel wollt, die Spiegel
Online selbst verfasst hat, dann achtet
00:20:39.000 --> 00:20:42.880
drauf, dass die Autoren drangeschrieben
sind. Wenn Ihr kurze Agenturmeldungen
00:20:42.880 --> 00:20:45.370
wollt, sind die Kürzel gut.
00:20:45.370 --> 00:20:49.740
Applaus
00:20:49.740 --> 00:20:54.620
Und wir hatten ja schon gesehen, dass am
Tagesanfang primär längere Artikel
00:20:54.620 --> 00:20:58.230
erscheinen und das waren eben in
Wirklichkeit die selbst geschriebenen.
00:20:58.230 --> 00:21:02.540
Morgens ist der Prozentsatz von denen
vergleichsweise hoch. Und jetzt könen wir
00:21:02.540 --> 00:21:05.250
die Gelegenheit nutzen und einen Schritt
zurücktreten und gucken, was wir bis
00:21:05.250 --> 00:21:10.520
jetzt gemacht haben. Und wir haben unsere
Riesenmenge Artikel, immer auf äusserst
00:21:10.520 --> 00:21:14.240
einfache Art und Weise auseinander
geschnitten und ausgewertet. Wir haben die
00:21:14.240 --> 00:21:18.030
in Wochentage oder Uhrzeiten
auseinandergeschnitten. Oder in Rubriken.
00:21:18.030 --> 00:21:21.550
Und dafür, wie einfach diese Ideen sind,
haben wir eigentlich ein paar ganz gute
00:21:21.550 --> 00:21:25.350
Ergebnisse bekommen. Aber, was wir noch
gar nicht gemacht haben, ist uns dem
00:21:25.350 --> 00:21:29.480
Datensatz mal inhaltlich zu nähern. Und
es wäre doch total cool, wenn wir die
00:21:29.480 --> 00:21:33.460
Artikelmenge mal nach den wirklichen
Themen über die berichtet wird,
00:21:33.460 --> 00:21:41.780
auseinanderschneiden und auswerten
können. Spiegel Online liefert uns
00:21:41.780 --> 00:21:46.120
hierbei auch eine gute Hilfe: Artikel
werden dort verschlagwortet. Jeder Artikel
00:21:46.120 --> 00:21:51.160
bekommt von seinem Autor so um die 10
Keywords zugewiesen. Der Artikel links im
00:21:51.160 --> 00:21:55.510
Bild hat zum Beispiel die Keywords
Politik, Ausland, Saudi Arabien und König
00:21:55.510 --> 00:22:00.300
Salman von Saudi Arabien. Also habe ich
die Keywords mal ausgelesen. Ueber alle
00:22:00.300 --> 00:22:05.000
Artikel hinweg habe ich um die 65000
verschiedene Keywords gefunden. Und jetzt
00:22:05.000 --> 00:22:09.090
gucken wir, wie oft, welche Keywords
zusammen in den selben Artikeln kommen.
00:22:09.090 --> 00:22:12.820
Und Keywords, die fast ausschliesslich
zusammen vorkommen, die sind sozusagen
00:22:12.820 --> 00:22:16.730
verheiratet, die sieht man einfach als
eins in der Auswertung. Und umgekehrt gibt
00:22:16.730 --> 00:22:21.130
es natürlich Keywords, die beide für
sich genommen existieren, aber nie oder
00:22:21.130 --> 00:22:25.110
fast nie zusammen, die sind dann
unverwandt. Und dann gibt es noch einen
00:22:25.110 --> 00:22:32.430
interessanten Mittelweg:
Hier ist ein Beispiel.
00:22:32.430 --> 00:22:35.110
GelächterApplaus
00:22:35.110 --> 00:22:39.330
Artikel mit dem Keyword "Angela Merkel",
die haben meist auch das Keyword Politik.
00:22:39.330 --> 00:22:43.650
Und umgekehrt ist das aber nicht so. Das
Keyword Politik ist viel grösser. Und es
00:22:43.650 --> 00:22:48.430
gibt extrem viele Politikartikel ohne
Angela Merkel. Und diese Keywords sind
00:22:48.430 --> 00:22:52.360
nicht die selben, aber es ist klar, die
haben eine Verbindung. Und wir messen also
00:22:52.360 --> 00:22:57.710
für alle 65000 Keywords, paarweise, wie
verwandt die so sind. Und dann verbinden
00:22:57.710 --> 00:23:02.411
wir Keywords, die stark verwandt sind mit
so ganz strammen, dicken Federn. Ich meine
00:23:02.411 --> 00:23:05.860
jetzt wirklich Federn im physikalischen
Sinne, die die Keywords zueinander
00:23:05.860 --> 00:23:10.420
hinziehen. Zwischen schwächer verwandten
Keywords kommen schwächere Federn, die
00:23:10.420 --> 00:23:14.350
werden dann länger. Und jetzt machen wir
eine Physiksimulation. und schauen zu, wie
00:23:14.350 --> 00:23:20.630
sich diese abertausenden Federn
zurechtzurren. Verwandte Keywords werden
00:23:20.630 --> 00:23:25.340
jetzt tendenziell nahe beeinander layoutet
und weniger verwandte nicht so nah. Was
00:23:25.340 --> 00:23:28.820
hier ensteht ist eine thematische
Landkarte, von allen Sachen über die
00:23:28.820 --> 00:23:32.611
Spiegel Online in den letzten 2 Jahren
berichtet hat. Und jetzt gerade sieht es
00:23:32.611 --> 00:23:36.600
so aus, als passiert da fast nichts mehr,
aber gerade passiert die Detailarbeit. Das
00:23:36.600 --> 00:23:40.530
sieht man nur von soweit oben nicht. Und
deswegen zoomen wir jetzt mal ganz weit
00:23:40.530 --> 00:23:44.620
rein, damit wir lernen, was wir da
erschaffen haben. Hier ist die Volkswagen
00:23:44.620 --> 00:23:49.060
Abgasaffäre. Wie Ihr seht haben die
Keywords unterschiedliche Grössen. Die
00:23:49.060 --> 00:23:52.740
Grösse der einzelnen Keywords spiegelt
die Anzahl der Artikel wieder, die das
00:23:52.740 --> 00:23:56.220
Keyword innehaben. Und das sind sozusagen
die Artikel, die in dem Keyword
00:23:56.220 --> 00:24:01.360
drinstecken. Und die Farbe zeigt an, was
die vorherrschende Rubrik ist über alle
00:24:01.360 --> 00:24:04.830
Artikel, die in einem Keyword drin
stecken. Dieses Okergelb heisst
00:24:04.830 --> 00:24:09.870
Wirtschaft. Passt! Der Witz ist, diese
Darstellungsweise ist extrem mächtig und
00:24:09.870 --> 00:24:13.580
vielseitig. Über die Farbe der Keywords
da können mit dieser Darstellungsweise
00:24:13.580 --> 00:24:18.820
noch viel mehr Infos rüberbringen, als
nur, welche Themen verwandt sind. Und mit
00:24:18.820 --> 00:24:24.170
der Farbe können wir beliebige Messwerte
anzeigen. Und wenn ich danach so farbige
00:24:24.170 --> 00:24:28.070
Keywordlandschaften habe, dann können wir
sehen, ob es zwischen Thema und Messwert
00:24:28.070 --> 00:24:32.161
einen Zusammenhang gibt und das machen wir
heute auch noch. Aber erstmal gucken wir
00:24:32.161 --> 00:24:36.980
ein bisschen weiter rum, hier sind
verschiedene Flugzeugunglücke. Der
00:24:36.980 --> 00:24:48.900
Themenkomplex befindet sich zwischen
Panorama - Grün und Politik - Rot. Wobei
00:24:48.900 --> 00:24:51.980
die politischen Anteile von dem Flugzeug
kommen, das über der
00:24:51.980 --> 00:24:59.780
Ukrainisch-Russischen Grenze abgeschossen
wurde. Jetzt versagt meine Singstimme.
00:24:59.780 --> 00:25:06.559
So besser. So hier ist Griechenland-Krise.
Das ist offensichtloch ein Thema zwischen
00:25:06.559 --> 00:25:11.220
Politik und Wirtschaft rot und wieder oker
und Wolfgang Schäuble ist da direkt mal
00:25:11.220 --> 00:25:15.770
als Aufpasser dazu-layoutet worden.
Interessanterweise hat der keine Farbe,
00:25:15.770 --> 00:25:19.140
der ist grau und das ist nicht
altersbedingt sondern das liegt daran,
00:25:19.140 --> 00:25:23.270
das es im Keyword Wolfgang Schäuble kein
dominierendes Ressort gab und
00:25:23.270 --> 00:25:25.360
jetzt machen wir mal was Topaktuelles.
00:25:25.360 --> 00:25:28.360
Das ist die US-Wahl dieses Jahr.
Wir sehen Hillary Clinton
00:25:28.360 --> 00:25:32.170
und Donald Trump und alles was da so drum
rum wimmelt und das ist offensichtlich
00:25:32.170 --> 00:25:37.059
ein politisches Thema, es ist rot und man
beachte, wie hier das Keyword Emails
00:25:37.059 --> 00:25:41.610
dazu-layoutet wurde. Und von hier aus
machen wir uns jetzt mal
00:25:41.610 --> 00:25:43.720
die Größe der gesamten Landschaft klar.
00:25:43.720 --> 00:25:47.390
Ich weiss nicht, wer heute
Morgen von euch in dem Vortrag über
00:25:47.390 --> 00:25:51.370
Mikroskope war, da hat der Vortragende
immer und immer mehr reingezoomt, um klar
00:25:51.370 --> 00:25:55.370
zu machen wie klein die Sachen sind und
wir machen das jetzt umgekehrt, wir wollen
00:25:55.370 --> 00:25:59.200
darstellen wie riesig die Landkarte ist
und wir zoomen immer und immer mehr raus.
00:25:59.200 --> 00:26:03.200
Wir haben raus-gezoomt. Der alte
Bildauschnit ist dick eingerahmt, damit
00:26:03.200 --> 00:26:07.020
ihr seht wo der ist. Und wir sehen,
dass der US-Wahlkampf eingebettet ist
00:26:07.020 --> 00:26:09.440
in größeren Landstrich der
Auslandspolitik.
00:26:09.440 --> 00:26:12.130
Links sehen wir den Bürgerkrieg in Syrien
00:26:12.130 --> 00:26:15.910
darüber der Islamische Staat und von da
geht es über den Islamistischen Terror
00:26:15.910 --> 00:26:18.440
weiter nach Frankreich.
00:26:18.440 --> 00:26:25.360
GelächterApplaus
00:26:25.360 --> 00:26:31.640
Jaa, die Mathematik ist gnadenlos, ne.
Oben sind die aktuellen Türkei-Thematiken,
00:26:31.640 --> 00:26:34.270
also das ist deren Putschversuch und
deren Demokratur
00:26:34.270 --> 00:26:37.540
und rechts von der Mitte ist Russland
und der Ukraine Konflikt und
00:26:37.540 --> 00:26:41.320
links unten ist Israel und der Nahost
00:26:41.320 --> 00:26:46.509
Konflikt und wir zoomen nch weiter raus.
Hier ist nun die gesamte politische
00:26:46.509 --> 00:26:50.591
Landschaft, diesmal haben wir mit zwei
Rechtecken markiert, wo wir herkommen wir
00:26:50.591 --> 00:26:54.560
kommen, ursprünglich von der US-Wahl und
dann von der Auslandspolitik. Also die
00:26:54.560 --> 00:26:58.930
Auslandspolitik ist oben rechts und unten
rechts ist der Inlandsteil und seit Neuem
00:26:58.930 --> 00:27:02.780
gibt es nen riesigen Knubbel, der in der
Mitte, das ist die Flüchtlingsthematik,
00:27:02.780 --> 00:27:06.640
die ist mittlerweile so groß, wie eine
eigene Unterrubrik und die ist als dritte
00:27:06.640 --> 00:27:10.440
Kraft genau zwischen Ausland und Inland
etabliert, ja. Was ja auch genau passt.
00:27:10.440 --> 00:27:15.679
Wir zoomen nochmal weiter raus. Ja, jetzt
kann man gar nichts mehr erkennne, außer
00:27:15.679 --> 00:27:19.700
verschieden farbigen Landschaften. Ich sag
also mal, für eine grobe Orientierung,
00:27:19.700 --> 00:27:23.460
hier kommen wir her, das rote ist der
Politikteil. Rechts darüber in
00:27:23.460 --> 00:27:28.481
giftgrün das Panorama. Das wird
durchteilt von der Wirtschaft, die Kette
00:27:28.481 --> 00:27:32.340
von türkisen Clustern entlang der
Unterseite des Hauptkontinentes ist die
00:27:32.340 --> 00:27:37.160
Netzwelt. Blau im Osten ist der Kulturteil
und so weiter und so fort. Wir können
00:27:37.160 --> 00:27:41.120
jetzt nicht alle durchgehen, ihr seht, die
Gebiete gehen noch ineinander über und
00:27:41.120 --> 00:27:45.080
wir wissen jetzt fast, wie riesig diese
Landkarte ist, einmal rauszoomen haben wir
00:27:45.080 --> 00:27:49.390
nämlich noch. Hier ist die große weite
Welt, ja den unteren Teil haben wir schon
00:27:49.390 --> 00:27:54.299
grob kennengelernt, und hier sind wir
eigentlich her gekommen, und auf dem Rest
00:27:54.299 --> 00:27:57.450
der Welt, etwas entrückt ist
die Wissenschaft, das ...
00:27:57.450 --> 00:28:02.970
Gelächter im Saal
Applaus
00:28:06.160 --> 00:28:09.830
Ich sehe, ihr könnt das nachvollziehen
und habt da auch mal gearbeitet.
00:28:09.830 --> 00:28:10.820
Gelächter
00:28:10.820 --> 00:28:13.590
Und ganz weit weg vom
Hauptkontinent ist der Sport.
00:28:13.590 --> 00:28:14.420
Gelächter
00:28:14.420 --> 00:28:18.570
So, und jetzt sehen wir erstmal, wie gross
das ist und wie breit der Spiegel angelegt
00:28:18.570 --> 00:28:22.120
ist und diese riesige Landkarte gibts
übrigens bei mir auf der Website, da
00:28:22.120 --> 00:28:24.860
könnt ihr auch selbst drin rumforschen,
wie in GoogleMaps, so drin rum scrollen,
00:28:24.860 --> 00:28:29.070
das macht auch mehr Spaß als wenn ich das
hier nur vorkaue und darum gehts jetzt
00:28:29.070 --> 00:28:32.910
auch weiter. Wir wenden die jetzt an. Ja,
Spiegel Online bietet unter sehr vielen
00:28:32.910 --> 00:28:36.410
Artikeln an, ja, ähmm, ..
00:28:36.410 --> 00:28:38.350
Publikum GemurmelGelächter
00:28:38.350 --> 00:28:42.220
Ich, das Gelächter geht los, bevor ich
etwas gesagt habe. Ihr wisst doch gar
00:28:42.220 --> 00:28:46.460
nicht, was ich sagen will, ne? Das man
seine eigene Meinung dazu äußern darf.
00:28:46.460 --> 00:28:48.490
Publikum und David Gelächter
00:28:48.490 --> 00:28:51.750
Und unter manchen Artikeln sperren sie
diese Funktion aber, ne,
00:28:51.750 --> 00:28:52.520
einzelnes Gelächter
00:28:52.520 --> 00:28:54.340
und das untersuchen wir jetzt mal,
00:28:54.340 --> 00:28:58.250
Und ich hatte euch am Anfang des Vortrages
gesagt, das Artikel direkt nach nen paar
00:28:58.250 --> 00:29:01.970
Minuten nach ihrem erscheinen von mir
abgerufen werden, also wenn ich sag, das
00:29:01.970 --> 00:29:05.870
was nicht kommentiert werden darf, dann
war das sehr wahrscheinlich, direkt vom
00:29:05.870 --> 00:29:08.250
Start weg so. So schnell
randaliert kein Mensch.
00:29:08.250 --> 00:29:10.410
leichtes Gelächter im Publikum
00:29:10.410 --> 00:29:14.340
Also, bevor wir jetzt ne Themenlandkarte
damit malen, schauen wir mal ganz kurz auf
00:29:14.340 --> 00:29:17.820
die zeitliche Entwicklung, der
Kommentierbarkeit, und zwar einfach, damit
00:29:17.820 --> 00:29:21.450
wir ne Orientierung haben. In dem Plot
sehen wir pro Kalenderwoche wieviel
00:29:21.450 --> 00:29:25.570
Prozent der erschienen Artikel kommentiert
werden durften, und wieviele nicht.
00:29:25.570 --> 00:29:30.340
In Rot sind die Nichtkomentierbaren und
Blau die Kommentierbaren und als ich 2014
00:29:30.340 --> 00:29:34.090
angefangen habe runterzuladen, waren
erstmal ne ganze Zeit so 80 Prozent der
00:29:34.090 --> 00:29:37.740
Artikel kommentierbar. Und genau seit dem
Zeitpunkt der großen
00:29:37.740 --> 00:29:42.650
Flüchtlingsberichterstattung im Sommer
2015, ja, sinkt der (Graph) der Artikel
00:29:42.650 --> 00:29:47.090
der kommentierbaren Nachrichten
kontinuierlich ab, und jetzt seit kurzem
00:29:47.090 --> 00:29:51.400
ist wirklich die Mehrzahl der Artikel ohne
Kommentarfunktion, ne, dir rote Linie
00:29:51.400 --> 00:29:54.960
überholt die Blaue, und die
Kommentierbarkeit wird übrigens nicht nur
00:29:54.960 --> 00:29:59.599
im Politikressort weniger, das passiert
übergreifend in fast allen Ressorts und
00:29:59.599 --> 00:30:03.220
ob seit dem der Hass im Netz irgendwie
themenübergreifend soviel schlimmer
00:30:03.220 --> 00:30:07.140
geworden ist oder Spiegel-Online jetzt
einfach soviel Angst vor fiesen
00:30:07.140 --> 00:30:10.940
Kommentaren hat, das kann ich aus denn
Zahlen nicht ablesen, das müsst ihr dann
00:30:10.940 --> 00:30:15.500
für euch selbst entscheiden. Interessant
ist aber noch der kleine, grüne Plot im
00:30:15.500 --> 00:30:20.090
Bild, ne , das sind auch nicht
kommentierbare Artikel. Aber bei denen
00:30:20.090 --> 00:30:23.910
steht so ein kleiner Entschuldigungstext
dran, ja. Das hier die Kommentarfunktion
00:30:23.910 --> 00:30:27.970
wegen der Netikette und so weiter gesperrt
ist. Ihr braucht das hier jetzt nicht
00:30:27.970 --> 00:30:31.929
lesen, ich bring das nur zur Ansicht, und
diesen Entschuldigungstext haben sie zu
00:30:31.929 --> 00:30:36.890
Anfang der Flüchtlingsberichterstattung
eingeführt und es scheint so, als war
00:30:36.890 --> 00:30:40.340
Spiegel-Online da selbst ein bisschen
unwohl mit dem krassen Anstieg der
00:30:40.340 --> 00:30:44.240
Kommentarsperrungen. Aber wie man am Plot
sieht, haben sie den Hinweis ganz flott
00:30:44.240 --> 00:30:47.710
wieder aufgegeben, obwohl die
Kommentiermöglichkeiten immer und immer
00:30:47.710 --> 00:30:52.799
mehr gesperrt werden. So und jetzt gehts
zur Landkarte. Wir färben ein Keyword
00:30:52.799 --> 00:30:57.920
röter, wenn unterdurchschnittlich viele
Artikel darin kommentierbar sind und wir
00:30:57.920 --> 00:31:01.270
färben ein Keyword eher blau, wenn das
Keyword überdurchschnittlich
00:31:01.270 --> 00:31:04.770
kommentierbar ist. Graue Keywords
repräsentieren so den Durchschnitt, da
00:31:04.770 --> 00:31:07.560
dann so 70 Prozent kommentierbar
und das gibt
00:31:07.560 --> 00:31:11.001
natürlich auch alle Farben dazwischen.
Also wenn so'n Keyword wirklich
00:31:11.001 --> 00:31:14.630
aufleuchtet, dann ist das irgendwo am Ende
der Skala oder am Anfang. Und die
00:31:14.630 --> 00:31:18.551
Landkarte stell ich auch bald auf meine
Website, die jetzt kommt, da könnt ihr da
00:31:18.551 --> 00:31:22.410
auch selbst drin rumklicken. So, und wir
fangen mal mit ein paar einfachen Sachen
00:31:22.410 --> 00:31:26.900
an. Ja ihr ahnt es, Sport darf man quasi
komplett kommentieren, ja, knallblau. Und
00:31:26.900 --> 00:31:30.540
falls ihr euch fragt, was der knallrote
Punkt da ist, das ist ein bestimmtes
00:31:30.540 --> 00:31:34.679
Artikelformat, das ist technisch ohne
Kommentarfunktion. Sowas kommt schon mal
00:31:34.679 --> 00:31:39.080
vor, ich sag nur, weil ich gleich sonst 13
mal die Frage kriege. Und wo man in der
00:31:39.080 --> 00:31:43.219
Regel auch gut kommentieren darf, das sind
Wissenschaftsthemen und Wirtschaftsthemen
00:31:43.219 --> 00:31:45.320
Hier sind die Bahnstreiks, ja.
00:31:45.320 --> 00:31:48.790
Da darf nach Kräften auf die Bahn
eingekloppt werden.
00:31:48.790 --> 00:31:49.960
Gelächter
00:31:49.960 --> 00:31:56.440
Und wo wir schon von Streik reden, ist
bestimmt jeder hier im Raum in Gedanken,
00:31:56.440 --> 00:32:01.730
bei der Lufthansa, die streiken ja als
Hauptkonzernaktivität. Alles blau, ja
00:32:01.730 --> 00:32:02.870
Gelächer im Saal
00:32:02.870 --> 00:32:06.070
Alles blau, auch die dürfen fiese
Kommentare abkriegen. Ich würd ja
00:32:06.070 --> 00:32:08.890
mitlachen, aber ich bin mit dem Flugzeug
hier in Hamburg, ne
00:32:08.890 --> 00:32:11.110
Gelächter im Saal
kleiner Applaus
00:32:11.110 --> 00:32:15.500
So, nach dem ganzen blau. jetzt mal was
rotes. Knallrote Landschaft, ergibt sich
00:32:15.500 --> 00:32:21.810
um die Justiz. Das sind Berichte über die
Kriminalität; Morde, Attentate, ja, "the
00:32:21.810 --> 00:32:27.380
full packedge" und hier will man eher
weniger Lesekommentare, ja. So, die Justiz
00:32:27.380 --> 00:32:33.200
hat so 30 Prozent Kommentierbarkeit von
den üblichen 70 Prozent. Hier ist die
00:32:33.200 --> 00:32:38.489
ganze Geschichte rund um den NSU-Prozeß.
Der ist hier ja auch Thema. Tiefrot, ja,
00:32:38.489 --> 00:32:42.460
generell auch alles, was mit Rechtsradikal
und Nazis und so zu tun hat, darf eher
00:32:42.460 --> 00:32:46.140
wenig kommentiert werden und der
Kernknubbel hier, der hat so um die 18
00:32:46.140 --> 00:32:52.510
Prozent, ja, ist also noch weniger als die
Justiz und die waren schon rot. Was auch
00:32:52.510 --> 00:32:55.160
tiefrot ist, ist alles um die
Flüchtlingsthematik und zwar nicht nur
00:32:55.160 --> 00:32:58.120
das Konkrete, sondern auch der
weitergefasste Rahmen, Asylrecht
00:32:58.120 --> 00:33:03.210
und so weiter. Seht ihr sogar im Bild. Und
von Aussen sieht das aus, als sperrt der
00:33:03.210 --> 00:33:08.600
Spiegel seine Kommentarfunktion komplett
systematisch und zwar nach Themen, Ja? Und
00:33:08.600 --> 00:33:12.290
das wir sowas direkt visuell raus finden
können, das macht diese Landkarte so
00:33:12.290 --> 00:33:16.081
unheimlich mächtig. Allgemein ist es in
der Data-Science nicht nur wichtig richtig
00:33:16.081 --> 00:33:19.820
auszuwerten, es ist genauso wichtig, die
Informationen möglichst anschaulich
00:33:19.820 --> 00:33:23.110
visuell aufzubereiten. So können dann
nämlich auch Leute, die keine
00:33:23.110 --> 00:33:27.070
Informatiker sind, sofort komplexe
Zusammenhänge erkennen. Es gibt ja nur
00:33:27.070 --> 00:33:32.160
eine Breitbandverbindung ins Gehirn und
das sind die Augen. Richtig interessant
00:33:32.160 --> 00:33:36.929
wirds, wenn man mal guckt, wie
Spiegel-Online die Kommentierbarkeit hart
00:33:36.929 --> 00:33:43.290
national ordnet. Das hier ist der ganze
Nahost-Konflikt, um Israel, ja, wie ihr an
00:33:43.290 --> 00:33:48.090
dem satten Rot seht, zum Nahostkonflikt
und Israel hat man bei fast allen Artikeln
00:33:48.090 --> 00:33:53.710
die Klappe zu halten. So und jetzt
schwenken wir mal vom Nahost-Konflikt zum
00:33:53.710 --> 00:33:58.029
Ukraine-Konflikt. Ja lächelt seufzend
00:33:58.029 --> 00:34:03.440
akustische Aufruhr im Publikum
Einzelapplaus
00:34:03.440 --> 00:34:04.110
Ja.
00:34:04.110 --> 00:34:05.600
Applaus
00:34:05.600 --> 00:34:10.379
Also. Ihr könnt euch mit nach Hause
nehmen. Meine Damen und Herren:
00:34:10.379 --> 00:34:11.770
Russen bashen ist OK.
00:34:11.770 --> 00:34:13.230
Gelächter im Publikum
00:34:13.230 --> 00:34:16.329
Ja, was wir hier - Live und in Farbe -
sichtbar gemacht haben, ist nichts anderes
00:34:16.329 --> 00:34:21.379
als unsere westliche Filterbuble. Die kann
man messen. Zum Iran darf man seinen Senf
00:34:21.379 --> 00:34:27.099
dazugeben, zu Großbritanien auch. Zur
Türkei, da ist Spiegel-Online sich noch
00:34:27.099 --> 00:34:28.099
nicht ganz sicher.
00:34:28.099 --> 00:34:29.099
Gelächter
00:34:29.099 --> 00:34:33.899
Und Frankreich ist interessant, diese
Region der Landkarte, die möchte
00:34:33.899 --> 00:34:39.219
eigentlich blau sein aber die ganzen
Keywords rund um die Terrorserie dort, die
00:34:39.219 --> 00:34:42.329
sind knallrot und die strahlen in die
Nachbarn aus und das schauen wir uns jetzt
00:34:42.329 --> 00:34:47.440
doch mal ein bisschen genauer an, Das sind
alles Frankreichartikel aber nach Zeit.
00:34:47.440 --> 00:34:52.079
Die blaue Linie ist das Aufkommen der
kommentierbaren Artikel, die rote Linie
00:34:52.079 --> 00:34:56.300
wieder das Aufkommen der
Nichtkommentierbaren und wir sehen: wie
00:34:56.300 --> 00:35:00.821
Frankreich von 2014 bis 2015 erstmal
überwiegend kommentierbar ist und die
00:35:00.821 --> 00:35:06.339
blaue Linie ist über der roten, und hier
ist die Terrorserie in Paris im November
00:35:06.339 --> 00:35:12.160
2015 und es wird plötzlich enorm viel
berichtet. Also sehen wir ne krasse Spitze
00:35:12.160 --> 00:35:17.980
am Frankreichartikeln, ne, und davon sind
die Meisten nicht kommentierbar. Also:
00:35:17.980 --> 00:35:20.200
Frankreich an sich dürft ihr gerne
kommentieren aber bezüglich der
00:35:20.200 --> 00:35:25.859
Anschläge dort bitte nicht. Und das
Interessante ist, der Effekt wirkt fort,
00:35:25.859 --> 00:35:30.369
Seit der Terrorserie ist Frankreich
generell nicht mehr so kommentierbar. Die
00:35:30.369 --> 00:35:34.609
rote Linie ist meist über der Blauen. Und
jetzt tretten wir wieder einen Schritt
00:35:34.609 --> 00:35:40.759
zurück. Und natürlich sehe ich auch, das
der Spiegel Themenbereiche aufgrund der
00:35:40.759 --> 00:35:44.290
Erfahrungen in der Verasngenheit sperren
kann. Und generell müssen wir auch
00:35:44.290 --> 00:35:48.059
zugeben, das ist das gute Recht von
Spiegel-Online zu entscheiden, wo und in
00:35:48.059 --> 00:35:51.849
welcher Form sie Anderen auf ihrer Seite
ne Plattform geben und wo sie das eben
00:35:51.849 --> 00:35:56.499
nicht tun. Aber genauso ist es auch unser
gutes Recht diese Systematik hier mal
00:35:56.499 --> 00:36:01.499
sichtbar zu machen. Und ich denke, das
sieht insgesamt so aus als verböte
00:36:01.499 --> 00:36:06.320
Spiegel-Online genau zu denjeniegen Themen
die Kommentierung, bei denen zu erwarten
00:36:06.320 --> 00:36:12.729
ist, das die Meinungen der Leser politisch
nicht opportun sind. Ob das jetzt etwas
00:36:12.729 --> 00:36:16.309
über Spiegel-Online aussagt oder über
seine Leser oder irgendwie ein
00:36:16.309 --> 00:36:19.930
gesamtgesellschaftliches Problem ist, das
müsst ihr dann wieder selbst entscheiden.
00:36:19.930 --> 00:36:26.680
Was die Auswertung angeht, haben wir den
Vortrag bis jetzt im Grunde zweigeteilt.
00:36:26.680 --> 00:36:34.230
Am Anfang haben wir die Artikelsammlung in
nur wenige Töpfe unterteilt, und danach
00:36:34.230 --> 00:36:37.900
haben wir die Artikelsammlung in viel mehr
Töpfe unterteilt, das sind die wenigen,
00:36:37.900 --> 00:36:42.049
jeder Artikel konnte sogar in mehreren
Töpfen sein. Ne, das war ja so? Wenn nen
00:36:42.049 --> 00:36:45.890
Artikel mehrere Keywords hatte, dann war
er auch in mehreren Töpfen. Und das war
00:36:45.890 --> 00:36:51.109
ne viel komplexere, aber auch viel
mächtigere Art der Unterteilung. Und
00:36:51.109 --> 00:36:54.550
jetzt merkt ihr euch diese beiden Arten
der Unterteilung mal kurz und damit machen
00:36:54.550 --> 00:37:00.380
wir was politisches, wir gehen über zum
Thema Wahlkampf. Ja, Wahlkämpfe
00:37:00.380 --> 00:37:04.390
funktionieren grob so, das man die Menge
aller Wähler auseinander schneidet,
00:37:04.390 --> 00:37:08.420
wie wir unsere Artikel auseinander
geschnitten haben. Das heißt dann 'Voter
00:37:08.420 --> 00:37:14.569
Targeting'. Und bei der US-Wahl konnte man
z.B. sagen man schneidet die Wähler grob
00:37:14.569 --> 00:37:19.369
nach Geschlecht, Hautfarbe, Alter und
Gehalt. Das wird dann in der Tat auch so
00:37:19.369 --> 00:37:22.950
gemacht. Dann könnte man sozusagen allen
schwarzen Frauen in Kalifonien, die
00:37:22.950 --> 00:37:27.630
zuwischen 30 und 40 sind und über 60.000
Dollar im Jahr verdienen, zugeschnittene
00:37:27.630 --> 00:37:33.529
Wahlwerbung schicken. Und das ist ne
relativ grobe Art der Unterteilung und die
00:37:33.529 --> 00:37:37.750
ist sozusagen analog zu unseren groben
Unterteilungen hier, auf der linken Seite
00:37:37.750 --> 00:37:50.849
der Folie. Aber was wäre dann die rechte
Seite? Vor einiger Zeit hat dieser Artikel
00:37:50.849 --> 00:37:54.829
des Schweizer Tagesanzeiger die Runde
gemacht. Ich bin sicher viele von euch
00:37:54.829 --> 00:38:00.520
kennen den, der ging ziemlich durchs Netz,
der wurde am Tag 13 mal als Lesebefehl
00:38:00.520 --> 00:38:04.479
geschickt, und so weiter und so fort. Also
ich glaube, ich habe den bestimmt 50 mal
00:38:04.479 --> 00:38:08.569
bekommen, weil ich mich halt auch mit dem
Maschinen-Learning auseinandersetze.
00:38:08.569 --> 00:38:14.020
Und in dem Artikel steht im Grunde, das ne
Datenanalysefirma es geschafft habe, eine
00:38:14.020 --> 00:38:18.700
extrem feine Unterteilung von Wählern
hinzukriegen. Das wäre, sozusagen, analog
00:38:18.700 --> 00:38:23.160
zu unserer sehr mächtigen
Themenlandkarte. Und in dem Artikel steht
00:38:23.160 --> 00:38:28.329
weiter, das hätte diese Firma sowohl für
die Präsidentschaftswahl, als auch für
00:38:28.329 --> 00:38:33.430
das Brexit-Referendum gemacht. Und es
wurde dann behauptet, deswegen wäre Trump
00:38:33.430 --> 00:38:38.530
gewählt worden und deswegen wäre der
Brexit durchgekommen. Das ist natürlich
00:38:38.530 --> 00:38:43.300
spooky. Und das verkauft sich gut. Ja -
uijuijuijuijui - Die selbe Firma hinter
00:38:43.300 --> 00:38:49.259
Trump und hinter dem Brexit, ja, da glüht
der Aluhut, wirklich.
00:38:49.259 --> 00:38:54.309
Gelächter
Applaus
00:38:54.309 --> 00:39:02.180
Und die sagen, ihre Unterteilung der
Wählerschaft sei so fein, das man jedem
00:39:02.180 --> 00:39:07.299
Wähler seine genau passende Wahlwerbung
schicken könnte. Und sie sagen nicht nur
00:39:07.299 --> 00:39:10.460
das, sie sagen sie können das sogar noch
genauer, sie können sogar den
00:39:10.460 --> 00:39:14.640
Gesprächston treffen, so dass der Wähler
wahrscheinlich drauf hört. Generell
00:39:14.640 --> 00:39:19.349
würde ich sagen, ne, tiefer hängen.
Es ist überhaupt nicht klar, was die
00:39:19.349 --> 00:39:24.150
Firma den beiden Wahlkämpfen überhaupt
wirklich gebracht hat. Die Infos kommen im
00:39:24.150 --> 00:39:28.450
wesentlich nämlich von der Firma selbst
und ich glaube, ehrlich gesagt ja, da hat
00:39:28.450 --> 00:39:32.470
die Firma einen hervorragenden Vertriebler
geschickt und der hat dann wirklich der
00:39:32.470 --> 00:39:37.529
Presse einen brillianten Vortrag gehalten
und die Presse hat's dann einfach gekauft.
00:39:37.529 --> 00:39:42.190
So und die Kernaussage ist doch nur: Ihr
könnt jetzt Wahlwerbung bekommen, oder
00:39:42.190 --> 00:39:46.339
Werbung im Allgemeinen, die extrem
genau auf euch zugeschnitten ist und euch
00:39:46.339 --> 00:39:51.650
so effizienter zu Dingen verleitet. Mit
anderen Worten: Endlich kriegen nur noch
00:39:51.650 --> 00:39:55.319
diejenigen Viagra-Spam, die das Produkt
auch wirklich benötigen.
00:39:55.319 --> 00:39:56.979
Das ist ja zunächst mal nicht schlimm.
00:39:56.979 --> 00:39:58.249
verhaltendes Gelächter
00:39:58.249 --> 00:40:02.099
Ja, Aber kaufen und eben wählen, das
müssen die Leute schon noch selbst, es
00:40:02.099 --> 00:40:05.329
ist nicht so das BigData die Leute
fernsteuert. Das müssen wir schon
00:40:05.329 --> 00:40:10.279
festhalten, also man könnte sagen: Wer
vor so zielgerichteter Werbung Angst hat,
00:40:10.279 --> 00:40:13.700
der sollte vielleicht die eigene
Urteilsfähigkeit hinterfragen.
00:40:13.700 --> 00:40:19.430
Applaus
00:40:20.050 --> 00:40:26.069
Ja. Ja. Bestimmt haben auch ein paar von
euch diesen Gedankengang gehabt und an der
00:40:26.069 --> 00:40:30.830
Stelle hat ich keinen Applaus erwartet.
Sich selbst haben sie sich ein
00:40:30.830 --> 00:40:34.470
bisschen bruhigt, mit diesem Gedankengang.
Das Problem ist nur, ich glaube,
00:40:34.470 --> 00:40:39.259
die eigene Urteilsfähigkeit hinterfragen,
das macht kaum einer. In der Realität
00:40:39.259 --> 00:40:43.059
wählen die Leute doch irgendwie
denjenigen, der ihnen am meisten, am
00:40:43.059 --> 00:40:48.140
emotional passensten, kurz vor der Wahl
was zubrüllt. Ja. Und so laufen Wahlen.
00:40:48.140 --> 00:40:52.380
Das ist ja auch politisch so gewollt, Wo
kämen wir auch hin, wenn Wahlen irgendwie
00:40:52.380 --> 00:40:54.849
langfristigen Erfolg belohnen würden, ne.
00:40:54.849 --> 00:40:55.930
verhaltendes Lachen
00:40:55.930 --> 00:41:01.420
Und dieses emotionale Zurufen und das geht
mit so höchst personalisierter Werbung
00:41:01.420 --> 00:41:07.999
urplötzlich, unglaublich effizient. Und
das bedeutet, ja, Data-Science-Techniken
00:41:07.999 --> 00:41:12.650
können Wahlen beeinflussen. Ja vorhin
hatte ich die Voratsdatenspeicherung
00:41:12.650 --> 00:41:17.869
angeprangert ja ich bin ja auf dem CCC,
also vermute ich, dass die Meisten von
00:41:17.869 --> 00:41:21.670
von mit mir einer Meinung waren. Und damit
kommen wir genau zum Punkt; Wisst ihr, was
00:41:21.670 --> 00:41:25.720
die Firma aus dem Artikel genommen hat, um
die Wähler so ultragenau zu vermessen?
00:41:25.720 --> 00:41:29.569
Das waren überhaupt gar keinen
staatlichen Überwachungsdaten, das waren
00:41:29.569 --> 00:41:35.329
Facebook-Likes. Also Daten, die die Leute
selbst über sich ins Netz gestellt
00:41:35.329 --> 00:41:38.880
hatten, ne. Und es ist wichtig mit
staatlicher Überwachung kritisch zu sein.
00:41:38.880 --> 00:41:42.819
Ja das dürfen wir und das müssen wir
auch, wenn wir kein Unrechtsstaat werden
00:41:42.819 --> 00:41:47.289
wollen. Aber wenn wir dann gleichzeitig
völlig unkritisch sind mit uns selbst,
00:41:47.289 --> 00:41:52.950
ja, und wirklich jeden Mist ins Facebook
oder ähnliche Plattformen pumpen, ja,
00:41:52.950 --> 00:41:54.810
dann haben wir nichts gewonnen.
00:41:55.900 --> 00:42:06.070
Applaus
00:42:06.070 --> 00:42:11.359
Mein Vortrag neigt sich dem Ende zu. Es
kommen jetzt noch zwei Sachen: eine kleine
00:42:11.359 --> 00:42:17.130
Überraschung und dann habe ich noch ne
Bitte an euch alle. Und zuerst gibt es die
00:42:17.130 --> 00:42:22.950
Überraschung. Ja, habe ich vorhin gesagt,
ich hätte 100.000 Artikel von
00:42:22.950 --> 00:42:27.890
Spiegel-Online geladen?
Ich meinte über 700.000
00:42:27.890 --> 00:42:31.930
Applaus
00:42:31.930 --> 00:42:36.530
Ne, ich lade jeden Artikel nicht nur
einmal runter, wenn er erscheint somdern
00:42:36.530 --> 00:42:40.370
mehrfach in wachsenden Zeitabständen.
Und mit anderen Worten, wir können messen,
00:42:40.370 --> 00:42:43.230
was in Artikeln geändert wurde.
00:42:43.230 --> 00:42:49.660
Gelächter
Applaus
00:42:49.660 --> 00:42:53.719
So und aus Zeitgründen, gibts damit keine
riesen Auswertung. Erstens aus
00:42:53.719 --> 00:42:57.510
Zeitgründen hier im Vortrag aber auch
zweitens aus persönlichen Zeitgründen ne,
00:42:57.510 --> 00:43:01.640
ich muss irgendwann auch nochmal arbeiten.
Aber wir haben ne kleine Demo.
00:43:01.640 --> 00:43:06.819
Ich hab zum Beispiel mal geguckt, ob
Titel geändert werden, ne.
00:43:06.819 --> 00:43:10.520
Und bei sowas findet man einfach lustige
Sachen. Es gibt nicht nur den Titel,
00:43:10.520 --> 00:43:11.960
der hier offensichtlich ist.
00:43:11.960 --> 00:43:16.300
Sondern es gibt auch zusätzlich den
Html-Titel, die Techniker unter euch
00:43:16.300 --> 00:43:20.900
kennen den. Der wird oben im Browser
angezeigt und auch die Html-Titel erfasse
00:43:20.900 --> 00:43:27.140
ich natürlich. So und am 21.Januar -
wobei der hier sichtbare Artikel ist am
00:43:27.140 --> 00:43:32.349
20. Januar 2015 rausgekommen - und am
21.Januar und das war einen Tag nachdem
00:43:32.349 --> 00:43:36.710
der Artikel erschienen war, wurde mir
angezeigt: Der Html-Titel hat sich
00:43:36.710 --> 00:43:43.329
geändert aus "SAP wächst 2014 langsamer
als geplant." Ich hab mich dann gefragt:
00:43:43.329 --> 00:43:48.049
He, warum wurde er denn geändert, ja also
wie war der vorher. Ganz einfach: Als der
00:43:48.049 --> 00:43:54.410
Artikel rauskam, wuchs nähmlich nicht SAP
sondern der SAP-Chef
00:43:54.410 --> 00:43:56.000
wuchs langsamer als geplant.
00:43:56.000 --> 00:43:57.589
Gelächter
00:43:57.589 --> 00:43:59.989
Sowas finde ich an sich ganz sympatisch,
00:43:59.989 --> 00:44:02.229
Gelächter
00:44:02.229 --> 00:44:05.579
denn es zeigt, das bei Spiegel Online noch
Menschen an den Texten sitzen und keine
00:44:05.579 --> 00:44:10.940
Computer und im Moment heisst der Artikel
übrigens: SAP kann Wachstums- und
00:44:10.940 --> 00:44:15.349
Gewinnziele nicht erfüllen. Also das hat
nochmal irgendwem nicht gefallen, ne. Und
00:44:15.349 --> 00:44:19.369
irgendwann zwischendurch haben sie es
nochmal geändert. Also, jetzt wisst ihr
00:44:19.369 --> 00:44:22.069
erst, wie mächtig der Datensatz
tatsächlich ist. Ich hab von jedem
00:44:22.069 --> 00:44:26.060
Artikel diverse zeitlich versetzte
Versionen und das erlaubt natürlich viel,
00:44:26.060 --> 00:44:29.640
viel krassere Auswertungen und damit fang
ich aber selbst erst an und deswegen ist
00:44:29.640 --> 00:44:33.489
heute noch so wenig davon im Vortrag, aber
das war meine Überraschung und jetzt
00:44:33.489 --> 00:44:39.029
kommt meine Bitte. Ihr habt jetzt alles
mögliche gesehen und wir haben Artikel
00:44:39.029 --> 00:44:43.680
auf einfach und komplexe Weise unterteilt.
Wir haben gesehen, das verschiedene
00:44:43.680 --> 00:44:47.319
Arten der Unterteilung und Darstellung
verschieden mächtig sind und wir haben
00:44:47.319 --> 00:44:51.240
verschiedenste Features aus den Artikeln
gelesen: Rubrik, Zeiten, Kommentierbarkeit
00:44:51.240 --> 00:44:56.900
Autor. Jede Menge weiterer Features sind
denkbar. Auch kompliziertere Features ja.
00:44:56.900 --> 00:45:01.259
Man könnte zum Bsp für jeden Artikel die
darin enthaltenden Links raus ziehen und
00:45:01.259 --> 00:45:05.130
dann gucken, ob bestimmte Autoren Kumpels
haben, auf die sie oft verlinken.
00:45:05.130 --> 00:45:09.289
Der Fantasie sind wirklich keine Grenzen
gesetzt. Und zum Schluss haben wir sogar
00:45:09.289 --> 00:45:14.710
gesehen, wir können für jeden Artikel
messen, was verändert wurde, ne.
00:45:14.710 --> 00:45:19.559
Wir können z.B. gucken, wo die Leser am
meisten randalieren. Da guckt man, indem
00:45:19.559 --> 00:45:23.059
man guckt, wo die Kommentarfunktionen erst
geöffnet und später dann geschlossen
00:45:23.059 --> 00:45:28.729
sind. Also meine Bitte an euch, jeder der
hier zuguckt, schickt mir bitte einen Mail
00:45:28.729 --> 00:45:34.749
mit seinem kreativsten Auswertungsideen
für den Datensatz. Und in dem
00:45:34.749 --> 00:45:36.969
Zusammenhang hab ich noch ne Message, die
ihr euch auch mitnehmen könnt. Wenn ihr
00:45:36.969 --> 00:45:40.609
was im Bereich der Data-Science macht,
Rohdaten sind geil.
00:45:40.609 --> 00:45:53.650
Gelächer
Applaus
00:45:53.650 --> 00:45:58.269
Behaltet immer alle Rohdaten, wenn ihr es
irgendwie vom Speicher bezahlen könnt.
00:45:58.269 --> 00:46:02.209
Ne, dann könnt ihr nämlich im nachhinein
alles mögliche tun. Ich hab alle Rohdaten
00:46:02.209 --> 00:46:05.410
komplett da. Das sind über 60 GB
pures HTML.
00:46:05.410 --> 00:46:06.410
Gelächter
00:46:06.960 --> 00:46:10.510
Und neue Features im nachhinein dazu
auswerten, ist deswegen überhaupt
00:46:10.510 --> 00:46:14.420
kein Problem. Darum bitte, bitte, lasst
eurer Fantasie freien Lauf. Erfindet neue
00:46:14.420 --> 00:46:18.280
Features, erfindet wonach die ausgewertet
werden sollen. Schickt mir einfach, was
00:46:18.280 --> 00:46:21.620
ihr euch denkt, ja. Vieleicht ist nicht
alles, was ihr wollt möglich und
00:46:21.620 --> 00:46:24.929
vielleicht schau ich auch nicht alles
sofort. Ich bin ja auch berufstätig und
00:46:24.929 --> 00:46:28.840
zum Jahresanfang werde ich stramm
eingespannt sein Aber ich versuch was
00:46:28.840 --> 00:46:33.719
möglich zu machen. Also einfach
einschicken. Seit kreativ. Und damit
00:46:33.719 --> 00:46:37.680
bleibts mir nur noch, ein dickes
Dankeschömn zu sagen dafür das ihr diese
00:46:37.680 --> 00:46:42.189
Stunde mit mir verbracht habt.
Hier sind noch die Links. Und bis dann.
00:46:42.189 --> 00:47:02.160
Applaus
JubelApplaus
00:47:02.160 --> 00:47:06.030
Herald: Ganz so schell wirst du
natürlich noch nicht entlassen, weil wir
00:47:06.030 --> 00:47:11.200
haben noch unsere Fragerunde. Erstmal
herzlichen Dank, immer schön zu sehen,
00:47:11.200 --> 00:47:14.849
wie die Mathematik doch spannend sein
kann, um eben solche Daten zu analysieren.
00:47:14.849 --> 00:47:24.220
Und ja, wie immer, wenn ihr Fragen habt,
tretet vor zu den Mikrofonen. Und alle die
00:47:24.220 --> 00:47:30.390
schnell, ich glaube nebenan startet der
Jahresrückblick mit Fefe oder
00:47:30.390 --> 00:47:32.849
David Kreisel: Ne der Fefe sitzt da vorne
im Publikum.
00:47:32.849 --> 00:47:40.539
Herald: Ach ja, der sitzt noch hier. So
schnell wird er dann drüben noch nicht
00:47:40.539 --> 00:47:46.690
starten, vielleicht wollen die schon mal
einen Platz. Genau. .... Wo haben wir
00:47:46.690 --> 00:47:49.309
Fragen, an Mikro 3, beginnen wir dort:
00:47:49.309 --> 00:47:54.569
Mik 3: Hi, super Vortrag, fand ich echt
Klasse. Was mich mal interessieren würde:
00:47:54.569 --> 00:47:58.499
Hast du mal geguckt, ob die Split testen
und die Artikel-Überschriften ändern
00:47:58.499 --> 00:48:01.339
anhand von wieviel Leute drauf klicken
oder sowas?
00:48:01.339 --> 00:48:05.279
David: Ja das würde man messen daran,
wie viele verschiedene Titel man so findet
00:48:05.279 --> 00:48:08.680
und wenn diese Zahl der durchschnittlichen
Titel pro Artikel ansteigt, dann passiert
00:48:08.680 --> 00:48:14.640
das und wenn ich das richtig interpretiere
dann testen sie das gerade. Also es ist
00:48:14.640 --> 00:48:18.480
noch nicht übergreifend, es ist immer nur
so stossweise, vielleicht will mich auch
00:48:18.480 --> 00:48:21.890
einer korrigieren von Spiegel Online, aber
so wie meine Daten aussehen, ja hab ich
00:48:21.890 --> 00:48:26.999
getestet, sie versuchen es gerade. Also
was ist Splittesten? Vieleicht mal fürs
00:48:26.999 --> 00:48:30.640
Publikum. Man veröffentlicht Artikel mit
verschiedenen Titeln und dann guckt man,
00:48:30.640 --> 00:48:33.630
wo am meisten Leute klicken, bei welchem
Titel und der Titel darf dann weiter
00:48:33.630 --> 00:48:38.559
leben. Ihr verändert also durch euren
Besuch direkt die Nachrichtenseite.
00:48:38.559 --> 00:48:46.210
Mikro 1: Ja hi. Ich wollte fragen, ob du
auch Spiegel-plus Artikel, die es ja seit
00:48:46.210 --> 00:48:50.329
Mitte diesen Jahres, glaube ich, gibt mit
einbezogen hast und wenn ja, hast du einen
00:48:50.329 --> 00:48:51.329
plus Account?
00:48:51.329 --> 00:48:52.329
David: Äh, ja.
00:48:52.329 --> 00:48:53.890
leichtes Gelächter im Publikum
00:48:53.890 --> 00:48:57.829
Ich habe die mit einbezogen, ähm, und
natürlich habe ich auch einen
00:48:57.829 --> 00:49:00.220
plus-Account, der das vollautomatisch
entschlüsselt,
00:49:00.220 --> 00:49:01.220
räusper
00:49:01.220 --> 00:49:02.220
und dazu also
00:49:02.220 --> 00:49:03.080
Gelächter
00:49:03.080 --> 00:49:06.250
wenn einer Näheres - Ich hab mich da
wahnsinnig geärgert - kurz - als die
00:49:06.250 --> 00:49:09.640
plus-Artikel rauskamen, weil ich die
nicht auf Anhieb de-krypten konnte.
00:49:09.640 --> 00:49:12.319
Und dazu gibts jetzt bei mir einen
Blogartikel, seitdem,
00:49:12.319 --> 00:49:15.140
wie man die de-kryptet.
00:49:15.140 --> 00:49:19.070
Applaus
00:49:19.070 --> 00:49:22.600
Ich muss übrigens mal was Positives
sagen, die Spiegel plus Artikel sind im
00:49:22.600 --> 00:49:26.089
Median 1100 Worte lang, also man muss
schon sagen,
00:49:26.089 --> 00:49:27.439
da kriegt ihr auch was fürs Geld.
00:49:27.439 --> 00:49:29.599
leichtes Gelächterleichter Applaus
00:49:29.599 --> 00:49:39.839
Mikro 7: Hast du im Rahmen deiner Analysen
auch auf die Inhalte geguckt, das du
00:49:39.839 --> 00:49:46.339
vielleicht die Worthäufigkeit analysiert
hast und die Zuordnung zu Ressorts oder zu
00:49:46.339 --> 00:49:51.339
Schlagworten anhand der Inhalte
abgeglichen hast, um vielleicht raus
00:49:51.339 --> 00:49:54.680
zufinden, ob die Verschlagwortung
vollständig oder richtig ist.
00:49:54.680 --> 00:49:58.582
David: Ne hab ich noch nicht gemacht. Man
kann ja die Schlagworte nehmen und da hab
00:49:58.582 --> 00:50:01.609
ich es mir bequem gemacht oder man
versucht jetzt ne Analyse zu machen, was
00:50:01.609 --> 00:50:04.579
die relevanten Worte im Artikel sind und
das hab ich noch nicht gemacht, Das wären
00:50:04.579 --> 00:50:08.470
dann sozusagen die schöneren Schlagworte.
Aber ne, hab ich noch nicht gemacht.
00:50:08.470 --> 00:50:12.219
Herald -Frage aus dem Internet:
00:50:12.219 --> 00:50:16.420
Signal Angel: IRC möchte wissen, welche
Software du benutzt hast, um die Daten zu
00:50:16.420 --> 00:50:19.519
sammeln. zu analysieren, zu visualisieren
und ob es
00:50:19.519 --> 00:50:20.519
die Daten irgendwo gibt, außer bei dir.
00:50:20.519 --> 00:50:24.360
David: OK. Nein gibts noch nicht, irgendwo
außer bei mir, weil ich mir auch gar
00:50:24.360 --> 00:50:31.440
nicht sicher bin, ob ich die verteilen
darf. Ich benutze den Python Data Stack
00:50:31.440 --> 00:50:34.599
und die Software zum runterladen hab ich
mir selbst geschrieben, die läuft auf
00:50:34.599 --> 00:50:40.690
einem meiner Server und darüberhinaus
nutze ich Pandas für die Analyse, das ist
00:50:40.690 --> 00:50:43.880
auf Python aufbauend und dann diese ganze
MaschinLearning Sachen da drüber
00:50:43.880 --> 00:50:48.739
scikit-learn. Also den ganzen Py DataStack
googelt danach einfach, da findet ihr viel
00:50:48.739 --> 00:50:51.589
und zum Visualisieren hab ich hier Tableau
genommen, das ist ne
00:50:51.589 --> 00:50:56.930
Visualisierungssoftware. Die schon
voragregierte und vorerechnete Daten bis
00:50:56.930 --> 00:51:00.339
zu ein paar GigaByte ganz gut verkraftet
und da kann man sehr schnell schöne
00:51:00.339 --> 00:51:04.720
Visualisierungen draus ziehen und zum
00:51:04.720 --> 00:51:06.319
Visualisieren der Graphen hab ich Gephi
genommen.
00:51:06.319 --> 00:51:12.529
Mikro 4: Hast du Daten Real-Time
analysiert oder
00:51:12.529 --> 00:51:14.119
alles im nachhinein gemacht?
00:51:14.119 --> 00:51:16.069
David: Ich versteh die Frage nicht.
00:51:16.069 --> 00:51:19.630
Mirko: Ob du die Daten während du sie
gesammelt hast analysiert hast?
00:51:19.630 --> 00:51:23.079
David: Ach so, ne. Das wird alles
rohdatenmäßig gesammelt, dann wird das
00:51:23.079 --> 00:51:28.960
im weiteren Schritt erst mal, werden die
Rohfeatures rausge-parsed und das sind dann
00:51:28.960 --> 00:51:31.680
so wenige, das sie in der Tat dann in
einen RAM passen und ich dann darauf
00:51:31.680 --> 00:51:36.089
weitere High-Level Feature machen kann.
Das passiert so in 3 Layern. Also es ist
00:51:36.089 --> 00:51:41.180
nicht direkt dabei aber während wir hier
gesprochen haben, ist schon wieder 10 mal
00:51:41.180 --> 00:51:44.079
runter geladen worden. Insofern ist das
schon gleichzeitig zum Runterladen.
00:51:44.079 --> 00:51:48.709
Das Runterladen geht weiter.
00:51:48.709 --> 00:51:53.560
Mikro 3: Eine Idee für die Auswertung: Du
könntest mal gucken, ob bestimmte
00:51:53.560 --> 00:51:57.309
Wortgruppen in älteren Artikeln nochmal
vorkamen, um zu sehen welche zusammen
00:51:57.309 --> 00:51:58.309
kopiert wurden.
00:51:58.309 --> 00:52:03.029
David: Du meinst, ja ja , so ne Auswertung
im Sinne von: In jedem Artikel kriegt ihr
00:52:03.029 --> 00:52:07.460
durchschnittlich 73 Prozent neuen Content
quasi, ja?
00:52:07.460 --> 00:52:08.950
Gelächter
00:52:08.950 --> 00:52:10.020
Mikro: Ja
00:52:10.020 --> 00:52:11.790
David: Guter Punkt
00:52:11.790 --> 00:52:13.130
Applaus
00:52:13.130 --> 00:52:15.229
David: Machen wir so.
00:52:17.039 --> 00:52:22.530
Mikro: Hallo, ich wollte nur kurz einen
Denkanstoss geben, ich formuliere das mal
00:52:22.530 --> 00:52:28.440
als Frage. Könnte es sein, das diese
Nichtkommentierbarkeit von Israel-Artikeln
00:52:28.440 --> 00:52:32.430
auch einfach ein Ressourcen-Problem ist,
weil es da vielleicht mehr aus
00:52:32.430 --> 00:52:36.140
juristischen Gründen zu zensieren gibt
für die Redaktion?
00:52:36.140 --> 00:52:38.049
David: Das kann selbstverständlich sein.
Ja natürlich.
00:52:38.049 --> 00:52:40.869
Mikro: Z.B. gibt es ja durchaus
Sigularitäten mit dem deutschen
00:52:40.869 --> 00:52:42.999
Strafrecht, das man bestimmte Sachen
nicht sagen darf.
00:52:42.999 --> 00:52:48.950
David: Ja. Also, hätte es nur Israel
erwischt, hätte ich das auch sofort auch
00:52:48.950 --> 00:52:51.989
gedacht. Aber ja kann natürlich sein.
Das ist auch so ganz wichtig an so
00:52:51.989 --> 00:52:54.759
Data-Science, ich hab das hier jetzt
teilweise bisschen ketzerisch vorgetragen
00:52:54.759 --> 00:52:58.450
aber natürlich müsst ihr schon selbst
nochmal gucken, was ihr aus den Daten
00:52:58.450 --> 00:53:02.309
folgert. Ja natürlich, das kann sein. Am
besten wissen das natürlich nur die
00:53:02.309 --> 00:53:06.369
Spiegelleute. Aber Israel war ja nicht der
einzige Punkt der nichtkommentierbar war
00:53:06.369 --> 00:53:13.479
und zur reinen Justiz gibt es keine
Singularität im deutschen Strafrecht.
00:53:13.479 --> 00:53:18.219
Mikro 6: Hallo David, vielen Dank für den
Talk. Hast du überlegt die Software
00:53:18.219 --> 00:53:22.159
irgendwie Open Source anzubieten , so
dass man sie z.B. für
00:53:22.159 --> 00:53:25.219
andere Quellen anpassen kann. Tagesschau
etc.
00:53:25.219 --> 00:53:29.680
David: Hab ich nicht überlegt. Aber
ehrlich gesagt, so aufwendig ist es auch
00:53:29.680 --> 00:53:35.549
nicht. Ihr schreibt euch nen Script, was
euch alle paar Minuten mal losläuft und
00:53:35.549 --> 00:53:41.009
die Artikel runter lädt und das
speicherst in einer Datenbank fertig. Also
00:53:41.009 --> 00:53:44.849
das Open Source, ist das uninteressanteste
was es gibt. Ddas findet ihr in 1000
00:53:44.849 --> 00:53:49.019
Varianten sauberer als ich das gemacht hab
nochmal, glaube ich. Aber ja, man könnte
00:53:49.019 --> 00:53:52.220
mal eine Vergleichsauswertung mit anderen
Medien starten, ja.
00:53:52.220 --> 00:53:57.789
Mikro 1: Wie hast du den Strain aus deiner
Karte entfernt, du hast da ne ganze Menge
00:53:57.789 --> 00:54:00.229
Dimensionen auf zwei Dimensionen runter
gebrochen ..
00:54:00.229 --> 00:54:02.199
David: Den was aus meiner Karte entfernt?
00:54:02.199 --> 00:54:04.270
Mikro: Die Spannung, weil du hast ja sehr
00:54:04.270 --> 00:54:06.680
viel Dimensionen auf zwei Dimensionen
reduziert ...
00:54:06.680 --> 00:54:07.410
David: Ja,
00:54:07.410 --> 00:54:09.279
Mikro: .. und wie hast du sichergestellt,
das jetzt nicht Inseln bei einander sind,
00:54:09.279 --> 00:54:12.320
die gar nicht zusammen gehören oder
manche anderen nicht beieinander sind,
00:54:12.320 --> 00:54:14.920
die aufgrund von Inseln, die dazwischen
liegen nicht nah genug zueinander kamen.
00:54:14.920 --> 00:54:18.299
David: In der Theorie kann man das nie
ausschliessen, aber in dem Graoh steckt
00:54:18.299 --> 00:54:22.060
sehr viel Verfahren drin. Also ich hab
zunächst mal zugesehen, das ich
00:54:22.060 --> 00:54:25.190
überhaupt nur die wichtigen Kanten pro
Knoten behalte, sonst hat man wirklich
00:54:25.190 --> 00:54:29.609
viel zu viele Kanten und dann gibts da
professionelle Graph-Layouting-Verfahren
00:54:29.609 --> 00:54:33.829
für, also Gephi bietet was, das heißt
VsAtlas 2 und das war das, was ihr in den
00:54:33.829 --> 00:54:37.839
hübschen Video gesehen habt, damit geht
das sehr gut, Also du must das natürlich
00:54:37.839 --> 00:54:42.579
ein bisschen Schmakes da rein investieren,
wie du die Kanten vorher ausfilters und
00:54:42.579 --> 00:54:46.660
dann, dann bist du immer noch nicht sicher
in der Theorie, aber dann siehst ja, ob
00:54:46.660 --> 00:54:49.509
das Bild gut wird oder nicht.
00:54:49.509 --> 00:54:55.060
Mikro 2: Du meintest, du warst im Oktober
beim Spiegel, wie war den deren Reaktion
00:54:55.060 --> 00:54:57.440
zu deinen Analysen?
00:54:57.440 --> 00:55:01.359
David: Positiv, also, ob das jetzt nur
daran lag, dass die sowieso nichts dagegen
00:55:01.359 --> 00:55:03.849
tun können, weiss ich nicht,
aber ehrlich gesagt,
00:55:03.849 --> 00:55:04.859
Gelächter
00:55:04.859 --> 00:55:08.180
hab ich das als sehr positiv und
interessiert wargenommen und auch ich hab
00:55:08.180 --> 00:55:12.619
was gelernt und das war eigentlich einen
ziemlich cooler Termin, also sportlicher
00:55:12.619 --> 00:55:16.599
als die Kollegen bei Xerox sag ich mal.
00:55:16.599 --> 00:55:23.240
großes GelächterApplaus
00:55:23.240 --> 00:55:33.579
Mikro: Ist vielleicht ne Suggestivfrage,
vielleicht auch in Richtung, wie man
00:55:33.579 --> 00:55:42.510
weiterforschen könnte. Das Verfahren, das
du benutzt hast, um die thematische Nähe
00:55:42.510 --> 00:55:46.589
verschiedener Tags zueinander zu
bestimmen, wäre es mathematisch
00:55:46.589 --> 00:55:48.819
ACHTUNG: Mathematiker-Kauderwelsh ..
00:55:48.819 --> 00:55:52.230
nicht korrekter, wenn du eine singuläre
Zerlegung der Adjazentmatrix
00:55:52.230 --> 00:55:55.329
dieser Schlagworte baust,
ähnlich wie Google Page Rank
00:55:55.329 --> 00:55:56.390
das gemacht hat.
00:55:56.390 --> 00:56:01.719
David: Ja. Aber dann kann man nicht so
einen schönen Graphen draus basteln und
00:56:01.719 --> 00:56:05.959
es kommt wahrscheinlich was ähnliches
raus, sein wir ehrlich. Ich sehe ja die
00:56:05.959 --> 00:56:08.989
Werte der Kanten und wahrscheinlich ist es
am Ende das Selbe.
00:56:08.989 --> 00:56:15.540
Mikro: Ja wenn du genug Dimensionen
benutzt ist es äquivalent.
00:56:18.790 --> 00:56:22.329
David: Ja.
Alles ist still, Mensch.
00:56:22.329 --> 00:56:26.249
Mikro 3: Nochmal kurz zu den Landkarten,
das sind irgendwelche
00:56:26.249 --> 00:56:28.180
MonteCarlo Methoden diese Springs ...
00:56:28.180 --> 00:56:29.339
David: Ja
00:56:29.339 --> 00:56:33.859
Mikro: ... im Endeffekt positionieren, wie
stabil sind die?
00:56:33.859 --> 00:56:37.509
David: Ich denke, ich hab mich da in die
Theorie nicht eingearbeitet weiter, es
00:56:37.509 --> 00:56:40.650
würde mich wundern, wenn du da ne
Stabilität drüber nachweisen könntest.
00:56:40.650 --> 00:56:45.160
"Fest steht, sie sind etabliert für
große Graphen." weil da ist sowieso nix
00:56:45.160 --> 00:56:50.050
mehr zu planarisieren in der Größe und
dann sieht man halt zu zu iterieren bis es
00:56:50.050 --> 00:56:53.859
stimmt und wenn es schlecht aussieht, dann
drückt man nochmal auf den Startknopf.
00:56:53.859 --> 00:56:57.449
Also so ist wirklich die Praxis.
00:56:57.989 --> 00:57:02.519
Mikro: Hallo. Hast du mal Markov auf deine
Daten geworfen,
00:57:02.519 --> 00:57:05.349
um Spiegelartikel zu generieren.
00:57:05.349 --> 00:57:06.659
GelächterApplaus
00:57:06.659 --> 00:57:09.159
David: Nein! Könntest du mir bitte damit
eine Email schicken?
00:57:09.159 --> 00:57:11.949
Gekiecher und Gelächter im Saal
Mikro: Sehr gerne.
00:57:11.949 --> 00:57:14.500
David: Oh wir haben Spaß, ich seh das
schon ..
00:57:14.500 --> 00:57:16.799
GelächterApplaus
00:57:16.799 --> 00:57:25.439
D: Da machen wir aber nicht nur die
Artikel Generierung sondern dann wird
00:57:25.439 --> 00:57:29.190
bitte auch direkt dazu generiert, zu
welchem Thema kommentiert werden darf
00:57:29.190 --> 00:57:30.580
und zu welchen nicht, ne ...
00:57:30.580 --> 00:57:32.070
vereinzeltes Gelächter
Ruf aus dem Publikum: Autoren generieren
00:57:32.070 --> 00:57:35.380
David: Autoren generieren, das ist auch
schön, ja.
00:57:35.380 --> 00:57:37.249
Gelächter
00:57:37.249 --> 00:57:45.150
Herald: So wir sind auch am Ende unserer
Zeit. Wer noch Fragen hat, du bist sicher
00:57:45.150 --> 00:57:46.150
gleich noch ...
00:57:46.150 --> 00:57:49.709
David: Ich geh hier jetzt da raus, zur
nächsten Bierbar, die da ist, falls die
00:57:49.709 --> 00:57:57.219
nicht vor Saal 2 ist, ist die vor Saal 1
dann bin ich da.
00:57:57.219 --> 00:57:58.780
Wir machen jetzt DDos auf
die Bierbar. Ja.
00:57:58.780 --> 00:57:59.810
Applaus
00:57:59.810 --> 00:58:02.609
Herald: Ja ist ja auch Zeit.
00:58:02.609 --> 00:58:12.260
Applaus
00:58:12.260 --> 00:58:18.869
Herald : Auch von mir auch nochmal ein
Herzlichen Dank ....
00:58:19.628 --> 00:58:26.211
33c3 - Abspann-Musik
00:58:26.211 --> 00:58:46.000
Untertitel erstellt von c3subtitles.de
im Jahr 2017. Mach mit und hilf uns!