0:00:00.000,0:00:13.230
33C3 Vorspannmusik
0:00:13.230,0:00:18.370
Herald Carina Haupt: David Kriesel ist[br]Data Scientist. Und der eine oder andere
0:00:18.370,0:00:24.919
kennt ihn vielleicht noch vom 31C3, wo er[br]den relativ bekannt gewordenen berühmten
0:00:24.919,0:00:27.039
Xerox Scanning Bug Vortrag gehalten hat.
0:00:27.039,0:00:34.950
Applaus
0:00:34.950,0:00:41.460
Dieser hat ihn offensichtlich nicht nur[br]hier bekannt gemacht. Sondern auch zu
0:00:41.460,0:00:45.840
internationaler Bekanntheit verholfen. Und[br]damit begrüsse ich ihn und freue mich auf
0:00:45.840,0:00:51.380
einen spannenden Talk und bitte Euch[br]nochmal um einen ganz ganz herzlichen
0:00:51.380,0:00:54.100
Applaus für David.
0:00:54.100,0:00:57.040
Applaus
0:00:57.040,0:00:59.320
David: Dankeschön
0:00:59.320,0:01:01.060
Applaus
0:01:01.060,0:01:06.720
Ja, dankeschön. Herzlich willkommen. Auch[br]nochmal von mir. Auch an die Leute im
0:01:06.720,0:01:11.580
Internet. Und auch an die Leute vom[br]Spiegel. Von denen ich weiss, dass sie
0:01:11.580,0:01:18.390
anwesend sind. Es ist schön wieder hier[br]zu sein. Mein Name ist David Kriesel. Ich
0:01:18.390,0:01:22.570
bin Informatiker aus Bonn. Und ich mache[br]beruflich, es wurde schon gesagt Data
0:01:22.570,0:01:26.620
Science und Machine Learning. Und salopp[br]gesagt, versuche ich für meine
0:01:26.620,0:01:33.540
Arbeitgeber aus grossen Datenmengen Wissen[br]zu ziehen. Und seit 2014 habe ich knapp
0:01:33.540,0:01:38.750
100 000 Artikel von Spiegel Online[br]ge-vorratsdaten-speichert.
0:01:38.750,0:01:45.550
GelächterApplaus
0:01:45.550,0:01:49.590
Und das habe ich einfach niemanden[br]erzählt.
0:01:49.590,0:01:51.320
Gelächter
0:01:51.320,0:01:55.420
Und während ich da so zweieinhalb Jahre[br]sitze und das niemanden erzähle, ist die
0:01:55.420,0:01:59.470
Stimmung medial irgendwie umgeschlagen.[br]Vor zweieinhalb Jahren war die Welt noch
0:01:59.470,0:02:04.600
in Ordnung und heute ist die Rede von[br]Lügenpresse und Fake News und genau aus
0:02:04.600,0:02:09.669
dieser Zeit des Stimmungsumbruchs haben[br]wir jetzt einen riesigen Datensatz über
0:02:09.669,0:02:15.290
den vielleicht grössten Meinungsmacher[br]unserer Nation. Und mit diesem Datensatz
0:02:15.290,0:02:18.950
werden wir heute zwei Sachen machen:[br]Erstens, wir werden den Datensatz
0:02:18.950,0:02:23.720
durchleuchten und was über Spiegel Online[br]lernen. Und zwar so, dass ihr das auch mit
0:02:23.720,0:02:29.629
nach Hause nehmen und beim Lesen dann[br]anwenden könnt. Und zweitens, wir werden
0:02:29.629,0:02:34.129
Einblick erhalten wie die Datensammelwut[br]von heute funktioniert und wie mächtig
0:02:34.129,0:02:38.029
oder vielleicht auch nicht mächtig die[br]ist. Und das machen wir so, dass es für
0:02:38.029,0:02:42.750
jeden verstehbar ist, nicht nur für[br]Informatiker. Und zusätzlich werde ich,
0:02:42.750,0:02:46.359
wie in meinem letzten Vortrag vor zwei[br]Jahren ein bisschen auf das
0:02:46.359,0:02:50.069
Gesellschaftliche eingehen. Und wir werden[br]an ein paar passenden Beispielen
0:02:50.069,0:02:53.429
beleuchten, wie die moderne[br]Datenverarbeitung unsere Gesellschaft
0:02:53.429,0:02:57.210
beeinflussen kann. Und ob wir die Welt,[br]mit dieser allumfassenden Datensammelwut
0:02:57.210,0:03:01.119
besser machen oder schlechter machen, dass[br]kann dann ja später jeder von euch für
0:03:01.119,0:03:06.510
sich selbst entscheiden. Am besten fangen[br]wir an, in dem ich kurz beschreibe wie
0:03:06.510,0:03:12.010
genau Spiegelmining funktioniert. Rund um[br]die Uhr, alle paar Minuten schaut einer
0:03:12.010,0:03:16.599
meiner Server vollautomatisch auf Spiegel[br]Online nach ob dort neue Artikel stehen
0:03:16.599,0:03:20.340
und werden neue Artikel gefunden, dann[br]werden die heruntergalden und
0:03:20.340,0:03:25.141
abgespeichert. Und auf diese Weise hat der[br]Datensatz einen coolen Vorteil der ja
0:03:25.141,0:03:29.519
jetzt vielleicht nicht sofort ersichtlich[br]ist: ich erhalte neue Artikel binnen
0:03:29.519,0:03:33.960
Minuten, nachdem sie veröffentlicht[br]wurden. Das heisst, ich kriege die im
0:03:33.960,0:03:35.650
Originalzustand, also vor allen[br]
0:03:35.650,0:03:37.470
Verbesserungen und Änderungen,
0:03:37.470,0:03:38.920
die im Nachhinein vorgenommen
0:03:38.920,0:03:41.519
werden und das ist natürlich[br]viel aussagekräftiger.
0:03:41.519,0:03:45.589
Man erhält ein unverfälschten Eindruck und[br]es ist nicht so wie wenn man einen Artikel
0:03:45.589,0:03:50.129
runterlädt, die vieleicht schon Jahre alt[br]und tausend mal editiert sind. Aus den
0:03:50.129,0:03:54.059
heruntergeladenen Artikeln lese ich dann[br]sogenannte Features. Feature ist einfach
0:03:54.059,0:03:57.919
das Fachwort für ein Artikelmerkmal. Ganz[br]einfache Features eines Artikels können
0:03:57.919,0:04:00.420
zum Beispiel der[br]Veröffentlichungszeitpunkt oder die
0:04:00.420,0:04:04.260
Rubrik sein, in der der Artikel steckt.[br]Und die Features nehme ich dann und mache
0:04:04.260,0:04:08.739
damit Auswertungen, von den sehen wir[br]heute noch ein paar. Und die interessanten
0:04:08.739,0:04:12.979
unter den Auswertungen nutze ich dann, um[br]auf meiner Seite eine Blogartikelserie zu
0:04:12.979,0:04:16.959
schreiben, um meinen Lesern einen Einblick[br]in Spiegel Online und die Data Science
0:04:16.959,0:04:21.060
gleichermassen zu geben und das war es.[br]Spiegelmining in wenigen Minuten. Und am
0:04:21.060,0:04:24.750
Anfang machen wir jetzt ein paar sehr[br]einfache Auswertungen, so sehen wir wie
0:04:24.750,0:04:28.110
das funktioniert und verschaffen uns[br]gleichzeitig einen Überblick über
0:04:28.110,0:04:32.060
Spiegel Online und als erstes zählen wir[br]mal wie häufig die einzelnen Rubriken so
0:04:32.060,0:04:37.400
vorkommen. Das ist die Ansicht. Die[br]Größe der Kreise gibt die Artikelanzahl
0:04:37.400,0:04:42.340
pro Rubrik wieder und wie wir sehen, wird[br]Spiegel Online dominiert von Politik, das
0:04:42.340,0:04:47.740
ist der große rote Kreis rechts oben, von[br]Panorama, das ist der grüne Kreis in der
0:04:47.740,0:04:51.930
Mitte und vom Sport, das ist der[br]fliederfarbene Kreis ganz unten. Ich
0:04:51.930,0:04:54.740
weiss, was fliederfarben ist. Ich höre[br]schon Leute lachen.
0:04:54.740,0:04:57.490
Applaus
0:04:57.490,0:05:04.270
Also die drei Rubriken, die machen[br]zusammen die Hälfte der Artikel aus. Und
0:05:04.270,0:05:08.169
das nächste supereinfache Feature ist der[br]Veröffentlichungszeitpunkt von jedem
0:05:08.169,0:05:11.910
Artikel. Damit messen wir jetzt einfach[br]mal, wieviele Artikel Spiegel Online am
0:05:11.910,0:05:16.120
Tag so schreibt. Der Plot sieht jetzt[br]richtig richtig krass unordentlich aus,
0:05:16.120,0:05:19.730
dass man da fast keine Werte erkennen[br]kann. Das liegt an den Wochenenden.
0:05:19.730,0:05:23.020
Da wird um die Hälfte weniger[br]veröffentlicht als normal. Und deswegen
0:05:23.020,0:05:27.019
schwankt das so krass. Und hier gibt es[br]dann auch gleich den ersten Bericht aus
0:05:27.019,0:05:32.240
der Praxis: wie man deutlich sieht, habe[br]ich Anfang März 2015 ein paar Tage Loch
0:05:32.240,0:05:36.770
in den Daten. Und der Grund ist, dass der[br]März ein Monat mit "ae" ist.
0:05:36.770,0:05:40.180
GelächterApplaus
0:05:45.950,0:05:52.639
Also, mir ist das nach kurzer Zeit zum[br]Glück aufgefallen. Also wenn Ihr Daten
0:05:52.639,0:05:56.940
aufnehmt, dann programmiert Euch bitte mal[br]irgendeine Form von Warnsystem, das
0:05:56.940,0:06:00.710
anschlägt, wenn länger keine Daten mehr[br]eintrudeln. Ich hatte das zum Glück und
0:06:00.710,0:06:04.380
das hat mir hier sehr geholfen. Jetzt[br]schlägt es in ein paar Minuten an und da
0:06:04.380,0:06:08.009
hatte ich so irgendwie ein paar Tage keine[br]Ahnung. Zurück zum Plot: Wegen der
0:06:08.009,0:06:10.969
Unordnung mit den Wochenenden ändern wir[br]jetzt unseren Plot und berechnen statt den
0:06:10.969,0:06:14.821
Artikeln pro Tag jetzt die Artikel pro[br]Woche. Und man sieht jetzt auch was und da
0:06:14.821,0:06:19.340
sehen wir, dass Spiegel Online im Schnitt[br]so 700 Artikel die Woche veröffentlicht,
0:06:19.340,0:06:23.979
also so 100 am Tag. Und das ist schon[br]ziemlich viel Output. Übrigens die beiden
0:06:23.979,0:06:28.830
krassen Einbrüche, die Ihr hier seht, das[br]sind die Weihnachtswochen, da wird weniger
0:06:28.830,0:06:32.430
veröffentlicht und der Datensatz für[br]diesen Vortrag ist vom 4. Dezember,
0:06:32.430,0:06:36.490
deswegen ist dieser Weihnachts-Low dieses[br]Mal einfach noch nicht drin. Und wenn man
0:06:36.490,0:06:41.090
jetzt Features einzeln betrachtet, aber[br]richtig interessant wird es, wenn wir
0:06:41.090,0:06:43.979
Features zusammen betrachten. Wir[br]verwursten jetzt also mal
0:06:43.979,0:06:48.440
Veröffentlichungszeitpunkt und Rubrik[br]zusammen. Und dann können wir sehen, das
0:06:48.440,0:06:54.740
beispielsweise der Output in den Rubriken[br]Panorama und Politik stabil ist. Während
0:06:54.740,0:06:58.840
Wissenschaft und Uni-Spiegel ganz schön[br]zusammengestrichen wurden. Das gilt
0:06:58.840,0:07:02.759
übrigens in abgeschwächter Form auch für[br]andere Ressorts. Solche Infos, welche
0:07:02.759,0:07:06.990
Ressorts gerade gerupft werden, sind zum[br]Beispiel relativ interessant, wenn man
0:07:06.990,0:07:10.840
Konkurrent von Spiegel Online ist. Das[br]kann man ohne weiteres auslesen. Und wir
0:07:10.840,0:07:15.470
sehen, geschickt Features ausdenken und[br]zusammenstöpseln, ist die halbe Welt.
0:07:15.470,0:07:20.160
Jetzt nehmen wir mal die Textlänge der[br]Artikel dazu. Hier sind die typischen
0:07:20.160,0:07:25.050
Artikellängen im Spiegel angegeben und[br]zwar pro Rubrik. Und man sieht, dass der
0:07:25.050,0:07:30.160
typische Kulturartikel fast dreimal so[br]lang ist, wie der typische Panorama- oder
0:07:30.160,0:07:35.569
Sportartikel und immerhin noch doppelt so[br]lang wie der typische Politikartikel. Und
0:07:35.569,0:07:40.110
jetzt hatten wir schon gesehen, das[br]Panorama, Sport und Politik trotz ihrer
0:07:40.110,0:07:43.680
kurzen Artikellängen genau die drei[br]dominierenden Ressorts sind. Und daraus
0:07:43.680,0:07:48.509
können wir folgern, das Spiegel Online es[br]eher auf Reichweite anlegt und auf
0:07:48.509,0:07:54.600
Abdeckungsbreite als auf Tiefe. Die[br]Strategie Reichweite um jeden Preis
0:07:54.600,0:07:58.179
scheint Spiegel Online auch noch so zu[br]verstärken. Die zusammengestrichenen
0:07:58.179,0:08:01.760
Rubriken waren alles welche mit eher[br]langen Texten. Und bevor das hier jetzt
0:08:01.760,0:08:05.660
falsch ankommt, ich sage das ohne jede[br]Wertung im Sinne von gut oder schlecht das
0:08:05.660,0:08:09.140
ist ja eine valide Strategie für ein[br]Medium und ich beschreibe einfach nur
0:08:09.140,0:08:12.789
gemessene Daten. Und es ist keineswegs der[br]Zweck der Veranstaltung irgendwie
0:08:12.789,0:08:16.609
substanzlos in Richtung von Spiegel Online[br]zu haten. Wer hatet wird nicht ernst
0:08:16.609,0:08:19.869
genommen. Das habe ich ja in meinem[br]letzten Vortrag schon ausführlich
0:08:19.869,0:08:23.900
beschrieben. Und die meisten Sachen, die[br]hier im Vortrag noch kommen, denkt daran,
0:08:23.900,0:08:29.169
die sind bei den anderen wahrscheinlich[br]ähnlich. Wichtig ist auch dass man mit
0:08:29.169,0:08:33.740
den Features experimentiert. Hier ist zum[br]Beispiel ein Diagramm, das zeigt, dass
0:08:33.740,0:08:38.260
Veröffentlichungsvolumen pro Wochentag[br]und Stunde. Die Zeilen sind die Wochentage
0:08:38.260,0:08:42.559
und die Spalten sind die Stunden eines[br]Tages. Pro Wochentag und Stunde sehen wir
0:08:42.559,0:08:46.450
einen Block. Und in den grossen Blöcken[br]sind viele Artikel erschienen und in den
0:08:46.450,0:08:51.970
kleinen wenige. Und jetzt lernen wir daran[br]mal, wie es in der Data Science zugeht:
0:08:51.970,0:08:56.300
Erstens: In der Data Science findet man[br]immer wieder Botschaften bestätigt, die
0:08:56.300,0:09:01.720
man vorher schon erahnt hat. Das ist der[br]langweilige Teil der Data Science. Aber
0:09:01.720,0:09:05.531
das ist gut, um die eigenen Messverfahren[br]zu überprüfen. Wir sehen hier, zu den
0:09:05.531,0:09:10.400
unchristlichen Zeiten wird viel weniger[br]veröffentlicht. Bahnbrechende Erkenntnis:
0:09:10.400,0:09:12.970
Auch der Spiegel-Online-Redakteur[br]möchte mal schlafen.
0:09:12.970,0:09:14.200
Gelächter
0:09:14.200,0:09:20.580
Zweitens: In der Data Science findet man[br]aber auch immer Systematiken da, wo man
0:09:20.580,0:09:25.690
keine erwartet hat. Und das passiert oft[br]dann, wenn man Features verbindet. Wir
0:09:25.690,0:09:29.840
färben jetzt mal jeden dieser Blöcke[br]ein, nach der typischen Textlänge. Rote
0:09:29.840,0:09:35.120
Blöcke enthalten typischerweise lange[br]Texte und blaue Blöcke eher kurze. Und
0:09:35.120,0:09:40.120
zack Es gibt einen klaren Zusammenhang[br]zwischen Tageszeit und Länge der Artikel.
0:09:40.120,0:09:43.921
Für mich als Nicht-Journalist war das[br]damals überraschend. Die typische Länge
0:09:43.921,0:09:47.950
der veröffentlichten Artikel die ist von[br]Montag bis Freitag zwischen 5 bis 6 Uhr
0:09:47.950,0:09:53.930
früh am grössten. Das gleiche am[br]Wochenende. Hier gibt es zum Tagesstart
0:09:53.930,0:09:58.580
auch nur längere Artikel, ein bisschen[br]später natürlich. Und das Rätsels
0:09:58.580,0:10:02.550
Lösung zu diesem Phänomen kommt später[br]noch. Und als Drittes, ist die Data
0:10:02.550,0:10:08.660
Science natürlich auch dazu da fieseste[br]Vorurteile zu schüren. Ich führe Euch
0:10:08.660,0:10:13.010
das mal vor. Jetzt gebt mir bitte mal ein[br]Handzeichen, wer von Euch denkt, dass die
0:10:13.010,0:10:17.620
Leutchen aus dem Kulturressort morgens[br]bitte, gerne ein bisschen länger pennen
0:10:17.620,0:10:18.620
als die anderen.
0:10:18.620,0:10:20.220
Gelächter
0:10:20.220,0:10:25.100
Also, vielleicht für das Internet: Wir[br]haben einen Raum von 1600 Leuten, der ist
0:10:25.100,0:10:32.200
proppenvoll und fast alle haben die Hand[br]gehoben. Und die Lösung ist: stimmt!
0:10:32.200,0:10:33.850
Gelächter
0:10:33.850,0:10:37.150
Die Kulturwissenschaftler
0:10:37.150,0:10:38.800
Applaus
0:10:38.800,0:10:43.870
Die Kulturwissenschaftler veröffentlichen[br]typischerweise später. In der oberen
0:10:43.870,0:10:47.280
Verteilung sind alle Artikel ausser[br]Kultur. Da ist ab 5 Uhr morgens
0:10:47.280,0:10:51.530
Aktivität. Und in der unteren Verteilung[br]sind die Kulturartikel, da geht es
0:10:51.530,0:10:58.180
mindestens 2 Stunden später los. Aber zum[br]Ausgleich gehen die auch früher nach Hause.
0:10:58.180,0:11:00.510
Gelächter
0:11:00.510,0:11:02.830
Applaus
0:11:02.830,0:11:08.100
Aber, damit wir hier nicht wirklich[br]Vorurteile schüren, ich war bei Spiegel
0:11:08.100,0:11:13.080
Online eingeladen im Oktober und da habe[br]ich das auch so gesagt. Und dann haben sie
0:11:13.080,0:11:17.090
gesagt: 'David, nein, nein!' Manche[br]Artikel werden natürlich auch vorab
0:11:17.090,0:11:21.490
gescheduled, das will ich hier [br]fairerweise dazusagen.
0:11:21.490,0:11:23.650
Und ich mache das auch als Ermahnung, dass
0:11:23.650,0:11:27.250
ihr, wenn Ihr damit arbeitet, immer[br]nochmal selbst nachdenken müsst. was Ihr
0:11:27.250,0:11:31.060
auch solchen Auswertungen wirklich folgern[br]könnt. Besonders dann, wenn Ihr schon mit
0:11:31.060,0:11:34.970
einem Vorurteil da rein gegangen seid, so[br]wie wir jetzt. Wir haben gerade gesehen,
0:11:34.970,0:11:38.580
wie solche Auswertungen grundsätzlich[br]funktionieren, also können wir jetzt
0:11:38.580,0:11:42.670
einen Schritt weitergehen. Und im Internet[br]wird es ja genau immer dann besonders
0:11:42.670,0:11:46.880
knusprig, wenn personenbezogene Daten ins[br]Spiel kommen.
0:11:50.020,0:11:52.560
Also, habe ich mir gedacht,
0:11:52.560,0:11:56.630
es wäre doch mal ein nettes Feature, wenn[br]wir mal die Autoren aus den Spiegel
0:11:56.630,0:12:00.750
Artikeln rauslesen. Und das machen wir[br]jetzt. Und die werten wir gleich auf zwei
0:12:00.750,0:12:04.620
Arten aus: Die erste Auswertung wird eine[br]ganz neue Auswertung in diesem Vortrag,
0:12:04.620,0:12:08.500
also eine ganz neue Art. Und die zweite[br]Auswertung wird ein bisschen politisch
0:12:08.500,0:12:13.750
inkorrekt. In unserer ersten Auswertung[br]werden wir versuchen Spiegel Online
0:12:13.750,0:12:18.310
interne Personalstrukturen einfach von[br]aussen zu lesen. Wenn man zu jedem Artikel
0:12:18.310,0:12:21.850
eine Liste an Autoren hat, dann weiss man[br]ja nicht nur, wer jeden Artikel
0:12:21.850,0:12:25.940
geschrieben hat, sondern man weiss auch,[br]wer mit wem schreibt. Und bei Autoren, die
0:12:25.940,0:12:29.510
oft zusammen Artikel schreiben, dürfen[br]wir davon ausgehen, dass die intensiv
0:12:29.510,0:12:32.740
zusammenarbeiten. Wir wissen also[br]sozusagen, welche Autoren wichtig
0:12:32.740,0:12:37.320
füreinander sind, was die Artikel angeht.[br]Wer wenig oder gar nicht zusammenschreibt,
0:12:37.320,0:12:40.950
der ist in dieser Ansicht nicht wichtig[br]füreinander. Aus diesen Wichtigkeiten
0:12:40.950,0:12:45.820
können wir dann eine Autorenlandkarte[br]bauen. Und hier ist sie. Das ist ein Teil
0:12:45.820,0:12:49.790
des sozialen Netzwerkes der Spiegel Online[br]Autoren generiert über die letzten
0:12:49.790,0:12:54.140
2 Jahre. Und jeder Autor ist so ein Bubble[br]Und Autoren, die nur ganz selten
0:12:54.140,0:12:59.190
vorkommen, die habe ich hier gefiltert.[br]Und man sieht genau, dass es da Grüppchen
0:12:59.190,0:13:03.180
von Autoren gibt, die sich dichter[br]zusammentun. Und das sieht aus, als wären
0:13:03.180,0:13:06.800
es die Teams. Und jetzt müssen wir[br]natürlich kontrollieren, ob unser
0:13:06.800,0:13:10.470
Durchleuchten von aussen, auch wirklich[br]funktioniert. Und um das zu machen,
0:13:10.470,0:13:14.450
färben wir die Autoren mal nach Ihren[br]Ressorts ein. Die Ressorts, die kriegt man
0:13:14.450,0:13:19.301
aus dem Spiegel Online Impressum. Siehe[br]da, in vielen Fällen haben sich
0:13:19.301,0:13:23.440
tatsächlich die Ressorts vollautomatisch[br]in der Landkarte zusammengetan. Hier in
0:13:23.440,0:13:28.800
pink ist Sport. Wissenschaft und[br]Gesundheit. Netzwelt. Politik. Ein
0:13:28.800,0:13:32.620
bisschen verteilter, da habe ich jetzt[br]nicht alle eingekreist. Panorama. Reise.
0:13:32.620,0:13:36.510
Ich nenne jetzt nicht alle Teams, aber Ihr[br]seht das Prinzip. Die hellblauen
0:13:36.510,0:13:40.510
verteilten Punkte sind übrigens das Team[br]von bento, die arbeiten ein bisschen
0:13:40.510,0:13:43.960
übergreifender. Das ist[br]die Kinderausgabe vom Spiegel.
0:13:43.960,0:13:44.960
Gelächter
0:13:44.960,0:13:48.350
Applaus
0:13:48.510,0:13:54.690
Und der Punkt ist, wir haben jetzt relativ[br]genau von aussen durchleuchten können,
0:13:54.690,0:13:59.010
wer mit wem intern in einem Team steckt.[br]Und der Witz ist, schaut die ganzen grauen
0:13:59.010,0:14:03.350
Bubble an. Die sind grau, weil sie nicht[br]mehr über das Spiegel Impressum
0:14:03.350,0:14:07.000
zugeordnet werden konnten. Das sind zum[br]Beispiel ausgeschiedene Kollegen. Der
0:14:07.000,0:14:13.300
Spiegel Chefredakteur ist kürzlich auch[br]grau geworden. Aber durch ihre Nähe zu
0:14:13.300,0:14:17.451
den gefärbten Gruppen, können wir die[br]trotzdem grob einem Team zuordnen. Wir
0:14:17.451,0:14:20.980
können also etwas über die sagen, obwohl[br]wir eigentlich gar nichts über die
0:14:20.980,0:14:24.150
wissen. Und sowas ist dann interessant.[br]Wir können also einfach live von aussen
0:14:24.150,0:14:27.940
über die Personalstrukturen Buch führen.[br]Aber jetzt... Ihr wartet bestimmt schon
0:14:27.940,0:14:32.490
alle zum politisch inkorrekten Teil. Ich[br]möchte Euch nämlich für etwas
0:14:32.490,0:14:37.430
sensibilisieren. In diesem Plot ist jede[br]Zeile ein Autor. Und von links nach rechts
0:14:37.430,0:14:42.790
vergeht die Zeit. Und jeder farbige Strich[br]ist ein vom jeweiligen Autor
0:14:42.790,0:14:46.430
veröffentlichter Artikel. Und wenn wir[br]die Autoren kennen und das tun wir ja
0:14:46.430,0:14:50.100
jetzt, dann wissen wir natürlich auch[br]sehr genau, wer wann veröffentlicht. Wir
0:14:50.100,0:14:53.370
sehen zum Beispiel diese Zeile mit[br]regelmässigen Muster, das ist ein
0:14:53.370,0:14:57.030
Kolumnist, der veröffentlicht genau im[br]Wochentakt, bis auf ein paar Ausnahmen.
0:14:57.030,0:15:00.540
Bei den Leuten, die Tagesgeschehen[br]veröffentlichen, ist die Dichte höher.
0:15:00.540,0:15:04.640
Und das heisst, wir wissen bei denen[br]umgekehrt auch relativ gut, wann die
0:15:04.640,0:15:10.320
Urlaub machen. So, weil das sind nämlich[br]die Lücken in den dichtgefüllten Zeilen.
0:15:10.320,0:15:14.010
Und, wenn aber wir die Urlaube ungefähr[br]kennen, dann wissen wir auch ungefähr,
0:15:14.010,0:15:17.290
wessen Urlaube sich überproportional[br]überschneiden.
0:15:17.290,0:15:19.540
Gelächter
0:15:19.540,0:15:23.203
Sachen wie Weihnachten, die fast alle[br]Urlaub machen, die kann man ja einfach
0:15:23.203,0:15:28.350
rausrechnen. Und ich appelliere jetzt an[br]Eure Berufserfahrung und mutmasse mal ganz
0:15:28.350,0:15:32.340
wild, dass Ihr auch schon mal Kollegen[br]hattet, die irgendwie immer gleichzeitig
0:15:32.340,0:15:38.540
im Urlaub waren. Also, Spass beiseite. Aus[br]solchen Daten kann man ohne weiteres
0:15:38.540,0:15:44.040
lesen, wer mit was hat. Jetzt wisst Ihr[br]auch, warum ich die Autoren hier
0:15:44.040,0:15:49.190
anonymisiert habe. Es ist übrigens total[br]klar, dass das, was wir hier finden, nicht
0:15:49.190,0:15:53.340
alles Pärchen sein müssen. Das sind die[br]Pärchenkandidaten. Aber, wenn man an der
0:15:53.340,0:15:59.050
Praxis und sowas interessiert ist, dann[br]ist man ja damit schon mal auf 99% des
0:15:59.050,0:16:03.620
Weges zum Ziel. Es gibt Firmen, die werten[br]sowas aus, so illegal das auch ist. Jetzt
0:16:03.620,0:16:07.880
habt Ihr alle gerade gelacht, Kann ich mal[br]um Handzeichen bitten, wer von Euch heute
0:16:07.880,0:16:15.390
bei seiner Firma Urlaub genommen hat.[br]Über jeden gibt es solche Daten. Glaubt
0:16:15.390,0:16:19.850
mir. Und wir halten jetzt mal inne, und[br]dann machen wir uns nochmal klar, was wir
0:16:19.850,0:16:23.460
gerade gesehen haben und was die[br]gesellschaftlichen Implikationen sind. Was
0:16:23.460,0:16:26.390
wir gerade gesehen haben, ist[br]Wissensgewinnung über interne
0:16:26.390,0:16:29.590
Firmeninformationen und über[br]höchstpersönliche Lebensbereiche. Und
0:16:29.590,0:16:33.420
aus Daten, die erstmal gar nicht danach[br]aussehen. Wir hatten ja eigentlich einen
0:16:33.420,0:16:36.430
Satz Spiegelartikel. Und plötzlich,[br]überraschend, haben wir gute
0:16:36.430,0:16:40.140
Anhaltspunkte, wer mit wem was hat, und[br]wir können Teamstrukturen erahnen. Und
0:16:40.140,0:16:44.230
damit komme ich zu wichtigsten Message des[br]Vortrags: Wenn Ihr Daten veröffentlicht,
0:16:44.230,0:16:47.850
dann entscheidet nicht Ihr, was Ihr da[br]veröffentlicht, das entscheidet der
0:16:47.850,0:16:52.740
Gegner. Wir haben noch nicht einmal die[br]Daten selbst betrachtet. Wir haben die
0:16:52.740,0:16:56.830
Artikel selbst ja gar nicht angefasst. Was[br]wir angefasst haben, waren nur Metadaten.
0:16:56.830,0:17:00.590
Zeiten und Autoren, genau wie bei der[br]Vorratsdatenspeicherung. Das sind ja auch
0:17:00.590,0:17:06.900
nur Metadaten. Gebt mal ein paar Monate[br]eurer Metadaten, einfach nur, wem Ihr wann
0:17:06.900,0:17:10.879
Mails und Whatsapp geschickt habt und wann[br]Ihr auf welchen Webseiten wart. Keine
0:17:10.879,0:17:14.559
Inhalte. Danach kann ich Euch sagen, wer[br]Eure besten Freunde sind, ob Ihr eine
0:17:14.559,0:17:19.180
Affäre habt, wie Ihr sexuell orientiert[br]seid, ob Ihr schwanger seid, ob Ihr eine
0:17:19.180,0:17:22.400
Krankheit habt, was Eure politische[br]Einstellung ist, wie euer Glaube
0:17:22.400,0:17:26.320
ausgerichtet ist, und ob Ihr finanzielle[br]Probleme habt und alles, was ich gerade
0:17:26.320,0:17:30.930
vergessen habe. Das Missbrauchsprofil für[br]einen solchen Datensatz, wie den der
0:17:30.930,0:17:34.890
Vorratsdatenspeicherung, das kann man gar[br]nicht in Worte fassen. Und ich will da
0:17:34.890,0:17:37.580
überhaupt nicht mit[br]Verschwörungstheorien anfangen, wir
0:17:37.580,0:17:40.920
können ja mal alle glauben, dass die[br]Vorratsdatenspeicherung für die
0:17:40.920,0:17:44.790
Aufklärung von Verbrechen nützlich sein[br]kann, das ist ja auch total plausibel. Und
0:17:44.790,0:17:48.770
wir können ja auch mal glauben, dass die[br]Person, die die Vorratsdatenspeicherung
0:17:48.770,0:17:52.355
jetzt etablieren guten Willens sind. Lasst[br]uns das einfach mal annehmen. Das heisst
0:17:52.355,0:17:55.200
aber nicht, dass morgen keiner an die[br]Macht kommt, der das vielleicht ganz
0:17:55.200,0:18:01.660
anders macht. Was wir hier gerade[br]erhalten, ist die Infrastruktur, für eine
0:18:01.660,0:18:06.240
Generalüberwachung, die selbst George[br]Orwell's Big Brother die Schamesröte ins
0:18:06.240,0:18:10.400
Gesicht treiben würde.
0:18:10.400,0:18:15.990
Applaus
0:18:15.990,0:18:21.200
Und diese Überwachungsinfrastruktur, die[br]stellen wir jetzt extra schon mal bereit
0:18:21.200,0:18:25.400
für den Fall, dass eine zukünftige[br]Regierung böswillig ist und sie nutzen
0:18:25.400,0:18:31.220
will. Das ist, was gerade passiert. Jetzt[br]haben wir einen kurzen Exkurs über
0:18:31.220,0:18:34.410
Metadaten gemacht, und wir gehen jetzt[br]zurück zu Spiegel Online, damit sich Eure
0:18:34.410,0:18:38.170
Laune wieder hebt. Und deswegen kommt[br]jetzt ein kleiner Einschub, den könnt Ihr
0:18:38.170,0:18:41.520
dann direkt anwenden, wenn Ihr das[br]nächste Mal Spiegel Online lest. Und
0:18:41.520,0:18:45.210
danach machen wir mal ein bisschen was[br]Grösseres. Als ich die Autoren aus den
0:18:45.210,0:18:53.310
Artikeln rauslesen wollte, da war ich[br]irgendwann ziemlich genervt. Also manchmal
0:18:53.310,0:18:57.410
stehen die oben unter dem Titel, wie hier[br]links im Bild. Oder die stehen unten, wie
0:18:57.410,0:19:01.560
rechts im Bild. Und wenn die Autoren oben[br]stehen, sind sie ausgeschrieben. Und wenn
0:19:01.560,0:19:06.550
sie unten stehen, sind es Kürzel. Oben[br]stehen sie im wirklichen Satz, hier zum
0:19:06.550,0:19:11.870
Beispiel von Marcel Rosenbach. Und unten[br]die Kürzel sind ohne Satz drumrum. Manche
0:19:11.870,0:19:15.490
Autoren haben nur Vor- und Nachname.[br]Manche Namen haben aber auch vier oder
0:19:15.490,0:19:20.920
fünf Worte. Wie zum Beispiel der[br]freundliche Herr Philip Alvares De Souza
0:19:20.920,0:19:24.600
Suarez. Das habe ich mir extra hier[br]aufgeschrieben, fünf Worte. Das ist ein
0:19:24.600,0:19:29.230
Name. Also Data Science kann technisch[br]nervig sein. Sagt nicht, ich hätte Euch
0:19:29.230,0:19:35.700
nicht gewarnt. Und jedenfalls habe ich mir[br]gedacht, wtf, warum stehen da Autoren in
0:19:35.700,0:19:39.770
verschiedenen Formen und vor allem an[br]verschiedenen Orten? Also habe ich mir mal
0:19:39.770,0:19:45.500
das als Feature reingenommen, ob die[br]Autoren oben oder unten stehen. Und dann
0:19:45.500,0:19:49.570
habe ich Messwerte zwischen den[br]beiden Artikelgruppen verglichen, Autoren
0:19:49.570,0:19:55.520
oben und Autoren unten. Und es stellt sich[br]raus, wenn die Autoren unten stehen, also
0:19:55.520,0:19:59.500
nicht namentlich ausgeschrieben sind, ist[br]ein typischer Artikel knapp 300 Worte
0:19:59.500,0:20:02.920
lang. Wir sehen hier die Verteilung der[br]Artikellängen von Artikeln ohne
0:20:02.920,0:20:06.661
ausgeschriebenen Namen. Und nach rechts[br]werden die Artikel länger, da wird es
0:20:06.661,0:20:11.780
immer weniger. Und stehen die Autoren aber[br]oben, sind also ausgeschrieben, ist ein
0:20:11.780,0:20:16.660
Artikel typischerweise mehr als[br]zweieinhalb mal so lang. Knapp 750 Worte.
0:20:16.660,0:20:20.920
Man weiss schon, womit man gegoogelt[br]werden will als Redakteur.
0:20:20.920,0:20:21.920
Gelächter
0:20:21.920,0:20:27.440
Und nochwas: bei den langen Artikeln ist[br]auch nur bei ca. 2% eine
0:20:27.440,0:20:31.160
Nachrichtenagentur mit dabei. Bei den[br]kurzen ist bei knapp 80% eine
0:20:31.160,0:20:35.170
Nachrichtenagentur mit dabei. Also Fazit[br]für Euch zum mI t nach Hause nehmen: Wenn
0:20:35.170,0:20:39.000
Ihr längere Artikel wollt, die Spiegel[br]Online selbst verfasst hat, dann achtet
0:20:39.000,0:20:42.880
drauf, dass die Autoren drangeschrieben[br]sind. Wenn Ihr kurze Agenturmeldungen
0:20:42.880,0:20:45.370
wollt, sind die Kürzel gut.
0:20:45.370,0:20:49.740
Applaus
0:20:49.740,0:20:54.620
Und wir hatten ja schon gesehen, dass am[br]Tagesanfang primär längere Artikel
0:20:54.620,0:20:58.230
erscheinen und das waren eben in[br]Wirklichkeit die selbst geschriebenen.
0:20:58.230,0:21:02.540
Morgens ist der Prozentsatz von denen[br]vergleichsweise hoch. Und jetzt könen wir
0:21:02.540,0:21:05.250
die Gelegenheit nutzen und einen Schritt[br]zurücktreten und gucken, was wir bis
0:21:05.250,0:21:10.520
jetzt gemacht haben. Und wir haben unsere[br]Riesenmenge Artikel, immer auf äusserst
0:21:10.520,0:21:14.240
einfache Art und Weise auseinander[br]geschnitten und ausgewertet. Wir haben die
0:21:14.240,0:21:18.030
in Wochentage oder Uhrzeiten[br]auseinandergeschnitten. Oder in Rubriken.
0:21:18.030,0:21:21.550
Und dafür, wie einfach diese Ideen sind,[br]haben wir eigentlich ein paar ganz gute
0:21:21.550,0:21:25.350
Ergebnisse bekommen. Aber, was wir noch[br]gar nicht gemacht haben, ist uns dem
0:21:25.350,0:21:29.480
Datensatz mal inhaltlich zu nähern. Und[br]es wäre doch total cool, wenn wir die
0:21:29.480,0:21:33.460
Artikelmenge mal nach den wirklichen[br]Themen über die berichtet wird,
0:21:33.460,0:21:41.780
auseinanderschneiden und auswerten[br]können. Spiegel Online liefert uns
0:21:41.780,0:21:46.120
hierbei auch eine gute Hilfe: Artikel[br]werden dort verschlagwortet. Jeder Artikel
0:21:46.120,0:21:51.160
bekommt von seinem Autor so um die 10[br]Keywords zugewiesen. Der Artikel links im
0:21:51.160,0:21:55.510
Bild hat zum Beispiel die Keywords[br]Politik, Ausland, Saudi Arabien und König
0:21:55.510,0:22:00.300
Salman von Saudi Arabien. Also habe ich[br]die Keywords mal ausgelesen. Ueber alle
0:22:00.300,0:22:05.000
Artikel hinweg habe ich um die 65000[br]verschiedene Keywords gefunden. Und jetzt
0:22:05.000,0:22:09.090
gucken wir, wie oft, welche Keywords[br]zusammen in den selben Artikeln kommen.
0:22:09.090,0:22:12.820
Und Keywords, die fast ausschliesslich[br]zusammen vorkommen, die sind sozusagen
0:22:12.820,0:22:16.730
verheiratet, die sieht man einfach als[br]eins in der Auswertung. Und umgekehrt gibt
0:22:16.730,0:22:21.130
es natürlich Keywords, die beide für[br]sich genommen existieren, aber nie oder
0:22:21.130,0:22:25.110
fast nie zusammen, die sind dann[br]unverwandt. Und dann gibt es noch einen
0:22:25.110,0:22:32.430
interessanten Mittelweg:[br]Hier ist ein Beispiel.
0:22:32.430,0:22:35.110
GelächterApplaus
0:22:35.110,0:22:39.330
Artikel mit dem Keyword "Angela Merkel",[br]die haben meist auch das Keyword Politik.
0:22:39.330,0:22:43.650
Und umgekehrt ist das aber nicht so. Das[br]Keyword Politik ist viel grösser. Und es
0:22:43.650,0:22:48.430
gibt extrem viele Politikartikel ohne[br]Angela Merkel. Und diese Keywords sind
0:22:48.430,0:22:52.360
nicht die selben, aber es ist klar, die[br]haben eine Verbindung. Und wir messen also
0:22:52.360,0:22:57.710
für alle 65000 Keywords, paarweise, wie[br]verwandt die so sind. Und dann verbinden
0:22:57.710,0:23:02.411
wir Keywords, die stark verwandt sind mit[br]so ganz strammen, dicken Federn. Ich meine
0:23:02.411,0:23:05.860
jetzt wirklich Federn im physikalischen[br]Sinne, die die Keywords zueinander
0:23:05.860,0:23:10.420
hinziehen. Zwischen schwächer verwandten[br]Keywords kommen schwächere Federn, die
0:23:10.420,0:23:14.350
werden dann länger. Und jetzt machen wir[br]eine Physiksimulation. und schauen zu, wie
0:23:14.350,0:23:20.630
sich diese abertausenden Federn[br]zurechtzurren. Verwandte Keywords werden
0:23:20.630,0:23:25.340
jetzt tendenziell nahe beeinander layoutet[br]und weniger verwandte nicht so nah. Was
0:23:25.340,0:23:28.820
hier ensteht ist eine thematische[br]Landkarte, von allen Sachen über die
0:23:28.820,0:23:32.611
Spiegel Online in den letzten 2 Jahren[br]berichtet hat. Und jetzt gerade sieht es
0:23:32.611,0:23:36.600
so aus, als passiert da fast nichts mehr,[br]aber gerade passiert die Detailarbeit. Das
0:23:36.600,0:23:40.530
sieht man nur von soweit oben nicht. Und[br]deswegen zoomen wir jetzt mal ganz weit
0:23:40.530,0:23:44.620
rein, damit wir lernen, was wir da[br]erschaffen haben. Hier ist die Volkswagen
0:23:44.620,0:23:49.060
Abgasaffäre. Wie Ihr seht haben die[br]Keywords unterschiedliche Grössen. Die
0:23:49.060,0:23:52.740
Grösse der einzelnen Keywords spiegelt[br]die Anzahl der Artikel wieder, die das
0:23:52.740,0:23:56.220
Keyword innehaben. Und das sind sozusagen[br]die Artikel, die in dem Keyword
0:23:56.220,0:24:01.360
drinstecken. Und die Farbe zeigt an, was[br]die vorherrschende Rubrik ist über alle
0:24:01.360,0:24:04.830
Artikel, die in einem Keyword drin[br]stecken. Dieses Okergelb heisst
0:24:04.830,0:24:09.870
Wirtschaft. Passt! Der Witz ist, diese[br]Darstellungsweise ist extrem mächtig und
0:24:09.870,0:24:13.580
vielseitig. Über die Farbe der Keywords[br]da können mit dieser Darstellungsweise
0:24:13.580,0:24:18.820
noch viel mehr Infos rüberbringen, als[br]nur, welche Themen verwandt sind. Und mit
0:24:18.820,0:24:24.170
der Farbe können wir beliebige Messwerte[br]anzeigen. Und wenn ich danach so farbige
0:24:24.170,0:24:28.070
Keywordlandschaften habe, dann können wir[br]sehen, ob es zwischen Thema und Messwert
0:24:28.070,0:24:32.161
einen Zusammenhang gibt und das machen wir[br]heute auch noch. Aber erstmal gucken wir
0:24:32.161,0:24:36.980
ein bisschen weiter rum, hier sind[br]verschiedene Flugzeugunglücke. Der
0:24:36.980,0:24:48.900
Themenkomplex befindet sich zwischen[br]Panorama - Grün und Politik - Rot. Wobei
0:24:48.900,0:24:51.980
die politischen Anteile von dem Flugzeug[br]kommen, das über der
0:24:51.980,0:24:59.780
Ukrainisch-Russischen Grenze abgeschossen[br]wurde. Jetzt versagt meine Singstimme.
0:24:59.780,0:25:06.559
So besser. So hier ist Griechenland-Krise.[br]Das ist offensichtloch ein Thema zwischen
0:25:06.559,0:25:11.220
Politik und Wirtschaft rot und wieder oker[br]und Wolfgang Schäuble ist da direkt mal
0:25:11.220,0:25:15.770
als Aufpasser dazu-layoutet worden.[br]Interessanterweise hat der keine Farbe,
0:25:15.770,0:25:19.140
der ist grau und das ist nicht[br]altersbedingt sondern das liegt daran,
0:25:19.140,0:25:23.270
das es im Keyword Wolfgang Schäuble kein[br]dominierendes Ressort gab und
0:25:23.270,0:25:25.360
jetzt machen wir mal was Topaktuelles.
0:25:25.360,0:25:28.360
Das ist die US-Wahl dieses Jahr. [br]Wir sehen Hillary Clinton
0:25:28.360,0:25:32.170
und Donald Trump und alles was da so drum[br]rum wimmelt und das ist offensichtlich
0:25:32.170,0:25:37.059
ein politisches Thema, es ist rot und man[br]beachte, wie hier das Keyword Emails
0:25:37.059,0:25:41.610
dazu-layoutet wurde. Und von hier aus[br]machen wir uns jetzt mal
0:25:41.610,0:25:43.720
die Größe der gesamten Landschaft klar.
0:25:43.720,0:25:47.390
Ich weiss nicht, wer heute[br]Morgen von euch in dem Vortrag über
0:25:47.390,0:25:51.370
Mikroskope war, da hat der Vortragende[br]immer und immer mehr reingezoomt, um klar
0:25:51.370,0:25:55.370
zu machen wie klein die Sachen sind und[br]wir machen das jetzt umgekehrt, wir wollen
0:25:55.370,0:25:59.200
darstellen wie riesig die Landkarte ist[br]und wir zoomen immer und immer mehr raus.
0:25:59.200,0:26:03.200
Wir haben raus-gezoomt. Der alte[br]Bildauschnit ist dick eingerahmt, damit
0:26:03.200,0:26:07.020
ihr seht wo der ist. Und wir sehen, [br]dass der US-Wahlkampf eingebettet ist
0:26:07.020,0:26:09.440
in größeren Landstrich der [br]Auslandspolitik.
0:26:09.440,0:26:12.130
Links sehen wir den Bürgerkrieg in Syrien
0:26:12.130,0:26:15.910
darüber der Islamische Staat und von da[br]geht es über den Islamistischen Terror
0:26:15.910,0:26:18.440
weiter nach Frankreich.
0:26:18.440,0:26:25.360
GelächterApplaus
0:26:25.360,0:26:31.640
Jaa, die Mathematik ist gnadenlos, ne. [br]Oben sind die aktuellen Türkei-Thematiken,
0:26:31.640,0:26:34.270
also das ist deren Putschversuch und [br]deren Demokratur
0:26:34.270,0:26:37.540
und rechts von der Mitte ist Russland[br]und der Ukraine Konflikt und
0:26:37.540,0:26:41.320
[br]links unten ist Israel und der Nahost
0:26:41.320,0:26:46.509
Konflikt und wir zoomen nch weiter raus.[br]Hier ist nun die gesamte politische
0:26:46.509,0:26:50.591
Landschaft, diesmal haben wir mit zwei[br]Rechtecken markiert, wo wir herkommen wir
0:26:50.591,0:26:54.560
kommen, ursprünglich von der US-Wahl und[br]dann von der Auslandspolitik. Also die
0:26:54.560,0:26:58.930
Auslandspolitik ist oben rechts und unten[br]rechts ist der Inlandsteil und seit Neuem
0:26:58.930,0:27:02.780
gibt es nen riesigen Knubbel, der in der[br]Mitte, das ist die Flüchtlingsthematik,
0:27:02.780,0:27:06.640
die ist mittlerweile so groß, wie eine[br]eigene Unterrubrik und die ist als dritte
0:27:06.640,0:27:10.440
Kraft genau zwischen Ausland und Inland[br]etabliert, ja. Was ja auch genau passt.
0:27:10.440,0:27:15.679
Wir zoomen nochmal weiter raus. Ja, jetzt[br]kann man gar nichts mehr erkennne, außer
0:27:15.679,0:27:19.700
verschieden farbigen Landschaften. Ich sag[br]also mal, für eine grobe Orientierung,
0:27:19.700,0:27:23.460
hier kommen wir her, das rote ist der[br]Politikteil. Rechts darüber in
0:27:23.460,0:27:28.481
giftgrün das Panorama. Das wird[br]durchteilt von der Wirtschaft, die Kette
0:27:28.481,0:27:32.340
von türkisen Clustern entlang der[br]Unterseite des Hauptkontinentes ist die
0:27:32.340,0:27:37.160
Netzwelt. Blau im Osten ist der Kulturteil[br]und so weiter und so fort. Wir können
0:27:37.160,0:27:41.120
jetzt nicht alle durchgehen, ihr seht, die[br]Gebiete gehen noch ineinander über und
0:27:41.120,0:27:45.080
wir wissen jetzt fast, wie riesig diese[br]Landkarte ist, einmal rauszoomen haben wir
0:27:45.080,0:27:49.390
nämlich noch. Hier ist die große weite[br]Welt, ja den unteren Teil haben wir schon
0:27:49.390,0:27:54.299
grob kennengelernt, und hier sind wir[br]eigentlich her gekommen, und auf dem Rest
0:27:54.299,0:27:57.450
der Welt, etwas entrückt ist[br]die Wissenschaft, das ...
0:27:57.450,0:28:02.970
Gelächter im Saal[br]Applaus
0:28:06.160,0:28:09.830
Ich sehe, ihr könnt das nachvollziehen[br]und habt da auch mal gearbeitet.
0:28:09.830,0:28:10.820
Gelächter
0:28:10.820,0:28:13.590
Und ganz weit weg vom[br]Hauptkontinent ist der Sport.
0:28:13.590,0:28:14.420
Gelächter
0:28:14.420,0:28:18.570
So, und jetzt sehen wir erstmal, wie gross[br]das ist und wie breit der Spiegel angelegt
0:28:18.570,0:28:22.120
ist und diese riesige Landkarte gibts[br]übrigens bei mir auf der Website, da
0:28:22.120,0:28:24.860
könnt ihr auch selbst drin rumforschen,[br]wie in GoogleMaps, so drin rum scrollen,
0:28:24.860,0:28:29.070
das macht auch mehr Spaß als wenn ich das[br]hier nur vorkaue und darum gehts jetzt
0:28:29.070,0:28:32.910
auch weiter. Wir wenden die jetzt an. Ja,[br]Spiegel Online bietet unter sehr vielen
0:28:32.910,0:28:36.410
Artikeln an, ja, ähmm, ..
0:28:36.410,0:28:38.350
Publikum GemurmelGelächter
0:28:38.350,0:28:42.220
Ich, das Gelächter geht los, bevor ich[br]etwas gesagt habe. Ihr wisst doch gar
0:28:42.220,0:28:46.460
nicht, was ich sagen will, ne? Das man[br]seine eigene Meinung dazu äußern darf.
0:28:46.460,0:28:48.490
Publikum und David Gelächter
0:28:48.490,0:28:51.750
Und unter manchen Artikeln sperren sie[br]diese Funktion aber, ne,
0:28:51.750,0:28:52.520
einzelnes Gelächter
0:28:52.520,0:28:54.340
und das untersuchen wir jetzt mal,
0:28:54.340,0:28:58.250
Und ich hatte euch am Anfang des Vortrages[br]gesagt, das Artikel direkt nach nen paar
0:28:58.250,0:29:01.970
Minuten nach ihrem erscheinen von mir[br]abgerufen werden, also wenn ich sag, das
0:29:01.970,0:29:05.870
was nicht kommentiert werden darf, dann[br]war das sehr wahrscheinlich, direkt vom
0:29:05.870,0:29:08.250
Start weg so. So schnell[br]randaliert kein Mensch.
0:29:08.250,0:29:10.410
leichtes Gelächter im Publikum
0:29:10.410,0:29:14.340
Also, bevor wir jetzt ne Themenlandkarte[br]damit malen, schauen wir mal ganz kurz auf
0:29:14.340,0:29:17.820
die zeitliche Entwicklung, der[br]Kommentierbarkeit, und zwar einfach, damit
0:29:17.820,0:29:21.450
wir ne Orientierung haben. In dem Plot[br]sehen wir pro Kalenderwoche wieviel
0:29:21.450,0:29:25.570
Prozent der erschienen Artikel kommentiert[br]werden durften, und wieviele nicht.
0:29:25.570,0:29:30.340
In Rot sind die Nichtkomentierbaren und [br]Blau die Kommentierbaren und als ich 2014
0:29:30.340,0:29:34.090
angefangen habe runterzuladen, waren[br]erstmal ne ganze Zeit so 80 Prozent der
0:29:34.090,0:29:37.740
Artikel kommentierbar. Und genau seit dem[br]Zeitpunkt der großen
0:29:37.740,0:29:42.650
Flüchtlingsberichterstattung im Sommer[br]2015, ja, sinkt der (Graph) der Artikel
0:29:42.650,0:29:47.090
der kommentierbaren Nachrichten[br]kontinuierlich ab, und jetzt seit kurzem
0:29:47.090,0:29:51.400
ist wirklich die Mehrzahl der Artikel ohne[br]Kommentarfunktion, ne, dir rote Linie
0:29:51.400,0:29:54.960
überholt die Blaue, und die[br]Kommentierbarkeit wird übrigens nicht nur
0:29:54.960,0:29:59.599
im Politikressort weniger, das passiert[br]übergreifend in fast allen Ressorts und
0:29:59.599,0:30:03.220
ob seit dem der Hass im Netz irgendwie[br]themenübergreifend soviel schlimmer
0:30:03.220,0:30:07.140
geworden ist oder Spiegel-Online jetzt[br]einfach soviel Angst vor fiesen
0:30:07.140,0:30:10.940
Kommentaren hat, das kann ich aus denn[br]Zahlen nicht ablesen, das müsst ihr dann
0:30:10.940,0:30:15.500
für euch selbst entscheiden. Interessant[br]ist aber noch der kleine, grüne Plot im
0:30:15.500,0:30:20.090
Bild, ne , das sind auch nicht[br]kommentierbare Artikel. Aber bei denen
0:30:20.090,0:30:23.910
steht so ein kleiner Entschuldigungstext[br]dran, ja. Das hier die Kommentarfunktion
0:30:23.910,0:30:27.970
wegen der Netikette und so weiter gesperrt[br]ist. Ihr braucht das hier jetzt nicht
0:30:27.970,0:30:31.929
lesen, ich bring das nur zur Ansicht, und[br]diesen Entschuldigungstext haben sie zu
0:30:31.929,0:30:36.890
Anfang der Flüchtlingsberichterstattung[br]eingeführt und es scheint so, als war
0:30:36.890,0:30:40.340
Spiegel-Online da selbst ein bisschen[br]unwohl mit dem krassen Anstieg der
0:30:40.340,0:30:44.240
Kommentarsperrungen. Aber wie man am Plot[br]sieht, haben sie den Hinweis ganz flott
0:30:44.240,0:30:47.710
wieder aufgegeben, obwohl die[br]Kommentiermöglichkeiten immer und immer
0:30:47.710,0:30:52.799
mehr gesperrt werden. So und jetzt gehts[br]zur Landkarte. Wir färben ein Keyword
0:30:52.799,0:30:57.920
röter, wenn unterdurchschnittlich viele[br]Artikel darin kommentierbar sind und wir
0:30:57.920,0:31:01.270
färben ein Keyword eher blau, wenn das[br]Keyword überdurchschnittlich
0:31:01.270,0:31:04.770
kommentierbar ist. Graue Keywords [br]repräsentieren so den Durchschnitt, da
0:31:04.770,0:31:07.560
dann so 70 Prozent kommentierbar [br]und das gibt
0:31:07.560,0:31:11.001
natürlich auch alle Farben dazwischen.[br]Also wenn so'n Keyword wirklich
0:31:11.001,0:31:14.630
aufleuchtet, dann ist das irgendwo am Ende[br]der Skala oder am Anfang. Und die
0:31:14.630,0:31:18.551
Landkarte stell ich auch bald auf meine[br]Website, die jetzt kommt, da könnt ihr da
0:31:18.551,0:31:22.410
auch selbst drin rumklicken. So, und wir[br]fangen mal mit ein paar einfachen Sachen
0:31:22.410,0:31:26.900
an. Ja ihr ahnt es, Sport darf man quasi[br]komplett kommentieren, ja, knallblau. Und
0:31:26.900,0:31:30.540
falls ihr euch fragt, was der knallrote[br]Punkt da ist, das ist ein bestimmtes
0:31:30.540,0:31:34.679
Artikelformat, das ist technisch ohne[br]Kommentarfunktion. Sowas kommt schon mal
0:31:34.679,0:31:39.080
vor, ich sag nur, weil ich gleich sonst 13[br]mal die Frage kriege. Und wo man in der
0:31:39.080,0:31:43.219
Regel auch gut kommentieren darf, das sind[br]Wissenschaftsthemen und Wirtschaftsthemen
0:31:43.219,0:31:45.320
Hier sind die Bahnstreiks, ja.
0:31:45.320,0:31:48.790
Da darf nach Kräften auf die Bahn [br]eingekloppt werden.
0:31:48.790,0:31:49.960
Gelächter
0:31:49.960,0:31:56.440
Und wo wir schon von Streik reden, ist[br]bestimmt jeder hier im Raum in Gedanken,
0:31:56.440,0:32:01.730
bei der Lufthansa, die streiken ja als[br]Hauptkonzernaktivität. Alles blau, ja
0:32:01.730,0:32:02.870
Gelächer im Saal
0:32:02.870,0:32:06.070
Alles blau, auch die dürfen fiese[br]Kommentare abkriegen. Ich würd ja
0:32:06.070,0:32:08.890
mitlachen, aber ich bin mit dem Flugzeug[br]hier in Hamburg, ne
0:32:08.890,0:32:11.110
Gelächter im Saal[br]kleiner Applaus
0:32:11.110,0:32:15.500
So, nach dem ganzen blau. jetzt mal was [br]rotes. Knallrote Landschaft, ergibt sich
0:32:15.500,0:32:21.810
um die Justiz. Das sind Berichte über die[br]Kriminalität; Morde, Attentate, ja, "the
0:32:21.810,0:32:27.380
full packedge" und hier will man eher[br]weniger Lesekommentare, ja. So, die Justiz
0:32:27.380,0:32:33.200
hat so 30 Prozent Kommentierbarkeit von[br]den üblichen 70 Prozent. Hier ist die
0:32:33.200,0:32:38.489
ganze Geschichte rund um den NSU-Prozeß.[br]Der ist hier ja auch Thema. Tiefrot, ja,
0:32:38.489,0:32:42.460
generell auch alles, was mit Rechtsradikal[br]und Nazis und so zu tun hat, darf eher
0:32:42.460,0:32:46.140
wenig kommentiert werden und der[br]Kernknubbel hier, der hat so um die 18
0:32:46.140,0:32:52.510
Prozent, ja, ist also noch weniger als die[br]Justiz und die waren schon rot. Was auch
0:32:52.510,0:32:55.160
tiefrot ist, ist alles um die[br]Flüchtlingsthematik und zwar nicht nur
0:32:55.160,0:32:58.120
das Konkrete, sondern auch der[br]weitergefasste Rahmen, Asylrecht
0:32:58.120,0:33:03.210
und so weiter. Seht ihr sogar im Bild. Und[br]von Aussen sieht das aus, als sperrt der
0:33:03.210,0:33:08.600
Spiegel seine Kommentarfunktion komplett[br]systematisch und zwar nach Themen, Ja? Und
0:33:08.600,0:33:12.290
das wir sowas direkt visuell raus finden[br]können, das macht diese Landkarte so
0:33:12.290,0:33:16.081
unheimlich mächtig. Allgemein ist es in[br]der Data-Science nicht nur wichtig richtig
0:33:16.081,0:33:19.820
auszuwerten, es ist genauso wichtig, die[br]Informationen möglichst anschaulich
0:33:19.820,0:33:23.110
visuell aufzubereiten. So können dann[br]nämlich auch Leute, die keine
0:33:23.110,0:33:27.070
Informatiker sind, sofort komplexe[br]Zusammenhänge erkennen. Es gibt ja nur
0:33:27.070,0:33:32.160
eine Breitbandverbindung ins Gehirn und[br]das sind die Augen. Richtig interessant
0:33:32.160,0:33:36.929
wirds, wenn man mal guckt, wie[br]Spiegel-Online die Kommentierbarkeit hart
0:33:36.929,0:33:43.290
national ordnet. Das hier ist der ganze[br]Nahost-Konflikt, um Israel, ja, wie ihr an
0:33:43.290,0:33:48.090
dem satten Rot seht, zum Nahostkonflikt[br]und Israel hat man bei fast allen Artikeln
0:33:48.090,0:33:53.710
die Klappe zu halten. So und jetzt[br]schwenken wir mal vom Nahost-Konflikt zum
0:33:53.710,0:33:58.029
Ukraine-Konflikt. Ja lächelt seufzend
0:33:58.029,0:34:03.440
akustische Aufruhr im Publikum[br]Einzelapplaus
0:34:03.440,0:34:04.110
Ja.
0:34:04.110,0:34:05.600
Applaus
0:34:05.600,0:34:10.379
Also. Ihr könnt euch mit nach Hause[br]nehmen. Meine Damen und Herren:
0:34:10.379,0:34:11.770
Russen bashen ist OK.
0:34:11.770,0:34:13.230
Gelächter im Publikum
0:34:13.230,0:34:16.329
Ja, was wir hier - Live und in Farbe -[br]sichtbar gemacht haben, ist nichts anderes
0:34:16.329,0:34:21.379
als unsere westliche Filterbuble. Die kann[br]man messen. Zum Iran darf man seinen Senf
0:34:21.379,0:34:27.099
dazugeben, zu Großbritanien auch. Zur[br]Türkei, da ist Spiegel-Online sich noch
0:34:27.099,0:34:28.099
nicht ganz sicher.
0:34:28.099,0:34:29.099
Gelächter
0:34:29.099,0:34:33.899
Und Frankreich ist interessant, diese[br]Region der Landkarte, die möchte
0:34:33.899,0:34:39.219
eigentlich blau sein aber die ganzen[br]Keywords rund um die Terrorserie dort, die
0:34:39.219,0:34:42.329
sind knallrot und die strahlen in die[br]Nachbarn aus und das schauen wir uns jetzt
0:34:42.329,0:34:47.440
doch mal ein bisschen genauer an, Das sind[br]alles Frankreichartikel aber nach Zeit.
0:34:47.440,0:34:52.079
Die blaue Linie ist das Aufkommen der[br]kommentierbaren Artikel, die rote Linie
0:34:52.079,0:34:56.300
wieder das Aufkommen der[br]Nichtkommentierbaren und wir sehen: wie
0:34:56.300,0:35:00.821
Frankreich von 2014 bis 2015 erstmal[br]überwiegend kommentierbar ist und die
0:35:00.821,0:35:06.339
blaue Linie ist über der roten, und hier[br]ist die Terrorserie in Paris im November
0:35:06.339,0:35:12.160
2015 und es wird plötzlich enorm viel[br]berichtet. Also sehen wir ne krasse Spitze
0:35:12.160,0:35:17.980
am Frankreichartikeln, ne, und davon sind[br]die Meisten nicht kommentierbar. Also:
0:35:17.980,0:35:20.200
Frankreich an sich dürft ihr gerne[br]kommentieren aber bezüglich der
0:35:20.200,0:35:25.859
Anschläge dort bitte nicht. Und das[br]Interessante ist, der Effekt wirkt fort,
0:35:25.859,0:35:30.369
Seit der Terrorserie ist Frankreich[br]generell nicht mehr so kommentierbar. Die
0:35:30.369,0:35:34.609
rote Linie ist meist über der Blauen. Und[br]jetzt tretten wir wieder einen Schritt
0:35:34.609,0:35:40.759
zurück. Und natürlich sehe ich auch, das[br]der Spiegel Themenbereiche aufgrund der
0:35:40.759,0:35:44.290
Erfahrungen in der Verasngenheit sperren[br]kann. Und generell müssen wir auch
0:35:44.290,0:35:48.059
zugeben, das ist das gute Recht von[br]Spiegel-Online zu entscheiden, wo und in
0:35:48.059,0:35:51.849
welcher Form sie Anderen auf ihrer Seite[br]ne Plattform geben und wo sie das eben
0:35:51.849,0:35:56.499
nicht tun. Aber genauso ist es auch unser[br]gutes Recht diese Systematik hier mal
0:35:56.499,0:36:01.499
sichtbar zu machen. Und ich denke, das[br]sieht insgesamt so aus als verböte
0:36:01.499,0:36:06.320
Spiegel-Online genau zu denjeniegen Themen[br]die Kommentierung, bei denen zu erwarten
0:36:06.320,0:36:12.729
ist, das die Meinungen der Leser politisch[br]nicht opportun sind. Ob das jetzt etwas
0:36:12.729,0:36:16.309
über Spiegel-Online aussagt oder über[br]seine Leser oder irgendwie ein
0:36:16.309,0:36:19.930
gesamtgesellschaftliches Problem ist, das[br]müsst ihr dann wieder selbst entscheiden.
0:36:19.930,0:36:26.680
Was die Auswertung angeht, haben wir den[br]Vortrag bis jetzt im Grunde zweigeteilt.
0:36:26.680,0:36:34.230
Am Anfang haben wir die Artikelsammlung in[br]nur wenige Töpfe unterteilt, und danach
0:36:34.230,0:36:37.900
haben wir die Artikelsammlung in viel mehr[br]Töpfe unterteilt, das sind die wenigen,
0:36:37.900,0:36:42.049
jeder Artikel konnte sogar in mehreren[br]Töpfen sein. Ne, das war ja so? Wenn nen
0:36:42.049,0:36:45.890
Artikel mehrere Keywords hatte, dann war[br]er auch in mehreren Töpfen. Und das war
0:36:45.890,0:36:51.109
ne viel komplexere, aber auch viel[br]mächtigere Art der Unterteilung. Und
0:36:51.109,0:36:54.550
jetzt merkt ihr euch diese beiden Arten[br]der Unterteilung mal kurz und damit machen
0:36:54.550,0:37:00.380
wir was politisches, wir gehen über zum[br]Thema Wahlkampf. Ja, Wahlkämpfe
0:37:00.380,0:37:04.390
funktionieren grob so, das man die Menge[br]aller Wähler auseinander schneidet,
0:37:04.390,0:37:08.420
wie wir unsere Artikel auseinander[br]geschnitten haben. Das heißt dann 'Voter
0:37:08.420,0:37:14.569
Targeting'. Und bei der US-Wahl konnte man[br]z.B. sagen man schneidet die Wähler grob
0:37:14.569,0:37:19.369
nach Geschlecht, Hautfarbe, Alter und[br]Gehalt. Das wird dann in der Tat auch so
0:37:19.369,0:37:22.950
gemacht. Dann könnte man sozusagen allen[br]schwarzen Frauen in Kalifonien, die
0:37:22.950,0:37:27.630
zuwischen 30 und 40 sind und über 60.000[br]Dollar im Jahr verdienen, zugeschnittene
0:37:27.630,0:37:33.529
Wahlwerbung schicken. Und das ist ne[br]relativ grobe Art der Unterteilung und die
0:37:33.529,0:37:37.750
ist sozusagen analog zu unseren groben[br]Unterteilungen hier, auf der linken Seite
0:37:37.750,0:37:50.849
der Folie. Aber was wäre dann die rechte[br]Seite? Vor einiger Zeit hat dieser Artikel
0:37:50.849,0:37:54.829
des Schweizer Tagesanzeiger die Runde[br]gemacht. Ich bin sicher viele von euch
0:37:54.829,0:38:00.520
kennen den, der ging ziemlich durchs Netz,[br]der wurde am Tag 13 mal als Lesebefehl
0:38:00.520,0:38:04.479
geschickt, und so weiter und so fort. Also[br]ich glaube, ich habe den bestimmt 50 mal
0:38:04.479,0:38:08.569
bekommen, weil ich mich halt auch mit dem[br]Maschinen-Learning auseinandersetze.
0:38:08.569,0:38:14.020
Und in dem Artikel steht im Grunde, das ne[br]Datenanalysefirma es geschafft habe, eine
0:38:14.020,0:38:18.700
extrem feine Unterteilung von Wählern[br]hinzukriegen. Das wäre, sozusagen, analog
0:38:18.700,0:38:23.160
zu unserer sehr mächtigen[br]Themenlandkarte. Und in dem Artikel steht
0:38:23.160,0:38:28.329
weiter, das hätte diese Firma sowohl für[br]die Präsidentschaftswahl, als auch für
0:38:28.329,0:38:33.430
das Brexit-Referendum gemacht. Und es[br]wurde dann behauptet, deswegen wäre Trump
0:38:33.430,0:38:38.530
gewählt worden und deswegen wäre der[br]Brexit durchgekommen. Das ist natürlich
0:38:38.530,0:38:43.300
spooky. Und das verkauft sich gut. Ja -[br]uijuijuijuijui - Die selbe Firma hinter
0:38:43.300,0:38:49.259
Trump und hinter dem Brexit, ja, da glüht[br]der Aluhut, wirklich.
0:38:49.259,0:38:54.309
Gelächter[br]Applaus
0:38:54.309,0:39:02.180
Und die sagen, ihre Unterteilung der[br]Wählerschaft sei so fein, das man jedem
0:39:02.180,0:39:07.299
Wähler seine genau passende Wahlwerbung[br]schicken könnte. Und sie sagen nicht nur
0:39:07.299,0:39:10.460
das, sie sagen sie können das sogar noch[br]genauer, sie können sogar den
0:39:10.460,0:39:14.640
Gesprächston treffen, so dass der Wähler[br]wahrscheinlich drauf hört. Generell
0:39:14.640,0:39:19.349
würde ich sagen, ne, tiefer hängen.[br]Es ist überhaupt nicht klar, was die
0:39:19.349,0:39:24.150
Firma den beiden Wahlkämpfen überhaupt[br]wirklich gebracht hat. Die Infos kommen im
0:39:24.150,0:39:28.450
wesentlich nämlich von der Firma selbst[br]und ich glaube, ehrlich gesagt ja, da hat
0:39:28.450,0:39:32.470
die Firma einen hervorragenden Vertriebler[br]geschickt und der hat dann wirklich der
0:39:32.470,0:39:37.529
Presse einen brillianten Vortrag gehalten[br]und die Presse hat's dann einfach gekauft.
0:39:37.529,0:39:42.190
So und die Kernaussage ist doch nur: Ihr[br]könnt jetzt Wahlwerbung bekommen, oder
0:39:42.190,0:39:46.339
Werbung im Allgemeinen, die extrem[br]genau auf euch zugeschnitten ist und euch
0:39:46.339,0:39:51.650
so effizienter zu Dingen verleitet. Mit[br]anderen Worten: Endlich kriegen nur noch
0:39:51.650,0:39:55.319
diejenigen Viagra-Spam, die das Produkt[br]auch wirklich benötigen.
0:39:55.319,0:39:56.979
Das ist ja zunächst mal nicht schlimm.
0:39:56.979,0:39:58.249
verhaltendes Gelächter
0:39:58.249,0:40:02.099
Ja, Aber kaufen und eben wählen, das[br]müssen die Leute schon noch selbst, es
0:40:02.099,0:40:05.329
ist nicht so das BigData die Leute[br]fernsteuert. Das müssen wir schon
0:40:05.329,0:40:10.279
festhalten, also man könnte sagen: Wer[br]vor so zielgerichteter Werbung Angst hat,
0:40:10.279,0:40:13.700
der sollte vielleicht die eigene[br]Urteilsfähigkeit hinterfragen.
0:40:13.700,0:40:19.430
Applaus
0:40:20.050,0:40:26.069
Ja. Ja. Bestimmt haben auch ein paar von[br]euch diesen Gedankengang gehabt und an der
0:40:26.069,0:40:30.830
Stelle hat ich keinen Applaus erwartet.[br]Sich selbst haben sie sich ein
0:40:30.830,0:40:34.470
bisschen bruhigt, mit diesem Gedankengang.[br]Das Problem ist nur, ich glaube,
0:40:34.470,0:40:39.259
die eigene Urteilsfähigkeit hinterfragen,[br]das macht kaum einer. In der Realität
0:40:39.259,0:40:43.059
wählen die Leute doch irgendwie[br]denjenigen, der ihnen am meisten, am
0:40:43.059,0:40:48.140
emotional passensten, kurz vor der Wahl[br]was zubrüllt. Ja. Und so laufen Wahlen.
0:40:48.140,0:40:52.380
Das ist ja auch politisch so gewollt, Wo[br]kämen wir auch hin, wenn Wahlen irgendwie
0:40:52.380,0:40:54.849
langfristigen Erfolg belohnen würden, ne.
0:40:54.849,0:40:55.930
verhaltendes Lachen
0:40:55.930,0:41:01.420
Und dieses emotionale Zurufen und das geht[br]mit so höchst personalisierter Werbung
0:41:01.420,0:41:07.999
urplötzlich, unglaublich effizient. Und[br]das bedeutet, ja, Data-Science-Techniken
0:41:07.999,0:41:12.650
können Wahlen beeinflussen. Ja vorhin[br]hatte ich die Voratsdatenspeicherung
0:41:12.650,0:41:17.869
angeprangert ja ich bin ja auf dem CCC,[br]also vermute ich, dass die Meisten von
0:41:17.869,0:41:21.670
von mit mir einer Meinung waren. Und damit[br]kommen wir genau zum Punkt; Wisst ihr, was
0:41:21.670,0:41:25.720
die Firma aus dem Artikel genommen hat, um[br]die Wähler so ultragenau zu vermessen?
0:41:25.720,0:41:29.569
Das waren überhaupt gar keinen[br]staatlichen Überwachungsdaten, das waren
0:41:29.569,0:41:35.329
Facebook-Likes. Also Daten, die die Leute[br]selbst über sich ins Netz gestellt
0:41:35.329,0:41:38.880
hatten, ne. Und es ist wichtig mit[br]staatlicher Überwachung kritisch zu sein.
0:41:38.880,0:41:42.819
Ja das dürfen wir und das müssen wir[br]auch, wenn wir kein Unrechtsstaat werden
0:41:42.819,0:41:47.289
wollen. Aber wenn wir dann gleichzeitig[br]völlig unkritisch sind mit uns selbst,
0:41:47.289,0:41:52.950
ja, und wirklich jeden Mist ins Facebook[br]oder ähnliche Plattformen pumpen, ja,
0:41:52.950,0:41:54.810
dann haben wir nichts gewonnen.
0:41:55.900,0:42:06.070
Applaus
0:42:06.070,0:42:11.359
Mein Vortrag neigt sich dem Ende zu. Es[br]kommen jetzt noch zwei Sachen: eine kleine
0:42:11.359,0:42:17.130
Überraschung und dann habe ich noch ne[br]Bitte an euch alle. Und zuerst gibt es die
0:42:17.130,0:42:22.950
Überraschung. Ja, habe ich vorhin gesagt,[br]ich hätte 100.000 Artikel von
0:42:22.950,0:42:27.890
Spiegel-Online geladen?[br]Ich meinte über 700.000
0:42:27.890,0:42:31.930
Applaus
0:42:31.930,0:42:36.530
Ne, ich lade jeden Artikel nicht nur[br]einmal runter, wenn er erscheint somdern
0:42:36.530,0:42:40.370
mehrfach in wachsenden Zeitabständen. [br]Und mit anderen Worten, wir können messen,
0:42:40.370,0:42:43.230
was in Artikeln geändert wurde.
0:42:43.230,0:42:49.660
Gelächter[br]Applaus
0:42:49.660,0:42:53.719
So und aus Zeitgründen, gibts damit keine[br]riesen Auswertung. Erstens aus
0:42:53.719,0:42:57.510
Zeitgründen hier im Vortrag aber auch[br]zweitens aus persönlichen Zeitgründen ne,
0:42:57.510,0:43:01.640
ich muss irgendwann auch nochmal arbeiten.[br]Aber wir haben ne kleine Demo.
0:43:01.640,0:43:06.819
Ich hab zum Beispiel mal geguckt, ob [br]Titel geändert werden, ne.
0:43:06.819,0:43:10.520
Und bei sowas findet man einfach lustige [br]Sachen. Es gibt nicht nur den Titel,
0:43:10.520,0:43:11.960
der hier offensichtlich ist.
0:43:11.960,0:43:16.300
Sondern es gibt auch zusätzlich den[br]Html-Titel, die Techniker unter euch
0:43:16.300,0:43:20.900
kennen den. Der wird oben im Browser[br]angezeigt und auch die Html-Titel erfasse
0:43:20.900,0:43:27.140
ich natürlich. So und am 21.Januar -[br]wobei der hier sichtbare Artikel ist am
0:43:27.140,0:43:32.349
20. Januar 2015 rausgekommen - und am[br]21.Januar und das war einen Tag nachdem
0:43:32.349,0:43:36.710
der Artikel erschienen war, wurde mir[br]angezeigt: Der Html-Titel hat sich
0:43:36.710,0:43:43.329
geändert aus "SAP wächst 2014 langsamer[br]als geplant." Ich hab mich dann gefragt:
0:43:43.329,0:43:48.049
He, warum wurde er denn geändert, ja also[br]wie war der vorher. Ganz einfach: Als der
0:43:48.049,0:43:54.410
Artikel rauskam, wuchs nähmlich nicht SAP[br]sondern der SAP-Chef
0:43:54.410,0:43:56.000
wuchs langsamer als geplant.
0:43:56.000,0:43:57.589
Gelächter
0:43:57.589,0:43:59.989
Sowas finde ich an sich ganz sympatisch,
0:43:59.989,0:44:02.229
Gelächter
0:44:02.229,0:44:05.579
denn es zeigt, das bei Spiegel Online noch[br]Menschen an den Texten sitzen und keine
0:44:05.579,0:44:10.940
Computer und im Moment heisst der Artikel[br]übrigens: SAP kann Wachstums- und
0:44:10.940,0:44:15.349
Gewinnziele nicht erfüllen. Also das hat[br]nochmal irgendwem nicht gefallen, ne. Und
0:44:15.349,0:44:19.369
irgendwann zwischendurch haben sie es[br]nochmal geändert. Also, jetzt wisst ihr
0:44:19.369,0:44:22.069
erst, wie mächtig der Datensatz[br]tatsächlich ist. Ich hab von jedem
0:44:22.069,0:44:26.060
Artikel diverse zeitlich versetzte[br]Versionen und das erlaubt natürlich viel,
0:44:26.060,0:44:29.640
viel krassere Auswertungen und damit fang[br]ich aber selbst erst an und deswegen ist
0:44:29.640,0:44:33.489
heute noch so wenig davon im Vortrag, aber[br]das war meine Überraschung und jetzt
0:44:33.489,0:44:39.029
kommt meine Bitte. Ihr habt jetzt alles[br]mögliche gesehen und wir haben Artikel
0:44:39.029,0:44:43.680
auf einfach und komplexe Weise unterteilt.[br]Wir haben gesehen, das verschiedene
0:44:43.680,0:44:47.319
Arten der Unterteilung und Darstellung[br]verschieden mächtig sind und wir haben
0:44:47.319,0:44:51.240
verschiedenste Features aus den Artikeln[br]gelesen: Rubrik, Zeiten, Kommentierbarkeit
0:44:51.240,0:44:56.900
Autor. Jede Menge weiterer Features sind[br]denkbar. Auch kompliziertere Features ja.
0:44:56.900,0:45:01.259
Man könnte zum Bsp für jeden Artikel die[br]darin enthaltenden Links raus ziehen und
0:45:01.259,0:45:05.130
dann gucken, ob bestimmte Autoren Kumpels[br]haben, auf die sie oft verlinken.
0:45:05.130,0:45:09.289
Der Fantasie sind wirklich keine Grenzen[br]gesetzt. Und zum Schluss haben wir sogar
0:45:09.289,0:45:14.710
gesehen, wir können für jeden Artikel[br]messen, was verändert wurde, ne.
0:45:14.710,0:45:19.559
Wir können z.B. gucken, wo die Leser am[br]meisten randalieren. Da guckt man, indem
0:45:19.559,0:45:23.059
man guckt, wo die Kommentarfunktionen erst[br]geöffnet und später dann geschlossen
0:45:23.059,0:45:28.729
sind. Also meine Bitte an euch, jeder der[br]hier zuguckt, schickt mir bitte einen Mail
0:45:28.729,0:45:34.749
mit seinem kreativsten Auswertungsideen[br]für den Datensatz. Und in dem
0:45:34.749,0:45:36.969
Zusammenhang hab ich noch ne Message, die[br]ihr euch auch mitnehmen könnt. Wenn ihr
0:45:36.969,0:45:40.609
was im Bereich der Data-Science macht,[br]Rohdaten sind geil.
0:45:40.609,0:45:53.650
Gelächer[br]Applaus
0:45:53.650,0:45:58.269
Behaltet immer alle Rohdaten, wenn ihr es[br]irgendwie vom Speicher bezahlen könnt.
0:45:58.269,0:46:02.209
Ne, dann könnt ihr nämlich im nachhinein[br]alles mögliche tun. Ich hab alle Rohdaten
0:46:02.209,0:46:05.410
komplett da. Das sind über 60 GB[br]pures HTML.
0:46:05.410,0:46:06.410
Gelächter
0:46:06.960,0:46:10.510
Und neue Features im nachhinein dazu[br]auswerten, ist deswegen überhaupt
0:46:10.510,0:46:14.420
kein Problem. Darum bitte, bitte, lasst[br]eurer Fantasie freien Lauf. Erfindet neue
0:46:14.420,0:46:18.280
Features, erfindet wonach die ausgewertet[br]werden sollen. Schickt mir einfach, was
0:46:18.280,0:46:21.620
ihr euch denkt, ja. Vieleicht ist nicht[br]alles, was ihr wollt möglich und
0:46:21.620,0:46:24.929
vielleicht schau ich auch nicht alles[br]sofort. Ich bin ja auch berufstätig und
0:46:24.929,0:46:28.840
zum Jahresanfang werde ich stramm[br]eingespannt sein Aber ich versuch was
0:46:28.840,0:46:33.719
möglich zu machen. Also einfach[br]einschicken. Seit kreativ. Und damit
0:46:33.719,0:46:37.680
bleibts mir nur noch, ein dickes[br]Dankeschömn zu sagen dafür das ihr diese
0:46:37.680,0:46:42.189
Stunde mit mir verbracht habt. [br]Hier sind noch die Links. Und bis dann.
0:46:42.189,0:47:02.160
Applaus[br] JubelApplaus
0:47:02.160,0:47:06.030
Herald: Ganz so schell wirst du[br]natürlich noch nicht entlassen, weil wir
0:47:06.030,0:47:11.200
haben noch unsere Fragerunde. Erstmal[br]herzlichen Dank, immer schön zu sehen,
0:47:11.200,0:47:14.849
wie die Mathematik doch spannend sein[br]kann, um eben solche Daten zu analysieren.
0:47:14.849,0:47:24.220
Und ja, wie immer, wenn ihr Fragen habt,[br]tretet vor zu den Mikrofonen. Und alle die
0:47:24.220,0:47:30.390
schnell, ich glaube nebenan startet der[br]Jahresrückblick mit Fefe oder
0:47:30.390,0:47:32.849
David Kreisel: Ne der Fefe sitzt da vorne[br]im Publikum.
0:47:32.849,0:47:40.539
Herald: Ach ja, der sitzt noch hier. So[br]schnell wird er dann drüben noch nicht
0:47:40.539,0:47:46.690
starten, vielleicht wollen die schon mal[br]einen Platz. Genau. .... Wo haben wir
0:47:46.690,0:47:49.309
Fragen, an Mikro 3, beginnen wir dort:
0:47:49.309,0:47:54.569
Mik 3: Hi, super Vortrag, fand ich echt[br]Klasse. Was mich mal interessieren würde:
0:47:54.569,0:47:58.499
Hast du mal geguckt, ob die Split testen[br]und die Artikel-Überschriften ändern
0:47:58.499,0:48:01.339
anhand von wieviel Leute drauf klicken[br]oder sowas?
0:48:01.339,0:48:05.279
David: Ja das würde man messen daran, [br]wie viele verschiedene Titel man so findet
0:48:05.279,0:48:08.680
und wenn diese Zahl der durchschnittlichen[br]Titel pro Artikel ansteigt, dann passiert
0:48:08.680,0:48:14.640
das und wenn ich das richtig interpretiere[br]dann testen sie das gerade. Also es ist
0:48:14.640,0:48:18.480
noch nicht übergreifend, es ist immer nur[br]so stossweise, vielleicht will mich auch
0:48:18.480,0:48:21.890
einer korrigieren von Spiegel Online, aber[br]so wie meine Daten aussehen, ja hab ich
0:48:21.890,0:48:26.999
getestet, sie versuchen es gerade. Also[br]was ist Splittesten? Vieleicht mal fürs
0:48:26.999,0:48:30.640
Publikum. Man veröffentlicht Artikel mit[br]verschiedenen Titeln und dann guckt man,
0:48:30.640,0:48:33.630
wo am meisten Leute klicken, bei welchem[br]Titel und der Titel darf dann weiter
0:48:33.630,0:48:38.559
leben. Ihr verändert also durch euren[br]Besuch direkt die Nachrichtenseite.
0:48:38.559,0:48:46.210
Mikro 1: Ja hi. Ich wollte fragen, ob du[br]auch Spiegel-plus Artikel, die es ja seit
0:48:46.210,0:48:50.329
Mitte diesen Jahres, glaube ich, gibt mit[br]einbezogen hast und wenn ja, hast du einen
0:48:50.329,0:48:51.329
plus Account?
0:48:51.329,0:48:52.329
David: Äh, ja.
0:48:52.329,0:48:53.890
leichtes Gelächter im Publikum
0:48:53.890,0:48:57.829
Ich habe die mit einbezogen, ähm, und[br]natürlich habe ich auch einen
0:48:57.829,0:49:00.220
plus-Account, der das vollautomatisch[br]entschlüsselt,
0:49:00.220,0:49:01.220
räusper
0:49:01.220,0:49:02.220
und dazu also
0:49:02.220,0:49:03.080
Gelächter
0:49:03.080,0:49:06.250
wenn einer Näheres - Ich hab mich da[br]wahnsinnig geärgert - kurz - als die
0:49:06.250,0:49:09.640
plus-Artikel rauskamen, weil ich die[br]nicht auf Anhieb de-krypten konnte.
0:49:09.640,0:49:12.319
Und dazu gibts jetzt bei mir einen [br]Blogartikel, seitdem,
0:49:12.319,0:49:15.140
wie man die de-kryptet.
0:49:15.140,0:49:19.070
Applaus
0:49:19.070,0:49:22.600
Ich muss übrigens mal was Positives[br]sagen, die Spiegel plus Artikel sind im
0:49:22.600,0:49:26.089
Median 1100 Worte lang, also man muss[br]schon sagen,
0:49:26.089,0:49:27.439
da kriegt ihr auch was fürs Geld.
0:49:27.439,0:49:29.599
leichtes Gelächterleichter Applaus
0:49:29.599,0:49:39.839
Mikro 7: Hast du im Rahmen deiner Analysen[br]auch auf die Inhalte geguckt, das du
0:49:39.839,0:49:46.339
vielleicht die Worthäufigkeit analysiert[br]hast und die Zuordnung zu Ressorts oder zu
0:49:46.339,0:49:51.339
Schlagworten anhand der Inhalte[br]abgeglichen hast, um vielleicht raus
0:49:51.339,0:49:54.680
zufinden, ob die Verschlagwortung[br]vollständig oder richtig ist.
0:49:54.680,0:49:58.582
David: Ne hab ich noch nicht gemacht. Man[br]kann ja die Schlagworte nehmen und da hab
0:49:58.582,0:50:01.609
ich es mir bequem gemacht oder man[br]versucht jetzt ne Analyse zu machen, was
0:50:01.609,0:50:04.579
die relevanten Worte im Artikel sind und[br]das hab ich noch nicht gemacht, Das wären
0:50:04.579,0:50:08.470
dann sozusagen die schöneren Schlagworte.[br]Aber ne, hab ich noch nicht gemacht.
0:50:08.470,0:50:12.219
Herald -Frage aus dem Internet:
0:50:12.219,0:50:16.420
Signal Angel: IRC möchte wissen, welche[br]Software du benutzt hast, um die Daten zu
0:50:16.420,0:50:19.519
sammeln. zu analysieren, zu visualisieren[br]und ob es
0:50:19.519,0:50:20.519
die Daten irgendwo gibt, außer bei dir.
0:50:20.519,0:50:24.360
David: OK. Nein gibts noch nicht, irgendwo[br]außer bei mir, weil ich mir auch gar
0:50:24.360,0:50:31.440
nicht sicher bin, ob ich die verteilen[br]darf. Ich benutze den Python Data Stack
0:50:31.440,0:50:34.599
und die Software zum runterladen hab ich[br]mir selbst geschrieben, die läuft auf
0:50:34.599,0:50:40.690
einem meiner Server und darüberhinaus[br]nutze ich Pandas für die Analyse, das ist
0:50:40.690,0:50:43.880
auf Python aufbauend und dann diese ganze[br]MaschinLearning Sachen da drüber
0:50:43.880,0:50:48.739
scikit-learn. Also den ganzen Py DataStack[br]googelt danach einfach, da findet ihr viel
0:50:48.739,0:50:51.589
und zum Visualisieren hab ich hier Tableau[br]genommen, das ist ne
0:50:51.589,0:50:56.930
Visualisierungssoftware. Die schon[br]voragregierte und vorerechnete Daten bis
0:50:56.930,0:51:00.339
zu ein paar GigaByte ganz gut verkraftet[br]und da kann man sehr schnell schöne
0:51:00.339,0:51:04.720
Visualisierungen draus ziehen und zum[br]
0:51:04.720,0:51:06.319
Visualisieren der Graphen hab ich Gephi[br]genommen.
0:51:06.319,0:51:12.529
Mikro 4: Hast du Daten Real-Time[br]analysiert oder
0:51:12.529,0:51:14.119
alles im nachhinein gemacht?
0:51:14.119,0:51:16.069
David: Ich versteh die Frage nicht.
0:51:16.069,0:51:19.630
Mirko: Ob du die Daten während du sie[br]gesammelt hast analysiert hast?
0:51:19.630,0:51:23.079
David: Ach so, ne. Das wird alles[br]rohdatenmäßig gesammelt, dann wird das
0:51:23.079,0:51:28.960
im weiteren Schritt erst mal, werden die[br]Rohfeatures rausge-parsed und das sind dann
0:51:28.960,0:51:31.680
so wenige, das sie in der Tat dann in[br]einen RAM passen und ich dann darauf
0:51:31.680,0:51:36.089
weitere High-Level Feature machen kann.[br]Das passiert so in 3 Layern. Also es ist
0:51:36.089,0:51:41.180
nicht direkt dabei aber während wir hier[br]gesprochen haben, ist schon wieder 10 mal
0:51:41.180,0:51:44.079
runter geladen worden. Insofern ist das[br]schon gleichzeitig zum Runterladen.
0:51:44.079,0:51:48.709
Das Runterladen geht weiter.
0:51:48.709,0:51:53.560
Mikro 3: Eine Idee für die Auswertung: Du[br]könntest mal gucken, ob bestimmte
0:51:53.560,0:51:57.309
Wortgruppen in älteren Artikeln nochmal[br]vorkamen, um zu sehen welche zusammen
0:51:57.309,0:51:58.309
kopiert wurden.
0:51:58.309,0:52:03.029
David: Du meinst, ja ja , so ne Auswertung[br]im Sinne von: In jedem Artikel kriegt ihr
0:52:03.029,0:52:07.460
durchschnittlich 73 Prozent neuen Content[br]quasi, ja?
0:52:07.460,0:52:08.950
Gelächter
0:52:08.950,0:52:10.020
Mikro: Ja
0:52:10.020,0:52:11.790
David: Guter Punkt
0:52:11.790,0:52:13.130
Applaus
0:52:13.130,0:52:15.229
David: Machen wir so.
0:52:17.039,0:52:22.530
Mikro: Hallo, ich wollte nur kurz einen[br]Denkanstoss geben, ich formuliere das mal
0:52:22.530,0:52:28.440
als Frage. Könnte es sein, das diese[br]Nichtkommentierbarkeit von Israel-Artikeln
0:52:28.440,0:52:32.430
auch einfach ein Ressourcen-Problem ist,[br]weil es da vielleicht mehr aus
0:52:32.430,0:52:36.140
juristischen Gründen zu zensieren gibt[br]für die Redaktion?
0:52:36.140,0:52:38.049
David: Das kann selbstverständlich sein.[br]Ja natürlich.
0:52:38.049,0:52:40.869
Mikro: Z.B. gibt es ja durchaus[br]Sigularitäten mit dem deutschen
0:52:40.869,0:52:42.999
Strafrecht, das man bestimmte Sachen [br]nicht sagen darf.
0:52:42.999,0:52:48.950
David: Ja. Also, hätte es nur Israel[br]erwischt, hätte ich das auch sofort auch
0:52:48.950,0:52:51.989
gedacht. Aber ja kann natürlich sein. [br]Das ist auch so ganz wichtig an so
0:52:51.989,0:52:54.759
Data-Science, ich hab das hier jetzt[br]teilweise bisschen ketzerisch vorgetragen
0:52:54.759,0:52:58.450
aber natürlich müsst ihr schon selbst[br]nochmal gucken, was ihr aus den Daten
0:52:58.450,0:53:02.309
folgert. Ja natürlich, das kann sein. Am[br]besten wissen das natürlich nur die
0:53:02.309,0:53:06.369
Spiegelleute. Aber Israel war ja nicht der[br]einzige Punkt der nichtkommentierbar war
0:53:06.369,0:53:13.479
und zur reinen Justiz gibt es keine[br]Singularität im deutschen Strafrecht.
0:53:13.479,0:53:18.219
Mikro 6: Hallo David, vielen Dank für den[br]Talk. Hast du überlegt die Software
0:53:18.219,0:53:22.159
irgendwie Open Source anzubieten , so[br]dass man sie z.B. für
0:53:22.159,0:53:25.219
andere Quellen anpassen kann. Tagesschau[br]etc.
0:53:25.219,0:53:29.680
David: Hab ich nicht überlegt. Aber[br]ehrlich gesagt, so aufwendig ist es auch
0:53:29.680,0:53:35.549
nicht. Ihr schreibt euch nen Script, was[br]euch alle paar Minuten mal losläuft und
0:53:35.549,0:53:41.009
die Artikel runter lädt und das[br]speicherst in einer Datenbank fertig. Also
0:53:41.009,0:53:44.849
das Open Source, ist das uninteressanteste[br]was es gibt. Ddas findet ihr in 1000
0:53:44.849,0:53:49.019
Varianten sauberer als ich das gemacht hab[br]nochmal, glaube ich. Aber ja, man könnte
0:53:49.019,0:53:52.220
mal eine Vergleichsauswertung mit anderen[br]Medien starten, ja.
0:53:52.220,0:53:57.789
Mikro 1: Wie hast du den Strain aus deiner[br]Karte entfernt, du hast da ne ganze Menge
0:53:57.789,0:54:00.229
Dimensionen auf zwei Dimensionen runter[br]gebrochen ..
0:54:00.229,0:54:02.199
David: Den was aus meiner Karte entfernt?
0:54:02.199,0:54:04.270
Mikro: Die Spannung, weil du hast ja sehr
0:54:04.270,0:54:06.680
viel Dimensionen auf zwei Dimensionen[br]reduziert ...
0:54:06.680,0:54:07.410
David: Ja,
0:54:07.410,0:54:09.279
Mikro: .. und wie hast du sichergestellt,[br]das jetzt nicht Inseln bei einander sind,
0:54:09.279,0:54:12.320
die gar nicht zusammen gehören oder[br]manche anderen nicht beieinander sind,
0:54:12.320,0:54:14.920
die aufgrund von Inseln, die dazwischen [br]liegen nicht nah genug zueinander kamen.
0:54:14.920,0:54:18.299
David: In der Theorie kann man das nie[br]ausschliessen, aber in dem Graoh steckt
0:54:18.299,0:54:22.060
sehr viel Verfahren drin. Also ich hab[br]zunächst mal zugesehen, das ich
0:54:22.060,0:54:25.190
überhaupt nur die wichtigen Kanten pro[br]Knoten behalte, sonst hat man wirklich
0:54:25.190,0:54:29.609
viel zu viele Kanten und dann gibts da[br]professionelle Graph-Layouting-Verfahren
0:54:29.609,0:54:33.829
für, also Gephi bietet was, das heißt[br]VsAtlas 2 und das war das, was ihr in den
0:54:33.829,0:54:37.839
hübschen Video gesehen habt, damit geht[br]das sehr gut, Also du must das natürlich
0:54:37.839,0:54:42.579
ein bisschen Schmakes da rein investieren,[br]wie du die Kanten vorher ausfilters und
0:54:42.579,0:54:46.660
dann, dann bist du immer noch nicht sicher[br]in der Theorie, aber dann siehst ja, ob
0:54:46.660,0:54:49.509
das Bild gut wird oder nicht.
0:54:49.509,0:54:55.060
Mikro 2: Du meintest, du warst im Oktober[br]beim Spiegel, wie war den deren Reaktion
0:54:55.060,0:54:57.440
zu deinen Analysen?
0:54:57.440,0:55:01.359
David: Positiv, also, ob das jetzt nur[br]daran lag, dass die sowieso nichts dagegen
0:55:01.359,0:55:03.849
tun können, weiss ich nicht, [br]aber ehrlich gesagt,
0:55:03.849,0:55:04.859
Gelächter
0:55:04.859,0:55:08.180
hab ich das als sehr positiv und[br]interessiert wargenommen und auch ich hab
0:55:08.180,0:55:12.619
was gelernt und das war eigentlich einen[br]ziemlich cooler Termin, also sportlicher
0:55:12.619,0:55:16.599
als die Kollegen bei Xerox sag ich mal.
0:55:16.599,0:55:23.240
großes GelächterApplaus
0:55:23.240,0:55:33.579
Mikro: Ist vielleicht ne Suggestivfrage,[br]vielleicht auch in Richtung, wie man
0:55:33.579,0:55:42.510
weiterforschen könnte. Das Verfahren, das[br]du benutzt hast, um die thematische Nähe
0:55:42.510,0:55:46.589
verschiedener Tags zueinander zu[br]bestimmen, wäre es mathematisch
0:55:46.589,0:55:48.819
ACHTUNG: Mathematiker-Kauderwelsh ..
0:55:48.819,0:55:52.230
nicht korrekter, wenn du eine singuläre [br]Zerlegung der Adjazentmatrix
0:55:52.230,0:55:55.329
dieser Schlagworte baust,[br]ähnlich wie Google Page Rank
0:55:55.329,0:55:56.390
das gemacht hat.
0:55:56.390,0:56:01.719
David: Ja. Aber dann kann man nicht so[br]einen schönen Graphen draus basteln und
0:56:01.719,0:56:05.959
es kommt wahrscheinlich was ähnliches[br]raus, sein wir ehrlich. Ich sehe ja die
0:56:05.959,0:56:08.989
Werte der Kanten und wahrscheinlich ist es[br]am Ende das Selbe.
0:56:08.989,0:56:15.540
Mikro: Ja wenn du genug Dimensionen[br]benutzt ist es äquivalent.
0:56:18.790,0:56:22.329
David: Ja.[br]Alles ist still, Mensch.
0:56:22.329,0:56:26.249
Mikro 3: Nochmal kurz zu den Landkarten,[br]das sind irgendwelche
0:56:26.249,0:56:28.180
MonteCarlo Methoden diese Springs ...
0:56:28.180,0:56:29.339
David: Ja
0:56:29.339,0:56:33.859
Mikro: ... im Endeffekt positionieren, wie[br]stabil sind die?
0:56:33.859,0:56:37.509
David: Ich denke, ich hab mich da in die[br]Theorie nicht eingearbeitet weiter, es
0:56:37.509,0:56:40.650
würde mich wundern, wenn du da ne[br]Stabilität drüber nachweisen könntest.
0:56:40.650,0:56:45.160
"Fest steht, sie sind etabliert für[br]große Graphen." weil da ist sowieso nix
0:56:45.160,0:56:50.050
mehr zu planarisieren in der Größe und[br]dann sieht man halt zu zu iterieren bis es
0:56:50.050,0:56:53.859
stimmt und wenn es schlecht aussieht, dann[br]drückt man nochmal auf den Startknopf.
0:56:53.859,0:56:57.449
Also so ist wirklich die Praxis.
0:56:57.989,0:57:02.519
Mikro: Hallo. Hast du mal Markov auf deine[br]Daten geworfen,
0:57:02.519,0:57:05.349
um Spiegelartikel zu generieren.
0:57:05.349,0:57:06.659
GelächterApplaus
0:57:06.659,0:57:09.159
David: Nein! Könntest du mir bitte damit[br]eine Email schicken?
0:57:09.159,0:57:11.949
Gekiecher und Gelächter im Saal[br]Mikro: Sehr gerne.
0:57:11.949,0:57:14.500
David: Oh wir haben Spaß, ich seh das[br]schon ..
0:57:14.500,0:57:16.799
GelächterApplaus
0:57:16.799,0:57:25.439
D: Da machen wir aber nicht nur die [br]Artikel Generierung sondern dann wird
0:57:25.439,0:57:29.190
bitte auch direkt dazu generiert, zu [br]welchem Thema kommentiert werden darf
0:57:29.190,0:57:30.580
und zu welchen nicht, ne ...
0:57:30.580,0:57:32.070
vereinzeltes Gelächter[br]Ruf aus dem Publikum: Autoren generieren
0:57:32.070,0:57:35.380
David: Autoren generieren, das ist auch[br]schön, ja.
0:57:35.380,0:57:37.249
Gelächter
0:57:37.249,0:57:45.150
Herald: So wir sind auch am Ende unserer[br]Zeit. Wer noch Fragen hat, du bist sicher
0:57:45.150,0:57:46.150
gleich noch ...
0:57:46.150,0:57:49.709
David: Ich geh hier jetzt da raus, zur[br]nächsten Bierbar, die da ist, falls die
0:57:49.709,0:57:57.219
nicht vor Saal 2 ist, ist die vor Saal 1[br]dann bin ich da.
0:57:57.219,0:57:58.780
Wir machen jetzt DDos auf[br]die Bierbar. Ja.
0:57:58.780,0:57:59.810
Applaus
0:57:59.810,0:58:02.609
Herald: Ja ist ja auch Zeit.
0:58:02.609,0:58:12.260
Applaus
0:58:12.260,0:58:18.869
Herald : Auch von mir auch nochmal ein [br]Herzlichen Dank ....
0:58:19.628,0:58:26.211
33c3 - Abspann-Musik
0:58:26.211,0:58:46.000
Untertitel erstellt von c3subtitles.de[br]im Jahr 2017. Mach mit und hilf uns!