0:00:00.000,0:00:13.230 33C3 Vorspannmusik 0:00:13.230,0:00:18.370 Herald Carina Haupt: David Kriesel ist[br]Data Scientist. Und der eine oder andere 0:00:18.370,0:00:24.919 kennt ihn vielleicht noch vom 31C3, wo er[br]den relativ bekannt gewordenen berühmten 0:00:24.919,0:00:27.039 Xerox Scanning Bug Vortrag gehalten hat. 0:00:27.039,0:00:34.950 Applaus 0:00:34.950,0:00:41.460 Dieser hat ihn offensichtlich nicht nur[br]hier bekannt gemacht. Sondern auch zu 0:00:41.460,0:00:45.840 internationaler Bekanntheit verholfen. Und[br]damit begrüsse ich ihn und freue mich auf 0:00:45.840,0:00:51.380 einen spannenden Talk und bitte Euch[br]nochmal um einen ganz ganz herzlichen 0:00:51.380,0:00:54.100 Applaus für David. 0:00:54.100,0:00:57.040 Applaus 0:00:57.040,0:00:59.320 David: Dankeschön 0:00:59.320,0:01:01.060 Applaus 0:01:01.060,0:01:06.720 Ja, dankeschön. Herzlich willkommen. Auch[br]nochmal von mir. Auch an die Leute im 0:01:06.720,0:01:11.580 Internet. Und auch an die Leute vom[br]Spiegel. Von denen ich weiss, dass sie 0:01:11.580,0:01:18.390 anwesend sind. Es ist schön wieder hier[br]zu sein. Mein Name ist David Kriesel. Ich 0:01:18.390,0:01:22.570 bin Informatiker aus Bonn. Und ich mache[br]beruflich, es wurde schon gesagt Data 0:01:22.570,0:01:26.620 Science und Machine Learning. Und salopp[br]gesagt, versuche ich für meine 0:01:26.620,0:01:33.540 Arbeitgeber aus grossen Datenmengen Wissen[br]zu ziehen. Und seit 2014 habe ich knapp 0:01:33.540,0:01:38.750 100 000 Artikel von Spiegel Online[br]ge-vorratsdaten-speichert. 0:01:38.750,0:01:45.550 GelächterApplaus 0:01:45.550,0:01:49.590 Und das habe ich einfach niemanden[br]erzählt. 0:01:49.590,0:01:51.320 Gelächter 0:01:51.320,0:01:55.420 Und während ich da so zweieinhalb Jahre[br]sitze und das niemanden erzähle, ist die 0:01:55.420,0:01:59.470 Stimmung medial irgendwie umgeschlagen.[br]Vor zweieinhalb Jahren war die Welt noch 0:01:59.470,0:02:04.600 in Ordnung und heute ist die Rede von[br]Lügenpresse und Fake News und genau aus 0:02:04.600,0:02:09.669 dieser Zeit des Stimmungsumbruchs haben[br]wir jetzt einen riesigen Datensatz über 0:02:09.669,0:02:15.290 den vielleicht grössten Meinungsmacher[br]unserer Nation. Und mit diesem Datensatz 0:02:15.290,0:02:18.950 werden wir heute zwei Sachen machen:[br]Erstens, wir werden den Datensatz 0:02:18.950,0:02:23.720 durchleuchten und was über Spiegel Online[br]lernen. Und zwar so, dass ihr das auch mit 0:02:23.720,0:02:29.629 nach Hause nehmen und beim Lesen dann[br]anwenden könnt. Und zweitens, wir werden 0:02:29.629,0:02:34.129 Einblick erhalten wie die Datensammelwut[br]von heute funktioniert und wie mächtig 0:02:34.129,0:02:38.029 oder vielleicht auch nicht mächtig die[br]ist. Und das machen wir so, dass es für 0:02:38.029,0:02:42.750 jeden verstehbar ist, nicht nur für[br]Informatiker. Und zusätzlich werde ich, 0:02:42.750,0:02:46.359 wie in meinem letzten Vortrag vor zwei[br]Jahren ein bisschen auf das 0:02:46.359,0:02:50.069 Gesellschaftliche eingehen. Und wir werden[br]an ein paar passenden Beispielen 0:02:50.069,0:02:53.429 beleuchten, wie die moderne[br]Datenverarbeitung unsere Gesellschaft 0:02:53.429,0:02:57.210 beeinflussen kann. Und ob wir die Welt,[br]mit dieser allumfassenden Datensammelwut 0:02:57.210,0:03:01.119 besser machen oder schlechter machen, dass[br]kann dann ja später jeder von euch für 0:03:01.119,0:03:06.510 sich selbst entscheiden. Am besten fangen[br]wir an, in dem ich kurz beschreibe wie 0:03:06.510,0:03:12.010 genau Spiegelmining funktioniert. Rund um[br]die Uhr, alle paar Minuten schaut einer 0:03:12.010,0:03:16.599 meiner Server vollautomatisch auf Spiegel[br]Online nach ob dort neue Artikel stehen 0:03:16.599,0:03:20.340 und werden neue Artikel gefunden, dann[br]werden die heruntergalden und 0:03:20.340,0:03:25.141 abgespeichert. Und auf diese Weise hat der[br]Datensatz einen coolen Vorteil der ja 0:03:25.141,0:03:29.519 jetzt vielleicht nicht sofort ersichtlich[br]ist: ich erhalte neue Artikel binnen 0:03:29.519,0:03:33.960 Minuten, nachdem sie veröffentlicht[br]wurden. Das heisst, ich kriege die im 0:03:33.960,0:03:35.650 Originalzustand, also vor allen[br] 0:03:35.650,0:03:37.470 Verbesserungen und Änderungen, 0:03:37.470,0:03:38.920 die im Nachhinein vorgenommen 0:03:38.920,0:03:41.519 werden und das ist natürlich[br]viel aussagekräftiger. 0:03:41.519,0:03:45.589 Man erhält ein unverfälschten Eindruck und[br]es ist nicht so wie wenn man einen Artikel 0:03:45.589,0:03:50.129 runterlädt, die vieleicht schon Jahre alt[br]und tausend mal editiert sind. Aus den 0:03:50.129,0:03:54.059 heruntergeladenen Artikeln lese ich dann[br]sogenannte Features. Feature ist einfach 0:03:54.059,0:03:57.919 das Fachwort für ein Artikelmerkmal. Ganz[br]einfache Features eines Artikels können 0:03:57.919,0:04:00.420 zum Beispiel der[br]Veröffentlichungszeitpunkt oder die 0:04:00.420,0:04:04.260 Rubrik sein, in der der Artikel steckt.[br]Und die Features nehme ich dann und mache 0:04:04.260,0:04:08.739 damit Auswertungen, von den sehen wir[br]heute noch ein paar. Und die interessanten 0:04:08.739,0:04:12.979 unter den Auswertungen nutze ich dann, um[br]auf meiner Seite eine Blogartikelserie zu 0:04:12.979,0:04:16.959 schreiben, um meinen Lesern einen Einblick[br]in Spiegel Online und die Data Science 0:04:16.959,0:04:21.060 gleichermassen zu geben und das war es.[br]Spiegelmining in wenigen Minuten. Und am 0:04:21.060,0:04:24.750 Anfang machen wir jetzt ein paar sehr[br]einfache Auswertungen, so sehen wir wie 0:04:24.750,0:04:28.110 das funktioniert und verschaffen uns[br]gleichzeitig einen Überblick über 0:04:28.110,0:04:32.060 Spiegel Online und als erstes zählen wir[br]mal wie häufig die einzelnen Rubriken so 0:04:32.060,0:04:37.400 vorkommen. Das ist die Ansicht. Die[br]Größe der Kreise gibt die Artikelanzahl 0:04:37.400,0:04:42.340 pro Rubrik wieder und wie wir sehen, wird[br]Spiegel Online dominiert von Politik, das 0:04:42.340,0:04:47.740 ist der große rote Kreis rechts oben, von[br]Panorama, das ist der grüne Kreis in der 0:04:47.740,0:04:51.930 Mitte und vom Sport, das ist der[br]fliederfarbene Kreis ganz unten. Ich 0:04:51.930,0:04:54.740 weiss, was fliederfarben ist. Ich höre[br]schon Leute lachen. 0:04:54.740,0:04:57.490 Applaus 0:04:57.490,0:05:04.270 Also die drei Rubriken, die machen[br]zusammen die Hälfte der Artikel aus. Und 0:05:04.270,0:05:08.169 das nächste supereinfache Feature ist der[br]Veröffentlichungszeitpunkt von jedem 0:05:08.169,0:05:11.910 Artikel. Damit messen wir jetzt einfach[br]mal, wieviele Artikel Spiegel Online am 0:05:11.910,0:05:16.120 Tag so schreibt. Der Plot sieht jetzt[br]richtig richtig krass unordentlich aus, 0:05:16.120,0:05:19.730 dass man da fast keine Werte erkennen[br]kann. Das liegt an den Wochenenden. 0:05:19.730,0:05:23.020 Da wird um die Hälfte weniger[br]veröffentlicht als normal. Und deswegen 0:05:23.020,0:05:27.019 schwankt das so krass. Und hier gibt es[br]dann auch gleich den ersten Bericht aus 0:05:27.019,0:05:32.240 der Praxis: wie man deutlich sieht, habe[br]ich Anfang März 2015 ein paar Tage Loch 0:05:32.240,0:05:36.770 in den Daten. Und der Grund ist, dass der[br]März ein Monat mit "ae" ist. 0:05:36.770,0:05:40.180 GelächterApplaus 0:05:45.950,0:05:52.639 Also, mir ist das nach kurzer Zeit zum[br]Glück aufgefallen. Also wenn Ihr Daten 0:05:52.639,0:05:56.940 aufnehmt, dann programmiert Euch bitte mal[br]irgendeine Form von Warnsystem, das 0:05:56.940,0:06:00.710 anschlägt, wenn länger keine Daten mehr[br]eintrudeln. Ich hatte das zum Glück und 0:06:00.710,0:06:04.380 das hat mir hier sehr geholfen. Jetzt[br]schlägt es in ein paar Minuten an und da 0:06:04.380,0:06:08.009 hatte ich so irgendwie ein paar Tage keine[br]Ahnung. Zurück zum Plot: Wegen der 0:06:08.009,0:06:10.969 Unordnung mit den Wochenenden ändern wir[br]jetzt unseren Plot und berechnen statt den 0:06:10.969,0:06:14.821 Artikeln pro Tag jetzt die Artikel pro[br]Woche. Und man sieht jetzt auch was und da 0:06:14.821,0:06:19.340 sehen wir, dass Spiegel Online im Schnitt[br]so 700 Artikel die Woche veröffentlicht, 0:06:19.340,0:06:23.979 also so 100 am Tag. Und das ist schon[br]ziemlich viel Output. Übrigens die beiden 0:06:23.979,0:06:28.830 krassen Einbrüche, die Ihr hier seht, das[br]sind die Weihnachtswochen, da wird weniger 0:06:28.830,0:06:32.430 veröffentlicht und der Datensatz für[br]diesen Vortrag ist vom 4. Dezember, 0:06:32.430,0:06:36.490 deswegen ist dieser Weihnachts-Low dieses[br]Mal einfach noch nicht drin. Und wenn man 0:06:36.490,0:06:41.090 jetzt Features einzeln betrachtet, aber[br]richtig interessant wird es, wenn wir 0:06:41.090,0:06:43.979 Features zusammen betrachten. Wir[br]verwursten jetzt also mal 0:06:43.979,0:06:48.440 Veröffentlichungszeitpunkt und Rubrik[br]zusammen. Und dann können wir sehen, das 0:06:48.440,0:06:54.740 beispielsweise der Output in den Rubriken[br]Panorama und Politik stabil ist. Während 0:06:54.740,0:06:58.840 Wissenschaft und Uni-Spiegel ganz schön[br]zusammengestrichen wurden. Das gilt 0:06:58.840,0:07:02.759 übrigens in abgeschwächter Form auch für[br]andere Ressorts. Solche Infos, welche 0:07:02.759,0:07:06.990 Ressorts gerade gerupft werden, sind zum[br]Beispiel relativ interessant, wenn man 0:07:06.990,0:07:10.840 Konkurrent von Spiegel Online ist. Das[br]kann man ohne weiteres auslesen. Und wir 0:07:10.840,0:07:15.470 sehen, geschickt Features ausdenken und[br]zusammenstöpseln, ist die halbe Welt. 0:07:15.470,0:07:20.160 Jetzt nehmen wir mal die Textlänge der[br]Artikel dazu. Hier sind die typischen 0:07:20.160,0:07:25.050 Artikellängen im Spiegel angegeben und[br]zwar pro Rubrik. Und man sieht, dass der 0:07:25.050,0:07:30.160 typische Kulturartikel fast dreimal so[br]lang ist, wie der typische Panorama- oder 0:07:30.160,0:07:35.569 Sportartikel und immerhin noch doppelt so[br]lang wie der typische Politikartikel. Und 0:07:35.569,0:07:40.110 jetzt hatten wir schon gesehen, das[br]Panorama, Sport und Politik trotz ihrer 0:07:40.110,0:07:43.680 kurzen Artikellängen genau die drei[br]dominierenden Ressorts sind. Und daraus 0:07:43.680,0:07:48.509 können wir folgern, das Spiegel Online es[br]eher auf Reichweite anlegt und auf 0:07:48.509,0:07:54.600 Abdeckungsbreite als auf Tiefe. Die[br]Strategie Reichweite um jeden Preis 0:07:54.600,0:07:58.179 scheint Spiegel Online auch noch so zu[br]verstärken. Die zusammengestrichenen 0:07:58.179,0:08:01.760 Rubriken waren alles welche mit eher[br]langen Texten. Und bevor das hier jetzt 0:08:01.760,0:08:05.660 falsch ankommt, ich sage das ohne jede[br]Wertung im Sinne von gut oder schlecht das 0:08:05.660,0:08:09.140 ist ja eine valide Strategie für ein[br]Medium und ich beschreibe einfach nur 0:08:09.140,0:08:12.789 gemessene Daten. Und es ist keineswegs der[br]Zweck der Veranstaltung irgendwie 0:08:12.789,0:08:16.609 substanzlos in Richtung von Spiegel Online[br]zu haten. Wer hatet wird nicht ernst 0:08:16.609,0:08:19.869 genommen. Das habe ich ja in meinem[br]letzten Vortrag schon ausführlich 0:08:19.869,0:08:23.900 beschrieben. Und die meisten Sachen, die[br]hier im Vortrag noch kommen, denkt daran, 0:08:23.900,0:08:29.169 die sind bei den anderen wahrscheinlich[br]ähnlich. Wichtig ist auch dass man mit 0:08:29.169,0:08:33.740 den Features experimentiert. Hier ist zum[br]Beispiel ein Diagramm, das zeigt, dass 0:08:33.740,0:08:38.260 Veröffentlichungsvolumen pro Wochentag[br]und Stunde. Die Zeilen sind die Wochentage 0:08:38.260,0:08:42.559 und die Spalten sind die Stunden eines[br]Tages. Pro Wochentag und Stunde sehen wir 0:08:42.559,0:08:46.450 einen Block. Und in den grossen Blöcken[br]sind viele Artikel erschienen und in den 0:08:46.450,0:08:51.970 kleinen wenige. Und jetzt lernen wir daran[br]mal, wie es in der Data Science zugeht: 0:08:51.970,0:08:56.300 Erstens: In der Data Science findet man[br]immer wieder Botschaften bestätigt, die 0:08:56.300,0:09:01.720 man vorher schon erahnt hat. Das ist der[br]langweilige Teil der Data Science. Aber 0:09:01.720,0:09:05.531 das ist gut, um die eigenen Messverfahren[br]zu überprüfen. Wir sehen hier, zu den 0:09:05.531,0:09:10.400 unchristlichen Zeiten wird viel weniger[br]veröffentlicht. Bahnbrechende Erkenntnis: 0:09:10.400,0:09:12.970 Auch der Spiegel-Online-Redakteur[br]möchte mal schlafen. 0:09:12.970,0:09:14.200 Gelächter 0:09:14.200,0:09:20.580 Zweitens: In der Data Science findet man[br]aber auch immer Systematiken da, wo man 0:09:20.580,0:09:25.690 keine erwartet hat. Und das passiert oft[br]dann, wenn man Features verbindet. Wir 0:09:25.690,0:09:29.840 färben jetzt mal jeden dieser Blöcke[br]ein, nach der typischen Textlänge. Rote 0:09:29.840,0:09:35.120 Blöcke enthalten typischerweise lange[br]Texte und blaue Blöcke eher kurze. Und 0:09:35.120,0:09:40.120 zack Es gibt einen klaren Zusammenhang[br]zwischen Tageszeit und Länge der Artikel. 0:09:40.120,0:09:43.921 Für mich als Nicht-Journalist war das[br]damals überraschend. Die typische Länge 0:09:43.921,0:09:47.950 der veröffentlichten Artikel die ist von[br]Montag bis Freitag zwischen 5 bis 6 Uhr 0:09:47.950,0:09:53.930 früh am grössten. Das gleiche am[br]Wochenende. Hier gibt es zum Tagesstart 0:09:53.930,0:09:58.580 auch nur längere Artikel, ein bisschen[br]später natürlich. Und das Rätsels 0:09:58.580,0:10:02.550 Lösung zu diesem Phänomen kommt später[br]noch. Und als Drittes, ist die Data 0:10:02.550,0:10:08.660 Science natürlich auch dazu da fieseste[br]Vorurteile zu schüren. Ich führe Euch 0:10:08.660,0:10:13.010 das mal vor. Jetzt gebt mir bitte mal ein[br]Handzeichen, wer von Euch denkt, dass die 0:10:13.010,0:10:17.620 Leutchen aus dem Kulturressort morgens[br]bitte, gerne ein bisschen länger pennen 0:10:17.620,0:10:18.620 als die anderen. 0:10:18.620,0:10:20.220 Gelächter 0:10:20.220,0:10:25.100 Also, vielleicht für das Internet: Wir[br]haben einen Raum von 1600 Leuten, der ist 0:10:25.100,0:10:32.200 proppenvoll und fast alle haben die Hand[br]gehoben. Und die Lösung ist: stimmt! 0:10:32.200,0:10:33.850 Gelächter 0:10:33.850,0:10:37.150 Die Kulturwissenschaftler 0:10:37.150,0:10:38.800 Applaus 0:10:38.800,0:10:43.870 Die Kulturwissenschaftler veröffentlichen[br]typischerweise später. In der oberen 0:10:43.870,0:10:47.280 Verteilung sind alle Artikel ausser[br]Kultur. Da ist ab 5 Uhr morgens 0:10:47.280,0:10:51.530 Aktivität. Und in der unteren Verteilung[br]sind die Kulturartikel, da geht es 0:10:51.530,0:10:58.180 mindestens 2 Stunden später los. Aber zum[br]Ausgleich gehen die auch früher nach Hause. 0:10:58.180,0:11:00.510 Gelächter 0:11:00.510,0:11:02.830 Applaus 0:11:02.830,0:11:08.100 Aber, damit wir hier nicht wirklich[br]Vorurteile schüren, ich war bei Spiegel 0:11:08.100,0:11:13.080 Online eingeladen im Oktober und da habe[br]ich das auch so gesagt. Und dann haben sie 0:11:13.080,0:11:17.090 gesagt: 'David, nein, nein!' Manche[br]Artikel werden natürlich auch vorab 0:11:17.090,0:11:21.490 gescheduled, das will ich hier [br]fairerweise dazusagen. 0:11:21.490,0:11:23.650 Und ich mache das auch als Ermahnung, dass 0:11:23.650,0:11:27.250 ihr, wenn Ihr damit arbeitet, immer[br]nochmal selbst nachdenken müsst. was Ihr 0:11:27.250,0:11:31.060 auch solchen Auswertungen wirklich folgern[br]könnt. Besonders dann, wenn Ihr schon mit 0:11:31.060,0:11:34.970 einem Vorurteil da rein gegangen seid, so[br]wie wir jetzt. Wir haben gerade gesehen, 0:11:34.970,0:11:38.580 wie solche Auswertungen grundsätzlich[br]funktionieren, also können wir jetzt 0:11:38.580,0:11:42.670 einen Schritt weitergehen. Und im Internet[br]wird es ja genau immer dann besonders 0:11:42.670,0:11:46.880 knusprig, wenn personenbezogene Daten ins[br]Spiel kommen. 0:11:50.020,0:11:52.560 Also, habe ich mir gedacht, 0:11:52.560,0:11:56.630 es wäre doch mal ein nettes Feature, wenn[br]wir mal die Autoren aus den Spiegel 0:11:56.630,0:12:00.750 Artikeln rauslesen. Und das machen wir[br]jetzt. Und die werten wir gleich auf zwei 0:12:00.750,0:12:04.620 Arten aus: Die erste Auswertung wird eine[br]ganz neue Auswertung in diesem Vortrag, 0:12:04.620,0:12:08.500 also eine ganz neue Art. Und die zweite[br]Auswertung wird ein bisschen politisch 0:12:08.500,0:12:13.750 inkorrekt. In unserer ersten Auswertung[br]werden wir versuchen Spiegel Online 0:12:13.750,0:12:18.310 interne Personalstrukturen einfach von[br]aussen zu lesen. Wenn man zu jedem Artikel 0:12:18.310,0:12:21.850 eine Liste an Autoren hat, dann weiss man[br]ja nicht nur, wer jeden Artikel 0:12:21.850,0:12:25.940 geschrieben hat, sondern man weiss auch,[br]wer mit wem schreibt. Und bei Autoren, die 0:12:25.940,0:12:29.510 oft zusammen Artikel schreiben, dürfen[br]wir davon ausgehen, dass die intensiv 0:12:29.510,0:12:32.740 zusammenarbeiten. Wir wissen also[br]sozusagen, welche Autoren wichtig 0:12:32.740,0:12:37.320 füreinander sind, was die Artikel angeht.[br]Wer wenig oder gar nicht zusammenschreibt, 0:12:37.320,0:12:40.950 der ist in dieser Ansicht nicht wichtig[br]füreinander. Aus diesen Wichtigkeiten 0:12:40.950,0:12:45.820 können wir dann eine Autorenlandkarte[br]bauen. Und hier ist sie. Das ist ein Teil 0:12:45.820,0:12:49.790 des sozialen Netzwerkes der Spiegel Online[br]Autoren generiert über die letzten 0:12:49.790,0:12:54.140 2 Jahre. Und jeder Autor ist so ein Bubble[br]Und Autoren, die nur ganz selten 0:12:54.140,0:12:59.190 vorkommen, die habe ich hier gefiltert.[br]Und man sieht genau, dass es da Grüppchen 0:12:59.190,0:13:03.180 von Autoren gibt, die sich dichter[br]zusammentun. Und das sieht aus, als wären 0:13:03.180,0:13:06.800 es die Teams. Und jetzt müssen wir[br]natürlich kontrollieren, ob unser 0:13:06.800,0:13:10.470 Durchleuchten von aussen, auch wirklich[br]funktioniert. Und um das zu machen, 0:13:10.470,0:13:14.450 färben wir die Autoren mal nach Ihren[br]Ressorts ein. Die Ressorts, die kriegt man 0:13:14.450,0:13:19.301 aus dem Spiegel Online Impressum. Siehe[br]da, in vielen Fällen haben sich 0:13:19.301,0:13:23.440 tatsächlich die Ressorts vollautomatisch[br]in der Landkarte zusammengetan. Hier in 0:13:23.440,0:13:28.800 pink ist Sport. Wissenschaft und[br]Gesundheit. Netzwelt. Politik. Ein 0:13:28.800,0:13:32.620 bisschen verteilter, da habe ich jetzt[br]nicht alle eingekreist. Panorama. Reise. 0:13:32.620,0:13:36.510 Ich nenne jetzt nicht alle Teams, aber Ihr[br]seht das Prinzip. Die hellblauen 0:13:36.510,0:13:40.510 verteilten Punkte sind übrigens das Team[br]von bento, die arbeiten ein bisschen 0:13:40.510,0:13:43.960 übergreifender. Das ist[br]die Kinderausgabe vom Spiegel. 0:13:43.960,0:13:44.960 Gelächter 0:13:44.960,0:13:48.350 Applaus 0:13:48.510,0:13:54.690 Und der Punkt ist, wir haben jetzt relativ[br]genau von aussen durchleuchten können, 0:13:54.690,0:13:59.010 wer mit wem intern in einem Team steckt.[br]Und der Witz ist, schaut die ganzen grauen 0:13:59.010,0:14:03.350 Bubble an. Die sind grau, weil sie nicht[br]mehr über das Spiegel Impressum 0:14:03.350,0:14:07.000 zugeordnet werden konnten. Das sind zum[br]Beispiel ausgeschiedene Kollegen. Der 0:14:07.000,0:14:13.300 Spiegel Chefredakteur ist kürzlich auch[br]grau geworden. Aber durch ihre Nähe zu 0:14:13.300,0:14:17.451 den gefärbten Gruppen, können wir die[br]trotzdem grob einem Team zuordnen. Wir 0:14:17.451,0:14:20.980 können also etwas über die sagen, obwohl[br]wir eigentlich gar nichts über die 0:14:20.980,0:14:24.150 wissen. Und sowas ist dann interessant.[br]Wir können also einfach live von aussen 0:14:24.150,0:14:27.940 über die Personalstrukturen Buch führen.[br]Aber jetzt... Ihr wartet bestimmt schon 0:14:27.940,0:14:32.490 alle zum politisch inkorrekten Teil. Ich[br]möchte Euch nämlich für etwas 0:14:32.490,0:14:37.430 sensibilisieren. In diesem Plot ist jede[br]Zeile ein Autor. Und von links nach rechts 0:14:37.430,0:14:42.790 vergeht die Zeit. Und jeder farbige Strich[br]ist ein vom jeweiligen Autor 0:14:42.790,0:14:46.430 veröffentlichter Artikel. Und wenn wir[br]die Autoren kennen und das tun wir ja 0:14:46.430,0:14:50.100 jetzt, dann wissen wir natürlich auch[br]sehr genau, wer wann veröffentlicht. Wir 0:14:50.100,0:14:53.370 sehen zum Beispiel diese Zeile mit[br]regelmässigen Muster, das ist ein 0:14:53.370,0:14:57.030 Kolumnist, der veröffentlicht genau im[br]Wochentakt, bis auf ein paar Ausnahmen. 0:14:57.030,0:15:00.540 Bei den Leuten, die Tagesgeschehen[br]veröffentlichen, ist die Dichte höher. 0:15:00.540,0:15:04.640 Und das heisst, wir wissen bei denen[br]umgekehrt auch relativ gut, wann die 0:15:04.640,0:15:10.320 Urlaub machen. So, weil das sind nämlich[br]die Lücken in den dichtgefüllten Zeilen. 0:15:10.320,0:15:14.010 Und, wenn aber wir die Urlaube ungefähr[br]kennen, dann wissen wir auch ungefähr, 0:15:14.010,0:15:17.290 wessen Urlaube sich überproportional[br]überschneiden. 0:15:17.290,0:15:19.540 Gelächter 0:15:19.540,0:15:23.203 Sachen wie Weihnachten, die fast alle[br]Urlaub machen, die kann man ja einfach 0:15:23.203,0:15:28.350 rausrechnen. Und ich appelliere jetzt an[br]Eure Berufserfahrung und mutmasse mal ganz 0:15:28.350,0:15:32.340 wild, dass Ihr auch schon mal Kollegen[br]hattet, die irgendwie immer gleichzeitig 0:15:32.340,0:15:38.540 im Urlaub waren. Also, Spass beiseite. Aus[br]solchen Daten kann man ohne weiteres 0:15:38.540,0:15:44.040 lesen, wer mit was hat. Jetzt wisst Ihr[br]auch, warum ich die Autoren hier 0:15:44.040,0:15:49.190 anonymisiert habe. Es ist übrigens total[br]klar, dass das, was wir hier finden, nicht 0:15:49.190,0:15:53.340 alles Pärchen sein müssen. Das sind die[br]Pärchenkandidaten. Aber, wenn man an der 0:15:53.340,0:15:59.050 Praxis und sowas interessiert ist, dann[br]ist man ja damit schon mal auf 99% des 0:15:59.050,0:16:03.620 Weges zum Ziel. Es gibt Firmen, die werten[br]sowas aus, so illegal das auch ist. Jetzt 0:16:03.620,0:16:07.880 habt Ihr alle gerade gelacht, Kann ich mal[br]um Handzeichen bitten, wer von Euch heute 0:16:07.880,0:16:15.390 bei seiner Firma Urlaub genommen hat.[br]Über jeden gibt es solche Daten. Glaubt 0:16:15.390,0:16:19.850 mir. Und wir halten jetzt mal inne, und[br]dann machen wir uns nochmal klar, was wir 0:16:19.850,0:16:23.460 gerade gesehen haben und was die[br]gesellschaftlichen Implikationen sind. Was 0:16:23.460,0:16:26.390 wir gerade gesehen haben, ist[br]Wissensgewinnung über interne 0:16:26.390,0:16:29.590 Firmeninformationen und über[br]höchstpersönliche Lebensbereiche. Und 0:16:29.590,0:16:33.420 aus Daten, die erstmal gar nicht danach[br]aussehen. Wir hatten ja eigentlich einen 0:16:33.420,0:16:36.430 Satz Spiegelartikel. Und plötzlich,[br]überraschend, haben wir gute 0:16:36.430,0:16:40.140 Anhaltspunkte, wer mit wem was hat, und[br]wir können Teamstrukturen erahnen. Und 0:16:40.140,0:16:44.230 damit komme ich zu wichtigsten Message des[br]Vortrags: Wenn Ihr Daten veröffentlicht, 0:16:44.230,0:16:47.850 dann entscheidet nicht Ihr, was Ihr da[br]veröffentlicht, das entscheidet der 0:16:47.850,0:16:52.740 Gegner. Wir haben noch nicht einmal die[br]Daten selbst betrachtet. Wir haben die 0:16:52.740,0:16:56.830 Artikel selbst ja gar nicht angefasst. Was[br]wir angefasst haben, waren nur Metadaten. 0:16:56.830,0:17:00.590 Zeiten und Autoren, genau wie bei der[br]Vorratsdatenspeicherung. Das sind ja auch 0:17:00.590,0:17:06.900 nur Metadaten. Gebt mal ein paar Monate[br]eurer Metadaten, einfach nur, wem Ihr wann 0:17:06.900,0:17:10.879 Mails und Whatsapp geschickt habt und wann[br]Ihr auf welchen Webseiten wart. Keine 0:17:10.879,0:17:14.559 Inhalte. Danach kann ich Euch sagen, wer[br]Eure besten Freunde sind, ob Ihr eine 0:17:14.559,0:17:19.180 Affäre habt, wie Ihr sexuell orientiert[br]seid, ob Ihr schwanger seid, ob Ihr eine 0:17:19.180,0:17:22.400 Krankheit habt, was Eure politische[br]Einstellung ist, wie euer Glaube 0:17:22.400,0:17:26.320 ausgerichtet ist, und ob Ihr finanzielle[br]Probleme habt und alles, was ich gerade 0:17:26.320,0:17:30.930 vergessen habe. Das Missbrauchsprofil für[br]einen solchen Datensatz, wie den der 0:17:30.930,0:17:34.890 Vorratsdatenspeicherung, das kann man gar[br]nicht in Worte fassen. Und ich will da 0:17:34.890,0:17:37.580 überhaupt nicht mit[br]Verschwörungstheorien anfangen, wir 0:17:37.580,0:17:40.920 können ja mal alle glauben, dass die[br]Vorratsdatenspeicherung für die 0:17:40.920,0:17:44.790 Aufklärung von Verbrechen nützlich sein[br]kann, das ist ja auch total plausibel. Und 0:17:44.790,0:17:48.770 wir können ja auch mal glauben, dass die[br]Person, die die Vorratsdatenspeicherung 0:17:48.770,0:17:52.355 jetzt etablieren guten Willens sind. Lasst[br]uns das einfach mal annehmen. Das heisst 0:17:52.355,0:17:55.200 aber nicht, dass morgen keiner an die[br]Macht kommt, der das vielleicht ganz 0:17:55.200,0:18:01.660 anders macht. Was wir hier gerade[br]erhalten, ist die Infrastruktur, für eine 0:18:01.660,0:18:06.240 Generalüberwachung, die selbst George[br]Orwell's Big Brother die Schamesröte ins 0:18:06.240,0:18:10.400 Gesicht treiben würde. 0:18:10.400,0:18:15.990 Applaus 0:18:15.990,0:18:21.200 Und diese Überwachungsinfrastruktur, die[br]stellen wir jetzt extra schon mal bereit 0:18:21.200,0:18:25.400 für den Fall, dass eine zukünftige[br]Regierung böswillig ist und sie nutzen 0:18:25.400,0:18:31.220 will. Das ist, was gerade passiert. Jetzt[br]haben wir einen kurzen Exkurs über 0:18:31.220,0:18:34.410 Metadaten gemacht, und wir gehen jetzt[br]zurück zu Spiegel Online, damit sich Eure 0:18:34.410,0:18:38.170 Laune wieder hebt. Und deswegen kommt[br]jetzt ein kleiner Einschub, den könnt Ihr 0:18:38.170,0:18:41.520 dann direkt anwenden, wenn Ihr das[br]nächste Mal Spiegel Online lest. Und 0:18:41.520,0:18:45.210 danach machen wir mal ein bisschen was[br]Grösseres. Als ich die Autoren aus den 0:18:45.210,0:18:53.310 Artikeln rauslesen wollte, da war ich[br]irgendwann ziemlich genervt. Also manchmal 0:18:53.310,0:18:57.410 stehen die oben unter dem Titel, wie hier[br]links im Bild. Oder die stehen unten, wie 0:18:57.410,0:19:01.560 rechts im Bild. Und wenn die Autoren oben[br]stehen, sind sie ausgeschrieben. Und wenn 0:19:01.560,0:19:06.550 sie unten stehen, sind es Kürzel. Oben[br]stehen sie im wirklichen Satz, hier zum 0:19:06.550,0:19:11.870 Beispiel von Marcel Rosenbach. Und unten[br]die Kürzel sind ohne Satz drumrum. Manche 0:19:11.870,0:19:15.490 Autoren haben nur Vor- und Nachname.[br]Manche Namen haben aber auch vier oder 0:19:15.490,0:19:20.920 fünf Worte. Wie zum Beispiel der[br]freundliche Herr Philip Alvares De Souza 0:19:20.920,0:19:24.600 Suarez. Das habe ich mir extra hier[br]aufgeschrieben, fünf Worte. Das ist ein 0:19:24.600,0:19:29.230 Name. Also Data Science kann technisch[br]nervig sein. Sagt nicht, ich hätte Euch 0:19:29.230,0:19:35.700 nicht gewarnt. Und jedenfalls habe ich mir[br]gedacht, wtf, warum stehen da Autoren in 0:19:35.700,0:19:39.770 verschiedenen Formen und vor allem an[br]verschiedenen Orten? Also habe ich mir mal 0:19:39.770,0:19:45.500 das als Feature reingenommen, ob die[br]Autoren oben oder unten stehen. Und dann 0:19:45.500,0:19:49.570 habe ich Messwerte zwischen den[br]beiden Artikelgruppen verglichen, Autoren 0:19:49.570,0:19:55.520 oben und Autoren unten. Und es stellt sich[br]raus, wenn die Autoren unten stehen, also 0:19:55.520,0:19:59.500 nicht namentlich ausgeschrieben sind, ist[br]ein typischer Artikel knapp 300 Worte 0:19:59.500,0:20:02.920 lang. Wir sehen hier die Verteilung der[br]Artikellängen von Artikeln ohne 0:20:02.920,0:20:06.661 ausgeschriebenen Namen. Und nach rechts[br]werden die Artikel länger, da wird es 0:20:06.661,0:20:11.780 immer weniger. Und stehen die Autoren aber[br]oben, sind also ausgeschrieben, ist ein 0:20:11.780,0:20:16.660 Artikel typischerweise mehr als[br]zweieinhalb mal so lang. Knapp 750 Worte. 0:20:16.660,0:20:20.920 Man weiss schon, womit man gegoogelt[br]werden will als Redakteur. 0:20:20.920,0:20:21.920 Gelächter 0:20:21.920,0:20:27.440 Und nochwas: bei den langen Artikeln ist[br]auch nur bei ca. 2% eine 0:20:27.440,0:20:31.160 Nachrichtenagentur mit dabei. Bei den[br]kurzen ist bei knapp 80% eine 0:20:31.160,0:20:35.170 Nachrichtenagentur mit dabei. Also Fazit[br]für Euch zum mI t nach Hause nehmen: Wenn 0:20:35.170,0:20:39.000 Ihr längere Artikel wollt, die Spiegel[br]Online selbst verfasst hat, dann achtet 0:20:39.000,0:20:42.880 drauf, dass die Autoren drangeschrieben[br]sind. Wenn Ihr kurze Agenturmeldungen 0:20:42.880,0:20:45.370 wollt, sind die Kürzel gut. 0:20:45.370,0:20:49.740 Applaus 0:20:49.740,0:20:54.620 Und wir hatten ja schon gesehen, dass am[br]Tagesanfang primär längere Artikel 0:20:54.620,0:20:58.230 erscheinen und das waren eben in[br]Wirklichkeit die selbst geschriebenen. 0:20:58.230,0:21:02.540 Morgens ist der Prozentsatz von denen[br]vergleichsweise hoch. Und jetzt könen wir 0:21:02.540,0:21:05.250 die Gelegenheit nutzen und einen Schritt[br]zurücktreten und gucken, was wir bis 0:21:05.250,0:21:10.520 jetzt gemacht haben. Und wir haben unsere[br]Riesenmenge Artikel, immer auf äusserst 0:21:10.520,0:21:14.240 einfache Art und Weise auseinander[br]geschnitten und ausgewertet. Wir haben die 0:21:14.240,0:21:18.030 in Wochentage oder Uhrzeiten[br]auseinandergeschnitten. Oder in Rubriken. 0:21:18.030,0:21:21.550 Und dafür, wie einfach diese Ideen sind,[br]haben wir eigentlich ein paar ganz gute 0:21:21.550,0:21:25.350 Ergebnisse bekommen. Aber, was wir noch[br]gar nicht gemacht haben, ist uns dem 0:21:25.350,0:21:29.480 Datensatz mal inhaltlich zu nähern. Und[br]es wäre doch total cool, wenn wir die 0:21:29.480,0:21:33.460 Artikelmenge mal nach den wirklichen[br]Themen über die berichtet wird, 0:21:33.460,0:21:41.780 auseinanderschneiden und auswerten[br]können. Spiegel Online liefert uns 0:21:41.780,0:21:46.120 hierbei auch eine gute Hilfe: Artikel[br]werden dort verschlagwortet. Jeder Artikel 0:21:46.120,0:21:51.160 bekommt von seinem Autor so um die 10[br]Keywords zugewiesen. Der Artikel links im 0:21:51.160,0:21:55.510 Bild hat zum Beispiel die Keywords[br]Politik, Ausland, Saudi Arabien und König 0:21:55.510,0:22:00.300 Salman von Saudi Arabien. Also habe ich[br]die Keywords mal ausgelesen. Ueber alle 0:22:00.300,0:22:05.000 Artikel hinweg habe ich um die 65000[br]verschiedene Keywords gefunden. Und jetzt 0:22:05.000,0:22:09.090 gucken wir, wie oft, welche Keywords[br]zusammen in den selben Artikeln kommen. 0:22:09.090,0:22:12.820 Und Keywords, die fast ausschliesslich[br]zusammen vorkommen, die sind sozusagen 0:22:12.820,0:22:16.730 verheiratet, die sieht man einfach als[br]eins in der Auswertung. Und umgekehrt gibt 0:22:16.730,0:22:21.130 es natürlich Keywords, die beide für[br]sich genommen existieren, aber nie oder 0:22:21.130,0:22:25.110 fast nie zusammen, die sind dann[br]unverwandt. Und dann gibt es noch einen 0:22:25.110,0:22:32.430 interessanten Mittelweg:[br]Hier ist ein Beispiel. 0:22:32.430,0:22:35.110 GelächterApplaus 0:22:35.110,0:22:39.330 Artikel mit dem Keyword "Angela Merkel",[br]die haben meist auch das Keyword Politik. 0:22:39.330,0:22:43.650 Und umgekehrt ist das aber nicht so. Das[br]Keyword Politik ist viel grösser. Und es 0:22:43.650,0:22:48.430 gibt extrem viele Politikartikel ohne[br]Angela Merkel. Und diese Keywords sind 0:22:48.430,0:22:52.360 nicht die selben, aber es ist klar, die[br]haben eine Verbindung. Und wir messen also 0:22:52.360,0:22:57.710 für alle 65000 Keywords, paarweise, wie[br]verwandt die so sind. Und dann verbinden 0:22:57.710,0:23:02.411 wir Keywords, die stark verwandt sind mit[br]so ganz strammen, dicken Federn. Ich meine 0:23:02.411,0:23:05.860 jetzt wirklich Federn im physikalischen[br]Sinne, die die Keywords zueinander 0:23:05.860,0:23:10.420 hinziehen. Zwischen schwächer verwandten[br]Keywords kommen schwächere Federn, die 0:23:10.420,0:23:14.350 werden dann länger. Und jetzt machen wir[br]eine Physiksimulation. und schauen zu, wie 0:23:14.350,0:23:20.630 sich diese abertausenden Federn[br]zurechtzurren. Verwandte Keywords werden 0:23:20.630,0:23:25.340 jetzt tendenziell nahe beeinander layoutet[br]und weniger verwandte nicht so nah. Was 0:23:25.340,0:23:28.820 hier ensteht ist eine thematische[br]Landkarte, von allen Sachen über die 0:23:28.820,0:23:32.611 Spiegel Online in den letzten 2 Jahren[br]berichtet hat. Und jetzt gerade sieht es 0:23:32.611,0:23:36.600 so aus, als passiert da fast nichts mehr,[br]aber gerade passiert die Detailarbeit. Das 0:23:36.600,0:23:40.530 sieht man nur von soweit oben nicht. Und[br]deswegen zoomen wir jetzt mal ganz weit 0:23:40.530,0:23:44.620 rein, damit wir lernen, was wir da[br]erschaffen haben. Hier ist die Volkswagen 0:23:44.620,0:23:49.060 Abgasaffäre. Wie Ihr seht haben die[br]Keywords unterschiedliche Grössen. Die 0:23:49.060,0:23:52.740 Grösse der einzelnen Keywords spiegelt[br]die Anzahl der Artikel wieder, die das 0:23:52.740,0:23:56.220 Keyword innehaben. Und das sind sozusagen[br]die Artikel, die in dem Keyword 0:23:56.220,0:24:01.360 drinstecken. Und die Farbe zeigt an, was[br]die vorherrschende Rubrik ist über alle 0:24:01.360,0:24:04.830 Artikel, die in einem Keyword drin[br]stecken. Dieses Okergelb heisst 0:24:04.830,0:24:09.870 Wirtschaft. Passt! Der Witz ist, diese[br]Darstellungsweise ist extrem mächtig und 0:24:09.870,0:24:13.580 vielseitig. Über die Farbe der Keywords[br]da können mit dieser Darstellungsweise 0:24:13.580,0:24:18.820 noch viel mehr Infos rüberbringen, als[br]nur, welche Themen verwandt sind. Und mit 0:24:18.820,0:24:24.170 der Farbe können wir beliebige Messwerte[br]anzeigen. Und wenn ich danach so farbige 0:24:24.170,0:24:28.070 Keywordlandschaften habe, dann können wir[br]sehen, ob es zwischen Thema und Messwert 0:24:28.070,0:24:32.161 einen Zusammenhang gibt und das machen wir[br]heute auch noch. Aber erstmal gucken wir 0:24:32.161,0:24:36.980 ein bisschen weiter rum, hier sind[br]verschiedene Flugzeugunglücke. Der 0:24:36.980,0:24:48.900 Themenkomplex befindet sich zwischen[br]Panorama - Grün und Politik - Rot. Wobei 0:24:48.900,0:24:51.980 die politischen Anteile von dem Flugzeug[br]kommen, das über der 0:24:51.980,0:24:59.780 Ukrainisch-Russischen Grenze abgeschossen[br]wurde. Jetzt versagt meine Singstimme. 0:24:59.780,0:25:06.559 So besser. So hier ist Griechenland-Krise.[br]Das ist offensichtloch ein Thema zwischen 0:25:06.559,0:25:11.220 Politik und Wirtschaft rot und wieder oker[br]und Wolfgang Schäuble ist da direkt mal 0:25:11.220,0:25:15.770 als Aufpasser dazu-layoutet worden.[br]Interessanterweise hat der keine Farbe, 0:25:15.770,0:25:19.140 der ist grau und das ist nicht[br]altersbedingt sondern das liegt daran, 0:25:19.140,0:25:23.270 das es im Keyword Wolfgang Schäuble kein[br]dominierendes Ressort gab und 0:25:23.270,0:25:25.360 jetzt machen wir mal was Topaktuelles. 0:25:25.360,0:25:28.360 Das ist die US-Wahl dieses Jahr. [br]Wir sehen Hillary Clinton 0:25:28.360,0:25:32.170 und Donald Trump und alles was da so drum[br]rum wimmelt und das ist offensichtlich 0:25:32.170,0:25:37.059 ein politisches Thema, es ist rot und man[br]beachte, wie hier das Keyword Emails 0:25:37.059,0:25:41.610 dazu-layoutet wurde. Und von hier aus[br]machen wir uns jetzt mal 0:25:41.610,0:25:43.720 die Größe der gesamten Landschaft klar. 0:25:43.720,0:25:47.390 Ich weiss nicht, wer heute[br]Morgen von euch in dem Vortrag über 0:25:47.390,0:25:51.370 Mikroskope war, da hat der Vortragende[br]immer und immer mehr reingezoomt, um klar 0:25:51.370,0:25:55.370 zu machen wie klein die Sachen sind und[br]wir machen das jetzt umgekehrt, wir wollen 0:25:55.370,0:25:59.200 darstellen wie riesig die Landkarte ist[br]und wir zoomen immer und immer mehr raus. 0:25:59.200,0:26:03.200 Wir haben raus-gezoomt. Der alte[br]Bildauschnit ist dick eingerahmt, damit 0:26:03.200,0:26:07.020 ihr seht wo der ist. Und wir sehen, [br]dass der US-Wahlkampf eingebettet ist 0:26:07.020,0:26:09.440 in größeren Landstrich der [br]Auslandspolitik. 0:26:09.440,0:26:12.130 Links sehen wir den Bürgerkrieg in Syrien 0:26:12.130,0:26:15.910 darüber der Islamische Staat und von da[br]geht es über den Islamistischen Terror 0:26:15.910,0:26:18.440 weiter nach Frankreich. 0:26:18.440,0:26:25.360 GelächterApplaus 0:26:25.360,0:26:31.640 Jaa, die Mathematik ist gnadenlos, ne. [br]Oben sind die aktuellen Türkei-Thematiken, 0:26:31.640,0:26:34.270 also das ist deren Putschversuch und [br]deren Demokratur 0:26:34.270,0:26:37.540 und rechts von der Mitte ist Russland[br]und der Ukraine Konflikt und 0:26:37.540,0:26:41.320 [br]links unten ist Israel und der Nahost 0:26:41.320,0:26:46.509 Konflikt und wir zoomen nch weiter raus.[br]Hier ist nun die gesamte politische 0:26:46.509,0:26:50.591 Landschaft, diesmal haben wir mit zwei[br]Rechtecken markiert, wo wir herkommen wir 0:26:50.591,0:26:54.560 kommen, ursprünglich von der US-Wahl und[br]dann von der Auslandspolitik. Also die 0:26:54.560,0:26:58.930 Auslandspolitik ist oben rechts und unten[br]rechts ist der Inlandsteil und seit Neuem 0:26:58.930,0:27:02.780 gibt es nen riesigen Knubbel, der in der[br]Mitte, das ist die Flüchtlingsthematik, 0:27:02.780,0:27:06.640 die ist mittlerweile so groß, wie eine[br]eigene Unterrubrik und die ist als dritte 0:27:06.640,0:27:10.440 Kraft genau zwischen Ausland und Inland[br]etabliert, ja. Was ja auch genau passt. 0:27:10.440,0:27:15.679 Wir zoomen nochmal weiter raus. Ja, jetzt[br]kann man gar nichts mehr erkennne, außer 0:27:15.679,0:27:19.700 verschieden farbigen Landschaften. Ich sag[br]also mal, für eine grobe Orientierung, 0:27:19.700,0:27:23.460 hier kommen wir her, das rote ist der[br]Politikteil. Rechts darüber in 0:27:23.460,0:27:28.481 giftgrün das Panorama. Das wird[br]durchteilt von der Wirtschaft, die Kette 0:27:28.481,0:27:32.340 von türkisen Clustern entlang der[br]Unterseite des Hauptkontinentes ist die 0:27:32.340,0:27:37.160 Netzwelt. Blau im Osten ist der Kulturteil[br]und so weiter und so fort. Wir können 0:27:37.160,0:27:41.120 jetzt nicht alle durchgehen, ihr seht, die[br]Gebiete gehen noch ineinander über und 0:27:41.120,0:27:45.080 wir wissen jetzt fast, wie riesig diese[br]Landkarte ist, einmal rauszoomen haben wir 0:27:45.080,0:27:49.390 nämlich noch. Hier ist die große weite[br]Welt, ja den unteren Teil haben wir schon 0:27:49.390,0:27:54.299 grob kennengelernt, und hier sind wir[br]eigentlich her gekommen, und auf dem Rest 0:27:54.299,0:27:57.450 der Welt, etwas entrückt ist[br]die Wissenschaft, das ... 0:27:57.450,0:28:02.970 Gelächter im Saal[br]Applaus 0:28:06.160,0:28:09.830 Ich sehe, ihr könnt das nachvollziehen[br]und habt da auch mal gearbeitet. 0:28:09.830,0:28:10.820 Gelächter 0:28:10.820,0:28:13.590 Und ganz weit weg vom[br]Hauptkontinent ist der Sport. 0:28:13.590,0:28:14.420 Gelächter 0:28:14.420,0:28:18.570 So, und jetzt sehen wir erstmal, wie gross[br]das ist und wie breit der Spiegel angelegt 0:28:18.570,0:28:22.120 ist und diese riesige Landkarte gibts[br]übrigens bei mir auf der Website, da 0:28:22.120,0:28:24.860 könnt ihr auch selbst drin rumforschen,[br]wie in GoogleMaps, so drin rum scrollen, 0:28:24.860,0:28:29.070 das macht auch mehr Spaß als wenn ich das[br]hier nur vorkaue und darum gehts jetzt 0:28:29.070,0:28:32.910 auch weiter. Wir wenden die jetzt an. Ja,[br]Spiegel Online bietet unter sehr vielen 0:28:32.910,0:28:36.410 Artikeln an, ja, ähmm, .. 0:28:36.410,0:28:38.350 Publikum GemurmelGelächter 0:28:38.350,0:28:42.220 Ich, das Gelächter geht los, bevor ich[br]etwas gesagt habe. Ihr wisst doch gar 0:28:42.220,0:28:46.460 nicht, was ich sagen will, ne? Das man[br]seine eigene Meinung dazu äußern darf. 0:28:46.460,0:28:48.490 Publikum und David Gelächter 0:28:48.490,0:28:51.750 Und unter manchen Artikeln sperren sie[br]diese Funktion aber, ne, 0:28:51.750,0:28:52.520 einzelnes Gelächter 0:28:52.520,0:28:54.340 und das untersuchen wir jetzt mal, 0:28:54.340,0:28:58.250 Und ich hatte euch am Anfang des Vortrages[br]gesagt, das Artikel direkt nach nen paar 0:28:58.250,0:29:01.970 Minuten nach ihrem erscheinen von mir[br]abgerufen werden, also wenn ich sag, das 0:29:01.970,0:29:05.870 was nicht kommentiert werden darf, dann[br]war das sehr wahrscheinlich, direkt vom 0:29:05.870,0:29:08.250 Start weg so. So schnell[br]randaliert kein Mensch. 0:29:08.250,0:29:10.410 leichtes Gelächter im Publikum 0:29:10.410,0:29:14.340 Also, bevor wir jetzt ne Themenlandkarte[br]damit malen, schauen wir mal ganz kurz auf 0:29:14.340,0:29:17.820 die zeitliche Entwicklung, der[br]Kommentierbarkeit, und zwar einfach, damit 0:29:17.820,0:29:21.450 wir ne Orientierung haben. In dem Plot[br]sehen wir pro Kalenderwoche wieviel 0:29:21.450,0:29:25.570 Prozent der erschienen Artikel kommentiert[br]werden durften, und wieviele nicht. 0:29:25.570,0:29:30.340 In Rot sind die Nichtkomentierbaren und [br]Blau die Kommentierbaren und als ich 2014 0:29:30.340,0:29:34.090 angefangen habe runterzuladen, waren[br]erstmal ne ganze Zeit so 80 Prozent der 0:29:34.090,0:29:37.740 Artikel kommentierbar. Und genau seit dem[br]Zeitpunkt der großen 0:29:37.740,0:29:42.650 Flüchtlingsberichterstattung im Sommer[br]2015, ja, sinkt der (Graph) der Artikel 0:29:42.650,0:29:47.090 der kommentierbaren Nachrichten[br]kontinuierlich ab, und jetzt seit kurzem 0:29:47.090,0:29:51.400 ist wirklich die Mehrzahl der Artikel ohne[br]Kommentarfunktion, ne, dir rote Linie 0:29:51.400,0:29:54.960 überholt die Blaue, und die[br]Kommentierbarkeit wird übrigens nicht nur 0:29:54.960,0:29:59.599 im Politikressort weniger, das passiert[br]übergreifend in fast allen Ressorts und 0:29:59.599,0:30:03.220 ob seit dem der Hass im Netz irgendwie[br]themenübergreifend soviel schlimmer 0:30:03.220,0:30:07.140 geworden ist oder Spiegel-Online jetzt[br]einfach soviel Angst vor fiesen 0:30:07.140,0:30:10.940 Kommentaren hat, das kann ich aus denn[br]Zahlen nicht ablesen, das müsst ihr dann 0:30:10.940,0:30:15.500 für euch selbst entscheiden. Interessant[br]ist aber noch der kleine, grüne Plot im 0:30:15.500,0:30:20.090 Bild, ne , das sind auch nicht[br]kommentierbare Artikel. Aber bei denen 0:30:20.090,0:30:23.910 steht so ein kleiner Entschuldigungstext[br]dran, ja. Das hier die Kommentarfunktion 0:30:23.910,0:30:27.970 wegen der Netikette und so weiter gesperrt[br]ist. Ihr braucht das hier jetzt nicht 0:30:27.970,0:30:31.929 lesen, ich bring das nur zur Ansicht, und[br]diesen Entschuldigungstext haben sie zu 0:30:31.929,0:30:36.890 Anfang der Flüchtlingsberichterstattung[br]eingeführt und es scheint so, als war 0:30:36.890,0:30:40.340 Spiegel-Online da selbst ein bisschen[br]unwohl mit dem krassen Anstieg der 0:30:40.340,0:30:44.240 Kommentarsperrungen. Aber wie man am Plot[br]sieht, haben sie den Hinweis ganz flott 0:30:44.240,0:30:47.710 wieder aufgegeben, obwohl die[br]Kommentiermöglichkeiten immer und immer 0:30:47.710,0:30:52.799 mehr gesperrt werden. So und jetzt gehts[br]zur Landkarte. Wir färben ein Keyword 0:30:52.799,0:30:57.920 röter, wenn unterdurchschnittlich viele[br]Artikel darin kommentierbar sind und wir 0:30:57.920,0:31:01.270 färben ein Keyword eher blau, wenn das[br]Keyword überdurchschnittlich 0:31:01.270,0:31:04.770 kommentierbar ist. Graue Keywords [br]repräsentieren so den Durchschnitt, da 0:31:04.770,0:31:07.560 dann so 70 Prozent kommentierbar [br]und das gibt 0:31:07.560,0:31:11.001 natürlich auch alle Farben dazwischen.[br]Also wenn so'n Keyword wirklich 0:31:11.001,0:31:14.630 aufleuchtet, dann ist das irgendwo am Ende[br]der Skala oder am Anfang. Und die 0:31:14.630,0:31:18.551 Landkarte stell ich auch bald auf meine[br]Website, die jetzt kommt, da könnt ihr da 0:31:18.551,0:31:22.410 auch selbst drin rumklicken. So, und wir[br]fangen mal mit ein paar einfachen Sachen 0:31:22.410,0:31:26.900 an. Ja ihr ahnt es, Sport darf man quasi[br]komplett kommentieren, ja, knallblau. Und 0:31:26.900,0:31:30.540 falls ihr euch fragt, was der knallrote[br]Punkt da ist, das ist ein bestimmtes 0:31:30.540,0:31:34.679 Artikelformat, das ist technisch ohne[br]Kommentarfunktion. Sowas kommt schon mal 0:31:34.679,0:31:39.080 vor, ich sag nur, weil ich gleich sonst 13[br]mal die Frage kriege. Und wo man in der 0:31:39.080,0:31:43.219 Regel auch gut kommentieren darf, das sind[br]Wissenschaftsthemen und Wirtschaftsthemen 0:31:43.219,0:31:45.320 Hier sind die Bahnstreiks, ja. 0:31:45.320,0:31:48.790 Da darf nach Kräften auf die Bahn [br]eingekloppt werden. 0:31:48.790,0:31:49.960 Gelächter 0:31:49.960,0:31:56.440 Und wo wir schon von Streik reden, ist[br]bestimmt jeder hier im Raum in Gedanken, 0:31:56.440,0:32:01.730 bei der Lufthansa, die streiken ja als[br]Hauptkonzernaktivität. Alles blau, ja 0:32:01.730,0:32:02.870 Gelächer im Saal 0:32:02.870,0:32:06.070 Alles blau, auch die dürfen fiese[br]Kommentare abkriegen. Ich würd ja 0:32:06.070,0:32:08.890 mitlachen, aber ich bin mit dem Flugzeug[br]hier in Hamburg, ne 0:32:08.890,0:32:11.110 Gelächter im Saal[br]kleiner Applaus 0:32:11.110,0:32:15.500 So, nach dem ganzen blau. jetzt mal was [br]rotes. Knallrote Landschaft, ergibt sich 0:32:15.500,0:32:21.810 um die Justiz. Das sind Berichte über die[br]Kriminalität; Morde, Attentate, ja, "the 0:32:21.810,0:32:27.380 full packedge" und hier will man eher[br]weniger Lesekommentare, ja. So, die Justiz 0:32:27.380,0:32:33.200 hat so 30 Prozent Kommentierbarkeit von[br]den üblichen 70 Prozent. Hier ist die 0:32:33.200,0:32:38.489 ganze Geschichte rund um den NSU-Prozeß.[br]Der ist hier ja auch Thema. Tiefrot, ja, 0:32:38.489,0:32:42.460 generell auch alles, was mit Rechtsradikal[br]und Nazis und so zu tun hat, darf eher 0:32:42.460,0:32:46.140 wenig kommentiert werden und der[br]Kernknubbel hier, der hat so um die 18 0:32:46.140,0:32:52.510 Prozent, ja, ist also noch weniger als die[br]Justiz und die waren schon rot. Was auch 0:32:52.510,0:32:55.160 tiefrot ist, ist alles um die[br]Flüchtlingsthematik und zwar nicht nur 0:32:55.160,0:32:58.120 das Konkrete, sondern auch der[br]weitergefasste Rahmen, Asylrecht 0:32:58.120,0:33:03.210 und so weiter. Seht ihr sogar im Bild. Und[br]von Aussen sieht das aus, als sperrt der 0:33:03.210,0:33:08.600 Spiegel seine Kommentarfunktion komplett[br]systematisch und zwar nach Themen, Ja? Und 0:33:08.600,0:33:12.290 das wir sowas direkt visuell raus finden[br]können, das macht diese Landkarte so 0:33:12.290,0:33:16.081 unheimlich mächtig. Allgemein ist es in[br]der Data-Science nicht nur wichtig richtig 0:33:16.081,0:33:19.820 auszuwerten, es ist genauso wichtig, die[br]Informationen möglichst anschaulich 0:33:19.820,0:33:23.110 visuell aufzubereiten. So können dann[br]nämlich auch Leute, die keine 0:33:23.110,0:33:27.070 Informatiker sind, sofort komplexe[br]Zusammenhänge erkennen. Es gibt ja nur 0:33:27.070,0:33:32.160 eine Breitbandverbindung ins Gehirn und[br]das sind die Augen. Richtig interessant 0:33:32.160,0:33:36.929 wirds, wenn man mal guckt, wie[br]Spiegel-Online die Kommentierbarkeit hart 0:33:36.929,0:33:43.290 national ordnet. Das hier ist der ganze[br]Nahost-Konflikt, um Israel, ja, wie ihr an 0:33:43.290,0:33:48.090 dem satten Rot seht, zum Nahostkonflikt[br]und Israel hat man bei fast allen Artikeln 0:33:48.090,0:33:53.710 die Klappe zu halten. So und jetzt[br]schwenken wir mal vom Nahost-Konflikt zum 0:33:53.710,0:33:58.029 Ukraine-Konflikt. Ja lächelt seufzend 0:33:58.029,0:34:03.440 akustische Aufruhr im Publikum[br]Einzelapplaus 0:34:03.440,0:34:04.110 Ja. 0:34:04.110,0:34:05.600 Applaus 0:34:05.600,0:34:10.379 Also. Ihr könnt euch mit nach Hause[br]nehmen. Meine Damen und Herren: 0:34:10.379,0:34:11.770 Russen bashen ist OK. 0:34:11.770,0:34:13.230 Gelächter im Publikum 0:34:13.230,0:34:16.329 Ja, was wir hier - Live und in Farbe -[br]sichtbar gemacht haben, ist nichts anderes 0:34:16.329,0:34:21.379 als unsere westliche Filterbuble. Die kann[br]man messen. Zum Iran darf man seinen Senf 0:34:21.379,0:34:27.099 dazugeben, zu Großbritanien auch. Zur[br]Türkei, da ist Spiegel-Online sich noch 0:34:27.099,0:34:28.099 nicht ganz sicher. 0:34:28.099,0:34:29.099 Gelächter 0:34:29.099,0:34:33.899 Und Frankreich ist interessant, diese[br]Region der Landkarte, die möchte 0:34:33.899,0:34:39.219 eigentlich blau sein aber die ganzen[br]Keywords rund um die Terrorserie dort, die 0:34:39.219,0:34:42.329 sind knallrot und die strahlen in die[br]Nachbarn aus und das schauen wir uns jetzt 0:34:42.329,0:34:47.440 doch mal ein bisschen genauer an, Das sind[br]alles Frankreichartikel aber nach Zeit. 0:34:47.440,0:34:52.079 Die blaue Linie ist das Aufkommen der[br]kommentierbaren Artikel, die rote Linie 0:34:52.079,0:34:56.300 wieder das Aufkommen der[br]Nichtkommentierbaren und wir sehen: wie 0:34:56.300,0:35:00.821 Frankreich von 2014 bis 2015 erstmal[br]überwiegend kommentierbar ist und die 0:35:00.821,0:35:06.339 blaue Linie ist über der roten, und hier[br]ist die Terrorserie in Paris im November 0:35:06.339,0:35:12.160 2015 und es wird plötzlich enorm viel[br]berichtet. Also sehen wir ne krasse Spitze 0:35:12.160,0:35:17.980 am Frankreichartikeln, ne, und davon sind[br]die Meisten nicht kommentierbar. Also: 0:35:17.980,0:35:20.200 Frankreich an sich dürft ihr gerne[br]kommentieren aber bezüglich der 0:35:20.200,0:35:25.859 Anschläge dort bitte nicht. Und das[br]Interessante ist, der Effekt wirkt fort, 0:35:25.859,0:35:30.369 Seit der Terrorserie ist Frankreich[br]generell nicht mehr so kommentierbar. Die 0:35:30.369,0:35:34.609 rote Linie ist meist über der Blauen. Und[br]jetzt tretten wir wieder einen Schritt 0:35:34.609,0:35:40.759 zurück. Und natürlich sehe ich auch, das[br]der Spiegel Themenbereiche aufgrund der 0:35:40.759,0:35:44.290 Erfahrungen in der Verasngenheit sperren[br]kann. Und generell müssen wir auch 0:35:44.290,0:35:48.059 zugeben, das ist das gute Recht von[br]Spiegel-Online zu entscheiden, wo und in 0:35:48.059,0:35:51.849 welcher Form sie Anderen auf ihrer Seite[br]ne Plattform geben und wo sie das eben 0:35:51.849,0:35:56.499 nicht tun. Aber genauso ist es auch unser[br]gutes Recht diese Systematik hier mal 0:35:56.499,0:36:01.499 sichtbar zu machen. Und ich denke, das[br]sieht insgesamt so aus als verböte 0:36:01.499,0:36:06.320 Spiegel-Online genau zu denjeniegen Themen[br]die Kommentierung, bei denen zu erwarten 0:36:06.320,0:36:12.729 ist, das die Meinungen der Leser politisch[br]nicht opportun sind. Ob das jetzt etwas 0:36:12.729,0:36:16.309 über Spiegel-Online aussagt oder über[br]seine Leser oder irgendwie ein 0:36:16.309,0:36:19.930 gesamtgesellschaftliches Problem ist, das[br]müsst ihr dann wieder selbst entscheiden. 0:36:19.930,0:36:26.680 Was die Auswertung angeht, haben wir den[br]Vortrag bis jetzt im Grunde zweigeteilt. 0:36:26.680,0:36:34.230 Am Anfang haben wir die Artikelsammlung in[br]nur wenige Töpfe unterteilt, und danach 0:36:34.230,0:36:37.900 haben wir die Artikelsammlung in viel mehr[br]Töpfe unterteilt, das sind die wenigen, 0:36:37.900,0:36:42.049 jeder Artikel konnte sogar in mehreren[br]Töpfen sein. Ne, das war ja so? Wenn nen 0:36:42.049,0:36:45.890 Artikel mehrere Keywords hatte, dann war[br]er auch in mehreren Töpfen. Und das war 0:36:45.890,0:36:51.109 ne viel komplexere, aber auch viel[br]mächtigere Art der Unterteilung. Und 0:36:51.109,0:36:54.550 jetzt merkt ihr euch diese beiden Arten[br]der Unterteilung mal kurz und damit machen 0:36:54.550,0:37:00.380 wir was politisches, wir gehen über zum[br]Thema Wahlkampf. Ja, Wahlkämpfe 0:37:00.380,0:37:04.390 funktionieren grob so, das man die Menge[br]aller Wähler auseinander schneidet, 0:37:04.390,0:37:08.420 wie wir unsere Artikel auseinander[br]geschnitten haben. Das heißt dann 'Voter 0:37:08.420,0:37:14.569 Targeting'. Und bei der US-Wahl konnte man[br]z.B. sagen man schneidet die Wähler grob 0:37:14.569,0:37:19.369 nach Geschlecht, Hautfarbe, Alter und[br]Gehalt. Das wird dann in der Tat auch so 0:37:19.369,0:37:22.950 gemacht. Dann könnte man sozusagen allen[br]schwarzen Frauen in Kalifonien, die 0:37:22.950,0:37:27.630 zuwischen 30 und 40 sind und über 60.000[br]Dollar im Jahr verdienen, zugeschnittene 0:37:27.630,0:37:33.529 Wahlwerbung schicken. Und das ist ne[br]relativ grobe Art der Unterteilung und die 0:37:33.529,0:37:37.750 ist sozusagen analog zu unseren groben[br]Unterteilungen hier, auf der linken Seite 0:37:37.750,0:37:50.849 der Folie. Aber was wäre dann die rechte[br]Seite? Vor einiger Zeit hat dieser Artikel 0:37:50.849,0:37:54.829 des Schweizer Tagesanzeiger die Runde[br]gemacht. Ich bin sicher viele von euch 0:37:54.829,0:38:00.520 kennen den, der ging ziemlich durchs Netz,[br]der wurde am Tag 13 mal als Lesebefehl 0:38:00.520,0:38:04.479 geschickt, und so weiter und so fort. Also[br]ich glaube, ich habe den bestimmt 50 mal 0:38:04.479,0:38:08.569 bekommen, weil ich mich halt auch mit dem[br]Maschinen-Learning auseinandersetze. 0:38:08.569,0:38:14.020 Und in dem Artikel steht im Grunde, das ne[br]Datenanalysefirma es geschafft habe, eine 0:38:14.020,0:38:18.700 extrem feine Unterteilung von Wählern[br]hinzukriegen. Das wäre, sozusagen, analog 0:38:18.700,0:38:23.160 zu unserer sehr mächtigen[br]Themenlandkarte. Und in dem Artikel steht 0:38:23.160,0:38:28.329 weiter, das hätte diese Firma sowohl für[br]die Präsidentschaftswahl, als auch für 0:38:28.329,0:38:33.430 das Brexit-Referendum gemacht. Und es[br]wurde dann behauptet, deswegen wäre Trump 0:38:33.430,0:38:38.530 gewählt worden und deswegen wäre der[br]Brexit durchgekommen. Das ist natürlich 0:38:38.530,0:38:43.300 spooky. Und das verkauft sich gut. Ja -[br]uijuijuijuijui - Die selbe Firma hinter 0:38:43.300,0:38:49.259 Trump und hinter dem Brexit, ja, da glüht[br]der Aluhut, wirklich. 0:38:49.259,0:38:54.309 Gelächter[br]Applaus 0:38:54.309,0:39:02.180 Und die sagen, ihre Unterteilung der[br]Wählerschaft sei so fein, das man jedem 0:39:02.180,0:39:07.299 Wähler seine genau passende Wahlwerbung[br]schicken könnte. Und sie sagen nicht nur 0:39:07.299,0:39:10.460 das, sie sagen sie können das sogar noch[br]genauer, sie können sogar den 0:39:10.460,0:39:14.640 Gesprächston treffen, so dass der Wähler[br]wahrscheinlich drauf hört. Generell 0:39:14.640,0:39:19.349 würde ich sagen, ne, tiefer hängen.[br]Es ist überhaupt nicht klar, was die 0:39:19.349,0:39:24.150 Firma den beiden Wahlkämpfen überhaupt[br]wirklich gebracht hat. Die Infos kommen im 0:39:24.150,0:39:28.450 wesentlich nämlich von der Firma selbst[br]und ich glaube, ehrlich gesagt ja, da hat 0:39:28.450,0:39:32.470 die Firma einen hervorragenden Vertriebler[br]geschickt und der hat dann wirklich der 0:39:32.470,0:39:37.529 Presse einen brillianten Vortrag gehalten[br]und die Presse hat's dann einfach gekauft. 0:39:37.529,0:39:42.190 So und die Kernaussage ist doch nur: Ihr[br]könnt jetzt Wahlwerbung bekommen, oder 0:39:42.190,0:39:46.339 Werbung im Allgemeinen, die extrem[br]genau auf euch zugeschnitten ist und euch 0:39:46.339,0:39:51.650 so effizienter zu Dingen verleitet. Mit[br]anderen Worten: Endlich kriegen nur noch 0:39:51.650,0:39:55.319 diejenigen Viagra-Spam, die das Produkt[br]auch wirklich benötigen. 0:39:55.319,0:39:56.979 Das ist ja zunächst mal nicht schlimm. 0:39:56.979,0:39:58.249 verhaltendes Gelächter 0:39:58.249,0:40:02.099 Ja, Aber kaufen und eben wählen, das[br]müssen die Leute schon noch selbst, es 0:40:02.099,0:40:05.329 ist nicht so das BigData die Leute[br]fernsteuert. Das müssen wir schon 0:40:05.329,0:40:10.279 festhalten, also man könnte sagen: Wer[br]vor so zielgerichteter Werbung Angst hat, 0:40:10.279,0:40:13.700 der sollte vielleicht die eigene[br]Urteilsfähigkeit hinterfragen. 0:40:13.700,0:40:19.430 Applaus 0:40:20.050,0:40:26.069 Ja. Ja. Bestimmt haben auch ein paar von[br]euch diesen Gedankengang gehabt und an der 0:40:26.069,0:40:30.830 Stelle hat ich keinen Applaus erwartet.[br]Sich selbst haben sie sich ein 0:40:30.830,0:40:34.470 bisschen bruhigt, mit diesem Gedankengang.[br]Das Problem ist nur, ich glaube, 0:40:34.470,0:40:39.259 die eigene Urteilsfähigkeit hinterfragen,[br]das macht kaum einer. In der Realität 0:40:39.259,0:40:43.059 wählen die Leute doch irgendwie[br]denjenigen, der ihnen am meisten, am 0:40:43.059,0:40:48.140 emotional passensten, kurz vor der Wahl[br]was zubrüllt. Ja. Und so laufen Wahlen. 0:40:48.140,0:40:52.380 Das ist ja auch politisch so gewollt, Wo[br]kämen wir auch hin, wenn Wahlen irgendwie 0:40:52.380,0:40:54.849 langfristigen Erfolg belohnen würden, ne. 0:40:54.849,0:40:55.930 verhaltendes Lachen 0:40:55.930,0:41:01.420 Und dieses emotionale Zurufen und das geht[br]mit so höchst personalisierter Werbung 0:41:01.420,0:41:07.999 urplötzlich, unglaublich effizient. Und[br]das bedeutet, ja, Data-Science-Techniken 0:41:07.999,0:41:12.650 können Wahlen beeinflussen. Ja vorhin[br]hatte ich die Voratsdatenspeicherung 0:41:12.650,0:41:17.869 angeprangert ja ich bin ja auf dem CCC,[br]also vermute ich, dass die Meisten von 0:41:17.869,0:41:21.670 von mit mir einer Meinung waren. Und damit[br]kommen wir genau zum Punkt; Wisst ihr, was 0:41:21.670,0:41:25.720 die Firma aus dem Artikel genommen hat, um[br]die Wähler so ultragenau zu vermessen? 0:41:25.720,0:41:29.569 Das waren überhaupt gar keinen[br]staatlichen Überwachungsdaten, das waren 0:41:29.569,0:41:35.329 Facebook-Likes. Also Daten, die die Leute[br]selbst über sich ins Netz gestellt 0:41:35.329,0:41:38.880 hatten, ne. Und es ist wichtig mit[br]staatlicher Überwachung kritisch zu sein. 0:41:38.880,0:41:42.819 Ja das dürfen wir und das müssen wir[br]auch, wenn wir kein Unrechtsstaat werden 0:41:42.819,0:41:47.289 wollen. Aber wenn wir dann gleichzeitig[br]völlig unkritisch sind mit uns selbst, 0:41:47.289,0:41:52.950 ja, und wirklich jeden Mist ins Facebook[br]oder ähnliche Plattformen pumpen, ja, 0:41:52.950,0:41:54.810 dann haben wir nichts gewonnen. 0:41:55.900,0:42:06.070 Applaus 0:42:06.070,0:42:11.359 Mein Vortrag neigt sich dem Ende zu. Es[br]kommen jetzt noch zwei Sachen: eine kleine 0:42:11.359,0:42:17.130 Überraschung und dann habe ich noch ne[br]Bitte an euch alle. Und zuerst gibt es die 0:42:17.130,0:42:22.950 Überraschung. Ja, habe ich vorhin gesagt,[br]ich hätte 100.000 Artikel von 0:42:22.950,0:42:27.890 Spiegel-Online geladen?[br]Ich meinte über 700.000 0:42:27.890,0:42:31.930 Applaus 0:42:31.930,0:42:36.530 Ne, ich lade jeden Artikel nicht nur[br]einmal runter, wenn er erscheint somdern 0:42:36.530,0:42:40.370 mehrfach in wachsenden Zeitabständen. [br]Und mit anderen Worten, wir können messen, 0:42:40.370,0:42:43.230 was in Artikeln geändert wurde. 0:42:43.230,0:42:49.660 Gelächter[br]Applaus 0:42:49.660,0:42:53.719 So und aus Zeitgründen, gibts damit keine[br]riesen Auswertung. Erstens aus 0:42:53.719,0:42:57.510 Zeitgründen hier im Vortrag aber auch[br]zweitens aus persönlichen Zeitgründen ne, 0:42:57.510,0:43:01.640 ich muss irgendwann auch nochmal arbeiten.[br]Aber wir haben ne kleine Demo. 0:43:01.640,0:43:06.819 Ich hab zum Beispiel mal geguckt, ob [br]Titel geändert werden, ne. 0:43:06.819,0:43:10.520 Und bei sowas findet man einfach lustige [br]Sachen. Es gibt nicht nur den Titel, 0:43:10.520,0:43:11.960 der hier offensichtlich ist. 0:43:11.960,0:43:16.300 Sondern es gibt auch zusätzlich den[br]Html-Titel, die Techniker unter euch 0:43:16.300,0:43:20.900 kennen den. Der wird oben im Browser[br]angezeigt und auch die Html-Titel erfasse 0:43:20.900,0:43:27.140 ich natürlich. So und am 21.Januar -[br]wobei der hier sichtbare Artikel ist am 0:43:27.140,0:43:32.349 20. Januar 2015 rausgekommen - und am[br]21.Januar und das war einen Tag nachdem 0:43:32.349,0:43:36.710 der Artikel erschienen war, wurde mir[br]angezeigt: Der Html-Titel hat sich 0:43:36.710,0:43:43.329 geändert aus "SAP wächst 2014 langsamer[br]als geplant." Ich hab mich dann gefragt: 0:43:43.329,0:43:48.049 He, warum wurde er denn geändert, ja also[br]wie war der vorher. Ganz einfach: Als der 0:43:48.049,0:43:54.410 Artikel rauskam, wuchs nähmlich nicht SAP[br]sondern der SAP-Chef 0:43:54.410,0:43:56.000 wuchs langsamer als geplant. 0:43:56.000,0:43:57.589 Gelächter 0:43:57.589,0:43:59.989 Sowas finde ich an sich ganz sympatisch, 0:43:59.989,0:44:02.229 Gelächter 0:44:02.229,0:44:05.579 denn es zeigt, das bei Spiegel Online noch[br]Menschen an den Texten sitzen und keine 0:44:05.579,0:44:10.940 Computer und im Moment heisst der Artikel[br]übrigens: SAP kann Wachstums- und 0:44:10.940,0:44:15.349 Gewinnziele nicht erfüllen. Also das hat[br]nochmal irgendwem nicht gefallen, ne. Und 0:44:15.349,0:44:19.369 irgendwann zwischendurch haben sie es[br]nochmal geändert. Also, jetzt wisst ihr 0:44:19.369,0:44:22.069 erst, wie mächtig der Datensatz[br]tatsächlich ist. Ich hab von jedem 0:44:22.069,0:44:26.060 Artikel diverse zeitlich versetzte[br]Versionen und das erlaubt natürlich viel, 0:44:26.060,0:44:29.640 viel krassere Auswertungen und damit fang[br]ich aber selbst erst an und deswegen ist 0:44:29.640,0:44:33.489 heute noch so wenig davon im Vortrag, aber[br]das war meine Überraschung und jetzt 0:44:33.489,0:44:39.029 kommt meine Bitte. Ihr habt jetzt alles[br]mögliche gesehen und wir haben Artikel 0:44:39.029,0:44:43.680 auf einfach und komplexe Weise unterteilt.[br]Wir haben gesehen, das verschiedene 0:44:43.680,0:44:47.319 Arten der Unterteilung und Darstellung[br]verschieden mächtig sind und wir haben 0:44:47.319,0:44:51.240 verschiedenste Features aus den Artikeln[br]gelesen: Rubrik, Zeiten, Kommentierbarkeit 0:44:51.240,0:44:56.900 Autor. Jede Menge weiterer Features sind[br]denkbar. Auch kompliziertere Features ja. 0:44:56.900,0:45:01.259 Man könnte zum Bsp für jeden Artikel die[br]darin enthaltenden Links raus ziehen und 0:45:01.259,0:45:05.130 dann gucken, ob bestimmte Autoren Kumpels[br]haben, auf die sie oft verlinken. 0:45:05.130,0:45:09.289 Der Fantasie sind wirklich keine Grenzen[br]gesetzt. Und zum Schluss haben wir sogar 0:45:09.289,0:45:14.710 gesehen, wir können für jeden Artikel[br]messen, was verändert wurde, ne. 0:45:14.710,0:45:19.559 Wir können z.B. gucken, wo die Leser am[br]meisten randalieren. Da guckt man, indem 0:45:19.559,0:45:23.059 man guckt, wo die Kommentarfunktionen erst[br]geöffnet und später dann geschlossen 0:45:23.059,0:45:28.729 sind. Also meine Bitte an euch, jeder der[br]hier zuguckt, schickt mir bitte einen Mail 0:45:28.729,0:45:34.749 mit seinem kreativsten Auswertungsideen[br]für den Datensatz. Und in dem 0:45:34.749,0:45:36.969 Zusammenhang hab ich noch ne Message, die[br]ihr euch auch mitnehmen könnt. Wenn ihr 0:45:36.969,0:45:40.609 was im Bereich der Data-Science macht,[br]Rohdaten sind geil. 0:45:40.609,0:45:53.650 Gelächer[br]Applaus 0:45:53.650,0:45:58.269 Behaltet immer alle Rohdaten, wenn ihr es[br]irgendwie vom Speicher bezahlen könnt. 0:45:58.269,0:46:02.209 Ne, dann könnt ihr nämlich im nachhinein[br]alles mögliche tun. Ich hab alle Rohdaten 0:46:02.209,0:46:05.410 komplett da. Das sind über 60 GB[br]pures HTML. 0:46:05.410,0:46:06.410 Gelächter 0:46:06.960,0:46:10.510 Und neue Features im nachhinein dazu[br]auswerten, ist deswegen überhaupt 0:46:10.510,0:46:14.420 kein Problem. Darum bitte, bitte, lasst[br]eurer Fantasie freien Lauf. Erfindet neue 0:46:14.420,0:46:18.280 Features, erfindet wonach die ausgewertet[br]werden sollen. Schickt mir einfach, was 0:46:18.280,0:46:21.620 ihr euch denkt, ja. Vieleicht ist nicht[br]alles, was ihr wollt möglich und 0:46:21.620,0:46:24.929 vielleicht schau ich auch nicht alles[br]sofort. Ich bin ja auch berufstätig und 0:46:24.929,0:46:28.840 zum Jahresanfang werde ich stramm[br]eingespannt sein Aber ich versuch was 0:46:28.840,0:46:33.719 möglich zu machen. Also einfach[br]einschicken. Seit kreativ. Und damit 0:46:33.719,0:46:37.680 bleibts mir nur noch, ein dickes[br]Dankeschömn zu sagen dafür das ihr diese 0:46:37.680,0:46:42.189 Stunde mit mir verbracht habt. [br]Hier sind noch die Links. Und bis dann. 0:46:42.189,0:47:02.160 Applaus[br] JubelApplaus 0:47:02.160,0:47:06.030 Herald: Ganz so schell wirst du[br]natürlich noch nicht entlassen, weil wir 0:47:06.030,0:47:11.200 haben noch unsere Fragerunde. Erstmal[br]herzlichen Dank, immer schön zu sehen, 0:47:11.200,0:47:14.849 wie die Mathematik doch spannend sein[br]kann, um eben solche Daten zu analysieren. 0:47:14.849,0:47:24.220 Und ja, wie immer, wenn ihr Fragen habt,[br]tretet vor zu den Mikrofonen. Und alle die 0:47:24.220,0:47:30.390 schnell, ich glaube nebenan startet der[br]Jahresrückblick mit Fefe oder 0:47:30.390,0:47:32.849 David Kreisel: Ne der Fefe sitzt da vorne[br]im Publikum. 0:47:32.849,0:47:40.539 Herald: Ach ja, der sitzt noch hier. So[br]schnell wird er dann drüben noch nicht 0:47:40.539,0:47:46.690 starten, vielleicht wollen die schon mal[br]einen Platz. Genau. .... Wo haben wir 0:47:46.690,0:47:49.309 Fragen, an Mikro 3, beginnen wir dort: 0:47:49.309,0:47:54.569 Mik 3: Hi, super Vortrag, fand ich echt[br]Klasse. Was mich mal interessieren würde: 0:47:54.569,0:47:58.499 Hast du mal geguckt, ob die Split testen[br]und die Artikel-Überschriften ändern 0:47:58.499,0:48:01.339 anhand von wieviel Leute drauf klicken[br]oder sowas? 0:48:01.339,0:48:05.279 David: Ja das würde man messen daran, [br]wie viele verschiedene Titel man so findet 0:48:05.279,0:48:08.680 und wenn diese Zahl der durchschnittlichen[br]Titel pro Artikel ansteigt, dann passiert 0:48:08.680,0:48:14.640 das und wenn ich das richtig interpretiere[br]dann testen sie das gerade. Also es ist 0:48:14.640,0:48:18.480 noch nicht übergreifend, es ist immer nur[br]so stossweise, vielleicht will mich auch 0:48:18.480,0:48:21.890 einer korrigieren von Spiegel Online, aber[br]so wie meine Daten aussehen, ja hab ich 0:48:21.890,0:48:26.999 getestet, sie versuchen es gerade. Also[br]was ist Splittesten? Vieleicht mal fürs 0:48:26.999,0:48:30.640 Publikum. Man veröffentlicht Artikel mit[br]verschiedenen Titeln und dann guckt man, 0:48:30.640,0:48:33.630 wo am meisten Leute klicken, bei welchem[br]Titel und der Titel darf dann weiter 0:48:33.630,0:48:38.559 leben. Ihr verändert also durch euren[br]Besuch direkt die Nachrichtenseite. 0:48:38.559,0:48:46.210 Mikro 1: Ja hi. Ich wollte fragen, ob du[br]auch Spiegel-plus Artikel, die es ja seit 0:48:46.210,0:48:50.329 Mitte diesen Jahres, glaube ich, gibt mit[br]einbezogen hast und wenn ja, hast du einen 0:48:50.329,0:48:51.329 plus Account? 0:48:51.329,0:48:52.329 David: Äh, ja. 0:48:52.329,0:48:53.890 leichtes Gelächter im Publikum 0:48:53.890,0:48:57.829 Ich habe die mit einbezogen, ähm, und[br]natürlich habe ich auch einen 0:48:57.829,0:49:00.220 plus-Account, der das vollautomatisch[br]entschlüsselt, 0:49:00.220,0:49:01.220 räusper 0:49:01.220,0:49:02.220 und dazu also 0:49:02.220,0:49:03.080 Gelächter 0:49:03.080,0:49:06.250 wenn einer Näheres - Ich hab mich da[br]wahnsinnig geärgert - kurz - als die 0:49:06.250,0:49:09.640 plus-Artikel rauskamen, weil ich die[br]nicht auf Anhieb de-krypten konnte. 0:49:09.640,0:49:12.319 Und dazu gibts jetzt bei mir einen [br]Blogartikel, seitdem, 0:49:12.319,0:49:15.140 wie man die de-kryptet. 0:49:15.140,0:49:19.070 Applaus 0:49:19.070,0:49:22.600 Ich muss übrigens mal was Positives[br]sagen, die Spiegel plus Artikel sind im 0:49:22.600,0:49:26.089 Median 1100 Worte lang, also man muss[br]schon sagen, 0:49:26.089,0:49:27.439 da kriegt ihr auch was fürs Geld. 0:49:27.439,0:49:29.599 leichtes Gelächterleichter Applaus 0:49:29.599,0:49:39.839 Mikro 7: Hast du im Rahmen deiner Analysen[br]auch auf die Inhalte geguckt, das du 0:49:39.839,0:49:46.339 vielleicht die Worthäufigkeit analysiert[br]hast und die Zuordnung zu Ressorts oder zu 0:49:46.339,0:49:51.339 Schlagworten anhand der Inhalte[br]abgeglichen hast, um vielleicht raus 0:49:51.339,0:49:54.680 zufinden, ob die Verschlagwortung[br]vollständig oder richtig ist. 0:49:54.680,0:49:58.582 David: Ne hab ich noch nicht gemacht. Man[br]kann ja die Schlagworte nehmen und da hab 0:49:58.582,0:50:01.609 ich es mir bequem gemacht oder man[br]versucht jetzt ne Analyse zu machen, was 0:50:01.609,0:50:04.579 die relevanten Worte im Artikel sind und[br]das hab ich noch nicht gemacht, Das wären 0:50:04.579,0:50:08.470 dann sozusagen die schöneren Schlagworte.[br]Aber ne, hab ich noch nicht gemacht. 0:50:08.470,0:50:12.219 Herald -Frage aus dem Internet: 0:50:12.219,0:50:16.420 Signal Angel: IRC möchte wissen, welche[br]Software du benutzt hast, um die Daten zu 0:50:16.420,0:50:19.519 sammeln. zu analysieren, zu visualisieren[br]und ob es 0:50:19.519,0:50:20.519 die Daten irgendwo gibt, außer bei dir. 0:50:20.519,0:50:24.360 David: OK. Nein gibts noch nicht, irgendwo[br]außer bei mir, weil ich mir auch gar 0:50:24.360,0:50:31.440 nicht sicher bin, ob ich die verteilen[br]darf. Ich benutze den Python Data Stack 0:50:31.440,0:50:34.599 und die Software zum runterladen hab ich[br]mir selbst geschrieben, die läuft auf 0:50:34.599,0:50:40.690 einem meiner Server und darüberhinaus[br]nutze ich Pandas für die Analyse, das ist 0:50:40.690,0:50:43.880 auf Python aufbauend und dann diese ganze[br]MaschinLearning Sachen da drüber 0:50:43.880,0:50:48.739 scikit-learn. Also den ganzen Py DataStack[br]googelt danach einfach, da findet ihr viel 0:50:48.739,0:50:51.589 und zum Visualisieren hab ich hier Tableau[br]genommen, das ist ne 0:50:51.589,0:50:56.930 Visualisierungssoftware. Die schon[br]voragregierte und vorerechnete Daten bis 0:50:56.930,0:51:00.339 zu ein paar GigaByte ganz gut verkraftet[br]und da kann man sehr schnell schöne 0:51:00.339,0:51:04.720 Visualisierungen draus ziehen und zum[br] 0:51:04.720,0:51:06.319 Visualisieren der Graphen hab ich Gephi[br]genommen. 0:51:06.319,0:51:12.529 Mikro 4: Hast du Daten Real-Time[br]analysiert oder 0:51:12.529,0:51:14.119 alles im nachhinein gemacht? 0:51:14.119,0:51:16.069 David: Ich versteh die Frage nicht. 0:51:16.069,0:51:19.630 Mirko: Ob du die Daten während du sie[br]gesammelt hast analysiert hast? 0:51:19.630,0:51:23.079 David: Ach so, ne. Das wird alles[br]rohdatenmäßig gesammelt, dann wird das 0:51:23.079,0:51:28.960 im weiteren Schritt erst mal, werden die[br]Rohfeatures rausge-parsed und das sind dann 0:51:28.960,0:51:31.680 so wenige, das sie in der Tat dann in[br]einen RAM passen und ich dann darauf 0:51:31.680,0:51:36.089 weitere High-Level Feature machen kann.[br]Das passiert so in 3 Layern. Also es ist 0:51:36.089,0:51:41.180 nicht direkt dabei aber während wir hier[br]gesprochen haben, ist schon wieder 10 mal 0:51:41.180,0:51:44.079 runter geladen worden. Insofern ist das[br]schon gleichzeitig zum Runterladen. 0:51:44.079,0:51:48.709 Das Runterladen geht weiter. 0:51:48.709,0:51:53.560 Mikro 3: Eine Idee für die Auswertung: Du[br]könntest mal gucken, ob bestimmte 0:51:53.560,0:51:57.309 Wortgruppen in älteren Artikeln nochmal[br]vorkamen, um zu sehen welche zusammen 0:51:57.309,0:51:58.309 kopiert wurden. 0:51:58.309,0:52:03.029 David: Du meinst, ja ja , so ne Auswertung[br]im Sinne von: In jedem Artikel kriegt ihr 0:52:03.029,0:52:07.460 durchschnittlich 73 Prozent neuen Content[br]quasi, ja? 0:52:07.460,0:52:08.950 Gelächter 0:52:08.950,0:52:10.020 Mikro: Ja 0:52:10.020,0:52:11.790 David: Guter Punkt 0:52:11.790,0:52:13.130 Applaus 0:52:13.130,0:52:15.229 David: Machen wir so. 0:52:17.039,0:52:22.530 Mikro: Hallo, ich wollte nur kurz einen[br]Denkanstoss geben, ich formuliere das mal 0:52:22.530,0:52:28.440 als Frage. Könnte es sein, das diese[br]Nichtkommentierbarkeit von Israel-Artikeln 0:52:28.440,0:52:32.430 auch einfach ein Ressourcen-Problem ist,[br]weil es da vielleicht mehr aus 0:52:32.430,0:52:36.140 juristischen Gründen zu zensieren gibt[br]für die Redaktion? 0:52:36.140,0:52:38.049 David: Das kann selbstverständlich sein.[br]Ja natürlich. 0:52:38.049,0:52:40.869 Mikro: Z.B. gibt es ja durchaus[br]Sigularitäten mit dem deutschen 0:52:40.869,0:52:42.999 Strafrecht, das man bestimmte Sachen [br]nicht sagen darf. 0:52:42.999,0:52:48.950 David: Ja. Also, hätte es nur Israel[br]erwischt, hätte ich das auch sofort auch 0:52:48.950,0:52:51.989 gedacht. Aber ja kann natürlich sein. [br]Das ist auch so ganz wichtig an so 0:52:51.989,0:52:54.759 Data-Science, ich hab das hier jetzt[br]teilweise bisschen ketzerisch vorgetragen 0:52:54.759,0:52:58.450 aber natürlich müsst ihr schon selbst[br]nochmal gucken, was ihr aus den Daten 0:52:58.450,0:53:02.309 folgert. Ja natürlich, das kann sein. Am[br]besten wissen das natürlich nur die 0:53:02.309,0:53:06.369 Spiegelleute. Aber Israel war ja nicht der[br]einzige Punkt der nichtkommentierbar war 0:53:06.369,0:53:13.479 und zur reinen Justiz gibt es keine[br]Singularität im deutschen Strafrecht. 0:53:13.479,0:53:18.219 Mikro 6: Hallo David, vielen Dank für den[br]Talk. Hast du überlegt die Software 0:53:18.219,0:53:22.159 irgendwie Open Source anzubieten , so[br]dass man sie z.B. für 0:53:22.159,0:53:25.219 andere Quellen anpassen kann. Tagesschau[br]etc. 0:53:25.219,0:53:29.680 David: Hab ich nicht überlegt. Aber[br]ehrlich gesagt, so aufwendig ist es auch 0:53:29.680,0:53:35.549 nicht. Ihr schreibt euch nen Script, was[br]euch alle paar Minuten mal losläuft und 0:53:35.549,0:53:41.009 die Artikel runter lädt und das[br]speicherst in einer Datenbank fertig. Also 0:53:41.009,0:53:44.849 das Open Source, ist das uninteressanteste[br]was es gibt. Ddas findet ihr in 1000 0:53:44.849,0:53:49.019 Varianten sauberer als ich das gemacht hab[br]nochmal, glaube ich. Aber ja, man könnte 0:53:49.019,0:53:52.220 mal eine Vergleichsauswertung mit anderen[br]Medien starten, ja. 0:53:52.220,0:53:57.789 Mikro 1: Wie hast du den Strain aus deiner[br]Karte entfernt, du hast da ne ganze Menge 0:53:57.789,0:54:00.229 Dimensionen auf zwei Dimensionen runter[br]gebrochen .. 0:54:00.229,0:54:02.199 David: Den was aus meiner Karte entfernt? 0:54:02.199,0:54:04.270 Mikro: Die Spannung, weil du hast ja sehr 0:54:04.270,0:54:06.680 viel Dimensionen auf zwei Dimensionen[br]reduziert ... 0:54:06.680,0:54:07.410 David: Ja, 0:54:07.410,0:54:09.279 Mikro: .. und wie hast du sichergestellt,[br]das jetzt nicht Inseln bei einander sind, 0:54:09.279,0:54:12.320 die gar nicht zusammen gehören oder[br]manche anderen nicht beieinander sind, 0:54:12.320,0:54:14.920 die aufgrund von Inseln, die dazwischen [br]liegen nicht nah genug zueinander kamen. 0:54:14.920,0:54:18.299 David: In der Theorie kann man das nie[br]ausschliessen, aber in dem Graoh steckt 0:54:18.299,0:54:22.060 sehr viel Verfahren drin. Also ich hab[br]zunächst mal zugesehen, das ich 0:54:22.060,0:54:25.190 überhaupt nur die wichtigen Kanten pro[br]Knoten behalte, sonst hat man wirklich 0:54:25.190,0:54:29.609 viel zu viele Kanten und dann gibts da[br]professionelle Graph-Layouting-Verfahren 0:54:29.609,0:54:33.829 für, also Gephi bietet was, das heißt[br]VsAtlas 2 und das war das, was ihr in den 0:54:33.829,0:54:37.839 hübschen Video gesehen habt, damit geht[br]das sehr gut, Also du must das natürlich 0:54:37.839,0:54:42.579 ein bisschen Schmakes da rein investieren,[br]wie du die Kanten vorher ausfilters und 0:54:42.579,0:54:46.660 dann, dann bist du immer noch nicht sicher[br]in der Theorie, aber dann siehst ja, ob 0:54:46.660,0:54:49.509 das Bild gut wird oder nicht. 0:54:49.509,0:54:55.060 Mikro 2: Du meintest, du warst im Oktober[br]beim Spiegel, wie war den deren Reaktion 0:54:55.060,0:54:57.440 zu deinen Analysen? 0:54:57.440,0:55:01.359 David: Positiv, also, ob das jetzt nur[br]daran lag, dass die sowieso nichts dagegen 0:55:01.359,0:55:03.849 tun können, weiss ich nicht, [br]aber ehrlich gesagt, 0:55:03.849,0:55:04.859 Gelächter 0:55:04.859,0:55:08.180 hab ich das als sehr positiv und[br]interessiert wargenommen und auch ich hab 0:55:08.180,0:55:12.619 was gelernt und das war eigentlich einen[br]ziemlich cooler Termin, also sportlicher 0:55:12.619,0:55:16.599 als die Kollegen bei Xerox sag ich mal. 0:55:16.599,0:55:23.240 großes GelächterApplaus 0:55:23.240,0:55:33.579 Mikro: Ist vielleicht ne Suggestivfrage,[br]vielleicht auch in Richtung, wie man 0:55:33.579,0:55:42.510 weiterforschen könnte. Das Verfahren, das[br]du benutzt hast, um die thematische Nähe 0:55:42.510,0:55:46.589 verschiedener Tags zueinander zu[br]bestimmen, wäre es mathematisch 0:55:46.589,0:55:48.819 ACHTUNG: Mathematiker-Kauderwelsh .. 0:55:48.819,0:55:52.230 nicht korrekter, wenn du eine singuläre [br]Zerlegung der Adjazentmatrix 0:55:52.230,0:55:55.329 dieser Schlagworte baust,[br]ähnlich wie Google Page Rank 0:55:55.329,0:55:56.390 das gemacht hat. 0:55:56.390,0:56:01.719 David: Ja. Aber dann kann man nicht so[br]einen schönen Graphen draus basteln und 0:56:01.719,0:56:05.959 es kommt wahrscheinlich was ähnliches[br]raus, sein wir ehrlich. Ich sehe ja die 0:56:05.959,0:56:08.989 Werte der Kanten und wahrscheinlich ist es[br]am Ende das Selbe. 0:56:08.989,0:56:15.540 Mikro: Ja wenn du genug Dimensionen[br]benutzt ist es äquivalent. 0:56:18.790,0:56:22.329 David: Ja.[br]Alles ist still, Mensch. 0:56:22.329,0:56:26.249 Mikro 3: Nochmal kurz zu den Landkarten,[br]das sind irgendwelche 0:56:26.249,0:56:28.180 MonteCarlo Methoden diese Springs ... 0:56:28.180,0:56:29.339 David: Ja 0:56:29.339,0:56:33.859 Mikro: ... im Endeffekt positionieren, wie[br]stabil sind die? 0:56:33.859,0:56:37.509 David: Ich denke, ich hab mich da in die[br]Theorie nicht eingearbeitet weiter, es 0:56:37.509,0:56:40.650 würde mich wundern, wenn du da ne[br]Stabilität drüber nachweisen könntest. 0:56:40.650,0:56:45.160 "Fest steht, sie sind etabliert für[br]große Graphen." weil da ist sowieso nix 0:56:45.160,0:56:50.050 mehr zu planarisieren in der Größe und[br]dann sieht man halt zu zu iterieren bis es 0:56:50.050,0:56:53.859 stimmt und wenn es schlecht aussieht, dann[br]drückt man nochmal auf den Startknopf. 0:56:53.859,0:56:57.449 Also so ist wirklich die Praxis. 0:56:57.989,0:57:02.519 Mikro: Hallo. Hast du mal Markov auf deine[br]Daten geworfen, 0:57:02.519,0:57:05.349 um Spiegelartikel zu generieren. 0:57:05.349,0:57:06.659 GelächterApplaus 0:57:06.659,0:57:09.159 David: Nein! Könntest du mir bitte damit[br]eine Email schicken? 0:57:09.159,0:57:11.949 Gekiecher und Gelächter im Saal[br]Mikro: Sehr gerne. 0:57:11.949,0:57:14.500 David: Oh wir haben Spaß, ich seh das[br]schon .. 0:57:14.500,0:57:16.799 GelächterApplaus 0:57:16.799,0:57:25.439 D: Da machen wir aber nicht nur die [br]Artikel Generierung sondern dann wird 0:57:25.439,0:57:29.190 bitte auch direkt dazu generiert, zu [br]welchem Thema kommentiert werden darf 0:57:29.190,0:57:30.580 und zu welchen nicht, ne ... 0:57:30.580,0:57:32.070 vereinzeltes Gelächter[br]Ruf aus dem Publikum: Autoren generieren 0:57:32.070,0:57:35.380 David: Autoren generieren, das ist auch[br]schön, ja. 0:57:35.380,0:57:37.249 Gelächter 0:57:37.249,0:57:45.150 Herald: So wir sind auch am Ende unserer[br]Zeit. Wer noch Fragen hat, du bist sicher 0:57:45.150,0:57:46.150 gleich noch ... 0:57:46.150,0:57:49.709 David: Ich geh hier jetzt da raus, zur[br]nächsten Bierbar, die da ist, falls die 0:57:49.709,0:57:57.219 nicht vor Saal 2 ist, ist die vor Saal 1[br]dann bin ich da. 0:57:57.219,0:57:58.780 Wir machen jetzt DDos auf[br]die Bierbar. Ja. 0:57:58.780,0:57:59.810 Applaus 0:57:59.810,0:58:02.609 Herald: Ja ist ja auch Zeit. 0:58:02.609,0:58:12.260 Applaus 0:58:12.260,0:58:18.869 Herald : Auch von mir auch nochmal ein [br]Herzlichen Dank .... 0:58:19.628,0:58:26.211 33c3 - Abspann-Musik 0:58:26.211,0:58:46.000 Untertitel erstellt von c3subtitles.de[br]im Jahr 2017. Mach mit und hilf uns!