WEBVTT 00:00:00.000 --> 00:00:13.230 33C3 Vorspannmusik 00:00:13.230 --> 00:00:18.370 Herald Carina Haupt: David Kriesel ist Data Scientist. Und der eine oder andere 00:00:18.370 --> 00:00:24.919 kennt ihn vielleicht noch vom 31C3, wo er den relativ bekannt gewordenen berühmten 00:00:24.919 --> 00:00:27.039 Xerox Scanning Bug Vortrag gehalten hat. 00:00:27.039 --> 00:00:34.950 Applaus 00:00:34.950 --> 00:00:41.460 Dieser hat ihn offensichtlich nicht nur hier bekannt gemacht. Sondern auch zu 00:00:41.460 --> 00:00:45.840 internationaler Bekanntheit verholfen. Und damit begrüsse ich ihn und freue mich auf 00:00:45.840 --> 00:00:51.380 einen spannenden Talk und bitte Euch nochmal um einen ganz ganz herzlichen 00:00:51.380 --> 00:00:54.100 Applaus für David. 00:00:54.100 --> 00:00:57.040 Applaus 00:00:57.040 --> 00:00:59.320 David: Dankeschön 00:00:59.320 --> 00:01:01.060 Applaus 00:01:01.060 --> 00:01:06.720 Ja, dankeschön. Herzlich willkommen. Auch nochmal von mir. Auch an die Leute im 00:01:06.720 --> 00:01:11.580 Internet. Und auch an die Leute vom Spiegel. Von denen ich weiss, dass sie 00:01:11.580 --> 00:01:18.390 anwesend sind. Es ist schön wieder hier zu sein. Mein Name ist David Kriesel. Ich 00:01:18.390 --> 00:01:22.570 bin Informatiker aus Bonn. Und ich mache beruflich, es wurde schon gesagt Data 00:01:22.570 --> 00:01:26.620 Science und Machine Learning. Und salopp gesagt, versuche ich für meine 00:01:26.620 --> 00:01:33.540 Arbeitgeber aus grossen Datenmengen Wissen zu ziehen. Und seit 2014 habe ich knapp 00:01:33.540 --> 00:01:38.750 100 000 Artikel von Spiegel Online ge-vorratsdaten-speichert. 00:01:38.750 --> 00:01:45.550 GelächterApplaus 00:01:45.550 --> 00:01:49.590 Und das habe ich einfach niemanden erzählt. 00:01:49.590 --> 00:01:51.320 Gelächter 00:01:51.320 --> 00:01:55.420 Und während ich da so zweieinhalb Jahre sitze und das niemanden erzähle, ist die 00:01:55.420 --> 00:01:59.470 Stimmung medial irgendwie umgeschlagen. Vor zweieinhalb Jahren war die Welt noch 00:01:59.470 --> 00:02:04.600 in Ordnung und heute ist die Rede von Lügenpresse und Fake News und genau aus 00:02:04.600 --> 00:02:09.669 dieser Zeit des Stimmungsumbruchs haben wir jetzt einen riesigen Datensatz über 00:02:09.669 --> 00:02:15.290 den vielleicht grössten Meinungsmacher unserer Nation. Und mit diesem Datensatz 00:02:15.290 --> 00:02:18.950 werden wir heute zwei Sachen machen: Erstens, wir werden den Datensatz 00:02:18.950 --> 00:02:23.720 durchleuchten und was über Spiegel Online lernen. Und zwar so, dass ihr das auch mit 00:02:23.720 --> 00:02:29.629 nach Hause nehmen und beim Lesen dann anwenden könnt. Und zweitens, wir werden 00:02:29.629 --> 00:02:34.129 Einblick erhalten wie die Datensammelwut von heute funktioniert und wie mächtig 00:02:34.129 --> 00:02:38.029 oder vielleicht auch nicht mächtig die ist. Und das machen wir so, dass es für 00:02:38.029 --> 00:02:42.750 jeden verstehbar ist, nicht nur für Informatiker. Und zusätzlich werde ich, 00:02:42.750 --> 00:02:46.359 wie in meinem letzten Vortrag vor zwei Jahren ein bisschen auf das 00:02:46.359 --> 00:02:50.069 Gesellschaftliche eingehen. Und wir werden an ein paar passenden Beispielen 00:02:50.069 --> 00:02:53.429 beleuchten, wie die moderne Datenverarbeitung unsere Gesellschaft 00:02:53.429 --> 00:02:57.210 beeinflussen kann. Und ob wir die Welt, mit dieser allumfassenden Datensammelwut 00:02:57.210 --> 00:03:01.119 besser machen oder schlechter machen, dass kann dann ja später jeder von euch für 00:03:01.119 --> 00:03:06.510 sich selbst entscheiden. Am besten fangen wir an, in dem ich kurz beschreibe wie 00:03:06.510 --> 00:03:12.010 genau Spiegelmining funktioniert. Rund um die Uhr, alle paar Minuten schaut einer 00:03:12.010 --> 00:03:16.599 meiner Server vollautomatisch auf Spiegel Online nach ob dort neue Artikel stehen 00:03:16.599 --> 00:03:20.340 und werden neue Artikel gefunden, dann werden die heruntergalden und 00:03:20.340 --> 00:03:25.141 abgespeichert. Und auf diese Weise hat der Datensatz einen coolen Vorteil der ja 00:03:25.141 --> 00:03:29.519 jetzt vielleicht nicht sofort ersichtlich ist: ich erhalte neue Artikel binnen 00:03:29.519 --> 00:03:33.960 Minuten, nachdem sie veröffentlicht wurden. Das heisst, ich kriege die im 00:03:33.960 --> 00:03:35.650 Originalzustand, also vor allen 00:03:35.650 --> 00:03:37.470 Verbesserungen und Änderungen, 00:03:37.470 --> 00:03:38.920 die im Nachhinein vorgenommen 00:03:38.920 --> 00:03:41.519 werden und das ist natürlich viel aussagekräftiger. 00:03:41.519 --> 00:03:45.589 Man erhält ein unverfälschten Eindruck und es ist nicht so wie wenn man einen Artikel 00:03:45.589 --> 00:03:50.129 runterlädt, die vieleicht schon Jahre alt und tausend mal editiert sind. Aus den 00:03:50.129 --> 00:03:54.059 heruntergeladenen Artikeln lese ich dann sogenannte Features. Feature ist einfach 00:03:54.059 --> 00:03:57.919 das Fachwort für ein Artikelmerkmal. Ganz einfache Features eines Artikels können 00:03:57.919 --> 00:04:00.420 zum Beispiel der Veröffentlichungszeitpunkt oder die 00:04:00.420 --> 00:04:04.260 Rubrik sein, in der der Artikel steckt. Und die Features nehme ich dann und mache 00:04:04.260 --> 00:04:08.739 damit Auswertungen, von den sehen wir heute noch ein paar. Und die interessanten 00:04:08.739 --> 00:04:12.979 unter den Auswertungen nutze ich dann, um auf meiner Seite eine Blogartikelserie zu 00:04:12.979 --> 00:04:16.959 schreiben, um meinen Lesern einen Einblick in Spiegel Online und die Data Science 00:04:16.959 --> 00:04:21.060 gleichermassen zu geben und das war es. Spiegelmining in wenigen Minuten. Und am 00:04:21.060 --> 00:04:24.750 Anfang machen wir jetzt ein paar sehr einfache Auswertungen, so sehen wir wie 00:04:24.750 --> 00:04:28.110 das funktioniert und verschaffen uns gleichzeitig einen Überblick über 00:04:28.110 --> 00:04:32.060 Spiegel Online und als erstes zählen wir mal wie häufig die einzelnen Rubriken so 00:04:32.060 --> 00:04:37.400 vorkommen. Das ist die Ansicht. Die Größe der Kreise gibt die Artikelanzahl 00:04:37.400 --> 00:04:42.340 pro Rubrik wieder und wie wir sehen, wird Spiegel Online dominiert von Politik, das 00:04:42.340 --> 00:04:47.740 ist der große rote Kreis rechts oben, von Panorama, das ist der grüne Kreis in der 00:04:47.740 --> 00:04:51.930 Mitte und vom Sport, das ist der fliederfarbene Kreis ganz unten. Ich 00:04:51.930 --> 00:04:54.740 weiss, was fliederfarben ist. Ich höre schon Leute lachen. 00:04:54.740 --> 00:04:57.490 Applaus 00:04:57.490 --> 00:05:04.270 Also die drei Rubriken, die machen zusammen die Hälfte der Artikel aus. Und 00:05:04.270 --> 00:05:08.169 das nächste supereinfache Feature ist der Veröffentlichungszeitpunkt von jedem 00:05:08.169 --> 00:05:11.910 Artikel. Damit messen wir jetzt einfach mal, wieviele Artikel Spiegel Online am 00:05:11.910 --> 00:05:16.120 Tag so schreibt. Der Plot sieht jetzt richtig richtig krass unordentlich aus, 00:05:16.120 --> 00:05:19.730 dass man da fast keine Werte erkennen kann. Das liegt an den Wochenenden. 00:05:19.730 --> 00:05:23.020 Da wird um die Hälfte weniger veröffentlicht als normal. Und deswegen 00:05:23.020 --> 00:05:27.019 schwankt das so krass. Und hier gibt es dann auch gleich den ersten Bericht aus 00:05:27.019 --> 00:05:32.240 der Praxis: wie man deutlich sieht, habe ich Anfang März 2015 ein paar Tage Loch 00:05:32.240 --> 00:05:36.770 in den Daten. Und der Grund ist, dass der März ein Monat mit "ae" ist. 00:05:36.770 --> 00:05:40.180 GelächterApplaus 00:05:45.950 --> 00:05:52.639 Also, mir ist das nach kurzer Zeit zum Glück aufgefallen. Also wenn Ihr Daten 00:05:52.639 --> 00:05:56.940 aufnehmt, dann programmiert Euch bitte mal irgendeine Form von Warnsystem, das 00:05:56.940 --> 00:06:00.710 anschlägt, wenn länger keine Daten mehr eintrudeln. Ich hatte das zum Glück und 00:06:00.710 --> 00:06:04.380 das hat mir hier sehr geholfen. Jetzt schlägt es in ein paar Minuten an und da 00:06:04.380 --> 00:06:08.009 hatte ich so irgendwie ein paar Tage keine Ahnung. Zurück zum Plot: Wegen der 00:06:08.009 --> 00:06:10.969 Unordnung mit den Wochenenden ändern wir jetzt unseren Plot und berechnen statt den 00:06:10.969 --> 00:06:14.821 Artikeln pro Tag jetzt die Artikel pro Woche. Und man sieht jetzt auch was und da 00:06:14.821 --> 00:06:19.340 sehen wir, dass Spiegel Online im Schnitt so 700 Artikel die Woche veröffentlicht, 00:06:19.340 --> 00:06:23.979 also so 100 am Tag. Und das ist schon ziemlich viel Output. Übrigens die beiden 00:06:23.979 --> 00:06:28.830 krassen Einbrüche, die Ihr hier seht, das sind die Weihnachtswochen, da wird weniger 00:06:28.830 --> 00:06:32.430 veröffentlicht und der Datensatz für diesen Vortrag ist vom 4. Dezember, 00:06:32.430 --> 00:06:36.490 deswegen ist dieser Weihnachts-Low dieses Mal einfach noch nicht drin. Und wenn man 00:06:36.490 --> 00:06:41.090 jetzt Features einzeln betrachtet, aber richtig interessant wird es, wenn wir 00:06:41.090 --> 00:06:43.979 Features zusammen betrachten. Wir verwursten jetzt also mal 00:06:43.979 --> 00:06:48.440 Veröffentlichungszeitpunkt und Rubrik zusammen. Und dann können wir sehen, das 00:06:48.440 --> 00:06:54.740 beispielsweise der Output in den Rubriken Panorama und Politik stabil ist. Während 00:06:54.740 --> 00:06:58.840 Wissenschaft und Uni-Spiegel ganz schön zusammengestrichen wurden. Das gilt 00:06:58.840 --> 00:07:02.759 übrigens in abgeschwächter Form auch für andere Ressorts. Solche Infos, welche 00:07:02.759 --> 00:07:06.990 Ressorts gerade gerupft werden, sind zum Beispiel relativ interessant, wenn man 00:07:06.990 --> 00:07:10.840 Konkurrent von Spiegel Online ist. Das kann man ohne weiteres auslesen. Und wir 00:07:10.840 --> 00:07:15.470 sehen, geschickt Features ausdenken und zusammenstöpseln, ist die halbe Welt. 00:07:15.470 --> 00:07:20.160 Jetzt nehmen wir mal die Textlänge der Artikel dazu. Hier sind die typischen 00:07:20.160 --> 00:07:25.050 Artikellängen im Spiegel angegeben und zwar pro Rubrik. Und man sieht, dass der 00:07:25.050 --> 00:07:30.160 typische Kulturartikel fast dreimal so lang ist, wie der typische Panorama- oder 00:07:30.160 --> 00:07:35.569 Sportartikel und immerhin noch doppelt so lang wie der typische Politikartikel. Und 00:07:35.569 --> 00:07:40.110 jetzt hatten wir schon gesehen, das Panorama, Sport und Politik trotz ihrer 00:07:40.110 --> 00:07:43.680 kurzen Artikellängen genau die drei dominierenden Ressorts sind. Und daraus 00:07:43.680 --> 00:07:48.509 können wir folgern, das Spiegel Online es eher auf Reichweite anlegt und auf 00:07:48.509 --> 00:07:54.600 Abdeckungsbreite als auf Tiefe. Die Strategie Reichweite um jeden Preis 00:07:54.600 --> 00:07:58.179 scheint Spiegel Online auch noch so zu verstärken. Die zusammengestrichenen 00:07:58.179 --> 00:08:01.760 Rubriken waren alles welche mit eher langen Texten. Und bevor das hier jetzt 00:08:01.760 --> 00:08:05.660 falsch ankommt, ich sage das ohne jede Wertung im Sinne von gut oder schlecht das 00:08:05.660 --> 00:08:09.140 ist ja eine valide Strategie für ein Medium und ich beschreibe einfach nur 00:08:09.140 --> 00:08:12.789 gemessene Daten. Und es ist keineswegs der Zweck der Veranstaltung irgendwie 00:08:12.789 --> 00:08:16.609 substanzlos in Richtung von Spiegel Online zu haten. Wer hatet wird nicht ernst 00:08:16.609 --> 00:08:19.869 genommen. Das habe ich ja in meinem letzten Vortrag schon ausführlich 00:08:19.869 --> 00:08:23.900 beschrieben. Und die meisten Sachen, die hier im Vortrag noch kommen, denkt daran, 00:08:23.900 --> 00:08:29.169 die sind bei den anderen wahrscheinlich ähnlich. Wichtig ist auch dass man mit 00:08:29.169 --> 00:08:33.740 den Features experimentiert. Hier ist zum Beispiel ein Diagramm, das zeigt, dass 00:08:33.740 --> 00:08:38.260 Veröffentlichungsvolumen pro Wochentag und Stunde. Die Zeilen sind die Wochentage 00:08:38.260 --> 00:08:42.559 und die Spalten sind die Stunden eines Tages. Pro Wochentag und Stunde sehen wir 00:08:42.559 --> 00:08:46.450 einen Block. Und in den grossen Blöcken sind viele Artikel erschienen und in den 00:08:46.450 --> 00:08:51.970 kleinen wenige. Und jetzt lernen wir daran mal, wie es in der Data Science zugeht: 00:08:51.970 --> 00:08:56.300 Erstens: In der Data Science findet man immer wieder Botschaften bestätigt, die 00:08:56.300 --> 00:09:01.720 man vorher schon erahnt hat. Das ist der langweilige Teil der Data Science. Aber 00:09:01.720 --> 00:09:05.531 das ist gut, um die eigenen Messverfahren zu überprüfen. Wir sehen hier, zu den 00:09:05.531 --> 00:09:10.400 unchristlichen Zeiten wird viel weniger veröffentlicht. Bahnbrechende Erkenntnis: 00:09:10.400 --> 00:09:12.970 Auch der Spiegel-Online-Redakteur möchte mal schlafen. 00:09:12.970 --> 00:09:14.200 Gelächter 00:09:14.200 --> 00:09:20.580 Zweitens: In der Data Science findet man aber auch immer Systematiken da, wo man 00:09:20.580 --> 00:09:25.690 keine erwartet hat. Und das passiert oft dann, wenn man Features verbindet. Wir 00:09:25.690 --> 00:09:29.840 färben jetzt mal jeden dieser Blöcke ein, nach der typischen Textlänge. Rote 00:09:29.840 --> 00:09:35.120 Blöcke enthalten typischerweise lange Texte und blaue Blöcke eher kurze. Und 00:09:35.120 --> 00:09:40.120 zack Es gibt einen klaren Zusammenhang zwischen Tageszeit und Länge der Artikel. 00:09:40.120 --> 00:09:43.921 Für mich als Nicht-Journalist war das damals überraschend. Die typische Länge 00:09:43.921 --> 00:09:47.950 der veröffentlichten Artikel die ist von Montag bis Freitag zwischen 5 bis 6 Uhr 00:09:47.950 --> 00:09:53.930 früh am grössten. Das gleiche am Wochenende. Hier gibt es zum Tagesstart 00:09:53.930 --> 00:09:58.580 auch nur längere Artikel, ein bisschen später natürlich. Und das Rätsels 00:09:58.580 --> 00:10:02.550 Lösung zu diesem Phänomen kommt später noch. Und als Drittes, ist die Data 00:10:02.550 --> 00:10:08.660 Science natürlich auch dazu da fieseste Vorurteile zu schüren. Ich führe Euch 00:10:08.660 --> 00:10:13.010 das mal vor. Jetzt gebt mir bitte mal ein Handzeichen, wer von Euch denkt, dass die 00:10:13.010 --> 00:10:17.620 Leutchen aus dem Kulturressort morgens bitte, gerne ein bisschen länger pennen 00:10:17.620 --> 00:10:18.620 als die anderen. 00:10:18.620 --> 00:10:20.220 Gelächter 00:10:20.220 --> 00:10:25.100 Also, vielleicht für das Internet: Wir haben einen Raum von 1600 Leuten, der ist 00:10:25.100 --> 00:10:32.200 proppenvoll und fast alle haben die Hand gehoben. Und die Lösung ist: stimmt! 00:10:32.200 --> 00:10:33.850 Gelächter 00:10:33.850 --> 00:10:37.150 Die Kulturwissenschaftler 00:10:37.150 --> 00:10:38.800 Applaus 00:10:38.800 --> 00:10:43.870 Die Kulturwissenschaftler veröffentlichen typischerweise später. In der oberen 00:10:43.870 --> 00:10:47.280 Verteilung sind alle Artikel ausser Kultur. Da ist ab 5 Uhr morgens 00:10:47.280 --> 00:10:51.530 Aktivität. Und in der unteren Verteilung sind die Kulturartikel, da geht es 00:10:51.530 --> 00:10:58.180 mindestens 2 Stunden später los. Aber zum Ausgleich gehen die auch früher nach Hause. 00:10:58.180 --> 00:11:00.510 Gelächter 00:11:00.510 --> 00:11:02.830 Applaus 00:11:02.830 --> 00:11:08.100 Aber, damit wir hier nicht wirklich Vorurteile schüren, ich war bei Spiegel 00:11:08.100 --> 00:11:13.080 Online eingeladen im Oktober und da habe ich das auch so gesagt. Und dann haben sie 00:11:13.080 --> 00:11:17.090 gesagt: 'David, nein, nein!' Manche Artikel werden natürlich auch vorab 00:11:17.090 --> 00:11:21.490 gescheduled, das will ich hier fairerweise dazusagen. 00:11:21.490 --> 00:11:23.650 Und ich mache das auch als Ermahnung, dass 00:11:23.650 --> 00:11:27.250 ihr, wenn Ihr damit arbeitet, immer nochmal selbst nachdenken müsst. was Ihr 00:11:27.250 --> 00:11:31.060 auch solchen Auswertungen wirklich folgern könnt. Besonders dann, wenn Ihr schon mit 00:11:31.060 --> 00:11:34.970 einem Vorurteil da rein gegangen seid, so wie wir jetzt. Wir haben gerade gesehen, 00:11:34.970 --> 00:11:38.580 wie solche Auswertungen grundsätzlich funktionieren, also können wir jetzt 00:11:38.580 --> 00:11:42.670 einen Schritt weitergehen. Und im Internet wird es ja genau immer dann besonders 00:11:42.670 --> 00:11:46.880 knusprig, wenn personenbezogene Daten ins Spiel kommen. 00:11:50.020 --> 00:11:52.560 Also, habe ich mir gedacht, 00:11:52.560 --> 00:11:56.630 es wäre doch mal ein nettes Feature, wenn wir mal die Autoren aus den Spiegel 00:11:56.630 --> 00:12:00.750 Artikeln rauslesen. Und das machen wir jetzt. Und die werten wir gleich auf zwei 00:12:00.750 --> 00:12:04.620 Arten aus: Die erste Auswertung wird eine ganz neue Auswertung in diesem Vortrag, 00:12:04.620 --> 00:12:08.500 also eine ganz neue Art. Und die zweite Auswertung wird ein bisschen politisch 00:12:08.500 --> 00:12:13.750 inkorrekt. In unserer ersten Auswertung werden wir versuchen Spiegel Online 00:12:13.750 --> 00:12:18.310 interne Personalstrukturen einfach von aussen zu lesen. Wenn man zu jedem Artikel 00:12:18.310 --> 00:12:21.850 eine Liste an Autoren hat, dann weiss man ja nicht nur, wer jeden Artikel 00:12:21.850 --> 00:12:25.940 geschrieben hat, sondern man weiss auch, wer mit wem schreibt. Und bei Autoren, die 00:12:25.940 --> 00:12:29.510 oft zusammen Artikel schreiben, dürfen wir davon ausgehen, dass die intensiv 00:12:29.510 --> 00:12:32.740 zusammenarbeiten. Wir wissen also sozusagen, welche Autoren wichtig 00:12:32.740 --> 00:12:37.320 füreinander sind, was die Artikel angeht. Wer wenig oder gar nicht zusammenschreibt, 00:12:37.320 --> 00:12:40.950 der ist in dieser Ansicht nicht wichtig füreinander. Aus diesen Wichtigkeiten 00:12:40.950 --> 00:12:45.820 können wir dann eine Autorenlandkarte bauen. Und hier ist sie. Das ist ein Teil 00:12:45.820 --> 00:12:49.790 des sozialen Netzwerkes der Spiegel Online Autoren generiert über die letzten 00:12:49.790 --> 00:12:54.140 2 Jahre. Und jeder Autor ist so ein Bubble Und Autoren, die nur ganz selten 00:12:54.140 --> 00:12:59.190 vorkommen, die habe ich hier gefiltert. Und man sieht genau, dass es da Grüppchen 00:12:59.190 --> 00:13:03.180 von Autoren gibt, die sich dichter zusammentun. Und das sieht aus, als wären 00:13:03.180 --> 00:13:06.800 es die Teams. Und jetzt müssen wir natürlich kontrollieren, ob unser 00:13:06.800 --> 00:13:10.470 Durchleuchten von aussen, auch wirklich funktioniert. Und um das zu machen, 00:13:10.470 --> 00:13:14.450 färben wir die Autoren mal nach Ihren Ressorts ein. Die Ressorts, die kriegt man 00:13:14.450 --> 00:13:19.301 aus dem Spiegel Online Impressum. Siehe da, in vielen Fällen haben sich 00:13:19.301 --> 00:13:23.440 tatsächlich die Ressorts vollautomatisch in der Landkarte zusammengetan. Hier in 00:13:23.440 --> 00:13:28.800 pink ist Sport. Wissenschaft und Gesundheit. Netzwelt. Politik. Ein 00:13:28.800 --> 00:13:32.620 bisschen verteilter, da habe ich jetzt nicht alle eingekreist. Panorama. Reise. 00:13:32.620 --> 00:13:36.510 Ich nenne jetzt nicht alle Teams, aber Ihr seht das Prinzip. Die hellblauen 00:13:36.510 --> 00:13:40.510 verteilten Punkte sind übrigens das Team von bento, die arbeiten ein bisschen 00:13:40.510 --> 00:13:43.960 übergreifender. Das ist die Kinderausgabe vom Spiegel. 00:13:43.960 --> 00:13:44.960 Gelächter 00:13:44.960 --> 00:13:48.350 Applaus 00:13:48.510 --> 00:13:54.690 Und der Punkt ist, wir haben jetzt relativ genau von aussen durchleuchten können, 00:13:54.690 --> 00:13:59.010 wer mit wem intern in einem Team steckt. Und der Witz ist, schaut die ganzen grauen 00:13:59.010 --> 00:14:03.350 Bubble an. Die sind grau, weil sie nicht mehr über das Spiegel Impressum 00:14:03.350 --> 00:14:07.000 zugeordnet werden konnten. Das sind zum Beispiel ausgeschiedene Kollegen. Der 00:14:07.000 --> 00:14:13.300 Spiegel Chefredakteur ist kürzlich auch grau geworden. Aber durch ihre Nähe zu 00:14:13.300 --> 00:14:17.451 den gefärbten Gruppen, können wir die trotzdem grob einem Team zuordnen. Wir 00:14:17.451 --> 00:14:20.980 können also etwas über die sagen, obwohl wir eigentlich gar nichts über die 00:14:20.980 --> 00:14:24.150 wissen. Und sowas ist dann interessant. Wir können also einfach live von aussen 00:14:24.150 --> 00:14:27.940 über die Personalstrukturen Buch führen. Aber jetzt... Ihr wartet bestimmt schon 00:14:27.940 --> 00:14:32.490 alle zum politisch inkorrekten Teil. Ich möchte Euch nämlich für etwas 00:14:32.490 --> 00:14:37.430 sensibilisieren. In diesem Plot ist jede Zeile ein Autor. Und von links nach rechts 00:14:37.430 --> 00:14:42.790 vergeht die Zeit. Und jeder farbige Strich ist ein vom jeweiligen Autor 00:14:42.790 --> 00:14:46.430 veröffentlichter Artikel. Und wenn wir die Autoren kennen und das tun wir ja 00:14:46.430 --> 00:14:50.100 jetzt, dann wissen wir natürlich auch sehr genau, wer wann veröffentlicht. Wir 00:14:50.100 --> 00:14:53.370 sehen zum Beispiel diese Zeile mit regelmässigen Muster, das ist ein 00:14:53.370 --> 00:14:57.030 Kolumnist, der veröffentlicht genau im Wochentakt, bis auf ein paar Ausnahmen. 00:14:57.030 --> 00:15:00.540 Bei den Leuten, die Tagesgeschehen veröffentlichen, ist die Dichte höher. 00:15:00.540 --> 00:15:04.640 Und das heisst, wir wissen bei denen umgekehrt auch relativ gut, wann die 00:15:04.640 --> 00:15:10.320 Urlaub machen. So, weil das sind nämlich die Lücken in den dichtgefüllten Zeilen. 00:15:10.320 --> 00:15:14.010 Und, wenn aber wir die Urlaube ungefähr kennen, dann wissen wir auch ungefähr, 00:15:14.010 --> 00:15:17.290 wessen Urlaube sich überproportional überschneiden. 00:15:17.290 --> 00:15:19.540 Gelächter 00:15:19.540 --> 00:15:23.203 Sachen wie Weihnachten, die fast alle Urlaub machen, die kann man ja einfach 00:15:23.203 --> 00:15:28.350 rausrechnen. Und ich appelliere jetzt an Eure Berufserfahrung und mutmasse mal ganz 00:15:28.350 --> 00:15:32.340 wild, dass Ihr auch schon mal Kollegen hattet, die irgendwie immer gleichzeitig 00:15:32.340 --> 00:15:38.540 im Urlaub waren. Also, Spass beiseite. Aus solchen Daten kann man ohne weiteres 00:15:38.540 --> 00:15:44.040 lesen, wer mit was hat. Jetzt wisst Ihr auch, warum ich die Autoren hier 00:15:44.040 --> 00:15:49.190 anonymisiert habe. Es ist übrigens total klar, dass das, was wir hier finden, nicht 00:15:49.190 --> 00:15:53.340 alles Pärchen sein müssen. Das sind die Pärchenkandidaten. Aber, wenn man an der 00:15:53.340 --> 00:15:59.050 Praxis und sowas interessiert ist, dann ist man ja damit schon mal auf 99% des 00:15:59.050 --> 00:16:03.620 Weges zum Ziel. Es gibt Firmen, die werten sowas aus, so illegal das auch ist. Jetzt 00:16:03.620 --> 00:16:07.880 habt Ihr alle gerade gelacht, Kann ich mal um Handzeichen bitten, wer von Euch heute 00:16:07.880 --> 00:16:15.390 bei seiner Firma Urlaub genommen hat. Über jeden gibt es solche Daten. Glaubt 00:16:15.390 --> 00:16:19.850 mir. Und wir halten jetzt mal inne, und dann machen wir uns nochmal klar, was wir 00:16:19.850 --> 00:16:23.460 gerade gesehen haben und was die gesellschaftlichen Implikationen sind. Was 00:16:23.460 --> 00:16:26.390 wir gerade gesehen haben, ist Wissensgewinnung über interne 00:16:26.390 --> 00:16:29.590 Firmeninformationen und über höchstpersönliche Lebensbereiche. Und 00:16:29.590 --> 00:16:33.420 aus Daten, die erstmal gar nicht danach aussehen. Wir hatten ja eigentlich einen 00:16:33.420 --> 00:16:36.430 Satz Spiegelartikel. Und plötzlich, überraschend, haben wir gute 00:16:36.430 --> 00:16:40.140 Anhaltspunkte, wer mit wem was hat, und wir können Teamstrukturen erahnen. Und 00:16:40.140 --> 00:16:44.230 damit komme ich zu wichtigsten Message des Vortrags: Wenn Ihr Daten veröffentlicht, 00:16:44.230 --> 00:16:47.850 dann entscheidet nicht Ihr, was Ihr da veröffentlicht, das entscheidet der 00:16:47.850 --> 00:16:52.740 Gegner. Wir haben noch nicht einmal die Daten selbst betrachtet. Wir haben die 00:16:52.740 --> 00:16:56.830 Artikel selbst ja gar nicht angefasst. Was wir angefasst haben, waren nur Metadaten. 00:16:56.830 --> 00:17:00.590 Zeiten und Autoren, genau wie bei der Vorratsdatenspeicherung. Das sind ja auch 00:17:00.590 --> 00:17:06.900 nur Metadaten. Gebt mal ein paar Monate eurer Metadaten, einfach nur, wem Ihr wann 00:17:06.900 --> 00:17:10.879 Mails und Whatsapp geschickt habt und wann Ihr auf welchen Webseiten wart. Keine 00:17:10.879 --> 00:17:14.559 Inhalte. Danach kann ich Euch sagen, wer Eure besten Freunde sind, ob Ihr eine 00:17:14.559 --> 00:17:19.180 Affäre habt, wie Ihr sexuell orientiert seid, ob Ihr schwanger seid, ob Ihr eine 00:17:19.180 --> 00:17:22.400 Krankheit habt, was Eure politische Einstellung ist, wie euer Glaube 00:17:22.400 --> 00:17:26.320 ausgerichtet ist, und ob Ihr finanzielle Probleme habt und alles, was ich gerade 00:17:26.320 --> 00:17:30.930 vergessen habe. Das Missbrauchsprofil für einen solchen Datensatz, wie den der 00:17:30.930 --> 00:17:34.890 Vorratsdatenspeicherung, das kann man gar nicht in Worte fassen. Und ich will da 00:17:34.890 --> 00:17:37.580 überhaupt nicht mit Verschwörungstheorien anfangen, wir 00:17:37.580 --> 00:17:40.920 können ja mal alle glauben, dass die Vorratsdatenspeicherung für die 00:17:40.920 --> 00:17:44.790 Aufklärung von Verbrechen nützlich sein kann, das ist ja auch total plausibel. Und 00:17:44.790 --> 00:17:48.770 wir können ja auch mal glauben, dass die Person, die die Vorratsdatenspeicherung 00:17:48.770 --> 00:17:52.355 jetzt etablieren guten Willens sind. Lasst uns das einfach mal annehmen. Das heisst 00:17:52.355 --> 00:17:55.200 aber nicht, dass morgen keiner an die Macht kommt, der das vielleicht ganz 00:17:55.200 --> 00:18:01.660 anders macht. Was wir hier gerade erhalten, ist die Infrastruktur, für eine 00:18:01.660 --> 00:18:06.240 Generalüberwachung, die selbst George Orwell's Big Brother die Schamesröte ins 00:18:06.240 --> 00:18:10.400 Gesicht treiben würde. 00:18:10.400 --> 00:18:15.990 Applaus 00:18:15.990 --> 00:18:21.200 Und diese Überwachungsinfrastruktur, die stellen wir jetzt extra schon mal bereit 00:18:21.200 --> 00:18:25.400 für den Fall, dass eine zukünftige Regierung böswillig ist und sie nutzen 00:18:25.400 --> 00:18:31.220 will. Das ist, was gerade passiert. Jetzt haben wir einen kurzen Exkurs über 00:18:31.220 --> 00:18:34.410 Metadaten gemacht, und wir gehen jetzt zurück zu Spiegel Online, damit sich Eure 00:18:34.410 --> 00:18:38.170 Laune wieder hebt. Und deswegen kommt jetzt ein kleiner Einschub, den könnt Ihr 00:18:38.170 --> 00:18:41.520 dann direkt anwenden, wenn Ihr das nächste Mal Spiegel Online lest. Und 00:18:41.520 --> 00:18:45.210 danach machen wir mal ein bisschen was Grösseres. Als ich die Autoren aus den 00:18:45.210 --> 00:18:53.310 Artikeln rauslesen wollte, da war ich irgendwann ziemlich genervt. Also manchmal 00:18:53.310 --> 00:18:57.410 stehen die oben unter dem Titel, wie hier links im Bild. Oder die stehen unten, wie 00:18:57.410 --> 00:19:01.560 rechts im Bild. Und wenn die Autoren oben stehen, sind sie ausgeschrieben. Und wenn 00:19:01.560 --> 00:19:06.550 sie unten stehen, sind es Kürzel. Oben stehen sie im wirklichen Satz, hier zum 00:19:06.550 --> 00:19:11.870 Beispiel von Marcel Rosenbach. Und unten die Kürzel sind ohne Satz drumrum. Manche 00:19:11.870 --> 00:19:15.490 Autoren haben nur Vor- und Nachname. Manche Namen haben aber auch vier oder 00:19:15.490 --> 00:19:20.920 fünf Worte. Wie zum Beispiel der freundliche Herr Philip Alvares De Souza 00:19:20.920 --> 00:19:24.600 Suarez. Das habe ich mir extra hier aufgeschrieben, fünf Worte. Das ist ein 00:19:24.600 --> 00:19:29.230 Name. Also Data Science kann technisch nervig sein. Sagt nicht, ich hätte Euch 00:19:29.230 --> 00:19:35.700 nicht gewarnt. Und jedenfalls habe ich mir gedacht, wtf, warum stehen da Autoren in 00:19:35.700 --> 00:19:39.770 verschiedenen Formen und vor allem an verschiedenen Orten? Also habe ich mir mal 00:19:39.770 --> 00:19:45.500 das als Feature reingenommen, ob die Autoren oben oder unten stehen. Und dann 00:19:45.500 --> 00:19:49.570 habe ich Messwerte zwischen den beiden Artikelgruppen verglichen, Autoren 00:19:49.570 --> 00:19:55.520 oben und Autoren unten. Und es stellt sich raus, wenn die Autoren unten stehen, also 00:19:55.520 --> 00:19:59.500 nicht namentlich ausgeschrieben sind, ist ein typischer Artikel knapp 300 Worte 00:19:59.500 --> 00:20:02.920 lang. Wir sehen hier die Verteilung der Artikellängen von Artikeln ohne 00:20:02.920 --> 00:20:06.661 ausgeschriebenen Namen. Und nach rechts werden die Artikel länger, da wird es 00:20:06.661 --> 00:20:11.780 immer weniger. Und stehen die Autoren aber oben, sind also ausgeschrieben, ist ein 00:20:11.780 --> 00:20:16.660 Artikel typischerweise mehr als zweieinhalb mal so lang. Knapp 750 Worte. 00:20:16.660 --> 00:20:20.920 Man weiss schon, womit man gegoogelt werden will als Redakteur. 00:20:20.920 --> 00:20:21.920 Gelächter 00:20:21.920 --> 00:20:27.440 Und nochwas: bei den langen Artikeln ist auch nur bei ca. 2% eine 00:20:27.440 --> 00:20:31.160 Nachrichtenagentur mit dabei. Bei den kurzen ist bei knapp 80% eine 00:20:31.160 --> 00:20:35.170 Nachrichtenagentur mit dabei. Also Fazit für Euch zum mI t nach Hause nehmen: Wenn 00:20:35.170 --> 00:20:39.000 Ihr längere Artikel wollt, die Spiegel Online selbst verfasst hat, dann achtet 00:20:39.000 --> 00:20:42.880 drauf, dass die Autoren drangeschrieben sind. Wenn Ihr kurze Agenturmeldungen 00:20:42.880 --> 00:20:45.370 wollt, sind die Kürzel gut. 00:20:45.370 --> 00:20:49.740 Applaus 00:20:49.740 --> 00:20:54.620 Und wir hatten ja schon gesehen, dass am Tagesanfang primär längere Artikel 00:20:54.620 --> 00:20:58.230 erscheinen und das waren eben in Wirklichkeit die selbst geschriebenen. 00:20:58.230 --> 00:21:02.540 Morgens ist der Prozentsatz von denen vergleichsweise hoch. Und jetzt könen wir 00:21:02.540 --> 00:21:05.250 die Gelegenheit nutzen und einen Schritt zurücktreten und gucken, was wir bis 00:21:05.250 --> 00:21:10.520 jetzt gemacht haben. Und wir haben unsere Riesenmenge Artikel, immer auf äusserst 00:21:10.520 --> 00:21:14.240 einfache Art und Weise auseinander geschnitten und ausgewertet. Wir haben die 00:21:14.240 --> 00:21:18.030 in Wochentage oder Uhrzeiten auseinandergeschnitten. Oder in Rubriken. 00:21:18.030 --> 00:21:21.550 Und dafür, wie einfach diese Ideen sind, haben wir eigentlich ein paar ganz gute 00:21:21.550 --> 00:21:25.350 Ergebnisse bekommen. Aber, was wir noch gar nicht gemacht haben, ist uns dem 00:21:25.350 --> 00:21:29.480 Datensatz mal inhaltlich zu nähern. Und es wäre doch total cool, wenn wir die 00:21:29.480 --> 00:21:33.460 Artikelmenge mal nach den wirklichen Themen über die berichtet wird, 00:21:33.460 --> 00:21:41.780 auseinanderschneiden und auswerten können. Spiegel Online liefert uns 00:21:41.780 --> 00:21:46.120 hierbei auch eine gute Hilfe: Artikel werden dort verschlagwortet. Jeder Artikel 00:21:46.120 --> 00:21:51.160 bekommt von seinem Autor so um die 10 Keywords zugewiesen. Der Artikel links im 00:21:51.160 --> 00:21:55.510 Bild hat zum Beispiel die Keywords Politik, Ausland, Saudi Arabien und König 00:21:55.510 --> 00:22:00.300 Salman von Saudi Arabien. Also habe ich die Keywords mal ausgelesen. Ueber alle 00:22:00.300 --> 00:22:05.000 Artikel hinweg habe ich um die 65000 verschiedene Keywords gefunden. Und jetzt 00:22:05.000 --> 00:22:09.090 gucken wir, wie oft, welche Keywords zusammen in den selben Artikeln kommen. 00:22:09.090 --> 00:22:12.820 Und Keywords, die fast ausschliesslich zusammen vorkommen, die sind sozusagen 00:22:12.820 --> 00:22:16.730 verheiratet, die sieht man einfach als eins in der Auswertung. Und umgekehrt gibt 00:22:16.730 --> 00:22:21.130 es natürlich Keywords, die beide für sich genommen existieren, aber nie oder 00:22:21.130 --> 00:22:25.110 fast nie zusammen, die sind dann unverwandt. Und dann gibt es noch einen 00:22:25.110 --> 00:22:32.430 interessanten Mittelweg: Hier ist ein Beispiel. 00:22:32.430 --> 00:22:35.110 GelächterApplaus 00:22:35.110 --> 00:22:39.330 Artikel mit dem Keyword "Angela Merkel", die haben meist auch das Keyword Politik. 00:22:39.330 --> 00:22:43.650 Und umgekehrt ist das aber nicht so. Das Keyword Politik ist viel grösser. Und es 00:22:43.650 --> 00:22:48.430 gibt extrem viele Politikartikel ohne Angela Merkel. Und diese Keywords sind 00:22:48.430 --> 00:22:52.360 nicht die selben, aber es ist klar, die haben eine Verbindung. Und wir messen also 00:22:52.360 --> 00:22:57.710 für alle 65000 Keywords, paarweise, wie verwandt die so sind. Und dann verbinden 00:22:57.710 --> 00:23:02.411 wir Keywords, die stark verwandt sind mit so ganz strammen, dicken Federn. Ich meine 00:23:02.411 --> 00:23:05.860 jetzt wirklich Federn im physikalischen Sinne, die die Keywords zueinander 00:23:05.860 --> 00:23:10.420 hinziehen. Zwischen schwächer verwandten Keywords kommen schwächere Federn, die 00:23:10.420 --> 00:23:14.350 werden dann länger. Und jetzt machen wir eine Physiksimulation. und schauen zu, wie 00:23:14.350 --> 00:23:20.630 sich diese abertausenden Federn zurechtzurren. Verwandte Keywords werden 00:23:20.630 --> 00:23:25.340 jetzt tendenziell nahe beeinander layoutet und weniger verwandte nicht so nah. Was 00:23:25.340 --> 00:23:28.820 hier ensteht ist eine thematische Landkarte, von allen Sachen über die 00:23:28.820 --> 00:23:32.611 Spiegel Online in den letzten 2 Jahren berichtet hat. Und jetzt gerade sieht es 00:23:32.611 --> 00:23:36.600 so aus, als passiert da fast nichts mehr, aber gerade passiert die Detailarbeit. Das 00:23:36.600 --> 00:23:40.530 sieht man nur von soweit oben nicht. Und deswegen zoomen wir jetzt mal ganz weit 00:23:40.530 --> 00:23:44.620 rein, damit wir lernen, was wir da erschaffen haben. Hier ist die Volkswagen 00:23:44.620 --> 00:23:49.060 Abgasaffäre. Wie Ihr seht haben die Keywords unterschiedliche Grössen. Die 00:23:49.060 --> 00:23:52.740 Grösse der einzelnen Keywords spiegelt die Anzahl der Artikel wieder, die das 00:23:52.740 --> 00:23:56.220 Keyword innehaben. Und das sind sozusagen die Artikel, die in dem Keyword 00:23:56.220 --> 00:24:01.360 drinstecken. Und die Farbe zeigt an, was die vorherrschende Rubrik ist über alle 00:24:01.360 --> 00:24:04.830 Artikel, die in einem Keyword drin stecken. Dieses Okergelb heisst 00:24:04.830 --> 00:24:09.870 Wirtschaft. Passt! Der Witz ist, diese Darstellungsweise ist extrem mächtig und 00:24:09.870 --> 00:24:13.580 vielseitig. Über die Farbe der Keywords da können mit dieser Darstellungsweise 00:24:13.580 --> 00:24:18.820 noch viel mehr Infos rüberbringen, als nur, welche Themen verwandt sind. Und mit 00:24:18.820 --> 00:24:24.170 der Farbe können wir beliebige Messwerte anzeigen. Und wenn ich danach so farbige 00:24:24.170 --> 00:24:28.070 Keywordlandschaften habe, dann können wir sehen, ob es zwischen Thema und Messwert 00:24:28.070 --> 00:24:32.161 einen Zusammenhang gibt und das machen wir heute auch noch. Aber erstmal gucken wir 00:24:32.161 --> 00:24:36.980 ein bisschen weiter rum, hier sind verschiedene Flugzeugunglücke. Der 00:24:36.980 --> 00:24:48.900 Themenkomplex befindet sich zwischen Panorama - Grün und Politik - Rot. Wobei 00:24:48.900 --> 00:24:51.980 die politischen Anteile von dem Flugzeug kommen, das über der 00:24:51.980 --> 00:24:59.780 Ukrainisch-Russischen Grenze abgeschossen wurde. Jetzt versagt meine Singstimme. 00:24:59.780 --> 00:25:06.559 So besser. So hier ist Griechenland-Krise. Das ist offensichtloch ein Thema zwischen 00:25:06.559 --> 00:25:11.220 Politik und Wirtschaft rot und wieder oker und Wolfgang Schäuble ist da direkt mal 00:25:11.220 --> 00:25:15.770 als Aufpasser dazu-layoutet worden. Interessanterweise hat der keine Farbe, 00:25:15.770 --> 00:25:19.140 der ist grau und das ist nicht altersbedingt sondern das liegt daran, 00:25:19.140 --> 00:25:23.270 das es im Keyword Wolfgang Schäuble kein dominierendes Ressort gab und 00:25:23.270 --> 00:25:25.360 jetzt machen wir mal was Topaktuelles. 00:25:25.360 --> 00:25:28.360 Das ist die US-Wahl dieses Jahr. Wir sehen Hillary Clinton 00:25:28.360 --> 00:25:32.170 und Donald Trump und alles was da so drum rum wimmelt und das ist offensichtlich 00:25:32.170 --> 00:25:37.059 ein politisches Thema, es ist rot und man beachte, wie hier das Keyword Emails 00:25:37.059 --> 00:25:41.610 dazu-layoutet wurde. Und von hier aus machen wir uns jetzt mal 00:25:41.610 --> 00:25:43.720 die Größe der gesamten Landschaft klar. 00:25:43.720 --> 00:25:47.390 Ich weiss nicht, wer heute Morgen von euch in dem Vortrag über 00:25:47.390 --> 00:25:51.370 Mikroskope war, da hat der Vortragende immer und immer mehr reingezoomt, um klar 00:25:51.370 --> 00:25:55.370 zu machen wie klein die Sachen sind und wir machen das jetzt umgekehrt, wir wollen 00:25:55.370 --> 00:25:59.200 darstellen wie riesig die Landkarte ist und wir zoomen immer und immer mehr raus. 00:25:59.200 --> 00:26:03.200 Wir haben raus-gezoomt. Der alte Bildauschnit ist dick eingerahmt, damit 00:26:03.200 --> 00:26:07.020 ihr seht wo der ist. Und wir sehen, dass der US-Wahlkampf eingebettet ist 00:26:07.020 --> 00:26:09.440 in größeren Landstrich der Auslandspolitik. 00:26:09.440 --> 00:26:12.130 Links sehen wir den Bürgerkrieg in Syrien 00:26:12.130 --> 00:26:15.910 darüber der Islamische Staat und von da geht es über den Islamistischen Terror 00:26:15.910 --> 00:26:18.440 weiter nach Frankreich. 00:26:18.440 --> 00:26:25.360 GelächterApplaus 00:26:25.360 --> 00:26:31.640 Jaa, die Mathematik ist gnadenlos, ne. Oben sind die aktuellen Türkei-Thematiken, 00:26:31.640 --> 00:26:34.270 also das ist deren Putschversuch und deren Demokratur 00:26:34.270 --> 00:26:37.540 und rechts von der Mitte ist Russland und der Ukraine Konflikt und 00:26:37.540 --> 00:26:41.320 links unten ist Israel und der Nahost 00:26:41.320 --> 00:26:46.509 Konflikt und wir zoomen nch weiter raus. Hier ist nun die gesamte politische 00:26:46.509 --> 00:26:50.591 Landschaft, diesmal haben wir mit zwei Rechtecken markiert, wo wir herkommen wir 00:26:50.591 --> 00:26:54.560 kommen, ursprünglich von der US-Wahl und dann von der Auslandspolitik. Also die 00:26:54.560 --> 00:26:58.930 Auslandspolitik ist oben rechts und unten rechts ist der Inlandsteil und seit Neuem 00:26:58.930 --> 00:27:02.780 gibt es nen riesigen Knubbel, der in der Mitte, das ist die Flüchtlingsthematik, 00:27:02.780 --> 00:27:06.640 die ist mittlerweile so groß, wie eine eigene Unterrubrik und die ist als dritte 00:27:06.640 --> 00:27:10.440 Kraft genau zwischen Ausland und Inland etabliert, ja. Was ja auch genau passt. 00:27:10.440 --> 00:27:15.679 Wir zoomen nochmal weiter raus. Ja, jetzt kann man gar nichts mehr erkennne, außer 00:27:15.679 --> 00:27:19.700 verschieden farbigen Landschaften. Ich sag also mal, für eine grobe Orientierung, 00:27:19.700 --> 00:27:23.460 hier kommen wir her, das rote ist der Politikteil. Rechts darüber in 00:27:23.460 --> 00:27:28.481 giftgrün das Panorama. Das wird durchteilt von der Wirtschaft, die Kette 00:27:28.481 --> 00:27:32.340 von türkisen Clustern entlang der Unterseite des Hauptkontinentes ist die 00:27:32.340 --> 00:27:37.160 Netzwelt. Blau im Osten ist der Kulturteil und so weiter und so fort. Wir können 00:27:37.160 --> 00:27:41.120 jetzt nicht alle durchgehen, ihr seht, die Gebiete gehen noch ineinander über und 00:27:41.120 --> 00:27:45.080 wir wissen jetzt fast, wie riesig diese Landkarte ist, einmal rauszoomen haben wir 00:27:45.080 --> 00:27:49.390 nämlich noch. Hier ist die große weite Welt, ja den unteren Teil haben wir schon 00:27:49.390 --> 00:27:54.299 grob kennengelernt, und hier sind wir eigentlich her gekommen, und auf dem Rest 00:27:54.299 --> 00:27:57.450 der Welt, etwas entrückt ist die Wissenschaft, das ... 00:27:57.450 --> 00:28:02.970 Gelächter im Saal Applaus 00:28:06.160 --> 00:28:09.830 Ich sehe, ihr könnt das nachvollziehen und habt da auch mal gearbeitet. 00:28:09.830 --> 00:28:10.820 Gelächter 00:28:10.820 --> 00:28:13.590 Und ganz weit weg vom Hauptkontinent ist der Sport. 00:28:13.590 --> 00:28:14.420 Gelächter 00:28:14.420 --> 00:28:18.570 So, und jetzt sehen wir erstmal, wie gross das ist und wie breit der Spiegel angelegt 00:28:18.570 --> 00:28:22.120 ist und diese riesige Landkarte gibts übrigens bei mir auf der Website, da 00:28:22.120 --> 00:28:24.860 könnt ihr auch selbst drin rumforschen, wie in GoogleMaps, so drin rum scrollen, 00:28:24.860 --> 00:28:29.070 das macht auch mehr Spaß als wenn ich das hier nur vorkaue und darum gehts jetzt 00:28:29.070 --> 00:28:32.910 auch weiter. Wir wenden die jetzt an. Ja, Spiegel Online bietet unter sehr vielen 00:28:32.910 --> 00:28:36.410 Artikeln an, ja, ähmm, .. 00:28:36.410 --> 00:28:38.350 Publikum GemurmelGelächter 00:28:38.350 --> 00:28:42.220 Ich, das Gelächter geht los, bevor ich etwas gesagt habe. Ihr wisst doch gar 00:28:42.220 --> 00:28:46.460 nicht, was ich sagen will, ne? Das man seine eigene Meinung dazu äußern darf. 00:28:46.460 --> 00:28:48.490 Publikum und David Gelächter 00:28:48.490 --> 00:28:51.750 Und unter manchen Artikeln sperren sie diese Funktion aber, ne, 00:28:51.750 --> 00:28:52.520 einzelnes Gelächter 00:28:52.520 --> 00:28:54.340 und das untersuchen wir jetzt mal, 00:28:54.340 --> 00:28:58.250 Und ich hatte euch am Anfang des Vortrages gesagt, das Artikel direkt nach nen paar 00:28:58.250 --> 00:29:01.970 Minuten nach ihrem erscheinen von mir abgerufen werden, also wenn ich sag, das 00:29:01.970 --> 00:29:05.870 was nicht kommentiert werden darf, dann war das sehr wahrscheinlich, direkt vom 00:29:05.870 --> 00:29:08.250 Start weg so. So schnell randaliert kein Mensch. 00:29:08.250 --> 00:29:10.410 leichtes Gelächter im Publikum 00:29:10.410 --> 00:29:14.340 Also, bevor wir jetzt ne Themenlandkarte damit malen, schauen wir mal ganz kurz auf 00:29:14.340 --> 00:29:17.820 die zeitliche Entwicklung, der Kommentierbarkeit, und zwar einfach, damit 00:29:17.820 --> 00:29:21.450 wir ne Orientierung haben. In dem Plot sehen wir pro Kalenderwoche wieviel 00:29:21.450 --> 00:29:25.570 Prozent der erschienen Artikel kommentiert werden durften, und wieviele nicht. 00:29:25.570 --> 00:29:30.340 In Rot sind die Nichtkomentierbaren und Blau die Kommentierbaren und als ich 2014 00:29:30.340 --> 00:29:34.090 angefangen habe runterzuladen, waren erstmal ne ganze Zeit so 80 Prozent der 00:29:34.090 --> 00:29:37.740 Artikel kommentierbar. Und genau seit dem Zeitpunkt der großen 00:29:37.740 --> 00:29:42.650 Flüchtlingsberichterstattung im Sommer 2015, ja, sinkt der (Graph) der Artikel 00:29:42.650 --> 00:29:47.090 der kommentierbaren Nachrichten kontinuierlich ab, und jetzt seit kurzem 00:29:47.090 --> 00:29:51.400 ist wirklich die Mehrzahl der Artikel ohne Kommentarfunktion, ne, dir rote Linie 00:29:51.400 --> 00:29:54.960 überholt die Blaue, und die Kommentierbarkeit wird übrigens nicht nur 00:29:54.960 --> 00:29:59.599 im Politikressort weniger, das passiert übergreifend in fast allen Ressorts und 00:29:59.599 --> 00:30:03.220 ob seit dem der Hass im Netz irgendwie themenübergreifend soviel schlimmer 00:30:03.220 --> 00:30:07.140 geworden ist oder Spiegel-Online jetzt einfach soviel Angst vor fiesen 00:30:07.140 --> 00:30:10.940 Kommentaren hat, das kann ich aus denn Zahlen nicht ablesen, das müsst ihr dann 00:30:10.940 --> 00:30:15.500 für euch selbst entscheiden. Interessant ist aber noch der kleine, grüne Plot im 00:30:15.500 --> 00:30:20.090 Bild, ne , das sind auch nicht kommentierbare Artikel. Aber bei denen 00:30:20.090 --> 00:30:23.910 steht so ein kleiner Entschuldigungstext dran, ja. Das hier die Kommentarfunktion 00:30:23.910 --> 00:30:27.970 wegen der Netikette und so weiter gesperrt ist. Ihr braucht das hier jetzt nicht 00:30:27.970 --> 00:30:31.929 lesen, ich bring das nur zur Ansicht, und diesen Entschuldigungstext haben sie zu 00:30:31.929 --> 00:30:36.890 Anfang der Flüchtlingsberichterstattung eingeführt und es scheint so, als war 00:30:36.890 --> 00:30:40.340 Spiegel-Online da selbst ein bisschen unwohl mit dem krassen Anstieg der 00:30:40.340 --> 00:30:44.240 Kommentarsperrungen. Aber wie man am Plot sieht, haben sie den Hinweis ganz flott 00:30:44.240 --> 00:30:47.710 wieder aufgegeben, obwohl die Kommentiermöglichkeiten immer und immer 00:30:47.710 --> 00:30:52.799 mehr gesperrt werden. So und jetzt gehts zur Landkarte. Wir färben ein Keyword 00:30:52.799 --> 00:30:57.920 röter, wenn unterdurchschnittlich viele Artikel darin kommentierbar sind und wir 00:30:57.920 --> 00:31:01.270 färben ein Keyword eher blau, wenn das Keyword überdurchschnittlich 00:31:01.270 --> 00:31:04.770 kommentierbar ist. Graue Keywords repräsentieren so den Durchschnitt, da 00:31:04.770 --> 00:31:07.560 dann so 70 Prozent kommentierbar und das gibt 00:31:07.560 --> 00:31:11.001 natürlich auch alle Farben dazwischen. Also wenn so'n Keyword wirklich 00:31:11.001 --> 00:31:14.630 aufleuchtet, dann ist das irgendwo am Ende der Skala oder am Anfang. Und die 00:31:14.630 --> 00:31:18.551 Landkarte stell ich auch bald auf meine Website, die jetzt kommt, da könnt ihr da 00:31:18.551 --> 00:31:22.410 auch selbst drin rumklicken. So, und wir fangen mal mit ein paar einfachen Sachen 00:31:22.410 --> 00:31:26.900 an. Ja ihr ahnt es, Sport darf man quasi komplett kommentieren, ja, knallblau. Und 00:31:26.900 --> 00:31:30.540 falls ihr euch fragt, was der knallrote Punkt da ist, das ist ein bestimmtes 00:31:30.540 --> 00:31:34.679 Artikelformat, das ist technisch ohne Kommentarfunktion. Sowas kommt schon mal 00:31:34.679 --> 00:31:39.080 vor, ich sag nur, weil ich gleich sonst 13 mal die Frage kriege. Und wo man in der 00:31:39.080 --> 00:31:43.219 Regel auch gut kommentieren darf, das sind Wissenschaftsthemen und Wirtschaftsthemen 00:31:43.219 --> 00:31:45.320 Hier sind die Bahnstreiks, ja. 00:31:45.320 --> 00:31:48.790 Da darf nach Kräften auf die Bahn eingekloppt werden. 00:31:48.790 --> 00:31:49.960 Gelächter 00:31:49.960 --> 00:31:56.440 Und wo wir schon von Streik reden, ist bestimmt jeder hier im Raum in Gedanken, 00:31:56.440 --> 00:32:01.730 bei der Lufthansa, die streiken ja als Hauptkonzernaktivität. Alles blau, ja 00:32:01.730 --> 00:32:02.870 Gelächer im Saal 00:32:02.870 --> 00:32:06.070 Alles blau, auch die dürfen fiese Kommentare abkriegen. Ich würd ja 00:32:06.070 --> 00:32:08.890 mitlachen, aber ich bin mit dem Flugzeug hier in Hamburg, ne 00:32:08.890 --> 00:32:11.110 Gelächter im Saal kleiner Applaus 00:32:11.110 --> 00:32:15.500 So, nach dem ganzen blau. jetzt mal was rotes. Knallrote Landschaft, ergibt sich 00:32:15.500 --> 00:32:21.810 um die Justiz. Das sind Berichte über die Kriminalität; Morde, Attentate, ja, "the 00:32:21.810 --> 00:32:27.380 full packedge" und hier will man eher weniger Lesekommentare, ja. So, die Justiz 00:32:27.380 --> 00:32:33.200 hat so 30 Prozent Kommentierbarkeit von den üblichen 70 Prozent. Hier ist die 00:32:33.200 --> 00:32:38.489 ganze Geschichte rund um den NSU-Prozeß. Der ist hier ja auch Thema. Tiefrot, ja, 00:32:38.489 --> 00:32:42.460 generell auch alles, was mit Rechtsradikal und Nazis und so zu tun hat, darf eher 00:32:42.460 --> 00:32:46.140 wenig kommentiert werden und der Kernknubbel hier, der hat so um die 18 00:32:46.140 --> 00:32:52.510 Prozent, ja, ist also noch weniger als die Justiz und die waren schon rot. Was auch 00:32:52.510 --> 00:32:55.160 tiefrot ist, ist alles um die Flüchtlingsthematik und zwar nicht nur 00:32:55.160 --> 00:32:58.120 das Konkrete, sondern auch der weitergefasste Rahmen, Asylrecht 00:32:58.120 --> 00:33:03.210 und so weiter. Seht ihr sogar im Bild. Und von Aussen sieht das aus, als sperrt der 00:33:03.210 --> 00:33:08.600 Spiegel seine Kommentarfunktion komplett systematisch und zwar nach Themen, Ja? Und 00:33:08.600 --> 00:33:12.290 das wir sowas direkt visuell raus finden können, das macht diese Landkarte so 00:33:12.290 --> 00:33:16.081 unheimlich mächtig. Allgemein ist es in der Data-Science nicht nur wichtig richtig 00:33:16.081 --> 00:33:19.820 auszuwerten, es ist genauso wichtig, die Informationen möglichst anschaulich 00:33:19.820 --> 00:33:23.110 visuell aufzubereiten. So können dann nämlich auch Leute, die keine 00:33:23.110 --> 00:33:27.070 Informatiker sind, sofort komplexe Zusammenhänge erkennen. Es gibt ja nur 00:33:27.070 --> 00:33:32.160 eine Breitbandverbindung ins Gehirn und das sind die Augen. Richtig interessant 00:33:32.160 --> 00:33:36.929 wirds, wenn man mal guckt, wie Spiegel-Online die Kommentierbarkeit hart 00:33:36.929 --> 00:33:43.290 national ordnet. Das hier ist der ganze Nahost-Konflikt, um Israel, ja, wie ihr an 00:33:43.290 --> 00:33:48.090 dem satten Rot seht, zum Nahostkonflikt und Israel hat man bei fast allen Artikeln 00:33:48.090 --> 00:33:53.710 die Klappe zu halten. So und jetzt schwenken wir mal vom Nahost-Konflikt zum 00:33:53.710 --> 00:33:58.029 Ukraine-Konflikt. Ja lächelt seufzend 00:33:58.029 --> 00:34:03.440 akustische Aufruhr im Publikum Einzelapplaus 00:34:03.440 --> 00:34:04.110 Ja. 00:34:04.110 --> 00:34:05.600 Applaus 00:34:05.600 --> 00:34:10.379 Also. Ihr könnt euch mit nach Hause nehmen. Meine Damen und Herren: 00:34:10.379 --> 00:34:11.770 Russen bashen ist OK. 00:34:11.770 --> 00:34:13.230 Gelächter im Publikum 00:34:13.230 --> 00:34:16.329 Ja, was wir hier - Live und in Farbe - sichtbar gemacht haben, ist nichts anderes 00:34:16.329 --> 00:34:21.379 als unsere westliche Filterbuble. Die kann man messen. Zum Iran darf man seinen Senf 00:34:21.379 --> 00:34:27.099 dazugeben, zu Großbritanien auch. Zur Türkei, da ist Spiegel-Online sich noch 00:34:27.099 --> 00:34:28.099 nicht ganz sicher. 00:34:28.099 --> 00:34:29.099 Gelächter 00:34:29.099 --> 00:34:33.899 Und Frankreich ist interessant, diese Region der Landkarte, die möchte 00:34:33.899 --> 00:34:39.219 eigentlich blau sein aber die ganzen Keywords rund um die Terrorserie dort, die 00:34:39.219 --> 00:34:42.329 sind knallrot und die strahlen in die Nachbarn aus und das schauen wir uns jetzt 00:34:42.329 --> 00:34:47.440 doch mal ein bisschen genauer an, Das sind alles Frankreichartikel aber nach Zeit. 00:34:47.440 --> 00:34:52.079 Die blaue Linie ist das Aufkommen der kommentierbaren Artikel, die rote Linie 00:34:52.079 --> 00:34:56.300 wieder das Aufkommen der Nichtkommentierbaren und wir sehen: wie 00:34:56.300 --> 00:35:00.821 Frankreich von 2014 bis 2015 erstmal überwiegend kommentierbar ist und die 00:35:00.821 --> 00:35:06.339 blaue Linie ist über der roten, und hier ist die Terrorserie in Paris im November 00:35:06.339 --> 00:35:12.160 2015 und es wird plötzlich enorm viel berichtet. Also sehen wir ne krasse Spitze 00:35:12.160 --> 00:35:17.980 am Frankreichartikeln, ne, und davon sind die Meisten nicht kommentierbar. Also: 00:35:17.980 --> 00:35:20.200 Frankreich an sich dürft ihr gerne kommentieren aber bezüglich der 00:35:20.200 --> 00:35:25.859 Anschläge dort bitte nicht. Und das Interessante ist, der Effekt wirkt fort, 00:35:25.859 --> 00:35:30.369 Seit der Terrorserie ist Frankreich generell nicht mehr so kommentierbar. Die 00:35:30.369 --> 00:35:34.609 rote Linie ist meist über der Blauen. Und jetzt tretten wir wieder einen Schritt 00:35:34.609 --> 00:35:40.759 zurück. Und natürlich sehe ich auch, das der Spiegel Themenbereiche aufgrund der 00:35:40.759 --> 00:35:44.290 Erfahrungen in der Verasngenheit sperren kann. Und generell müssen wir auch 00:35:44.290 --> 00:35:48.059 zugeben, das ist das gute Recht von Spiegel-Online zu entscheiden, wo und in 00:35:48.059 --> 00:35:51.849 welcher Form sie Anderen auf ihrer Seite ne Plattform geben und wo sie das eben 00:35:51.849 --> 00:35:56.499 nicht tun. Aber genauso ist es auch unser gutes Recht diese Systematik hier mal 00:35:56.499 --> 00:36:01.499 sichtbar zu machen. Und ich denke, das sieht insgesamt so aus als verböte 00:36:01.499 --> 00:36:06.320 Spiegel-Online genau zu denjeniegen Themen die Kommentierung, bei denen zu erwarten 00:36:06.320 --> 00:36:12.729 ist, das die Meinungen der Leser politisch nicht opportun sind. Ob das jetzt etwas 00:36:12.729 --> 00:36:16.309 über Spiegel-Online aussagt oder über seine Leser oder irgendwie ein 00:36:16.309 --> 00:36:19.930 gesamtgesellschaftliches Problem ist, das müsst ihr dann wieder selbst entscheiden. 00:36:19.930 --> 00:36:26.680 Was die Auswertung angeht, haben wir den Vortrag bis jetzt im Grunde zweigeteilt. 00:36:26.680 --> 00:36:34.230 Am Anfang haben wir die Artikelsammlung in nur wenige Töpfe unterteilt, und danach 00:36:34.230 --> 00:36:37.900 haben wir die Artikelsammlung in viel mehr Töpfe unterteilt, das sind die wenigen, 00:36:37.900 --> 00:36:42.049 jeder Artikel konnte sogar in mehreren Töpfen sein. Ne, das war ja so? Wenn nen 00:36:42.049 --> 00:36:45.890 Artikel mehrere Keywords hatte, dann war er auch in mehreren Töpfen. Und das war 00:36:45.890 --> 00:36:51.109 ne viel komplexere, aber auch viel mächtigere Art der Unterteilung. Und 00:36:51.109 --> 00:36:54.550 jetzt merkt ihr euch diese beiden Arten der Unterteilung mal kurz und damit machen 00:36:54.550 --> 00:37:00.380 wir was politisches, wir gehen über zum Thema Wahlkampf. Ja, Wahlkämpfe 00:37:00.380 --> 00:37:04.390 funktionieren grob so, das man die Menge aller Wähler auseinander schneidet, 00:37:04.390 --> 00:37:08.420 wie wir unsere Artikel auseinander geschnitten haben. Das heißt dann 'Voter 00:37:08.420 --> 00:37:14.569 Targeting'. Und bei der US-Wahl konnte man z.B. sagen man schneidet die Wähler grob 00:37:14.569 --> 00:37:19.369 nach Geschlecht, Hautfarbe, Alter und Gehalt. Das wird dann in der Tat auch so 00:37:19.369 --> 00:37:22.950 gemacht. Dann könnte man sozusagen allen schwarzen Frauen in Kalifonien, die 00:37:22.950 --> 00:37:27.630 zuwischen 30 und 40 sind und über 60.000 Dollar im Jahr verdienen, zugeschnittene 00:37:27.630 --> 00:37:33.529 Wahlwerbung schicken. Und das ist ne relativ grobe Art der Unterteilung und die 00:37:33.529 --> 00:37:37.750 ist sozusagen analog zu unseren groben Unterteilungen hier, auf der linken Seite 00:37:37.750 --> 00:37:50.849 der Folie. Aber was wäre dann die rechte Seite? Vor einiger Zeit hat dieser Artikel 00:37:50.849 --> 00:37:54.829 des Schweizer Tagesanzeiger die Runde gemacht. Ich bin sicher viele von euch 00:37:54.829 --> 00:38:00.520 kennen den, der ging ziemlich durchs Netz, der wurde am Tag 13 mal als Lesebefehl 00:38:00.520 --> 00:38:04.479 geschickt, und so weiter und so fort. Also ich glaube, ich habe den bestimmt 50 mal 00:38:04.479 --> 00:38:08.569 bekommen, weil ich mich halt auch mit dem Maschinen-Learning auseinandersetze. 00:38:08.569 --> 00:38:14.020 Und in dem Artikel steht im Grunde, das ne Datenanalysefirma es geschafft habe, eine 00:38:14.020 --> 00:38:18.700 extrem feine Unterteilung von Wählern hinzukriegen. Das wäre, sozusagen, analog 00:38:18.700 --> 00:38:23.160 zu unserer sehr mächtigen Themenlandkarte. Und in dem Artikel steht 00:38:23.160 --> 00:38:28.329 weiter, das hätte diese Firma sowohl für die Präsidentschaftswahl, als auch für 00:38:28.329 --> 00:38:33.430 das Brexit-Referendum gemacht. Und es wurde dann behauptet, deswegen wäre Trump 00:38:33.430 --> 00:38:38.530 gewählt worden und deswegen wäre der Brexit durchgekommen. Das ist natürlich 00:38:38.530 --> 00:38:43.300 spooky. Und das verkauft sich gut. Ja - uijuijuijuijui - Die selbe Firma hinter 00:38:43.300 --> 00:38:49.259 Trump und hinter dem Brexit, ja, da glüht der Aluhut, wirklich. 00:38:49.259 --> 00:38:54.309 Gelächter Applaus 00:38:54.309 --> 00:39:02.180 Und die sagen, ihre Unterteilung der Wählerschaft sei so fein, das man jedem 00:39:02.180 --> 00:39:07.299 Wähler seine genau passende Wahlwerbung schicken könnte. Und sie sagen nicht nur 00:39:07.299 --> 00:39:10.460 das, sie sagen sie können das sogar noch genauer, sie können sogar den 00:39:10.460 --> 00:39:14.640 Gesprächston treffen, so dass der Wähler wahrscheinlich drauf hört. Generell 00:39:14.640 --> 00:39:19.349 würde ich sagen, ne, tiefer hängen. Es ist überhaupt nicht klar, was die 00:39:19.349 --> 00:39:24.150 Firma den beiden Wahlkämpfen überhaupt wirklich gebracht hat. Die Infos kommen im 00:39:24.150 --> 00:39:28.450 wesentlich nämlich von der Firma selbst und ich glaube, ehrlich gesagt ja, da hat 00:39:28.450 --> 00:39:32.470 die Firma einen hervorragenden Vertriebler geschickt und der hat dann wirklich der 00:39:32.470 --> 00:39:37.529 Presse einen brillianten Vortrag gehalten und die Presse hat's dann einfach gekauft. 00:39:37.529 --> 00:39:42.190 So und die Kernaussage ist doch nur: Ihr könnt jetzt Wahlwerbung bekommen, oder 00:39:42.190 --> 00:39:46.339 Werbung im Allgemeinen, die extrem genau auf euch zugeschnitten ist und euch 00:39:46.339 --> 00:39:51.650 so effizienter zu Dingen verleitet. Mit anderen Worten: Endlich kriegen nur noch 00:39:51.650 --> 00:39:55.319 diejenigen Viagra-Spam, die das Produkt auch wirklich benötigen. 00:39:55.319 --> 00:39:56.979 Das ist ja zunächst mal nicht schlimm. 00:39:56.979 --> 00:39:58.249 verhaltendes Gelächter 00:39:58.249 --> 00:40:02.099 Ja, Aber kaufen und eben wählen, das müssen die Leute schon noch selbst, es 00:40:02.099 --> 00:40:05.329 ist nicht so das BigData die Leute fernsteuert. Das müssen wir schon 00:40:05.329 --> 00:40:10.279 festhalten, also man könnte sagen: Wer vor so zielgerichteter Werbung Angst hat, 00:40:10.279 --> 00:40:13.700 der sollte vielleicht die eigene Urteilsfähigkeit hinterfragen. 00:40:13.700 --> 00:40:19.430 Applaus 00:40:20.050 --> 00:40:26.069 Ja. Ja. Bestimmt haben auch ein paar von euch diesen Gedankengang gehabt und an der 00:40:26.069 --> 00:40:30.830 Stelle hat ich keinen Applaus erwartet. Sich selbst haben sie sich ein 00:40:30.830 --> 00:40:34.470 bisschen bruhigt, mit diesem Gedankengang. Das Problem ist nur, ich glaube, 00:40:34.470 --> 00:40:39.259 die eigene Urteilsfähigkeit hinterfragen, das macht kaum einer. In der Realität 00:40:39.259 --> 00:40:43.059 wählen die Leute doch irgendwie denjenigen, der ihnen am meisten, am 00:40:43.059 --> 00:40:48.140 emotional passensten, kurz vor der Wahl was zubrüllt. Ja. Und so laufen Wahlen. 00:40:48.140 --> 00:40:52.380 Das ist ja auch politisch so gewollt, Wo kämen wir auch hin, wenn Wahlen irgendwie 00:40:52.380 --> 00:40:54.849 langfristigen Erfolg belohnen würden, ne. 00:40:54.849 --> 00:40:55.930 verhaltendes Lachen 00:40:55.930 --> 00:41:01.420 Und dieses emotionale Zurufen und das geht mit so höchst personalisierter Werbung 00:41:01.420 --> 00:41:07.999 urplötzlich, unglaublich effizient. Und das bedeutet, ja, Data-Science-Techniken 00:41:07.999 --> 00:41:12.650 können Wahlen beeinflussen. Ja vorhin hatte ich die Voratsdatenspeicherung 00:41:12.650 --> 00:41:17.869 angeprangert ja ich bin ja auf dem CCC, also vermute ich, dass die Meisten von 00:41:17.869 --> 00:41:21.670 von mit mir einer Meinung waren. Und damit kommen wir genau zum Punkt; Wisst ihr, was 00:41:21.670 --> 00:41:25.720 die Firma aus dem Artikel genommen hat, um die Wähler so ultragenau zu vermessen? 00:41:25.720 --> 00:41:29.569 Das waren überhaupt gar keinen staatlichen Überwachungsdaten, das waren 00:41:29.569 --> 00:41:35.329 Facebook-Likes. Also Daten, die die Leute selbst über sich ins Netz gestellt 00:41:35.329 --> 00:41:38.880 hatten, ne. Und es ist wichtig mit staatlicher Überwachung kritisch zu sein. 00:41:38.880 --> 00:41:42.819 Ja das dürfen wir und das müssen wir auch, wenn wir kein Unrechtsstaat werden 00:41:42.819 --> 00:41:47.289 wollen. Aber wenn wir dann gleichzeitig völlig unkritisch sind mit uns selbst, 00:41:47.289 --> 00:41:52.950 ja, und wirklich jeden Mist ins Facebook oder ähnliche Plattformen pumpen, ja, 00:41:52.950 --> 00:41:54.810 dann haben wir nichts gewonnen. 00:41:55.900 --> 00:42:06.070 Applaus 00:42:06.070 --> 00:42:11.359 Mein Vortrag neigt sich dem Ende zu. Es kommen jetzt noch zwei Sachen: eine kleine 00:42:11.359 --> 00:42:17.130 Überraschung und dann habe ich noch ne Bitte an euch alle. Und zuerst gibt es die 00:42:17.130 --> 00:42:22.950 Überraschung. Ja, habe ich vorhin gesagt, ich hätte 100.000 Artikel von 00:42:22.950 --> 00:42:27.890 Spiegel-Online geladen? Ich meinte über 700.000 00:42:27.890 --> 00:42:31.930 Applaus 00:42:31.930 --> 00:42:36.530 Ne, ich lade jeden Artikel nicht nur einmal runter, wenn er erscheint somdern 00:42:36.530 --> 00:42:40.370 mehrfach in wachsenden Zeitabständen. Und mit anderen Worten, wir können messen, 00:42:40.370 --> 00:42:43.230 was in Artikeln geändert wurde. 00:42:43.230 --> 00:42:49.660 Gelächter Applaus 00:42:49.660 --> 00:42:53.719 So und aus Zeitgründen, gibts damit keine riesen Auswertung. Erstens aus 00:42:53.719 --> 00:42:57.510 Zeitgründen hier im Vortrag aber auch zweitens aus persönlichen Zeitgründen ne, 00:42:57.510 --> 00:43:01.640 ich muss irgendwann auch nochmal arbeiten. Aber wir haben ne kleine Demo. 00:43:01.640 --> 00:43:06.819 Ich hab zum Beispiel mal geguckt, ob Titel geändert werden, ne. 00:43:06.819 --> 00:43:10.520 Und bei sowas findet man einfach lustige Sachen. Es gibt nicht nur den Titel, 00:43:10.520 --> 00:43:11.960 der hier offensichtlich ist. 00:43:11.960 --> 00:43:16.300 Sondern es gibt auch zusätzlich den Html-Titel, die Techniker unter euch 00:43:16.300 --> 00:43:20.900 kennen den. Der wird oben im Browser angezeigt und auch die Html-Titel erfasse 00:43:20.900 --> 00:43:27.140 ich natürlich. So und am 21.Januar - wobei der hier sichtbare Artikel ist am 00:43:27.140 --> 00:43:32.349 20. Januar 2015 rausgekommen - und am 21.Januar und das war einen Tag nachdem 00:43:32.349 --> 00:43:36.710 der Artikel erschienen war, wurde mir angezeigt: Der Html-Titel hat sich 00:43:36.710 --> 00:43:43.329 geändert aus "SAP wächst 2014 langsamer als geplant." Ich hab mich dann gefragt: 00:43:43.329 --> 00:43:48.049 He, warum wurde er denn geändert, ja also wie war der vorher. Ganz einfach: Als der 00:43:48.049 --> 00:43:54.410 Artikel rauskam, wuchs nähmlich nicht SAP sondern der SAP-Chef 00:43:54.410 --> 00:43:56.000 wuchs langsamer als geplant. 00:43:56.000 --> 00:43:57.589 Gelächter 00:43:57.589 --> 00:43:59.989 Sowas finde ich an sich ganz sympatisch, 00:43:59.989 --> 00:44:02.229 Gelächter 00:44:02.229 --> 00:44:05.579 denn es zeigt, das bei Spiegel Online noch Menschen an den Texten sitzen und keine 00:44:05.579 --> 00:44:10.940 Computer und im Moment heisst der Artikel übrigens: SAP kann Wachstums- und 00:44:10.940 --> 00:44:15.349 Gewinnziele nicht erfüllen. Also das hat nochmal irgendwem nicht gefallen, ne. Und 00:44:15.349 --> 00:44:19.369 irgendwann zwischendurch haben sie es nochmal geändert. Also, jetzt wisst ihr 00:44:19.369 --> 00:44:22.069 erst, wie mächtig der Datensatz tatsächlich ist. Ich hab von jedem 00:44:22.069 --> 00:44:26.060 Artikel diverse zeitlich versetzte Versionen und das erlaubt natürlich viel, 00:44:26.060 --> 00:44:29.640 viel krassere Auswertungen und damit fang ich aber selbst erst an und deswegen ist 00:44:29.640 --> 00:44:33.489 heute noch so wenig davon im Vortrag, aber das war meine Überraschung und jetzt 00:44:33.489 --> 00:44:39.029 kommt meine Bitte. Ihr habt jetzt alles mögliche gesehen und wir haben Artikel 00:44:39.029 --> 00:44:43.680 auf einfach und komplexe Weise unterteilt. Wir haben gesehen, das verschiedene 00:44:43.680 --> 00:44:47.319 Arten der Unterteilung und Darstellung verschieden mächtig sind und wir haben 00:44:47.319 --> 00:44:51.240 verschiedenste Features aus den Artikeln gelesen: Rubrik, Zeiten, Kommentierbarkeit 00:44:51.240 --> 00:44:56.900 Autor. Jede Menge weiterer Features sind denkbar. Auch kompliziertere Features ja. 00:44:56.900 --> 00:45:01.259 Man könnte zum Bsp für jeden Artikel die darin enthaltenden Links raus ziehen und 00:45:01.259 --> 00:45:05.130 dann gucken, ob bestimmte Autoren Kumpels haben, auf die sie oft verlinken. 00:45:05.130 --> 00:45:09.289 Der Fantasie sind wirklich keine Grenzen gesetzt. Und zum Schluss haben wir sogar 00:45:09.289 --> 00:45:14.710 gesehen, wir können für jeden Artikel messen, was verändert wurde, ne. 00:45:14.710 --> 00:45:19.559 Wir können z.B. gucken, wo die Leser am meisten randalieren. Da guckt man, indem 00:45:19.559 --> 00:45:23.059 man guckt, wo die Kommentarfunktionen erst geöffnet und später dann geschlossen 00:45:23.059 --> 00:45:28.729 sind. Also meine Bitte an euch, jeder der hier zuguckt, schickt mir bitte einen Mail 00:45:28.729 --> 00:45:34.749 mit seinem kreativsten Auswertungsideen für den Datensatz. Und in dem 00:45:34.749 --> 00:45:36.969 Zusammenhang hab ich noch ne Message, die ihr euch auch mitnehmen könnt. Wenn ihr 00:45:36.969 --> 00:45:40.609 was im Bereich der Data-Science macht, Rohdaten sind geil. 00:45:40.609 --> 00:45:53.650 Gelächer Applaus 00:45:53.650 --> 00:45:58.269 Behaltet immer alle Rohdaten, wenn ihr es irgendwie vom Speicher bezahlen könnt. 00:45:58.269 --> 00:46:02.209 Ne, dann könnt ihr nämlich im nachhinein alles mögliche tun. Ich hab alle Rohdaten 00:46:02.209 --> 00:46:05.410 komplett da. Das sind über 60 GB pures HTML. 00:46:05.410 --> 00:46:06.410 Gelächter 00:46:06.960 --> 00:46:10.510 Und neue Features im nachhinein dazu auswerten, ist deswegen überhaupt 00:46:10.510 --> 00:46:14.420 kein Problem. Darum bitte, bitte, lasst eurer Fantasie freien Lauf. Erfindet neue 00:46:14.420 --> 00:46:18.280 Features, erfindet wonach die ausgewertet werden sollen. Schickt mir einfach, was 00:46:18.280 --> 00:46:21.620 ihr euch denkt, ja. Vieleicht ist nicht alles, was ihr wollt möglich und 00:46:21.620 --> 00:46:24.929 vielleicht schau ich auch nicht alles sofort. Ich bin ja auch berufstätig und 00:46:24.929 --> 00:46:28.840 zum Jahresanfang werde ich stramm eingespannt sein Aber ich versuch was 00:46:28.840 --> 00:46:33.719 möglich zu machen. Also einfach einschicken. Seit kreativ. Und damit 00:46:33.719 --> 00:46:37.680 bleibts mir nur noch, ein dickes Dankeschömn zu sagen dafür das ihr diese 00:46:37.680 --> 00:46:42.189 Stunde mit mir verbracht habt. Hier sind noch die Links. Und bis dann. 00:46:42.189 --> 00:47:02.160 Applaus JubelApplaus 00:47:02.160 --> 00:47:06.030 Herald: Ganz so schell wirst du natürlich noch nicht entlassen, weil wir 00:47:06.030 --> 00:47:11.200 haben noch unsere Fragerunde. Erstmal herzlichen Dank, immer schön zu sehen, 00:47:11.200 --> 00:47:14.849 wie die Mathematik doch spannend sein kann, um eben solche Daten zu analysieren. 00:47:14.849 --> 00:47:24.220 Und ja, wie immer, wenn ihr Fragen habt, tretet vor zu den Mikrofonen. Und alle die 00:47:24.220 --> 00:47:30.390 schnell, ich glaube nebenan startet der Jahresrückblick mit Fefe oder 00:47:30.390 --> 00:47:32.849 David Kreisel: Ne der Fefe sitzt da vorne im Publikum. 00:47:32.849 --> 00:47:40.539 Herald: Ach ja, der sitzt noch hier. So schnell wird er dann drüben noch nicht 00:47:40.539 --> 00:47:46.690 starten, vielleicht wollen die schon mal einen Platz. Genau. .... Wo haben wir 00:47:46.690 --> 00:47:49.309 Fragen, an Mikro 3, beginnen wir dort: 00:47:49.309 --> 00:47:54.569 Mik 3: Hi, super Vortrag, fand ich echt Klasse. Was mich mal interessieren würde: 00:47:54.569 --> 00:47:58.499 Hast du mal geguckt, ob die Split testen und die Artikel-Überschriften ändern 00:47:58.499 --> 00:48:01.339 anhand von wieviel Leute drauf klicken oder sowas? 00:48:01.339 --> 00:48:05.279 David: Ja das würde man messen daran, wie viele verschiedene Titel man so findet 00:48:05.279 --> 00:48:08.680 und wenn diese Zahl der durchschnittlichen Titel pro Artikel ansteigt, dann passiert 00:48:08.680 --> 00:48:14.640 das und wenn ich das richtig interpretiere dann testen sie das gerade. Also es ist 00:48:14.640 --> 00:48:18.480 noch nicht übergreifend, es ist immer nur so stossweise, vielleicht will mich auch 00:48:18.480 --> 00:48:21.890 einer korrigieren von Spiegel Online, aber so wie meine Daten aussehen, ja hab ich 00:48:21.890 --> 00:48:26.999 getestet, sie versuchen es gerade. Also was ist Splittesten? Vieleicht mal fürs 00:48:26.999 --> 00:48:30.640 Publikum. Man veröffentlicht Artikel mit verschiedenen Titeln und dann guckt man, 00:48:30.640 --> 00:48:33.630 wo am meisten Leute klicken, bei welchem Titel und der Titel darf dann weiter 00:48:33.630 --> 00:48:38.559 leben. Ihr verändert also durch euren Besuch direkt die Nachrichtenseite. 00:48:38.559 --> 00:48:46.210 Mikro 1: Ja hi. Ich wollte fragen, ob du auch Spiegel-plus Artikel, die es ja seit 00:48:46.210 --> 00:48:50.329 Mitte diesen Jahres, glaube ich, gibt mit einbezogen hast und wenn ja, hast du einen 00:48:50.329 --> 00:48:51.329 plus Account? 00:48:51.329 --> 00:48:52.329 David: Äh, ja. 00:48:52.329 --> 00:48:53.890 leichtes Gelächter im Publikum 00:48:53.890 --> 00:48:57.829 Ich habe die mit einbezogen, ähm, und natürlich habe ich auch einen 00:48:57.829 --> 00:49:00.220 plus-Account, der das vollautomatisch entschlüsselt, 00:49:00.220 --> 00:49:01.220 räusper 00:49:01.220 --> 00:49:02.220 und dazu also 00:49:02.220 --> 00:49:03.080 Gelächter 00:49:03.080 --> 00:49:06.250 wenn einer Näheres - Ich hab mich da wahnsinnig geärgert - kurz - als die 00:49:06.250 --> 00:49:09.640 plus-Artikel rauskamen, weil ich die nicht auf Anhieb de-krypten konnte. 00:49:09.640 --> 00:49:12.319 Und dazu gibts jetzt bei mir einen Blogartikel, seitdem, 00:49:12.319 --> 00:49:15.140 wie man die de-kryptet. 00:49:15.140 --> 00:49:19.070 Applaus 00:49:19.070 --> 00:49:22.600 Ich muss übrigens mal was Positives sagen, die Spiegel plus Artikel sind im 00:49:22.600 --> 00:49:26.089 Median 1100 Worte lang, also man muss schon sagen, 00:49:26.089 --> 00:49:27.439 da kriegt ihr auch was fürs Geld. 00:49:27.439 --> 00:49:29.599 leichtes Gelächterleichter Applaus 00:49:29.599 --> 00:49:39.839 Mikro 7: Hast du im Rahmen deiner Analysen auch auf die Inhalte geguckt, das du 00:49:39.839 --> 00:49:46.339 vielleicht die Worthäufigkeit analysiert hast und die Zuordnung zu Ressorts oder zu 00:49:46.339 --> 00:49:51.339 Schlagworten anhand der Inhalte abgeglichen hast, um vielleicht raus 00:49:51.339 --> 00:49:54.680 zufinden, ob die Verschlagwortung vollständig oder richtig ist. 00:49:54.680 --> 00:49:58.582 David: Ne hab ich noch nicht gemacht. Man kann ja die Schlagworte nehmen und da hab 00:49:58.582 --> 00:50:01.609 ich es mir bequem gemacht oder man versucht jetzt ne Analyse zu machen, was 00:50:01.609 --> 00:50:04.579 die relevanten Worte im Artikel sind und das hab ich noch nicht gemacht, Das wären 00:50:04.579 --> 00:50:08.470 dann sozusagen die schöneren Schlagworte. Aber ne, hab ich noch nicht gemacht. 00:50:08.470 --> 00:50:12.219 Herald -Frage aus dem Internet: 00:50:12.219 --> 00:50:16.420 Signal Angel: IRC möchte wissen, welche Software du benutzt hast, um die Daten zu 00:50:16.420 --> 00:50:19.519 sammeln. zu analysieren, zu visualisieren und ob es 00:50:19.519 --> 00:50:20.519 die Daten irgendwo gibt, außer bei dir. 00:50:20.519 --> 00:50:24.360 David: OK. Nein gibts noch nicht, irgendwo außer bei mir, weil ich mir auch gar 00:50:24.360 --> 00:50:31.440 nicht sicher bin, ob ich die verteilen darf. Ich benutze den Python Data Stack 00:50:31.440 --> 00:50:34.599 und die Software zum runterladen hab ich mir selbst geschrieben, die läuft auf 00:50:34.599 --> 00:50:40.690 einem meiner Server und darüberhinaus nutze ich Pandas für die Analyse, das ist 00:50:40.690 --> 00:50:43.880 auf Python aufbauend und dann diese ganze MaschinLearning Sachen da drüber 00:50:43.880 --> 00:50:48.739 scikit-learn. Also den ganzen Py DataStack googelt danach einfach, da findet ihr viel 00:50:48.739 --> 00:50:51.589 und zum Visualisieren hab ich hier Tableau genommen, das ist ne 00:50:51.589 --> 00:50:56.930 Visualisierungssoftware. Die schon voragregierte und vorerechnete Daten bis 00:50:56.930 --> 00:51:00.339 zu ein paar GigaByte ganz gut verkraftet und da kann man sehr schnell schöne 00:51:00.339 --> 00:51:04.720 Visualisierungen draus ziehen und zum 00:51:04.720 --> 00:51:06.319 Visualisieren der Graphen hab ich Gephi genommen. 00:51:06.319 --> 00:51:12.529 Mikro 4: Hast du Daten Real-Time analysiert oder 00:51:12.529 --> 00:51:14.119 alles im nachhinein gemacht? 00:51:14.119 --> 00:51:16.069 David: Ich versteh die Frage nicht. 00:51:16.069 --> 00:51:19.630 Mirko: Ob du die Daten während du sie gesammelt hast analysiert hast? 00:51:19.630 --> 00:51:23.079 David: Ach so, ne. Das wird alles rohdatenmäßig gesammelt, dann wird das 00:51:23.079 --> 00:51:28.960 im weiteren Schritt erst mal, werden die Rohfeatures rausge-parsed und das sind dann 00:51:28.960 --> 00:51:31.680 so wenige, das sie in der Tat dann in einen RAM passen und ich dann darauf 00:51:31.680 --> 00:51:36.089 weitere High-Level Feature machen kann. Das passiert so in 3 Layern. Also es ist 00:51:36.089 --> 00:51:41.180 nicht direkt dabei aber während wir hier gesprochen haben, ist schon wieder 10 mal 00:51:41.180 --> 00:51:44.079 runter geladen worden. Insofern ist das schon gleichzeitig zum Runterladen. 00:51:44.079 --> 00:51:48.709 Das Runterladen geht weiter. 00:51:48.709 --> 00:51:53.560 Mikro 3: Eine Idee für die Auswertung: Du könntest mal gucken, ob bestimmte 00:51:53.560 --> 00:51:57.309 Wortgruppen in älteren Artikeln nochmal vorkamen, um zu sehen welche zusammen 00:51:57.309 --> 00:51:58.309 kopiert wurden. 00:51:58.309 --> 00:52:03.029 David: Du meinst, ja ja , so ne Auswertung im Sinne von: In jedem Artikel kriegt ihr 00:52:03.029 --> 00:52:07.460 durchschnittlich 73 Prozent neuen Content quasi, ja? 00:52:07.460 --> 00:52:08.950 Gelächter 00:52:08.950 --> 00:52:10.020 Mikro: Ja 00:52:10.020 --> 00:52:11.790 David: Guter Punkt 00:52:11.790 --> 00:52:13.130 Applaus 00:52:13.130 --> 00:52:15.229 David: Machen wir so. 00:52:17.039 --> 00:52:22.530 Mikro: Hallo, ich wollte nur kurz einen Denkanstoss geben, ich formuliere das mal 00:52:22.530 --> 00:52:28.440 als Frage. Könnte es sein, das diese Nichtkommentierbarkeit von Israel-Artikeln 00:52:28.440 --> 00:52:32.430 auch einfach ein Ressourcen-Problem ist, weil es da vielleicht mehr aus 00:52:32.430 --> 00:52:36.140 juristischen Gründen zu zensieren gibt für die Redaktion? 00:52:36.140 --> 00:52:38.049 David: Das kann selbstverständlich sein. Ja natürlich. 00:52:38.049 --> 00:52:40.869 Mikro: Z.B. gibt es ja durchaus Sigularitäten mit dem deutschen 00:52:40.869 --> 00:52:42.999 Strafrecht, das man bestimmte Sachen nicht sagen darf. 00:52:42.999 --> 00:52:48.950 David: Ja. Also, hätte es nur Israel erwischt, hätte ich das auch sofort auch 00:52:48.950 --> 00:52:51.989 gedacht. Aber ja kann natürlich sein. Das ist auch so ganz wichtig an so 00:52:51.989 --> 00:52:54.759 Data-Science, ich hab das hier jetzt teilweise bisschen ketzerisch vorgetragen 00:52:54.759 --> 00:52:58.450 aber natürlich müsst ihr schon selbst nochmal gucken, was ihr aus den Daten 00:52:58.450 --> 00:53:02.309 folgert. Ja natürlich, das kann sein. Am besten wissen das natürlich nur die 00:53:02.309 --> 00:53:06.369 Spiegelleute. Aber Israel war ja nicht der einzige Punkt der nichtkommentierbar war 00:53:06.369 --> 00:53:13.479 und zur reinen Justiz gibt es keine Singularität im deutschen Strafrecht. 00:53:13.479 --> 00:53:18.219 Mikro 6: Hallo David, vielen Dank für den Talk. Hast du überlegt die Software 00:53:18.219 --> 00:53:22.159 irgendwie Open Source anzubieten , so dass man sie z.B. für 00:53:22.159 --> 00:53:25.219 andere Quellen anpassen kann. Tagesschau etc. 00:53:25.219 --> 00:53:29.680 David: Hab ich nicht überlegt. Aber ehrlich gesagt, so aufwendig ist es auch 00:53:29.680 --> 00:53:35.549 nicht. Ihr schreibt euch nen Script, was euch alle paar Minuten mal losläuft und 00:53:35.549 --> 00:53:41.009 die Artikel runter lädt und das speicherst in einer Datenbank fertig. Also 00:53:41.009 --> 00:53:44.849 das Open Source, ist das uninteressanteste was es gibt. Ddas findet ihr in 1000 00:53:44.849 --> 00:53:49.019 Varianten sauberer als ich das gemacht hab nochmal, glaube ich. Aber ja, man könnte 00:53:49.019 --> 00:53:52.220 mal eine Vergleichsauswertung mit anderen Medien starten, ja. 00:53:52.220 --> 00:53:57.789 Mikro 1: Wie hast du den Strain aus deiner Karte entfernt, du hast da ne ganze Menge 00:53:57.789 --> 00:54:00.229 Dimensionen auf zwei Dimensionen runter gebrochen .. 00:54:00.229 --> 00:54:02.199 David: Den was aus meiner Karte entfernt? 00:54:02.199 --> 00:54:04.270 Mikro: Die Spannung, weil du hast ja sehr 00:54:04.270 --> 00:54:06.680 viel Dimensionen auf zwei Dimensionen reduziert ... 00:54:06.680 --> 00:54:07.410 David: Ja, 00:54:07.410 --> 00:54:09.279 Mikro: .. und wie hast du sichergestellt, das jetzt nicht Inseln bei einander sind, 00:54:09.279 --> 00:54:12.320 die gar nicht zusammen gehören oder manche anderen nicht beieinander sind, 00:54:12.320 --> 00:54:14.920 die aufgrund von Inseln, die dazwischen liegen nicht nah genug zueinander kamen. 00:54:14.920 --> 00:54:18.299 David: In der Theorie kann man das nie ausschliessen, aber in dem Graoh steckt 00:54:18.299 --> 00:54:22.060 sehr viel Verfahren drin. Also ich hab zunächst mal zugesehen, das ich 00:54:22.060 --> 00:54:25.190 überhaupt nur die wichtigen Kanten pro Knoten behalte, sonst hat man wirklich 00:54:25.190 --> 00:54:29.609 viel zu viele Kanten und dann gibts da professionelle Graph-Layouting-Verfahren 00:54:29.609 --> 00:54:33.829 für, also Gephi bietet was, das heißt VsAtlas 2 und das war das, was ihr in den 00:54:33.829 --> 00:54:37.839 hübschen Video gesehen habt, damit geht das sehr gut, Also du must das natürlich 00:54:37.839 --> 00:54:42.579 ein bisschen Schmakes da rein investieren, wie du die Kanten vorher ausfilters und 00:54:42.579 --> 00:54:46.660 dann, dann bist du immer noch nicht sicher in der Theorie, aber dann siehst ja, ob 00:54:46.660 --> 00:54:49.509 das Bild gut wird oder nicht. 00:54:49.509 --> 00:54:55.060 Mikro 2: Du meintest, du warst im Oktober beim Spiegel, wie war den deren Reaktion 00:54:55.060 --> 00:54:57.440 zu deinen Analysen? 00:54:57.440 --> 00:55:01.359 David: Positiv, also, ob das jetzt nur daran lag, dass die sowieso nichts dagegen 00:55:01.359 --> 00:55:03.849 tun können, weiss ich nicht, aber ehrlich gesagt, 00:55:03.849 --> 00:55:04.859 Gelächter 00:55:04.859 --> 00:55:08.180 hab ich das als sehr positiv und interessiert wargenommen und auch ich hab 00:55:08.180 --> 00:55:12.619 was gelernt und das war eigentlich einen ziemlich cooler Termin, also sportlicher 00:55:12.619 --> 00:55:16.599 als die Kollegen bei Xerox sag ich mal. 00:55:16.599 --> 00:55:23.240 großes GelächterApplaus 00:55:23.240 --> 00:55:33.579 Mikro: Ist vielleicht ne Suggestivfrage, vielleicht auch in Richtung, wie man 00:55:33.579 --> 00:55:42.510 weiterforschen könnte. Das Verfahren, das du benutzt hast, um die thematische Nähe 00:55:42.510 --> 00:55:46.589 verschiedener Tags zueinander zu bestimmen, wäre es mathematisch 00:55:46.589 --> 00:55:48.819 ACHTUNG: Mathematiker-Kauderwelsh .. 00:55:48.819 --> 00:55:52.230 nicht korrekter, wenn du eine singuläre Zerlegung der Adjazentmatrix 00:55:52.230 --> 00:55:55.329 dieser Schlagworte baust, ähnlich wie Google Page Rank 00:55:55.329 --> 00:55:56.390 das gemacht hat. 00:55:56.390 --> 00:56:01.719 David: Ja. Aber dann kann man nicht so einen schönen Graphen draus basteln und 00:56:01.719 --> 00:56:05.959 es kommt wahrscheinlich was ähnliches raus, sein wir ehrlich. Ich sehe ja die 00:56:05.959 --> 00:56:08.989 Werte der Kanten und wahrscheinlich ist es am Ende das Selbe. 00:56:08.989 --> 00:56:15.540 Mikro: Ja wenn du genug Dimensionen benutzt ist es äquivalent. 00:56:18.790 --> 00:56:22.329 David: Ja. Alles ist still, Mensch. 00:56:22.329 --> 00:56:26.249 Mikro 3: Nochmal kurz zu den Landkarten, das sind irgendwelche 00:56:26.249 --> 00:56:28.180 MonteCarlo Methoden diese Springs ... 00:56:28.180 --> 00:56:29.339 David: Ja 00:56:29.339 --> 00:56:33.859 Mikro: ... im Endeffekt positionieren, wie stabil sind die? 00:56:33.859 --> 00:56:37.509 David: Ich denke, ich hab mich da in die Theorie nicht eingearbeitet weiter, es 00:56:37.509 --> 00:56:40.650 würde mich wundern, wenn du da ne Stabilität drüber nachweisen könntest. 00:56:40.650 --> 00:56:45.160 "Fest steht, sie sind etabliert für große Graphen." weil da ist sowieso nix 00:56:45.160 --> 00:56:50.050 mehr zu planarisieren in der Größe und dann sieht man halt zu zu iterieren bis es 00:56:50.050 --> 00:56:53.859 stimmt und wenn es schlecht aussieht, dann drückt man nochmal auf den Startknopf. 00:56:53.859 --> 00:56:57.449 Also so ist wirklich die Praxis. 00:56:57.989 --> 00:57:02.519 Mikro: Hallo. Hast du mal Markov auf deine Daten geworfen, 00:57:02.519 --> 00:57:05.349 um Spiegelartikel zu generieren. 00:57:05.349 --> 00:57:06.659 GelächterApplaus 00:57:06.659 --> 00:57:09.159 David: Nein! Könntest du mir bitte damit eine Email schicken? 00:57:09.159 --> 00:57:11.949 Gekiecher und Gelächter im Saal Mikro: Sehr gerne. 00:57:11.949 --> 00:57:14.500 David: Oh wir haben Spaß, ich seh das schon .. 00:57:14.500 --> 00:57:16.799 GelächterApplaus 00:57:16.799 --> 00:57:25.439 D: Da machen wir aber nicht nur die Artikel Generierung sondern dann wird 00:57:25.439 --> 00:57:29.190 bitte auch direkt dazu generiert, zu welchem Thema kommentiert werden darf 00:57:29.190 --> 00:57:30.580 und zu welchen nicht, ne ... 00:57:30.580 --> 00:57:32.070 vereinzeltes Gelächter Ruf aus dem Publikum: Autoren generieren 00:57:32.070 --> 00:57:35.380 David: Autoren generieren, das ist auch schön, ja. 00:57:35.380 --> 00:57:37.249 Gelächter 00:57:37.249 --> 00:57:45.150 Herald: So wir sind auch am Ende unserer Zeit. Wer noch Fragen hat, du bist sicher 00:57:45.150 --> 00:57:46.150 gleich noch ... 00:57:46.150 --> 00:57:49.709 David: Ich geh hier jetzt da raus, zur nächsten Bierbar, die da ist, falls die 00:57:49.709 --> 00:57:57.219 nicht vor Saal 2 ist, ist die vor Saal 1 dann bin ich da. 00:57:57.219 --> 00:57:58.780 Wir machen jetzt DDos auf die Bierbar. Ja. 00:57:58.780 --> 00:57:59.810 Applaus 00:57:59.810 --> 00:58:02.609 Herald: Ja ist ja auch Zeit. 00:58:02.609 --> 00:58:12.260 Applaus 00:58:12.260 --> 00:58:18.869 Herald : Auch von mir auch nochmal ein Herzlichen Dank .... 00:58:19.628 --> 00:58:26.211 33c3 - Abspann-Musik 00:58:26.211 --> 00:58:46.000 Untertitel erstellt von c3subtitles.de im Jahr 2017. Mach mit und hilf uns!