33C3 Vorspannmusik Herald Carina Haupt: David Kriesel ist Data Scientist. Und der eine oder andere kennt ihn vielleicht noch vom 31C3, wo er den relativ bekannt gewordenen berühmten Xerox Scanning Bug Vortrag gehalten hat. Applaus Dieser hat ihn offensichtlich nicht nur hier bekannt gemacht. Sondern auch zu internationaler Bekanntheit verholfen. Und damit begrüsse ich ihn und freue mich auf einen spannenden Talk und bitte Euch nochmal um einen ganz ganz herzlichen Applaus für David. Applaus David: Dankeschön Applaus Ja, dankeschön. Herzlich willkommen. Auch nochmal von mir. Auch an die Leute im Internet. Und auch an die Leute vom Spiegel. Von denen ich weiss, dass sie anwesend sind. Es ist schön wieder hier zu sein. Mein Name ist David Kriesel. Ich bin Informatiker aus Bonn. Und ich mache beruflich, es wurde schon gesagt Data Science und Machine Learning. Und salopp gesagt, versuche ich für meine Arbeitgeber aus grossen Datenmengen Wissen zu ziehen. Und seit 2014 habe ich knapp 100 000 Artikel von Spiegel Online ge-vorratsdaten-speichert. GelächterApplaus Und das habe ich einfach niemanden erzählt. Gelächter Und während ich da so zweieinhalb Jahre sitze und das niemanden erzähle, ist die Stimmung medial irgendwie umgeschlagen. Vor zweieinhalb Jahren war die Welt noch in Ordnung und heute ist die Rede von Lügenpresse und Fake News und genau aus dieser Zeit des Stimmungsumbruchs haben wir jetzt einen riesigen Datensatz über den vielleicht grössten Meinungsmacher unserer Nation. Und mit diesem Datensatz werden wir heute zwei Sachen machen: Erstens, wir werden den Datensatz durchleuchten und was über Spiegel Online lernen. Und zwar so, dass ihr das auch mit nach Hause nehmen und beim Lesen dann anwenden könnt. Und zweitens, wir werden Einblick erhalten wie die Datensammelwut von heute funktioniert und wie mächtig oder vielleicht auch nicht mächtig die ist. Und das machen wir so, dass es für jeden verstehbar ist, nicht nur für Informatiker. Und zusätzlich werde ich, wie in meinem letzten Vortrag vor zwei Jahren ein bisschen auf das Gesellschaftliche eingehen. Und wir werden an ein paar passenden Beispielen beleuchten, wie die moderne Datenverarbeitung unsere Gesellschaft beeinflussen kann. Und ob wir die Welt, mit dieser allumfassenden Datensammelwut besser machen oder schlechter machen, dass kann dann ja später jeder von euch für sich selbst entscheiden. Am besten fangen wir an, in dem ich kurz beschreibe wie genau Spiegelmining funktioniert. Rund um die Uhr, alle paar Minuten schaut einer meiner Server vollautomatisch auf Spiegel Online nach ob dort neue Artikel stehen und werden neue Artikel gefunden, dann werden die heruntergalden und abgespeichert. Und auf diese Weise hat der Datensatz einen coolen Vorteil der ja jetzt vielleicht nicht sofort ersichtlich ist: ich erhalte neue Artikel binnen Minuten, nachdem sie veröffentlicht wurden. Das heisst, ich kriege die im Originalzustand, also vor allen Verbesserungen und Änderungen, die im Nachhinein vorgenommen werden und das ist natürlich viel aussagekräftiger. Man erhält ein unverfälschten Eindruck und es ist nicht so wie wenn man einen Artikel runterlädt, die vieleicht schon Jahre alt und tausend mal editiert sind. Aus den heruntergeladenen Artikeln lese ich dann sogenannte Features. Feature ist einfach das Fachwort für ein Artikelmerkmal. Ganz einfache Features eines Artikels können zum Beispiel der Veröffentlichungszeitpunkt oder die Rubrik sein, in der der Artikel steckt. Und die Features nehme ich dann und mache damit Auswertungen, von den sehen wir heute noch ein paar. Und die interessanten unter den Auswertungen nutze ich dann, um auf meiner Seite eine Blogartikelserie zu schreiben, um meinen Lesern einen Einblick in Spiegel Online und die Data Science gleichermassen zu geben und das war es. Spiegelmining in wenigen Minuten. Und am Anfang machen wir jetzt ein paar sehr einfache Auswertungen, so sehen wir wie das funktioniert und verschaffen uns gleichzeitig einen Überblick über Spiegel Online und als erstes zählen wir mal wie häufig die einzelnen Rubriken so vorkommen. Das ist die Ansicht. Die Größe der Kreise gibt die Artikelanzahl pro Rubrik wieder und wie wir sehen, wird Spiegel Online dominiert von Politik, das ist der große rote Kreis rechts oben, von Panorama, das ist der grüne Kreis in der Mitte und vom Sport, das ist der fliederfarbene Kreis ganz unten. Ich weiss, was fliederfarben ist. Ich höre schon Leute lachen. Applaus Also die drei Rubriken, die machen zusammen die Hälfte der Artikel aus. Und das nächste supereinfache Feature ist der Veröffentlichungszeitpunkt von jedem Artikel. Damit messen wir jetzt einfach mal, wieviele Artikel Spiegel Online am Tag so schreibt. Der Plot sieht jetzt richtig richtig krass unordentlich aus, dass man da fast keine Werte erkennen kann. Das liegt an den Wochenenden. Da wird um die Hälfte weniger veröffentlicht als normal. Und deswegen schwankt das so krass. Und hier gibt es dann auch gleich den ersten Bericht aus der Praxis: wie man deutlich sieht, habe ich Anfang März 2015 ein paar Tage Loch in den Daten. Und der Grund ist, dass der März ein Monat mit "ae" ist. GelächterApplaus Also, mir ist das nach kurzer Zeit zum Glück aufgefallen. Also wenn Ihr Daten aufnehmt, dann programmiert Euch bitte mal irgendeine Form von Warnsystem, das anschlägt, wenn länger keine Daten mehr eintrudeln. Ich hatte das zum Glück und das hat mir hier sehr geholfen. Jetzt schlägt es in ein paar Minuten an und da hatte ich so irgendwie ein paar Tage keine Ahnung. Zurück zum Plot: Wegen der Unordnung mit den Wochenenden ändern wir jetzt unseren Plot und berechnen statt den Artikeln pro Tag jetzt die Artikel pro Woche. Und man sieht jetzt auch was und da sehen wir, dass Spiegel Online im Schnitt so 700 Artikel die Woche veröffentlicht, also so 100 am Tag. Und das ist schon ziemlich viel Output. Übrigens die beiden krassen Einbrüche, die Ihr hier seht, das sind die Weihnachtswochen, da wird weniger veröffentlicht und der Datensatz für diesen Vortrag ist vom 4. Dezember, deswegen ist dieser Weihnachts-Low dieses Mal einfach noch nicht drin. Und wenn man jetzt Features einzeln betrachtet, aber richtig interessant wird es, wenn wir Features zusammen betrachten. Wir verwursten jetzt also mal Veröffentlichungszeitpunkt und Rubrik zusammen. Und dann können wir sehen, das beispielsweise der Output in den Rubriken Panorama und Politik stabil ist. Während Wissenschaft und Uni-Spiegel ganz schön zusammengestrichen wurden. Das gilt übrigens in abgeschwächter Form auch für andere Ressorts. Solche Infos, welche Ressorts gerade gerupft werden, sind zum Beispiel relativ interessant, wenn man Konkurrent von Spiegel Online ist. Das kann man ohne weiteres auslesen. Und wir sehen, geschickt Features ausdenken und zusammenstöpseln, ist die halbe Welt. Jetzt nehmen wir mal die Textlänge der Artikel dazu. Hier sind die typischen Artikellängen im Spiegel angegeben und zwar pro Rubrik. Und man sieht, dass der typische Kulturartikel fast dreimal so lang ist, wie der typische Panorama- oder Sportartikel und immerhin noch doppelt so lang wie der typische Politikartikel. Und jetzt hatten wir schon gesehen, das Panorama, Sport und Politik trotz ihrer kurzen Artikellängen genau die drei dominierenden Ressorts sind. Und daraus können wir folgern, das Spiegel Online es eher auf Reichweite anlegt und auf Abdeckungsbreite als auf Tiefe. Die Strategie Reichweite um jeden Preis scheint Spiegel Online auch noch so zu verstärken. Die zusammengestrichenen Rubriken waren alles welche mit eher langen Texten. Und bevor das hier jetzt falsch ankommt, ich sage das ohne jede Wertung im Sinne von gut oder schlecht das ist ja eine valide Strategie für ein Medium und ich beschreibe einfach nur gemessene Daten. Und es ist keineswegs der Zweck der Veranstaltung irgendwie substanzlos in Richtung von Spiegel Online zu haten. Wer hatet wird nicht ernst genommen. Das habe ich ja in meinem letzten Vortrag schon ausführlich beschrieben. Und die meisten Sachen, die hier im Vortrag noch kommen, denkt daran, die sind bei den anderen wahrscheinlich ähnlich. Wichtig ist auch dass man mit den Features experimentiert. Hier ist zum Beispiel ein Diagramm, das zeigt, dass Veröffentlichungsvolumen pro Wochentag und Stunde. Die Zeilen sind die Wochentage und die Spalten sind die Stunden eines Tages. Pro Wochentag und Stunde sehen wir einen Block. Und in den grossen Blöcken sind viele Artikel erschienen und in den kleinen wenige. Und jetzt lernen wir daran mal, wie es in der Data Science zugeht: Erstens: In der Data Science findet man immer wieder Botschaften bestätigt, die man vorher schon erahnt hat. Das ist der langweilige Teil der Data Science. Aber das ist gut, um die eigenen Messverfahren zu überprüfen. Wir sehen hier, zu den unchristlichen Zeiten wird viel weniger veröffentlicht. Bahnbrechende Erkenntnis: Auch der Spiegel-Online-Redakteur möchte mal schlafen. Gelächter Zweitens: In der Data Science findet man aber auch immer Systematiken da, wo man keine erwartet hat. Und das passiert oft dann, wenn man Features verbindet. Wir färben jetzt mal jeden dieser Blöcke ein, nach der typischen Textlänge. Rote Blöcke enthalten typischerweise lange Texte und blaue Blöcke eher kurze. Und zack Es gibt einen klaren Zusammenhang zwischen Tageszeit und Länge der Artikel. Für mich als Nicht-Journalist war das damals überraschend. Die typische Länge der veröffentlichten Artikel die ist von Montag bis Freitag zwischen 5 bis 6 Uhr früh am grössten. Das gleiche am Wochenende. Hier gibt es zum Tagesstart auch nur längere Artikel, ein bisschen später natürlich. Und das Rätsels Lösung zu diesem Phänomen kommt später noch. Und als Drittes, ist die Data Science natürlich auch dazu da fieseste Vorurteile zu schüren. Ich führe Euch das mal vor. Jetzt gebt mir bitte mal ein Handzeichen, wer von Euch denkt, dass die Leutchen aus dem Kulturressort morgens bitte, gerne ein bisschen länger pennen als die anderen. Gelächter Also, vielleicht für das Internet: Wir haben einen Raum von 1600 Leuten, der ist proppenvoll und fast alle haben die Hand gehoben. Und die Lösung ist: stimmt! Gelächter Die Kulturwissenschaftler Applaus Die Kulturwissenschaftler veröffentlichen typischerweise später. In der oberen Verteilung sind alle Artikel ausser Kultur. Da ist ab 5 Uhr morgens Aktivität. Und in der unteren Verteilung sind die Kulturartikel, da geht es mindestens 2 Stunden später los. Aber zum Ausgleich gehen die auch früher nach Hause. Gelächter Applaus Aber, damit wir hier nicht wirklich Vorurteile schüren, ich war bei Spiegel Online eingeladen im Oktober und da habe ich das auch so gesagt. Und dann haben sie gesagt: 'David, nein, nein!' Manche Artikel werden natürlich auch vorab gescheduled, das will ich hier fairerweise dazusagen. Und ich mache das auch als Ermahnung, dass ihr, wenn Ihr damit arbeitet, immer nochmal selbst nachdenken müsst. was Ihr auch solchen Auswertungen wirklich folgern könnt. Besonders dann, wenn Ihr schon mit einem Vorurteil da rein gegangen seid, so wie wir jetzt. Wir haben gerade gesehen, wie solche Auswertungen grundsätzlich funktionieren, also können wir jetzt einen Schritt weitergehen. Und im Internet wird es ja genau immer dann besonders knusprig, wenn personenbezogene Daten ins Spiel kommen. Also, habe ich mir gedacht, es wäre doch mal ein nettes Feature, wenn wir mal die Autoren aus den Spiegel Artikeln rauslesen. Und das machen wir jetzt. Und die werten wir gleich auf zwei Arten aus: Die erste Auswertung wird eine ganz neue Auswertung in diesem Vortrag, also eine ganz neue Art. Und die zweite Auswertung wird ein bisschen politisch inkorrekt. In unserer ersten Auswertung werden wir versuchen Spiegel Online interne Personalstrukturen einfach von aussen zu lesen. Wenn man zu jedem Artikel eine Liste an Autoren hat, dann weiss man ja nicht nur, wer jeden Artikel geschrieben hat, sondern man weiss auch, wer mit wem schreibt. Und bei Autoren, die oft zusammen Artikel schreiben, dürfen wir davon ausgehen, dass die intensiv zusammenarbeiten. Wir wissen also sozusagen, welche Autoren wichtig füreinander sind, was die Artikel angeht. Wer wenig oder gar nicht zusammenschreibt, der ist in dieser Ansicht nicht wichtig füreinander. Aus diesen Wichtigkeiten können wir dann eine Autorenlandkarte bauen. Und hier ist sie. Das ist ein Teil des sozialen Netzwerkes der Spiegel Online Autoren generiert über die letzten 2 Jahre. Und jeder Autor ist so ein Bubble Und Autoren, die nur ganz selten vorkommen, die habe ich hier gefiltert. Und man sieht genau, dass es da Grüppchen von Autoren gibt, die sich dichter zusammentun. Und das sieht aus, als wären es die Teams. Und jetzt müssen wir natürlich kontrollieren, ob unser Durchleuchten von aussen, auch wirklich funktioniert. Und um das zu machen, färben wir die Autoren mal nach Ihren Ressorts ein. Die Ressorts, die kriegt man aus dem Spiegel Online Impressum. Siehe da, in vielen Fällen haben sich tatsächlich die Ressorts vollautomatisch in der Landkarte zusammengetan. Hier in pink ist Sport. Wissenschaft und Gesundheit. Netzwelt. Politik. Ein bisschen verteilter, da habe ich jetzt nicht alle eingekreist. Panorama. Reise. Ich nenne jetzt nicht alle Teams, aber Ihr seht das Prinzip. Die hellblauen verteilten Punkte sind übrigens das Team von bento, die arbeiten ein bisschen übergreifender. Das ist die Kinderausgabe vom Spiegel. Gelächter Applaus Und der Punkt ist, wir haben jetzt relativ genau von aussen durchleuchten können, wer mit wem intern in einem Team steckt. Und der Witz ist, schaut die ganzen grauen Bubble an. Die sind grau, weil sie nicht mehr über das Spiegel Impressum zugeordnet werden konnten. Das sind zum Beispiel ausgeschiedene Kollegen. Der Spiegel Chefredakteur ist kürzlich auch grau geworden. Aber durch ihre Nähe zu den gefärbten Gruppen, können wir die trotzdem grob einem Team zuordnen. Wir können also etwas über die sagen, obwohl wir eigentlich gar nichts über die wissen. Und sowas ist dann interessant. Wir können also einfach live von aussen über die Personalstrukturen Buch führen. Aber jetzt... Ihr wartet bestimmt schon alle zum politisch inkorrekten Teil. Ich möchte Euch nämlich für etwas sensibilisieren. In diesem Plot ist jede Zeile ein Autor. Und von links nach rechts vergeht die Zeit. Und jeder farbige Strich ist ein vom jeweiligen Autor veröffentlichter Artikel. Und wenn wir die Autoren kennen und das tun wir ja jetzt, dann wissen wir natürlich auch sehr genau, wer wann veröffentlicht. Wir sehen zum Beispiel diese Zeile mit regelmässigen Muster, das ist ein Kolumnist, der veröffentlicht genau im Wochentakt, bis auf ein paar Ausnahmen. Bei den Leuten, die Tagesgeschehen veröffentlichen, ist die Dichte höher. Und das heisst, wir wissen bei denen umgekehrt auch relativ gut, wann die Urlaub machen. So, weil das sind nämlich die Lücken in den dichtgefüllten Zeilen. Und, wenn aber wir die Urlaube ungefähr kennen, dann wissen wir auch ungefähr, wessen Urlaube sich überproportional überschneiden. Gelächter Sachen wie Weihnachten, die fast alle Urlaub machen, die kann man ja einfach rausrechnen. Und ich appelliere jetzt an Eure Berufserfahrung und mutmasse mal ganz wild, dass Ihr auch schon mal Kollegen hattet, die irgendwie immer gleichzeitig im Urlaub waren. Also, Spass beiseite. Aus solchen Daten kann man ohne weiteres lesen, wer mit was hat. Jetzt wisst Ihr auch, warum ich die Autoren hier anonymisiert habe. Es ist übrigens total klar, dass das, was wir hier finden, nicht alles Pärchen sein müssen. Das sind die Pärchenkandidaten. Aber, wenn man an der Praxis und sowas interessiert ist, dann ist man ja damit schon mal auf 99% des Weges zum Ziel. Es gibt Firmen, die werten sowas aus, so illegal das auch ist. Jetzt habt Ihr alle gerade gelacht, Kann ich mal um Handzeichen bitten, wer von Euch heute bei seiner Firma Urlaub genommen hat. Über jeden gibt es solche Daten. Glaubt mir. Und wir halten jetzt mal inne, und dann machen wir uns nochmal klar, was wir gerade gesehen haben und was die gesellschaftlichen Implikationen sind. Was wir gerade gesehen haben, ist Wissensgewinnung über interne Firmeninformationen und über höchstpersönliche Lebensbereiche. Und aus Daten, die erstmal gar nicht danach aussehen. Wir hatten ja eigentlich einen Satz Spiegelartikel. Und plötzlich, überraschend, haben wir gute Anhaltspunkte, wer mit wem was hat, und wir können Teamstrukturen erahnen. Und damit komme ich zu wichtigsten Message des Vortrags: Wenn Ihr Daten veröffentlicht, dann entscheidet nicht Ihr, was Ihr da veröffentlicht, das entscheidet der Gegner. Wir haben noch nicht einmal die Daten selbst betrachtet. Wir haben die Artikel selbst ja gar nicht angefasst. Was wir angefasst haben, waren nur Metadaten. Zeiten und Autoren, genau wie bei der Vorratsdatenspeicherung. Das sind ja auch nur Metadaten. Gebt mal ein paar Monate eurer Metadaten, einfach nur, wem Ihr wann Mails und Whatsapp geschickt habt und wann Ihr auf welchen Webseiten wart. Keine Inhalte. Danach kann ich Euch sagen, wer Eure besten Freunde sind, ob Ihr eine Affäre habt, wie Ihr sexuell orientiert seid, ob Ihr schwanger seid, ob Ihr eine Krankheit habt, was Eure politische Einstellung ist, wie euer Glaube ausgerichtet ist, und ob Ihr finanzielle Probleme habt und alles, was ich gerade vergessen habe. Das Missbrauchsprofil für einen solchen Datensatz, wie den der Vorratsdatenspeicherung, das kann man gar nicht in Worte fassen. Und ich will da überhaupt nicht mit Verschwörungstheorien anfangen, wir können ja mal alle glauben, dass die Vorratsdatenspeicherung für die Aufklärung von Verbrechen nützlich sein kann, das ist ja auch total plausibel. Und wir können ja auch mal glauben, dass die Person, die die Vorratsdatenspeicherung jetzt etablieren guten Willens sind. Lasst uns das einfach mal annehmen. Das heisst aber nicht, dass morgen keiner an die Macht kommt, der das vielleicht ganz anders macht. Was wir hier gerade erhalten, ist die Infrastruktur, für eine Generalüberwachung, die selbst George Orwell's Big Brother die Schamesröte ins Gesicht treiben würde. Applaus Und diese Überwachungsinfrastruktur, die stellen wir jetzt extra schon mal bereit für den Fall, dass eine zukünftige Regierung böswillig ist und sie nutzen will. Das ist, was gerade passiert. Jetzt haben wir einen kurzen Exkurs über Metadaten gemacht, und wir gehen jetzt zurück zu Spiegel Online, damit sich Eure Laune wieder hebt. Und deswegen kommt jetzt ein kleiner Einschub, den könnt Ihr dann direkt anwenden, wenn Ihr das nächste Mal Spiegel Online lest. Und danach machen wir mal ein bisschen was Grösseres. Als ich die Autoren aus den Artikeln rauslesen wollte, da war ich irgendwann ziemlich genervt. Also manchmal stehen die oben unter dem Titel, wie hier links im Bild. Oder die stehen unten, wie rechts im Bild. Und wenn die Autoren oben stehen, sind sie ausgeschrieben. Und wenn sie unten stehen, sind es Kürzel. Oben stehen sie im wirklichen Satz, hier zum Beispiel von Marcel Rosenbach. Und unten die Kürzel sind ohne Satz drumrum. Manche Autoren haben nur Vor- und Nachname. Manche Namen haben aber auch vier oder fünf Worte. Wie zum Beispiel der freundliche Herr Philip Alvares De Souza Suarez. Das habe ich mir extra hier aufgeschrieben, fünf Worte. Das ist ein Name. Also Data Science kann technisch nervig sein. Sagt nicht, ich hätte Euch nicht gewarnt. Und jedenfalls habe ich mir gedacht, wtf, warum stehen da Autoren in verschiedenen Formen und vor allem an verschiedenen Orten? Also habe ich mir mal das als Feature reingenommen, ob die Autoren oben oder unten stehen. Und dann habe ich Messwerte zwischen den beiden Artikelgruppen verglichen, Autoren oben und Autoren unten. Und es stellt sich raus, wenn die Autoren unten stehen, also nicht namentlich ausgeschrieben sind, ist ein typischer Artikel knapp 300 Worte lang. Wir sehen hier die Verteilung der Artikellängen von Artikeln ohne ausgeschriebenen Namen. Und nach rechts werden die Artikel länger, da wird es immer weniger. Und stehen die Autoren aber oben, sind also ausgeschrieben, ist ein Artikel typischerweise mehr als zweieinhalb mal so lang. Knapp 750 Worte. Man weiss schon, womit man gegoogelt werden will als Redakteur. Gelächter Und nochwas: bei den langen Artikeln ist auch nur bei ca. 2% eine Nachrichtenagentur mit dabei. Bei den kurzen ist bei knapp 80% eine Nachrichtenagentur mit dabei. Also Fazit für Euch zum mI t nach Hause nehmen: Wenn Ihr längere Artikel wollt, die Spiegel Online selbst verfasst hat, dann achtet drauf, dass die Autoren drangeschrieben sind. Wenn Ihr kurze Agenturmeldungen wollt, sind die Kürzel gut. Applaus Und wir hatten ja schon gesehen, dass am Tagesanfang primär längere Artikel erscheinen und das waren eben in Wirklichkeit die selbst geschriebenen. Morgens ist der Prozentsatz von denen vergleichsweise hoch. Und jetzt könen wir die Gelegenheit nutzen und einen Schritt zurücktreten und gucken, was wir bis jetzt gemacht haben. Und wir haben unsere Riesenmenge Artikel, immer auf äusserst einfache Art und Weise auseinander geschnitten und ausgewertet. Wir haben die in Wochentage oder Uhrzeiten auseinandergeschnitten. Oder in Rubriken. Und dafür, wie einfach diese Ideen sind, haben wir eigentlich ein paar ganz gute Ergebnisse bekommen. Aber, was wir noch gar nicht gemacht haben, ist uns dem Datensatz mal inhaltlich zu nähern. Und es wäre doch total cool, wenn wir die Artikelmenge mal nach den wirklichen Themen über die berichtet wird, auseinanderschneiden und auswerten können. Spiegel Online liefert uns hierbei auch eine gute Hilfe: Artikel werden dort verschlagwortet. Jeder Artikel bekommt von seinem Autor so um die 10 Keywords zugewiesen. Der Artikel links im Bild hat zum Beispiel die Keywords Politik, Ausland, Saudi Arabien und König Salman von Saudi Arabien. Also habe ich die Keywords mal ausgelesen. Ueber alle Artikel hinweg habe ich um die 65000 verschiedene Keywords gefunden. Und jetzt gucken wir, wie oft, welche Keywords zusammen in den selben Artikeln kommen. Und Keywords, die fast ausschliesslich zusammen vorkommen, die sind sozusagen verheiratet, die sieht man einfach als eins in der Auswertung. Und umgekehrt gibt es natürlich Keywords, die beide für sich genommen existieren, aber nie oder fast nie zusammen, die sind dann unverwandt. Und dann gibt es noch einen interessanten Mittelweg: Hier ist ein Beispiel. GelächterApplaus Artikel mit dem Keyword "Angela Merkel", die haben meist auch das Keyword Politik. Und umgekehrt ist das aber nicht so. Das Keyword Politik ist viel grösser. Und es gibt extrem viele Politikartikel ohne Angela Merkel. Und diese Keywords sind nicht die selben, aber es ist klar, die haben eine Verbindung. Und wir messen also für alle 65000 Keywords, paarweise, wie verwandt die so sind. Und dann verbinden wir Keywords, die stark verwandt sind mit so ganz strammen, dicken Federn. Ich meine jetzt wirklich Federn im physikalischen Sinne, die die Keywords zueinander hinziehen. Zwischen schwächer verwandten Keywords kommen schwächere Federn, die werden dann länger. Und jetzt machen wir eine Physiksimulation. und schauen zu, wie sich diese abertausenden Federn zurechtzurren. Verwandte Keywords werden jetzt tendenziell nahe beeinander layoutet und weniger verwandte nicht so nah. Was hier ensteht ist eine thematische Landkarte, von allen Sachen über die Spiegel Online in den letzten 2 Jahren berichtet hat. Und jetzt gerade sieht es so aus, als passiert da fast nichts mehr, aber gerade passiert die Detailarbeit. Das sieht man nur von soweit oben nicht. Und deswegen zoomen wir jetzt mal ganz weit rein, damit wir lernen, was wir da erschaffen haben. Hier ist die Volkswagen Abgasaffäre. Wie Ihr seht haben die Keywords unterschiedliche Grössen. Die Grösse der einzelnen Keywords spiegelt die Anzahl der Artikel wieder, die das Keyword innehaben. Und das sind sozusagen die Artikel, die in dem Keyword drinstecken. Und die Farbe zeigt an, was die vorherrschende Rubrik ist über alle Artikel, die in einem Keyword drin stecken. Dieses Okergelb heisst Wirtschaft. Passt! Der Witz ist, diese Darstellungsweise ist extrem mächtig und vielseitig. Über die Farbe der Keywords da können mit dieser Darstellungsweise noch viel mehr Infos rüberbringen, als nur, welche Themen verwandt sind. Und mit der Farbe können wir beliebige Messwerte anzeigen. Und wenn ich danach so farbige Keywordlandschaften habe, dann können wir sehen, ob es zwischen Thema und Messwert einen Zusammenhang gibt und das machen wir heute auch noch. Aber erstmal gucken wir ein bisschen weiter rum, hier sind verschiedene Flugzeugunglücke. Der Themenkomplex befindet sich zwischen Panorama - Grün und Politik - Rot. Wobei die politischen Anteile von dem Flugzeug kommen, das über der Ukrainisch-Russischen Grenze abgeschossen wurde. Jetzt versagt meine Singstimme. So besser. So hier ist Griechenland-Krise. Das ist offensichtloch ein Thema zwischen Politik und Wirtschaft rot und wieder oker und Wolfgang Schäuble ist da direkt mal als Aufpasser dazu-layoutet worden. Interessanterweise hat der keine Farbe, der ist grau und das ist nicht altersbedingt sondern das liegt daran, das es im Keyword Wolfgang Schäuble kein dominierendes Ressort gab und jetzt machen wir mal was Topaktuelles. Das ist die US-Wahl dieses Jahr. Wir sehen Hillary Clinton und Donald Trump und alles was da so drum rum wimmelt und das ist offensichtlich ein politisches Thema, es ist rot und man beachte, wie hier das Keyword Emails dazu-layoutet wurde. Und von hier aus machen wir uns jetzt mal die Größe der gesamten Landschaft klar. Ich weiss nicht, wer heute Morgen von euch in dem Vortrag über Mikroskope war, da hat der Vortragende immer und immer mehr reingezoomt, um klar zu machen wie klein die Sachen sind und wir machen das jetzt umgekehrt, wir wollen darstellen wie riesig die Landkarte ist und wir zoomen immer und immer mehr raus. Wir haben raus-gezoomt. Der alte Bildauschnit ist dick eingerahmt, damit ihr seht wo der ist. Und wir sehen, dass der US-Wahlkampf eingebettet ist in größeren Landstrich der Auslandspolitik. Links sehen wir den Bürgerkrieg in Syrien darüber der Islamische Staat und von da geht es über den Islamistischen Terror weiter nach Frankreich. GelächterApplaus Jaa, die Mathematik ist gnadenlos, ne. Oben sind die aktuellen Türkei-Thematiken, also das ist deren Putschversuch und deren Demokratur und rechts von der Mitte ist Russland und der Ukraine Konflikt und links unten ist Israel und der Nahost Konflikt und wir zoomen nch weiter raus. Hier ist nun die gesamte politische Landschaft, diesmal haben wir mit zwei Rechtecken markiert, wo wir herkommen wir kommen, ursprünglich von der US-Wahl und dann von der Auslandspolitik. Also die Auslandspolitik ist oben rechts und unten rechts ist der Inlandsteil und seit Neuem gibt es nen riesigen Knubbel, der in der Mitte, das ist die Flüchtlingsthematik, die ist mittlerweile so groß, wie eine eigene Unterrubrik und die ist als dritte Kraft genau zwischen Ausland und Inland etabliert, ja. Was ja auch genau passt. Wir zoomen nochmal weiter raus. Ja, jetzt kann man gar nichts mehr erkennne, außer verschieden farbigen Landschaften. Ich sag also mal, für eine grobe Orientierung, hier kommen wir her, das rote ist der Politikteil. Rechts darüber in giftgrün das Panorama. Das wird durchteilt von der Wirtschaft, die Kette von türkisen Clustern entlang der Unterseite des Hauptkontinentes ist die Netzwelt. Blau im Osten ist der Kulturteil und so weiter und so fort. Wir können jetzt nicht alle durchgehen, ihr seht, die Gebiete gehen noch ineinander über und wir wissen jetzt fast, wie riesig diese Landkarte ist, einmal rauszoomen haben wir nämlich noch. Hier ist die große weite Welt, ja den unteren Teil haben wir schon grob kennengelernt, und hier sind wir eigentlich her gekommen, und auf dem Rest der Welt, etwas entrückt ist die Wissenschaft, das ... Gelächter im Saal Applaus Ich sehe, ihr könnt das nachvollziehen und habt da auch mal gearbeitet. Gelächter Und ganz weit weg vom Hauptkontinent ist der Sport. Gelächter So, und jetzt sehen wir erstmal, wie gross das ist und wie breit der Spiegel angelegt ist und diese riesige Landkarte gibts übrigens bei mir auf der Website, da könnt ihr auch selbst drin rumforschen, wie in GoogleMaps, so drin rum scrollen, das macht auch mehr Spaß als wenn ich das hier nur vorkaue und darum gehts jetzt auch weiter. Wir wenden die jetzt an. Ja, Spiegel Online bietet unter sehr vielen Artikeln an, ja, ähmm, .. Publikum GemurmelGelächter Ich, das Gelächter geht los, bevor ich etwas gesagt habe. Ihr wisst doch gar nicht, was ich sagen will, ne? Das man seine eigene Meinung dazu äußern darf. Publikum und David Gelächter Und unter manchen Artikeln sperren sie diese Funktion aber, ne, einzelnes Gelächter und das untersuchen wir jetzt mal, Und ich hatte euch am Anfang des Vortrages gesagt, das Artikel direkt nach nen paar Minuten nach ihrem erscheinen von mir abgerufen werden, also wenn ich sag, das was nicht kommentiert werden darf, dann war das sehr wahrscheinlich, direkt vom Start weg so. So schnell randaliert kein Mensch. leichtes Gelächter im Publikum Also, bevor wir jetzt ne Themenlandkarte damit malen, schauen wir mal ganz kurz auf die zeitliche Entwicklung, der Kommentierbarkeit, und zwar einfach, damit wir ne Orientierung haben. In dem Plot sehen wir pro Kalenderwoche wieviel Prozent der erschienen Artikel kommentiert werden durften, und wieviele nicht. In Rot sind die Nichtkomentierbaren und Blau die Kommentierbaren und als ich 2014 angefangen habe runterzuladen, waren erstmal ne ganze Zeit so 80 Prozent der Artikel kommentierbar. Und genau seit dem Zeitpunkt der großen Flüchtlingsberichterstattung im Sommer 2015, ja, sinkt der (Graph) der Artikel der kommentierbaren Nachrichten kontinuierlich ab, und jetzt seit kurzem ist wirklich die Mehrzahl der Artikel ohne Kommentarfunktion, ne, dir rote Linie überholt die Blaue, und die Kommentierbarkeit wird übrigens nicht nur im Politikressort weniger, das passiert übergreifend in fast allen Ressorts und ob seit dem der Hass im Netz irgendwie themenübergreifend soviel schlimmer geworden ist oder Spiegel-Online jetzt einfach soviel Angst vor fiesen Kommentaren hat, das kann ich aus denn Zahlen nicht ablesen, das müsst ihr dann für euch selbst entscheiden. Interessant ist aber noch der kleine, grüne Plot im Bild, ne , das sind auch nicht kommentierbare Artikel. Aber bei denen steht so ein kleiner Entschuldigungstext dran, ja. Das hier die Kommentarfunktion wegen der Netikette und so weiter gesperrt ist. Ihr braucht das hier jetzt nicht lesen, ich bring das nur zur Ansicht, und diesen Entschuldigungstext haben sie zu Anfang der Flüchtlingsberichterstattung eingeführt und es scheint so, als war Spiegel-Online da selbst ein bisschen unwohl mit dem krassen Anstieg der Kommentarsperrungen. Aber wie man am Plot sieht, haben sie den Hinweis ganz flott wieder aufgegeben, obwohl die Kommentiermöglichkeiten immer und immer mehr gesperrt werden. So und jetzt gehts zur Landkarte. Wir färben ein Keyword röter, wenn unterdurchschnittlich viele Artikel darin kommentierbar sind und wir färben ein Keyword eher blau, wenn das Keyword überdurchschnittlich kommentierbar ist. Graue Keywords repräsentieren so den Durchschnitt, da dann so 70 Prozent kommentierbar und das gibt natürlich auch alle Farben dazwischen. Also wenn so'n Keyword wirklich aufleuchtet, dann ist das irgendwo am Ende der Skala oder am Anfang. Und die Landkarte stell ich auch bald auf meine Website, die jetzt kommt, da könnt ihr da auch selbst drin rumklicken. So, und wir fangen mal mit ein paar einfachen Sachen an. Ja ihr ahnt es, Sport darf man quasi komplett kommentieren, ja, knallblau. Und falls ihr euch fragt, was der knallrote Punkt da ist, das ist ein bestimmtes Artikelformat, das ist technisch ohne Kommentarfunktion. Sowas kommt schon mal vor, ich sag nur, weil ich gleich sonst 13 mal die Frage kriege. Und wo man in der Regel auch gut kommentieren darf, das sind Wissenschaftsthemen und Wirtschaftsthemen Hier sind die Bahnstreiks, ja. Da darf nach Kräften auf die Bahn eingekloppt werden. Gelächter Und wo wir schon von Streik reden, ist bestimmt jeder hier im Raum in Gedanken, bei der Lufthansa, die streiken ja als Hauptkonzernaktivität. Alles blau, ja Gelächer im Saal Alles blau, auch die dürfen fiese Kommentare abkriegen. Ich würd ja mitlachen, aber ich bin mit dem Flugzeug hier in Hamburg, ne Gelächter im Saal kleiner Applaus So, nach dem ganzen blau. jetzt mal was rotes. Knallrote Landschaft, ergibt sich um die Justiz. Das sind Berichte über die Kriminalität; Morde, Attentate, ja, "the full packedge" und hier will man eher weniger Lesekommentare, ja. So, die Justiz hat so 30 Prozent Kommentierbarkeit von den üblichen 70 Prozent. Hier ist die ganze Geschichte rund um den NSU-Prozeß. Der ist hier ja auch Thema. Tiefrot, ja, generell auch alles, was mit Rechtsradikal und Nazis und so zu tun hat, darf eher wenig kommentiert werden und der Kernknubbel hier, der hat so um die 18 Prozent, ja, ist also noch weniger als die Justiz und die waren schon rot. Was auch tiefrot ist, ist alles um die Flüchtlingsthematik und zwar nicht nur das Konkrete, sondern auch der weitergefasste Rahmen, Asylrecht und so weiter. Seht ihr sogar im Bild. Und von Aussen sieht das aus, als sperrt der Spiegel seine Kommentarfunktion komplett systematisch und zwar nach Themen, Ja? Und das wir sowas direkt visuell raus finden können, das macht diese Landkarte so unheimlich mächtig. Allgemein ist es in der Data-Science nicht nur wichtig richtig auszuwerten, es ist genauso wichtig, die Informationen möglichst anschaulich visuell aufzubereiten. So können dann nämlich auch Leute, die keine Informatiker sind, sofort komplexe Zusammenhänge erkennen. Es gibt ja nur eine Breitbandverbindung ins Gehirn und das sind die Augen. Richtig interessant wirds, wenn man mal guckt, wie Spiegel-Online die Kommentierbarkeit hart national ordnet. Das hier ist der ganze Nahost-Konflikt, um Israel, ja, wie ihr an dem satten Rot seht, zum Nahostkonflikt und Israel hat man bei fast allen Artikeln die Klappe zu halten. So und jetzt schwenken wir mal vom Nahost-Konflikt zum Ukraine-Konflikt. Ja lächelt seufzend akustische Aufruhr im Publikum Einzelapplaus Ja. Applaus Also. Ihr könnt euch mit nach Hause nehmen. Meine Damen und Herren: Russen bashen ist OK. Gelächter im Publikum Ja, was wir hier - Live und in Farbe - sichtbar gemacht haben, ist nichts anderes als unsere westliche Filterbuble. Die kann man messen. Zum Iran darf man seinen Senf dazugeben, zu Großbritanien auch. Zur Türkei, da ist Spiegel-Online sich noch nicht ganz sicher. Gelächter Und Frankreich ist interessant, diese Region der Landkarte, die möchte eigentlich blau sein aber die ganzen Keywords rund um die Terrorserie dort, die sind knallrot und die strahlen in die Nachbarn aus und das schauen wir uns jetzt doch mal ein bisschen genauer an, Das sind alles Frankreichartikel aber nach Zeit. Die blaue Linie ist das Aufkommen der kommentierbaren Artikel, die rote Linie wieder das Aufkommen der Nichtkommentierbaren und wir sehen: wie Frankreich von 2014 bis 2015 erstmal überwiegend kommentierbar ist und die blaue Linie ist über der roten, und hier ist die Terrorserie in Paris im November 2015 und es wird plötzlich enorm viel berichtet. Also sehen wir ne krasse Spitze am Frankreichartikeln, ne, und davon sind die Meisten nicht kommentierbar. Also: Frankreich an sich dürft ihr gerne kommentieren aber bezüglich der Anschläge dort bitte nicht. Und das Interessante ist, der Effekt wirkt fort, Seit der Terrorserie ist Frankreich generell nicht mehr so kommentierbar. Die rote Linie ist meist über der Blauen. Und jetzt tretten wir wieder einen Schritt zurück. Und natürlich sehe ich auch, das der Spiegel Themenbereiche aufgrund der Erfahrungen in der Verasngenheit sperren kann. Und generell müssen wir auch zugeben, das ist das gute Recht von Spiegel-Online zu entscheiden, wo und in welcher Form sie Anderen auf ihrer Seite ne Plattform geben und wo sie das eben nicht tun. Aber genauso ist es auch unser gutes Recht diese Systematik hier mal sichtbar zu machen. Und ich denke, das sieht insgesamt so aus als verböte Spiegel-Online genau zu denjeniegen Themen die Kommentierung, bei denen zu erwarten ist, das die Meinungen der Leser politisch nicht opportun sind. Ob das jetzt etwas über Spiegel-Online aussagt oder über seine Leser oder irgendwie ein gesamtgesellschaftliches Problem ist, das müsst ihr dann wieder selbst entscheiden. Was die Auswertung angeht, haben wir den Vortrag bis jetzt im Grunde zweigeteilt. Am Anfang haben wir die Artikelsammlung in nur wenige Töpfe unterteilt, und danach haben wir die Artikelsammlung in viel mehr Töpfe unterteilt, das sind die wenigen, jeder Artikel konnte sogar in mehreren Töpfen sein. Ne, das war ja so? Wenn nen Artikel mehrere Keywords hatte, dann war er auch in mehreren Töpfen. Und das war ne viel komplexere, aber auch viel mächtigere Art der Unterteilung. Und jetzt merkt ihr euch diese beiden Arten der Unterteilung mal kurz und damit machen wir was politisches, wir gehen über zum Thema Wahlkampf. Ja, Wahlkämpfe funktionieren grob so, das man die Menge aller Wähler auseinander schneidet, wie wir unsere Artikel auseinander geschnitten haben. Das heißt dann 'Voter Targeting'. Und bei der US-Wahl konnte man z.B. sagen man schneidet die Wähler grob nach Geschlecht, Hautfarbe, Alter und Gehalt. Das wird dann in der Tat auch so gemacht. Dann könnte man sozusagen allen schwarzen Frauen in Kalifonien, die zuwischen 30 und 40 sind und über 60.000 Dollar im Jahr verdienen, zugeschnittene Wahlwerbung schicken. Und das ist ne relativ grobe Art der Unterteilung und die ist sozusagen analog zu unseren groben Unterteilungen hier, auf der linken Seite der Folie. Aber was wäre dann die rechte Seite? Vor einiger Zeit hat dieser Artikel des Schweizer Tagesanzeiger die Runde gemacht. Ich bin sicher viele von euch kennen den, der ging ziemlich durchs Netz, der wurde am Tag 13 mal als Lesebefehl geschickt, und so weiter und so fort. Also ich glaube, ich habe den bestimmt 50 mal bekommen, weil ich mich halt auch mit dem Maschinen-Learning auseinandersetze. Und in dem Artikel steht im Grunde, das ne Datenanalysefirma es geschafft habe, eine extrem feine Unterteilung von Wählern hinzukriegen. Das wäre, sozusagen, analog zu unserer sehr mächtigen Themenlandkarte. Und in dem Artikel steht weiter, das hätte diese Firma sowohl für die Präsidentschaftswahl, als auch für das Brexit-Referendum gemacht. Und es wurde dann behauptet, deswegen wäre Trump gewählt worden und deswegen wäre der Brexit durchgekommen. Das ist natürlich spooky. Und das verkauft sich gut. Ja - uijuijuijuijui - Die selbe Firma hinter Trump und hinter dem Brexit, ja, da glüht der Aluhut, wirklich. Gelächter Applaus Und die sagen, ihre Unterteilung der Wählerschaft sei so fein, das man jedem Wähler seine genau passende Wahlwerbung schicken könnte. Und sie sagen nicht nur das, sie sagen sie können das sogar noch genauer, sie können sogar den Gesprächston treffen, so dass der Wähler wahrscheinlich drauf hört. Generell würde ich sagen, ne, tiefer hängen. Es ist überhaupt nicht klar, was die Firma den beiden Wahlkämpfen überhaupt wirklich gebracht hat. Die Infos kommen im wesentlich nämlich von der Firma selbst und ich glaube, ehrlich gesagt ja, da hat die Firma einen hervorragenden Vertriebler geschickt und der hat dann wirklich der Presse einen brillianten Vortrag gehalten und die Presse hat's dann einfach gekauft. So und die Kernaussage ist doch nur: Ihr könnt jetzt Wahlwerbung bekommen, oder Werbung im Allgemeinen, die extrem genau auf euch zugeschnitten ist und euch so effizienter zu Dingen verleitet. Mit anderen Worten: Endlich kriegen nur noch diejenigen Viagra-Spam, die das Produkt auch wirklich benötigen. Das ist ja zunächst mal nicht schlimm. verhaltendes Gelächter Ja, Aber kaufen und eben wählen, das müssen die Leute schon noch selbst, es ist nicht so das BigData die Leute fernsteuert. Das müssen wir schon festhalten, also man könnte sagen: Wer vor so zielgerichteter Werbung Angst hat, der sollte vielleicht die eigene Urteilsfähigkeit hinterfragen. Applaus Ja. Ja. Bestimmt haben auch ein paar von euch diesen Gedankengang gehabt und an der Stelle hat ich keinen Applaus erwartet. Sich selbst haben sie sich ein bisschen bruhigt, mit diesem Gedankengang. Das Problem ist nur, ich glaube, die eigene Urteilsfähigkeit hinterfragen, das macht kaum einer. In der Realität wählen die Leute doch irgendwie denjenigen, der ihnen am meisten, am emotional passensten, kurz vor der Wahl was zubrüllt. Ja. Und so laufen Wahlen. Das ist ja auch politisch so gewollt, Wo kämen wir auch hin, wenn Wahlen irgendwie langfristigen Erfolg belohnen würden, ne. verhaltendes Lachen Und dieses emotionale Zurufen und das geht mit so höchst personalisierter Werbung urplötzlich, unglaublich effizient. Und das bedeutet, ja, Data-Science-Techniken können Wahlen beeinflussen. Ja vorhin hatte ich die Voratsdatenspeicherung angeprangert ja ich bin ja auf dem CCC, also vermute ich, dass die Meisten von von mit mir einer Meinung waren. Und damit kommen wir genau zum Punkt; Wisst ihr, was die Firma aus dem Artikel genommen hat, um die Wähler so ultragenau zu vermessen? Das waren überhaupt gar keinen staatlichen Überwachungsdaten, das waren Facebook-Likes. Also Daten, die die Leute selbst über sich ins Netz gestellt hatten, ne. Und es ist wichtig mit staatlicher Überwachung kritisch zu sein. Ja das dürfen wir und das müssen wir auch, wenn wir kein Unrechtsstaat werden wollen. Aber wenn wir dann gleichzeitig völlig unkritisch sind mit uns selbst, ja, und wirklich jeden Mist ins Facebook oder ähnliche Plattformen pumpen, ja, dann haben wir nichts gewonnen. Applaus Mein Vortrag neigt sich dem Ende zu. Es kommen jetzt noch zwei Sachen: eine kleine Überraschung und dann habe ich noch ne Bitte an euch alle. Und zuerst gibt es die Überraschung. Ja, habe ich vorhin gesagt, ich hätte 100.000 Artikel von Spiegel-Online geladen? Ich meinte über 700.000 Applaus Ne, ich lade jeden Artikel nicht nur einmal runter, wenn er erscheint somdern mehrfach in wachsenden Zeitabständen. Und mit anderen Worten, wir können messen, was in Artikeln geändert wurde. Gelächter Applaus So und aus Zeitgründen, gibts damit keine riesen Auswertung. Erstens aus Zeitgründen hier im Vortrag aber auch zweitens aus persönlichen Zeitgründen ne, ich muss irgendwann auch nochmal arbeiten. Aber wir haben ne kleine Demo. Ich hab zum Beispiel mal geguckt, ob Titel geändert werden, ne. Und bei sowas findet man einfach lustige Sachen. Es gibt nicht nur den Titel, der hier offensichtlich ist. Sondern es gibt auch zusätzlich den Html-Titel, die Techniker unter euch kennen den. Der wird oben im Browser angezeigt und auch die Html-Titel erfasse ich natürlich. So und am 21.Januar - wobei der hier sichtbare Artikel ist am 20. Januar 2015 rausgekommen - und am 21.Januar und das war einen Tag nachdem der Artikel erschienen war, wurde mir angezeigt: Der Html-Titel hat sich geändert aus "SAP wächst 2014 langsamer als geplant." Ich hab mich dann gefragt: He, warum wurde er denn geändert, ja also wie war der vorher. Ganz einfach: Als der Artikel rauskam, wuchs nähmlich nicht SAP sondern der SAP-Chef wuchs langsamer als geplant. Gelächter Sowas finde ich an sich ganz sympatisch, Gelächter denn es zeigt, das bei Spiegel Online noch Menschen an den Texten sitzen und keine Computer und im Moment heisst der Artikel übrigens: SAP kann Wachstums- und Gewinnziele nicht erfüllen. Also das hat nochmal irgendwem nicht gefallen, ne. Und irgendwann zwischendurch haben sie es nochmal geändert. Also, jetzt wisst ihr erst, wie mächtig der Datensatz tatsächlich ist. Ich hab von jedem Artikel diverse zeitlich versetzte Versionen und das erlaubt natürlich viel, viel krassere Auswertungen und damit fang ich aber selbst erst an und deswegen ist heute noch so wenig davon im Vortrag, aber das war meine Überraschung und jetzt kommt meine Bitte. Ihr habt jetzt alles mögliche gesehen und wir haben Artikel auf einfach und komplexe Weise unterteilt. Wir haben gesehen, das verschiedene Arten der Unterteilung und Darstellung verschieden mächtig sind und wir haben verschiedenste Features aus den Artikeln gelesen: Rubrik, Zeiten, Kommentierbarkeit Autor. Jede Menge weiterer Features sind denkbar. Auch kompliziertere Features ja. Man könnte zum Bsp für jeden Artikel die darin enthaltenden Links raus ziehen und dann gucken, ob bestimmte Autoren Kumpels haben, auf die sie oft verlinken. Der Fantasie sind wirklich keine Grenzen gesetzt. Und zum Schluss haben wir sogar gesehen, wir können für jeden Artikel messen, was verändert wurde, ne. Wir können z.B. gucken, wo die Leser am meisten randalieren. Da guckt man, indem man guckt, wo die Kommentarfunktionen erst geöffnet und später dann geschlossen sind. Also meine Bitte an euch, jeder der hier zuguckt, schickt mir bitte einen Mail mit seinem kreativsten Auswertungsideen für den Datensatz. Und in dem Zusammenhang hab ich noch ne Message, die ihr euch auch mitnehmen könnt. Wenn ihr was im Bereich der Data-Science macht, Rohdaten sind geil. Gelächer Applaus Behaltet immer alle Rohdaten, wenn ihr es irgendwie vom Speicher bezahlen könnt. Ne, dann könnt ihr nämlich im nachhinein alles mögliche tun. Ich hab alle Rohdaten komplett da. Das sind über 60 GB pures HTML. Gelächter Und neue Features im nachhinein dazu auswerten, ist deswegen überhaupt kein Problem. Darum bitte, bitte, lasst eurer Fantasie freien Lauf. Erfindet neue Features, erfindet wonach die ausgewertet werden sollen. Schickt mir einfach, was ihr euch denkt, ja. Vieleicht ist nicht alles, was ihr wollt möglich und vielleicht schau ich auch nicht alles sofort. Ich bin ja auch berufstätig und zum Jahresanfang werde ich stramm eingespannt sein Aber ich versuch was möglich zu machen. Also einfach einschicken. Seit kreativ. Und damit bleibts mir nur noch, ein dickes Dankeschömn zu sagen dafür das ihr diese Stunde mit mir verbracht habt. Hier sind noch die Links. Und bis dann. Applaus JubelApplaus Herald: Ganz so schell wirst du natürlich noch nicht entlassen, weil wir haben noch unsere Fragerunde. Erstmal herzlichen Dank, immer schön zu sehen, wie die Mathematik doch spannend sein kann, um eben solche Daten zu analysieren. Und ja, wie immer, wenn ihr Fragen habt, tretet vor zu den Mikrofonen. Und alle die schnell, ich glaube nebenan startet der Jahresrückblick mit Fefe oder David Kreisel: Ne der Fefe sitzt da vorne im Publikum. Herald: Ach ja, der sitzt noch hier. So schnell wird er dann drüben noch nicht starten, vielleicht wollen die schon mal einen Platz. Genau. .... Wo haben wir Fragen, an Mikro 3, beginnen wir dort: Mik 3: Hi, super Vortrag, fand ich echt Klasse. Was mich mal interessieren würde: Hast du mal geguckt, ob die Split testen und die Artikel-Überschriften ändern anhand von wieviel Leute drauf klicken oder sowas? David: Ja das würde man messen daran, wie viele verschiedene Titel man so findet und wenn diese Zahl der durchschnittlichen Titel pro Artikel ansteigt, dann passiert das und wenn ich das richtig interpretiere dann testen sie das gerade. Also es ist noch nicht übergreifend, es ist immer nur so stossweise, vielleicht will mich auch einer korrigieren von Spiegel Online, aber so wie meine Daten aussehen, ja hab ich getestet, sie versuchen es gerade. Also was ist Splittesten? Vieleicht mal fürs Publikum. Man veröffentlicht Artikel mit verschiedenen Titeln und dann guckt man, wo am meisten Leute klicken, bei welchem Titel und der Titel darf dann weiter leben. Ihr verändert also durch euren Besuch direkt die Nachrichtenseite. Mikro 1: Ja hi. Ich wollte fragen, ob du auch Spiegel-plus Artikel, die es ja seit Mitte diesen Jahres, glaube ich, gibt mit einbezogen hast und wenn ja, hast du einen plus Account? David: Äh, ja. leichtes Gelächter im Publikum Ich habe die mit einbezogen, ähm, und natürlich habe ich auch einen plus-Account, der das vollautomatisch entschlüsselt, räusper und dazu also Gelächter wenn einer Näheres - Ich hab mich da wahnsinnig geärgert - kurz - als die plus-Artikel rauskamen, weil ich die nicht auf Anhieb de-krypten konnte. Und dazu gibts jetzt bei mir einen Blogartikel, seitdem, wie man die de-kryptet. Applaus Ich muss übrigens mal was Positives sagen, die Spiegel plus Artikel sind im Median 1100 Worte lang, also man muss schon sagen, da kriegt ihr auch was fürs Geld. leichtes Gelächterleichter Applaus Mikro 7: Hast du im Rahmen deiner Analysen auch auf die Inhalte geguckt, das du vielleicht die Worthäufigkeit analysiert hast und die Zuordnung zu Ressorts oder zu Schlagworten anhand der Inhalte abgeglichen hast, um vielleicht raus zufinden, ob die Verschlagwortung vollständig oder richtig ist. David: Ne hab ich noch nicht gemacht. Man kann ja die Schlagworte nehmen und da hab ich es mir bequem gemacht oder man versucht jetzt ne Analyse zu machen, was die relevanten Worte im Artikel sind und das hab ich noch nicht gemacht, Das wären dann sozusagen die schöneren Schlagworte. Aber ne, hab ich noch nicht gemacht. Herald -Frage aus dem Internet: Signal Angel: IRC möchte wissen, welche Software du benutzt hast, um die Daten zu sammeln. zu analysieren, zu visualisieren und ob es die Daten irgendwo gibt, außer bei dir. David: OK. Nein gibts noch nicht, irgendwo außer bei mir, weil ich mir auch gar nicht sicher bin, ob ich die verteilen darf. Ich benutze den Python Data Stack und die Software zum runterladen hab ich mir selbst geschrieben, die läuft auf einem meiner Server und darüberhinaus nutze ich Pandas für die Analyse, das ist auf Python aufbauend und dann diese ganze MaschinLearning Sachen da drüber scikit-learn. Also den ganzen Py DataStack googelt danach einfach, da findet ihr viel und zum Visualisieren hab ich hier Tableau genommen, das ist ne Visualisierungssoftware. Die schon voragregierte und vorerechnete Daten bis zu ein paar GigaByte ganz gut verkraftet und da kann man sehr schnell schöne Visualisierungen draus ziehen und zum Visualisieren der Graphen hab ich Gephi genommen. Mikro 4: Hast du Daten Real-Time analysiert oder alles im nachhinein gemacht? David: Ich versteh die Frage nicht. Mirko: Ob du die Daten während du sie gesammelt hast analysiert hast? David: Ach so, ne. Das wird alles rohdatenmäßig gesammelt, dann wird das im weiteren Schritt erst mal, werden die Rohfeatures rausge-parsed und das sind dann so wenige, das sie in der Tat dann in einen RAM passen und ich dann darauf weitere High-Level Feature machen kann. Das passiert so in 3 Layern. Also es ist nicht direkt dabei aber während wir hier gesprochen haben, ist schon wieder 10 mal runter geladen worden. Insofern ist das schon gleichzeitig zum Runterladen. Das Runterladen geht weiter. Mikro 3: Eine Idee für die Auswertung: Du könntest mal gucken, ob bestimmte Wortgruppen in älteren Artikeln nochmal vorkamen, um zu sehen welche zusammen kopiert wurden. David: Du meinst, ja ja , so ne Auswertung im Sinne von: In jedem Artikel kriegt ihr durchschnittlich 73 Prozent neuen Content quasi, ja? Gelächter Mikro: Ja David: Guter Punkt Applaus David: Machen wir so. Mikro: Hallo, ich wollte nur kurz einen Denkanstoss geben, ich formuliere das mal als Frage. Könnte es sein, das diese Nichtkommentierbarkeit von Israel-Artikeln auch einfach ein Ressourcen-Problem ist, weil es da vielleicht mehr aus juristischen Gründen zu zensieren gibt für die Redaktion? David: Das kann selbstverständlich sein. Ja natürlich. Mikro: Z.B. gibt es ja durchaus Sigularitäten mit dem deutschen Strafrecht, das man bestimmte Sachen nicht sagen darf. David: Ja. Also, hätte es nur Israel erwischt, hätte ich das auch sofort auch gedacht. Aber ja kann natürlich sein. Das ist auch so ganz wichtig an so Data-Science, ich hab das hier jetzt teilweise bisschen ketzerisch vorgetragen aber natürlich müsst ihr schon selbst nochmal gucken, was ihr aus den Daten folgert. Ja natürlich, das kann sein. Am besten wissen das natürlich nur die Spiegelleute. Aber Israel war ja nicht der einzige Punkt der nichtkommentierbar war und zur reinen Justiz gibt es keine Singularität im deutschen Strafrecht. Mikro 6: Hallo David, vielen Dank für den Talk. Hast du überlegt die Software irgendwie Open Source anzubieten , so dass man sie z.B. für andere Quellen anpassen kann. Tagesschau etc. David: Hab ich nicht überlegt. Aber ehrlich gesagt, so aufwendig ist es auch nicht. Ihr schreibt euch nen Script, was euch alle paar Minuten mal losläuft und die Artikel runter lädt und das speicherst in einer Datenbank fertig. Also das Open Source, ist das uninteressanteste was es gibt. Ddas findet ihr in 1000 Varianten sauberer als ich das gemacht hab nochmal, glaube ich. Aber ja, man könnte mal eine Vergleichsauswertung mit anderen Medien starten, ja. Mikro 1: Wie hast du den Strain aus deiner Karte entfernt, du hast da ne ganze Menge Dimensionen auf zwei Dimensionen runter gebrochen .. David: Den was aus meiner Karte entfernt? Mikro: Die Spannung, weil du hast ja sehr viel Dimensionen auf zwei Dimensionen reduziert ... David: Ja, Mikro: .. und wie hast du sichergestellt, das jetzt nicht Inseln bei einander sind, die gar nicht zusammen gehören oder manche anderen nicht beieinander sind, die aufgrund von Inseln, die dazwischen liegen nicht nah genug zueinander kamen. David: In der Theorie kann man das nie ausschliessen, aber in dem Graoh steckt sehr viel Verfahren drin. Also ich hab zunächst mal zugesehen, das ich überhaupt nur die wichtigen Kanten pro Knoten behalte, sonst hat man wirklich viel zu viele Kanten und dann gibts da professionelle Graph-Layouting-Verfahren für, also Gephi bietet was, das heißt VsAtlas 2 und das war das, was ihr in den hübschen Video gesehen habt, damit geht das sehr gut, Also du must das natürlich ein bisschen Schmakes da rein investieren, wie du die Kanten vorher ausfilters und dann, dann bist du immer noch nicht sicher in der Theorie, aber dann siehst ja, ob das Bild gut wird oder nicht. Mikro 2: Du meintest, du warst im Oktober beim Spiegel, wie war den deren Reaktion zu deinen Analysen? David: Positiv, also, ob das jetzt nur daran lag, dass die sowieso nichts dagegen tun können, weiss ich nicht, aber ehrlich gesagt, Gelächter hab ich das als sehr positiv und interessiert wargenommen und auch ich hab was gelernt und das war eigentlich einen ziemlich cooler Termin, also sportlicher als die Kollegen bei Xerox sag ich mal. großes GelächterApplaus Mikro: Ist vielleicht ne Suggestivfrage, vielleicht auch in Richtung, wie man weiterforschen könnte. Das Verfahren, das du benutzt hast, um die thematische Nähe verschiedener Tags zueinander zu bestimmen, wäre es mathematisch ACHTUNG: Mathematiker-Kauderwelsh .. nicht korrekter, wenn du eine singuläre Zerlegung der Adjazentmatrix dieser Schlagworte baust, ähnlich wie Google Page Rank das gemacht hat. David: Ja. Aber dann kann man nicht so einen schönen Graphen draus basteln und es kommt wahrscheinlich was ähnliches raus, sein wir ehrlich. Ich sehe ja die Werte der Kanten und wahrscheinlich ist es am Ende das Selbe. Mikro: Ja wenn du genug Dimensionen benutzt ist es äquivalent. David: Ja. Alles ist still, Mensch. Mikro 3: Nochmal kurz zu den Landkarten, das sind irgendwelche MonteCarlo Methoden diese Springs ... David: Ja Mikro: ... im Endeffekt positionieren, wie stabil sind die? David: Ich denke, ich hab mich da in die Theorie nicht eingearbeitet weiter, es würde mich wundern, wenn du da ne Stabilität drüber nachweisen könntest. "Fest steht, sie sind etabliert für große Graphen." weil da ist sowieso nix mehr zu planarisieren in der Größe und dann sieht man halt zu zu iterieren bis es stimmt und wenn es schlecht aussieht, dann drückt man nochmal auf den Startknopf. Also so ist wirklich die Praxis. Mikro: Hallo. Hast du mal Markov auf deine Daten geworfen, um Spiegelartikel zu generieren. GelächterApplaus David: Nein! Könntest du mir bitte damit eine Email schicken? Gekiecher und Gelächter im Saal Mikro: Sehr gerne. David: Oh wir haben Spaß, ich seh das schon .. GelächterApplaus D: Da machen wir aber nicht nur die Artikel Generierung sondern dann wird bitte auch direkt dazu generiert, zu welchem Thema kommentiert werden darf und zu welchen nicht, ne ... vereinzeltes Gelächter Ruf aus dem Publikum: Autoren generieren David: Autoren generieren, das ist auch schön, ja. Gelächter Herald: So wir sind auch am Ende unserer Zeit. Wer noch Fragen hat, du bist sicher gleich noch ... David: Ich geh hier jetzt da raus, zur nächsten Bierbar, die da ist, falls die nicht vor Saal 2 ist, ist die vor Saal 1 dann bin ich da. Wir machen jetzt DDos auf die Bierbar. Ja. Applaus Herald: Ja ist ja auch Zeit. Applaus Herald : Auch von mir auch nochmal ein Herzlichen Dank .... 33c3 - Abspann-Musik Untertitel erstellt von c3subtitles.de im Jahr 2017. Mach mit und hilf uns!