Wikipaka Intro Musik Florian: Herzlich willkommen zu unserem Talk "Wir wissen, was ihr letzten Sommer gesagt habt". Wir sind sehr aufgeregt und freuen uns sehr, dass wir das heute vorstellen dürfen. Wir sind Philip Koch und Florian Richter und wir wollen euch heute unser Projekt Open Discourse vorstellen und inwiefern Open Discourse die Transparenz des Bundestages erhöhen kann. An Open Discourse haben wir die letzten anderthalb Jahre gearbeitet, in einem Team von insgesamt neun Personen. Und genau. Worüber wollen wir euch eigentlich heute erzählen? Für Open Discourse haben wir die Plenarprotokolle des Deutschen Bundestages aufgearbeitet und die Plenarprotokolle seht ihr hier auf der rechten Seite, die sehen so aus. Das heißt für jede Sitzung im Bundestag gibt es Stenograph:innen, die jedes gesprochene Wort von den Parteien bzw. von den Politiker:innen, die gerade eine Rede halten, aufzeichnen. Und außerdem wird auch jeder Zwischenruf, jede Reaktion aus dem Plenum mit aufgezeichnet. Diese Plenarprotokolle stellt der Bundestag zur Verfügung, seit 1949. Allerdings als PDF- Dokument. Das birgt natürlich einige Probleme, weil PDF Dokumente sind nicht gut durchsuchbar, weil wir jetzt z.B. nicht gezielt suchen könnten, was ein bestimmter Politiker einer bestimmten Partei im Jahre 1950 beispielsweise gesagt hat. Das heißt, das ist das Problem, das wir eigentlich haben. Aber eigentlich beinhalten diese Plenarprotokoll ziemlich viel wertvolle Information. Weil beispielsweise natürlich die einzelnen Redebeiträge, die Zwischenrufe usw, diese sind aber als Fließtext in diesem PDF enthalten. Das heißt, wir brauchen eigentlich irgendeinen Weg, um das herauszubrechen. Und genau, das gab's bisher noch nicht. Mit Open Discourse haben wir es jetzt erstmals geschafft, seit 1949 alle Reden, alle Zwischenrufe, alle Reaktionen und so weiter herauszuarbeiten. Warum machen wir das eigentlich? Die Motivation hinter Open Discourse beruht im Kern darauf, dass wir davon ausgehen oder wir finden, das Plenarprotokolle eigentlich eine ziemlich wertvolle Ressource sind und die Debatten im Bundestag ja eigentlich so transparent wie möglich stattfinden sollten. Das heißt, wir alle haben ein Recht darauf, auch noch nach 20 Jahren zu wissen, was eine bestimmte Politikerin oder ein bestimmter Politiker zu einem bestimmten Thema gesagt hat. Was auffällt, wenn wir uns Plenarprotokolle und die Befassung mit Plenarprotokollen ansehen, ist, dass das vor allen Dingen in der deutschen Politikwissenschaft eigentlich ein Thema ist, das nicht besonders oft angefasst wird. Es ist unterrepräsentiert in der Forschung. Das hat mehrere Gründe: Zum einen.. oder zwei Hauptgründe wahrscheinlich. Zum einen ist die deutsche Politikwissenschaft eher aus der politischen Ideengeschichte erwachsen. Das heißt, man kümmert sich eigentlich eher qualitativ um Texte als quantitativ. Das ändert sich in den letzten Jahren ein bisschen. Aber im Kern befasst sich die deutsche Politikwissenschaft immer noch relativ wenig mit dem Plenardebatten. Und der große Grund dafür ist dann natürlich auch, dass diese Plenarprotokolle bisher noch nicht maschinenlesbar und nicht leicht auswertbar vorlagen. Man kann sich vorstellen, wenn man jetzt nach einer gezielten Fragestellung die Plenarprotokolle untersuchen möchte, müsste man im Zweifelsfall über 4 000 Protokolle händisch durchlesen, um zu schauen: In welchem Protokoll steht jetzt irgendeine Information, die wichtig ist für meine Fragestellung. In den letzten Jahren sehen wir aber, dass das Interesse an diesen Plenarprotokollen zunehmend wächst. Und an der Stelle haben wir uns gedacht, als Team aus in erster Linie Data Scientists und Software Developern, dass wir eigentlich die Skills dazu haben, diese Daten aufzubereiten und der Öffentlichkeit zur Verfügung zu stellen. Genau. Das ist also der der aktuelle Stand. Wir haben das große Problem, dass es keine einfache Möglichkeit gibt, diese Plenarprotokolle zu durchsuchen und diese Plenarprotokolle auch nicht maschinenlesbar sind, wir also keine aktuellen Analysemethoden über diesen Textkorpus laufen lassen können. Unsere Ziele, die wir uns gesetzt haben für dieses Projekt, waren mehr Transparenz des politischen Diskurses in Deutschland, eine detaillierte Durchsuchbarkeit der Plenardebatten, ein öffentlicher und möglichst niedrigschwelliger Zugang zu diesen Daten, die Anschlussfähigkeit unseres Projektes, damit dieses Projekt weiterentwickelt werden kann, dass neue Projekte daraus entstehen können. Und natürlich, dass mit diesen Daten auch geforscht werden kann und wir demnach ein wissenschaftliches Niveau für diese Daten brauchen. Ok, kurz zum Status Quo. In den letzten Jahren, wie gerade angesprochen hat sich natürlich das Interesse für diese Plenarprotokoll deutlich erhöht. 2017 beispielsweise gab es das sehr spannende Projekt Offenes Parlament, was von der Open Knowledge Foundation getrieben wurde oder durchgeführt wurde. In diesem Projekt wurden die Plenarprotokolle der 18. Wahlperiode aufgearbeitet und diese waren dann auch granular durchsuchbar, das heißt, wir hatten Dimensionen zum Datum, zum Inhalt der Redebeiträge, welche Person diesen Redebeitrag gehalten hat usw. Ebenfalls 2017 und 2018 kamen die Projekte ParlSpeech und GermaParl und wurden veröffentlicht. Das sind zwei wissenschaftliche Projekte, die ebenfalls sehr granular die Redebeiträge aufbereitet haben des Bundestages. Allerdings im Falle von ParlSpeech, die haben dieses Jahr nochmal ein Update von ihrem Datensatz gemacht. Reicht jetzt von der 12. bis 19. Wahlperiode. Bei GermaParl sind aktuell die 13. bis zur 18. Wahlperiode abgedeckt. D.h. wir haben da auch nicht den kompletten Umfang der Plenardebatten. Und an dieser Stelle vor einem Jahr haben Martin Haars und Kai Biermann das Projekt vorgestellt, das Zeit Online veröffentlicht hat, wo das erste Mal alle oder jedes gesprochene Wort seit 1949 bereitgestellt wurde und es möglich war, eine Keyword Suche über diesen Korpus zu laufen zu lassen. Das heißt, man konnte dadurch erstmals schauen: Wie hat sich beispielsweise das Keyword Umweltschutz in den Debatten dargestellt? Wie hat sich das verändert über die Zeit? Genau. An dieser Stelle gebe ich jetzt an Philipp weiter und er wird euch mal erklären, was wir jetzt eigentlich mit Open Discourse noch zusätzlich machen können. Philipp: Genau. Also wir sehen so ein bisschen oder wir erinnern euch oder viele von euch erinnern sich vielleicht an den den Talk von Martin Haase und Kai Biermann vor einem Jahr. Da haben die gezeigt, wie sie diese Worte über die Zeit analysiert haben und haben auch gezeigt, welche Beschimpfungen in Deutschen Bundestag relativ typisch waren. Also wir haben sowas wie Heuchler und Lügner:in und Idioten und Lümmel und Flegel. Und nur um da so ein Stück anzuknüpfen und um zu zeigen, wie wir an dieser Stelle ansetzen können und das ein Stück weiter denken können, hab ich euch das mal mitgebracht und hab euch mal geplottet über die Zeit, wie häufig mit welcher relativen Häufigkeit Beschimpfungen im Deutschen Bundestag passiert sind. Und wir sehen, dass es eine Zeit gab, in der mal mehr und mal weniger beschimpft wurde. Und was wir jetzt aber machen können mit dem Open Discourse Datensatz: Wir können neue Dimensionen hinzufügen, denn wir haben nicht mehr nur das reine gesprochene Wort, sondern wir haben all die Metainformationen, weil wir wissen, wer dieses Wort gesprochen hat. Ich kann also gucken, ob Männer oder Frauen mehr geflucht haben und ich stelle fest, dass Männer mit großem großem Abstand mehr fluchen als Frauen. Männer sind diejenigen, die das treiben im Deutschen Bundestag, und die fluchen und beschimpfen und beleidigen. Wenn ich die Frauen dagegen plotte - Das erste Mal, dass eine Frau im Deutschen Bundestag mit der Auswahl dieser Beschimpfungen geflucht hat, war 1977 ungefähr. Und auch so reden Frauen deutlich, deutlich deutlich weniger quasi in diesem Wortschatz. Und das Ganze können wir jetzt immer und immer weiter berechnen, denn wir haben mit Open Discourse die Dimensionalität, um diese Fragestellungen zu beantworten. Fluchen war z.B. früher ein Thema von Doktor:innen. Das heißt, Abgeordnete mit einem akademischen Grad haben deutlich mehr geflucht und erst in den 85er Jahren haben dann auch nicht Doktor:innen angefangen, stärker zu fluchen und Beschimpfungen in ihren Wortschatz aufzunehmen. Wir können weiter reingucken und können gucken, wer denn eigentlich flucht. Also wenn ich jetzt mal vergleichen möchte, wie die die Mitte rechts und die Mitte Links Fraktion im Deutschen Bundestag, wie die sich unterscheiden in ihrer Nutzung von Schimpfworten, dann kann ich feststellen, dass ungefähr seit den 85er Jahren das Fluchen eine typisch linke Disziplin ist. Das ist in der Mitte Links Fraktion ziemlich verortet, jetzt in dem Fall hier definiert als SPD, Linke, PDS und Grüne im Vergleich zur CDU, CSU, FDP-Fraktion, die ein gutes Stück weniger flucht. Wir können auch bis auf die einzelne Person runtergehen und wir können die Gewinner im Beschimpfen des Deutschen Bundestages seit 1949 küren. Vielleicht hat jemand von euch eine Idee, wer da so drinsteckt. Auf Platz vier ist es Norbert Blüm von der CDU. Auf Platz drei ist es Carlo Schmidt von der SPD, ein bisschen früherer Politiker. Auf Platz zwei, Ottmar Schreiner von der SPD. Und auf Platz eins ist es Franz Josef Strauß von der CSU, der mit großem Abstand die meisten Flüche im Deutschen Bundestag gesprochen hat. Ihr seht also: Das, was wir mit Open Discourse machen können, ist, wir können dem gleichen Projekt, was auch die Kollegen von der Zeit haben, Mehrdimensionalität hinzufügen, weil wir in unserem Korpus eine Realität abbilden können und den gesamten PDF-Datensatz quasi komplett als Datenbank-Struktur verfügbar gemacht haben. Das heißt, was wir früher konnten ist, wir konnten Worte über eine Zeit plotten. Das war so der Status quo. Und was wir jetzt gemacht haben ist, wir haben diesen Fließtext, dieses PDF umgebrochen in eine Datenbankstruktur und können das jetzt beliebig filtern und beliebig analysieren und können da sehr, sehr, sehr tief in die quantitativen Analysen gehen. Das heißt, wir fügen diesen Plenardebatten mehr Dimensionalität hinzu. Früher also Worte und Zeit und heute eben auch, welche Person gesprochen hat und damit eben auch welche Fraktion, welche Regierungsposition, welches Geschlecht, welches Alter hat der oder die Sprechende? Was ist der Beruf der sprechenden Person? Der akademische Grad, die Jahre im Bundestag? Der Geburtsort, der Adelstitel. Und wir haben natürlich auch alle Reaktionen und Interaktionen des Bundestag. Das heißt, wir können genau gucken, welche Personen, welche Fraktion lacht oder amüsiert sich oder klatscht. Und welche Einzelpersonen sind es denn, wenn es irgendwelche Zwischenrufe sind? Und wenn wir uns das so einer Größe angucken, dann haben wir ein Datensatz, bei dem wir etwa 331 Tausend Plenarseiten ausgewertet haben seit 1949. Wir haben dadurch 211 Millionen Tokens, also Worte, in unserem Datensatz von ungefähr 900 000 Redebeiträgen, die wir verzeichnet haben, gesprochen von 4100 Politiker:innen. Darauf haben wir dann 2,2 Millionen Reaktionen und Zwischenrufe des Plenums von insgesamt 27 Fraktionen und Gruppen seit der Gründung des Bundestages. Wie haben wir das gemacht? Vielleicht ein ganz kurzes Wort dazu, was dahinter steckt. Wir haben die öffentlich verfügbaren Daten genommen, die, die daliegen. Das heißt, das sind die Plenarprotokolle des Bundestages als PDF. Wir haben das angereichert mit den Stammdaten der Abgeordneten, die auch der Bundestag erfasst und selbst herausgibt. Und wir haben die Liste der deutschen Regierungsmitglieder seit 1949 noch mit dazugegeben, denn es gab relativ viele oder es gab einige Regierungsmitglieder, die selbst kein Bundestagsmandat haben. Auch die haben wir hinzugefügt. Und dann haben wir diese unendlich langen Texte eben vorwiegend durch Regular Expressions gefiltert. Das heißt, wir haben die relevanten Teile und Protokolle extrahiert. Wir haben das aufgegliedert. Und wir haben dann eben nach Redebeiträge, nach Redner:innen, Zwischenrufe, Reaktionen unterteilt. Das war mal einer der längsten Regular Expression Strings. Der war dann irgendwann so lang, wir haben dann irgendwann unserem Head of Regular Expressions das auf ein T-Shirt gedruckt. Das hatte die gute Vorderseite genutzt. Und nach diesen ganzen Regular Expressions haben wir dann auch viel Fuzzy Search und Matching gemacht, um eben die Fehler auch in dem Plenarprotokoll auszumerzen. Das heißt, Politiker:innen sind falsch geschrieben, irgendwelche Worte sind zerrissen. Und um das alles wieder zusammenzuführen, haben wir dann Fuzzy String Matching angeführt. Florian: Genau, und an der Stelle kommt ihr jetzt eigentlich ins Spiel. Das heißt, was wir im Kern machen wollten und jetzt geschafft haben, ist diesen die, dieses Korpus oder diesen Datensatz so bereitzustellen, dass ihr euch den auschecken könnt und eigene Analysen mit diesen Daten durchführen könnt. Das heißt, der Open Discourse Datensatz und das ganze Repository dazu ist veröffentlicht. Ihr könnt euch den Source Code anschauen, auschecken, die Datenbank bei euch lokal aufbauen. Und ihr habt noch ein paar andere Möglichkeiten, auf die ich später noch genauer ein. Genau. Das Spannende, finden wir, an diesem Datensatz ist jetzt, dass es erstmals möglich ist, Analysen durchzuführen, die vorher in der Form nicht durchführbar waren. Und während wir auf eure Analysen warten, zeigen wir euch ein paar Analysen, die wir schon mal durchgeführt haben, um euch eine kleine Inspiration zu geben, was denn eigentlich möglich ist. Und an dieser Stelle ein kleiner Disclaimer: Alles, was wir jetzt gleich zeigen, dient als Inspiration. Wir haben die Analysen mit größter Sorgfalt durchgeführt. Aber es ist keine politikwissenschaftliche Forschung. Und gerade weil wir jetzt über Politik sprechen, sollten wir an dieser Stelle ein bisschen vorsichtig sein. Wir sind uns weitestgehend sicher, dass die Ergebnisse, die wir euch präsentieren, sehr plausibel und weitestgehend korrekt sein werden. Aber wie gesagt, das ist jetzt keine politikwissenschaftliche Forschung, das ist nicht durch ein Peer Review Prozess gegangen. Soweit als kleiner Disclaimer dazu. Okay, wir gucken uns jetzt folgend zwei große Themen an, die in der Geschichte der Bundesrepublik ziemlich große Relevanz hatten. Und wir starten mit dem Thema Datenschutz. Und wir könnten jetzt dieses Thema so untersuchen, wie es traditionell bisher immer möglich war. Das heißt, wir schauen uns mal an, wie oft eigentlich das Wort Datenschutz in den Plenarsitzungen gesagt wurde. Und wenn wir das machen Sie das ungefähr so aus. Das heißt, wir haben die erste Nennung des Begriffs Datenschutz Anfang der siebziger Jahre. Das würde ungefähr so passen, weil in dem Zeitraum auch Hessen als erstes Land oder sogar weltweit das erste Datenschutzgesetz verabschiedet hat. Das heißt, damals wurde der Begriff anscheinend das erste Mal genutzt, auch im Bundestag. Und ab dann ging es weiter. Wir sehen einen kleinen Abfall in den 90ern, einen Anstieg dann wieder in den 2000er Jahren. Genau. Aber das ist eigentlich noch nicht gut interpretierbar. Wir haben jetzt einfach nur die Worthäufigkeiten. Wir wissen nicht, wer hat das eigentlich gesagt hat. Das heißt, an der Stelle nutzen wir jetzt unseren Open Discourse Korpus, um uns das ein bisschen genauer anzuschauen. Was wir zusätzlich jetzt noch gemacht haben, ist: Wir haben ein LDA Topic Modeling trainiert. Das funktioniert im Wesentlichen so, dass wir davon ausgehen... bzw. ein LDA Topic Modeling ist dafür da oder kann genutzt werden, um latente Themen in Textkorpora zu ermitteln. Und wir wollen uns ja das Thema Datenschutz ansehen. Das heißt, wir müssen versuchen, ein LDA Topic Modeling so zu trainieren, dass wir dieses Datenschutzthema auch finden in unseren Daten. Natürlich nur, solange es da ist. Glücklicherweise ist es tatsächlich da, weil darüber ziemlich viel gesprochen wurde. Das heißt, wenn wir jetzt eigentlich untersuchen wollen, wie oder in welchem Ausmaß über Datenschutz gesprochen wurde im Bundestag, dann ist es natürlich nicht bloß der Begriff Datenschutz relevant. Sondern man kann auch über den Datenschutz reden, dabei aber Begriffe nutzen wie Informationsfreiheit, Datenverarbeitung, Speicherung, Privatsphäre usw.. Das heißt, es ist eigentlich viel relevanter, dieses latente Thema des Datenschutzes zu nutzen als einen spezifischen Begriff. Dafür haben wir das LDA Topic Modeling trainiert. Das funktioniert im Wesentlichen so, dass wir vorgegeben haben, was wir oder wie viele Topics, spezifische Topics, wir im Korpus erwarten. Da haben wir verschiedene Nummern ausprobiert und bei zweihundertfünfzig letztlich sehr konsistente Themen gefunden. Und mit diesem Model haben wir jetzt die weiteren Analysen durchgeführt. Dieses LDA Topic Modeling hat als Ergebnis, dass wir für jeden Redebeitrag, den wir im Korpus haben, Angaben darüber bekommen, wie der prozentuale Anteil der jeweiligen 250 Themen in dieser Rede war. Das heißt, wir haben genau 250 Zahlenwerte für jeden Redebeitrag. Das ist das, was wir jetzt folgend zusammen aggregieren und auf der Y-Achse als Relevanz definieren. Genau das ist jetzt auch erstmals möglich, weil wir die einzelnen Redebeiträge als Dokumente im LDA Topic Modeling nutzen können. Alles klar. Zurück zum Thema Datenschutz. Okay, wir plotten uns jetzt mal die durchschnittlichen Gebrauch des ganzen Thema Datenschutz im Plenar oder im Verlauf der Plenarsitzungen. Und was uns jetzt zum Beispiel schon mal auffällt, ist, dass auch vor 1970 schon in einem gewissen sehr geringen Maße über Datenschutz-Themen gesprochen wurde. Der Begriff Datenschutz wurde dabei jedoch nicht genutzt. Wir sehen immer noch, dass es quasi zwei große Phasen oder zwei große Wellen gibt. Es gibt die erste Welle, die ungefähr Mitte der 70er angefangen hat und dann zum zum Ende der 80er Jahre abgeflaut ist. Und wir haben eine zweite Welle, die zum in den 2000er Jahren begonnen hat und jetzt langsam wieder abflaut. Um zu validieren, dass das, was wir jetzt hier gefunden haben oder das, was uns das Topic Model grad anzeigt, stimmt, haben wir mal geschaut, was denn eigentlich in diesen Zeiten so passiert ist. Und wenn wir uns die 80er Jahre oder den Raum um die 80er Jahre anschauen, sehen wir, dass derzeit das Bundesdatenschutzgesetz, also das erste Datenschutzgesetz auf nationaler Ebene beschlossen wurde in Deutschland, dass es die Volkszählungsboykotte gab. Es sollte eine Volkszählung durchgeführt werden und die sollte in dem Fall das erste Mal digital die Daten der Bevölkerung erfassen. Das hat natürlich zur Boykotten, zu Protesten und zu Sorgen, was denn eigentlich, welche Belange das mit dem eigenen Datenschutz hat. Außerdem: In der Zeit wurde der CCC gegründet. Es gab ein ziemlich entscheidendes Urteil vom Bundesverfassungsgericht, auch im Rahmen dieser Volkszählung. Und in dem Rahmen tauchte dann auch erstmals der Begriff der informationellen Selbstbestimmung auf. Das heißt, okay, an dem Rahmen oder in dem Maße ist die erste Welle ziemlich plausibel. Das wurde im Bundestag dann offensichtlich auch sehr intensiv besprochen. Danach ist das ein bisschen abgeflaut. Wir haben einen kleinen Peak ungefähr 1995, da wurde die europäische Datenschutzrichtlinie verabschiedet. Aber den richtigen Anstieg hatten wir dann erst zur zweiten Welle. Da kamen dann Diskussionen auf wie Zensursula und die DSGVO. Also bei Zensursula wurde halt diskutiert, inwiefern der Staat eigentlich das Recht hat, Inhalte im Internet zu zensieren. Auf der anderen Seite wurde auch sehr, sehr stark diskutiert, ob der Staat eigentlich das Recht hat, Hausdurchsuchungen auf den eigenen Rechnern quasi durchzuführen. Das heißt, die zwei Wellen, die wir jetzt hier sehen, die sind ziemlich plausibel. Das waren tatsächlich die Zeiten, in denen die Debatte um den Datenschutz ziemlich stark ausgeführt wurde. Okay, jetzt schauen wir uns mal an, welche Dimension wir eigentlich dazu packen können, um vielleicht mehr Informationen darüber zu bekommen, wie das denn diskutiert wurde und welche Partei sich mehr und welche Partei sich weniger darum gekümmert hat um dieses Thema. Und dazu haben wir uns mal angeschaut, wie die historisch zwei großen Parteien in Deutschland diese Themen behandelt haben. Zuerst haben wir uns die CDU angeschaut und wir sehen, dass die CDU in der ersten Welle deutlich überdurchschnittlich über das Thema Datenschutz gesprochen hat, im Plenarsaal, in der zweiten Welle aber deutlich unterdurchschnittlich. Im Vergleich dazu haben wir uns dann mal angeschaut, wie die SPD drüber gesprochen hat. Die SPD hat der ersten Welle unterdurchschnittlich viel über Datenschutz gesprochen oder hatte in ihren Reden deutlich weniger Datenschutz aufgegriffen. In der zweiten Welle oder im Beginn der zweiten Welle ein bisschen überdurchschnittlich, dann hat es aber deutlich abgeflacht. Das könnte - wird höchstwahrscheinlich damit zu tun haben, dass während der ersten Welle die SPD in der Regierung war und die CDU nicht, dass die CDU das deshalb vielleicht als relevanter angesehen hat, das Thema Datenschutz intensiver zu besprechen. In der zweiten Welle sehen wir, dass zum Beginn der zweiten Welle die SPD noch eine Opposition war. Aktuell ist sie natürlich mit in der Regierung. Das könnte die Bewegung erklären, warum zu Beginn der zweiten Welle die SPD leicht überdurchschnittlich oder das Thema Datenschutz leicht überdurchschnittlich relevant fand, dann aber zunehmend weniger. Wir plotten mal noch zwei andere spannende Parteien dazu, nämlich die FDP und die Grünen. Da können wir nämlich ablesen, dass diese zwei Oppositionsparteien, zumindest in der Zeit, dass diese zwei Parteien auch nach dem Abflauen der ersten Welle die Relevanz aufrecht erhalten haben. Das heißt, diese zwei Parteien hatten das Thema trotzdem weiter im Fokus gehalten. Okay, schauen wir uns eine andere Dimension an. Wir schauen uns mal an, wie das vielleicht mit dem Alter zu tun haben könnte. Und zwar haben wir das Alter der Politiker:in nach dem Durchschnitt ungefähr geteilt. Das heißt, das Durchschnittsalter des Bundestags aktuell liegt ungefähr bei 50 Jahren. Und so haben wir jetzt unterschieden nach eher jüngeren Politikern, die unter 50 Jahre zum Zeitpunkt der Rede waren und älteren Politikern, die älter als 50 waren zum Zeitpunkt der Rede. Und hier sehen wir, dass die jüngeren Politiker das Thema Datenschutz deutlich relevanter finden als die älteren. Okay, als letzte Dimension schauen wir uns jetzt nochmal an, ob das dann vielleicht auch ein Zusammenhang mit dem akademischen Grad hat bzw. ob eine Politikerin oder ein Politiker einen Doktortitel trägt. Und an der Stelle sehen wir das, wenn eine Politiker:in einen Doktortitel trägt, das dann tendenziell überdurchschnittlich über Datenschutz gesprochen wird, als wenn die Person keinen Doktortitel hat. Man könnte jetzt versuchen, das irgendwie zusammenzufassen. Beispielsweise könnte man versuchen, das so zu interpretieren, dass wenn man möchte, dass im Plenarsaal viel über Datenschutz gesprochen wird, dann sollte man Oppositionsparteien wählen, die eher jüngere Leute hat. Und diese jüngeren Leuten sollten vielleicht eher einen Doktortitel tragen, vielleicht aber auch nicht. Genau. Aber genau. Diese Auswertungen waren vorher nicht möglich. Und jetzt könnte man reinschauen und gucken: Okay, was steckt denn da eigentlich drin? Welche Bewegungen stecken denn in diesen Daten? Wir wollen jetzt nochmal zwei Personen krönen, die sich sehr verdient gemacht haben, also die sehr oder die höchste Relevanzwerte hatten für das Thema Datenschutz in der ersten und in der zweiten Welle. In der ersten Welle geht diese Auszeichnung an Burkhard Hirsch, der insbesondere zum ersten in der ersten Phase der ersten Welle Innenminister war und sich ganz stark gegen staatliche Überwachung eingesetzt hat. Das heißt, das klingt auch sehr plausibel, dass unsere Analyse Burkhard Hirsch hier als Vorreiter sieht. In der zweiten Welle haben unsere Analysen ergeben, dass das Gisela Piltz war, die sich in besonderem Maße mit Datenschutz auseinandergesetzt hat. Und Gisela Piltz hat sich ganz... oder setzt sich ganz stark gegen die Vorratsdatenspeicherung ein. Also von daher wirkt auch das ziemlich plausibel. Genau. Das wäre jetzt das Beispiel Datenschutz, das wir aufbereitet haben, um zu gucken: Okay, was könnte in diesen Daten denn drinstecken und welche spannenden Fragen könnte man denn damit eigentlich stellen und potenziell auch beantworten? Jetzt haben wir uns noch ein zweites großes Thema angeschaut, was gerade in den letzten Jahren ganz, ganz stark an Relevanz gewonnen hat. Und da wird euch Philipp jetzt mal erzählen, was wir da so gefunden haben. Philipp: Genau. Also wir kommen nochmal ein bisschen vom Datenschutz zum Klimaschutz und stellen uns so ein bisschen den gleichen methodischen Ansatz. Also wir gucken mal, wie das reine Wort Klimaschutz verwendet wurde. Und wir stellen fest, dass das Wort Klimaschutz eigentlich ein relativ neuer Begriff ist. Ab den 2000ern. Aber zurück zu dem, was Florian gerade eben schon gesagt hat Die reine Analyse einzelner Begriffe ist noch nicht ausreichend, um diesen Themenkomplex und die latenten Grundstrukturen darunter zu erfassen. Deswegen reicht dieser Begriff Klimaschutz nicht, sondern wir haben auch hier wieder ein automatisiertes LDA Topic Modeling verwendet, was uns hunderte Begriffe automatisiert findet, die da reinpassen. Also natürlich kann ich über Klimaschutz reden, ohne den Begriff Klimaschutz zu verwenden. Ich kann über das Emissionsschutzgesetz sprechen. Ich kann über Nachhaltigkeit, über erneuerbare Energien reden, ohne auch nur einmal das Wort Klimaschutz zu verwenden. Dieses Thema also voll fokussieren. Deswegen haben wir daraus ein Thema gemacht und gucken uns jetzt diesen ganzen Komplex an und nicht mehr nur den Begriff. Wenn wir das tun, dann stellen wir fest, dass seit 1949 dieses Thema nicht erst in den 2000ern an Relevanz gewonnen hat, sondern auch früher schon da war. Wenn ich jetzt auch hier wieder so ein bisschen die Wegmarker setze, dann kann ich auch das validieren. Also die ersten Umweltprogramme von Willy Brandt 1970, der Einzug der Grünen in den Bundestag, die Atomkatastrophe von Tschernobyl. Wir haben danach in den 90ern, das ist auch relativ plausibel, ein Abschwachen dieses Themas, denn wir hatten gerade in der Wiedervereinigung dann Verteilungskonflikte, die so ein bisschen relevanter wurden. Dadurch ist das Thema des Klimawandels und des Klimaschutzes so ein bisschen hinten runtergefallen. Wir haben weitere Punkte - wir haben die rot grüne Regierung von Schröder und Fischer 2000, so Richtung 2000 2005. Wir haben Fukushima und die Energiewende. Wir haben das Pariser Klimaschutzabkommen. Und wir sehen jetzt auch schon diesen Drall nach oben, insbesondere durch Fridays For Future und die neue Auseinandersetzung mit der Einhaltung des Pariser Klimaschutzabkommens. Was wir jetzt hier wieder machen können, ist: Wir können uns wieder angucken, wie einzelne Parteien denn eigentlich darüber reden. Und wir können feststellen, dass die CDU ziemlich durchschnittlich über dieses Thema redet. In den letzten Jahren sogar deutlich abfallend, also deutlich unterdurchschnittlich. Gerade seit dem Pariser Klimaschutzabkommen ist das Thema für die CDU nicht mehr ganz so relevant vielleicht. Wir können die SPD plotten, das sieht auch ganz durchschnittlich aus. Bei der FDP sieht es auch ganz durchschnittlich aus, bei den Linken sogar ein Stück unterdurchschnittlich. Und so ein bisschen wie erwartet sind es die Grünen, die dieses Thema extrem pushen und die diesen Diskurs sehr, sehr hoch halten. Das heißt, die Grünen ziehen hier deutlich den den Rolling Mean nach oben und steuern dieses Thema ganz stark. Wir können aber auch hier noch ein bisschen weiter reingucken, nämlich: Wer sind das denn? Sind es die jüngeren oder sind es die älteren Politiker? Wenn ich mir hier das mal angucke, dann stelle ich fest, dass die mittelalten Politiker zwischen 39 und 59 sich mit dem Thema sehr durchschnittlich auseinandersetzen. Und so ein bisschen wie erwarten kann ich mir dann entsprechend vorstellen, dass sich ältere Politiker über 60 mit diesem Thema sehr gering, sehr unterdurchschnittlich auseinandersetzen und jüngere Politikerinnen unter 39 sich mit diesem Thema deutlich stärker auseinandersetzen. Wir sehen auch hier nicht nur eine stärkere Auseinandersetzung, sondern eben auch eine frühere Auseinandersetzung. Während bei älteren Politikerinnen diese Auseinandersetzung immer zeitlich rechts versetzt ist und immer deutlich weniger intensiv ist. Wir können mit dem Open Discourse Datensatz die Stammdaten des Deutschen Bundestages anzapfen und noch ein kleines Stück tiefer gehen. Wir können nämlich die Berufe der Abgeordneten auswerten. Jeder Abgeordnete gibt seinen Beruf oder seinen seinen beruflichen Hintergrund an. Und diese Daten können wir auswerten. Wir haben über 1 000 unique Berufsbezeichnungen von über 4 000 Politiker:innen. Wenn ich mir die jetzt hier mal so angucke, dann sind es Ärzte und Apotheker und Unternehmer und Landwirte und Buchhalter:innen. Und wenn ich das so ein bisschen cluster, dann hab ich jetzt für die folgende Analyse mal 12 Berufsgruppen gefiltert. Und jetzt kann man sich angucken, welche Berufsgruppen denn dieses Thema besonders stark fokussieren. Und was auch wieder sehr erwartbar ist, ist, dass die Naturwissenschaftler:innen dieses Thema deutlich stärker fokussieren, als andere das tun. Also das Thema ist sehr exorbitant getragen durch Physiker:innen, durch Biolog:innen, durch alle Personen, die irgendwie einen Berufshintergrund in dem Feld der Naturwissenschaften haben. Ich habe uns hier immer noch die Agrarwirte dazu geplottet. Also alle Landwirte und alle Forstwirte und die, die Bauer oder Bäuerin als Berufsbezeichnung angegeben haben. Wir sehen, dass es in der ersten Welle der Klimadebatte noch sehr relevant war und jetzt grad so Richtung der neueren Zeit für die Landwirte ein unterdurchschnittlich relevantes Thema geworden ist. Und wir können feststellen, dass die, die eine Berufsbezeichnung im Wirtschaftsfeld angegeben haben, sich mit diesem Thema auch auseinandersetzen. Allerdings deutlich weniger intensiv und auch wieder rechts verlagert, also zeitlich zurück verlagert, nachdem sich die Naturwissenschaftler:innen mit diesem Thema zuerst auseinandergesetzt haben. Was können wir feststellen oder was könnten wir mal so ein bisschen uns angucken? Wir können uns angucken, was denn eigentlich die perfekte Gruppe ist, um sich mit dem Thema Klimaschutz auseinanderzusetzen und diese perfekte Trennlinie zwischen der perfekten Gruppe von Abgeordneten und der schlechtesten Gruppe von Abgeordneten, die macht sich ziemlich einfach am Geschlecht und an dem Alter fest. Wenn ich also mir mal angucke, wie sich alte männliche Politiker mit dem Thema auseinandersetzen im Vergleich zu jungen weiblichen Politikerinnen, dann stelle ich fest, dass wir da sowohl wieder eine frühere Auseinandersetzung mit diesem Thema haben. Wir haben eine intensivere Auseinandersetzung mit dem Thema und für ältere Politiker, in diesem Fall jetzt hier über 60, ist die Auseinandersetzung wirklich sehr weit unter dem Durchschnitt des Parlaments. Wir können uns also hier vielleicht ein bisschen überlegen, welche Person wir denn ganz gerne im Bundestag hätten, um progressive Themen, so auch den Datenschutz stärker zu treiben. Wir können auch hier im Klimawandel wieder die Top Runner identifizieren, das können wir beliebig operationalisieren. Wir haben uns immer die Vielredner genommen. Also Politiker:innen mit mehr als 500 Reden. Und haben dann geguckt: Welche haben denn den höchsten Klima-Score auf dieses Topic? Tatsächlich ist es Angela Merkel, die als Vielrednerin sich mit diesem Thema am stärksten auseinandergesetzt haben. Wir wollten uns aber auch nochmal einen Newcomer angucken, in großen Anführungszeichen, also Politiker:innen mit 100 bis 500 Reden. Und da ist es Julia Verlinden von den Grünen, die sich am stärksten mit diesem Thema auseinandersetzt. Das ganze Fridays For Future hat immer auch das... geht es immer viel um das Schwänzen und um das Fernbleiben von Inhalten. Und wir haben uns deswegen mal angeguckt, wer denn so die großen Klimaschwänzer sind im Deutschen Bundestag. Das haben wir operationalisiert, indem wir gesagt haben, wir wollen nicht den Politiker, die Politikerin mit dem geringsten Wert über die gesamte Zeit finden, sondern wir wollen so einen Punkt nehmen, ab dem die Klimadebatte wohl in aller Munde sein müsste. Und wir haben dafür den ersten Global Climate Strike genommen, am 19., am 15. März 2019. Und wir haben dann von den Politikern geguckt, die die Gelegenheit hatten, darüber zu reden. Also die mindestens 40 Redebeiträge seitdem hatten, wie sie sich damit auseinandersetzen. Wir stellen fest, dass diejenigen, die sich am wenigsten damit auseinandersetzen, drei Männer sind, alle aus der gleichen Fraktion. Wir haben also Volker Ullrich, der sich trotz Gelegenheit am wenigsten damit auseinandersetzt. Wir haben Thorsten Frei, der sich trotz Gelegenheit am zweitwenigsten damit auseinandersetzt. Und wir haben hier auch den Spätzünder im Klimathema, Philipp Amthor, der sich trotz sehr vieler Reden nie mit diesem Thema oder sehr selten mit diesem Thema auseinandersetzt. Wichtig ist hier vielleicht noch zu sagen, dass wir nicht die reinen Reden zum Klimawandel zählen, sondern dass allein die Verwendung von den relevanten Begriffen, um dieses Thema ein bisschen z.B. in Steuer- oder in Haushaltsdebatten zu bringen, hier gezählt wird. Also wir haben eine sehr komplexe Betrachtung des gesprochenen Wortes. Florian: Genau. Soviel erst einmal zu einigen Analysen, die wir bisher durchgeführt haben. Wie bereits angesprochen ist unser eigentliches Ziel ja aber, dass ihr und alle anderen auch Analysen jetzt mit diesen Daten durchführen können und auf unserem Weg bis zur Veröffentlichung, die jetzt im Rahmen oder auch zu genau dieser Zeit, wenn wir diesen Vortrag halten, passiert, haben schon andere Partner und Partnerinnen, mit denen wir zusammengearbeitet haben oder die mit unseren Daten schon arbeiten konnten, ein paar Analysen durchgeführt oder sind gerade dabei, diese Analysen noch durchzuführen. Beispielsweise CorrelAid, CorrelAid ist ein Netzwerk von freiwilligen Data Scientists. Und bei CorrelAid haben sich zwei Projektteams zusammengefunden, die mit unseren Daten schon seit einiger Zeit ein bisschen herum arbeiten. Und die werden auch bald ihre Ergebnisse und Analysen veröffentlichen. Die findet ihr dann zum einen in den entsprechenden Kanälen von CorrelAid. Auf der anderen Seite werden wir die auch bei uns auf unserer Open Discourse Website dann zu gegebener Zeit einbetten. Ein paar Sachen, die da beispielsweise schon gemacht wurden, ist Ann-Kristin Vester hat sich angeschaut, wie eigentlich die Geschlechter im Bundestag auftreten, wie die, wie der Sprachgebrauch sich unterscheidet. An der Stelle auch nochmal kurz hier der Hinweis bei allen Analysen, die wir bisher durchgeführt haben: Wir betrachten Geschlecht bisher immer binär, weil der Bundestag das nicht anders hergibt. Es gibt bloß eine binäre Geschlechtseinteilung. Deswegen mussten wir das in den Analysen auch so vornehmen und das ist auch der Artikel, den Ann- Kristin Vester geschrieben hat, das ist auch dort mit erwähnt. Also eine tiefere oder eine diversere Untersuchung von den Geschlechtern im Bundestag ist aktuell leider noch nicht möglich. Genau. Eine andere Analyse wurde von Alexandra Wörner durchgeführt. Alexandra Wörner hat sich angeschaut, wie denn eigentlich über Diskriminierung im Bundestag gesprochen wurde, von welchen Parteien das wie intensiv benutzt wurde oder darüber gesprochen wurde und wie sich das über den zeitlichen Verlauf verändert hat. Auch ziemlich spannend. Ein anderes Projekt, das bereits mit unseren Daten durchgeführt wurde, kam von ZDF heute. Datenjournalist:innen von ZDF Heute hatten uns Frühsommer/Sommer angeschrieben und gefragt, ob sie unsere Daten nicht schon vor Veröffentlichung mal haben könnten, um zu schauen, ob sie diese Daten für einen Artikel schon nutzen könnten. Und daraus ist ein Artikel entstanden, in dem sich die Journalist:innen damit auseinandergesetzt haben, wie der Bundestag denn eigentlich über Pandemien und über das Coronavirus im speziellen unterhalten hat oder wie das debattiert wurde. Das Ergebnis war eher, dass der Bundestag da nicht besonders viel Aufmerksamkeit draufgelegt hat. Auch ein sehr spannender Artikel. Und als letztes wollen wir noch kurz das Projekt Open Parliament TV eher anteasern, weil der offizielle Veröffentlichungstermin ist für Mai 2021 vorgesehen. Open Parliament TV hat als Kernziel eigentlich ein sehr ähnliches Ideal wie wir bei Open Discourse. Es geht darum, den Bundestag transparenter zu machen. Open Parliament TV hat dabei das Ziel, die Videomitschnitte der Plenardebatten mit den entsprechenden Transkripten, also Plenarprotokollen zusammenzuführen, um darüber eine noch viel wirksamere oder detailliertere Recherchefunktion zu ermöglichen. Und an der Stelle wird gerade evaluiert, wie die Daten von Open Discourse diesem Projekt noch weiter helfen können. Genau. Und jetzt wieder zu euch. Wie gerade schon angesprochen sind unsere Daten ab sofort und unserer Source Code komplett öffentlich verfügbar. Das heißt, ihr habt jetzt die Möglichkeit, mit diesen Daten zu machen, was ihr wollt. Wir haben bei der Veröffentlichung das Ziel gehabt, die so verfügbar wie möglich zu machen und haben dabei auf drei große Säulen versucht zu achten. Die erste Säule dabei sind die Techniker:innen unter euch, also alle Techniker:innen unter euch. Ihr könnt euch unsere GitHub Seite anschauen von Open Discourse und dort findet ihr natürlich den Source Code. Ihr könnt das alles auschecken, lokal bei euch aufsetzen, überprüfen, wie wir eigentlich vorgegangen sind, verbessern, Schwachstellen finden. Außerdem findet ihr auf der GitHub Seite auch einen Docker Container, wo die komplette Datenbank als Image vorliegt, d.h. die könnt ihr euch auch sofort aufsetzen oder halt nochmal neu generieren lassen, wenn ihr wollt. Für die Analytiker:innen und die Wissenschaftler:innen unter euch haben wir ein Harvard Dataverse angelegt. Dort findet ihr die aktuelle Version unserer Datenbank als Data Dump und wir haben das in vier verschiedenen Dateiformaten bereitgestellt als CSV, Feather, Pickle und RDS-Files, damit ihr je nachdem, womit ihr am liebsten arbeitet, genau das perfekte Dateiformat für euch findet. Und als letztes haben wir noch für quasi Quick Reviews oder schnelle Recherchen auf unserer Webseite eine Volltextsuche mit Filter-Option bereitgestellt. Da könnt ihr also nach Stichworten, nach Parteizugehörigkeit, nach den Namen der Politiker, nach Datum usw. filtern und schauen, ob euch was spannendes auffällt oder ob ihr eure Fragen beantworten könnt. Genau. So viel dann erst mal von uns. Wir bedanken uns ganz, ganz herzlich für euer Interesse und dass ihr uns zugehört habt. Wir bedanken uns natürlich auch bei der C Base dafür, dass wir das Video hier aufnehmen konnten. Bei Fragen und Anregungen schreibt uns gerne eine Mail oder kontaktiert uns über die einschlägigen Kanäle. Oder wir sprechen uns dann gleich bei der Fragerunde. Alles klar. Vielen Dank. Danke schön. Herald: Wir sind nun mit den Sprechern verbunden, sind uns zugeschaltet für Fragen und Antworten, die uns zugespielt worden sind. Herzlich willkommen! Philipp & Florian: Hallo! Herald: Die zweite Welle des Datenschutzes ist ja angesichts der Zeit gerade die perfekte Metapher. Wie lange wird die zweite Welle des Datenschutzes wohl noch gehen? Florian: Ja, gute Frage. Keine Ahnung. Man hat ja gesehen, dass es schon ein bisschen bergab wieder geht, aber viel mehr kann ich da eigentlich nicht zu sagen. Aber es ist spannend, das jetzt im Auge behalten zu können. Herald: Ist auf jeden Fall auf absehbare Zeit nicht mit einer Impfung zu rechnen. Eine Frage, die uns zugespielt worden ist über die Hashtags und über IRC, die wir empfangen und die wir weitergeben, ist: Es gibt noch einen weiteren Text Korpus. Ihr habt jetzt den Deutschen Bundestag analysiert, aber es gibt noch eine andere legislative Kammer, die es lange Jahre gab, nämlich die Volkskammer der DDR. Gibt es dort überhaupt entsprechende Unterlagen oder entsprechendes Material, das man analysieren könnte? Florian: Da bin ich mir gar nicht so sicher. Also ich hab - also davon weiß ich nichts. Wir hatten da jetzt auch gar nicht so weiter reingeguckt. Wir hatten natürlich, während wir an dem Projekt gearbeitet hatten, schon überlegt, wie man das alles noch weiterdenken könnte, was man zusätzlich noch mit aufnehmen könnte. Da war die Volkskammer auch schon mal im Gespräch, aber wir sind da jetzt erstmal nicht weiter rein gesprungen. Aber prinzipiell wird das natürlich total spannend, noch weiter in die Richtung zu denken und das auch noch mit aufzunehmen. Aber ich weiß gar nicht, ob es die Plenarprotokolle da so auch detailliert gibt. Genau. Wahrscheinlich wäre es auch ein relativ großer Aufwand, könnte ich mir vorstellen, die Regex Patterns, die wir jetzt für den Bundestag aufbereitet haben, auf die Volkskammer zu übertragen. Weil wenn sich da... also im Prinzip basiert, die Aufarbeitung, die wir gemacht haben darauf, dass die Struktur in den Plenarprotokollen einigermaßen ähnlich bleibt, über die Legislaturperioden. Die wird natürlich jedes Mal angepasst, wenn's dann notwendig war. Auf der anderen Seite brauchen wir die Stammdaten der Politiker:innen, weil wir das für die Fuzzy Matching Logiken nutzen, um zuweisen zu können: Wer hat denn eigentlich was gesagt? Total spannend, das für die Volkskammer auch noch zu machen. Vielleicht jetzt als nächster Schritt. Wir sind erstmal froh, dass wir den Bundestag fertig bekommen haben. Herald: Auf jeden Fall. Gibt es denn Wünsche, die ihr habt für die Zugänglichkeit von Daten, die euch das Leben oder anderen das Leben einfacher machen würden, bei solchen Auswertungen? Philipp: Das ist glaube ich vor allem die strukturierte Erfassung, also eigentlich hätte der Bundestag selbst die Möglichkeit, diese Daten von sich aus schon strukturiert verfügbar zu machen. Vor allem, weil eben diese ganz einfachen Sachen - ich suche nach Begriffen oder ich suche nach Themen oder ich möchte das mal ein bisschen strukturiert durchsuchen - das ist derzeit eine absolut händische Aufgabe und das ist eigentlich in unserer jetzigen Zeit ein kleines bisschen hinter der Zeit hinterher. Von daher wäre es eigentlich sehr sinnvoll, wenn man so Grundideen von strukturierter Datenhaltung dann auch in öffentlichen Verwaltungen hätte, um eben diesen Zugang zu erleichtern. Der Bundestag hat uns jetzt quasi eineinhalb Jahre Arbeit gekostet, das aufzubrechen. Und wär natürlich super, wenn man solche Grundthemen der Datenhaltung, der öffentlich verfügbaren Datenhaltung auch irgendwie direkt mitdenkt. Florian: Ein ganz kleiner Nachtrag da noch. Ein großer Wunsch, der uns vieles erleichtern würde, jetzt auch Open Discourse up to date zu halten, wäre ein RSS-Feed vom Bundestag. Da sitzen auch die Leute von Open Parliament TV so ein bisschen dran und hoffen, dass das irgendwie bereitgestellt wird. Aber das würde uns natürlich ermöglichen, automatisiert den Datensatz zu erweitern, sobald irgendwie eine neue Rede bereitgestellt wurde auf den Servern. Im Moment geht das leider so noch nicht. Herald: Strukturierte, maschinenlesbare Verwaltung und strukturierte Daten quasi als Wunsch. Es gibt ja zum Teil zumindest eigene Projekte, wo aus dritter Hand solche Daten für Dritte bereitgestellt werden, wie z.B. Wikidata. Ist das eine Quelle, auf die ihr euch, die ihr verwenden könnt für so was? Florian: Genau. Teilweise hatten wir das auch verwendet. Also auf dem Weg zum fertigen Produkt haben wir auch mit Wikidata-Daten gearbeitet. Zum Beispiel gibt es in den Stammdaten ja Informationen darüber, wo Personen geboren wurden und das sind die Originalgeburtsorte von damals, quasi mit den historischen Namen. Und an der Stelle hatten wir dann mal als Test-Experiment bei uns intern für jede Person, die wir im Bundestag hatten, jeden Abgeordneten und jede Abgeordnete, die Wikidata-IDs rausgesucht, damit wir mappen können: Okay, was ist denn jetzt eigentlich die ID für den Geburtsort dahinter, damit wir damit weiterarbeiten können? Das liegt aber bei uns nur, also das ist jetzt nicht Teil des Korpus, weil wir das nicht weit... also so weit validiert haben, dass wir sicher sein können, dass das korrekt ist. Aber auf jeden Fall. Also das wäre so ein bisschen die Anschlussfähigkeit, die wir uns eigentlich wünschen. Also im Idealfall wäre jetzt und wäre vielleicht die Community dazu auch aufgerufen, für jede Politiker:in noch die entsprechende Wikidata ID mit zum am Korpus dazu zu packen, damit wir noch viel mehr Daten und viel mehr Dimensionen haben für den ganzen Datensatz haben. Herald: Wohin wenden sich denn Menschen, wenn sie bei eurem Projekt mitmachen möchten? Florian: Am besten z.B. zwischenruf@opendiscourse.de oder auf unserer Webseite opendiscourse.de findet ihr auch verschiedene Kontaktmöglichkeiten. Ihr könnt natürlich auch direkt über das Repository uns Tickets schreiben, falls ihr irgendwie Sachen habt, die euch aufhalten. Twitter, Instagram, sämtliche Kanäle. Herald: Alle sozialen Netzwerke. Seid ihr auf TikTok? Florian: Nur privat... Herald: Zum Thema Transferierbarkeit gab's dann auch nochmal eine Frage aus dem Chat. Zum Beispiel für die Republik Österreich. Wie gehen den Menschen vor - ihr habt ja vorhin umrissen, dass es gar nicht so einfach ist, so einen Datensatz zu analysieren. Aber wie würden denn Menschen vorgehen, die sagen: Das finden sie interessant. Zum Beispiel für ihr Landesparlament oder eben auch für ein anderes Land? Florian: Genau, an der Stelle sind wir leider auch nicht ausreichend Expert:innen für die Plenarprotokolle, wie die auf Landesebene aussehen. Also es könnte sein. Wir haben da halt noch nicht reingeschaut. Es könnte sein, dass es eigentlich gar nicht zu viele Abänderungen der Regex Patterns voraussetzt, um es zu übertragen. Es könnte aber auch sein, dass es relativ aufwändig ist. Wir würden da jetzt so ein bisschen auf die Stimmen von euch warten. Also was interessiert euch denn eigentlich am meisten? Und wir sind natürlich auch sehr dankbar für jedes weitere Paar Augen, das auf unsere Daten oder bzw. auf unseren Source Code draufschaut, um vielleicht Ideen zu entwickeln, wie man das jetzt möglichst effizient auf andere Anwendungsbereiche übertragen kann. Herald: Okay, dann ist noch eine Frage aus dem Chat, nämlich vielleicht kam das im Talk vor. Er schreibt die Person: Aber wie ist das Projekt zustande gekommen? Insbesondere von der Finanzierung her? Philipp: Also die Idee, die Grundidee war glaube ich war, als wir zusammensaßen und uns überlegt haben, wie können wir denn eigentlich in Anbetracht von so vielen schönen und künstlerischen oder politischen Programmen und Aktionen die so gibt, was können wir da eigentlich beitragen, um irgendwas zu machen? Wir sind Informatiker und Data Scientists und das ist nicht so direkt der Punkt, wo man jetzt die Welt ins Positive drehen kann. Aber dann ist uns aufgefallen, dass eben diese Daten, der Datensatz nicht ausreichend verfügbar ist, dass der nicht maschinenlesbar ist, dass es nur händisch durchsuchbare Protokolle sind. Und dann haben wir diesen Datensatz genommen und aufgebrochenen. Grundlegend sind wir sonst normalerweise in Agenturen und erbringen Data Science Machine Learning Dienstleistungen. Und haben dieses Projekt aber in Abstimmung mit unserem Team, also wir waren zu neunt an diesem Projekt, haben das quasi komplett von unserem Business getrennt und haben quasi gesagt: Okay, wann immer wir Arbeitsstunden frei haben, haben wir Zeit um dieses Projekt zu treiben. Und damit diese quasi Bindung der Privatwirtschaft, die da ja dran sein könnte, dass die natürlich auch komplett eliminiert ist, ist dieses Projekt komplett offen und ist komplett durchsuchbar und ist komplett frei, sodass validiert werden kann, dass wir das natürlich... Wir haben natürlich eine eigene politische Meinung, aber die soll natürlich nicht mit in diesen Datensatz fließen. Daher liegt der Datensatz komplett offen und kann vollkommen durchsucht werden. Finanziert ist das aber quasi aus den Freistunden, die wir als Data Science Agentur hatten. Herald: Vielen Dank Florian, vielen Dank für dieses spannende Projekt und wirklich gehaltvolle Projekt. Bei den Beleidigungen muss man auch sagen: Franz Josef Strauß war von der Runterzählung der Top 5 fast zu erwarten, dass der rauskommt. Ich hatte eigentlich noch Herrn Wehner auch erwartet, der eigentlich sein sein traditioneller Widersacher war. Habt ihr denn ein Lieblingsschlagaustausch oder eine Lieblingsbeleidigung gefunden in eurer Arbeit. Philipp: Ich glaube, man kann es auf so unterschiedliche Art und Weisen auch operationalisieren. Ich glaube wir hatten mal eine ganz, eine ganz spannende... ich glaube das müssten wir nochmal... Vielleicht machen wir dafür nochmal einen extra Teil auf der Website, wo wir die spannendsten Beleidigungen nochmal aufgreifen. Das wäre ein gutes Thema. Florian: Wir hatten glaube ich teilweise in so einem kleinen Dokument mal ein paar Sachen gesammelt. Aber ich hab die grad auch gar nicht im Kopf. Herald: Okay, also einen Ausbaupotenzial für den Spaß da hinten dran, für die Spaßig-Seite der Datenanalyse ist auf jeden Fall vorhanden. Vielen Dank für euren Beitrag. Ich hoffe, ihr bekommt viel Feedback und noch viel Input, wie man hier noch mehr draus machen kann. Danke euch! - Vielen Dank auch. - Danke dir. Wikipaka Outro Musik Untertitel erstellt von c3subtitles.de im Jahr 2021. Mach mit und hilf uns!