WEBVTT 00:00:00.000 --> 00:00:15.379 Wikipaka Intro Musik 00:00:15.379 --> 00:00:18.320 Florian: Herzlich willkommen zu unserem Talk "Wir wissen, was ihr letzten Sommer 00:00:18.320 --> 00:00:21.550 gesagt habt". Wir sind sehr aufgeregt und freuen uns sehr, dass wir das heute 00:00:21.550 --> 00:00:27.160 vorstellen dürfen. Wir sind Philip Koch und Florian Richter und wir wollen euch 00:00:27.160 --> 00:00:31.880 heute unser Projekt Open Discourse vorstellen und inwiefern Open Discourse 00:00:31.880 --> 00:00:36.920 die Transparenz des Bundestages erhöhen kann. An Open Discourse haben wir die 00:00:36.920 --> 00:00:41.350 letzten anderthalb Jahre gearbeitet, in einem Team von insgesamt neun Personen. 00:00:41.350 --> 00:00:48.710 Und genau. Worüber wollen wir euch eigentlich heute erzählen? Für Open 00:00:48.710 --> 00:00:53.519 Discourse haben wir die Plenarprotokolle des Deutschen Bundestages aufgearbeitet 00:00:53.519 --> 00:00:58.900 und die Plenarprotokolle seht ihr hier auf der rechten Seite, die sehen so aus. Das 00:00:58.900 --> 00:01:05.560 heißt für jede Sitzung im Bundestag gibt es Stenograph:innen, die jedes gesprochene 00:01:05.560 --> 00:01:09.400 Wort von den Parteien bzw. von den Politiker:innen, die gerade eine Rede 00:01:09.400 --> 00:01:16.940 halten, aufzeichnen. Und außerdem wird auch jeder Zwischenruf, jede Reaktion aus 00:01:16.940 --> 00:01:21.660 dem Plenum mit aufgezeichnet. Diese Plenarprotokolle stellt der Bundestag zur 00:01:21.660 --> 00:01:27.709 Verfügung, seit 1949. Allerdings als PDF- Dokument. Das birgt natürlich einige 00:01:27.709 --> 00:01:32.440 Probleme, weil PDF Dokumente sind nicht gut durchsuchbar, weil wir jetzt z.B. 00:01:32.440 --> 00:01:36.239 nicht gezielt suchen könnten, was ein bestimmter Politiker einer bestimmten 00:01:36.239 --> 00:01:41.630 Partei im Jahre 1950 beispielsweise gesagt hat. Das heißt, das ist das Problem, das 00:01:41.630 --> 00:01:45.800 wir eigentlich haben. Aber eigentlich beinhalten diese Plenarprotokoll ziemlich 00:01:45.800 --> 00:01:52.029 viel wertvolle Information. Weil beispielsweise natürlich die einzelnen 00:01:52.029 --> 00:01:57.260 Redebeiträge, die Zwischenrufe usw, diese sind aber als Fließtext in diesem PDF 00:01:57.260 --> 00:02:00.320 enthalten. Das heißt, wir brauchen eigentlich irgendeinen Weg, um das 00:02:00.320 --> 00:02:04.179 herauszubrechen. Und genau, das gab's bisher noch nicht. Mit Open Discourse 00:02:04.179 --> 00:02:09.429 haben wir es jetzt erstmals geschafft, seit 1949 alle Reden, alle Zwischenrufe, 00:02:09.429 --> 00:02:15.460 alle Reaktionen und so weiter herauszuarbeiten. Warum machen wir das 00:02:15.460 --> 00:02:20.200 eigentlich? Die Motivation hinter Open Discourse beruht im Kern darauf, dass wir 00:02:20.200 --> 00:02:23.350 davon ausgehen oder wir finden, das Plenarprotokolle eigentlich eine ziemlich 00:02:23.350 --> 00:02:28.970 wertvolle Ressource sind und die Debatten im Bundestag ja eigentlich so transparent 00:02:28.970 --> 00:02:32.680 wie möglich stattfinden sollten. Das heißt, wir alle haben ein Recht darauf, 00:02:32.680 --> 00:02:36.770 auch noch nach 20 Jahren zu wissen, was eine bestimmte Politikerin oder ein 00:02:36.770 --> 00:02:43.700 bestimmter Politiker zu einem bestimmten Thema gesagt hat. Was auffällt, wenn wir 00:02:43.700 --> 00:02:49.970 uns Plenarprotokolle und die Befassung mit Plenarprotokollen ansehen, ist, dass das vor 00:02:49.970 --> 00:02:52.580 allen Dingen in der deutschen Politikwissenschaft eigentlich ein Thema 00:02:52.580 --> 00:02:59.230 ist, das nicht besonders oft angefasst wird. Es ist unterrepräsentiert in der 00:02:59.230 --> 00:03:03.280 Forschung. Das hat mehrere Gründe: Zum einen.. oder zwei Hauptgründe 00:03:03.280 --> 00:03:06.860 wahrscheinlich. Zum einen ist die deutsche Politikwissenschaft eher aus der 00:03:06.860 --> 00:03:10.390 politischen Ideengeschichte erwachsen. Das heißt, man kümmert sich eigentlich eher 00:03:10.390 --> 00:03:14.670 qualitativ um Texte als quantitativ. Das ändert sich in den letzten Jahren ein 00:03:14.670 --> 00:03:18.541 bisschen. Aber im Kern befasst sich die deutsche Politikwissenschaft immer noch 00:03:18.541 --> 00:03:22.530 relativ wenig mit dem Plenardebatten. Und der große Grund dafür ist dann natürlich 00:03:22.530 --> 00:03:26.090 auch, dass diese Plenarprotokolle bisher noch nicht maschinenlesbar und nicht 00:03:26.090 --> 00:03:29.990 leicht auswertbar vorlagen. Man kann sich vorstellen, wenn man jetzt nach einer 00:03:29.990 --> 00:03:34.160 gezielten Fragestellung die Plenarprotokolle untersuchen möchte, 00:03:34.160 --> 00:03:37.690 müsste man im Zweifelsfall über 4 000 Protokolle händisch durchlesen, um zu 00:03:37.690 --> 00:03:41.280 schauen: In welchem Protokoll steht jetzt irgendeine Information, die wichtig ist 00:03:41.280 --> 00:03:47.830 für meine Fragestellung. In den letzten Jahren sehen wir aber, dass das Interesse 00:03:47.830 --> 00:03:51.480 an diesen Plenarprotokollen zunehmend wächst. Und an der Stelle haben wir uns 00:03:51.480 --> 00:03:56.660 gedacht, als Team aus in erster Linie Data Scientists und Software Developern, dass 00:03:56.660 --> 00:04:00.800 wir eigentlich die Skills dazu haben, diese Daten aufzubereiten und der 00:04:00.800 --> 00:04:05.370 Öffentlichkeit zur Verfügung zu stellen. Genau. Das ist also der der aktuelle 00:04:05.370 --> 00:04:10.210 Stand. Wir haben das große Problem, dass es keine einfache Möglichkeit gibt, diese 00:04:10.210 --> 00:04:13.850 Plenarprotokolle zu durchsuchen und diese Plenarprotokolle auch nicht 00:04:13.850 --> 00:04:19.709 maschinenlesbar sind, wir also keine aktuellen Analysemethoden über diesen 00:04:19.709 --> 00:04:23.720 Textkorpus laufen lassen können. Unsere Ziele, die wir uns gesetzt haben für 00:04:23.720 --> 00:04:28.849 dieses Projekt, waren mehr Transparenz des politischen Diskurses in Deutschland, eine 00:04:28.849 --> 00:04:32.569 detaillierte Durchsuchbarkeit der Plenardebatten, ein öffentlicher und 00:04:32.569 --> 00:04:36.939 möglichst niedrigschwelliger Zugang zu diesen Daten, die Anschlussfähigkeit 00:04:36.939 --> 00:04:41.279 unseres Projektes, damit dieses Projekt weiterentwickelt werden kann, dass neue 00:04:41.279 --> 00:04:46.759 Projekte daraus entstehen können. Und natürlich, dass mit diesen Daten auch 00:04:46.759 --> 00:04:51.149 geforscht werden kann und wir demnach ein wissenschaftliches Niveau für diese Daten 00:04:51.149 --> 00:04:57.169 brauchen. Ok, kurz zum Status Quo. In den letzten Jahren, wie gerade angesprochen 00:04:57.169 --> 00:05:02.960 hat sich natürlich das Interesse für diese Plenarprotokoll deutlich erhöht. 2017 00:05:02.960 --> 00:05:06.779 beispielsweise gab es das sehr spannende Projekt Offenes Parlament, was von der 00:05:06.779 --> 00:05:12.689 Open Knowledge Foundation getrieben wurde oder durchgeführt wurde. In diesem Projekt 00:05:12.689 --> 00:05:17.330 wurden die Plenarprotokolle der 18. Wahlperiode aufgearbeitet und diese waren 00:05:17.330 --> 00:05:20.889 dann auch granular durchsuchbar, das heißt, wir hatten Dimensionen zum Datum, 00:05:20.889 --> 00:05:27.240 zum Inhalt der Redebeiträge, welche Person diesen Redebeitrag gehalten hat usw. 00:05:27.240 --> 00:05:32.599 Ebenfalls 2017 und 2018 kamen die Projekte ParlSpeech und GermaParl und wurden 00:05:32.599 --> 00:05:37.520 veröffentlicht. Das sind zwei wissenschaftliche Projekte, die ebenfalls 00:05:37.520 --> 00:05:43.409 sehr granular die Redebeiträge aufbereitet haben des Bundestages. Allerdings im Falle 00:05:43.409 --> 00:05:46.449 von ParlSpeech, die haben dieses Jahr nochmal ein Update von ihrem Datensatz 00:05:46.449 --> 00:05:51.580 gemacht. Reicht jetzt von der 12. bis 19. Wahlperiode. Bei GermaParl sind aktuell 00:05:51.580 --> 00:05:56.010 die 13. bis zur 18. Wahlperiode abgedeckt. D.h. wir haben da auch nicht den 00:05:56.010 --> 00:06:02.860 kompletten Umfang der Plenardebatten. Und an dieser Stelle vor einem Jahr haben 00:06:02.860 --> 00:06:07.960 Martin Haars und Kai Biermann das Projekt vorgestellt, das Zeit Online 00:06:07.960 --> 00:06:15.070 veröffentlicht hat, wo das erste Mal alle oder jedes gesprochene Wort seit 1949 00:06:15.070 --> 00:06:20.129 bereitgestellt wurde und es möglich war, eine Keyword Suche über diesen Korpus zu 00:06:20.129 --> 00:06:24.379 laufen zu lassen. Das heißt, man konnte dadurch erstmals schauen: Wie hat sich 00:06:24.379 --> 00:06:30.189 beispielsweise das Keyword Umweltschutz in den Debatten dargestellt? Wie hat sich das 00:06:30.189 --> 00:06:35.889 verändert über die Zeit? Genau. An dieser Stelle gebe ich jetzt an Philipp weiter 00:06:35.889 --> 00:06:38.610 und er wird euch mal erklären, was wir jetzt eigentlich mit Open Discourse noch 00:06:38.610 --> 00:06:41.880 zusätzlich machen können. Philipp: Genau. Also wir sehen so ein 00:06:41.880 --> 00:06:45.460 bisschen oder wir erinnern euch oder viele von euch erinnern sich vielleicht an den 00:06:45.460 --> 00:06:51.849 den Talk von Martin Haase und Kai Biermann vor einem Jahr. Da haben die gezeigt, wie 00:06:51.849 --> 00:06:57.139 sie diese Worte über die Zeit analysiert haben und haben auch gezeigt, welche 00:06:57.139 --> 00:07:00.210 Beschimpfungen in Deutschen Bundestag relativ typisch waren. Also wir haben 00:07:00.210 --> 00:07:05.689 sowas wie Heuchler und Lügner:in und Idioten und Lümmel und Flegel. Und nur um 00:07:05.689 --> 00:07:10.069 da so ein Stück anzuknüpfen und um zu zeigen, wie wir an dieser Stelle ansetzen 00:07:10.069 --> 00:07:13.899 können und das ein Stück weiter denken können, hab ich euch das mal mitgebracht 00:07:13.899 --> 00:07:18.330 und hab euch mal geplottet über die Zeit, wie häufig mit welcher relativen 00:07:18.330 --> 00:07:22.710 Häufigkeit Beschimpfungen im Deutschen Bundestag passiert sind. Und wir sehen, 00:07:22.710 --> 00:07:28.599 dass es eine Zeit gab, in der mal mehr und mal weniger beschimpft wurde. Und was wir 00:07:28.599 --> 00:07:31.360 jetzt aber machen können mit dem Open Discourse Datensatz: Wir können neue 00:07:31.360 --> 00:07:35.270 Dimensionen hinzufügen, denn wir haben nicht mehr nur das reine gesprochene Wort, 00:07:35.270 --> 00:07:37.370 sondern wir haben all die Metainformationen, weil wir wissen, wer 00:07:37.370 --> 00:07:41.819 dieses Wort gesprochen hat. Ich kann also gucken, ob Männer oder Frauen mehr 00:07:41.819 --> 00:07:45.599 geflucht haben und ich stelle fest, dass Männer mit großem großem Abstand mehr 00:07:45.599 --> 00:07:48.620 fluchen als Frauen. Männer sind diejenigen, die das treiben im Deutschen 00:07:48.620 --> 00:07:52.080 Bundestag, und die fluchen und beschimpfen und beleidigen. Wenn ich die Frauen 00:07:52.080 --> 00:07:55.889 dagegen plotte - Das erste Mal, dass eine Frau im Deutschen Bundestag mit der 00:07:55.889 --> 00:08:03.339 Auswahl dieser Beschimpfungen geflucht hat, war 1977 ungefähr. Und auch so reden 00:08:03.339 --> 00:08:09.569 Frauen deutlich, deutlich deutlich weniger quasi in diesem Wortschatz. Und das Ganze 00:08:09.569 --> 00:08:11.969 können wir jetzt immer und immer weiter berechnen, denn wir haben mit Open 00:08:11.969 --> 00:08:16.090 Discourse die Dimensionalität, um diese Fragestellungen zu beantworten. Fluchen war 00:08:16.090 --> 00:08:20.559 z.B. früher ein Thema von Doktor:innen. Das heißt, Abgeordnete mit einem 00:08:20.559 --> 00:08:26.339 akademischen Grad haben deutlich mehr geflucht und erst in den 85er Jahren haben 00:08:26.339 --> 00:08:30.569 dann auch nicht Doktor:innen angefangen, stärker zu fluchen und Beschimpfungen in 00:08:30.569 --> 00:08:35.969 ihren Wortschatz aufzunehmen. Wir können weiter reingucken und können gucken, wer 00:08:35.969 --> 00:08:39.970 denn eigentlich flucht. Also wenn ich jetzt mal vergleichen möchte, wie die die 00:08:39.970 --> 00:08:42.779 Mitte rechts und die Mitte Links Fraktion im Deutschen Bundestag, wie die sich 00:08:42.779 --> 00:08:47.180 unterscheiden in ihrer Nutzung von Schimpfworten, dann kann ich feststellen, 00:08:47.180 --> 00:08:51.460 dass ungefähr seit den 85er Jahren das Fluchen eine typisch linke Disziplin ist. 00:08:51.460 --> 00:08:55.800 Das ist in der Mitte Links Fraktion ziemlich verortet, jetzt in dem Fall hier 00:08:55.800 --> 00:09:02.420 definiert als SPD, Linke, PDS und Grüne im Vergleich zur CDU, CSU, FDP-Fraktion, die 00:09:02.420 --> 00:09:08.230 ein gutes Stück weniger flucht. Wir können auch bis auf die einzelne Person 00:09:08.230 --> 00:09:11.970 runtergehen und wir können die Gewinner im Beschimpfen des Deutschen Bundestages seit 00:09:11.970 --> 00:09:16.480 1949 küren. Vielleicht hat jemand von euch eine Idee, wer da so drinsteckt. Auf Platz 00:09:16.480 --> 00:09:22.460 vier ist es Norbert Blüm von der CDU. Auf Platz drei ist es Carlo Schmidt von der 00:09:22.460 --> 00:09:27.370 SPD, ein bisschen früherer Politiker. Auf Platz zwei, Ottmar Schreiner von der SPD. 00:09:27.370 --> 00:09:32.600 Und auf Platz eins ist es Franz Josef Strauß von der CSU, der mit großem Abstand 00:09:32.600 --> 00:09:38.050 die meisten Flüche im Deutschen Bundestag gesprochen hat. Ihr seht also: Das, was 00:09:38.050 --> 00:09:41.699 wir mit Open Discourse machen können, ist, wir können dem gleichen Projekt, was auch 00:09:41.699 --> 00:09:45.550 die Kollegen von der Zeit haben, Mehrdimensionalität hinzufügen, weil wir 00:09:45.550 --> 00:09:51.380 in unserem Korpus eine Realität abbilden können und den gesamten PDF-Datensatz 00:09:51.380 --> 00:09:56.080 quasi komplett als Datenbank-Struktur verfügbar gemacht haben. Das heißt, was 00:09:56.080 --> 00:10:01.889 wir früher konnten ist, wir konnten Worte über eine Zeit plotten. Das war so der 00:10:01.889 --> 00:10:07.170 Status quo. Und was wir jetzt gemacht haben ist, wir haben diesen Fließtext, 00:10:07.170 --> 00:10:11.380 dieses PDF umgebrochen in eine Datenbankstruktur und können das jetzt 00:10:11.380 --> 00:10:15.290 beliebig filtern und beliebig analysieren und können da sehr, sehr, sehr tief in die 00:10:15.290 --> 00:10:20.740 quantitativen Analysen gehen. Das heißt, wir fügen diesen Plenardebatten mehr 00:10:20.740 --> 00:10:25.360 Dimensionalität hinzu. Früher also Worte und Zeit und heute eben auch, welche 00:10:25.360 --> 00:10:28.990 Person gesprochen hat und damit eben auch welche Fraktion, welche 00:10:28.990 --> 00:10:34.260 Regierungsposition, welches Geschlecht, welches Alter hat der oder die Sprechende? 00:10:34.260 --> 00:10:38.639 Was ist der Beruf der sprechenden Person? Der akademische Grad, die Jahre im 00:10:38.639 --> 00:10:45.220 Bundestag? Der Geburtsort, der Adelstitel. Und wir haben natürlich auch alle 00:10:45.220 --> 00:10:47.810 Reaktionen und Interaktionen des Bundestag. Das heißt, wir können genau 00:10:47.810 --> 00:10:53.069 gucken, welche Personen, welche Fraktion lacht oder amüsiert sich oder klatscht. 00:10:53.069 --> 00:10:57.269 Und welche Einzelpersonen sind es denn, wenn es irgendwelche Zwischenrufe sind? 00:10:57.269 --> 00:11:01.319 Und wenn wir uns das so einer Größe angucken, dann haben wir ein Datensatz, 00:11:01.319 --> 00:11:07.240 bei dem wir etwa 331 Tausend Plenarseiten ausgewertet haben seit 1949. Wir haben 00:11:07.240 --> 00:11:13.120 dadurch 211 Millionen Tokens, also Worte, in unserem Datensatz von ungefähr 900 000 00:11:13.120 --> 00:11:19.080 Redebeiträgen, die wir verzeichnet haben, gesprochen von 4100 Politiker:innen. 00:11:19.080 --> 00:11:23.420 Darauf haben wir dann 2,2 Millionen Reaktionen und Zwischenrufe des Plenums 00:11:23.420 --> 00:11:29.380 von insgesamt 27 Fraktionen und Gruppen seit der Gründung des Bundestages. Wie 00:11:29.380 --> 00:11:32.931 haben wir das gemacht? Vielleicht ein ganz kurzes Wort dazu, was dahinter steckt. Wir 00:11:32.931 --> 00:11:37.230 haben die öffentlich verfügbaren Daten genommen, die, die daliegen. Das heißt, 00:11:37.230 --> 00:11:40.589 das sind die Plenarprotokolle des Bundestages als PDF. Wir haben das 00:11:40.589 --> 00:11:43.980 angereichert mit den Stammdaten der Abgeordneten, die auch der Bundestag 00:11:43.980 --> 00:11:48.279 erfasst und selbst herausgibt. Und wir haben die Liste der deutschen 00:11:48.279 --> 00:11:52.399 Regierungsmitglieder seit 1949 noch mit dazugegeben, denn es gab relativ viele 00:11:52.399 --> 00:11:57.029 oder es gab einige Regierungsmitglieder, die selbst kein Bundestagsmandat haben. 00:11:57.029 --> 00:12:01.620 Auch die haben wir hinzugefügt. Und dann haben wir diese unendlich langen Texte 00:12:01.620 --> 00:12:05.910 eben vorwiegend durch Regular Expressions gefiltert. Das heißt, wir haben die 00:12:05.910 --> 00:12:09.470 relevanten Teile und Protokolle extrahiert. Wir haben das aufgegliedert. 00:12:09.470 --> 00:12:12.870 Und wir haben dann eben nach Redebeiträge, nach Redner:innen, Zwischenrufe, 00:12:12.870 --> 00:12:19.519 Reaktionen unterteilt. Das war mal einer der längsten Regular Expression Strings. 00:12:19.519 --> 00:12:23.370 Der war dann irgendwann so lang, wir haben dann irgendwann unserem Head of Regular 00:12:23.370 --> 00:12:27.199 Expressions das auf ein T-Shirt gedruckt. Das hatte die gute Vorderseite genutzt. 00:12:27.199 --> 00:12:31.360 Und nach diesen ganzen Regular Expressions haben wir dann auch viel Fuzzy Search und 00:12:31.360 --> 00:12:35.550 Matching gemacht, um eben die Fehler auch in dem Plenarprotokoll auszumerzen. Das 00:12:35.550 --> 00:12:38.670 heißt, Politiker:innen sind falsch geschrieben, irgendwelche Worte sind 00:12:38.670 --> 00:12:43.750 zerrissen. Und um das alles wieder zusammenzuführen, haben wir dann Fuzzy 00:12:43.750 --> 00:12:49.620 String Matching angeführt. Florian: Genau, und an der Stelle kommt 00:12:49.620 --> 00:12:53.240 ihr jetzt eigentlich ins Spiel. Das heißt, was wir im Kern machen wollten und jetzt 00:12:53.240 --> 00:12:58.250 geschafft haben, ist diesen die, dieses Korpus oder diesen Datensatz so 00:12:58.250 --> 00:13:03.099 bereitzustellen, dass ihr euch den auschecken könnt und eigene Analysen mit 00:13:03.099 --> 00:13:08.660 diesen Daten durchführen könnt. Das heißt, der Open Discourse Datensatz und das ganze 00:13:08.660 --> 00:13:13.850 Repository dazu ist veröffentlicht. Ihr könnt euch den Source Code anschauen, 00:13:13.850 --> 00:13:17.730 auschecken, die Datenbank bei euch lokal aufbauen. Und ihr habt noch ein paar 00:13:17.730 --> 00:13:22.420 andere Möglichkeiten, auf die ich später noch genauer ein. Genau. Das Spannende, 00:13:22.420 --> 00:13:26.689 finden wir, an diesem Datensatz ist jetzt, dass es erstmals möglich ist, Analysen 00:13:26.689 --> 00:13:32.110 durchzuführen, die vorher in der Form nicht durchführbar waren. Und während wir 00:13:32.110 --> 00:13:35.529 auf eure Analysen warten, zeigen wir euch ein paar Analysen, die wir schon mal 00:13:35.529 --> 00:13:39.710 durchgeführt haben, um euch eine kleine Inspiration zu geben, was denn eigentlich 00:13:39.710 --> 00:13:44.240 möglich ist. Und an dieser Stelle ein kleiner Disclaimer: Alles, was wir jetzt 00:13:44.240 --> 00:13:48.640 gleich zeigen, dient als Inspiration. Wir haben die Analysen mit größter Sorgfalt 00:13:48.640 --> 00:13:53.390 durchgeführt. Aber es ist keine politikwissenschaftliche Forschung. Und 00:13:53.390 --> 00:13:56.529 gerade weil wir jetzt über Politik sprechen, sollten wir an dieser Stelle ein 00:13:56.529 --> 00:13:59.959 bisschen vorsichtig sein. Wir sind uns weitestgehend sicher, dass die Ergebnisse, 00:13:59.959 --> 00:14:03.870 die wir euch präsentieren, sehr plausibel und weitestgehend korrekt sein werden. 00:14:03.870 --> 00:14:08.029 Aber wie gesagt, das ist jetzt keine politikwissenschaftliche Forschung, das 00:14:08.029 --> 00:14:11.320 ist nicht durch ein Peer Review Prozess gegangen. Soweit als kleiner Disclaimer 00:14:11.320 --> 00:14:17.980 dazu. Okay, wir gucken uns jetzt folgend zwei große Themen an, die in der 00:14:17.980 --> 00:14:22.790 Geschichte der Bundesrepublik ziemlich große Relevanz hatten. Und wir starten mit 00:14:22.790 --> 00:14:27.120 dem Thema Datenschutz. Und wir könnten jetzt dieses Thema so untersuchen, wie es 00:14:27.120 --> 00:14:31.829 traditionell bisher immer möglich war. Das heißt, wir schauen uns mal an, wie oft 00:14:31.829 --> 00:14:36.960 eigentlich das Wort Datenschutz in den Plenarsitzungen gesagt wurde. Und wenn wir 00:14:36.960 --> 00:14:41.980 das machen Sie das ungefähr so aus. Das heißt, wir haben die erste Nennung des 00:14:41.980 --> 00:14:47.881 Begriffs Datenschutz Anfang der siebziger Jahre. Das würde ungefähr so passen, weil 00:14:47.881 --> 00:14:53.250 in dem Zeitraum auch Hessen als erstes Land oder sogar weltweit das erste 00:14:53.250 --> 00:14:58.149 Datenschutzgesetz verabschiedet hat. Das heißt, damals wurde der Begriff 00:14:58.149 --> 00:15:03.490 anscheinend das erste Mal genutzt, auch im Bundestag. Und ab dann ging es weiter. Wir 00:15:03.490 --> 00:15:08.099 sehen einen kleinen Abfall in den 90ern, einen Anstieg dann wieder in den 2000er 00:15:08.099 --> 00:15:14.769 Jahren. Genau. Aber das ist eigentlich noch nicht gut interpretierbar. Wir haben 00:15:14.769 --> 00:15:17.200 jetzt einfach nur die Worthäufigkeiten. Wir wissen nicht, wer hat das eigentlich 00:15:17.200 --> 00:15:21.629 gesagt hat. Das heißt, an der Stelle nutzen wir jetzt unseren Open Discourse 00:15:21.629 --> 00:15:26.130 Korpus, um uns das ein bisschen genauer anzuschauen. Was wir zusätzlich jetzt noch 00:15:26.130 --> 00:15:31.850 gemacht haben, ist: Wir haben ein LDA Topic Modeling trainiert. Das funktioniert 00:15:31.850 --> 00:15:37.209 im Wesentlichen so, dass wir davon ausgehen... bzw. ein LDA Topic Modeling 00:15:37.209 --> 00:15:42.999 ist dafür da oder kann genutzt werden, um latente Themen in Textkorpora zu 00:15:42.999 --> 00:15:48.360 ermitteln. Und wir wollen uns ja das Thema Datenschutz ansehen. Das heißt, wir müssen 00:15:48.360 --> 00:15:52.219 versuchen, ein LDA Topic Modeling so zu trainieren, dass wir dieses 00:15:52.219 --> 00:15:56.410 Datenschutzthema auch finden in unseren Daten. Natürlich nur, solange es da ist. 00:15:56.410 --> 00:15:59.560 Glücklicherweise ist es tatsächlich da, weil darüber ziemlich viel gesprochen 00:15:59.560 --> 00:16:04.839 wurde. Das heißt, wenn wir jetzt eigentlich untersuchen wollen, wie oder in 00:16:04.839 --> 00:16:09.181 welchem Ausmaß über Datenschutz gesprochen wurde im Bundestag, dann ist es natürlich 00:16:09.181 --> 00:16:12.670 nicht bloß der Begriff Datenschutz relevant. Sondern man kann auch über den 00:16:12.670 --> 00:16:16.189 Datenschutz reden, dabei aber Begriffe nutzen wie Informationsfreiheit, 00:16:16.189 --> 00:16:20.670 Datenverarbeitung, Speicherung, Privatsphäre usw.. Das heißt, es ist 00:16:20.670 --> 00:16:25.509 eigentlich viel relevanter, dieses latente Thema des Datenschutzes zu nutzen als 00:16:25.509 --> 00:16:30.239 einen spezifischen Begriff. Dafür haben wir das LDA Topic Modeling trainiert. Das 00:16:30.239 --> 00:16:35.319 funktioniert im Wesentlichen so, dass wir vorgegeben haben, was wir oder wie viele 00:16:35.319 --> 00:16:40.189 Topics, spezifische Topics, wir im Korpus erwarten. Da haben wir verschiedene 00:16:40.189 --> 00:16:43.970 Nummern ausprobiert und bei zweihundertfünfzig letztlich sehr 00:16:43.970 --> 00:16:47.120 konsistente Themen gefunden. Und mit diesem Model haben wir jetzt die weiteren 00:16:47.120 --> 00:16:55.310 Analysen durchgeführt. Dieses LDA Topic Modeling hat als Ergebnis, dass wir für 00:16:55.310 --> 00:17:04.080 jeden Redebeitrag, den wir im Korpus haben, Angaben darüber bekommen, wie der 00:17:04.080 --> 00:17:10.600 prozentuale Anteil der jeweiligen 250 Themen in dieser Rede war. Das heißt, wir 00:17:10.600 --> 00:17:16.180 haben genau 250 Zahlenwerte für jeden Redebeitrag. Das ist das, was wir jetzt 00:17:16.180 --> 00:17:22.030 folgend zusammen aggregieren und auf der Y-Achse als Relevanz definieren. Genau das 00:17:22.030 --> 00:17:26.890 ist jetzt auch erstmals möglich, weil wir die einzelnen Redebeiträge als Dokumente 00:17:26.890 --> 00:17:33.160 im LDA Topic Modeling nutzen können. Alles klar. Zurück zum Thema Datenschutz. Okay, 00:17:33.160 --> 00:17:38.090 wir plotten uns jetzt mal die durchschnittlichen Gebrauch des ganzen 00:17:38.090 --> 00:17:44.370 Thema Datenschutz im Plenar oder im Verlauf der Plenarsitzungen. Und was uns 00:17:44.370 --> 00:17:49.070 jetzt zum Beispiel schon mal auffällt, ist, dass auch vor 1970 schon in einem 00:17:49.070 --> 00:17:52.690 gewissen sehr geringen Maße über Datenschutz-Themen gesprochen wurde. Der 00:17:52.690 --> 00:17:57.050 Begriff Datenschutz wurde dabei jedoch nicht genutzt. Wir sehen immer noch, dass 00:17:57.050 --> 00:18:01.920 es quasi zwei große Phasen oder zwei große Wellen gibt. Es gibt die erste Welle, die 00:18:01.920 --> 00:18:08.220 ungefähr Mitte der 70er angefangen hat und dann zum zum Ende der 80er Jahre abgeflaut 00:18:08.220 --> 00:18:14.260 ist. Und wir haben eine zweite Welle, die zum in den 2000er Jahren begonnen hat und 00:18:14.260 --> 00:18:18.550 jetzt langsam wieder abflaut. Um zu validieren, dass das, was wir jetzt hier 00:18:18.550 --> 00:18:24.280 gefunden haben oder das, was uns das Topic Model grad anzeigt, stimmt, haben wir mal 00:18:24.280 --> 00:18:28.290 geschaut, was denn eigentlich in diesen Zeiten so passiert ist. Und wenn wir uns 00:18:28.290 --> 00:18:33.390 die 80er Jahre oder den Raum um die 80er Jahre anschauen, sehen wir, dass derzeit 00:18:33.390 --> 00:18:39.130 das Bundesdatenschutzgesetz, also das erste Datenschutzgesetz auf nationaler 00:18:39.130 --> 00:18:44.590 Ebene beschlossen wurde in Deutschland, dass es die Volkszählungsboykotte gab. Es 00:18:44.590 --> 00:18:51.010 sollte eine Volkszählung durchgeführt werden und die sollte in dem Fall das 00:18:51.010 --> 00:18:55.770 erste Mal digital die Daten der Bevölkerung erfassen. Das hat natürlich 00:18:55.770 --> 00:19:01.510 zur Boykotten, zu Protesten und zu Sorgen, was denn eigentlich, welche Belange das 00:19:01.510 --> 00:19:08.350 mit dem eigenen Datenschutz hat. Außerdem: In der Zeit wurde der CCC gegründet. Es 00:19:08.350 --> 00:19:15.290 gab ein ziemlich entscheidendes Urteil vom Bundesverfassungsgericht, auch im Rahmen 00:19:15.290 --> 00:19:19.160 dieser Volkszählung. Und in dem Rahmen tauchte dann auch erstmals der Begriff der 00:19:19.160 --> 00:19:23.680 informationellen Selbstbestimmung auf. Das heißt, okay, an dem Rahmen oder in dem 00:19:23.680 --> 00:19:27.140 Maße ist die erste Welle ziemlich plausibel. Das wurde im Bundestag dann 00:19:27.140 --> 00:19:30.770 offensichtlich auch sehr intensiv besprochen. Danach ist das ein bisschen 00:19:30.770 --> 00:19:35.910 abgeflaut. Wir haben einen kleinen Peak ungefähr 1995, da wurde die europäische 00:19:35.910 --> 00:19:41.100 Datenschutzrichtlinie verabschiedet. Aber den richtigen Anstieg hatten wir dann erst 00:19:41.100 --> 00:19:44.930 zur zweiten Welle. Da kamen dann Diskussionen auf wie Zensursula und die 00:19:44.930 --> 00:19:51.590 DSGVO. Also bei Zensursula wurde halt diskutiert, inwiefern der Staat eigentlich 00:19:51.590 --> 00:19:57.420 das Recht hat, Inhalte im Internet zu zensieren. Auf der anderen Seite wurde 00:19:57.420 --> 00:20:04.530 auch sehr, sehr stark diskutiert, ob der Staat eigentlich das Recht hat, 00:20:04.530 --> 00:20:08.420 Hausdurchsuchungen auf den eigenen Rechnern quasi durchzuführen. Das heißt, 00:20:08.420 --> 00:20:11.321 die zwei Wellen, die wir jetzt hier sehen, die sind ziemlich plausibel. Das waren 00:20:11.321 --> 00:20:16.800 tatsächlich die Zeiten, in denen die Debatte um den Datenschutz ziemlich stark 00:20:16.800 --> 00:20:22.290 ausgeführt wurde. Okay, jetzt schauen wir uns mal an, welche Dimension wir 00:20:22.290 --> 00:20:25.470 eigentlich dazu packen können, um vielleicht mehr Informationen darüber zu 00:20:25.470 --> 00:20:29.380 bekommen, wie das denn diskutiert wurde und welche Partei sich mehr und welche 00:20:29.380 --> 00:20:35.580 Partei sich weniger darum gekümmert hat um dieses Thema. Und dazu haben wir uns mal 00:20:35.580 --> 00:20:41.460 angeschaut, wie die historisch zwei großen Parteien in Deutschland diese Themen 00:20:41.460 --> 00:20:46.440 behandelt haben. Zuerst haben wir uns die CDU angeschaut und wir sehen, dass die CDU 00:20:46.440 --> 00:20:51.300 in der ersten Welle deutlich überdurchschnittlich über das Thema 00:20:51.300 --> 00:20:56.950 Datenschutz gesprochen hat, im Plenarsaal, in der zweiten Welle aber deutlich 00:20:56.950 --> 00:21:01.320 unterdurchschnittlich. Im Vergleich dazu haben wir uns dann mal angeschaut, wie die 00:21:01.320 --> 00:21:06.020 SPD drüber gesprochen hat. Die SPD hat der ersten Welle unterdurchschnittlich viel 00:21:06.020 --> 00:21:12.120 über Datenschutz gesprochen oder hatte in ihren Reden deutlich weniger Datenschutz 00:21:12.120 --> 00:21:16.620 aufgegriffen. In der zweiten Welle oder im Beginn der zweiten Welle ein bisschen 00:21:16.620 --> 00:21:20.730 überdurchschnittlich, dann hat es aber deutlich abgeflacht. Das könnte - wird 00:21:20.730 --> 00:21:26.090 höchstwahrscheinlich damit zu tun haben, dass während der ersten Welle die SPD in 00:21:26.090 --> 00:21:30.920 der Regierung war und die CDU nicht, dass die CDU das deshalb vielleicht als 00:21:30.920 --> 00:21:37.650 relevanter angesehen hat, das Thema Datenschutz intensiver zu besprechen. In 00:21:37.650 --> 00:21:42.350 der zweiten Welle sehen wir, dass zum Beginn der zweiten Welle die SPD noch eine 00:21:42.350 --> 00:21:46.710 Opposition war. Aktuell ist sie natürlich mit in der Regierung. Das könnte die 00:21:46.710 --> 00:21:50.680 Bewegung erklären, warum zu Beginn der zweiten Welle die SPD leicht 00:21:50.680 --> 00:21:56.480 überdurchschnittlich oder das Thema Datenschutz leicht überdurchschnittlich 00:21:56.480 --> 00:22:02.700 relevant fand, dann aber zunehmend weniger. Wir plotten mal noch zwei andere 00:22:02.700 --> 00:22:08.550 spannende Parteien dazu, nämlich die FDP und die Grünen. Da können wir nämlich 00:22:08.550 --> 00:22:14.720 ablesen, dass diese zwei Oppositionsparteien, zumindest in der 00:22:14.720 --> 00:22:20.940 Zeit, dass diese zwei Parteien auch nach dem Abflauen der ersten Welle die Relevanz 00:22:20.940 --> 00:22:25.720 aufrecht erhalten haben. Das heißt, diese zwei Parteien hatten das Thema trotzdem 00:22:25.720 --> 00:22:30.550 weiter im Fokus gehalten. Okay, schauen wir uns eine andere Dimension an. Wir 00:22:30.550 --> 00:22:34.360 schauen uns mal an, wie das vielleicht mit dem Alter zu tun haben könnte. Und zwar 00:22:34.360 --> 00:22:40.760 haben wir das Alter der Politiker:in nach dem Durchschnitt ungefähr geteilt. Das 00:22:40.760 --> 00:22:44.170 heißt, das Durchschnittsalter des Bundestags aktuell liegt ungefähr bei 50 00:22:44.170 --> 00:22:47.580 Jahren. Und so haben wir jetzt unterschieden nach eher jüngeren 00:22:47.580 --> 00:22:52.590 Politikern, die unter 50 Jahre zum Zeitpunkt der Rede waren und älteren 00:22:52.590 --> 00:22:57.660 Politikern, die älter als 50 waren zum Zeitpunkt der Rede. Und hier sehen wir, 00:22:57.660 --> 00:23:03.350 dass die jüngeren Politiker das Thema Datenschutz deutlich relevanter finden als 00:23:03.350 --> 00:23:08.540 die älteren. Okay, als letzte Dimension schauen wir uns jetzt nochmal an, ob das 00:23:08.540 --> 00:23:14.570 dann vielleicht auch ein Zusammenhang mit dem akademischen Grad hat bzw. ob eine 00:23:14.570 --> 00:23:21.160 Politikerin oder ein Politiker einen Doktortitel trägt. Und an der Stelle sehen 00:23:21.160 --> 00:23:26.550 wir das, wenn eine Politiker:in einen Doktortitel trägt, das dann tendenziell 00:23:26.550 --> 00:23:31.360 überdurchschnittlich über Datenschutz gesprochen wird, als wenn die Person 00:23:31.360 --> 00:23:36.750 keinen Doktortitel hat. Man könnte jetzt versuchen, das irgendwie zusammenzufassen. 00:23:36.750 --> 00:23:40.040 Beispielsweise könnte man versuchen, das so zu interpretieren, dass wenn man 00:23:40.040 --> 00:23:43.641 möchte, dass im Plenarsaal viel über Datenschutz gesprochen wird, dann sollte 00:23:43.641 --> 00:23:49.740 man Oppositionsparteien wählen, die eher jüngere Leute hat. Und diese jüngeren 00:23:49.740 --> 00:23:53.850 Leuten sollten vielleicht eher einen Doktortitel tragen, vielleicht aber auch 00:23:53.850 --> 00:23:59.050 nicht. Genau. Aber genau. Diese Auswertungen waren vorher nicht möglich. 00:23:59.050 --> 00:24:02.170 Und jetzt könnte man reinschauen und gucken: Okay, was steckt denn da 00:24:02.170 --> 00:24:06.090 eigentlich drin? Welche Bewegungen stecken denn in diesen Daten? Wir wollen jetzt 00:24:06.090 --> 00:24:11.490 nochmal zwei Personen krönen, die sich sehr verdient gemacht haben, also die sehr 00:24:11.490 --> 00:24:15.570 oder die höchste Relevanzwerte hatten für das Thema Datenschutz in der ersten und in 00:24:15.570 --> 00:24:20.430 der zweiten Welle. In der ersten Welle geht diese Auszeichnung an Burkhard 00:24:20.430 --> 00:24:24.920 Hirsch, der insbesondere zum ersten in der ersten Phase der ersten Welle 00:24:24.920 --> 00:24:30.280 Innenminister war und sich ganz stark gegen staatliche Überwachung eingesetzt 00:24:30.280 --> 00:24:34.710 hat. Das heißt, das klingt auch sehr plausibel, dass unsere Analyse Burkhard 00:24:34.710 --> 00:24:40.410 Hirsch hier als Vorreiter sieht. In der zweiten Welle haben unsere Analysen 00:24:40.410 --> 00:24:44.920 ergeben, dass das Gisela Piltz war, die sich in besonderem Maße mit Datenschutz 00:24:44.920 --> 00:24:49.270 auseinandergesetzt hat. Und Gisela Piltz hat sich ganz... oder setzt sich ganz 00:24:49.270 --> 00:24:55.090 stark gegen die Vorratsdatenspeicherung ein. Also von daher wirkt auch das 00:24:55.090 --> 00:25:00.760 ziemlich plausibel. Genau. Das wäre jetzt das Beispiel Datenschutz, das wir 00:25:00.760 --> 00:25:04.520 aufbereitet haben, um zu gucken: Okay, was könnte in diesen Daten denn drinstecken 00:25:04.520 --> 00:25:07.900 und welche spannenden Fragen könnte man denn damit eigentlich stellen und 00:25:07.900 --> 00:25:13.280 potenziell auch beantworten? Jetzt haben wir uns noch ein zweites großes Thema 00:25:13.280 --> 00:25:16.260 angeschaut, was gerade in den letzten Jahren ganz, ganz stark an Relevanz 00:25:16.260 --> 00:25:21.320 gewonnen hat. Und da wird euch Philipp jetzt mal erzählen, was wir da so gefunden 00:25:21.320 --> 00:25:23.640 haben. Philipp: Genau. Also wir kommen nochmal 00:25:23.640 --> 00:25:28.331 ein bisschen vom Datenschutz zum Klimaschutz und stellen uns so ein 00:25:28.331 --> 00:25:33.620 bisschen den gleichen methodischen Ansatz. Also wir gucken mal, wie das reine Wort 00:25:33.620 --> 00:25:37.080 Klimaschutz verwendet wurde. Und wir stellen fest, dass das Wort Klimaschutz 00:25:37.080 --> 00:25:41.831 eigentlich ein relativ neuer Begriff ist. Ab den 2000ern. Aber zurück zu dem, was 00:25:41.831 --> 00:25:45.570 Florian gerade eben schon gesagt hat Die reine Analyse einzelner Begriffe ist noch 00:25:45.570 --> 00:25:50.050 nicht ausreichend, um diesen Themenkomplex und die latenten Grundstrukturen darunter 00:25:50.050 --> 00:25:54.791 zu erfassen. Deswegen reicht dieser Begriff Klimaschutz nicht, sondern wir 00:25:54.791 --> 00:25:58.540 haben auch hier wieder ein automatisiertes LDA Topic Modeling verwendet, was uns 00:25:58.540 --> 00:26:02.920 hunderte Begriffe automatisiert findet, die da reinpassen. Also natürlich kann ich 00:26:02.920 --> 00:26:06.580 über Klimaschutz reden, ohne den Begriff Klimaschutz zu verwenden. Ich kann über 00:26:06.580 --> 00:26:10.400 das Emissionsschutzgesetz sprechen. Ich kann über Nachhaltigkeit, über erneuerbare 00:26:10.400 --> 00:26:14.111 Energien reden, ohne auch nur einmal das Wort Klimaschutz zu verwenden. Dieses 00:26:14.111 --> 00:26:18.560 Thema also voll fokussieren. Deswegen haben wir daraus ein Thema gemacht und 00:26:18.560 --> 00:26:22.140 gucken uns jetzt diesen ganzen Komplex an und nicht mehr nur den Begriff. Wenn wir 00:26:22.140 --> 00:26:27.890 das tun, dann stellen wir fest, dass seit 1949 dieses Thema nicht erst in den 00:26:27.890 --> 00:26:31.730 2000ern an Relevanz gewonnen hat, sondern auch früher schon da war. Wenn ich jetzt 00:26:31.730 --> 00:26:34.900 auch hier wieder so ein bisschen die Wegmarker setze, dann kann ich auch das 00:26:34.900 --> 00:26:39.690 validieren. Also die ersten Umweltprogramme von Willy Brandt 1970, der 00:26:39.690 --> 00:26:45.870 Einzug der Grünen in den Bundestag, die Atomkatastrophe von Tschernobyl. Wir haben 00:26:45.870 --> 00:26:50.740 danach in den 90ern, das ist auch relativ plausibel, ein Abschwachen dieses Themas, 00:26:50.740 --> 00:26:53.330 denn wir hatten gerade in der Wiedervereinigung dann 00:26:53.330 --> 00:26:57.010 Verteilungskonflikte, die so ein bisschen relevanter wurden. Dadurch ist das Thema 00:26:57.010 --> 00:27:02.330 des Klimawandels und des Klimaschutzes so ein bisschen hinten runtergefallen. Wir 00:27:02.330 --> 00:27:06.379 haben weitere Punkte - wir haben die rot grüne Regierung von Schröder und Fischer 00:27:06.379 --> 00:27:11.460 2000, so Richtung 2000 2005. Wir haben Fukushima und die Energiewende. Wir haben 00:27:11.460 --> 00:27:15.640 das Pariser Klimaschutzabkommen. Und wir sehen jetzt auch schon diesen Drall nach 00:27:15.640 --> 00:27:20.410 oben, insbesondere durch Fridays For Future und die neue Auseinandersetzung mit 00:27:20.410 --> 00:27:23.750 der Einhaltung des Pariser Klimaschutzabkommens. Was wir jetzt hier 00:27:23.750 --> 00:27:27.360 wieder machen können, ist: Wir können uns wieder angucken, wie einzelne Parteien 00:27:27.360 --> 00:27:30.490 denn eigentlich darüber reden. Und wir können feststellen, dass die CDU ziemlich 00:27:30.490 --> 00:27:34.140 durchschnittlich über dieses Thema redet. In den letzten Jahren sogar deutlich 00:27:34.140 --> 00:27:37.100 abfallend, also deutlich unterdurchschnittlich. Gerade seit dem 00:27:37.100 --> 00:27:41.410 Pariser Klimaschutzabkommen ist das Thema für die CDU nicht mehr ganz so relevant 00:27:41.410 --> 00:27:45.720 vielleicht. Wir können die SPD plotten, das sieht auch ganz durchschnittlich aus. 00:27:45.720 --> 00:27:49.230 Bei der FDP sieht es auch ganz durchschnittlich aus, bei den Linken sogar 00:27:49.230 --> 00:27:52.880 ein Stück unterdurchschnittlich. Und so ein bisschen wie erwartet sind es die 00:27:52.880 --> 00:27:57.280 Grünen, die dieses Thema extrem pushen und die diesen Diskurs sehr, sehr hoch halten. 00:27:57.280 --> 00:28:02.190 Das heißt, die Grünen ziehen hier deutlich den den Rolling Mean nach oben und steuern 00:28:02.190 --> 00:28:06.170 dieses Thema ganz stark. Wir können aber auch hier noch ein bisschen weiter 00:28:06.170 --> 00:28:09.010 reingucken, nämlich: Wer sind das denn? Sind es die jüngeren oder sind es die 00:28:09.010 --> 00:28:12.890 älteren Politiker? Wenn ich mir hier das mal angucke, dann stelle ich fest, dass 00:28:12.890 --> 00:28:17.140 die mittelalten Politiker zwischen 39 und 59 sich mit dem Thema sehr 00:28:17.140 --> 00:28:21.420 durchschnittlich auseinandersetzen. Und so ein bisschen wie erwarten kann ich mir 00:28:21.420 --> 00:28:25.220 dann entsprechend vorstellen, dass sich ältere Politiker über 60 mit diesem Thema 00:28:25.220 --> 00:28:30.080 sehr gering, sehr unterdurchschnittlich auseinandersetzen und jüngere 00:28:30.080 --> 00:28:35.110 Politikerinnen unter 39 sich mit diesem Thema deutlich stärker auseinandersetzen. 00:28:35.110 --> 00:28:39.390 Wir sehen auch hier nicht nur eine stärkere Auseinandersetzung, sondern eben 00:28:39.390 --> 00:28:43.190 auch eine frühere Auseinandersetzung. Während bei älteren Politikerinnen diese 00:28:43.190 --> 00:28:46.500 Auseinandersetzung immer zeitlich rechts versetzt ist und immer deutlich weniger 00:28:46.500 --> 00:28:51.050 intensiv ist. Wir können mit dem Open Discourse Datensatz die Stammdaten des 00:28:51.050 --> 00:28:54.670 Deutschen Bundestages anzapfen und noch ein kleines Stück tiefer gehen. Wir können 00:28:54.670 --> 00:28:59.120 nämlich die Berufe der Abgeordneten auswerten. Jeder Abgeordnete gibt seinen 00:28:59.120 --> 00:29:04.480 Beruf oder seinen seinen beruflichen Hintergrund an. Und diese Daten können wir 00:29:04.480 --> 00:29:08.390 auswerten. Wir haben über 1 000 unique Berufsbezeichnungen von über 4 000 00:29:08.390 --> 00:29:11.760 Politiker:innen. Wenn ich mir die jetzt hier mal so angucke, dann sind es Ärzte 00:29:11.760 --> 00:29:16.460 und Apotheker und Unternehmer und Landwirte und Buchhalter:innen. Und wenn 00:29:16.460 --> 00:29:21.920 ich das so ein bisschen cluster, dann hab ich jetzt für die folgende Analyse mal 12 00:29:21.920 --> 00:29:25.900 Berufsgruppen gefiltert. Und jetzt kann man sich angucken, welche Berufsgruppen 00:29:25.900 --> 00:29:30.090 denn dieses Thema besonders stark fokussieren. Und was auch wieder sehr 00:29:30.090 --> 00:29:33.450 erwartbar ist, ist, dass die Naturwissenschaftler:innen dieses Thema 00:29:33.450 --> 00:29:37.850 deutlich stärker fokussieren, als andere das tun. Also das Thema ist sehr 00:29:37.850 --> 00:29:44.940 exorbitant getragen durch Physiker:innen, durch Biolog:innen, durch alle Personen, 00:29:44.940 --> 00:29:49.330 die irgendwie einen Berufshintergrund in dem Feld der Naturwissenschaften haben. 00:29:49.330 --> 00:29:54.840 Ich habe uns hier immer noch die Agrarwirte dazu geplottet. Also alle 00:29:54.840 --> 00:29:59.130 Landwirte und alle Forstwirte und die, die Bauer oder Bäuerin als Berufsbezeichnung 00:29:59.130 --> 00:30:04.140 angegeben haben. Wir sehen, dass es in der ersten Welle der Klimadebatte noch sehr 00:30:04.140 --> 00:30:10.130 relevant war und jetzt grad so Richtung der neueren Zeit für die Landwirte ein 00:30:10.130 --> 00:30:13.870 unterdurchschnittlich relevantes Thema geworden ist. Und wir können feststellen, 00:30:13.870 --> 00:30:18.290 dass die, die eine Berufsbezeichnung im Wirtschaftsfeld angegeben haben, sich mit 00:30:18.290 --> 00:30:21.780 diesem Thema auch auseinandersetzen. Allerdings deutlich weniger intensiv und 00:30:21.780 --> 00:30:25.350 auch wieder rechts verlagert, also zeitlich zurück verlagert, nachdem sich 00:30:25.350 --> 00:30:30.550 die Naturwissenschaftler:innen mit diesem Thema zuerst auseinandergesetzt haben. Was 00:30:30.550 --> 00:30:34.830 können wir feststellen oder was könnten wir mal so ein bisschen uns angucken? Wir 00:30:34.830 --> 00:30:37.550 können uns angucken, was denn eigentlich die perfekte Gruppe ist, um sich mit dem 00:30:37.550 --> 00:30:40.890 Thema Klimaschutz auseinanderzusetzen und diese perfekte Trennlinie zwischen der 00:30:40.890 --> 00:30:44.970 perfekten Gruppe von Abgeordneten und der schlechtesten Gruppe von Abgeordneten, die 00:30:44.970 --> 00:30:49.610 macht sich ziemlich einfach am Geschlecht und an dem Alter fest. Wenn ich also mir 00:30:49.610 --> 00:30:53.472 mal angucke, wie sich alte männliche Politiker mit dem Thema auseinandersetzen 00:30:53.472 --> 00:30:57.740 im Vergleich zu jungen weiblichen Politikerinnen, dann stelle ich fest, dass 00:30:57.740 --> 00:31:01.130 wir da sowohl wieder eine frühere Auseinandersetzung mit diesem Thema haben. 00:31:01.130 --> 00:31:04.590 Wir haben eine intensivere Auseinandersetzung mit dem Thema und für 00:31:04.590 --> 00:31:08.550 ältere Politiker, in diesem Fall jetzt hier über 60, ist die Auseinandersetzung 00:31:08.550 --> 00:31:15.620 wirklich sehr weit unter dem Durchschnitt des Parlaments. Wir können uns also hier 00:31:15.620 --> 00:31:19.060 vielleicht ein bisschen überlegen, welche Person wir denn ganz gerne im Bundestag 00:31:19.060 --> 00:31:25.030 hätten, um progressive Themen, so auch den Datenschutz stärker zu treiben. Wir können 00:31:25.030 --> 00:31:28.240 auch hier im Klimawandel wieder die Top Runner identifizieren, das können wir 00:31:28.240 --> 00:31:31.740 beliebig operationalisieren. Wir haben uns immer die Vielredner genommen. Also 00:31:31.740 --> 00:31:35.590 Politiker:innen mit mehr als 500 Reden. Und haben dann geguckt: Welche haben denn 00:31:35.590 --> 00:31:40.430 den höchsten Klima-Score auf dieses Topic? Tatsächlich ist es Angela Merkel, die als 00:31:40.430 --> 00:31:44.070 Vielrednerin sich mit diesem Thema am stärksten auseinandergesetzt haben. Wir 00:31:44.070 --> 00:31:47.100 wollten uns aber auch nochmal einen Newcomer angucken, in großen 00:31:47.100 --> 00:31:52.100 Anführungszeichen, also Politiker:innen mit 100 bis 500 Reden. Und da ist es Julia 00:31:52.100 --> 00:31:54.940 Verlinden von den Grünen, die sich am stärksten mit diesem Thema 00:31:54.940 --> 00:31:59.080 auseinandersetzt. Das ganze Fridays For Future hat immer auch das... geht es immer 00:31:59.080 --> 00:32:04.531 viel um das Schwänzen und um das Fernbleiben von Inhalten. Und wir haben 00:32:04.531 --> 00:32:08.160 uns deswegen mal angeguckt, wer denn so die großen Klimaschwänzer sind im 00:32:08.160 --> 00:32:12.140 Deutschen Bundestag. Das haben wir operationalisiert, indem wir gesagt haben, 00:32:12.140 --> 00:32:16.256 wir wollen nicht den Politiker, die Politikerin mit dem geringsten Wert über 00:32:16.256 --> 00:32:19.650 die gesamte Zeit finden, sondern wir wollen so einen Punkt nehmen, ab dem die 00:32:19.650 --> 00:32:23.610 Klimadebatte wohl in aller Munde sein müsste. Und wir haben dafür den ersten 00:32:23.610 --> 00:32:30.360 Global Climate Strike genommen, am 19., am 15. März 2019. Und wir haben dann von den 00:32:30.360 --> 00:32:34.810 Politikern geguckt, die die Gelegenheit hatten, darüber zu reden. Also die 00:32:34.810 --> 00:32:39.400 mindestens 40 Redebeiträge seitdem hatten, wie sie sich damit auseinandersetzen. Wir 00:32:39.400 --> 00:32:42.251 stellen fest, dass diejenigen, die sich am wenigsten damit auseinandersetzen, drei 00:32:42.251 --> 00:32:46.860 Männer sind, alle aus der gleichen Fraktion. Wir haben also Volker Ullrich, 00:32:46.860 --> 00:32:50.710 der sich trotz Gelegenheit am wenigsten damit auseinandersetzt. Wir haben Thorsten 00:32:50.710 --> 00:32:54.390 Frei, der sich trotz Gelegenheit am zweitwenigsten damit auseinandersetzt. Und 00:32:54.390 --> 00:32:58.210 wir haben hier auch den Spätzünder im Klimathema, Philipp Amthor, der sich trotz 00:32:58.210 --> 00:33:01.320 sehr vieler Reden nie mit diesem Thema oder sehr selten mit diesem Thema 00:33:01.320 --> 00:33:04.930 auseinandersetzt. Wichtig ist hier vielleicht noch zu sagen, dass wir nicht 00:33:04.930 --> 00:33:08.950 die reinen Reden zum Klimawandel zählen, sondern dass allein die Verwendung von den 00:33:08.950 --> 00:33:12.830 relevanten Begriffen, um dieses Thema ein bisschen z.B. in Steuer- oder in 00:33:12.830 --> 00:33:16.510 Haushaltsdebatten zu bringen, hier gezählt wird. Also wir haben eine sehr komplexe 00:33:16.510 --> 00:33:23.710 Betrachtung des gesprochenen Wortes. Florian: Genau. Soviel erst einmal zu 00:33:23.710 --> 00:33:28.500 einigen Analysen, die wir bisher durchgeführt haben. Wie bereits 00:33:28.500 --> 00:33:33.870 angesprochen ist unser eigentliches Ziel ja aber, dass ihr und alle anderen auch 00:33:33.870 --> 00:33:39.531 Analysen jetzt mit diesen Daten durchführen können und auf unserem Weg bis 00:33:39.531 --> 00:33:43.330 zur Veröffentlichung, die jetzt im Rahmen oder auch zu genau dieser Zeit, wenn wir 00:33:43.330 --> 00:33:49.840 diesen Vortrag halten, passiert, haben schon andere Partner und Partnerinnen, mit 00:33:49.840 --> 00:33:53.260 denen wir zusammengearbeitet haben oder die mit unseren Daten schon arbeiten 00:33:53.260 --> 00:33:56.151 konnten, ein paar Analysen durchgeführt oder sind gerade dabei, diese Analysen 00:33:56.151 --> 00:34:00.850 noch durchzuführen. Beispielsweise CorrelAid, CorrelAid ist ein Netzwerk von 00:34:00.850 --> 00:34:06.250 freiwilligen Data Scientists. Und bei CorrelAid haben sich zwei Projektteams 00:34:06.250 --> 00:34:09.790 zusammengefunden, die mit unseren Daten schon seit einiger Zeit ein bisschen herum 00:34:09.790 --> 00:34:14.240 arbeiten. Und die werden auch bald ihre Ergebnisse und Analysen veröffentlichen. 00:34:14.240 --> 00:34:18.399 Die findet ihr dann zum einen in den entsprechenden Kanälen von CorrelAid. Auf 00:34:18.399 --> 00:34:21.750 der anderen Seite werden wir die auch bei uns auf unserer Open Discourse Website 00:34:21.750 --> 00:34:28.040 dann zu gegebener Zeit einbetten. Ein paar Sachen, die da beispielsweise schon 00:34:28.040 --> 00:34:33.710 gemacht wurden, ist Ann-Kristin Vester hat sich angeschaut, wie eigentlich die 00:34:33.710 --> 00:34:38.970 Geschlechter im Bundestag auftreten, wie die, wie der Sprachgebrauch sich 00:34:38.970 --> 00:34:42.870 unterscheidet. An der Stelle auch nochmal kurz hier der Hinweis bei allen 00:34:42.870 --> 00:34:46.630 Analysen, die wir bisher durchgeführt haben: Wir betrachten Geschlecht bisher 00:34:46.630 --> 00:34:51.020 immer binär, weil der Bundestag das nicht anders hergibt. Es gibt bloß eine binäre 00:34:51.020 --> 00:34:55.220 Geschlechtseinteilung. Deswegen mussten wir das in den Analysen auch so vornehmen 00:34:55.220 --> 00:34:58.970 und das ist auch der Artikel, den Ann- Kristin Vester geschrieben hat, das ist 00:34:58.970 --> 00:35:04.470 auch dort mit erwähnt. Also eine tiefere oder eine diversere Untersuchung von den 00:35:04.470 --> 00:35:09.640 Geschlechtern im Bundestag ist aktuell leider noch nicht möglich. Genau. Eine 00:35:09.640 --> 00:35:13.670 andere Analyse wurde von Alexandra Wörner durchgeführt. Alexandra Wörner hat sich 00:35:13.670 --> 00:35:17.100 angeschaut, wie denn eigentlich über Diskriminierung im Bundestag gesprochen 00:35:17.100 --> 00:35:21.040 wurde, von welchen Parteien das wie intensiv benutzt wurde oder darüber 00:35:21.040 --> 00:35:25.240 gesprochen wurde und wie sich das über den zeitlichen Verlauf verändert hat. Auch 00:35:25.240 --> 00:35:29.870 ziemlich spannend. Ein anderes Projekt, das bereits mit unseren Daten durchgeführt 00:35:29.870 --> 00:35:34.361 wurde, kam von ZDF heute. Datenjournalist:innen von ZDF Heute hatten 00:35:34.361 --> 00:35:39.620 uns Frühsommer/Sommer angeschrieben und gefragt, ob sie unsere Daten nicht schon 00:35:39.620 --> 00:35:45.800 vor Veröffentlichung mal haben könnten, um zu schauen, ob sie diese Daten für einen 00:35:45.800 --> 00:35:51.380 Artikel schon nutzen könnten. Und daraus ist ein Artikel entstanden, in dem sich 00:35:51.380 --> 00:35:55.950 die Journalist:innen damit auseinandergesetzt haben, wie der 00:35:55.950 --> 00:36:01.530 Bundestag denn eigentlich über Pandemien und über das Coronavirus im speziellen 00:36:01.530 --> 00:36:06.150 unterhalten hat oder wie das debattiert wurde. Das Ergebnis war eher, dass der 00:36:06.150 --> 00:36:09.360 Bundestag da nicht besonders viel Aufmerksamkeit draufgelegt hat. Auch ein 00:36:09.360 --> 00:36:14.790 sehr spannender Artikel. Und als letztes wollen wir noch kurz das Projekt Open 00:36:14.790 --> 00:36:20.660 Parliament TV eher anteasern, weil der offizielle Veröffentlichungstermin ist für 00:36:20.660 --> 00:36:26.860 Mai 2021 vorgesehen. Open Parliament TV hat als Kernziel eigentlich ein sehr 00:36:26.860 --> 00:36:32.201 ähnliches Ideal wie wir bei Open Discourse. Es geht darum, den Bundestag 00:36:32.201 --> 00:36:37.430 transparenter zu machen. Open Parliament TV hat dabei das Ziel, die 00:36:37.430 --> 00:36:41.830 Videomitschnitte der Plenardebatten mit den entsprechenden Transkripten, also 00:36:41.830 --> 00:36:46.730 Plenarprotokollen zusammenzuführen, um darüber eine noch viel wirksamere oder 00:36:46.730 --> 00:36:52.001 detailliertere Recherchefunktion zu ermöglichen. Und an der Stelle wird 00:36:52.001 --> 00:36:56.570 gerade evaluiert, wie die Daten von Open Discourse diesem Projekt noch weiter 00:36:56.570 --> 00:37:06.250 helfen können. Genau. Und jetzt wieder zu euch. Wie gerade schon angesprochen sind 00:37:06.250 --> 00:37:11.900 unsere Daten ab sofort und unserer Source Code komplett öffentlich verfügbar. Das 00:37:11.900 --> 00:37:15.870 heißt, ihr habt jetzt die Möglichkeit, mit diesen Daten zu machen, was ihr wollt. Wir 00:37:15.870 --> 00:37:20.370 haben bei der Veröffentlichung das Ziel gehabt, die so verfügbar wie möglich zu 00:37:20.370 --> 00:37:26.700 machen und haben dabei auf drei große Säulen versucht zu achten. Die erste Säule 00:37:26.700 --> 00:37:31.640 dabei sind die Techniker:innen unter euch, also alle Techniker:innen unter euch. Ihr 00:37:31.640 --> 00:37:37.170 könnt euch unsere GitHub Seite anschauen von Open Discourse und dort findet ihr 00:37:37.170 --> 00:37:40.400 natürlich den Source Code. Ihr könnt das alles auschecken, lokal bei euch 00:37:40.400 --> 00:37:43.980 aufsetzen, überprüfen, wie wir eigentlich vorgegangen sind, verbessern, 00:37:43.980 --> 00:37:50.400 Schwachstellen finden. Außerdem findet ihr auf der GitHub Seite auch einen Docker 00:37:50.400 --> 00:37:55.051 Container, wo die komplette Datenbank als Image vorliegt, d.h. die könnt ihr euch 00:37:55.051 --> 00:38:00.770 auch sofort aufsetzen oder halt nochmal neu generieren lassen, wenn ihr wollt. Für 00:38:00.770 --> 00:38:05.560 die Analytiker:innen und die Wissenschaftler:innen unter euch haben wir 00:38:05.560 --> 00:38:11.280 ein Harvard Dataverse angelegt. Dort findet ihr die aktuelle Version unserer 00:38:11.280 --> 00:38:15.430 Datenbank als Data Dump und wir haben das in vier verschiedenen Dateiformaten 00:38:15.430 --> 00:38:21.050 bereitgestellt als CSV, Feather, Pickle und RDS-Files, damit ihr je nachdem, womit 00:38:21.050 --> 00:38:26.400 ihr am liebsten arbeitet, genau das perfekte Dateiformat für euch findet. Und 00:38:26.400 --> 00:38:31.900 als letztes haben wir noch für quasi Quick Reviews oder schnelle Recherchen auf 00:38:31.900 --> 00:38:36.250 unserer Webseite eine Volltextsuche mit Filter-Option bereitgestellt. Da könnt ihr 00:38:36.250 --> 00:38:44.420 also nach Stichworten, nach Parteizugehörigkeit, nach den Namen der 00:38:44.420 --> 00:38:50.450 Politiker, nach Datum usw. filtern und schauen, ob euch was spannendes auffällt 00:38:50.450 --> 00:38:59.430 oder ob ihr eure Fragen beantworten könnt. Genau. So viel dann erst mal von uns. Wir 00:38:59.430 --> 00:39:04.310 bedanken uns ganz, ganz herzlich für euer Interesse und dass ihr uns zugehört habt. 00:39:04.310 --> 00:39:07.360 Wir bedanken uns natürlich auch bei der C Base dafür, dass wir das Video hier 00:39:07.360 --> 00:39:12.060 aufnehmen konnten. Bei Fragen und Anregungen schreibt uns gerne eine Mail 00:39:12.060 --> 00:39:17.550 oder kontaktiert uns über die einschlägigen Kanäle. Oder wir sprechen 00:39:17.550 --> 00:39:26.280 uns dann gleich bei der Fragerunde. Alles klar. Vielen Dank. Danke schön. 00:39:26.280 --> 00:39:30.640 Herald: Wir sind nun mit den Sprechern verbunden, sind uns zugeschaltet für 00:39:30.640 --> 00:39:33.871 Fragen und Antworten, die uns zugespielt worden sind. Herzlich willkommen! 00:39:33.871 --> 00:39:39.470 Philipp & Florian: Hallo! Herald: Die zweite Welle des Datenschutzes ist 00:39:39.470 --> 00:39:43.510 ja angesichts der Zeit gerade die perfekte Metapher. Wie lange wird die zweite Welle 00:39:43.510 --> 00:39:48.730 des Datenschutzes wohl noch gehen? Florian: Ja, gute Frage. Keine Ahnung. Man 00:39:48.730 --> 00:39:54.520 hat ja gesehen, dass es schon ein bisschen bergab wieder geht, aber viel mehr kann 00:39:54.520 --> 00:39:57.870 ich da eigentlich nicht zu sagen. Aber es ist spannend, das jetzt im Auge behalten 00:39:57.870 --> 00:40:00.610 zu können. Herald: Ist auf jeden Fall auf absehbare 00:40:00.610 --> 00:40:04.610 Zeit nicht mit einer Impfung zu rechnen. Eine Frage, die uns zugespielt worden ist 00:40:04.610 --> 00:40:10.960 über die Hashtags und über IRC, die wir empfangen und die wir weitergeben, ist: Es 00:40:10.960 --> 00:40:14.380 gibt noch einen weiteren Text Korpus. Ihr habt jetzt den Deutschen Bundestag 00:40:14.380 --> 00:40:17.890 analysiert, aber es gibt noch eine andere legislative Kammer, die es lange Jahre 00:40:17.890 --> 00:40:22.350 gab, nämlich die Volkskammer der DDR. Gibt es dort überhaupt entsprechende Unterlagen 00:40:22.350 --> 00:40:25.080 oder entsprechendes Material, das man analysieren könnte? 00:40:25.080 --> 00:40:30.350 Florian: Da bin ich mir gar nicht so sicher. Also ich hab - also davon weiß ich 00:40:30.350 --> 00:40:33.500 nichts. Wir hatten da jetzt auch gar nicht so weiter reingeguckt. Wir hatten 00:40:33.500 --> 00:40:36.270 natürlich, während wir an dem Projekt gearbeitet hatten, schon überlegt, wie man 00:40:36.270 --> 00:40:39.540 das alles noch weiterdenken könnte, was man zusätzlich noch mit aufnehmen könnte. 00:40:39.540 --> 00:40:43.820 Da war die Volkskammer auch schon mal im Gespräch, aber wir sind da jetzt erstmal 00:40:43.820 --> 00:40:47.990 nicht weiter rein gesprungen. Aber prinzipiell wird das natürlich total 00:40:47.990 --> 00:40:52.060 spannend, noch weiter in die Richtung zu denken und das auch noch mit aufzunehmen. 00:40:52.060 --> 00:40:57.330 Aber ich weiß gar nicht, ob es die Plenarprotokolle da so auch detailliert 00:40:57.330 --> 00:41:02.050 gibt. Genau. Wahrscheinlich wäre es auch ein relativ großer Aufwand, könnte ich mir 00:41:02.050 --> 00:41:05.850 vorstellen, die Regex Patterns, die wir jetzt für den Bundestag aufbereitet haben, 00:41:05.850 --> 00:41:11.700 auf die Volkskammer zu übertragen. Weil wenn sich da... also im Prinzip basiert, 00:41:11.700 --> 00:41:14.800 die Aufarbeitung, die wir gemacht haben darauf, dass die Struktur in den 00:41:14.800 --> 00:41:18.380 Plenarprotokollen einigermaßen ähnlich bleibt, über die Legislaturperioden. Die 00:41:18.380 --> 00:41:22.610 wird natürlich jedes Mal angepasst, wenn's dann notwendig war. Auf der anderen Seite 00:41:22.610 --> 00:41:27.250 brauchen wir die Stammdaten der Politiker:innen, weil wir das für die 00:41:27.250 --> 00:41:30.820 Fuzzy Matching Logiken nutzen, um zuweisen zu können: Wer hat denn eigentlich was 00:41:30.820 --> 00:41:35.040 gesagt? Total spannend, das für die Volkskammer auch noch zu machen. 00:41:35.040 --> 00:41:39.300 Vielleicht jetzt als nächster Schritt. Wir sind erstmal froh, dass wir den Bundestag 00:41:39.300 --> 00:41:42.670 fertig bekommen haben. Herald: Auf jeden Fall. Gibt es denn 00:41:42.670 --> 00:41:45.840 Wünsche, die ihr habt für die Zugänglichkeit von Daten, die euch das 00:41:45.840 --> 00:41:48.870 Leben oder anderen das Leben einfacher machen würden, bei solchen 00:41:48.870 --> 00:41:52.080 Auswertungen? Philipp: Das ist glaube ich vor allem die 00:41:52.080 --> 00:41:54.750 strukturierte Erfassung, also eigentlich hätte der Bundestag selbst die 00:41:54.750 --> 00:41:58.760 Möglichkeit, diese Daten von sich aus schon strukturiert verfügbar zu machen. 00:41:58.760 --> 00:42:02.320 Vor allem, weil eben diese ganz einfachen Sachen - ich suche nach Begriffen oder ich 00:42:02.320 --> 00:42:06.230 suche nach Themen oder ich möchte das mal ein bisschen strukturiert durchsuchen - 00:42:06.230 --> 00:42:10.650 das ist derzeit eine absolut händische Aufgabe und das ist eigentlich in unserer 00:42:10.650 --> 00:42:15.010 jetzigen Zeit ein kleines bisschen hinter der Zeit hinterher. Von daher wäre es 00:42:15.010 --> 00:42:20.610 eigentlich sehr sinnvoll, wenn man so Grundideen von strukturierter Datenhaltung 00:42:20.610 --> 00:42:24.220 dann auch in öffentlichen Verwaltungen hätte, um eben diesen Zugang zu 00:42:24.220 --> 00:42:27.450 erleichtern. Der Bundestag hat uns jetzt quasi eineinhalb Jahre Arbeit gekostet, 00:42:27.450 --> 00:42:32.900 das aufzubrechen. Und wär natürlich super, wenn man solche Grundthemen der 00:42:32.900 --> 00:42:36.930 Datenhaltung, der öffentlich verfügbaren Datenhaltung auch irgendwie direkt 00:42:36.930 --> 00:42:40.180 mitdenkt. Florian: Ein ganz kleiner Nachtrag da 00:42:40.180 --> 00:42:43.670 noch. Ein großer Wunsch, der uns vieles erleichtern würde, jetzt auch Open 00:42:43.670 --> 00:42:48.820 Discourse up to date zu halten, wäre ein RSS-Feed vom Bundestag. Da sitzen auch die 00:42:48.820 --> 00:42:53.260 Leute von Open Parliament TV so ein bisschen dran und hoffen, dass das 00:42:53.260 --> 00:42:56.480 irgendwie bereitgestellt wird. Aber das würde uns natürlich ermöglichen, 00:42:56.480 --> 00:43:01.550 automatisiert den Datensatz zu erweitern, sobald irgendwie eine neue Rede 00:43:01.550 --> 00:43:08.640 bereitgestellt wurde auf den Servern. Im Moment geht das leider so noch nicht. 00:43:08.640 --> 00:43:12.690 Herald: Strukturierte, maschinenlesbare Verwaltung und strukturierte Daten quasi 00:43:12.690 --> 00:43:17.850 als Wunsch. Es gibt ja zum Teil zumindest eigene Projekte, wo aus dritter Hand 00:43:17.850 --> 00:43:22.310 solche Daten für Dritte bereitgestellt werden, wie z.B. Wikidata. Ist das eine 00:43:22.310 --> 00:43:26.560 Quelle, auf die ihr euch, die ihr verwenden könnt für so was? 00:43:26.560 --> 00:43:32.510 Florian: Genau. Teilweise hatten wir das auch verwendet. Also auf dem Weg zum 00:43:32.510 --> 00:43:38.380 fertigen Produkt haben wir auch mit Wikidata-Daten gearbeitet. Zum Beispiel 00:43:38.380 --> 00:43:44.050 gibt es in den Stammdaten ja Informationen darüber, wo Personen geboren wurden und 00:43:44.050 --> 00:43:48.890 das sind die Originalgeburtsorte von damals, quasi mit den historischen Namen. 00:43:48.890 --> 00:43:55.840 Und an der Stelle hatten wir dann mal als Test-Experiment bei uns intern für jede 00:43:55.840 --> 00:44:02.120 Person, die wir im Bundestag hatten, jeden Abgeordneten und jede Abgeordnete, die 00:44:02.120 --> 00:44:05.710 Wikidata-IDs rausgesucht, damit wir mappen können: Okay, was ist denn jetzt 00:44:05.710 --> 00:44:08.530 eigentlich die ID für den Geburtsort dahinter, damit wir damit weiterarbeiten 00:44:08.530 --> 00:44:12.350 können? Das liegt aber bei uns nur, also das ist jetzt nicht Teil des Korpus, weil 00:44:12.350 --> 00:44:16.370 wir das nicht weit... also so weit validiert haben, dass wir sicher sein 00:44:16.370 --> 00:44:21.080 können, dass das korrekt ist. Aber auf jeden Fall. Also das wäre so ein bisschen 00:44:21.080 --> 00:44:24.330 die Anschlussfähigkeit, die wir uns eigentlich wünschen. Also im Idealfall 00:44:24.330 --> 00:44:29.270 wäre jetzt und wäre vielleicht die Community dazu auch aufgerufen, für jede 00:44:29.270 --> 00:44:33.900 Politiker:in noch die entsprechende Wikidata ID mit zum am Korpus dazu zu 00:44:33.900 --> 00:44:40.710 packen, damit wir noch viel mehr Daten und viel mehr Dimensionen haben für den ganzen 00:44:40.710 --> 00:44:44.330 Datensatz haben. Herald: Wohin wenden sich denn Menschen, 00:44:44.330 --> 00:44:46.901 wenn sie bei eurem Projekt mitmachen möchten? 00:44:46.901 --> 00:44:52.130 Florian: Am besten z.B. zwischenruf@opendiscourse.de oder auf 00:44:52.130 --> 00:44:54.680 unserer Webseite opendiscourse.de findet ihr auch verschiedene 00:44:54.680 --> 00:44:58.930 Kontaktmöglichkeiten. Ihr könnt natürlich auch direkt über das Repository uns 00:44:58.930 --> 00:45:02.940 Tickets schreiben, falls ihr irgendwie Sachen habt, die euch aufhalten. Twitter, 00:45:02.940 --> 00:45:08.750 Instagram, sämtliche Kanäle. Herald: Alle sozialen Netzwerke. Seid ihr 00:45:08.750 --> 00:45:11.980 auf TikTok? Florian: Nur privat... 00:45:11.980 --> 00:45:17.060 Herald: Zum Thema Transferierbarkeit gab's dann auch nochmal eine Frage aus dem Chat. 00:45:17.060 --> 00:45:21.369 Zum Beispiel für die Republik Österreich. Wie gehen den Menschen vor - ihr habt ja 00:45:21.369 --> 00:45:23.920 vorhin umrissen, dass es gar nicht so einfach ist, so einen Datensatz zu 00:45:23.920 --> 00:45:26.911 analysieren. Aber wie würden denn Menschen vorgehen, die sagen: Das finden sie 00:45:26.911 --> 00:45:29.330 interessant. Zum Beispiel für ihr Landesparlament oder eben auch für ein 00:45:29.330 --> 00:45:34.680 anderes Land? Florian: Genau, an der Stelle sind wir 00:45:34.680 --> 00:45:39.830 leider auch nicht ausreichend Expert:innen für die Plenarprotokolle, wie die auf 00:45:39.830 --> 00:45:44.680 Landesebene aussehen. Also es könnte sein. Wir haben da halt noch nicht reingeschaut. 00:45:44.680 --> 00:45:47.770 Es könnte sein, dass es eigentlich gar nicht zu viele Abänderungen der Regex 00:45:47.770 --> 00:45:52.350 Patterns voraussetzt, um es zu übertragen. Es könnte aber auch sein, dass es relativ 00:45:52.350 --> 00:45:58.730 aufwändig ist. Wir würden da jetzt so ein bisschen auf die Stimmen von euch warten. 00:45:58.730 --> 00:46:03.110 Also was interessiert euch denn eigentlich am meisten? Und wir sind natürlich auch 00:46:03.110 --> 00:46:08.430 sehr dankbar für jedes weitere Paar Augen, das auf unsere Daten oder bzw. auf unseren 00:46:08.430 --> 00:46:12.110 Source Code draufschaut, um vielleicht Ideen zu entwickeln, wie man das jetzt 00:46:12.110 --> 00:46:18.112 möglichst effizient auf andere Anwendungsbereiche übertragen kann. 00:46:18.112 --> 00:46:22.619 Herald: Okay, dann ist noch eine Frage aus dem Chat, nämlich vielleicht kam das im 00:46:22.619 --> 00:46:26.710 Talk vor. Er schreibt die Person: Aber wie ist das Projekt zustande gekommen? 00:46:26.710 --> 00:46:33.040 Insbesondere von der Finanzierung her? Philipp: Also die Idee, die Grundidee war 00:46:33.040 --> 00:46:37.570 glaube ich war, als wir zusammensaßen und uns überlegt haben, wie können wir denn 00:46:37.570 --> 00:46:41.250 eigentlich in Anbetracht von so vielen schönen und künstlerischen oder 00:46:41.250 --> 00:46:45.369 politischen Programmen und Aktionen die so gibt, was können wir da eigentlich 00:46:45.369 --> 00:46:49.810 beitragen, um irgendwas zu machen? Wir sind Informatiker und Data Scientists und 00:46:49.810 --> 00:46:53.660 das ist nicht so direkt der Punkt, wo man jetzt die Welt ins Positive drehen kann. 00:46:53.660 --> 00:46:57.500 Aber dann ist uns aufgefallen, dass eben diese Daten, der Datensatz nicht 00:46:57.500 --> 00:47:01.400 ausreichend verfügbar ist, dass der nicht maschinenlesbar ist, dass es nur händisch 00:47:01.400 --> 00:47:05.010 durchsuchbare Protokolle sind. Und dann haben wir diesen Datensatz genommen und 00:47:05.010 --> 00:47:08.340 aufgebrochenen. Grundlegend sind wir sonst normalerweise in Agenturen und erbringen 00:47:08.340 --> 00:47:11.291 Data Science Machine Learning Dienstleistungen. Und haben dieses Projekt 00:47:11.291 --> 00:47:15.970 aber in Abstimmung mit unserem Team, also wir waren zu neunt an diesem Projekt, 00:47:15.970 --> 00:47:21.780 haben das quasi komplett von unserem Business getrennt und haben quasi gesagt: 00:47:21.780 --> 00:47:25.950 Okay, wann immer wir Arbeitsstunden frei haben, haben wir Zeit um dieses Projekt zu 00:47:25.950 --> 00:47:31.390 treiben. Und damit diese quasi Bindung der Privatwirtschaft, die da ja dran sein 00:47:31.390 --> 00:47:34.570 könnte, dass die natürlich auch komplett eliminiert ist, ist dieses Projekt 00:47:34.570 --> 00:47:39.057 komplett offen und ist komplett durchsuchbar und ist komplett frei, sodass 00:47:39.057 --> 00:47:42.150 validiert werden kann, dass wir das natürlich... Wir haben natürlich eine 00:47:42.150 --> 00:47:45.070 eigene politische Meinung, aber die soll natürlich nicht mit in diesen Datensatz 00:47:45.070 --> 00:47:47.800 fließen. Daher liegt der Datensatz komplett offen und kann vollkommen 00:47:47.800 --> 00:47:51.900 durchsucht werden. Finanziert ist das aber quasi aus den Freistunden, die wir als 00:47:51.900 --> 00:47:56.890 Data Science Agentur hatten. Herald: Vielen Dank Florian, vielen Dank 00:47:56.890 --> 00:48:00.110 für dieses spannende Projekt und wirklich gehaltvolle Projekt. Bei den 00:48:00.110 --> 00:48:03.920 Beleidigungen muss man auch sagen: Franz Josef Strauß war von der Runterzählung der 00:48:03.920 --> 00:48:08.320 Top 5 fast zu erwarten, dass der rauskommt. Ich hatte eigentlich noch Herrn 00:48:08.320 --> 00:48:12.890 Wehner auch erwartet, der eigentlich sein sein traditioneller Widersacher war. Habt 00:48:12.890 --> 00:48:17.370 ihr denn ein Lieblingsschlagaustausch oder eine Lieblingsbeleidigung gefunden in 00:48:17.370 --> 00:48:21.020 eurer Arbeit. Philipp: Ich glaube, man kann es auf so 00:48:21.020 --> 00:48:26.063 unterschiedliche Art und Weisen auch operationalisieren. Ich glaube wir hatten 00:48:26.063 --> 00:48:29.780 mal eine ganz, eine ganz spannende... ich glaube das müssten wir nochmal... 00:48:29.780 --> 00:48:33.910 Vielleicht machen wir dafür nochmal einen extra Teil auf der Website, wo wir die 00:48:33.910 --> 00:48:38.264 spannendsten Beleidigungen nochmal aufgreifen. Das wäre ein gutes Thema. 00:48:38.264 --> 00:48:41.070 Florian: Wir hatten glaube ich teilweise in so einem kleinen Dokument mal ein paar 00:48:41.070 --> 00:48:43.660 Sachen gesammelt. Aber ich hab die grad auch gar nicht im Kopf. 00:48:43.660 --> 00:48:48.021 Herald: Okay, also einen Ausbaupotenzial für den Spaß da hinten dran, für die 00:48:48.021 --> 00:48:52.420 Spaßig-Seite der Datenanalyse ist auf jeden Fall vorhanden. Vielen Dank für 00:48:52.420 --> 00:48:58.010 euren Beitrag. Ich hoffe, ihr bekommt viel Feedback und noch viel Input, wie man hier 00:48:58.010 --> 00:49:00.220 noch mehr draus machen kann. Danke euch! - Vielen Dank auch. 00:49:00.220 --> 00:49:02.810 - Danke dir. 00:49:02.810 --> 00:49:06.180 Wikipaka Outro Musik 00:49:06.180 --> 00:49:13.000 Untertitel erstellt von c3subtitles.de im Jahr 2021. Mach mit und hilf uns!