0:00:00.000,0:00:15.379 Wikipaka Intro Musik 0:00:15.379,0:00:18.320 Florian: Herzlich willkommen zu unserem[br]Talk "Wir wissen, was ihr letzten Sommer 0:00:18.320,0:00:21.550 gesagt habt". Wir sind sehr aufgeregt und[br]freuen uns sehr, dass wir das heute 0:00:21.550,0:00:27.160 vorstellen dürfen. Wir sind Philip Koch[br]und Florian Richter und wir wollen euch 0:00:27.160,0:00:31.880 heute unser Projekt Open Discourse[br]vorstellen und inwiefern Open Discourse 0:00:31.880,0:00:36.920 die Transparenz des Bundestages erhöhen[br]kann. An Open Discourse haben wir die 0:00:36.920,0:00:41.350 letzten anderthalb Jahre gearbeitet, in[br]einem Team von insgesamt neun Personen. 0:00:41.350,0:00:48.710 Und genau. Worüber wollen wir euch[br]eigentlich heute erzählen? Für Open 0:00:48.710,0:00:53.519 Discourse haben wir die Plenarprotokolle[br]des Deutschen Bundestages aufgearbeitet 0:00:53.519,0:00:58.900 und die Plenarprotokolle seht ihr hier auf[br]der rechten Seite, die sehen so aus. Das 0:00:58.900,0:01:05.560 heißt für jede Sitzung im Bundestag gibt[br]es Stenograph:innen, die jedes gesprochene 0:01:05.560,0:01:09.400 Wort von den Parteien bzw. von den[br]Politiker:innen, die gerade eine Rede 0:01:09.400,0:01:16.940 halten, aufzeichnen. Und außerdem wird[br]auch jeder Zwischenruf, jede Reaktion aus 0:01:16.940,0:01:21.660 dem Plenum mit aufgezeichnet. Diese[br]Plenarprotokolle stellt der Bundestag zur 0:01:21.660,0:01:27.709 Verfügung, seit 1949. Allerdings als PDF-[br]Dokument. Das birgt natürlich einige 0:01:27.709,0:01:32.440 Probleme, weil PDF Dokumente sind nicht[br]gut durchsuchbar, weil wir jetzt z.B. 0:01:32.440,0:01:36.239 nicht gezielt suchen könnten, was ein[br]bestimmter Politiker einer bestimmten 0:01:36.239,0:01:41.630 Partei im Jahre 1950 beispielsweise gesagt[br]hat. Das heißt, das ist das Problem, das 0:01:41.630,0:01:45.800 wir eigentlich haben. Aber eigentlich[br]beinhalten diese Plenarprotokoll ziemlich 0:01:45.800,0:01:52.029 viel wertvolle Information. Weil[br]beispielsweise natürlich die einzelnen 0:01:52.029,0:01:57.260 Redebeiträge, die Zwischenrufe usw, diese[br]sind aber als Fließtext in diesem PDF 0:01:57.260,0:02:00.320 enthalten. Das heißt, wir brauchen[br]eigentlich irgendeinen Weg, um das 0:02:00.320,0:02:04.179 herauszubrechen. Und genau, das gab's[br]bisher noch nicht. Mit Open Discourse 0:02:04.179,0:02:09.429 haben wir es jetzt erstmals geschafft,[br]seit 1949 alle Reden, alle Zwischenrufe, 0:02:09.429,0:02:15.460 alle Reaktionen und so weiter[br]herauszuarbeiten. Warum machen wir das 0:02:15.460,0:02:20.200 eigentlich? Die Motivation hinter Open[br]Discourse beruht im Kern darauf, dass wir 0:02:20.200,0:02:23.350 davon ausgehen oder wir finden, das[br]Plenarprotokolle eigentlich eine ziemlich 0:02:23.350,0:02:28.970 wertvolle Ressource sind und die Debatten[br]im Bundestag ja eigentlich so transparent 0:02:28.970,0:02:32.680 wie möglich stattfinden sollten. Das[br]heißt, wir alle haben ein Recht darauf, 0:02:32.680,0:02:36.770 auch noch nach 20 Jahren zu wissen, was[br]eine bestimmte Politikerin oder ein 0:02:36.770,0:02:43.700 bestimmter Politiker zu einem bestimmten[br]Thema gesagt hat. Was auffällt, wenn wir 0:02:43.700,0:02:49.970 uns Plenarprotokolle und die Befassung mit[br]Plenarprotokollen ansehen, ist, dass das vor 0:02:49.970,0:02:52.580 allen Dingen in der deutschen[br]Politikwissenschaft eigentlich ein Thema 0:02:52.580,0:02:59.230 ist, das nicht besonders oft angefasst[br]wird. Es ist unterrepräsentiert in der 0:02:59.230,0:03:03.280 Forschung. Das hat mehrere Gründe: Zum[br]einen.. oder zwei Hauptgründe 0:03:03.280,0:03:06.860 wahrscheinlich. Zum einen ist die deutsche[br]Politikwissenschaft eher aus der 0:03:06.860,0:03:10.390 politischen Ideengeschichte erwachsen. Das[br]heißt, man kümmert sich eigentlich eher 0:03:10.390,0:03:14.670 qualitativ um Texte als quantitativ. Das[br]ändert sich in den letzten Jahren ein 0:03:14.670,0:03:18.541 bisschen. Aber im Kern befasst sich die[br]deutsche Politikwissenschaft immer noch 0:03:18.541,0:03:22.530 relativ wenig mit dem Plenardebatten. Und[br]der große Grund dafür ist dann natürlich 0:03:22.530,0:03:26.090 auch, dass diese Plenarprotokolle bisher[br]noch nicht maschinenlesbar und nicht 0:03:26.090,0:03:29.990 leicht auswertbar vorlagen. Man kann sich[br]vorstellen, wenn man jetzt nach einer 0:03:29.990,0:03:34.160 gezielten Fragestellung die[br]Plenarprotokolle untersuchen möchte, 0:03:34.160,0:03:37.690 müsste man im Zweifelsfall über 4 000[br]Protokolle händisch durchlesen, um zu 0:03:37.690,0:03:41.280 schauen: In welchem Protokoll steht jetzt[br]irgendeine Information, die wichtig ist 0:03:41.280,0:03:47.830 für meine Fragestellung. In den letzten[br]Jahren sehen wir aber, dass das Interesse 0:03:47.830,0:03:51.480 an diesen Plenarprotokollen zunehmend[br]wächst. Und an der Stelle haben wir uns 0:03:51.480,0:03:56.660 gedacht, als Team aus in erster Linie Data[br]Scientists und Software Developern, dass 0:03:56.660,0:04:00.800 wir eigentlich die Skills dazu haben,[br]diese Daten aufzubereiten und der 0:04:00.800,0:04:05.370 Öffentlichkeit zur Verfügung zu stellen.[br]Genau. Das ist also der der aktuelle 0:04:05.370,0:04:10.210 Stand. Wir haben das große Problem, dass[br]es keine einfache Möglichkeit gibt, diese 0:04:10.210,0:04:13.850 Plenarprotokolle zu durchsuchen und diese[br]Plenarprotokolle auch nicht 0:04:13.850,0:04:19.709 maschinenlesbar sind, wir also keine[br]aktuellen Analysemethoden über diesen 0:04:19.709,0:04:23.720 Textkorpus laufen lassen können. Unsere[br]Ziele, die wir uns gesetzt haben für 0:04:23.720,0:04:28.849 dieses Projekt, waren mehr Transparenz des[br]politischen Diskurses in Deutschland, eine 0:04:28.849,0:04:32.569 detaillierte Durchsuchbarkeit der[br]Plenardebatten, ein öffentlicher und 0:04:32.569,0:04:36.939 möglichst niedrigschwelliger Zugang zu[br]diesen Daten, die Anschlussfähigkeit 0:04:36.939,0:04:41.279 unseres Projektes, damit dieses Projekt[br]weiterentwickelt werden kann, dass neue 0:04:41.279,0:04:46.759 Projekte daraus entstehen können. Und[br]natürlich, dass mit diesen Daten auch 0:04:46.759,0:04:51.149 geforscht werden kann und wir demnach ein[br]wissenschaftliches Niveau für diese Daten 0:04:51.149,0:04:57.169 brauchen. Ok, kurz zum Status Quo. In den[br]letzten Jahren, wie gerade angesprochen 0:04:57.169,0:05:02.960 hat sich natürlich das Interesse für diese[br]Plenarprotokoll deutlich erhöht. 2017 0:05:02.960,0:05:06.779 beispielsweise gab es das sehr spannende[br]Projekt Offenes Parlament, was von der 0:05:06.779,0:05:12.689 Open Knowledge Foundation getrieben wurde[br]oder durchgeführt wurde. In diesem Projekt 0:05:12.689,0:05:17.330 wurden die Plenarprotokolle der 18.[br]Wahlperiode aufgearbeitet und diese waren 0:05:17.330,0:05:20.889 dann auch granular durchsuchbar, das[br]heißt, wir hatten Dimensionen zum Datum, 0:05:20.889,0:05:27.240 zum Inhalt der Redebeiträge, welche Person[br]diesen Redebeitrag gehalten hat usw. 0:05:27.240,0:05:32.599 Ebenfalls 2017 und 2018 kamen die Projekte[br]ParlSpeech und GermaParl und wurden 0:05:32.599,0:05:37.520 veröffentlicht. Das sind zwei[br]wissenschaftliche Projekte, die ebenfalls 0:05:37.520,0:05:43.409 sehr granular die Redebeiträge aufbereitet[br]haben des Bundestages. Allerdings im Falle 0:05:43.409,0:05:46.449 von ParlSpeech, die haben dieses Jahr[br]nochmal ein Update von ihrem Datensatz 0:05:46.449,0:05:51.580 gemacht. Reicht jetzt von der 12. bis 19.[br]Wahlperiode. Bei GermaParl sind aktuell 0:05:51.580,0:05:56.010 die 13. bis zur 18. Wahlperiode abgedeckt.[br]D.h. wir haben da auch nicht den 0:05:56.010,0:06:02.860 kompletten Umfang der Plenardebatten. Und[br]an dieser Stelle vor einem Jahr haben 0:06:02.860,0:06:07.960 Martin Haars und Kai Biermann das Projekt[br]vorgestellt, das Zeit Online 0:06:07.960,0:06:15.070 veröffentlicht hat, wo das erste Mal alle[br]oder jedes gesprochene Wort seit 1949 0:06:15.070,0:06:20.129 bereitgestellt wurde und es möglich war,[br]eine Keyword Suche über diesen Korpus zu 0:06:20.129,0:06:24.379 laufen zu lassen. Das heißt, man konnte[br]dadurch erstmals schauen: Wie hat sich 0:06:24.379,0:06:30.189 beispielsweise das Keyword Umweltschutz in[br]den Debatten dargestellt? Wie hat sich das 0:06:30.189,0:06:35.889 verändert über die Zeit? Genau. An dieser[br]Stelle gebe ich jetzt an Philipp weiter 0:06:35.889,0:06:38.610 und er wird euch mal erklären, was wir[br]jetzt eigentlich mit Open Discourse noch 0:06:38.610,0:06:41.880 zusätzlich machen können.[br]Philipp: Genau. Also wir sehen so ein 0:06:41.880,0:06:45.460 bisschen oder wir erinnern euch oder viele[br]von euch erinnern sich vielleicht an den 0:06:45.460,0:06:51.849 den Talk von Martin Haase und Kai Biermann[br]vor einem Jahr. Da haben die gezeigt, wie 0:06:51.849,0:06:57.139 sie diese Worte über die Zeit analysiert[br]haben und haben auch gezeigt, welche 0:06:57.139,0:07:00.210 Beschimpfungen in Deutschen Bundestag[br]relativ typisch waren. Also wir haben 0:07:00.210,0:07:05.689 sowas wie Heuchler und Lügner:in und[br]Idioten und Lümmel und Flegel. Und nur um 0:07:05.689,0:07:10.069 da so ein Stück anzuknüpfen und um zu[br]zeigen, wie wir an dieser Stelle ansetzen 0:07:10.069,0:07:13.899 können und das ein Stück weiter denken[br]können, hab ich euch das mal mitgebracht 0:07:13.899,0:07:18.330 und hab euch mal geplottet über die Zeit,[br]wie häufig mit welcher relativen 0:07:18.330,0:07:22.710 Häufigkeit Beschimpfungen im Deutschen[br]Bundestag passiert sind. Und wir sehen, 0:07:22.710,0:07:28.599 dass es eine Zeit gab, in der mal mehr und[br]mal weniger beschimpft wurde. Und was wir 0:07:28.599,0:07:31.360 jetzt aber machen können mit dem Open[br]Discourse Datensatz: Wir können neue 0:07:31.360,0:07:35.270 Dimensionen hinzufügen, denn wir haben[br]nicht mehr nur das reine gesprochene Wort, 0:07:35.270,0:07:37.370 sondern wir haben all die[br]Metainformationen, weil wir wissen, wer 0:07:37.370,0:07:41.819 dieses Wort gesprochen hat. Ich kann also[br]gucken, ob Männer oder Frauen mehr 0:07:41.819,0:07:45.599 geflucht haben und ich stelle fest, dass[br]Männer mit großem großem Abstand mehr 0:07:45.599,0:07:48.620 fluchen als Frauen. Männer sind[br]diejenigen, die das treiben im Deutschen 0:07:48.620,0:07:52.080 Bundestag, und die fluchen und beschimpfen[br]und beleidigen. Wenn ich die Frauen 0:07:52.080,0:07:55.889 dagegen plotte - Das erste Mal, dass eine[br]Frau im Deutschen Bundestag mit der 0:07:55.889,0:08:03.339 Auswahl dieser Beschimpfungen geflucht[br]hat, war 1977 ungefähr. Und auch so reden 0:08:03.339,0:08:09.569 Frauen deutlich, deutlich deutlich weniger[br]quasi in diesem Wortschatz. Und das Ganze 0:08:09.569,0:08:11.969 können wir jetzt immer und immer weiter[br]berechnen, denn wir haben mit Open 0:08:11.969,0:08:16.090 Discourse die Dimensionalität, um diese[br]Fragestellungen zu beantworten. Fluchen war 0:08:16.090,0:08:20.559 z.B. früher ein Thema von Doktor:innen.[br]Das heißt, Abgeordnete mit einem 0:08:20.559,0:08:26.339 akademischen Grad haben deutlich mehr[br]geflucht und erst in den 85er Jahren haben 0:08:26.339,0:08:30.569 dann auch nicht Doktor:innen angefangen,[br]stärker zu fluchen und Beschimpfungen in 0:08:30.569,0:08:35.969 ihren Wortschatz aufzunehmen. Wir können[br]weiter reingucken und können gucken, wer 0:08:35.969,0:08:39.970 denn eigentlich flucht. Also wenn ich[br]jetzt mal vergleichen möchte, wie die die 0:08:39.970,0:08:42.779 Mitte rechts und die Mitte Links Fraktion[br]im Deutschen Bundestag, wie die sich 0:08:42.779,0:08:47.180 unterscheiden in ihrer Nutzung von[br]Schimpfworten, dann kann ich feststellen, 0:08:47.180,0:08:51.460 dass ungefähr seit den 85er Jahren das[br]Fluchen eine typisch linke Disziplin ist. 0:08:51.460,0:08:55.800 Das ist in der Mitte Links Fraktion[br]ziemlich verortet, jetzt in dem Fall hier 0:08:55.800,0:09:02.420 definiert als SPD, Linke, PDS und Grüne im[br]Vergleich zur CDU, CSU, FDP-Fraktion, die 0:09:02.420,0:09:08.230 ein gutes Stück weniger flucht. Wir können[br]auch bis auf die einzelne Person 0:09:08.230,0:09:11.970 runtergehen und wir können die Gewinner im[br]Beschimpfen des Deutschen Bundestages seit 0:09:11.970,0:09:16.480 1949 küren. Vielleicht hat jemand von euch[br]eine Idee, wer da so drinsteckt. Auf Platz 0:09:16.480,0:09:22.460 vier ist es Norbert Blüm von der CDU. Auf[br]Platz drei ist es Carlo Schmidt von der 0:09:22.460,0:09:27.370 SPD, ein bisschen früherer Politiker. Auf[br]Platz zwei, Ottmar Schreiner von der SPD. 0:09:27.370,0:09:32.600 Und auf Platz eins ist es Franz Josef[br]Strauß von der CSU, der mit großem Abstand 0:09:32.600,0:09:38.050 die meisten Flüche im Deutschen Bundestag[br]gesprochen hat. Ihr seht also: Das, was 0:09:38.050,0:09:41.699 wir mit Open Discourse machen können, ist,[br]wir können dem gleichen Projekt, was auch 0:09:41.699,0:09:45.550 die Kollegen von der Zeit haben,[br]Mehrdimensionalität hinzufügen, weil wir 0:09:45.550,0:09:51.380 in unserem Korpus eine Realität abbilden[br]können und den gesamten PDF-Datensatz 0:09:51.380,0:09:56.080 quasi komplett als Datenbank-Struktur[br]verfügbar gemacht haben. Das heißt, was 0:09:56.080,0:10:01.889 wir früher konnten ist, wir konnten Worte[br]über eine Zeit plotten. Das war so der 0:10:01.889,0:10:07.170 Status quo. Und was wir jetzt gemacht[br]haben ist, wir haben diesen Fließtext, 0:10:07.170,0:10:11.380 dieses PDF umgebrochen in eine[br]Datenbankstruktur und können das jetzt 0:10:11.380,0:10:15.290 beliebig filtern und beliebig analysieren[br]und können da sehr, sehr, sehr tief in die 0:10:15.290,0:10:20.740 quantitativen Analysen gehen. Das heißt,[br]wir fügen diesen Plenardebatten mehr 0:10:20.740,0:10:25.360 Dimensionalität hinzu. Früher also Worte[br]und Zeit und heute eben auch, welche 0:10:25.360,0:10:28.990 Person gesprochen hat und damit eben auch[br]welche Fraktion, welche 0:10:28.990,0:10:34.260 Regierungsposition, welches Geschlecht,[br]welches Alter hat der oder die Sprechende? 0:10:34.260,0:10:38.639 Was ist der Beruf der sprechenden Person?[br]Der akademische Grad, die Jahre im 0:10:38.639,0:10:45.220 Bundestag? Der Geburtsort, der Adelstitel.[br]Und wir haben natürlich auch alle 0:10:45.220,0:10:47.810 Reaktionen und Interaktionen des[br]Bundestag. Das heißt, wir können genau 0:10:47.810,0:10:53.069 gucken, welche Personen, welche Fraktion[br]lacht oder amüsiert sich oder klatscht. 0:10:53.069,0:10:57.269 Und welche Einzelpersonen sind es denn,[br]wenn es irgendwelche Zwischenrufe sind? 0:10:57.269,0:11:01.319 Und wenn wir uns das so einer Größe[br]angucken, dann haben wir ein Datensatz, 0:11:01.319,0:11:07.240 bei dem wir etwa 331 Tausend Plenarseiten[br]ausgewertet haben seit 1949. Wir haben 0:11:07.240,0:11:13.120 dadurch 211 Millionen Tokens, also Worte,[br]in unserem Datensatz von ungefähr 900 000 0:11:13.120,0:11:19.080 Redebeiträgen, die wir verzeichnet haben,[br]gesprochen von 4100 Politiker:innen. 0:11:19.080,0:11:23.420 Darauf haben wir dann 2,2 Millionen[br]Reaktionen und Zwischenrufe des Plenums 0:11:23.420,0:11:29.380 von insgesamt 27 Fraktionen und Gruppen[br]seit der Gründung des Bundestages. Wie 0:11:29.380,0:11:32.931 haben wir das gemacht? Vielleicht ein ganz[br]kurzes Wort dazu, was dahinter steckt. Wir 0:11:32.931,0:11:37.230 haben die öffentlich verfügbaren Daten[br]genommen, die, die daliegen. Das heißt, 0:11:37.230,0:11:40.589 das sind die Plenarprotokolle des[br]Bundestages als PDF. Wir haben das 0:11:40.589,0:11:43.980 angereichert mit den Stammdaten der[br]Abgeordneten, die auch der Bundestag 0:11:43.980,0:11:48.279 erfasst und selbst herausgibt. Und wir[br]haben die Liste der deutschen 0:11:48.279,0:11:52.399 Regierungsmitglieder seit 1949 noch mit[br]dazugegeben, denn es gab relativ viele 0:11:52.399,0:11:57.029 oder es gab einige Regierungsmitglieder,[br]die selbst kein Bundestagsmandat haben. 0:11:57.029,0:12:01.620 Auch die haben wir hinzugefügt. Und dann[br]haben wir diese unendlich langen Texte 0:12:01.620,0:12:05.910 eben vorwiegend durch Regular Expressions[br]gefiltert. Das heißt, wir haben die 0:12:05.910,0:12:09.470 relevanten Teile und Protokolle[br]extrahiert. Wir haben das aufgegliedert. 0:12:09.470,0:12:12.870 Und wir haben dann eben nach Redebeiträge,[br]nach Redner:innen, Zwischenrufe, 0:12:12.870,0:12:19.519 Reaktionen unterteilt. Das war mal einer[br]der längsten Regular Expression Strings. 0:12:19.519,0:12:23.370 Der war dann irgendwann so lang, wir haben[br]dann irgendwann unserem Head of Regular 0:12:23.370,0:12:27.199 Expressions das auf ein T-Shirt gedruckt.[br]Das hatte die gute Vorderseite genutzt. 0:12:27.199,0:12:31.360 Und nach diesen ganzen Regular Expressions[br]haben wir dann auch viel Fuzzy Search und 0:12:31.360,0:12:35.550 Matching gemacht, um eben die Fehler auch[br]in dem Plenarprotokoll auszumerzen. Das 0:12:35.550,0:12:38.670 heißt, Politiker:innen sind falsch[br]geschrieben, irgendwelche Worte sind 0:12:38.670,0:12:43.750 zerrissen. Und um das alles wieder[br]zusammenzuführen, haben wir dann Fuzzy 0:12:43.750,0:12:49.620 String Matching angeführt.[br]Florian: Genau, und an der Stelle kommt 0:12:49.620,0:12:53.240 ihr jetzt eigentlich ins Spiel. Das heißt,[br]was wir im Kern machen wollten und jetzt 0:12:53.240,0:12:58.250 geschafft haben, ist diesen die, dieses[br]Korpus oder diesen Datensatz so 0:12:58.250,0:13:03.099 bereitzustellen, dass ihr euch den[br]auschecken könnt und eigene Analysen mit 0:13:03.099,0:13:08.660 diesen Daten durchführen könnt. Das heißt,[br]der Open Discourse Datensatz und das ganze 0:13:08.660,0:13:13.850 Repository dazu ist veröffentlicht. Ihr[br]könnt euch den Source Code anschauen, 0:13:13.850,0:13:17.730 auschecken, die Datenbank bei euch lokal[br]aufbauen. Und ihr habt noch ein paar 0:13:17.730,0:13:22.420 andere Möglichkeiten, auf die ich später[br]noch genauer ein. Genau. Das Spannende, 0:13:22.420,0:13:26.689 finden wir, an diesem Datensatz ist jetzt,[br]dass es erstmals möglich ist, Analysen 0:13:26.689,0:13:32.110 durchzuführen, die vorher in der Form[br]nicht durchführbar waren. Und während wir 0:13:32.110,0:13:35.529 auf eure Analysen warten, zeigen wir euch[br]ein paar Analysen, die wir schon mal 0:13:35.529,0:13:39.710 durchgeführt haben, um euch eine kleine[br]Inspiration zu geben, was denn eigentlich 0:13:39.710,0:13:44.240 möglich ist. Und an dieser Stelle ein[br]kleiner Disclaimer: Alles, was wir jetzt 0:13:44.240,0:13:48.640 gleich zeigen, dient als Inspiration. Wir[br]haben die Analysen mit größter Sorgfalt 0:13:48.640,0:13:53.390 durchgeführt. Aber es ist keine[br]politikwissenschaftliche Forschung. Und 0:13:53.390,0:13:56.529 gerade weil wir jetzt über Politik[br]sprechen, sollten wir an dieser Stelle ein 0:13:56.529,0:13:59.959 bisschen vorsichtig sein. Wir sind uns[br]weitestgehend sicher, dass die Ergebnisse, 0:13:59.959,0:14:03.870 die wir euch präsentieren, sehr plausibel[br]und weitestgehend korrekt sein werden. 0:14:03.870,0:14:08.029 Aber wie gesagt, das ist jetzt keine[br]politikwissenschaftliche Forschung, das 0:14:08.029,0:14:11.320 ist nicht durch ein Peer Review Prozess[br]gegangen. Soweit als kleiner Disclaimer 0:14:11.320,0:14:17.980 dazu. Okay, wir gucken uns jetzt folgend[br]zwei große Themen an, die in der 0:14:17.980,0:14:22.790 Geschichte der Bundesrepublik ziemlich[br]große Relevanz hatten. Und wir starten mit 0:14:22.790,0:14:27.120 dem Thema Datenschutz. Und wir könnten[br]jetzt dieses Thema so untersuchen, wie es 0:14:27.120,0:14:31.829 traditionell bisher immer möglich war. Das[br]heißt, wir schauen uns mal an, wie oft 0:14:31.829,0:14:36.960 eigentlich das Wort Datenschutz in den[br]Plenarsitzungen gesagt wurde. Und wenn wir 0:14:36.960,0:14:41.980 das machen Sie das ungefähr so aus. Das[br]heißt, wir haben die erste Nennung des 0:14:41.980,0:14:47.881 Begriffs Datenschutz Anfang der siebziger[br]Jahre. Das würde ungefähr so passen, weil 0:14:47.881,0:14:53.250 in dem Zeitraum auch Hessen als erstes[br]Land oder sogar weltweit das erste 0:14:53.250,0:14:58.149 Datenschutzgesetz verabschiedet hat. Das[br]heißt, damals wurde der Begriff 0:14:58.149,0:15:03.490 anscheinend das erste Mal genutzt, auch im[br]Bundestag. Und ab dann ging es weiter. Wir 0:15:03.490,0:15:08.099 sehen einen kleinen Abfall in den 90ern,[br]einen Anstieg dann wieder in den 2000er 0:15:08.099,0:15:14.769 Jahren. Genau. Aber das ist eigentlich[br]noch nicht gut interpretierbar. Wir haben 0:15:14.769,0:15:17.200 jetzt einfach nur die Worthäufigkeiten.[br]Wir wissen nicht, wer hat das eigentlich 0:15:17.200,0:15:21.629 gesagt hat. Das heißt, an der Stelle[br]nutzen wir jetzt unseren Open Discourse 0:15:21.629,0:15:26.130 Korpus, um uns das ein bisschen genauer[br]anzuschauen. Was wir zusätzlich jetzt noch 0:15:26.130,0:15:31.850 gemacht haben, ist: Wir haben ein LDA[br]Topic Modeling trainiert. Das funktioniert 0:15:31.850,0:15:37.209 im Wesentlichen so, dass wir davon[br]ausgehen... bzw. ein LDA Topic Modeling 0:15:37.209,0:15:42.999 ist dafür da oder kann genutzt werden, um[br]latente Themen in Textkorpora zu 0:15:42.999,0:15:48.360 ermitteln. Und wir wollen uns ja das Thema[br]Datenschutz ansehen. Das heißt, wir müssen 0:15:48.360,0:15:52.219 versuchen, ein LDA Topic Modeling so zu[br]trainieren, dass wir dieses 0:15:52.219,0:15:56.410 Datenschutzthema auch finden in unseren[br]Daten. Natürlich nur, solange es da ist. 0:15:56.410,0:15:59.560 Glücklicherweise ist es tatsächlich da,[br]weil darüber ziemlich viel gesprochen 0:15:59.560,0:16:04.839 wurde. Das heißt, wenn wir jetzt[br]eigentlich untersuchen wollen, wie oder in 0:16:04.839,0:16:09.181 welchem Ausmaß über Datenschutz gesprochen[br]wurde im Bundestag, dann ist es natürlich 0:16:09.181,0:16:12.670 nicht bloß der Begriff Datenschutz[br]relevant. Sondern man kann auch über den 0:16:12.670,0:16:16.189 Datenschutz reden, dabei aber Begriffe[br]nutzen wie Informationsfreiheit, 0:16:16.189,0:16:20.670 Datenverarbeitung, Speicherung,[br]Privatsphäre usw.. Das heißt, es ist 0:16:20.670,0:16:25.509 eigentlich viel relevanter, dieses latente[br]Thema des Datenschutzes zu nutzen als 0:16:25.509,0:16:30.239 einen spezifischen Begriff. Dafür haben[br]wir das LDA Topic Modeling trainiert. Das 0:16:30.239,0:16:35.319 funktioniert im Wesentlichen so, dass wir[br]vorgegeben haben, was wir oder wie viele 0:16:35.319,0:16:40.189 Topics, spezifische Topics, wir im Korpus[br]erwarten. Da haben wir verschiedene 0:16:40.189,0:16:43.970 Nummern ausprobiert und bei[br]zweihundertfünfzig letztlich sehr 0:16:43.970,0:16:47.120 konsistente Themen gefunden. Und mit[br]diesem Model haben wir jetzt die weiteren 0:16:47.120,0:16:55.310 Analysen durchgeführt. Dieses LDA Topic[br]Modeling hat als Ergebnis, dass wir für 0:16:55.310,0:17:04.080 jeden Redebeitrag, den wir im Korpus[br]haben, Angaben darüber bekommen, wie der 0:17:04.080,0:17:10.600 prozentuale Anteil der jeweiligen 250[br]Themen in dieser Rede war. Das heißt, wir 0:17:10.600,0:17:16.180 haben genau 250 Zahlenwerte für jeden[br]Redebeitrag. Das ist das, was wir jetzt 0:17:16.180,0:17:22.030 folgend zusammen aggregieren und auf der[br]Y-Achse als Relevanz definieren. Genau das 0:17:22.030,0:17:26.890 ist jetzt auch erstmals möglich, weil wir[br]die einzelnen Redebeiträge als Dokumente 0:17:26.890,0:17:33.160 im LDA Topic Modeling nutzen können. Alles[br]klar. Zurück zum Thema Datenschutz. Okay, 0:17:33.160,0:17:38.090 wir plotten uns jetzt mal die[br]durchschnittlichen Gebrauch des ganzen 0:17:38.090,0:17:44.370 Thema Datenschutz im Plenar oder im[br]Verlauf der Plenarsitzungen. Und was uns 0:17:44.370,0:17:49.070 jetzt zum Beispiel schon mal auffällt,[br]ist, dass auch vor 1970 schon in einem 0:17:49.070,0:17:52.690 gewissen sehr geringen Maße über[br]Datenschutz-Themen gesprochen wurde. Der 0:17:52.690,0:17:57.050 Begriff Datenschutz wurde dabei jedoch[br]nicht genutzt. Wir sehen immer noch, dass 0:17:57.050,0:18:01.920 es quasi zwei große Phasen oder zwei große[br]Wellen gibt. Es gibt die erste Welle, die 0:18:01.920,0:18:08.220 ungefähr Mitte der 70er angefangen hat und[br]dann zum zum Ende der 80er Jahre abgeflaut 0:18:08.220,0:18:14.260 ist. Und wir haben eine zweite Welle, die[br]zum in den 2000er Jahren begonnen hat und 0:18:14.260,0:18:18.550 jetzt langsam wieder abflaut. Um zu[br]validieren, dass das, was wir jetzt hier 0:18:18.550,0:18:24.280 gefunden haben oder das, was uns das Topic[br]Model grad anzeigt, stimmt, haben wir mal 0:18:24.280,0:18:28.290 geschaut, was denn eigentlich in diesen[br]Zeiten so passiert ist. Und wenn wir uns 0:18:28.290,0:18:33.390 die 80er Jahre oder den Raum um die 80er[br]Jahre anschauen, sehen wir, dass derzeit 0:18:33.390,0:18:39.130 das Bundesdatenschutzgesetz, also das[br]erste Datenschutzgesetz auf nationaler 0:18:39.130,0:18:44.590 Ebene beschlossen wurde in Deutschland,[br]dass es die Volkszählungsboykotte gab. Es 0:18:44.590,0:18:51.010 sollte eine Volkszählung durchgeführt[br]werden und die sollte in dem Fall das 0:18:51.010,0:18:55.770 erste Mal digital die Daten der[br]Bevölkerung erfassen. Das hat natürlich 0:18:55.770,0:19:01.510 zur Boykotten, zu Protesten und zu Sorgen,[br]was denn eigentlich, welche Belange das 0:19:01.510,0:19:08.350 mit dem eigenen Datenschutz hat. Außerdem:[br]In der Zeit wurde der CCC gegründet. Es 0:19:08.350,0:19:15.290 gab ein ziemlich entscheidendes Urteil vom[br]Bundesverfassungsgericht, auch im Rahmen 0:19:15.290,0:19:19.160 dieser Volkszählung. Und in dem Rahmen[br]tauchte dann auch erstmals der Begriff der 0:19:19.160,0:19:23.680 informationellen Selbstbestimmung auf. Das[br]heißt, okay, an dem Rahmen oder in dem 0:19:23.680,0:19:27.140 Maße ist die erste Welle ziemlich[br]plausibel. Das wurde im Bundestag dann 0:19:27.140,0:19:30.770 offensichtlich auch sehr intensiv[br]besprochen. Danach ist das ein bisschen 0:19:30.770,0:19:35.910 abgeflaut. Wir haben einen kleinen Peak[br]ungefähr 1995, da wurde die europäische 0:19:35.910,0:19:41.100 Datenschutzrichtlinie verabschiedet. Aber[br]den richtigen Anstieg hatten wir dann erst 0:19:41.100,0:19:44.930 zur zweiten Welle. Da kamen dann[br]Diskussionen auf wie Zensursula und die 0:19:44.930,0:19:51.590 DSGVO. Also bei Zensursula wurde halt[br]diskutiert, inwiefern der Staat eigentlich 0:19:51.590,0:19:57.420 das Recht hat, Inhalte im Internet zu[br]zensieren. Auf der anderen Seite wurde 0:19:57.420,0:20:04.530 auch sehr, sehr stark diskutiert, ob der[br]Staat eigentlich das Recht hat, 0:20:04.530,0:20:08.420 Hausdurchsuchungen auf den eigenen[br]Rechnern quasi durchzuführen. Das heißt, 0:20:08.420,0:20:11.321 die zwei Wellen, die wir jetzt hier sehen,[br]die sind ziemlich plausibel. Das waren 0:20:11.321,0:20:16.800 tatsächlich die Zeiten, in denen die[br]Debatte um den Datenschutz ziemlich stark 0:20:16.800,0:20:22.290 ausgeführt wurde. Okay, jetzt schauen wir[br]uns mal an, welche Dimension wir 0:20:22.290,0:20:25.470 eigentlich dazu packen können, um[br]vielleicht mehr Informationen darüber zu 0:20:25.470,0:20:29.380 bekommen, wie das denn diskutiert wurde[br]und welche Partei sich mehr und welche 0:20:29.380,0:20:35.580 Partei sich weniger darum gekümmert hat um[br]dieses Thema. Und dazu haben wir uns mal 0:20:35.580,0:20:41.460 angeschaut, wie die historisch zwei großen[br]Parteien in Deutschland diese Themen 0:20:41.460,0:20:46.440 behandelt haben. Zuerst haben wir uns die[br]CDU angeschaut und wir sehen, dass die CDU 0:20:46.440,0:20:51.300 in der ersten Welle deutlich[br]überdurchschnittlich über das Thema 0:20:51.300,0:20:56.950 Datenschutz gesprochen hat, im Plenarsaal,[br]in der zweiten Welle aber deutlich 0:20:56.950,0:21:01.320 unterdurchschnittlich. Im Vergleich dazu[br]haben wir uns dann mal angeschaut, wie die 0:21:01.320,0:21:06.020 SPD drüber gesprochen hat. Die SPD hat der[br]ersten Welle unterdurchschnittlich viel 0:21:06.020,0:21:12.120 über Datenschutz gesprochen oder hatte in[br]ihren Reden deutlich weniger Datenschutz 0:21:12.120,0:21:16.620 aufgegriffen. In der zweiten Welle oder im[br]Beginn der zweiten Welle ein bisschen 0:21:16.620,0:21:20.730 überdurchschnittlich, dann hat es aber[br]deutlich abgeflacht. Das könnte - wird 0:21:20.730,0:21:26.090 höchstwahrscheinlich damit zu tun haben,[br]dass während der ersten Welle die SPD in 0:21:26.090,0:21:30.920 der Regierung war und die CDU nicht, dass[br]die CDU das deshalb vielleicht als 0:21:30.920,0:21:37.650 relevanter angesehen hat, das Thema[br]Datenschutz intensiver zu besprechen. In 0:21:37.650,0:21:42.350 der zweiten Welle sehen wir, dass zum[br]Beginn der zweiten Welle die SPD noch eine 0:21:42.350,0:21:46.710 Opposition war. Aktuell ist sie natürlich[br]mit in der Regierung. Das könnte die 0:21:46.710,0:21:50.680 Bewegung erklären, warum zu Beginn der[br]zweiten Welle die SPD leicht 0:21:50.680,0:21:56.480 überdurchschnittlich oder das Thema[br]Datenschutz leicht überdurchschnittlich 0:21:56.480,0:22:02.700 relevant fand, dann aber zunehmend[br]weniger. Wir plotten mal noch zwei andere 0:22:02.700,0:22:08.550 spannende Parteien dazu, nämlich die FDP[br]und die Grünen. Da können wir nämlich 0:22:08.550,0:22:14.720 ablesen, dass diese zwei[br]Oppositionsparteien, zumindest in der 0:22:14.720,0:22:20.940 Zeit, dass diese zwei Parteien auch nach[br]dem Abflauen der ersten Welle die Relevanz 0:22:20.940,0:22:25.720 aufrecht erhalten haben. Das heißt, diese[br]zwei Parteien hatten das Thema trotzdem 0:22:25.720,0:22:30.550 weiter im Fokus gehalten. Okay, schauen[br]wir uns eine andere Dimension an. Wir 0:22:30.550,0:22:34.360 schauen uns mal an, wie das vielleicht mit[br]dem Alter zu tun haben könnte. Und zwar 0:22:34.360,0:22:40.760 haben wir das Alter der Politiker:in nach[br]dem Durchschnitt ungefähr geteilt. Das 0:22:40.760,0:22:44.170 heißt, das Durchschnittsalter des[br]Bundestags aktuell liegt ungefähr bei 50 0:22:44.170,0:22:47.580 Jahren. Und so haben wir jetzt[br]unterschieden nach eher jüngeren 0:22:47.580,0:22:52.590 Politikern, die unter 50 Jahre zum[br]Zeitpunkt der Rede waren und älteren 0:22:52.590,0:22:57.660 Politikern, die älter als 50 waren zum[br]Zeitpunkt der Rede. Und hier sehen wir, 0:22:57.660,0:23:03.350 dass die jüngeren Politiker das Thema[br]Datenschutz deutlich relevanter finden als 0:23:03.350,0:23:08.540 die älteren. Okay, als letzte Dimension[br]schauen wir uns jetzt nochmal an, ob das 0:23:08.540,0:23:14.570 dann vielleicht auch ein Zusammenhang mit[br]dem akademischen Grad hat bzw. ob eine 0:23:14.570,0:23:21.160 Politikerin oder ein Politiker einen[br]Doktortitel trägt. Und an der Stelle sehen 0:23:21.160,0:23:26.550 wir das, wenn eine Politiker:in einen[br]Doktortitel trägt, das dann tendenziell 0:23:26.550,0:23:31.360 überdurchschnittlich über Datenschutz[br]gesprochen wird, als wenn die Person 0:23:31.360,0:23:36.750 keinen Doktortitel hat. Man könnte jetzt[br]versuchen, das irgendwie zusammenzufassen. 0:23:36.750,0:23:40.040 Beispielsweise könnte man versuchen, das[br]so zu interpretieren, dass wenn man 0:23:40.040,0:23:43.641 möchte, dass im Plenarsaal viel über[br]Datenschutz gesprochen wird, dann sollte 0:23:43.641,0:23:49.740 man Oppositionsparteien wählen, die eher[br]jüngere Leute hat. Und diese jüngeren 0:23:49.740,0:23:53.850 Leuten sollten vielleicht eher einen[br]Doktortitel tragen, vielleicht aber auch 0:23:53.850,0:23:59.050 nicht. Genau. Aber genau. Diese[br]Auswertungen waren vorher nicht möglich. 0:23:59.050,0:24:02.170 Und jetzt könnte man reinschauen und[br]gucken: Okay, was steckt denn da 0:24:02.170,0:24:06.090 eigentlich drin? Welche Bewegungen stecken[br]denn in diesen Daten? Wir wollen jetzt 0:24:06.090,0:24:11.490 nochmal zwei Personen krönen, die sich[br]sehr verdient gemacht haben, also die sehr 0:24:11.490,0:24:15.570 oder die höchste Relevanzwerte hatten für[br]das Thema Datenschutz in der ersten und in 0:24:15.570,0:24:20.430 der zweiten Welle. In der ersten Welle[br]geht diese Auszeichnung an Burkhard 0:24:20.430,0:24:24.920 Hirsch, der insbesondere zum ersten in der[br]ersten Phase der ersten Welle 0:24:24.920,0:24:30.280 Innenminister war und sich ganz stark[br]gegen staatliche Überwachung eingesetzt 0:24:30.280,0:24:34.710 hat. Das heißt, das klingt auch sehr[br]plausibel, dass unsere Analyse Burkhard 0:24:34.710,0:24:40.410 Hirsch hier als Vorreiter sieht. In der[br]zweiten Welle haben unsere Analysen 0:24:40.410,0:24:44.920 ergeben, dass das Gisela Piltz war, die[br]sich in besonderem Maße mit Datenschutz 0:24:44.920,0:24:49.270 auseinandergesetzt hat. Und Gisela Piltz[br]hat sich ganz... oder setzt sich ganz 0:24:49.270,0:24:55.090 stark gegen die Vorratsdatenspeicherung[br]ein. Also von daher wirkt auch das 0:24:55.090,0:25:00.760 ziemlich plausibel. Genau. Das wäre jetzt[br]das Beispiel Datenschutz, das wir 0:25:00.760,0:25:04.520 aufbereitet haben, um zu gucken: Okay, was[br]könnte in diesen Daten denn drinstecken 0:25:04.520,0:25:07.900 und welche spannenden Fragen könnte man[br]denn damit eigentlich stellen und 0:25:07.900,0:25:13.280 potenziell auch beantworten? Jetzt haben[br]wir uns noch ein zweites großes Thema 0:25:13.280,0:25:16.260 angeschaut, was gerade in den letzten[br]Jahren ganz, ganz stark an Relevanz 0:25:16.260,0:25:21.320 gewonnen hat. Und da wird euch Philipp[br]jetzt mal erzählen, was wir da so gefunden 0:25:21.320,0:25:23.640 haben.[br]Philipp: Genau. Also wir kommen nochmal 0:25:23.640,0:25:28.331 ein bisschen vom Datenschutz zum[br]Klimaschutz und stellen uns so ein 0:25:28.331,0:25:33.620 bisschen den gleichen methodischen Ansatz.[br]Also wir gucken mal, wie das reine Wort 0:25:33.620,0:25:37.080 Klimaschutz verwendet wurde. Und wir[br]stellen fest, dass das Wort Klimaschutz 0:25:37.080,0:25:41.831 eigentlich ein relativ neuer Begriff ist.[br]Ab den 2000ern. Aber zurück zu dem, was 0:25:41.831,0:25:45.570 Florian gerade eben schon gesagt hat Die[br]reine Analyse einzelner Begriffe ist noch 0:25:45.570,0:25:50.050 nicht ausreichend, um diesen Themenkomplex[br]und die latenten Grundstrukturen darunter 0:25:50.050,0:25:54.791 zu erfassen. Deswegen reicht dieser[br]Begriff Klimaschutz nicht, sondern wir 0:25:54.791,0:25:58.540 haben auch hier wieder ein automatisiertes[br]LDA Topic Modeling verwendet, was uns 0:25:58.540,0:26:02.920 hunderte Begriffe automatisiert findet,[br]die da reinpassen. Also natürlich kann ich 0:26:02.920,0:26:06.580 über Klimaschutz reden, ohne den Begriff[br]Klimaschutz zu verwenden. Ich kann über 0:26:06.580,0:26:10.400 das Emissionsschutzgesetz sprechen. Ich[br]kann über Nachhaltigkeit, über erneuerbare 0:26:10.400,0:26:14.111 Energien reden, ohne auch nur einmal das[br]Wort Klimaschutz zu verwenden. Dieses 0:26:14.111,0:26:18.560 Thema also voll fokussieren. Deswegen[br]haben wir daraus ein Thema gemacht und 0:26:18.560,0:26:22.140 gucken uns jetzt diesen ganzen Komplex an[br]und nicht mehr nur den Begriff. Wenn wir 0:26:22.140,0:26:27.890 das tun, dann stellen wir fest, dass seit[br]1949 dieses Thema nicht erst in den 0:26:27.890,0:26:31.730 2000ern an Relevanz gewonnen hat, sondern[br]auch früher schon da war. Wenn ich jetzt 0:26:31.730,0:26:34.900 auch hier wieder so ein bisschen die[br]Wegmarker setze, dann kann ich auch das 0:26:34.900,0:26:39.690 validieren. Also die ersten[br]Umweltprogramme von Willy Brandt 1970, der 0:26:39.690,0:26:45.870 Einzug der Grünen in den Bundestag, die[br]Atomkatastrophe von Tschernobyl. Wir haben 0:26:45.870,0:26:50.740 danach in den 90ern, das ist auch relativ[br]plausibel, ein Abschwachen dieses Themas, 0:26:50.740,0:26:53.330 denn wir hatten gerade in der[br]Wiedervereinigung dann 0:26:53.330,0:26:57.010 Verteilungskonflikte, die so ein bisschen[br]relevanter wurden. Dadurch ist das Thema 0:26:57.010,0:27:02.330 des Klimawandels und des Klimaschutzes so[br]ein bisschen hinten runtergefallen. Wir 0:27:02.330,0:27:06.379 haben weitere Punkte - wir haben die rot[br]grüne Regierung von Schröder und Fischer 0:27:06.379,0:27:11.460 2000, so Richtung 2000 2005. Wir haben[br]Fukushima und die Energiewende. Wir haben 0:27:11.460,0:27:15.640 das Pariser Klimaschutzabkommen. Und wir[br]sehen jetzt auch schon diesen Drall nach 0:27:15.640,0:27:20.410 oben, insbesondere durch Fridays For[br]Future und die neue Auseinandersetzung mit 0:27:20.410,0:27:23.750 der Einhaltung des Pariser[br]Klimaschutzabkommens. Was wir jetzt hier 0:27:23.750,0:27:27.360 wieder machen können, ist: Wir können uns[br]wieder angucken, wie einzelne Parteien 0:27:27.360,0:27:30.490 denn eigentlich darüber reden. Und wir[br]können feststellen, dass die CDU ziemlich 0:27:30.490,0:27:34.140 durchschnittlich über dieses Thema redet.[br]In den letzten Jahren sogar deutlich 0:27:34.140,0:27:37.100 abfallend, also deutlich[br]unterdurchschnittlich. Gerade seit dem 0:27:37.100,0:27:41.410 Pariser Klimaschutzabkommen ist das Thema[br]für die CDU nicht mehr ganz so relevant 0:27:41.410,0:27:45.720 vielleicht. Wir können die SPD plotten,[br]das sieht auch ganz durchschnittlich aus. 0:27:45.720,0:27:49.230 Bei der FDP sieht es auch ganz[br]durchschnittlich aus, bei den Linken sogar 0:27:49.230,0:27:52.880 ein Stück unterdurchschnittlich. Und so[br]ein bisschen wie erwartet sind es die 0:27:52.880,0:27:57.280 Grünen, die dieses Thema extrem pushen und[br]die diesen Diskurs sehr, sehr hoch halten. 0:27:57.280,0:28:02.190 Das heißt, die Grünen ziehen hier deutlich[br]den den Rolling Mean nach oben und steuern 0:28:02.190,0:28:06.170 dieses Thema ganz stark. Wir können aber[br]auch hier noch ein bisschen weiter 0:28:06.170,0:28:09.010 reingucken, nämlich: Wer sind das denn?[br]Sind es die jüngeren oder sind es die 0:28:09.010,0:28:12.890 älteren Politiker? Wenn ich mir hier das[br]mal angucke, dann stelle ich fest, dass 0:28:12.890,0:28:17.140 die mittelalten Politiker zwischen 39 und[br]59 sich mit dem Thema sehr 0:28:17.140,0:28:21.420 durchschnittlich auseinandersetzen. Und so[br]ein bisschen wie erwarten kann ich mir 0:28:21.420,0:28:25.220 dann entsprechend vorstellen, dass sich[br]ältere Politiker über 60 mit diesem Thema 0:28:25.220,0:28:30.080 sehr gering, sehr unterdurchschnittlich[br]auseinandersetzen und jüngere 0:28:30.080,0:28:35.110 Politikerinnen unter 39 sich mit diesem[br]Thema deutlich stärker auseinandersetzen. 0:28:35.110,0:28:39.390 Wir sehen auch hier nicht nur eine[br]stärkere Auseinandersetzung, sondern eben 0:28:39.390,0:28:43.190 auch eine frühere Auseinandersetzung.[br]Während bei älteren Politikerinnen diese 0:28:43.190,0:28:46.500 Auseinandersetzung immer zeitlich rechts[br]versetzt ist und immer deutlich weniger 0:28:46.500,0:28:51.050 intensiv ist. Wir können mit dem Open[br]Discourse Datensatz die Stammdaten des 0:28:51.050,0:28:54.670 Deutschen Bundestages anzapfen und noch[br]ein kleines Stück tiefer gehen. Wir können 0:28:54.670,0:28:59.120 nämlich die Berufe der Abgeordneten[br]auswerten. Jeder Abgeordnete gibt seinen 0:28:59.120,0:29:04.480 Beruf oder seinen seinen beruflichen[br]Hintergrund an. Und diese Daten können wir 0:29:04.480,0:29:08.390 auswerten. Wir haben über 1 000 unique[br]Berufsbezeichnungen von über 4 000 0:29:08.390,0:29:11.760 Politiker:innen. Wenn ich mir die jetzt[br]hier mal so angucke, dann sind es Ärzte 0:29:11.760,0:29:16.460 und Apotheker und Unternehmer und[br]Landwirte und Buchhalter:innen. Und wenn 0:29:16.460,0:29:21.920 ich das so ein bisschen cluster, dann hab[br]ich jetzt für die folgende Analyse mal 12 0:29:21.920,0:29:25.900 Berufsgruppen gefiltert. Und jetzt kann[br]man sich angucken, welche Berufsgruppen 0:29:25.900,0:29:30.090 denn dieses Thema besonders stark[br]fokussieren. Und was auch wieder sehr 0:29:30.090,0:29:33.450 erwartbar ist, ist, dass die[br]Naturwissenschaftler:innen dieses Thema 0:29:33.450,0:29:37.850 deutlich stärker fokussieren, als andere[br]das tun. Also das Thema ist sehr 0:29:37.850,0:29:44.940 exorbitant getragen durch Physiker:innen,[br]durch Biolog:innen, durch alle Personen, 0:29:44.940,0:29:49.330 die irgendwie einen Berufshintergrund in[br]dem Feld der Naturwissenschaften haben. 0:29:49.330,0:29:54.840 Ich habe uns hier immer noch die[br]Agrarwirte dazu geplottet. Also alle 0:29:54.840,0:29:59.130 Landwirte und alle Forstwirte und die, die[br]Bauer oder Bäuerin als Berufsbezeichnung 0:29:59.130,0:30:04.140 angegeben haben. Wir sehen, dass es in der[br]ersten Welle der Klimadebatte noch sehr 0:30:04.140,0:30:10.130 relevant war und jetzt grad so Richtung[br]der neueren Zeit für die Landwirte ein 0:30:10.130,0:30:13.870 unterdurchschnittlich relevantes Thema[br]geworden ist. Und wir können feststellen, 0:30:13.870,0:30:18.290 dass die, die eine Berufsbezeichnung im[br]Wirtschaftsfeld angegeben haben, sich mit 0:30:18.290,0:30:21.780 diesem Thema auch auseinandersetzen.[br]Allerdings deutlich weniger intensiv und 0:30:21.780,0:30:25.350 auch wieder rechts verlagert, also[br]zeitlich zurück verlagert, nachdem sich 0:30:25.350,0:30:30.550 die Naturwissenschaftler:innen mit diesem[br]Thema zuerst auseinandergesetzt haben. Was 0:30:30.550,0:30:34.830 können wir feststellen oder was könnten[br]wir mal so ein bisschen uns angucken? Wir 0:30:34.830,0:30:37.550 können uns angucken, was denn eigentlich[br]die perfekte Gruppe ist, um sich mit dem 0:30:37.550,0:30:40.890 Thema Klimaschutz auseinanderzusetzen und[br]diese perfekte Trennlinie zwischen der 0:30:40.890,0:30:44.970 perfekten Gruppe von Abgeordneten und der[br]schlechtesten Gruppe von Abgeordneten, die 0:30:44.970,0:30:49.610 macht sich ziemlich einfach am Geschlecht[br]und an dem Alter fest. Wenn ich also mir 0:30:49.610,0:30:53.472 mal angucke, wie sich alte männliche[br]Politiker mit dem Thema auseinandersetzen 0:30:53.472,0:30:57.740 im Vergleich zu jungen weiblichen[br]Politikerinnen, dann stelle ich fest, dass 0:30:57.740,0:31:01.130 wir da sowohl wieder eine frühere[br]Auseinandersetzung mit diesem Thema haben. 0:31:01.130,0:31:04.590 Wir haben eine intensivere[br]Auseinandersetzung mit dem Thema und für 0:31:04.590,0:31:08.550 ältere Politiker, in diesem Fall jetzt[br]hier über 60, ist die Auseinandersetzung 0:31:08.550,0:31:15.620 wirklich sehr weit unter dem Durchschnitt[br]des Parlaments. Wir können uns also hier 0:31:15.620,0:31:19.060 vielleicht ein bisschen überlegen, welche[br]Person wir denn ganz gerne im Bundestag 0:31:19.060,0:31:25.030 hätten, um progressive Themen, so auch den[br]Datenschutz stärker zu treiben. Wir können 0:31:25.030,0:31:28.240 auch hier im Klimawandel wieder die Top[br]Runner identifizieren, das können wir 0:31:28.240,0:31:31.740 beliebig operationalisieren. Wir haben uns[br]immer die Vielredner genommen. Also 0:31:31.740,0:31:35.590 Politiker:innen mit mehr als 500 Reden.[br]Und haben dann geguckt: Welche haben denn 0:31:35.590,0:31:40.430 den höchsten Klima-Score auf dieses Topic?[br]Tatsächlich ist es Angela Merkel, die als 0:31:40.430,0:31:44.070 Vielrednerin sich mit diesem Thema am[br]stärksten auseinandergesetzt haben. Wir 0:31:44.070,0:31:47.100 wollten uns aber auch nochmal einen[br]Newcomer angucken, in großen 0:31:47.100,0:31:52.100 Anführungszeichen, also Politiker:innen[br]mit 100 bis 500 Reden. Und da ist es Julia 0:31:52.100,0:31:54.940 Verlinden von den Grünen, die sich am[br]stärksten mit diesem Thema 0:31:54.940,0:31:59.080 auseinandersetzt. Das ganze Fridays For[br]Future hat immer auch das... geht es immer 0:31:59.080,0:32:04.531 viel um das Schwänzen und um das[br]Fernbleiben von Inhalten. Und wir haben 0:32:04.531,0:32:08.160 uns deswegen mal angeguckt, wer denn so[br]die großen Klimaschwänzer sind im 0:32:08.160,0:32:12.140 Deutschen Bundestag. Das haben wir[br]operationalisiert, indem wir gesagt haben, 0:32:12.140,0:32:16.256 wir wollen nicht den Politiker, die[br]Politikerin mit dem geringsten Wert über 0:32:16.256,0:32:19.650 die gesamte Zeit finden, sondern wir[br]wollen so einen Punkt nehmen, ab dem die 0:32:19.650,0:32:23.610 Klimadebatte wohl in aller Munde sein[br]müsste. Und wir haben dafür den ersten 0:32:23.610,0:32:30.360 Global Climate Strike genommen, am 19., am[br]15. März 2019. Und wir haben dann von den 0:32:30.360,0:32:34.810 Politikern geguckt, die die Gelegenheit[br]hatten, darüber zu reden. Also die 0:32:34.810,0:32:39.400 mindestens 40 Redebeiträge seitdem hatten,[br]wie sie sich damit auseinandersetzen. Wir 0:32:39.400,0:32:42.251 stellen fest, dass diejenigen, die sich am[br]wenigsten damit auseinandersetzen, drei 0:32:42.251,0:32:46.860 Männer sind, alle aus der gleichen[br]Fraktion. Wir haben also Volker Ullrich, 0:32:46.860,0:32:50.710 der sich trotz Gelegenheit am wenigsten[br]damit auseinandersetzt. Wir haben Thorsten 0:32:50.710,0:32:54.390 Frei, der sich trotz Gelegenheit am[br]zweitwenigsten damit auseinandersetzt. Und 0:32:54.390,0:32:58.210 wir haben hier auch den Spätzünder im[br]Klimathema, Philipp Amthor, der sich trotz 0:32:58.210,0:33:01.320 sehr vieler Reden nie mit diesem Thema[br]oder sehr selten mit diesem Thema 0:33:01.320,0:33:04.930 auseinandersetzt. Wichtig ist hier[br]vielleicht noch zu sagen, dass wir nicht 0:33:04.930,0:33:08.950 die reinen Reden zum Klimawandel zählen,[br]sondern dass allein die Verwendung von den 0:33:08.950,0:33:12.830 relevanten Begriffen, um dieses Thema ein[br]bisschen z.B. in Steuer- oder in 0:33:12.830,0:33:16.510 Haushaltsdebatten zu bringen, hier gezählt[br]wird. Also wir haben eine sehr komplexe 0:33:16.510,0:33:23.710 Betrachtung des gesprochenen Wortes.[br]Florian: Genau. Soviel erst einmal zu 0:33:23.710,0:33:28.500 einigen Analysen, die wir bisher[br]durchgeführt haben. Wie bereits 0:33:28.500,0:33:33.870 angesprochen ist unser eigentliches Ziel[br]ja aber, dass ihr und alle anderen auch 0:33:33.870,0:33:39.531 Analysen jetzt mit diesen Daten[br]durchführen können und auf unserem Weg bis 0:33:39.531,0:33:43.330 zur Veröffentlichung, die jetzt im Rahmen[br]oder auch zu genau dieser Zeit, wenn wir 0:33:43.330,0:33:49.840 diesen Vortrag halten, passiert, haben[br]schon andere Partner und Partnerinnen, mit 0:33:49.840,0:33:53.260 denen wir zusammengearbeitet haben oder[br]die mit unseren Daten schon arbeiten 0:33:53.260,0:33:56.151 konnten, ein paar Analysen durchgeführt[br]oder sind gerade dabei, diese Analysen 0:33:56.151,0:34:00.850 noch durchzuführen. Beispielsweise[br]CorrelAid, CorrelAid ist ein Netzwerk von 0:34:00.850,0:34:06.250 freiwilligen Data Scientists. Und bei[br]CorrelAid haben sich zwei Projektteams 0:34:06.250,0:34:09.790 zusammengefunden, die mit unseren Daten[br]schon seit einiger Zeit ein bisschen herum 0:34:09.790,0:34:14.240 arbeiten. Und die werden auch bald ihre[br]Ergebnisse und Analysen veröffentlichen. 0:34:14.240,0:34:18.399 Die findet ihr dann zum einen in den[br]entsprechenden Kanälen von CorrelAid. Auf 0:34:18.399,0:34:21.750 der anderen Seite werden wir die auch bei[br]uns auf unserer Open Discourse Website 0:34:21.750,0:34:28.040 dann zu gegebener Zeit einbetten. Ein paar[br]Sachen, die da beispielsweise schon 0:34:28.040,0:34:33.710 gemacht wurden, ist Ann-Kristin Vester hat[br]sich angeschaut, wie eigentlich die 0:34:33.710,0:34:38.970 Geschlechter im Bundestag auftreten, wie[br]die, wie der Sprachgebrauch sich 0:34:38.970,0:34:42.870 unterscheidet. An der Stelle auch[br]nochmal kurz hier der Hinweis bei allen 0:34:42.870,0:34:46.630 Analysen, die wir bisher durchgeführt[br]haben: Wir betrachten Geschlecht bisher 0:34:46.630,0:34:51.020 immer binär, weil der Bundestag das nicht[br]anders hergibt. Es gibt bloß eine binäre 0:34:51.020,0:34:55.220 Geschlechtseinteilung. Deswegen mussten[br]wir das in den Analysen auch so vornehmen 0:34:55.220,0:34:58.970 und das ist auch der Artikel, den Ann-[br]Kristin Vester geschrieben hat, das ist 0:34:58.970,0:35:04.470 auch dort mit erwähnt. Also eine tiefere[br]oder eine diversere Untersuchung von den 0:35:04.470,0:35:09.640 Geschlechtern im Bundestag ist aktuell[br]leider noch nicht möglich. Genau. Eine 0:35:09.640,0:35:13.670 andere Analyse wurde von Alexandra Wörner[br]durchgeführt. Alexandra Wörner hat sich 0:35:13.670,0:35:17.100 angeschaut, wie denn eigentlich über[br]Diskriminierung im Bundestag gesprochen 0:35:17.100,0:35:21.040 wurde, von welchen Parteien das wie[br]intensiv benutzt wurde oder darüber 0:35:21.040,0:35:25.240 gesprochen wurde und wie sich das über den[br]zeitlichen Verlauf verändert hat. Auch 0:35:25.240,0:35:29.870 ziemlich spannend. Ein anderes Projekt,[br]das bereits mit unseren Daten durchgeführt 0:35:29.870,0:35:34.361 wurde, kam von ZDF heute.[br]Datenjournalist:innen von ZDF Heute hatten 0:35:34.361,0:35:39.620 uns Frühsommer/Sommer angeschrieben und[br]gefragt, ob sie unsere Daten nicht schon 0:35:39.620,0:35:45.800 vor Veröffentlichung mal haben könnten, um[br]zu schauen, ob sie diese Daten für einen 0:35:45.800,0:35:51.380 Artikel schon nutzen könnten. Und daraus[br]ist ein Artikel entstanden, in dem sich 0:35:51.380,0:35:55.950 die Journalist:innen damit[br]auseinandergesetzt haben, wie der 0:35:55.950,0:36:01.530 Bundestag denn eigentlich über Pandemien[br]und über das Coronavirus im speziellen 0:36:01.530,0:36:06.150 unterhalten hat oder wie das debattiert[br]wurde. Das Ergebnis war eher, dass der 0:36:06.150,0:36:09.360 Bundestag da nicht besonders viel[br]Aufmerksamkeit draufgelegt hat. Auch ein 0:36:09.360,0:36:14.790 sehr spannender Artikel. Und als letztes[br]wollen wir noch kurz das Projekt Open 0:36:14.790,0:36:20.660 Parliament TV eher anteasern, weil der[br]offizielle Veröffentlichungstermin ist für 0:36:20.660,0:36:26.860 Mai 2021 vorgesehen. Open Parliament TV[br]hat als Kernziel eigentlich ein sehr 0:36:26.860,0:36:32.201 ähnliches Ideal wie wir bei Open[br]Discourse. Es geht darum, den Bundestag 0:36:32.201,0:36:37.430 transparenter zu machen. Open Parliament[br]TV hat dabei das Ziel, die 0:36:37.430,0:36:41.830 Videomitschnitte der Plenardebatten mit[br]den entsprechenden Transkripten, also 0:36:41.830,0:36:46.730 Plenarprotokollen zusammenzuführen, um[br]darüber eine noch viel wirksamere oder 0:36:46.730,0:36:52.001 detailliertere Recherchefunktion zu[br]ermöglichen. Und an der Stelle wird 0:36:52.001,0:36:56.570 gerade evaluiert, wie die Daten von Open[br]Discourse diesem Projekt noch weiter 0:36:56.570,0:37:06.250 helfen können. Genau. Und jetzt wieder zu[br]euch. Wie gerade schon angesprochen sind 0:37:06.250,0:37:11.900 unsere Daten ab sofort und unserer Source[br]Code komplett öffentlich verfügbar. Das 0:37:11.900,0:37:15.870 heißt, ihr habt jetzt die Möglichkeit, mit[br]diesen Daten zu machen, was ihr wollt. Wir 0:37:15.870,0:37:20.370 haben bei der Veröffentlichung das Ziel[br]gehabt, die so verfügbar wie möglich zu 0:37:20.370,0:37:26.700 machen und haben dabei auf drei große[br]Säulen versucht zu achten. Die erste Säule 0:37:26.700,0:37:31.640 dabei sind die Techniker:innen unter euch,[br]also alle Techniker:innen unter euch. Ihr 0:37:31.640,0:37:37.170 könnt euch unsere GitHub Seite anschauen[br]von Open Discourse und dort findet ihr 0:37:37.170,0:37:40.400 natürlich den Source Code. Ihr könnt das[br]alles auschecken, lokal bei euch 0:37:40.400,0:37:43.980 aufsetzen, überprüfen, wie wir eigentlich[br]vorgegangen sind, verbessern, 0:37:43.980,0:37:50.400 Schwachstellen finden. Außerdem findet ihr[br]auf der GitHub Seite auch einen Docker 0:37:50.400,0:37:55.051 Container, wo die komplette Datenbank als[br]Image vorliegt, d.h. die könnt ihr euch 0:37:55.051,0:38:00.770 auch sofort aufsetzen oder halt nochmal[br]neu generieren lassen, wenn ihr wollt. Für 0:38:00.770,0:38:05.560 die Analytiker:innen und die[br]Wissenschaftler:innen unter euch haben wir 0:38:05.560,0:38:11.280 ein Harvard Dataverse angelegt. Dort[br]findet ihr die aktuelle Version unserer 0:38:11.280,0:38:15.430 Datenbank als Data Dump und wir haben das[br]in vier verschiedenen Dateiformaten 0:38:15.430,0:38:21.050 bereitgestellt als CSV, Feather, Pickle[br]und RDS-Files, damit ihr je nachdem, womit 0:38:21.050,0:38:26.400 ihr am liebsten arbeitet, genau das[br]perfekte Dateiformat für euch findet. Und 0:38:26.400,0:38:31.900 als letztes haben wir noch für quasi Quick[br]Reviews oder schnelle Recherchen auf 0:38:31.900,0:38:36.250 unserer Webseite eine Volltextsuche mit[br]Filter-Option bereitgestellt. Da könnt ihr 0:38:36.250,0:38:44.420 also nach Stichworten, nach[br]Parteizugehörigkeit, nach den Namen der 0:38:44.420,0:38:50.450 Politiker, nach Datum usw. filtern und[br]schauen, ob euch was spannendes auffällt 0:38:50.450,0:38:59.430 oder ob ihr eure Fragen beantworten könnt.[br]Genau. So viel dann erst mal von uns. Wir 0:38:59.430,0:39:04.310 bedanken uns ganz, ganz herzlich für euer[br]Interesse und dass ihr uns zugehört habt. 0:39:04.310,0:39:07.360 Wir bedanken uns natürlich auch bei der C[br]Base dafür, dass wir das Video hier 0:39:07.360,0:39:12.060 aufnehmen konnten. Bei Fragen und[br]Anregungen schreibt uns gerne eine Mail 0:39:12.060,0:39:17.550 oder kontaktiert uns über die[br]einschlägigen Kanäle. Oder wir sprechen 0:39:17.550,0:39:26.280 uns dann gleich bei der Fragerunde. Alles[br]klar. Vielen Dank. Danke schön. 0:39:26.280,0:39:30.640 Herald: Wir sind nun mit den Sprechern[br]verbunden, sind uns zugeschaltet für 0:39:30.640,0:39:33.871 Fragen und Antworten, die uns zugespielt[br]worden sind. Herzlich willkommen! 0:39:33.871,0:39:39.470 Philipp & Florian: Hallo![br]Herald: Die zweite Welle des Datenschutzes ist 0:39:39.470,0:39:43.510 ja angesichts der Zeit gerade die perfekte[br]Metapher. Wie lange wird die zweite Welle 0:39:43.510,0:39:48.730 des Datenschutzes wohl noch gehen?[br]Florian: Ja, gute Frage. Keine Ahnung. Man 0:39:48.730,0:39:54.520 hat ja gesehen, dass es schon ein bisschen[br]bergab wieder geht, aber viel mehr kann 0:39:54.520,0:39:57.870 ich da eigentlich nicht zu sagen. Aber es[br]ist spannend, das jetzt im Auge behalten 0:39:57.870,0:40:00.610 zu können.[br]Herald: Ist auf jeden Fall auf absehbare 0:40:00.610,0:40:04.610 Zeit nicht mit einer Impfung zu rechnen.[br]Eine Frage, die uns zugespielt worden ist 0:40:04.610,0:40:10.960 über die Hashtags und über IRC, die wir[br]empfangen und die wir weitergeben, ist: Es 0:40:10.960,0:40:14.380 gibt noch einen weiteren Text Korpus. Ihr[br]habt jetzt den Deutschen Bundestag 0:40:14.380,0:40:17.890 analysiert, aber es gibt noch eine andere[br]legislative Kammer, die es lange Jahre 0:40:17.890,0:40:22.350 gab, nämlich die Volkskammer der DDR. Gibt[br]es dort überhaupt entsprechende Unterlagen 0:40:22.350,0:40:25.080 oder entsprechendes Material, das man[br]analysieren könnte? 0:40:25.080,0:40:30.350 Florian: Da bin ich mir gar nicht so[br]sicher. Also ich hab - also davon weiß ich 0:40:30.350,0:40:33.500 nichts. Wir hatten da jetzt auch gar nicht[br]so weiter reingeguckt. Wir hatten 0:40:33.500,0:40:36.270 natürlich, während wir an dem Projekt[br]gearbeitet hatten, schon überlegt, wie man 0:40:36.270,0:40:39.540 das alles noch weiterdenken könnte, was[br]man zusätzlich noch mit aufnehmen könnte. 0:40:39.540,0:40:43.820 Da war die Volkskammer auch schon mal im[br]Gespräch, aber wir sind da jetzt erstmal 0:40:43.820,0:40:47.990 nicht weiter rein gesprungen. Aber[br]prinzipiell wird das natürlich total 0:40:47.990,0:40:52.060 spannend, noch weiter in die Richtung zu[br]denken und das auch noch mit aufzunehmen. 0:40:52.060,0:40:57.330 Aber ich weiß gar nicht, ob es die[br]Plenarprotokolle da so auch detailliert 0:40:57.330,0:41:02.050 gibt. Genau. Wahrscheinlich wäre es auch[br]ein relativ großer Aufwand, könnte ich mir 0:41:02.050,0:41:05.850 vorstellen, die Regex Patterns, die wir[br]jetzt für den Bundestag aufbereitet haben, 0:41:05.850,0:41:11.700 auf die Volkskammer zu übertragen. Weil[br]wenn sich da... also im Prinzip basiert, 0:41:11.700,0:41:14.800 die Aufarbeitung, die wir gemacht haben[br]darauf, dass die Struktur in den 0:41:14.800,0:41:18.380 Plenarprotokollen einigermaßen ähnlich[br]bleibt, über die Legislaturperioden. Die 0:41:18.380,0:41:22.610 wird natürlich jedes Mal angepasst, wenn's[br]dann notwendig war. Auf der anderen Seite 0:41:22.610,0:41:27.250 brauchen wir die Stammdaten der[br]Politiker:innen, weil wir das für die 0:41:27.250,0:41:30.820 Fuzzy Matching Logiken nutzen, um zuweisen[br]zu können: Wer hat denn eigentlich was 0:41:30.820,0:41:35.040 gesagt? Total spannend, das für die[br]Volkskammer auch noch zu machen. 0:41:35.040,0:41:39.300 Vielleicht jetzt als nächster Schritt. Wir[br]sind erstmal froh, dass wir den Bundestag 0:41:39.300,0:41:42.670 fertig bekommen haben.[br]Herald: Auf jeden Fall. Gibt es denn 0:41:42.670,0:41:45.840 Wünsche, die ihr habt für die[br]Zugänglichkeit von Daten, die euch das 0:41:45.840,0:41:48.870 Leben oder anderen das Leben[br]einfacher machen würden, bei solchen 0:41:48.870,0:41:52.080 Auswertungen?[br]Philipp: Das ist glaube ich vor allem die 0:41:52.080,0:41:54.750 strukturierte Erfassung, also eigentlich[br]hätte der Bundestag selbst die 0:41:54.750,0:41:58.760 Möglichkeit, diese Daten von sich aus[br]schon strukturiert verfügbar zu machen. 0:41:58.760,0:42:02.320 Vor allem, weil eben diese ganz einfachen[br]Sachen - ich suche nach Begriffen oder ich 0:42:02.320,0:42:06.230 suche nach Themen oder ich möchte das mal[br]ein bisschen strukturiert durchsuchen - 0:42:06.230,0:42:10.650 das ist derzeit eine absolut händische[br]Aufgabe und das ist eigentlich in unserer 0:42:10.650,0:42:15.010 jetzigen Zeit ein kleines bisschen hinter[br]der Zeit hinterher. Von daher wäre es 0:42:15.010,0:42:20.610 eigentlich sehr sinnvoll, wenn man so[br]Grundideen von strukturierter Datenhaltung 0:42:20.610,0:42:24.220 dann auch in öffentlichen Verwaltungen[br]hätte, um eben diesen Zugang zu 0:42:24.220,0:42:27.450 erleichtern. Der Bundestag hat uns jetzt[br]quasi eineinhalb Jahre Arbeit gekostet, 0:42:27.450,0:42:32.900 das aufzubrechen. Und wär natürlich super,[br]wenn man solche Grundthemen der 0:42:32.900,0:42:36.930 Datenhaltung, der öffentlich verfügbaren[br]Datenhaltung auch irgendwie direkt 0:42:36.930,0:42:40.180 mitdenkt.[br]Florian: Ein ganz kleiner Nachtrag da 0:42:40.180,0:42:43.670 noch. Ein großer Wunsch, der uns vieles[br]erleichtern würde, jetzt auch Open 0:42:43.670,0:42:48.820 Discourse up to date zu halten, wäre ein[br]RSS-Feed vom Bundestag. Da sitzen auch die 0:42:48.820,0:42:53.260 Leute von Open Parliament TV so ein[br]bisschen dran und hoffen, dass das 0:42:53.260,0:42:56.480 irgendwie bereitgestellt wird. Aber das[br]würde uns natürlich ermöglichen, 0:42:56.480,0:43:01.550 automatisiert den Datensatz zu erweitern,[br]sobald irgendwie eine neue Rede 0:43:01.550,0:43:08.640 bereitgestellt wurde auf den Servern. Im[br]Moment geht das leider so noch nicht. 0:43:08.640,0:43:12.690 Herald: Strukturierte, maschinenlesbare[br]Verwaltung und strukturierte Daten quasi 0:43:12.690,0:43:17.850 als Wunsch. Es gibt ja zum Teil zumindest[br]eigene Projekte, wo aus dritter Hand 0:43:17.850,0:43:22.310 solche Daten für Dritte bereitgestellt[br]werden, wie z.B. Wikidata. Ist das eine 0:43:22.310,0:43:26.560 Quelle, auf die ihr euch, die ihr[br]verwenden könnt für so was? 0:43:26.560,0:43:32.510 Florian: Genau. Teilweise hatten wir das[br]auch verwendet. Also auf dem Weg zum 0:43:32.510,0:43:38.380 fertigen Produkt haben wir auch mit[br]Wikidata-Daten gearbeitet. Zum Beispiel 0:43:38.380,0:43:44.050 gibt es in den Stammdaten ja Informationen[br]darüber, wo Personen geboren wurden und 0:43:44.050,0:43:48.890 das sind die Originalgeburtsorte von[br]damals, quasi mit den historischen Namen. 0:43:48.890,0:43:55.840 Und an der Stelle hatten wir dann mal als[br]Test-Experiment bei uns intern für jede 0:43:55.840,0:44:02.120 Person, die wir im Bundestag hatten, jeden[br]Abgeordneten und jede Abgeordnete, die 0:44:02.120,0:44:05.710 Wikidata-IDs rausgesucht, damit wir mappen[br]können: Okay, was ist denn jetzt 0:44:05.710,0:44:08.530 eigentlich die ID für den Geburtsort[br]dahinter, damit wir damit weiterarbeiten 0:44:08.530,0:44:12.350 können? Das liegt aber bei uns nur, also[br]das ist jetzt nicht Teil des Korpus, weil 0:44:12.350,0:44:16.370 wir das nicht weit... also so weit[br]validiert haben, dass wir sicher sein 0:44:16.370,0:44:21.080 können, dass das korrekt ist. Aber auf[br]jeden Fall. Also das wäre so ein bisschen 0:44:21.080,0:44:24.330 die Anschlussfähigkeit, die wir uns[br]eigentlich wünschen. Also im Idealfall 0:44:24.330,0:44:29.270 wäre jetzt und wäre vielleicht die[br]Community dazu auch aufgerufen, für jede 0:44:29.270,0:44:33.900 Politiker:in noch die entsprechende[br]Wikidata ID mit zum am Korpus dazu zu 0:44:33.900,0:44:40.710 packen, damit wir noch viel mehr Daten und[br]viel mehr Dimensionen haben für den ganzen 0:44:40.710,0:44:44.330 Datensatz haben.[br]Herald: Wohin wenden sich denn Menschen, 0:44:44.330,0:44:46.901 wenn sie bei eurem Projekt mitmachen[br]möchten? 0:44:46.901,0:44:52.130 Florian: Am besten z.B.[br]zwischenruf@opendiscourse.de oder auf 0:44:52.130,0:44:54.680 unserer Webseite opendiscourse.de findet[br]ihr auch verschiedene 0:44:54.680,0:44:58.930 Kontaktmöglichkeiten. Ihr könnt natürlich[br]auch direkt über das Repository uns 0:44:58.930,0:45:02.940 Tickets schreiben, falls ihr irgendwie[br]Sachen habt, die euch aufhalten. Twitter, 0:45:02.940,0:45:08.750 Instagram, sämtliche Kanäle.[br]Herald: Alle sozialen Netzwerke. Seid ihr 0:45:08.750,0:45:11.980 auf TikTok?[br]Florian: Nur privat... 0:45:11.980,0:45:17.060 Herald: Zum Thema Transferierbarkeit gab's[br]dann auch nochmal eine Frage aus dem Chat. 0:45:17.060,0:45:21.369 Zum Beispiel für die Republik Österreich.[br]Wie gehen den Menschen vor - ihr habt ja 0:45:21.369,0:45:23.920 vorhin umrissen, dass es gar nicht so[br]einfach ist, so einen Datensatz zu 0:45:23.920,0:45:26.911 analysieren. Aber wie würden denn Menschen[br]vorgehen, die sagen: Das finden sie 0:45:26.911,0:45:29.330 interessant. Zum Beispiel für ihr[br]Landesparlament oder eben auch für ein 0:45:29.330,0:45:34.680 anderes Land?[br]Florian: Genau, an der Stelle sind wir 0:45:34.680,0:45:39.830 leider auch nicht ausreichend Expert:innen[br]für die Plenarprotokolle, wie die auf 0:45:39.830,0:45:44.680 Landesebene aussehen. Also es könnte sein.[br]Wir haben da halt noch nicht reingeschaut. 0:45:44.680,0:45:47.770 Es könnte sein, dass es eigentlich gar[br]nicht zu viele Abänderungen der Regex 0:45:47.770,0:45:52.350 Patterns voraussetzt, um es zu übertragen.[br]Es könnte aber auch sein, dass es relativ 0:45:52.350,0:45:58.730 aufwändig ist. Wir würden da jetzt so ein[br]bisschen auf die Stimmen von euch warten. 0:45:58.730,0:46:03.110 Also was interessiert euch denn eigentlich[br]am meisten? Und wir sind natürlich auch 0:46:03.110,0:46:08.430 sehr dankbar für jedes weitere Paar Augen,[br]das auf unsere Daten oder bzw. auf unseren 0:46:08.430,0:46:12.110 Source Code draufschaut, um vielleicht[br]Ideen zu entwickeln, wie man das jetzt 0:46:12.110,0:46:18.112 möglichst effizient auf andere[br]Anwendungsbereiche übertragen kann. 0:46:18.112,0:46:22.619 Herald: Okay, dann ist noch eine Frage aus[br]dem Chat, nämlich vielleicht kam das im 0:46:22.619,0:46:26.710 Talk vor. Er schreibt die Person: Aber wie[br]ist das Projekt zustande gekommen? 0:46:26.710,0:46:33.040 Insbesondere von der Finanzierung her?[br]Philipp: Also die Idee, die Grundidee war 0:46:33.040,0:46:37.570 glaube ich war, als wir zusammensaßen und[br]uns überlegt haben, wie können wir denn 0:46:37.570,0:46:41.250 eigentlich in Anbetracht von so vielen[br]schönen und künstlerischen oder 0:46:41.250,0:46:45.369 politischen Programmen und Aktionen die so[br]gibt, was können wir da eigentlich 0:46:45.369,0:46:49.810 beitragen, um irgendwas zu machen? Wir[br]sind Informatiker und Data Scientists und 0:46:49.810,0:46:53.660 das ist nicht so direkt der Punkt, wo man[br]jetzt die Welt ins Positive drehen kann. 0:46:53.660,0:46:57.500 Aber dann ist uns aufgefallen, dass eben[br]diese Daten, der Datensatz nicht 0:46:57.500,0:47:01.400 ausreichend verfügbar ist, dass der nicht[br]maschinenlesbar ist, dass es nur händisch 0:47:01.400,0:47:05.010 durchsuchbare Protokolle sind. Und dann[br]haben wir diesen Datensatz genommen und 0:47:05.010,0:47:08.340 aufgebrochenen. Grundlegend sind wir sonst[br]normalerweise in Agenturen und erbringen 0:47:08.340,0:47:11.291 Data Science Machine Learning[br]Dienstleistungen. Und haben dieses Projekt 0:47:11.291,0:47:15.970 aber in Abstimmung mit unserem Team,[br]also wir waren zu neunt an diesem Projekt, 0:47:15.970,0:47:21.780 haben das quasi komplett von unserem[br]Business getrennt und haben quasi gesagt: 0:47:21.780,0:47:25.950 Okay, wann immer wir Arbeitsstunden frei[br]haben, haben wir Zeit um dieses Projekt zu 0:47:25.950,0:47:31.390 treiben. Und damit diese quasi Bindung der[br]Privatwirtschaft, die da ja dran sein 0:47:31.390,0:47:34.570 könnte, dass die natürlich auch komplett[br]eliminiert ist, ist dieses Projekt 0:47:34.570,0:47:39.057 komplett offen und ist komplett[br]durchsuchbar und ist komplett frei, sodass 0:47:39.057,0:47:42.150 validiert werden kann, dass wir das[br]natürlich... Wir haben natürlich eine 0:47:42.150,0:47:45.070 eigene politische Meinung, aber die soll[br]natürlich nicht mit in diesen Datensatz 0:47:45.070,0:47:47.800 fließen. Daher liegt der Datensatz[br]komplett offen und kann vollkommen 0:47:47.800,0:47:51.900 durchsucht werden. Finanziert ist das aber[br]quasi aus den Freistunden, die wir als 0:47:51.900,0:47:56.890 Data Science Agentur hatten.[br]Herald: Vielen Dank Florian, vielen Dank 0:47:56.890,0:48:00.110 für dieses spannende Projekt und wirklich[br]gehaltvolle Projekt. Bei den 0:48:00.110,0:48:03.920 Beleidigungen muss man auch sagen: Franz[br]Josef Strauß war von der Runterzählung der 0:48:03.920,0:48:08.320 Top 5 fast zu erwarten, dass der[br]rauskommt. Ich hatte eigentlich noch Herrn 0:48:08.320,0:48:12.890 Wehner auch erwartet, der eigentlich sein[br]sein traditioneller Widersacher war. Habt 0:48:12.890,0:48:17.370 ihr denn ein Lieblingsschlagaustausch oder[br]eine Lieblingsbeleidigung gefunden in 0:48:17.370,0:48:21.020 eurer Arbeit.[br]Philipp: Ich glaube, man kann es auf so 0:48:21.020,0:48:26.063 unterschiedliche Art und Weisen auch[br]operationalisieren. Ich glaube wir hatten 0:48:26.063,0:48:29.780 mal eine ganz, eine ganz spannende... ich[br]glaube das müssten wir nochmal... 0:48:29.780,0:48:33.910 Vielleicht machen wir dafür nochmal einen[br]extra Teil auf der Website, wo wir die 0:48:33.910,0:48:38.264 spannendsten Beleidigungen nochmal[br]aufgreifen. Das wäre ein gutes Thema. 0:48:38.264,0:48:41.070 Florian: Wir hatten glaube ich teilweise[br]in so einem kleinen Dokument mal ein paar 0:48:41.070,0:48:43.660 Sachen gesammelt. Aber ich hab die grad[br]auch gar nicht im Kopf. 0:48:43.660,0:48:48.021 Herald: Okay, also einen Ausbaupotenzial[br]für den Spaß da hinten dran, für die 0:48:48.021,0:48:52.420 Spaßig-Seite der Datenanalyse ist auf[br]jeden Fall vorhanden. Vielen Dank für 0:48:52.420,0:48:58.010 euren Beitrag. Ich hoffe, ihr bekommt viel[br]Feedback und noch viel Input, wie man hier 0:48:58.010,0:49:00.220 noch mehr draus machen kann. Danke euch![br]- Vielen Dank auch. 0:49:00.220,0:49:02.810 - Danke dir. 0:49:02.810,0:49:06.180 Wikipaka Outro Musik 0:49:06.180,0:49:13.000 Untertitel erstellt von c3subtitles.de[br]im Jahr 2021. Mach mit und hilf uns!