0:00:00.000,0:00:15.379
Wikipaka Intro Musik
0:00:15.379,0:00:18.320
Florian: Herzlich willkommen zu unserem[br]Talk "Wir wissen, was ihr letzten Sommer
0:00:18.320,0:00:21.550
gesagt habt". Wir sind sehr aufgeregt und[br]freuen uns sehr, dass wir das heute
0:00:21.550,0:00:27.160
vorstellen dürfen. Wir sind Philip Koch[br]und Florian Richter und wir wollen euch
0:00:27.160,0:00:31.880
heute unser Projekt Open Discourse[br]vorstellen und inwiefern Open Discourse
0:00:31.880,0:00:36.920
die Transparenz des Bundestages erhöhen[br]kann. An Open Discourse haben wir die
0:00:36.920,0:00:41.350
letzten anderthalb Jahre gearbeitet, in[br]einem Team von insgesamt neun Personen.
0:00:41.350,0:00:48.710
Und genau. Worüber wollen wir euch[br]eigentlich heute erzählen? Für Open
0:00:48.710,0:00:53.519
Discourse haben wir die Plenarprotokolle[br]des Deutschen Bundestages aufgearbeitet
0:00:53.519,0:00:58.900
und die Plenarprotokolle seht ihr hier auf[br]der rechten Seite, die sehen so aus. Das
0:00:58.900,0:01:05.560
heißt für jede Sitzung im Bundestag gibt[br]es Stenograph:innen, die jedes gesprochene
0:01:05.560,0:01:09.400
Wort von den Parteien bzw. von den[br]Politiker:innen, die gerade eine Rede
0:01:09.400,0:01:16.940
halten, aufzeichnen. Und außerdem wird[br]auch jeder Zwischenruf, jede Reaktion aus
0:01:16.940,0:01:21.660
dem Plenum mit aufgezeichnet. Diese[br]Plenarprotokolle stellt der Bundestag zur
0:01:21.660,0:01:27.709
Verfügung, seit 1949. Allerdings als PDF-[br]Dokument. Das birgt natürlich einige
0:01:27.709,0:01:32.440
Probleme, weil PDF Dokumente sind nicht[br]gut durchsuchbar, weil wir jetzt z.B.
0:01:32.440,0:01:36.239
nicht gezielt suchen könnten, was ein[br]bestimmter Politiker einer bestimmten
0:01:36.239,0:01:41.630
Partei im Jahre 1950 beispielsweise gesagt[br]hat. Das heißt, das ist das Problem, das
0:01:41.630,0:01:45.800
wir eigentlich haben. Aber eigentlich[br]beinhalten diese Plenarprotokoll ziemlich
0:01:45.800,0:01:52.029
viel wertvolle Information. Weil[br]beispielsweise natürlich die einzelnen
0:01:52.029,0:01:57.260
Redebeiträge, die Zwischenrufe usw, diese[br]sind aber als Fließtext in diesem PDF
0:01:57.260,0:02:00.320
enthalten. Das heißt, wir brauchen[br]eigentlich irgendeinen Weg, um das
0:02:00.320,0:02:04.179
herauszubrechen. Und genau, das gab's[br]bisher noch nicht. Mit Open Discourse
0:02:04.179,0:02:09.429
haben wir es jetzt erstmals geschafft,[br]seit 1949 alle Reden, alle Zwischenrufe,
0:02:09.429,0:02:15.460
alle Reaktionen und so weiter[br]herauszuarbeiten. Warum machen wir das
0:02:15.460,0:02:20.200
eigentlich? Die Motivation hinter Open[br]Discourse beruht im Kern darauf, dass wir
0:02:20.200,0:02:23.350
davon ausgehen oder wir finden, das[br]Plenarprotokolle eigentlich eine ziemlich
0:02:23.350,0:02:28.970
wertvolle Ressource sind und die Debatten[br]im Bundestag ja eigentlich so transparent
0:02:28.970,0:02:32.680
wie möglich stattfinden sollten. Das[br]heißt, wir alle haben ein Recht darauf,
0:02:32.680,0:02:36.770
auch noch nach 20 Jahren zu wissen, was[br]eine bestimmte Politikerin oder ein
0:02:36.770,0:02:43.700
bestimmter Politiker zu einem bestimmten[br]Thema gesagt hat. Was auffällt, wenn wir
0:02:43.700,0:02:49.970
uns Plenarprotokolle und die Befassung mit[br]Plenarprotokollen ansehen, ist, dass das vor
0:02:49.970,0:02:52.580
allen Dingen in der deutschen[br]Politikwissenschaft eigentlich ein Thema
0:02:52.580,0:02:59.230
ist, das nicht besonders oft angefasst[br]wird. Es ist unterrepräsentiert in der
0:02:59.230,0:03:03.280
Forschung. Das hat mehrere Gründe: Zum[br]einen.. oder zwei Hauptgründe
0:03:03.280,0:03:06.860
wahrscheinlich. Zum einen ist die deutsche[br]Politikwissenschaft eher aus der
0:03:06.860,0:03:10.390
politischen Ideengeschichte erwachsen. Das[br]heißt, man kümmert sich eigentlich eher
0:03:10.390,0:03:14.670
qualitativ um Texte als quantitativ. Das[br]ändert sich in den letzten Jahren ein
0:03:14.670,0:03:18.541
bisschen. Aber im Kern befasst sich die[br]deutsche Politikwissenschaft immer noch
0:03:18.541,0:03:22.530
relativ wenig mit dem Plenardebatten. Und[br]der große Grund dafür ist dann natürlich
0:03:22.530,0:03:26.090
auch, dass diese Plenarprotokolle bisher[br]noch nicht maschinenlesbar und nicht
0:03:26.090,0:03:29.990
leicht auswertbar vorlagen. Man kann sich[br]vorstellen, wenn man jetzt nach einer
0:03:29.990,0:03:34.160
gezielten Fragestellung die[br]Plenarprotokolle untersuchen möchte,
0:03:34.160,0:03:37.690
müsste man im Zweifelsfall über 4 000[br]Protokolle händisch durchlesen, um zu
0:03:37.690,0:03:41.280
schauen: In welchem Protokoll steht jetzt[br]irgendeine Information, die wichtig ist
0:03:41.280,0:03:47.830
für meine Fragestellung. In den letzten[br]Jahren sehen wir aber, dass das Interesse
0:03:47.830,0:03:51.480
an diesen Plenarprotokollen zunehmend[br]wächst. Und an der Stelle haben wir uns
0:03:51.480,0:03:56.660
gedacht, als Team aus in erster Linie Data[br]Scientists und Software Developern, dass
0:03:56.660,0:04:00.800
wir eigentlich die Skills dazu haben,[br]diese Daten aufzubereiten und der
0:04:00.800,0:04:05.370
Öffentlichkeit zur Verfügung zu stellen.[br]Genau. Das ist also der der aktuelle
0:04:05.370,0:04:10.210
Stand. Wir haben das große Problem, dass[br]es keine einfache Möglichkeit gibt, diese
0:04:10.210,0:04:13.850
Plenarprotokolle zu durchsuchen und diese[br]Plenarprotokolle auch nicht
0:04:13.850,0:04:19.709
maschinenlesbar sind, wir also keine[br]aktuellen Analysemethoden über diesen
0:04:19.709,0:04:23.720
Textkorpus laufen lassen können. Unsere[br]Ziele, die wir uns gesetzt haben für
0:04:23.720,0:04:28.849
dieses Projekt, waren mehr Transparenz des[br]politischen Diskurses in Deutschland, eine
0:04:28.849,0:04:32.569
detaillierte Durchsuchbarkeit der[br]Plenardebatten, ein öffentlicher und
0:04:32.569,0:04:36.939
möglichst niedrigschwelliger Zugang zu[br]diesen Daten, die Anschlussfähigkeit
0:04:36.939,0:04:41.279
unseres Projektes, damit dieses Projekt[br]weiterentwickelt werden kann, dass neue
0:04:41.279,0:04:46.759
Projekte daraus entstehen können. Und[br]natürlich, dass mit diesen Daten auch
0:04:46.759,0:04:51.149
geforscht werden kann und wir demnach ein[br]wissenschaftliches Niveau für diese Daten
0:04:51.149,0:04:57.169
brauchen. Ok, kurz zum Status Quo. In den[br]letzten Jahren, wie gerade angesprochen
0:04:57.169,0:05:02.960
hat sich natürlich das Interesse für diese[br]Plenarprotokoll deutlich erhöht. 2017
0:05:02.960,0:05:06.779
beispielsweise gab es das sehr spannende[br]Projekt Offenes Parlament, was von der
0:05:06.779,0:05:12.689
Open Knowledge Foundation getrieben wurde[br]oder durchgeführt wurde. In diesem Projekt
0:05:12.689,0:05:17.330
wurden die Plenarprotokolle der 18.[br]Wahlperiode aufgearbeitet und diese waren
0:05:17.330,0:05:20.889
dann auch granular durchsuchbar, das[br]heißt, wir hatten Dimensionen zum Datum,
0:05:20.889,0:05:27.240
zum Inhalt der Redebeiträge, welche Person[br]diesen Redebeitrag gehalten hat usw.
0:05:27.240,0:05:32.599
Ebenfalls 2017 und 2018 kamen die Projekte[br]ParlSpeech und GermaParl und wurden
0:05:32.599,0:05:37.520
veröffentlicht. Das sind zwei[br]wissenschaftliche Projekte, die ebenfalls
0:05:37.520,0:05:43.409
sehr granular die Redebeiträge aufbereitet[br]haben des Bundestages. Allerdings im Falle
0:05:43.409,0:05:46.449
von ParlSpeech, die haben dieses Jahr[br]nochmal ein Update von ihrem Datensatz
0:05:46.449,0:05:51.580
gemacht. Reicht jetzt von der 12. bis 19.[br]Wahlperiode. Bei GermaParl sind aktuell
0:05:51.580,0:05:56.010
die 13. bis zur 18. Wahlperiode abgedeckt.[br]D.h. wir haben da auch nicht den
0:05:56.010,0:06:02.860
kompletten Umfang der Plenardebatten. Und[br]an dieser Stelle vor einem Jahr haben
0:06:02.860,0:06:07.960
Martin Haars und Kai Biermann das Projekt[br]vorgestellt, das Zeit Online
0:06:07.960,0:06:15.070
veröffentlicht hat, wo das erste Mal alle[br]oder jedes gesprochene Wort seit 1949
0:06:15.070,0:06:20.129
bereitgestellt wurde und es möglich war,[br]eine Keyword Suche über diesen Korpus zu
0:06:20.129,0:06:24.379
laufen zu lassen. Das heißt, man konnte[br]dadurch erstmals schauen: Wie hat sich
0:06:24.379,0:06:30.189
beispielsweise das Keyword Umweltschutz in[br]den Debatten dargestellt? Wie hat sich das
0:06:30.189,0:06:35.889
verändert über die Zeit? Genau. An dieser[br]Stelle gebe ich jetzt an Philipp weiter
0:06:35.889,0:06:38.610
und er wird euch mal erklären, was wir[br]jetzt eigentlich mit Open Discourse noch
0:06:38.610,0:06:41.880
zusätzlich machen können.[br]Philipp: Genau. Also wir sehen so ein
0:06:41.880,0:06:45.460
bisschen oder wir erinnern euch oder viele[br]von euch erinnern sich vielleicht an den
0:06:45.460,0:06:51.849
den Talk von Martin Haase und Kai Biermann[br]vor einem Jahr. Da haben die gezeigt, wie
0:06:51.849,0:06:57.139
sie diese Worte über die Zeit analysiert[br]haben und haben auch gezeigt, welche
0:06:57.139,0:07:00.210
Beschimpfungen in Deutschen Bundestag[br]relativ typisch waren. Also wir haben
0:07:00.210,0:07:05.689
sowas wie Heuchler und Lügner:in und[br]Idioten und Lümmel und Flegel. Und nur um
0:07:05.689,0:07:10.069
da so ein Stück anzuknüpfen und um zu[br]zeigen, wie wir an dieser Stelle ansetzen
0:07:10.069,0:07:13.899
können und das ein Stück weiter denken[br]können, hab ich euch das mal mitgebracht
0:07:13.899,0:07:18.330
und hab euch mal geplottet über die Zeit,[br]wie häufig mit welcher relativen
0:07:18.330,0:07:22.710
Häufigkeit Beschimpfungen im Deutschen[br]Bundestag passiert sind. Und wir sehen,
0:07:22.710,0:07:28.599
dass es eine Zeit gab, in der mal mehr und[br]mal weniger beschimpft wurde. Und was wir
0:07:28.599,0:07:31.360
jetzt aber machen können mit dem Open[br]Discourse Datensatz: Wir können neue
0:07:31.360,0:07:35.270
Dimensionen hinzufügen, denn wir haben[br]nicht mehr nur das reine gesprochene Wort,
0:07:35.270,0:07:37.370
sondern wir haben all die[br]Metainformationen, weil wir wissen, wer
0:07:37.370,0:07:41.819
dieses Wort gesprochen hat. Ich kann also[br]gucken, ob Männer oder Frauen mehr
0:07:41.819,0:07:45.599
geflucht haben und ich stelle fest, dass[br]Männer mit großem großem Abstand mehr
0:07:45.599,0:07:48.620
fluchen als Frauen. Männer sind[br]diejenigen, die das treiben im Deutschen
0:07:48.620,0:07:52.080
Bundestag, und die fluchen und beschimpfen[br]und beleidigen. Wenn ich die Frauen
0:07:52.080,0:07:55.889
dagegen plotte - Das erste Mal, dass eine[br]Frau im Deutschen Bundestag mit der
0:07:55.889,0:08:03.339
Auswahl dieser Beschimpfungen geflucht[br]hat, war 1977 ungefähr. Und auch so reden
0:08:03.339,0:08:09.569
Frauen deutlich, deutlich deutlich weniger[br]quasi in diesem Wortschatz. Und das Ganze
0:08:09.569,0:08:11.969
können wir jetzt immer und immer weiter[br]berechnen, denn wir haben mit Open
0:08:11.969,0:08:16.090
Discourse die Dimensionalität, um diese[br]Fragestellungen zu beantworten. Fluchen war
0:08:16.090,0:08:20.559
z.B. früher ein Thema von Doktor:innen.[br]Das heißt, Abgeordnete mit einem
0:08:20.559,0:08:26.339
akademischen Grad haben deutlich mehr[br]geflucht und erst in den 85er Jahren haben
0:08:26.339,0:08:30.569
dann auch nicht Doktor:innen angefangen,[br]stärker zu fluchen und Beschimpfungen in
0:08:30.569,0:08:35.969
ihren Wortschatz aufzunehmen. Wir können[br]weiter reingucken und können gucken, wer
0:08:35.969,0:08:39.970
denn eigentlich flucht. Also wenn ich[br]jetzt mal vergleichen möchte, wie die die
0:08:39.970,0:08:42.779
Mitte rechts und die Mitte Links Fraktion[br]im Deutschen Bundestag, wie die sich
0:08:42.779,0:08:47.180
unterscheiden in ihrer Nutzung von[br]Schimpfworten, dann kann ich feststellen,
0:08:47.180,0:08:51.460
dass ungefähr seit den 85er Jahren das[br]Fluchen eine typisch linke Disziplin ist.
0:08:51.460,0:08:55.800
Das ist in der Mitte Links Fraktion[br]ziemlich verortet, jetzt in dem Fall hier
0:08:55.800,0:09:02.420
definiert als SPD, Linke, PDS und Grüne im[br]Vergleich zur CDU, CSU, FDP-Fraktion, die
0:09:02.420,0:09:08.230
ein gutes Stück weniger flucht. Wir können[br]auch bis auf die einzelne Person
0:09:08.230,0:09:11.970
runtergehen und wir können die Gewinner im[br]Beschimpfen des Deutschen Bundestages seit
0:09:11.970,0:09:16.480
1949 küren. Vielleicht hat jemand von euch[br]eine Idee, wer da so drinsteckt. Auf Platz
0:09:16.480,0:09:22.460
vier ist es Norbert Blüm von der CDU. Auf[br]Platz drei ist es Carlo Schmidt von der
0:09:22.460,0:09:27.370
SPD, ein bisschen früherer Politiker. Auf[br]Platz zwei, Ottmar Schreiner von der SPD.
0:09:27.370,0:09:32.600
Und auf Platz eins ist es Franz Josef[br]Strauß von der CSU, der mit großem Abstand
0:09:32.600,0:09:38.050
die meisten Flüche im Deutschen Bundestag[br]gesprochen hat. Ihr seht also: Das, was
0:09:38.050,0:09:41.699
wir mit Open Discourse machen können, ist,[br]wir können dem gleichen Projekt, was auch
0:09:41.699,0:09:45.550
die Kollegen von der Zeit haben,[br]Mehrdimensionalität hinzufügen, weil wir
0:09:45.550,0:09:51.380
in unserem Korpus eine Realität abbilden[br]können und den gesamten PDF-Datensatz
0:09:51.380,0:09:56.080
quasi komplett als Datenbank-Struktur[br]verfügbar gemacht haben. Das heißt, was
0:09:56.080,0:10:01.889
wir früher konnten ist, wir konnten Worte[br]über eine Zeit plotten. Das war so der
0:10:01.889,0:10:07.170
Status quo. Und was wir jetzt gemacht[br]haben ist, wir haben diesen Fließtext,
0:10:07.170,0:10:11.380
dieses PDF umgebrochen in eine[br]Datenbankstruktur und können das jetzt
0:10:11.380,0:10:15.290
beliebig filtern und beliebig analysieren[br]und können da sehr, sehr, sehr tief in die
0:10:15.290,0:10:20.740
quantitativen Analysen gehen. Das heißt,[br]wir fügen diesen Plenardebatten mehr
0:10:20.740,0:10:25.360
Dimensionalität hinzu. Früher also Worte[br]und Zeit und heute eben auch, welche
0:10:25.360,0:10:28.990
Person gesprochen hat und damit eben auch[br]welche Fraktion, welche
0:10:28.990,0:10:34.260
Regierungsposition, welches Geschlecht,[br]welches Alter hat der oder die Sprechende?
0:10:34.260,0:10:38.639
Was ist der Beruf der sprechenden Person?[br]Der akademische Grad, die Jahre im
0:10:38.639,0:10:45.220
Bundestag? Der Geburtsort, der Adelstitel.[br]Und wir haben natürlich auch alle
0:10:45.220,0:10:47.810
Reaktionen und Interaktionen des[br]Bundestag. Das heißt, wir können genau
0:10:47.810,0:10:53.069
gucken, welche Personen, welche Fraktion[br]lacht oder amüsiert sich oder klatscht.
0:10:53.069,0:10:57.269
Und welche Einzelpersonen sind es denn,[br]wenn es irgendwelche Zwischenrufe sind?
0:10:57.269,0:11:01.319
Und wenn wir uns das so einer Größe[br]angucken, dann haben wir ein Datensatz,
0:11:01.319,0:11:07.240
bei dem wir etwa 331 Tausend Plenarseiten[br]ausgewertet haben seit 1949. Wir haben
0:11:07.240,0:11:13.120
dadurch 211 Millionen Tokens, also Worte,[br]in unserem Datensatz von ungefähr 900 000
0:11:13.120,0:11:19.080
Redebeiträgen, die wir verzeichnet haben,[br]gesprochen von 4100 Politiker:innen.
0:11:19.080,0:11:23.420
Darauf haben wir dann 2,2 Millionen[br]Reaktionen und Zwischenrufe des Plenums
0:11:23.420,0:11:29.380
von insgesamt 27 Fraktionen und Gruppen[br]seit der Gründung des Bundestages. Wie
0:11:29.380,0:11:32.931
haben wir das gemacht? Vielleicht ein ganz[br]kurzes Wort dazu, was dahinter steckt. Wir
0:11:32.931,0:11:37.230
haben die öffentlich verfügbaren Daten[br]genommen, die, die daliegen. Das heißt,
0:11:37.230,0:11:40.589
das sind die Plenarprotokolle des[br]Bundestages als PDF. Wir haben das
0:11:40.589,0:11:43.980
angereichert mit den Stammdaten der[br]Abgeordneten, die auch der Bundestag
0:11:43.980,0:11:48.279
erfasst und selbst herausgibt. Und wir[br]haben die Liste der deutschen
0:11:48.279,0:11:52.399
Regierungsmitglieder seit 1949 noch mit[br]dazugegeben, denn es gab relativ viele
0:11:52.399,0:11:57.029
oder es gab einige Regierungsmitglieder,[br]die selbst kein Bundestagsmandat haben.
0:11:57.029,0:12:01.620
Auch die haben wir hinzugefügt. Und dann[br]haben wir diese unendlich langen Texte
0:12:01.620,0:12:05.910
eben vorwiegend durch Regular Expressions[br]gefiltert. Das heißt, wir haben die
0:12:05.910,0:12:09.470
relevanten Teile und Protokolle[br]extrahiert. Wir haben das aufgegliedert.
0:12:09.470,0:12:12.870
Und wir haben dann eben nach Redebeiträge,[br]nach Redner:innen, Zwischenrufe,
0:12:12.870,0:12:19.519
Reaktionen unterteilt. Das war mal einer[br]der längsten Regular Expression Strings.
0:12:19.519,0:12:23.370
Der war dann irgendwann so lang, wir haben[br]dann irgendwann unserem Head of Regular
0:12:23.370,0:12:27.199
Expressions das auf ein T-Shirt gedruckt.[br]Das hatte die gute Vorderseite genutzt.
0:12:27.199,0:12:31.360
Und nach diesen ganzen Regular Expressions[br]haben wir dann auch viel Fuzzy Search und
0:12:31.360,0:12:35.550
Matching gemacht, um eben die Fehler auch[br]in dem Plenarprotokoll auszumerzen. Das
0:12:35.550,0:12:38.670
heißt, Politiker:innen sind falsch[br]geschrieben, irgendwelche Worte sind
0:12:38.670,0:12:43.750
zerrissen. Und um das alles wieder[br]zusammenzuführen, haben wir dann Fuzzy
0:12:43.750,0:12:49.620
String Matching angeführt.[br]Florian: Genau, und an der Stelle kommt
0:12:49.620,0:12:53.240
ihr jetzt eigentlich ins Spiel. Das heißt,[br]was wir im Kern machen wollten und jetzt
0:12:53.240,0:12:58.250
geschafft haben, ist diesen die, dieses[br]Korpus oder diesen Datensatz so
0:12:58.250,0:13:03.099
bereitzustellen, dass ihr euch den[br]auschecken könnt und eigene Analysen mit
0:13:03.099,0:13:08.660
diesen Daten durchführen könnt. Das heißt,[br]der Open Discourse Datensatz und das ganze
0:13:08.660,0:13:13.850
Repository dazu ist veröffentlicht. Ihr[br]könnt euch den Source Code anschauen,
0:13:13.850,0:13:17.730
auschecken, die Datenbank bei euch lokal[br]aufbauen. Und ihr habt noch ein paar
0:13:17.730,0:13:22.420
andere Möglichkeiten, auf die ich später[br]noch genauer ein. Genau. Das Spannende,
0:13:22.420,0:13:26.689
finden wir, an diesem Datensatz ist jetzt,[br]dass es erstmals möglich ist, Analysen
0:13:26.689,0:13:32.110
durchzuführen, die vorher in der Form[br]nicht durchführbar waren. Und während wir
0:13:32.110,0:13:35.529
auf eure Analysen warten, zeigen wir euch[br]ein paar Analysen, die wir schon mal
0:13:35.529,0:13:39.710
durchgeführt haben, um euch eine kleine[br]Inspiration zu geben, was denn eigentlich
0:13:39.710,0:13:44.240
möglich ist. Und an dieser Stelle ein[br]kleiner Disclaimer: Alles, was wir jetzt
0:13:44.240,0:13:48.640
gleich zeigen, dient als Inspiration. Wir[br]haben die Analysen mit größter Sorgfalt
0:13:48.640,0:13:53.390
durchgeführt. Aber es ist keine[br]politikwissenschaftliche Forschung. Und
0:13:53.390,0:13:56.529
gerade weil wir jetzt über Politik[br]sprechen, sollten wir an dieser Stelle ein
0:13:56.529,0:13:59.959
bisschen vorsichtig sein. Wir sind uns[br]weitestgehend sicher, dass die Ergebnisse,
0:13:59.959,0:14:03.870
die wir euch präsentieren, sehr plausibel[br]und weitestgehend korrekt sein werden.
0:14:03.870,0:14:08.029
Aber wie gesagt, das ist jetzt keine[br]politikwissenschaftliche Forschung, das
0:14:08.029,0:14:11.320
ist nicht durch ein Peer Review Prozess[br]gegangen. Soweit als kleiner Disclaimer
0:14:11.320,0:14:17.980
dazu. Okay, wir gucken uns jetzt folgend[br]zwei große Themen an, die in der
0:14:17.980,0:14:22.790
Geschichte der Bundesrepublik ziemlich[br]große Relevanz hatten. Und wir starten mit
0:14:22.790,0:14:27.120
dem Thema Datenschutz. Und wir könnten[br]jetzt dieses Thema so untersuchen, wie es
0:14:27.120,0:14:31.829
traditionell bisher immer möglich war. Das[br]heißt, wir schauen uns mal an, wie oft
0:14:31.829,0:14:36.960
eigentlich das Wort Datenschutz in den[br]Plenarsitzungen gesagt wurde. Und wenn wir
0:14:36.960,0:14:41.980
das machen Sie das ungefähr so aus. Das[br]heißt, wir haben die erste Nennung des
0:14:41.980,0:14:47.881
Begriffs Datenschutz Anfang der siebziger[br]Jahre. Das würde ungefähr so passen, weil
0:14:47.881,0:14:53.250
in dem Zeitraum auch Hessen als erstes[br]Land oder sogar weltweit das erste
0:14:53.250,0:14:58.149
Datenschutzgesetz verabschiedet hat. Das[br]heißt, damals wurde der Begriff
0:14:58.149,0:15:03.490
anscheinend das erste Mal genutzt, auch im[br]Bundestag. Und ab dann ging es weiter. Wir
0:15:03.490,0:15:08.099
sehen einen kleinen Abfall in den 90ern,[br]einen Anstieg dann wieder in den 2000er
0:15:08.099,0:15:14.769
Jahren. Genau. Aber das ist eigentlich[br]noch nicht gut interpretierbar. Wir haben
0:15:14.769,0:15:17.200
jetzt einfach nur die Worthäufigkeiten.[br]Wir wissen nicht, wer hat das eigentlich
0:15:17.200,0:15:21.629
gesagt hat. Das heißt, an der Stelle[br]nutzen wir jetzt unseren Open Discourse
0:15:21.629,0:15:26.130
Korpus, um uns das ein bisschen genauer[br]anzuschauen. Was wir zusätzlich jetzt noch
0:15:26.130,0:15:31.850
gemacht haben, ist: Wir haben ein LDA[br]Topic Modeling trainiert. Das funktioniert
0:15:31.850,0:15:37.209
im Wesentlichen so, dass wir davon[br]ausgehen... bzw. ein LDA Topic Modeling
0:15:37.209,0:15:42.999
ist dafür da oder kann genutzt werden, um[br]latente Themen in Textkorpora zu
0:15:42.999,0:15:48.360
ermitteln. Und wir wollen uns ja das Thema[br]Datenschutz ansehen. Das heißt, wir müssen
0:15:48.360,0:15:52.219
versuchen, ein LDA Topic Modeling so zu[br]trainieren, dass wir dieses
0:15:52.219,0:15:56.410
Datenschutzthema auch finden in unseren[br]Daten. Natürlich nur, solange es da ist.
0:15:56.410,0:15:59.560
Glücklicherweise ist es tatsächlich da,[br]weil darüber ziemlich viel gesprochen
0:15:59.560,0:16:04.839
wurde. Das heißt, wenn wir jetzt[br]eigentlich untersuchen wollen, wie oder in
0:16:04.839,0:16:09.181
welchem Ausmaß über Datenschutz gesprochen[br]wurde im Bundestag, dann ist es natürlich
0:16:09.181,0:16:12.670
nicht bloß der Begriff Datenschutz[br]relevant. Sondern man kann auch über den
0:16:12.670,0:16:16.189
Datenschutz reden, dabei aber Begriffe[br]nutzen wie Informationsfreiheit,
0:16:16.189,0:16:20.670
Datenverarbeitung, Speicherung,[br]Privatsphäre usw.. Das heißt, es ist
0:16:20.670,0:16:25.509
eigentlich viel relevanter, dieses latente[br]Thema des Datenschutzes zu nutzen als
0:16:25.509,0:16:30.239
einen spezifischen Begriff. Dafür haben[br]wir das LDA Topic Modeling trainiert. Das
0:16:30.239,0:16:35.319
funktioniert im Wesentlichen so, dass wir[br]vorgegeben haben, was wir oder wie viele
0:16:35.319,0:16:40.189
Topics, spezifische Topics, wir im Korpus[br]erwarten. Da haben wir verschiedene
0:16:40.189,0:16:43.970
Nummern ausprobiert und bei[br]zweihundertfünfzig letztlich sehr
0:16:43.970,0:16:47.120
konsistente Themen gefunden. Und mit[br]diesem Model haben wir jetzt die weiteren
0:16:47.120,0:16:55.310
Analysen durchgeführt. Dieses LDA Topic[br]Modeling hat als Ergebnis, dass wir für
0:16:55.310,0:17:04.080
jeden Redebeitrag, den wir im Korpus[br]haben, Angaben darüber bekommen, wie der
0:17:04.080,0:17:10.600
prozentuale Anteil der jeweiligen 250[br]Themen in dieser Rede war. Das heißt, wir
0:17:10.600,0:17:16.180
haben genau 250 Zahlenwerte für jeden[br]Redebeitrag. Das ist das, was wir jetzt
0:17:16.180,0:17:22.030
folgend zusammen aggregieren und auf der[br]Y-Achse als Relevanz definieren. Genau das
0:17:22.030,0:17:26.890
ist jetzt auch erstmals möglich, weil wir[br]die einzelnen Redebeiträge als Dokumente
0:17:26.890,0:17:33.160
im LDA Topic Modeling nutzen können. Alles[br]klar. Zurück zum Thema Datenschutz. Okay,
0:17:33.160,0:17:38.090
wir plotten uns jetzt mal die[br]durchschnittlichen Gebrauch des ganzen
0:17:38.090,0:17:44.370
Thema Datenschutz im Plenar oder im[br]Verlauf der Plenarsitzungen. Und was uns
0:17:44.370,0:17:49.070
jetzt zum Beispiel schon mal auffällt,[br]ist, dass auch vor 1970 schon in einem
0:17:49.070,0:17:52.690
gewissen sehr geringen Maße über[br]Datenschutz-Themen gesprochen wurde. Der
0:17:52.690,0:17:57.050
Begriff Datenschutz wurde dabei jedoch[br]nicht genutzt. Wir sehen immer noch, dass
0:17:57.050,0:18:01.920
es quasi zwei große Phasen oder zwei große[br]Wellen gibt. Es gibt die erste Welle, die
0:18:01.920,0:18:08.220
ungefähr Mitte der 70er angefangen hat und[br]dann zum zum Ende der 80er Jahre abgeflaut
0:18:08.220,0:18:14.260
ist. Und wir haben eine zweite Welle, die[br]zum in den 2000er Jahren begonnen hat und
0:18:14.260,0:18:18.550
jetzt langsam wieder abflaut. Um zu[br]validieren, dass das, was wir jetzt hier
0:18:18.550,0:18:24.280
gefunden haben oder das, was uns das Topic[br]Model grad anzeigt, stimmt, haben wir mal
0:18:24.280,0:18:28.290
geschaut, was denn eigentlich in diesen[br]Zeiten so passiert ist. Und wenn wir uns
0:18:28.290,0:18:33.390
die 80er Jahre oder den Raum um die 80er[br]Jahre anschauen, sehen wir, dass derzeit
0:18:33.390,0:18:39.130
das Bundesdatenschutzgesetz, also das[br]erste Datenschutzgesetz auf nationaler
0:18:39.130,0:18:44.590
Ebene beschlossen wurde in Deutschland,[br]dass es die Volkszählungsboykotte gab. Es
0:18:44.590,0:18:51.010
sollte eine Volkszählung durchgeführt[br]werden und die sollte in dem Fall das
0:18:51.010,0:18:55.770
erste Mal digital die Daten der[br]Bevölkerung erfassen. Das hat natürlich
0:18:55.770,0:19:01.510
zur Boykotten, zu Protesten und zu Sorgen,[br]was denn eigentlich, welche Belange das
0:19:01.510,0:19:08.350
mit dem eigenen Datenschutz hat. Außerdem:[br]In der Zeit wurde der CCC gegründet. Es
0:19:08.350,0:19:15.290
gab ein ziemlich entscheidendes Urteil vom[br]Bundesverfassungsgericht, auch im Rahmen
0:19:15.290,0:19:19.160
dieser Volkszählung. Und in dem Rahmen[br]tauchte dann auch erstmals der Begriff der
0:19:19.160,0:19:23.680
informationellen Selbstbestimmung auf. Das[br]heißt, okay, an dem Rahmen oder in dem
0:19:23.680,0:19:27.140
Maße ist die erste Welle ziemlich[br]plausibel. Das wurde im Bundestag dann
0:19:27.140,0:19:30.770
offensichtlich auch sehr intensiv[br]besprochen. Danach ist das ein bisschen
0:19:30.770,0:19:35.910
abgeflaut. Wir haben einen kleinen Peak[br]ungefähr 1995, da wurde die europäische
0:19:35.910,0:19:41.100
Datenschutzrichtlinie verabschiedet. Aber[br]den richtigen Anstieg hatten wir dann erst
0:19:41.100,0:19:44.930
zur zweiten Welle. Da kamen dann[br]Diskussionen auf wie Zensursula und die
0:19:44.930,0:19:51.590
DSGVO. Also bei Zensursula wurde halt[br]diskutiert, inwiefern der Staat eigentlich
0:19:51.590,0:19:57.420
das Recht hat, Inhalte im Internet zu[br]zensieren. Auf der anderen Seite wurde
0:19:57.420,0:20:04.530
auch sehr, sehr stark diskutiert, ob der[br]Staat eigentlich das Recht hat,
0:20:04.530,0:20:08.420
Hausdurchsuchungen auf den eigenen[br]Rechnern quasi durchzuführen. Das heißt,
0:20:08.420,0:20:11.321
die zwei Wellen, die wir jetzt hier sehen,[br]die sind ziemlich plausibel. Das waren
0:20:11.321,0:20:16.800
tatsächlich die Zeiten, in denen die[br]Debatte um den Datenschutz ziemlich stark
0:20:16.800,0:20:22.290
ausgeführt wurde. Okay, jetzt schauen wir[br]uns mal an, welche Dimension wir
0:20:22.290,0:20:25.470
eigentlich dazu packen können, um[br]vielleicht mehr Informationen darüber zu
0:20:25.470,0:20:29.380
bekommen, wie das denn diskutiert wurde[br]und welche Partei sich mehr und welche
0:20:29.380,0:20:35.580
Partei sich weniger darum gekümmert hat um[br]dieses Thema. Und dazu haben wir uns mal
0:20:35.580,0:20:41.460
angeschaut, wie die historisch zwei großen[br]Parteien in Deutschland diese Themen
0:20:41.460,0:20:46.440
behandelt haben. Zuerst haben wir uns die[br]CDU angeschaut und wir sehen, dass die CDU
0:20:46.440,0:20:51.300
in der ersten Welle deutlich[br]überdurchschnittlich über das Thema
0:20:51.300,0:20:56.950
Datenschutz gesprochen hat, im Plenarsaal,[br]in der zweiten Welle aber deutlich
0:20:56.950,0:21:01.320
unterdurchschnittlich. Im Vergleich dazu[br]haben wir uns dann mal angeschaut, wie die
0:21:01.320,0:21:06.020
SPD drüber gesprochen hat. Die SPD hat der[br]ersten Welle unterdurchschnittlich viel
0:21:06.020,0:21:12.120
über Datenschutz gesprochen oder hatte in[br]ihren Reden deutlich weniger Datenschutz
0:21:12.120,0:21:16.620
aufgegriffen. In der zweiten Welle oder im[br]Beginn der zweiten Welle ein bisschen
0:21:16.620,0:21:20.730
überdurchschnittlich, dann hat es aber[br]deutlich abgeflacht. Das könnte - wird
0:21:20.730,0:21:26.090
höchstwahrscheinlich damit zu tun haben,[br]dass während der ersten Welle die SPD in
0:21:26.090,0:21:30.920
der Regierung war und die CDU nicht, dass[br]die CDU das deshalb vielleicht als
0:21:30.920,0:21:37.650
relevanter angesehen hat, das Thema[br]Datenschutz intensiver zu besprechen. In
0:21:37.650,0:21:42.350
der zweiten Welle sehen wir, dass zum[br]Beginn der zweiten Welle die SPD noch eine
0:21:42.350,0:21:46.710
Opposition war. Aktuell ist sie natürlich[br]mit in der Regierung. Das könnte die
0:21:46.710,0:21:50.680
Bewegung erklären, warum zu Beginn der[br]zweiten Welle die SPD leicht
0:21:50.680,0:21:56.480
überdurchschnittlich oder das Thema[br]Datenschutz leicht überdurchschnittlich
0:21:56.480,0:22:02.700
relevant fand, dann aber zunehmend[br]weniger. Wir plotten mal noch zwei andere
0:22:02.700,0:22:08.550
spannende Parteien dazu, nämlich die FDP[br]und die Grünen. Da können wir nämlich
0:22:08.550,0:22:14.720
ablesen, dass diese zwei[br]Oppositionsparteien, zumindest in der
0:22:14.720,0:22:20.940
Zeit, dass diese zwei Parteien auch nach[br]dem Abflauen der ersten Welle die Relevanz
0:22:20.940,0:22:25.720
aufrecht erhalten haben. Das heißt, diese[br]zwei Parteien hatten das Thema trotzdem
0:22:25.720,0:22:30.550
weiter im Fokus gehalten. Okay, schauen[br]wir uns eine andere Dimension an. Wir
0:22:30.550,0:22:34.360
schauen uns mal an, wie das vielleicht mit[br]dem Alter zu tun haben könnte. Und zwar
0:22:34.360,0:22:40.760
haben wir das Alter der Politiker:in nach[br]dem Durchschnitt ungefähr geteilt. Das
0:22:40.760,0:22:44.170
heißt, das Durchschnittsalter des[br]Bundestags aktuell liegt ungefähr bei 50
0:22:44.170,0:22:47.580
Jahren. Und so haben wir jetzt[br]unterschieden nach eher jüngeren
0:22:47.580,0:22:52.590
Politikern, die unter 50 Jahre zum[br]Zeitpunkt der Rede waren und älteren
0:22:52.590,0:22:57.660
Politikern, die älter als 50 waren zum[br]Zeitpunkt der Rede. Und hier sehen wir,
0:22:57.660,0:23:03.350
dass die jüngeren Politiker das Thema[br]Datenschutz deutlich relevanter finden als
0:23:03.350,0:23:08.540
die älteren. Okay, als letzte Dimension[br]schauen wir uns jetzt nochmal an, ob das
0:23:08.540,0:23:14.570
dann vielleicht auch ein Zusammenhang mit[br]dem akademischen Grad hat bzw. ob eine
0:23:14.570,0:23:21.160
Politikerin oder ein Politiker einen[br]Doktortitel trägt. Und an der Stelle sehen
0:23:21.160,0:23:26.550
wir das, wenn eine Politiker:in einen[br]Doktortitel trägt, das dann tendenziell
0:23:26.550,0:23:31.360
überdurchschnittlich über Datenschutz[br]gesprochen wird, als wenn die Person
0:23:31.360,0:23:36.750
keinen Doktortitel hat. Man könnte jetzt[br]versuchen, das irgendwie zusammenzufassen.
0:23:36.750,0:23:40.040
Beispielsweise könnte man versuchen, das[br]so zu interpretieren, dass wenn man
0:23:40.040,0:23:43.641
möchte, dass im Plenarsaal viel über[br]Datenschutz gesprochen wird, dann sollte
0:23:43.641,0:23:49.740
man Oppositionsparteien wählen, die eher[br]jüngere Leute hat. Und diese jüngeren
0:23:49.740,0:23:53.850
Leuten sollten vielleicht eher einen[br]Doktortitel tragen, vielleicht aber auch
0:23:53.850,0:23:59.050
nicht. Genau. Aber genau. Diese[br]Auswertungen waren vorher nicht möglich.
0:23:59.050,0:24:02.170
Und jetzt könnte man reinschauen und[br]gucken: Okay, was steckt denn da
0:24:02.170,0:24:06.090
eigentlich drin? Welche Bewegungen stecken[br]denn in diesen Daten? Wir wollen jetzt
0:24:06.090,0:24:11.490
nochmal zwei Personen krönen, die sich[br]sehr verdient gemacht haben, also die sehr
0:24:11.490,0:24:15.570
oder die höchste Relevanzwerte hatten für[br]das Thema Datenschutz in der ersten und in
0:24:15.570,0:24:20.430
der zweiten Welle. In der ersten Welle[br]geht diese Auszeichnung an Burkhard
0:24:20.430,0:24:24.920
Hirsch, der insbesondere zum ersten in der[br]ersten Phase der ersten Welle
0:24:24.920,0:24:30.280
Innenminister war und sich ganz stark[br]gegen staatliche Überwachung eingesetzt
0:24:30.280,0:24:34.710
hat. Das heißt, das klingt auch sehr[br]plausibel, dass unsere Analyse Burkhard
0:24:34.710,0:24:40.410
Hirsch hier als Vorreiter sieht. In der[br]zweiten Welle haben unsere Analysen
0:24:40.410,0:24:44.920
ergeben, dass das Gisela Piltz war, die[br]sich in besonderem Maße mit Datenschutz
0:24:44.920,0:24:49.270
auseinandergesetzt hat. Und Gisela Piltz[br]hat sich ganz... oder setzt sich ganz
0:24:49.270,0:24:55.090
stark gegen die Vorratsdatenspeicherung[br]ein. Also von daher wirkt auch das
0:24:55.090,0:25:00.760
ziemlich plausibel. Genau. Das wäre jetzt[br]das Beispiel Datenschutz, das wir
0:25:00.760,0:25:04.520
aufbereitet haben, um zu gucken: Okay, was[br]könnte in diesen Daten denn drinstecken
0:25:04.520,0:25:07.900
und welche spannenden Fragen könnte man[br]denn damit eigentlich stellen und
0:25:07.900,0:25:13.280
potenziell auch beantworten? Jetzt haben[br]wir uns noch ein zweites großes Thema
0:25:13.280,0:25:16.260
angeschaut, was gerade in den letzten[br]Jahren ganz, ganz stark an Relevanz
0:25:16.260,0:25:21.320
gewonnen hat. Und da wird euch Philipp[br]jetzt mal erzählen, was wir da so gefunden
0:25:21.320,0:25:23.640
haben.[br]Philipp: Genau. Also wir kommen nochmal
0:25:23.640,0:25:28.331
ein bisschen vom Datenschutz zum[br]Klimaschutz und stellen uns so ein
0:25:28.331,0:25:33.620
bisschen den gleichen methodischen Ansatz.[br]Also wir gucken mal, wie das reine Wort
0:25:33.620,0:25:37.080
Klimaschutz verwendet wurde. Und wir[br]stellen fest, dass das Wort Klimaschutz
0:25:37.080,0:25:41.831
eigentlich ein relativ neuer Begriff ist.[br]Ab den 2000ern. Aber zurück zu dem, was
0:25:41.831,0:25:45.570
Florian gerade eben schon gesagt hat Die[br]reine Analyse einzelner Begriffe ist noch
0:25:45.570,0:25:50.050
nicht ausreichend, um diesen Themenkomplex[br]und die latenten Grundstrukturen darunter
0:25:50.050,0:25:54.791
zu erfassen. Deswegen reicht dieser[br]Begriff Klimaschutz nicht, sondern wir
0:25:54.791,0:25:58.540
haben auch hier wieder ein automatisiertes[br]LDA Topic Modeling verwendet, was uns
0:25:58.540,0:26:02.920
hunderte Begriffe automatisiert findet,[br]die da reinpassen. Also natürlich kann ich
0:26:02.920,0:26:06.580
über Klimaschutz reden, ohne den Begriff[br]Klimaschutz zu verwenden. Ich kann über
0:26:06.580,0:26:10.400
das Emissionsschutzgesetz sprechen. Ich[br]kann über Nachhaltigkeit, über erneuerbare
0:26:10.400,0:26:14.111
Energien reden, ohne auch nur einmal das[br]Wort Klimaschutz zu verwenden. Dieses
0:26:14.111,0:26:18.560
Thema also voll fokussieren. Deswegen[br]haben wir daraus ein Thema gemacht und
0:26:18.560,0:26:22.140
gucken uns jetzt diesen ganzen Komplex an[br]und nicht mehr nur den Begriff. Wenn wir
0:26:22.140,0:26:27.890
das tun, dann stellen wir fest, dass seit[br]1949 dieses Thema nicht erst in den
0:26:27.890,0:26:31.730
2000ern an Relevanz gewonnen hat, sondern[br]auch früher schon da war. Wenn ich jetzt
0:26:31.730,0:26:34.900
auch hier wieder so ein bisschen die[br]Wegmarker setze, dann kann ich auch das
0:26:34.900,0:26:39.690
validieren. Also die ersten[br]Umweltprogramme von Willy Brandt 1970, der
0:26:39.690,0:26:45.870
Einzug der Grünen in den Bundestag, die[br]Atomkatastrophe von Tschernobyl. Wir haben
0:26:45.870,0:26:50.740
danach in den 90ern, das ist auch relativ[br]plausibel, ein Abschwachen dieses Themas,
0:26:50.740,0:26:53.330
denn wir hatten gerade in der[br]Wiedervereinigung dann
0:26:53.330,0:26:57.010
Verteilungskonflikte, die so ein bisschen[br]relevanter wurden. Dadurch ist das Thema
0:26:57.010,0:27:02.330
des Klimawandels und des Klimaschutzes so[br]ein bisschen hinten runtergefallen. Wir
0:27:02.330,0:27:06.379
haben weitere Punkte - wir haben die rot[br]grüne Regierung von Schröder und Fischer
0:27:06.379,0:27:11.460
2000, so Richtung 2000 2005. Wir haben[br]Fukushima und die Energiewende. Wir haben
0:27:11.460,0:27:15.640
das Pariser Klimaschutzabkommen. Und wir[br]sehen jetzt auch schon diesen Drall nach
0:27:15.640,0:27:20.410
oben, insbesondere durch Fridays For[br]Future und die neue Auseinandersetzung mit
0:27:20.410,0:27:23.750
der Einhaltung des Pariser[br]Klimaschutzabkommens. Was wir jetzt hier
0:27:23.750,0:27:27.360
wieder machen können, ist: Wir können uns[br]wieder angucken, wie einzelne Parteien
0:27:27.360,0:27:30.490
denn eigentlich darüber reden. Und wir[br]können feststellen, dass die CDU ziemlich
0:27:30.490,0:27:34.140
durchschnittlich über dieses Thema redet.[br]In den letzten Jahren sogar deutlich
0:27:34.140,0:27:37.100
abfallend, also deutlich[br]unterdurchschnittlich. Gerade seit dem
0:27:37.100,0:27:41.410
Pariser Klimaschutzabkommen ist das Thema[br]für die CDU nicht mehr ganz so relevant
0:27:41.410,0:27:45.720
vielleicht. Wir können die SPD plotten,[br]das sieht auch ganz durchschnittlich aus.
0:27:45.720,0:27:49.230
Bei der FDP sieht es auch ganz[br]durchschnittlich aus, bei den Linken sogar
0:27:49.230,0:27:52.880
ein Stück unterdurchschnittlich. Und so[br]ein bisschen wie erwartet sind es die
0:27:52.880,0:27:57.280
Grünen, die dieses Thema extrem pushen und[br]die diesen Diskurs sehr, sehr hoch halten.
0:27:57.280,0:28:02.190
Das heißt, die Grünen ziehen hier deutlich[br]den den Rolling Mean nach oben und steuern
0:28:02.190,0:28:06.170
dieses Thema ganz stark. Wir können aber[br]auch hier noch ein bisschen weiter
0:28:06.170,0:28:09.010
reingucken, nämlich: Wer sind das denn?[br]Sind es die jüngeren oder sind es die
0:28:09.010,0:28:12.890
älteren Politiker? Wenn ich mir hier das[br]mal angucke, dann stelle ich fest, dass
0:28:12.890,0:28:17.140
die mittelalten Politiker zwischen 39 und[br]59 sich mit dem Thema sehr
0:28:17.140,0:28:21.420
durchschnittlich auseinandersetzen. Und so[br]ein bisschen wie erwarten kann ich mir
0:28:21.420,0:28:25.220
dann entsprechend vorstellen, dass sich[br]ältere Politiker über 60 mit diesem Thema
0:28:25.220,0:28:30.080
sehr gering, sehr unterdurchschnittlich[br]auseinandersetzen und jüngere
0:28:30.080,0:28:35.110
Politikerinnen unter 39 sich mit diesem[br]Thema deutlich stärker auseinandersetzen.
0:28:35.110,0:28:39.390
Wir sehen auch hier nicht nur eine[br]stärkere Auseinandersetzung, sondern eben
0:28:39.390,0:28:43.190
auch eine frühere Auseinandersetzung.[br]Während bei älteren Politikerinnen diese
0:28:43.190,0:28:46.500
Auseinandersetzung immer zeitlich rechts[br]versetzt ist und immer deutlich weniger
0:28:46.500,0:28:51.050
intensiv ist. Wir können mit dem Open[br]Discourse Datensatz die Stammdaten des
0:28:51.050,0:28:54.670
Deutschen Bundestages anzapfen und noch[br]ein kleines Stück tiefer gehen. Wir können
0:28:54.670,0:28:59.120
nämlich die Berufe der Abgeordneten[br]auswerten. Jeder Abgeordnete gibt seinen
0:28:59.120,0:29:04.480
Beruf oder seinen seinen beruflichen[br]Hintergrund an. Und diese Daten können wir
0:29:04.480,0:29:08.390
auswerten. Wir haben über 1 000 unique[br]Berufsbezeichnungen von über 4 000
0:29:08.390,0:29:11.760
Politiker:innen. Wenn ich mir die jetzt[br]hier mal so angucke, dann sind es Ärzte
0:29:11.760,0:29:16.460
und Apotheker und Unternehmer und[br]Landwirte und Buchhalter:innen. Und wenn
0:29:16.460,0:29:21.920
ich das so ein bisschen cluster, dann hab[br]ich jetzt für die folgende Analyse mal 12
0:29:21.920,0:29:25.900
Berufsgruppen gefiltert. Und jetzt kann[br]man sich angucken, welche Berufsgruppen
0:29:25.900,0:29:30.090
denn dieses Thema besonders stark[br]fokussieren. Und was auch wieder sehr
0:29:30.090,0:29:33.450
erwartbar ist, ist, dass die[br]Naturwissenschaftler:innen dieses Thema
0:29:33.450,0:29:37.850
deutlich stärker fokussieren, als andere[br]das tun. Also das Thema ist sehr
0:29:37.850,0:29:44.940
exorbitant getragen durch Physiker:innen,[br]durch Biolog:innen, durch alle Personen,
0:29:44.940,0:29:49.330
die irgendwie einen Berufshintergrund in[br]dem Feld der Naturwissenschaften haben.
0:29:49.330,0:29:54.840
Ich habe uns hier immer noch die[br]Agrarwirte dazu geplottet. Also alle
0:29:54.840,0:29:59.130
Landwirte und alle Forstwirte und die, die[br]Bauer oder Bäuerin als Berufsbezeichnung
0:29:59.130,0:30:04.140
angegeben haben. Wir sehen, dass es in der[br]ersten Welle der Klimadebatte noch sehr
0:30:04.140,0:30:10.130
relevant war und jetzt grad so Richtung[br]der neueren Zeit für die Landwirte ein
0:30:10.130,0:30:13.870
unterdurchschnittlich relevantes Thema[br]geworden ist. Und wir können feststellen,
0:30:13.870,0:30:18.290
dass die, die eine Berufsbezeichnung im[br]Wirtschaftsfeld angegeben haben, sich mit
0:30:18.290,0:30:21.780
diesem Thema auch auseinandersetzen.[br]Allerdings deutlich weniger intensiv und
0:30:21.780,0:30:25.350
auch wieder rechts verlagert, also[br]zeitlich zurück verlagert, nachdem sich
0:30:25.350,0:30:30.550
die Naturwissenschaftler:innen mit diesem[br]Thema zuerst auseinandergesetzt haben. Was
0:30:30.550,0:30:34.830
können wir feststellen oder was könnten[br]wir mal so ein bisschen uns angucken? Wir
0:30:34.830,0:30:37.550
können uns angucken, was denn eigentlich[br]die perfekte Gruppe ist, um sich mit dem
0:30:37.550,0:30:40.890
Thema Klimaschutz auseinanderzusetzen und[br]diese perfekte Trennlinie zwischen der
0:30:40.890,0:30:44.970
perfekten Gruppe von Abgeordneten und der[br]schlechtesten Gruppe von Abgeordneten, die
0:30:44.970,0:30:49.610
macht sich ziemlich einfach am Geschlecht[br]und an dem Alter fest. Wenn ich also mir
0:30:49.610,0:30:53.472
mal angucke, wie sich alte männliche[br]Politiker mit dem Thema auseinandersetzen
0:30:53.472,0:30:57.740
im Vergleich zu jungen weiblichen[br]Politikerinnen, dann stelle ich fest, dass
0:30:57.740,0:31:01.130
wir da sowohl wieder eine frühere[br]Auseinandersetzung mit diesem Thema haben.
0:31:01.130,0:31:04.590
Wir haben eine intensivere[br]Auseinandersetzung mit dem Thema und für
0:31:04.590,0:31:08.550
ältere Politiker, in diesem Fall jetzt[br]hier über 60, ist die Auseinandersetzung
0:31:08.550,0:31:15.620
wirklich sehr weit unter dem Durchschnitt[br]des Parlaments. Wir können uns also hier
0:31:15.620,0:31:19.060
vielleicht ein bisschen überlegen, welche[br]Person wir denn ganz gerne im Bundestag
0:31:19.060,0:31:25.030
hätten, um progressive Themen, so auch den[br]Datenschutz stärker zu treiben. Wir können
0:31:25.030,0:31:28.240
auch hier im Klimawandel wieder die Top[br]Runner identifizieren, das können wir
0:31:28.240,0:31:31.740
beliebig operationalisieren. Wir haben uns[br]immer die Vielredner genommen. Also
0:31:31.740,0:31:35.590
Politiker:innen mit mehr als 500 Reden.[br]Und haben dann geguckt: Welche haben denn
0:31:35.590,0:31:40.430
den höchsten Klima-Score auf dieses Topic?[br]Tatsächlich ist es Angela Merkel, die als
0:31:40.430,0:31:44.070
Vielrednerin sich mit diesem Thema am[br]stärksten auseinandergesetzt haben. Wir
0:31:44.070,0:31:47.100
wollten uns aber auch nochmal einen[br]Newcomer angucken, in großen
0:31:47.100,0:31:52.100
Anführungszeichen, also Politiker:innen[br]mit 100 bis 500 Reden. Und da ist es Julia
0:31:52.100,0:31:54.940
Verlinden von den Grünen, die sich am[br]stärksten mit diesem Thema
0:31:54.940,0:31:59.080
auseinandersetzt. Das ganze Fridays For[br]Future hat immer auch das... geht es immer
0:31:59.080,0:32:04.531
viel um das Schwänzen und um das[br]Fernbleiben von Inhalten. Und wir haben
0:32:04.531,0:32:08.160
uns deswegen mal angeguckt, wer denn so[br]die großen Klimaschwänzer sind im
0:32:08.160,0:32:12.140
Deutschen Bundestag. Das haben wir[br]operationalisiert, indem wir gesagt haben,
0:32:12.140,0:32:16.256
wir wollen nicht den Politiker, die[br]Politikerin mit dem geringsten Wert über
0:32:16.256,0:32:19.650
die gesamte Zeit finden, sondern wir[br]wollen so einen Punkt nehmen, ab dem die
0:32:19.650,0:32:23.610
Klimadebatte wohl in aller Munde sein[br]müsste. Und wir haben dafür den ersten
0:32:23.610,0:32:30.360
Global Climate Strike genommen, am 19., am[br]15. März 2019. Und wir haben dann von den
0:32:30.360,0:32:34.810
Politikern geguckt, die die Gelegenheit[br]hatten, darüber zu reden. Also die
0:32:34.810,0:32:39.400
mindestens 40 Redebeiträge seitdem hatten,[br]wie sie sich damit auseinandersetzen. Wir
0:32:39.400,0:32:42.251
stellen fest, dass diejenigen, die sich am[br]wenigsten damit auseinandersetzen, drei
0:32:42.251,0:32:46.860
Männer sind, alle aus der gleichen[br]Fraktion. Wir haben also Volker Ullrich,
0:32:46.860,0:32:50.710
der sich trotz Gelegenheit am wenigsten[br]damit auseinandersetzt. Wir haben Thorsten
0:32:50.710,0:32:54.390
Frei, der sich trotz Gelegenheit am[br]zweitwenigsten damit auseinandersetzt. Und
0:32:54.390,0:32:58.210
wir haben hier auch den Spätzünder im[br]Klimathema, Philipp Amthor, der sich trotz
0:32:58.210,0:33:01.320
sehr vieler Reden nie mit diesem Thema[br]oder sehr selten mit diesem Thema
0:33:01.320,0:33:04.930
auseinandersetzt. Wichtig ist hier[br]vielleicht noch zu sagen, dass wir nicht
0:33:04.930,0:33:08.950
die reinen Reden zum Klimawandel zählen,[br]sondern dass allein die Verwendung von den
0:33:08.950,0:33:12.830
relevanten Begriffen, um dieses Thema ein[br]bisschen z.B. in Steuer- oder in
0:33:12.830,0:33:16.510
Haushaltsdebatten zu bringen, hier gezählt[br]wird. Also wir haben eine sehr komplexe
0:33:16.510,0:33:23.710
Betrachtung des gesprochenen Wortes.[br]Florian: Genau. Soviel erst einmal zu
0:33:23.710,0:33:28.500
einigen Analysen, die wir bisher[br]durchgeführt haben. Wie bereits
0:33:28.500,0:33:33.870
angesprochen ist unser eigentliches Ziel[br]ja aber, dass ihr und alle anderen auch
0:33:33.870,0:33:39.531
Analysen jetzt mit diesen Daten[br]durchführen können und auf unserem Weg bis
0:33:39.531,0:33:43.330
zur Veröffentlichung, die jetzt im Rahmen[br]oder auch zu genau dieser Zeit, wenn wir
0:33:43.330,0:33:49.840
diesen Vortrag halten, passiert, haben[br]schon andere Partner und Partnerinnen, mit
0:33:49.840,0:33:53.260
denen wir zusammengearbeitet haben oder[br]die mit unseren Daten schon arbeiten
0:33:53.260,0:33:56.151
konnten, ein paar Analysen durchgeführt[br]oder sind gerade dabei, diese Analysen
0:33:56.151,0:34:00.850
noch durchzuführen. Beispielsweise[br]CorrelAid, CorrelAid ist ein Netzwerk von
0:34:00.850,0:34:06.250
freiwilligen Data Scientists. Und bei[br]CorrelAid haben sich zwei Projektteams
0:34:06.250,0:34:09.790
zusammengefunden, die mit unseren Daten[br]schon seit einiger Zeit ein bisschen herum
0:34:09.790,0:34:14.240
arbeiten. Und die werden auch bald ihre[br]Ergebnisse und Analysen veröffentlichen.
0:34:14.240,0:34:18.399
Die findet ihr dann zum einen in den[br]entsprechenden Kanälen von CorrelAid. Auf
0:34:18.399,0:34:21.750
der anderen Seite werden wir die auch bei[br]uns auf unserer Open Discourse Website
0:34:21.750,0:34:28.040
dann zu gegebener Zeit einbetten. Ein paar[br]Sachen, die da beispielsweise schon
0:34:28.040,0:34:33.710
gemacht wurden, ist Ann-Kristin Vester hat[br]sich angeschaut, wie eigentlich die
0:34:33.710,0:34:38.970
Geschlechter im Bundestag auftreten, wie[br]die, wie der Sprachgebrauch sich
0:34:38.970,0:34:42.870
unterscheidet. An der Stelle auch[br]nochmal kurz hier der Hinweis bei allen
0:34:42.870,0:34:46.630
Analysen, die wir bisher durchgeführt[br]haben: Wir betrachten Geschlecht bisher
0:34:46.630,0:34:51.020
immer binär, weil der Bundestag das nicht[br]anders hergibt. Es gibt bloß eine binäre
0:34:51.020,0:34:55.220
Geschlechtseinteilung. Deswegen mussten[br]wir das in den Analysen auch so vornehmen
0:34:55.220,0:34:58.970
und das ist auch der Artikel, den Ann-[br]Kristin Vester geschrieben hat, das ist
0:34:58.970,0:35:04.470
auch dort mit erwähnt. Also eine tiefere[br]oder eine diversere Untersuchung von den
0:35:04.470,0:35:09.640
Geschlechtern im Bundestag ist aktuell[br]leider noch nicht möglich. Genau. Eine
0:35:09.640,0:35:13.670
andere Analyse wurde von Alexandra Wörner[br]durchgeführt. Alexandra Wörner hat sich
0:35:13.670,0:35:17.100
angeschaut, wie denn eigentlich über[br]Diskriminierung im Bundestag gesprochen
0:35:17.100,0:35:21.040
wurde, von welchen Parteien das wie[br]intensiv benutzt wurde oder darüber
0:35:21.040,0:35:25.240
gesprochen wurde und wie sich das über den[br]zeitlichen Verlauf verändert hat. Auch
0:35:25.240,0:35:29.870
ziemlich spannend. Ein anderes Projekt,[br]das bereits mit unseren Daten durchgeführt
0:35:29.870,0:35:34.361
wurde, kam von ZDF heute.[br]Datenjournalist:innen von ZDF Heute hatten
0:35:34.361,0:35:39.620
uns Frühsommer/Sommer angeschrieben und[br]gefragt, ob sie unsere Daten nicht schon
0:35:39.620,0:35:45.800
vor Veröffentlichung mal haben könnten, um[br]zu schauen, ob sie diese Daten für einen
0:35:45.800,0:35:51.380
Artikel schon nutzen könnten. Und daraus[br]ist ein Artikel entstanden, in dem sich
0:35:51.380,0:35:55.950
die Journalist:innen damit[br]auseinandergesetzt haben, wie der
0:35:55.950,0:36:01.530
Bundestag denn eigentlich über Pandemien[br]und über das Coronavirus im speziellen
0:36:01.530,0:36:06.150
unterhalten hat oder wie das debattiert[br]wurde. Das Ergebnis war eher, dass der
0:36:06.150,0:36:09.360
Bundestag da nicht besonders viel[br]Aufmerksamkeit draufgelegt hat. Auch ein
0:36:09.360,0:36:14.790
sehr spannender Artikel. Und als letztes[br]wollen wir noch kurz das Projekt Open
0:36:14.790,0:36:20.660
Parliament TV eher anteasern, weil der[br]offizielle Veröffentlichungstermin ist für
0:36:20.660,0:36:26.860
Mai 2021 vorgesehen. Open Parliament TV[br]hat als Kernziel eigentlich ein sehr
0:36:26.860,0:36:32.201
ähnliches Ideal wie wir bei Open[br]Discourse. Es geht darum, den Bundestag
0:36:32.201,0:36:37.430
transparenter zu machen. Open Parliament[br]TV hat dabei das Ziel, die
0:36:37.430,0:36:41.830
Videomitschnitte der Plenardebatten mit[br]den entsprechenden Transkripten, also
0:36:41.830,0:36:46.730
Plenarprotokollen zusammenzuführen, um[br]darüber eine noch viel wirksamere oder
0:36:46.730,0:36:52.001
detailliertere Recherchefunktion zu[br]ermöglichen. Und an der Stelle wird
0:36:52.001,0:36:56.570
gerade evaluiert, wie die Daten von Open[br]Discourse diesem Projekt noch weiter
0:36:56.570,0:37:06.250
helfen können. Genau. Und jetzt wieder zu[br]euch. Wie gerade schon angesprochen sind
0:37:06.250,0:37:11.900
unsere Daten ab sofort und unserer Source[br]Code komplett öffentlich verfügbar. Das
0:37:11.900,0:37:15.870
heißt, ihr habt jetzt die Möglichkeit, mit[br]diesen Daten zu machen, was ihr wollt. Wir
0:37:15.870,0:37:20.370
haben bei der Veröffentlichung das Ziel[br]gehabt, die so verfügbar wie möglich zu
0:37:20.370,0:37:26.700
machen und haben dabei auf drei große[br]Säulen versucht zu achten. Die erste Säule
0:37:26.700,0:37:31.640
dabei sind die Techniker:innen unter euch,[br]also alle Techniker:innen unter euch. Ihr
0:37:31.640,0:37:37.170
könnt euch unsere GitHub Seite anschauen[br]von Open Discourse und dort findet ihr
0:37:37.170,0:37:40.400
natürlich den Source Code. Ihr könnt das[br]alles auschecken, lokal bei euch
0:37:40.400,0:37:43.980
aufsetzen, überprüfen, wie wir eigentlich[br]vorgegangen sind, verbessern,
0:37:43.980,0:37:50.400
Schwachstellen finden. Außerdem findet ihr[br]auf der GitHub Seite auch einen Docker
0:37:50.400,0:37:55.051
Container, wo die komplette Datenbank als[br]Image vorliegt, d.h. die könnt ihr euch
0:37:55.051,0:38:00.770
auch sofort aufsetzen oder halt nochmal[br]neu generieren lassen, wenn ihr wollt. Für
0:38:00.770,0:38:05.560
die Analytiker:innen und die[br]Wissenschaftler:innen unter euch haben wir
0:38:05.560,0:38:11.280
ein Harvard Dataverse angelegt. Dort[br]findet ihr die aktuelle Version unserer
0:38:11.280,0:38:15.430
Datenbank als Data Dump und wir haben das[br]in vier verschiedenen Dateiformaten
0:38:15.430,0:38:21.050
bereitgestellt als CSV, Feather, Pickle[br]und RDS-Files, damit ihr je nachdem, womit
0:38:21.050,0:38:26.400
ihr am liebsten arbeitet, genau das[br]perfekte Dateiformat für euch findet. Und
0:38:26.400,0:38:31.900
als letztes haben wir noch für quasi Quick[br]Reviews oder schnelle Recherchen auf
0:38:31.900,0:38:36.250
unserer Webseite eine Volltextsuche mit[br]Filter-Option bereitgestellt. Da könnt ihr
0:38:36.250,0:38:44.420
also nach Stichworten, nach[br]Parteizugehörigkeit, nach den Namen der
0:38:44.420,0:38:50.450
Politiker, nach Datum usw. filtern und[br]schauen, ob euch was spannendes auffällt
0:38:50.450,0:38:59.430
oder ob ihr eure Fragen beantworten könnt.[br]Genau. So viel dann erst mal von uns. Wir
0:38:59.430,0:39:04.310
bedanken uns ganz, ganz herzlich für euer[br]Interesse und dass ihr uns zugehört habt.
0:39:04.310,0:39:07.360
Wir bedanken uns natürlich auch bei der C[br]Base dafür, dass wir das Video hier
0:39:07.360,0:39:12.060
aufnehmen konnten. Bei Fragen und[br]Anregungen schreibt uns gerne eine Mail
0:39:12.060,0:39:17.550
oder kontaktiert uns über die[br]einschlägigen Kanäle. Oder wir sprechen
0:39:17.550,0:39:26.280
uns dann gleich bei der Fragerunde. Alles[br]klar. Vielen Dank. Danke schön.
0:39:26.280,0:39:30.640
Herald: Wir sind nun mit den Sprechern[br]verbunden, sind uns zugeschaltet für
0:39:30.640,0:39:33.871
Fragen und Antworten, die uns zugespielt[br]worden sind. Herzlich willkommen!
0:39:33.871,0:39:39.470
Philipp & Florian: Hallo![br]Herald: Die zweite Welle des Datenschutzes ist
0:39:39.470,0:39:43.510
ja angesichts der Zeit gerade die perfekte[br]Metapher. Wie lange wird die zweite Welle
0:39:43.510,0:39:48.730
des Datenschutzes wohl noch gehen?[br]Florian: Ja, gute Frage. Keine Ahnung. Man
0:39:48.730,0:39:54.520
hat ja gesehen, dass es schon ein bisschen[br]bergab wieder geht, aber viel mehr kann
0:39:54.520,0:39:57.870
ich da eigentlich nicht zu sagen. Aber es[br]ist spannend, das jetzt im Auge behalten
0:39:57.870,0:40:00.610
zu können.[br]Herald: Ist auf jeden Fall auf absehbare
0:40:00.610,0:40:04.610
Zeit nicht mit einer Impfung zu rechnen.[br]Eine Frage, die uns zugespielt worden ist
0:40:04.610,0:40:10.960
über die Hashtags und über IRC, die wir[br]empfangen und die wir weitergeben, ist: Es
0:40:10.960,0:40:14.380
gibt noch einen weiteren Text Korpus. Ihr[br]habt jetzt den Deutschen Bundestag
0:40:14.380,0:40:17.890
analysiert, aber es gibt noch eine andere[br]legislative Kammer, die es lange Jahre
0:40:17.890,0:40:22.350
gab, nämlich die Volkskammer der DDR. Gibt[br]es dort überhaupt entsprechende Unterlagen
0:40:22.350,0:40:25.080
oder entsprechendes Material, das man[br]analysieren könnte?
0:40:25.080,0:40:30.350
Florian: Da bin ich mir gar nicht so[br]sicher. Also ich hab - also davon weiß ich
0:40:30.350,0:40:33.500
nichts. Wir hatten da jetzt auch gar nicht[br]so weiter reingeguckt. Wir hatten
0:40:33.500,0:40:36.270
natürlich, während wir an dem Projekt[br]gearbeitet hatten, schon überlegt, wie man
0:40:36.270,0:40:39.540
das alles noch weiterdenken könnte, was[br]man zusätzlich noch mit aufnehmen könnte.
0:40:39.540,0:40:43.820
Da war die Volkskammer auch schon mal im[br]Gespräch, aber wir sind da jetzt erstmal
0:40:43.820,0:40:47.990
nicht weiter rein gesprungen. Aber[br]prinzipiell wird das natürlich total
0:40:47.990,0:40:52.060
spannend, noch weiter in die Richtung zu[br]denken und das auch noch mit aufzunehmen.
0:40:52.060,0:40:57.330
Aber ich weiß gar nicht, ob es die[br]Plenarprotokolle da so auch detailliert
0:40:57.330,0:41:02.050
gibt. Genau. Wahrscheinlich wäre es auch[br]ein relativ großer Aufwand, könnte ich mir
0:41:02.050,0:41:05.850
vorstellen, die Regex Patterns, die wir[br]jetzt für den Bundestag aufbereitet haben,
0:41:05.850,0:41:11.700
auf die Volkskammer zu übertragen. Weil[br]wenn sich da... also im Prinzip basiert,
0:41:11.700,0:41:14.800
die Aufarbeitung, die wir gemacht haben[br]darauf, dass die Struktur in den
0:41:14.800,0:41:18.380
Plenarprotokollen einigermaßen ähnlich[br]bleibt, über die Legislaturperioden. Die
0:41:18.380,0:41:22.610
wird natürlich jedes Mal angepasst, wenn's[br]dann notwendig war. Auf der anderen Seite
0:41:22.610,0:41:27.250
brauchen wir die Stammdaten der[br]Politiker:innen, weil wir das für die
0:41:27.250,0:41:30.820
Fuzzy Matching Logiken nutzen, um zuweisen[br]zu können: Wer hat denn eigentlich was
0:41:30.820,0:41:35.040
gesagt? Total spannend, das für die[br]Volkskammer auch noch zu machen.
0:41:35.040,0:41:39.300
Vielleicht jetzt als nächster Schritt. Wir[br]sind erstmal froh, dass wir den Bundestag
0:41:39.300,0:41:42.670
fertig bekommen haben.[br]Herald: Auf jeden Fall. Gibt es denn
0:41:42.670,0:41:45.840
Wünsche, die ihr habt für die[br]Zugänglichkeit von Daten, die euch das
0:41:45.840,0:41:48.870
Leben oder anderen das Leben[br]einfacher machen würden, bei solchen
0:41:48.870,0:41:52.080
Auswertungen?[br]Philipp: Das ist glaube ich vor allem die
0:41:52.080,0:41:54.750
strukturierte Erfassung, also eigentlich[br]hätte der Bundestag selbst die
0:41:54.750,0:41:58.760
Möglichkeit, diese Daten von sich aus[br]schon strukturiert verfügbar zu machen.
0:41:58.760,0:42:02.320
Vor allem, weil eben diese ganz einfachen[br]Sachen - ich suche nach Begriffen oder ich
0:42:02.320,0:42:06.230
suche nach Themen oder ich möchte das mal[br]ein bisschen strukturiert durchsuchen -
0:42:06.230,0:42:10.650
das ist derzeit eine absolut händische[br]Aufgabe und das ist eigentlich in unserer
0:42:10.650,0:42:15.010
jetzigen Zeit ein kleines bisschen hinter[br]der Zeit hinterher. Von daher wäre es
0:42:15.010,0:42:20.610
eigentlich sehr sinnvoll, wenn man so[br]Grundideen von strukturierter Datenhaltung
0:42:20.610,0:42:24.220
dann auch in öffentlichen Verwaltungen[br]hätte, um eben diesen Zugang zu
0:42:24.220,0:42:27.450
erleichtern. Der Bundestag hat uns jetzt[br]quasi eineinhalb Jahre Arbeit gekostet,
0:42:27.450,0:42:32.900
das aufzubrechen. Und wär natürlich super,[br]wenn man solche Grundthemen der
0:42:32.900,0:42:36.930
Datenhaltung, der öffentlich verfügbaren[br]Datenhaltung auch irgendwie direkt
0:42:36.930,0:42:40.180
mitdenkt.[br]Florian: Ein ganz kleiner Nachtrag da
0:42:40.180,0:42:43.670
noch. Ein großer Wunsch, der uns vieles[br]erleichtern würde, jetzt auch Open
0:42:43.670,0:42:48.820
Discourse up to date zu halten, wäre ein[br]RSS-Feed vom Bundestag. Da sitzen auch die
0:42:48.820,0:42:53.260
Leute von Open Parliament TV so ein[br]bisschen dran und hoffen, dass das
0:42:53.260,0:42:56.480
irgendwie bereitgestellt wird. Aber das[br]würde uns natürlich ermöglichen,
0:42:56.480,0:43:01.550
automatisiert den Datensatz zu erweitern,[br]sobald irgendwie eine neue Rede
0:43:01.550,0:43:08.640
bereitgestellt wurde auf den Servern. Im[br]Moment geht das leider so noch nicht.
0:43:08.640,0:43:12.690
Herald: Strukturierte, maschinenlesbare[br]Verwaltung und strukturierte Daten quasi
0:43:12.690,0:43:17.850
als Wunsch. Es gibt ja zum Teil zumindest[br]eigene Projekte, wo aus dritter Hand
0:43:17.850,0:43:22.310
solche Daten für Dritte bereitgestellt[br]werden, wie z.B. Wikidata. Ist das eine
0:43:22.310,0:43:26.560
Quelle, auf die ihr euch, die ihr[br]verwenden könnt für so was?
0:43:26.560,0:43:32.510
Florian: Genau. Teilweise hatten wir das[br]auch verwendet. Also auf dem Weg zum
0:43:32.510,0:43:38.380
fertigen Produkt haben wir auch mit[br]Wikidata-Daten gearbeitet. Zum Beispiel
0:43:38.380,0:43:44.050
gibt es in den Stammdaten ja Informationen[br]darüber, wo Personen geboren wurden und
0:43:44.050,0:43:48.890
das sind die Originalgeburtsorte von[br]damals, quasi mit den historischen Namen.
0:43:48.890,0:43:55.840
Und an der Stelle hatten wir dann mal als[br]Test-Experiment bei uns intern für jede
0:43:55.840,0:44:02.120
Person, die wir im Bundestag hatten, jeden[br]Abgeordneten und jede Abgeordnete, die
0:44:02.120,0:44:05.710
Wikidata-IDs rausgesucht, damit wir mappen[br]können: Okay, was ist denn jetzt
0:44:05.710,0:44:08.530
eigentlich die ID für den Geburtsort[br]dahinter, damit wir damit weiterarbeiten
0:44:08.530,0:44:12.350
können? Das liegt aber bei uns nur, also[br]das ist jetzt nicht Teil des Korpus, weil
0:44:12.350,0:44:16.370
wir das nicht weit... also so weit[br]validiert haben, dass wir sicher sein
0:44:16.370,0:44:21.080
können, dass das korrekt ist. Aber auf[br]jeden Fall. Also das wäre so ein bisschen
0:44:21.080,0:44:24.330
die Anschlussfähigkeit, die wir uns[br]eigentlich wünschen. Also im Idealfall
0:44:24.330,0:44:29.270
wäre jetzt und wäre vielleicht die[br]Community dazu auch aufgerufen, für jede
0:44:29.270,0:44:33.900
Politiker:in noch die entsprechende[br]Wikidata ID mit zum am Korpus dazu zu
0:44:33.900,0:44:40.710
packen, damit wir noch viel mehr Daten und[br]viel mehr Dimensionen haben für den ganzen
0:44:40.710,0:44:44.330
Datensatz haben.[br]Herald: Wohin wenden sich denn Menschen,
0:44:44.330,0:44:46.901
wenn sie bei eurem Projekt mitmachen[br]möchten?
0:44:46.901,0:44:52.130
Florian: Am besten z.B.[br]zwischenruf@opendiscourse.de oder auf
0:44:52.130,0:44:54.680
unserer Webseite opendiscourse.de findet[br]ihr auch verschiedene
0:44:54.680,0:44:58.930
Kontaktmöglichkeiten. Ihr könnt natürlich[br]auch direkt über das Repository uns
0:44:58.930,0:45:02.940
Tickets schreiben, falls ihr irgendwie[br]Sachen habt, die euch aufhalten. Twitter,
0:45:02.940,0:45:08.750
Instagram, sämtliche Kanäle.[br]Herald: Alle sozialen Netzwerke. Seid ihr
0:45:08.750,0:45:11.980
auf TikTok?[br]Florian: Nur privat...
0:45:11.980,0:45:17.060
Herald: Zum Thema Transferierbarkeit gab's[br]dann auch nochmal eine Frage aus dem Chat.
0:45:17.060,0:45:21.369
Zum Beispiel für die Republik Österreich.[br]Wie gehen den Menschen vor - ihr habt ja
0:45:21.369,0:45:23.920
vorhin umrissen, dass es gar nicht so[br]einfach ist, so einen Datensatz zu
0:45:23.920,0:45:26.911
analysieren. Aber wie würden denn Menschen[br]vorgehen, die sagen: Das finden sie
0:45:26.911,0:45:29.330
interessant. Zum Beispiel für ihr[br]Landesparlament oder eben auch für ein
0:45:29.330,0:45:34.680
anderes Land?[br]Florian: Genau, an der Stelle sind wir
0:45:34.680,0:45:39.830
leider auch nicht ausreichend Expert:innen[br]für die Plenarprotokolle, wie die auf
0:45:39.830,0:45:44.680
Landesebene aussehen. Also es könnte sein.[br]Wir haben da halt noch nicht reingeschaut.
0:45:44.680,0:45:47.770
Es könnte sein, dass es eigentlich gar[br]nicht zu viele Abänderungen der Regex
0:45:47.770,0:45:52.350
Patterns voraussetzt, um es zu übertragen.[br]Es könnte aber auch sein, dass es relativ
0:45:52.350,0:45:58.730
aufwändig ist. Wir würden da jetzt so ein[br]bisschen auf die Stimmen von euch warten.
0:45:58.730,0:46:03.110
Also was interessiert euch denn eigentlich[br]am meisten? Und wir sind natürlich auch
0:46:03.110,0:46:08.430
sehr dankbar für jedes weitere Paar Augen,[br]das auf unsere Daten oder bzw. auf unseren
0:46:08.430,0:46:12.110
Source Code draufschaut, um vielleicht[br]Ideen zu entwickeln, wie man das jetzt
0:46:12.110,0:46:18.112
möglichst effizient auf andere[br]Anwendungsbereiche übertragen kann.
0:46:18.112,0:46:22.619
Herald: Okay, dann ist noch eine Frage aus[br]dem Chat, nämlich vielleicht kam das im
0:46:22.619,0:46:26.710
Talk vor. Er schreibt die Person: Aber wie[br]ist das Projekt zustande gekommen?
0:46:26.710,0:46:33.040
Insbesondere von der Finanzierung her?[br]Philipp: Also die Idee, die Grundidee war
0:46:33.040,0:46:37.570
glaube ich war, als wir zusammensaßen und[br]uns überlegt haben, wie können wir denn
0:46:37.570,0:46:41.250
eigentlich in Anbetracht von so vielen[br]schönen und künstlerischen oder
0:46:41.250,0:46:45.369
politischen Programmen und Aktionen die so[br]gibt, was können wir da eigentlich
0:46:45.369,0:46:49.810
beitragen, um irgendwas zu machen? Wir[br]sind Informatiker und Data Scientists und
0:46:49.810,0:46:53.660
das ist nicht so direkt der Punkt, wo man[br]jetzt die Welt ins Positive drehen kann.
0:46:53.660,0:46:57.500
Aber dann ist uns aufgefallen, dass eben[br]diese Daten, der Datensatz nicht
0:46:57.500,0:47:01.400
ausreichend verfügbar ist, dass der nicht[br]maschinenlesbar ist, dass es nur händisch
0:47:01.400,0:47:05.010
durchsuchbare Protokolle sind. Und dann[br]haben wir diesen Datensatz genommen und
0:47:05.010,0:47:08.340
aufgebrochenen. Grundlegend sind wir sonst[br]normalerweise in Agenturen und erbringen
0:47:08.340,0:47:11.291
Data Science Machine Learning[br]Dienstleistungen. Und haben dieses Projekt
0:47:11.291,0:47:15.970
aber in Abstimmung mit unserem Team,[br]also wir waren zu neunt an diesem Projekt,
0:47:15.970,0:47:21.780
haben das quasi komplett von unserem[br]Business getrennt und haben quasi gesagt:
0:47:21.780,0:47:25.950
Okay, wann immer wir Arbeitsstunden frei[br]haben, haben wir Zeit um dieses Projekt zu
0:47:25.950,0:47:31.390
treiben. Und damit diese quasi Bindung der[br]Privatwirtschaft, die da ja dran sein
0:47:31.390,0:47:34.570
könnte, dass die natürlich auch komplett[br]eliminiert ist, ist dieses Projekt
0:47:34.570,0:47:39.057
komplett offen und ist komplett[br]durchsuchbar und ist komplett frei, sodass
0:47:39.057,0:47:42.150
validiert werden kann, dass wir das[br]natürlich... Wir haben natürlich eine
0:47:42.150,0:47:45.070
eigene politische Meinung, aber die soll[br]natürlich nicht mit in diesen Datensatz
0:47:45.070,0:47:47.800
fließen. Daher liegt der Datensatz[br]komplett offen und kann vollkommen
0:47:47.800,0:47:51.900
durchsucht werden. Finanziert ist das aber[br]quasi aus den Freistunden, die wir als
0:47:51.900,0:47:56.890
Data Science Agentur hatten.[br]Herald: Vielen Dank Florian, vielen Dank
0:47:56.890,0:48:00.110
für dieses spannende Projekt und wirklich[br]gehaltvolle Projekt. Bei den
0:48:00.110,0:48:03.920
Beleidigungen muss man auch sagen: Franz[br]Josef Strauß war von der Runterzählung der
0:48:03.920,0:48:08.320
Top 5 fast zu erwarten, dass der[br]rauskommt. Ich hatte eigentlich noch Herrn
0:48:08.320,0:48:12.890
Wehner auch erwartet, der eigentlich sein[br]sein traditioneller Widersacher war. Habt
0:48:12.890,0:48:17.370
ihr denn ein Lieblingsschlagaustausch oder[br]eine Lieblingsbeleidigung gefunden in
0:48:17.370,0:48:21.020
eurer Arbeit.[br]Philipp: Ich glaube, man kann es auf so
0:48:21.020,0:48:26.063
unterschiedliche Art und Weisen auch[br]operationalisieren. Ich glaube wir hatten
0:48:26.063,0:48:29.780
mal eine ganz, eine ganz spannende... ich[br]glaube das müssten wir nochmal...
0:48:29.780,0:48:33.910
Vielleicht machen wir dafür nochmal einen[br]extra Teil auf der Website, wo wir die
0:48:33.910,0:48:38.264
spannendsten Beleidigungen nochmal[br]aufgreifen. Das wäre ein gutes Thema.
0:48:38.264,0:48:41.070
Florian: Wir hatten glaube ich teilweise[br]in so einem kleinen Dokument mal ein paar
0:48:41.070,0:48:43.660
Sachen gesammelt. Aber ich hab die grad[br]auch gar nicht im Kopf.
0:48:43.660,0:48:48.021
Herald: Okay, also einen Ausbaupotenzial[br]für den Spaß da hinten dran, für die
0:48:48.021,0:48:52.420
Spaßig-Seite der Datenanalyse ist auf[br]jeden Fall vorhanden. Vielen Dank für
0:48:52.420,0:48:58.010
euren Beitrag. Ich hoffe, ihr bekommt viel[br]Feedback und noch viel Input, wie man hier
0:48:58.010,0:49:00.220
noch mehr draus machen kann. Danke euch![br]- Vielen Dank auch.
0:49:00.220,0:49:02.810
- Danke dir.
0:49:02.810,0:49:06.180
Wikipaka Outro Musik
0:49:06.180,0:49:13.000
Untertitel erstellt von c3subtitles.de[br]im Jahr 2021. Mach mit und hilf uns!