WEBVTT
00:00:00.000 --> 00:00:15.379
Wikipaka Intro Musik
00:00:15.379 --> 00:00:18.320
Florian: Herzlich willkommen zu unserem
Talk "Wir wissen, was ihr letzten Sommer
00:00:18.320 --> 00:00:21.550
gesagt habt". Wir sind sehr aufgeregt und
freuen uns sehr, dass wir das heute
00:00:21.550 --> 00:00:27.160
vorstellen dürfen. Wir sind Philip Koch
und Florian Richter und wir wollen euch
00:00:27.160 --> 00:00:31.880
heute unser Projekt Open Discourse
vorstellen und inwiefern Open Discourse
00:00:31.880 --> 00:00:36.920
die Transparenz des Bundestages erhöhen
kann. An Open Discourse haben wir die
00:00:36.920 --> 00:00:41.350
letzten anderthalb Jahre gearbeitet, in
einem Team von insgesamt neun Personen.
00:00:41.350 --> 00:00:48.710
Und genau. Worüber wollen wir euch
eigentlich heute erzählen? Für Open
00:00:48.710 --> 00:00:53.519
Discourse haben wir die Plenarprotokolle
des Deutschen Bundestages aufgearbeitet
00:00:53.519 --> 00:00:58.900
und die Plenarprotokolle seht ihr hier auf
der rechten Seite, die sehen so aus. Das
00:00:58.900 --> 00:01:05.560
heißt für jede Sitzung im Bundestag gibt
es Stenograph:innen, die jedes gesprochene
00:01:05.560 --> 00:01:09.400
Wort von den Parteien bzw. von den
Politiker:innen, die gerade eine Rede
00:01:09.400 --> 00:01:16.940
halten, aufzeichnen. Und außerdem wird
auch jeder Zwischenruf, jede Reaktion aus
00:01:16.940 --> 00:01:21.660
dem Plenum mit aufgezeichnet. Diese
Plenarprotokolle stellt der Bundestag zur
00:01:21.660 --> 00:01:27.709
Verfügung, seit 1949. Allerdings als PDF-
Dokument. Das birgt natürlich einige
00:01:27.709 --> 00:01:32.440
Probleme, weil PDF Dokumente sind nicht
gut durchsuchbar, weil wir jetzt z.B.
00:01:32.440 --> 00:01:36.239
nicht gezielt suchen könnten, was ein
bestimmter Politiker einer bestimmten
00:01:36.239 --> 00:01:41.630
Partei im Jahre 1950 beispielsweise gesagt
hat. Das heißt, das ist das Problem, das
00:01:41.630 --> 00:01:45.800
wir eigentlich haben. Aber eigentlich
beinhalten diese Plenarprotokoll ziemlich
00:01:45.800 --> 00:01:52.029
viel wertvolle Information. Weil
beispielsweise natürlich die einzelnen
00:01:52.029 --> 00:01:57.260
Redebeiträge, die Zwischenrufe usw, diese
sind aber als Fließtext in diesem PDF
00:01:57.260 --> 00:02:00.320
enthalten. Das heißt, wir brauchen
eigentlich irgendeinen Weg, um das
00:02:00.320 --> 00:02:04.179
herauszubrechen. Und genau, das gab's
bisher noch nicht. Mit Open Discourse
00:02:04.179 --> 00:02:09.429
haben wir es jetzt erstmals geschafft,
seit 1949 alle Reden, alle Zwischenrufe,
00:02:09.429 --> 00:02:15.460
alle Reaktionen und so weiter
herauszuarbeiten. Warum machen wir das
00:02:15.460 --> 00:02:20.200
eigentlich? Die Motivation hinter Open
Discourse beruht im Kern darauf, dass wir
00:02:20.200 --> 00:02:23.350
davon ausgehen oder wir finden, das
Plenarprotokolle eigentlich eine ziemlich
00:02:23.350 --> 00:02:28.970
wertvolle Ressource sind und die Debatten
im Bundestag ja eigentlich so transparent
00:02:28.970 --> 00:02:32.680
wie möglich stattfinden sollten. Das
heißt, wir alle haben ein Recht darauf,
00:02:32.680 --> 00:02:36.770
auch noch nach 20 Jahren zu wissen, was
eine bestimmte Politikerin oder ein
00:02:36.770 --> 00:02:43.700
bestimmter Politiker zu einem bestimmten
Thema gesagt hat. Was auffällt, wenn wir
00:02:43.700 --> 00:02:49.970
uns Plenarprotokolle und die Befassung mit
Plenarprotokollen ansehen, ist, dass das vor
00:02:49.970 --> 00:02:52.580
allen Dingen in der deutschen
Politikwissenschaft eigentlich ein Thema
00:02:52.580 --> 00:02:59.230
ist, das nicht besonders oft angefasst
wird. Es ist unterrepräsentiert in der
00:02:59.230 --> 00:03:03.280
Forschung. Das hat mehrere Gründe: Zum
einen.. oder zwei Hauptgründe
00:03:03.280 --> 00:03:06.860
wahrscheinlich. Zum einen ist die deutsche
Politikwissenschaft eher aus der
00:03:06.860 --> 00:03:10.390
politischen Ideengeschichte erwachsen. Das
heißt, man kümmert sich eigentlich eher
00:03:10.390 --> 00:03:14.670
qualitativ um Texte als quantitativ. Das
ändert sich in den letzten Jahren ein
00:03:14.670 --> 00:03:18.541
bisschen. Aber im Kern befasst sich die
deutsche Politikwissenschaft immer noch
00:03:18.541 --> 00:03:22.530
relativ wenig mit dem Plenardebatten. Und
der große Grund dafür ist dann natürlich
00:03:22.530 --> 00:03:26.090
auch, dass diese Plenarprotokolle bisher
noch nicht maschinenlesbar und nicht
00:03:26.090 --> 00:03:29.990
leicht auswertbar vorlagen. Man kann sich
vorstellen, wenn man jetzt nach einer
00:03:29.990 --> 00:03:34.160
gezielten Fragestellung die
Plenarprotokolle untersuchen möchte,
00:03:34.160 --> 00:03:37.690
müsste man im Zweifelsfall über 4 000
Protokolle händisch durchlesen, um zu
00:03:37.690 --> 00:03:41.280
schauen: In welchem Protokoll steht jetzt
irgendeine Information, die wichtig ist
00:03:41.280 --> 00:03:47.830
für meine Fragestellung. In den letzten
Jahren sehen wir aber, dass das Interesse
00:03:47.830 --> 00:03:51.480
an diesen Plenarprotokollen zunehmend
wächst. Und an der Stelle haben wir uns
00:03:51.480 --> 00:03:56.660
gedacht, als Team aus in erster Linie Data
Scientists und Software Developern, dass
00:03:56.660 --> 00:04:00.800
wir eigentlich die Skills dazu haben,
diese Daten aufzubereiten und der
00:04:00.800 --> 00:04:05.370
Öffentlichkeit zur Verfügung zu stellen.
Genau. Das ist also der der aktuelle
00:04:05.370 --> 00:04:10.210
Stand. Wir haben das große Problem, dass
es keine einfache Möglichkeit gibt, diese
00:04:10.210 --> 00:04:13.850
Plenarprotokolle zu durchsuchen und diese
Plenarprotokolle auch nicht
00:04:13.850 --> 00:04:19.709
maschinenlesbar sind, wir also keine
aktuellen Analysemethoden über diesen
00:04:19.709 --> 00:04:23.720
Textkorpus laufen lassen können. Unsere
Ziele, die wir uns gesetzt haben für
00:04:23.720 --> 00:04:28.849
dieses Projekt, waren mehr Transparenz des
politischen Diskurses in Deutschland, eine
00:04:28.849 --> 00:04:32.569
detaillierte Durchsuchbarkeit der
Plenardebatten, ein öffentlicher und
00:04:32.569 --> 00:04:36.939
möglichst niedrigschwelliger Zugang zu
diesen Daten, die Anschlussfähigkeit
00:04:36.939 --> 00:04:41.279
unseres Projektes, damit dieses Projekt
weiterentwickelt werden kann, dass neue
00:04:41.279 --> 00:04:46.759
Projekte daraus entstehen können. Und
natürlich, dass mit diesen Daten auch
00:04:46.759 --> 00:04:51.149
geforscht werden kann und wir demnach ein
wissenschaftliches Niveau für diese Daten
00:04:51.149 --> 00:04:57.169
brauchen. Ok, kurz zum Status Quo. In den
letzten Jahren, wie gerade angesprochen
00:04:57.169 --> 00:05:02.960
hat sich natürlich das Interesse für diese
Plenarprotokoll deutlich erhöht. 2017
00:05:02.960 --> 00:05:06.779
beispielsweise gab es das sehr spannende
Projekt Offenes Parlament, was von der
00:05:06.779 --> 00:05:12.689
Open Knowledge Foundation getrieben wurde
oder durchgeführt wurde. In diesem Projekt
00:05:12.689 --> 00:05:17.330
wurden die Plenarprotokolle der 18.
Wahlperiode aufgearbeitet und diese waren
00:05:17.330 --> 00:05:20.889
dann auch granular durchsuchbar, das
heißt, wir hatten Dimensionen zum Datum,
00:05:20.889 --> 00:05:27.240
zum Inhalt der Redebeiträge, welche Person
diesen Redebeitrag gehalten hat usw.
00:05:27.240 --> 00:05:32.599
Ebenfalls 2017 und 2018 kamen die Projekte
ParlSpeech und GermaParl und wurden
00:05:32.599 --> 00:05:37.520
veröffentlicht. Das sind zwei
wissenschaftliche Projekte, die ebenfalls
00:05:37.520 --> 00:05:43.409
sehr granular die Redebeiträge aufbereitet
haben des Bundestages. Allerdings im Falle
00:05:43.409 --> 00:05:46.449
von ParlSpeech, die haben dieses Jahr
nochmal ein Update von ihrem Datensatz
00:05:46.449 --> 00:05:51.580
gemacht. Reicht jetzt von der 12. bis 19.
Wahlperiode. Bei GermaParl sind aktuell
00:05:51.580 --> 00:05:56.010
die 13. bis zur 18. Wahlperiode abgedeckt.
D.h. wir haben da auch nicht den
00:05:56.010 --> 00:06:02.860
kompletten Umfang der Plenardebatten. Und
an dieser Stelle vor einem Jahr haben
00:06:02.860 --> 00:06:07.960
Martin Haars und Kai Biermann das Projekt
vorgestellt, das Zeit Online
00:06:07.960 --> 00:06:15.070
veröffentlicht hat, wo das erste Mal alle
oder jedes gesprochene Wort seit 1949
00:06:15.070 --> 00:06:20.129
bereitgestellt wurde und es möglich war,
eine Keyword Suche über diesen Korpus zu
00:06:20.129 --> 00:06:24.379
laufen zu lassen. Das heißt, man konnte
dadurch erstmals schauen: Wie hat sich
00:06:24.379 --> 00:06:30.189
beispielsweise das Keyword Umweltschutz in
den Debatten dargestellt? Wie hat sich das
00:06:30.189 --> 00:06:35.889
verändert über die Zeit? Genau. An dieser
Stelle gebe ich jetzt an Philipp weiter
00:06:35.889 --> 00:06:38.610
und er wird euch mal erklären, was wir
jetzt eigentlich mit Open Discourse noch
00:06:38.610 --> 00:06:41.880
zusätzlich machen können.
Philipp: Genau. Also wir sehen so ein
00:06:41.880 --> 00:06:45.460
bisschen oder wir erinnern euch oder viele
von euch erinnern sich vielleicht an den
00:06:45.460 --> 00:06:51.849
den Talk von Martin Haase und Kai Biermann
vor einem Jahr. Da haben die gezeigt, wie
00:06:51.849 --> 00:06:57.139
sie diese Worte über die Zeit analysiert
haben und haben auch gezeigt, welche
00:06:57.139 --> 00:07:00.210
Beschimpfungen in Deutschen Bundestag
relativ typisch waren. Also wir haben
00:07:00.210 --> 00:07:05.689
sowas wie Heuchler und Lügner:in und
Idioten und Lümmel und Flegel. Und nur um
00:07:05.689 --> 00:07:10.069
da so ein Stück anzuknüpfen und um zu
zeigen, wie wir an dieser Stelle ansetzen
00:07:10.069 --> 00:07:13.899
können und das ein Stück weiter denken
können, hab ich euch das mal mitgebracht
00:07:13.899 --> 00:07:18.330
und hab euch mal geplottet über die Zeit,
wie häufig mit welcher relativen
00:07:18.330 --> 00:07:22.710
Häufigkeit Beschimpfungen im Deutschen
Bundestag passiert sind. Und wir sehen,
00:07:22.710 --> 00:07:28.599
dass es eine Zeit gab, in der mal mehr und
mal weniger beschimpft wurde. Und was wir
00:07:28.599 --> 00:07:31.360
jetzt aber machen können mit dem Open
Discourse Datensatz: Wir können neue
00:07:31.360 --> 00:07:35.270
Dimensionen hinzufügen, denn wir haben
nicht mehr nur das reine gesprochene Wort,
00:07:35.270 --> 00:07:37.370
sondern wir haben all die
Metainformationen, weil wir wissen, wer
00:07:37.370 --> 00:07:41.819
dieses Wort gesprochen hat. Ich kann also
gucken, ob Männer oder Frauen mehr
00:07:41.819 --> 00:07:45.599
geflucht haben und ich stelle fest, dass
Männer mit großem großem Abstand mehr
00:07:45.599 --> 00:07:48.620
fluchen als Frauen. Männer sind
diejenigen, die das treiben im Deutschen
00:07:48.620 --> 00:07:52.080
Bundestag, und die fluchen und beschimpfen
und beleidigen. Wenn ich die Frauen
00:07:52.080 --> 00:07:55.889
dagegen plotte - Das erste Mal, dass eine
Frau im Deutschen Bundestag mit der
00:07:55.889 --> 00:08:03.339
Auswahl dieser Beschimpfungen geflucht
hat, war 1977 ungefähr. Und auch so reden
00:08:03.339 --> 00:08:09.569
Frauen deutlich, deutlich deutlich weniger
quasi in diesem Wortschatz. Und das Ganze
00:08:09.569 --> 00:08:11.969
können wir jetzt immer und immer weiter
berechnen, denn wir haben mit Open
00:08:11.969 --> 00:08:16.090
Discourse die Dimensionalität, um diese
Fragestellungen zu beantworten. Fluchen war
00:08:16.090 --> 00:08:20.559
z.B. früher ein Thema von Doktor:innen.
Das heißt, Abgeordnete mit einem
00:08:20.559 --> 00:08:26.339
akademischen Grad haben deutlich mehr
geflucht und erst in den 85er Jahren haben
00:08:26.339 --> 00:08:30.569
dann auch nicht Doktor:innen angefangen,
stärker zu fluchen und Beschimpfungen in
00:08:30.569 --> 00:08:35.969
ihren Wortschatz aufzunehmen. Wir können
weiter reingucken und können gucken, wer
00:08:35.969 --> 00:08:39.970
denn eigentlich flucht. Also wenn ich
jetzt mal vergleichen möchte, wie die die
00:08:39.970 --> 00:08:42.779
Mitte rechts und die Mitte Links Fraktion
im Deutschen Bundestag, wie die sich
00:08:42.779 --> 00:08:47.180
unterscheiden in ihrer Nutzung von
Schimpfworten, dann kann ich feststellen,
00:08:47.180 --> 00:08:51.460
dass ungefähr seit den 85er Jahren das
Fluchen eine typisch linke Disziplin ist.
00:08:51.460 --> 00:08:55.800
Das ist in der Mitte Links Fraktion
ziemlich verortet, jetzt in dem Fall hier
00:08:55.800 --> 00:09:02.420
definiert als SPD, Linke, PDS und Grüne im
Vergleich zur CDU, CSU, FDP-Fraktion, die
00:09:02.420 --> 00:09:08.230
ein gutes Stück weniger flucht. Wir können
auch bis auf die einzelne Person
00:09:08.230 --> 00:09:11.970
runtergehen und wir können die Gewinner im
Beschimpfen des Deutschen Bundestages seit
00:09:11.970 --> 00:09:16.480
1949 küren. Vielleicht hat jemand von euch
eine Idee, wer da so drinsteckt. Auf Platz
00:09:16.480 --> 00:09:22.460
vier ist es Norbert Blüm von der CDU. Auf
Platz drei ist es Carlo Schmidt von der
00:09:22.460 --> 00:09:27.370
SPD, ein bisschen früherer Politiker. Auf
Platz zwei, Ottmar Schreiner von der SPD.
00:09:27.370 --> 00:09:32.600
Und auf Platz eins ist es Franz Josef
Strauß von der CSU, der mit großem Abstand
00:09:32.600 --> 00:09:38.050
die meisten Flüche im Deutschen Bundestag
gesprochen hat. Ihr seht also: Das, was
00:09:38.050 --> 00:09:41.699
wir mit Open Discourse machen können, ist,
wir können dem gleichen Projekt, was auch
00:09:41.699 --> 00:09:45.550
die Kollegen von der Zeit haben,
Mehrdimensionalität hinzufügen, weil wir
00:09:45.550 --> 00:09:51.380
in unserem Korpus eine Realität abbilden
können und den gesamten PDF-Datensatz
00:09:51.380 --> 00:09:56.080
quasi komplett als Datenbank-Struktur
verfügbar gemacht haben. Das heißt, was
00:09:56.080 --> 00:10:01.889
wir früher konnten ist, wir konnten Worte
über eine Zeit plotten. Das war so der
00:10:01.889 --> 00:10:07.170
Status quo. Und was wir jetzt gemacht
haben ist, wir haben diesen Fließtext,
00:10:07.170 --> 00:10:11.380
dieses PDF umgebrochen in eine
Datenbankstruktur und können das jetzt
00:10:11.380 --> 00:10:15.290
beliebig filtern und beliebig analysieren
und können da sehr, sehr, sehr tief in die
00:10:15.290 --> 00:10:20.740
quantitativen Analysen gehen. Das heißt,
wir fügen diesen Plenardebatten mehr
00:10:20.740 --> 00:10:25.360
Dimensionalität hinzu. Früher also Worte
und Zeit und heute eben auch, welche
00:10:25.360 --> 00:10:28.990
Person gesprochen hat und damit eben auch
welche Fraktion, welche
00:10:28.990 --> 00:10:34.260
Regierungsposition, welches Geschlecht,
welches Alter hat der oder die Sprechende?
00:10:34.260 --> 00:10:38.639
Was ist der Beruf der sprechenden Person?
Der akademische Grad, die Jahre im
00:10:38.639 --> 00:10:45.220
Bundestag? Der Geburtsort, der Adelstitel.
Und wir haben natürlich auch alle
00:10:45.220 --> 00:10:47.810
Reaktionen und Interaktionen des
Bundestag. Das heißt, wir können genau
00:10:47.810 --> 00:10:53.069
gucken, welche Personen, welche Fraktion
lacht oder amüsiert sich oder klatscht.
00:10:53.069 --> 00:10:57.269
Und welche Einzelpersonen sind es denn,
wenn es irgendwelche Zwischenrufe sind?
00:10:57.269 --> 00:11:01.319
Und wenn wir uns das so einer Größe
angucken, dann haben wir ein Datensatz,
00:11:01.319 --> 00:11:07.240
bei dem wir etwa 331 Tausend Plenarseiten
ausgewertet haben seit 1949. Wir haben
00:11:07.240 --> 00:11:13.120
dadurch 211 Millionen Tokens, also Worte,
in unserem Datensatz von ungefähr 900 000
00:11:13.120 --> 00:11:19.080
Redebeiträgen, die wir verzeichnet haben,
gesprochen von 4100 Politiker:innen.
00:11:19.080 --> 00:11:23.420
Darauf haben wir dann 2,2 Millionen
Reaktionen und Zwischenrufe des Plenums
00:11:23.420 --> 00:11:29.380
von insgesamt 27 Fraktionen und Gruppen
seit der Gründung des Bundestages. Wie
00:11:29.380 --> 00:11:32.931
haben wir das gemacht? Vielleicht ein ganz
kurzes Wort dazu, was dahinter steckt. Wir
00:11:32.931 --> 00:11:37.230
haben die öffentlich verfügbaren Daten
genommen, die, die daliegen. Das heißt,
00:11:37.230 --> 00:11:40.589
das sind die Plenarprotokolle des
Bundestages als PDF. Wir haben das
00:11:40.589 --> 00:11:43.980
angereichert mit den Stammdaten der
Abgeordneten, die auch der Bundestag
00:11:43.980 --> 00:11:48.279
erfasst und selbst herausgibt. Und wir
haben die Liste der deutschen
00:11:48.279 --> 00:11:52.399
Regierungsmitglieder seit 1949 noch mit
dazugegeben, denn es gab relativ viele
00:11:52.399 --> 00:11:57.029
oder es gab einige Regierungsmitglieder,
die selbst kein Bundestagsmandat haben.
00:11:57.029 --> 00:12:01.620
Auch die haben wir hinzugefügt. Und dann
haben wir diese unendlich langen Texte
00:12:01.620 --> 00:12:05.910
eben vorwiegend durch Regular Expressions
gefiltert. Das heißt, wir haben die
00:12:05.910 --> 00:12:09.470
relevanten Teile und Protokolle
extrahiert. Wir haben das aufgegliedert.
00:12:09.470 --> 00:12:12.870
Und wir haben dann eben nach Redebeiträge,
nach Redner:innen, Zwischenrufe,
00:12:12.870 --> 00:12:19.519
Reaktionen unterteilt. Das war mal einer
der längsten Regular Expression Strings.
00:12:19.519 --> 00:12:23.370
Der war dann irgendwann so lang, wir haben
dann irgendwann unserem Head of Regular
00:12:23.370 --> 00:12:27.199
Expressions das auf ein T-Shirt gedruckt.
Das hatte die gute Vorderseite genutzt.
00:12:27.199 --> 00:12:31.360
Und nach diesen ganzen Regular Expressions
haben wir dann auch viel Fuzzy Search und
00:12:31.360 --> 00:12:35.550
Matching gemacht, um eben die Fehler auch
in dem Plenarprotokoll auszumerzen. Das
00:12:35.550 --> 00:12:38.670
heißt, Politiker:innen sind falsch
geschrieben, irgendwelche Worte sind
00:12:38.670 --> 00:12:43.750
zerrissen. Und um das alles wieder
zusammenzuführen, haben wir dann Fuzzy
00:12:43.750 --> 00:12:49.620
String Matching angeführt.
Florian: Genau, und an der Stelle kommt
00:12:49.620 --> 00:12:53.240
ihr jetzt eigentlich ins Spiel. Das heißt,
was wir im Kern machen wollten und jetzt
00:12:53.240 --> 00:12:58.250
geschafft haben, ist diesen die, dieses
Korpus oder diesen Datensatz so
00:12:58.250 --> 00:13:03.099
bereitzustellen, dass ihr euch den
auschecken könnt und eigene Analysen mit
00:13:03.099 --> 00:13:08.660
diesen Daten durchführen könnt. Das heißt,
der Open Discourse Datensatz und das ganze
00:13:08.660 --> 00:13:13.850
Repository dazu ist veröffentlicht. Ihr
könnt euch den Source Code anschauen,
00:13:13.850 --> 00:13:17.730
auschecken, die Datenbank bei euch lokal
aufbauen. Und ihr habt noch ein paar
00:13:17.730 --> 00:13:22.420
andere Möglichkeiten, auf die ich später
noch genauer ein. Genau. Das Spannende,
00:13:22.420 --> 00:13:26.689
finden wir, an diesem Datensatz ist jetzt,
dass es erstmals möglich ist, Analysen
00:13:26.689 --> 00:13:32.110
durchzuführen, die vorher in der Form
nicht durchführbar waren. Und während wir
00:13:32.110 --> 00:13:35.529
auf eure Analysen warten, zeigen wir euch
ein paar Analysen, die wir schon mal
00:13:35.529 --> 00:13:39.710
durchgeführt haben, um euch eine kleine
Inspiration zu geben, was denn eigentlich
00:13:39.710 --> 00:13:44.240
möglich ist. Und an dieser Stelle ein
kleiner Disclaimer: Alles, was wir jetzt
00:13:44.240 --> 00:13:48.640
gleich zeigen, dient als Inspiration. Wir
haben die Analysen mit größter Sorgfalt
00:13:48.640 --> 00:13:53.390
durchgeführt. Aber es ist keine
politikwissenschaftliche Forschung. Und
00:13:53.390 --> 00:13:56.529
gerade weil wir jetzt über Politik
sprechen, sollten wir an dieser Stelle ein
00:13:56.529 --> 00:13:59.959
bisschen vorsichtig sein. Wir sind uns
weitestgehend sicher, dass die Ergebnisse,
00:13:59.959 --> 00:14:03.870
die wir euch präsentieren, sehr plausibel
und weitestgehend korrekt sein werden.
00:14:03.870 --> 00:14:08.029
Aber wie gesagt, das ist jetzt keine
politikwissenschaftliche Forschung, das
00:14:08.029 --> 00:14:11.320
ist nicht durch ein Peer Review Prozess
gegangen. Soweit als kleiner Disclaimer
00:14:11.320 --> 00:14:17.980
dazu. Okay, wir gucken uns jetzt folgend
zwei große Themen an, die in der
00:14:17.980 --> 00:14:22.790
Geschichte der Bundesrepublik ziemlich
große Relevanz hatten. Und wir starten mit
00:14:22.790 --> 00:14:27.120
dem Thema Datenschutz. Und wir könnten
jetzt dieses Thema so untersuchen, wie es
00:14:27.120 --> 00:14:31.829
traditionell bisher immer möglich war. Das
heißt, wir schauen uns mal an, wie oft
00:14:31.829 --> 00:14:36.960
eigentlich das Wort Datenschutz in den
Plenarsitzungen gesagt wurde. Und wenn wir
00:14:36.960 --> 00:14:41.980
das machen Sie das ungefähr so aus. Das
heißt, wir haben die erste Nennung des
00:14:41.980 --> 00:14:47.881
Begriffs Datenschutz Anfang der siebziger
Jahre. Das würde ungefähr so passen, weil
00:14:47.881 --> 00:14:53.250
in dem Zeitraum auch Hessen als erstes
Land oder sogar weltweit das erste
00:14:53.250 --> 00:14:58.149
Datenschutzgesetz verabschiedet hat. Das
heißt, damals wurde der Begriff
00:14:58.149 --> 00:15:03.490
anscheinend das erste Mal genutzt, auch im
Bundestag. Und ab dann ging es weiter. Wir
00:15:03.490 --> 00:15:08.099
sehen einen kleinen Abfall in den 90ern,
einen Anstieg dann wieder in den 2000er
00:15:08.099 --> 00:15:14.769
Jahren. Genau. Aber das ist eigentlich
noch nicht gut interpretierbar. Wir haben
00:15:14.769 --> 00:15:17.200
jetzt einfach nur die Worthäufigkeiten.
Wir wissen nicht, wer hat das eigentlich
00:15:17.200 --> 00:15:21.629
gesagt hat. Das heißt, an der Stelle
nutzen wir jetzt unseren Open Discourse
00:15:21.629 --> 00:15:26.130
Korpus, um uns das ein bisschen genauer
anzuschauen. Was wir zusätzlich jetzt noch
00:15:26.130 --> 00:15:31.850
gemacht haben, ist: Wir haben ein LDA
Topic Modeling trainiert. Das funktioniert
00:15:31.850 --> 00:15:37.209
im Wesentlichen so, dass wir davon
ausgehen... bzw. ein LDA Topic Modeling
00:15:37.209 --> 00:15:42.999
ist dafür da oder kann genutzt werden, um
latente Themen in Textkorpora zu
00:15:42.999 --> 00:15:48.360
ermitteln. Und wir wollen uns ja das Thema
Datenschutz ansehen. Das heißt, wir müssen
00:15:48.360 --> 00:15:52.219
versuchen, ein LDA Topic Modeling so zu
trainieren, dass wir dieses
00:15:52.219 --> 00:15:56.410
Datenschutzthema auch finden in unseren
Daten. Natürlich nur, solange es da ist.
00:15:56.410 --> 00:15:59.560
Glücklicherweise ist es tatsächlich da,
weil darüber ziemlich viel gesprochen
00:15:59.560 --> 00:16:04.839
wurde. Das heißt, wenn wir jetzt
eigentlich untersuchen wollen, wie oder in
00:16:04.839 --> 00:16:09.181
welchem Ausmaß über Datenschutz gesprochen
wurde im Bundestag, dann ist es natürlich
00:16:09.181 --> 00:16:12.670
nicht bloß der Begriff Datenschutz
relevant. Sondern man kann auch über den
00:16:12.670 --> 00:16:16.189
Datenschutz reden, dabei aber Begriffe
nutzen wie Informationsfreiheit,
00:16:16.189 --> 00:16:20.670
Datenverarbeitung, Speicherung,
Privatsphäre usw.. Das heißt, es ist
00:16:20.670 --> 00:16:25.509
eigentlich viel relevanter, dieses latente
Thema des Datenschutzes zu nutzen als
00:16:25.509 --> 00:16:30.239
einen spezifischen Begriff. Dafür haben
wir das LDA Topic Modeling trainiert. Das
00:16:30.239 --> 00:16:35.319
funktioniert im Wesentlichen so, dass wir
vorgegeben haben, was wir oder wie viele
00:16:35.319 --> 00:16:40.189
Topics, spezifische Topics, wir im Korpus
erwarten. Da haben wir verschiedene
00:16:40.189 --> 00:16:43.970
Nummern ausprobiert und bei
zweihundertfünfzig letztlich sehr
00:16:43.970 --> 00:16:47.120
konsistente Themen gefunden. Und mit
diesem Model haben wir jetzt die weiteren
00:16:47.120 --> 00:16:55.310
Analysen durchgeführt. Dieses LDA Topic
Modeling hat als Ergebnis, dass wir für
00:16:55.310 --> 00:17:04.080
jeden Redebeitrag, den wir im Korpus
haben, Angaben darüber bekommen, wie der
00:17:04.080 --> 00:17:10.600
prozentuale Anteil der jeweiligen 250
Themen in dieser Rede war. Das heißt, wir
00:17:10.600 --> 00:17:16.180
haben genau 250 Zahlenwerte für jeden
Redebeitrag. Das ist das, was wir jetzt
00:17:16.180 --> 00:17:22.030
folgend zusammen aggregieren und auf der
Y-Achse als Relevanz definieren. Genau das
00:17:22.030 --> 00:17:26.890
ist jetzt auch erstmals möglich, weil wir
die einzelnen Redebeiträge als Dokumente
00:17:26.890 --> 00:17:33.160
im LDA Topic Modeling nutzen können. Alles
klar. Zurück zum Thema Datenschutz. Okay,
00:17:33.160 --> 00:17:38.090
wir plotten uns jetzt mal die
durchschnittlichen Gebrauch des ganzen
00:17:38.090 --> 00:17:44.370
Thema Datenschutz im Plenar oder im
Verlauf der Plenarsitzungen. Und was uns
00:17:44.370 --> 00:17:49.070
jetzt zum Beispiel schon mal auffällt,
ist, dass auch vor 1970 schon in einem
00:17:49.070 --> 00:17:52.690
gewissen sehr geringen Maße über
Datenschutz-Themen gesprochen wurde. Der
00:17:52.690 --> 00:17:57.050
Begriff Datenschutz wurde dabei jedoch
nicht genutzt. Wir sehen immer noch, dass
00:17:57.050 --> 00:18:01.920
es quasi zwei große Phasen oder zwei große
Wellen gibt. Es gibt die erste Welle, die
00:18:01.920 --> 00:18:08.220
ungefähr Mitte der 70er angefangen hat und
dann zum zum Ende der 80er Jahre abgeflaut
00:18:08.220 --> 00:18:14.260
ist. Und wir haben eine zweite Welle, die
zum in den 2000er Jahren begonnen hat und
00:18:14.260 --> 00:18:18.550
jetzt langsam wieder abflaut. Um zu
validieren, dass das, was wir jetzt hier
00:18:18.550 --> 00:18:24.280
gefunden haben oder das, was uns das Topic
Model grad anzeigt, stimmt, haben wir mal
00:18:24.280 --> 00:18:28.290
geschaut, was denn eigentlich in diesen
Zeiten so passiert ist. Und wenn wir uns
00:18:28.290 --> 00:18:33.390
die 80er Jahre oder den Raum um die 80er
Jahre anschauen, sehen wir, dass derzeit
00:18:33.390 --> 00:18:39.130
das Bundesdatenschutzgesetz, also das
erste Datenschutzgesetz auf nationaler
00:18:39.130 --> 00:18:44.590
Ebene beschlossen wurde in Deutschland,
dass es die Volkszählungsboykotte gab. Es
00:18:44.590 --> 00:18:51.010
sollte eine Volkszählung durchgeführt
werden und die sollte in dem Fall das
00:18:51.010 --> 00:18:55.770
erste Mal digital die Daten der
Bevölkerung erfassen. Das hat natürlich
00:18:55.770 --> 00:19:01.510
zur Boykotten, zu Protesten und zu Sorgen,
was denn eigentlich, welche Belange das
00:19:01.510 --> 00:19:08.350
mit dem eigenen Datenschutz hat. Außerdem:
In der Zeit wurde der CCC gegründet. Es
00:19:08.350 --> 00:19:15.290
gab ein ziemlich entscheidendes Urteil vom
Bundesverfassungsgericht, auch im Rahmen
00:19:15.290 --> 00:19:19.160
dieser Volkszählung. Und in dem Rahmen
tauchte dann auch erstmals der Begriff der
00:19:19.160 --> 00:19:23.680
informationellen Selbstbestimmung auf. Das
heißt, okay, an dem Rahmen oder in dem
00:19:23.680 --> 00:19:27.140
Maße ist die erste Welle ziemlich
plausibel. Das wurde im Bundestag dann
00:19:27.140 --> 00:19:30.770
offensichtlich auch sehr intensiv
besprochen. Danach ist das ein bisschen
00:19:30.770 --> 00:19:35.910
abgeflaut. Wir haben einen kleinen Peak
ungefähr 1995, da wurde die europäische
00:19:35.910 --> 00:19:41.100
Datenschutzrichtlinie verabschiedet. Aber
den richtigen Anstieg hatten wir dann erst
00:19:41.100 --> 00:19:44.930
zur zweiten Welle. Da kamen dann
Diskussionen auf wie Zensursula und die
00:19:44.930 --> 00:19:51.590
DSGVO. Also bei Zensursula wurde halt
diskutiert, inwiefern der Staat eigentlich
00:19:51.590 --> 00:19:57.420
das Recht hat, Inhalte im Internet zu
zensieren. Auf der anderen Seite wurde
00:19:57.420 --> 00:20:04.530
auch sehr, sehr stark diskutiert, ob der
Staat eigentlich das Recht hat,
00:20:04.530 --> 00:20:08.420
Hausdurchsuchungen auf den eigenen
Rechnern quasi durchzuführen. Das heißt,
00:20:08.420 --> 00:20:11.321
die zwei Wellen, die wir jetzt hier sehen,
die sind ziemlich plausibel. Das waren
00:20:11.321 --> 00:20:16.800
tatsächlich die Zeiten, in denen die
Debatte um den Datenschutz ziemlich stark
00:20:16.800 --> 00:20:22.290
ausgeführt wurde. Okay, jetzt schauen wir
uns mal an, welche Dimension wir
00:20:22.290 --> 00:20:25.470
eigentlich dazu packen können, um
vielleicht mehr Informationen darüber zu
00:20:25.470 --> 00:20:29.380
bekommen, wie das denn diskutiert wurde
und welche Partei sich mehr und welche
00:20:29.380 --> 00:20:35.580
Partei sich weniger darum gekümmert hat um
dieses Thema. Und dazu haben wir uns mal
00:20:35.580 --> 00:20:41.460
angeschaut, wie die historisch zwei großen
Parteien in Deutschland diese Themen
00:20:41.460 --> 00:20:46.440
behandelt haben. Zuerst haben wir uns die
CDU angeschaut und wir sehen, dass die CDU
00:20:46.440 --> 00:20:51.300
in der ersten Welle deutlich
überdurchschnittlich über das Thema
00:20:51.300 --> 00:20:56.950
Datenschutz gesprochen hat, im Plenarsaal,
in der zweiten Welle aber deutlich
00:20:56.950 --> 00:21:01.320
unterdurchschnittlich. Im Vergleich dazu
haben wir uns dann mal angeschaut, wie die
00:21:01.320 --> 00:21:06.020
SPD drüber gesprochen hat. Die SPD hat der
ersten Welle unterdurchschnittlich viel
00:21:06.020 --> 00:21:12.120
über Datenschutz gesprochen oder hatte in
ihren Reden deutlich weniger Datenschutz
00:21:12.120 --> 00:21:16.620
aufgegriffen. In der zweiten Welle oder im
Beginn der zweiten Welle ein bisschen
00:21:16.620 --> 00:21:20.730
überdurchschnittlich, dann hat es aber
deutlich abgeflacht. Das könnte - wird
00:21:20.730 --> 00:21:26.090
höchstwahrscheinlich damit zu tun haben,
dass während der ersten Welle die SPD in
00:21:26.090 --> 00:21:30.920
der Regierung war und die CDU nicht, dass
die CDU das deshalb vielleicht als
00:21:30.920 --> 00:21:37.650
relevanter angesehen hat, das Thema
Datenschutz intensiver zu besprechen. In
00:21:37.650 --> 00:21:42.350
der zweiten Welle sehen wir, dass zum
Beginn der zweiten Welle die SPD noch eine
00:21:42.350 --> 00:21:46.710
Opposition war. Aktuell ist sie natürlich
mit in der Regierung. Das könnte die
00:21:46.710 --> 00:21:50.680
Bewegung erklären, warum zu Beginn der
zweiten Welle die SPD leicht
00:21:50.680 --> 00:21:56.480
überdurchschnittlich oder das Thema
Datenschutz leicht überdurchschnittlich
00:21:56.480 --> 00:22:02.700
relevant fand, dann aber zunehmend
weniger. Wir plotten mal noch zwei andere
00:22:02.700 --> 00:22:08.550
spannende Parteien dazu, nämlich die FDP
und die Grünen. Da können wir nämlich
00:22:08.550 --> 00:22:14.720
ablesen, dass diese zwei
Oppositionsparteien, zumindest in der
00:22:14.720 --> 00:22:20.940
Zeit, dass diese zwei Parteien auch nach
dem Abflauen der ersten Welle die Relevanz
00:22:20.940 --> 00:22:25.720
aufrecht erhalten haben. Das heißt, diese
zwei Parteien hatten das Thema trotzdem
00:22:25.720 --> 00:22:30.550
weiter im Fokus gehalten. Okay, schauen
wir uns eine andere Dimension an. Wir
00:22:30.550 --> 00:22:34.360
schauen uns mal an, wie das vielleicht mit
dem Alter zu tun haben könnte. Und zwar
00:22:34.360 --> 00:22:40.760
haben wir das Alter der Politiker:in nach
dem Durchschnitt ungefähr geteilt. Das
00:22:40.760 --> 00:22:44.170
heißt, das Durchschnittsalter des
Bundestags aktuell liegt ungefähr bei 50
00:22:44.170 --> 00:22:47.580
Jahren. Und so haben wir jetzt
unterschieden nach eher jüngeren
00:22:47.580 --> 00:22:52.590
Politikern, die unter 50 Jahre zum
Zeitpunkt der Rede waren und älteren
00:22:52.590 --> 00:22:57.660
Politikern, die älter als 50 waren zum
Zeitpunkt der Rede. Und hier sehen wir,
00:22:57.660 --> 00:23:03.350
dass die jüngeren Politiker das Thema
Datenschutz deutlich relevanter finden als
00:23:03.350 --> 00:23:08.540
die älteren. Okay, als letzte Dimension
schauen wir uns jetzt nochmal an, ob das
00:23:08.540 --> 00:23:14.570
dann vielleicht auch ein Zusammenhang mit
dem akademischen Grad hat bzw. ob eine
00:23:14.570 --> 00:23:21.160
Politikerin oder ein Politiker einen
Doktortitel trägt. Und an der Stelle sehen
00:23:21.160 --> 00:23:26.550
wir das, wenn eine Politiker:in einen
Doktortitel trägt, das dann tendenziell
00:23:26.550 --> 00:23:31.360
überdurchschnittlich über Datenschutz
gesprochen wird, als wenn die Person
00:23:31.360 --> 00:23:36.750
keinen Doktortitel hat. Man könnte jetzt
versuchen, das irgendwie zusammenzufassen.
00:23:36.750 --> 00:23:40.040
Beispielsweise könnte man versuchen, das
so zu interpretieren, dass wenn man
00:23:40.040 --> 00:23:43.641
möchte, dass im Plenarsaal viel über
Datenschutz gesprochen wird, dann sollte
00:23:43.641 --> 00:23:49.740
man Oppositionsparteien wählen, die eher
jüngere Leute hat. Und diese jüngeren
00:23:49.740 --> 00:23:53.850
Leuten sollten vielleicht eher einen
Doktortitel tragen, vielleicht aber auch
00:23:53.850 --> 00:23:59.050
nicht. Genau. Aber genau. Diese
Auswertungen waren vorher nicht möglich.
00:23:59.050 --> 00:24:02.170
Und jetzt könnte man reinschauen und
gucken: Okay, was steckt denn da
00:24:02.170 --> 00:24:06.090
eigentlich drin? Welche Bewegungen stecken
denn in diesen Daten? Wir wollen jetzt
00:24:06.090 --> 00:24:11.490
nochmal zwei Personen krönen, die sich
sehr verdient gemacht haben, also die sehr
00:24:11.490 --> 00:24:15.570
oder die höchste Relevanzwerte hatten für
das Thema Datenschutz in der ersten und in
00:24:15.570 --> 00:24:20.430
der zweiten Welle. In der ersten Welle
geht diese Auszeichnung an Burkhard
00:24:20.430 --> 00:24:24.920
Hirsch, der insbesondere zum ersten in der
ersten Phase der ersten Welle
00:24:24.920 --> 00:24:30.280
Innenminister war und sich ganz stark
gegen staatliche Überwachung eingesetzt
00:24:30.280 --> 00:24:34.710
hat. Das heißt, das klingt auch sehr
plausibel, dass unsere Analyse Burkhard
00:24:34.710 --> 00:24:40.410
Hirsch hier als Vorreiter sieht. In der
zweiten Welle haben unsere Analysen
00:24:40.410 --> 00:24:44.920
ergeben, dass das Gisela Piltz war, die
sich in besonderem Maße mit Datenschutz
00:24:44.920 --> 00:24:49.270
auseinandergesetzt hat. Und Gisela Piltz
hat sich ganz... oder setzt sich ganz
00:24:49.270 --> 00:24:55.090
stark gegen die Vorratsdatenspeicherung
ein. Also von daher wirkt auch das
00:24:55.090 --> 00:25:00.760
ziemlich plausibel. Genau. Das wäre jetzt
das Beispiel Datenschutz, das wir
00:25:00.760 --> 00:25:04.520
aufbereitet haben, um zu gucken: Okay, was
könnte in diesen Daten denn drinstecken
00:25:04.520 --> 00:25:07.900
und welche spannenden Fragen könnte man
denn damit eigentlich stellen und
00:25:07.900 --> 00:25:13.280
potenziell auch beantworten? Jetzt haben
wir uns noch ein zweites großes Thema
00:25:13.280 --> 00:25:16.260
angeschaut, was gerade in den letzten
Jahren ganz, ganz stark an Relevanz
00:25:16.260 --> 00:25:21.320
gewonnen hat. Und da wird euch Philipp
jetzt mal erzählen, was wir da so gefunden
00:25:21.320 --> 00:25:23.640
haben.
Philipp: Genau. Also wir kommen nochmal
00:25:23.640 --> 00:25:28.331
ein bisschen vom Datenschutz zum
Klimaschutz und stellen uns so ein
00:25:28.331 --> 00:25:33.620
bisschen den gleichen methodischen Ansatz.
Also wir gucken mal, wie das reine Wort
00:25:33.620 --> 00:25:37.080
Klimaschutz verwendet wurde. Und wir
stellen fest, dass das Wort Klimaschutz
00:25:37.080 --> 00:25:41.831
eigentlich ein relativ neuer Begriff ist.
Ab den 2000ern. Aber zurück zu dem, was
00:25:41.831 --> 00:25:45.570
Florian gerade eben schon gesagt hat Die
reine Analyse einzelner Begriffe ist noch
00:25:45.570 --> 00:25:50.050
nicht ausreichend, um diesen Themenkomplex
und die latenten Grundstrukturen darunter
00:25:50.050 --> 00:25:54.791
zu erfassen. Deswegen reicht dieser
Begriff Klimaschutz nicht, sondern wir
00:25:54.791 --> 00:25:58.540
haben auch hier wieder ein automatisiertes
LDA Topic Modeling verwendet, was uns
00:25:58.540 --> 00:26:02.920
hunderte Begriffe automatisiert findet,
die da reinpassen. Also natürlich kann ich
00:26:02.920 --> 00:26:06.580
über Klimaschutz reden, ohne den Begriff
Klimaschutz zu verwenden. Ich kann über
00:26:06.580 --> 00:26:10.400
das Emissionsschutzgesetz sprechen. Ich
kann über Nachhaltigkeit, über erneuerbare
00:26:10.400 --> 00:26:14.111
Energien reden, ohne auch nur einmal das
Wort Klimaschutz zu verwenden. Dieses
00:26:14.111 --> 00:26:18.560
Thema also voll fokussieren. Deswegen
haben wir daraus ein Thema gemacht und
00:26:18.560 --> 00:26:22.140
gucken uns jetzt diesen ganzen Komplex an
und nicht mehr nur den Begriff. Wenn wir
00:26:22.140 --> 00:26:27.890
das tun, dann stellen wir fest, dass seit
1949 dieses Thema nicht erst in den
00:26:27.890 --> 00:26:31.730
2000ern an Relevanz gewonnen hat, sondern
auch früher schon da war. Wenn ich jetzt
00:26:31.730 --> 00:26:34.900
auch hier wieder so ein bisschen die
Wegmarker setze, dann kann ich auch das
00:26:34.900 --> 00:26:39.690
validieren. Also die ersten
Umweltprogramme von Willy Brandt 1970, der
00:26:39.690 --> 00:26:45.870
Einzug der Grünen in den Bundestag, die
Atomkatastrophe von Tschernobyl. Wir haben
00:26:45.870 --> 00:26:50.740
danach in den 90ern, das ist auch relativ
plausibel, ein Abschwachen dieses Themas,
00:26:50.740 --> 00:26:53.330
denn wir hatten gerade in der
Wiedervereinigung dann
00:26:53.330 --> 00:26:57.010
Verteilungskonflikte, die so ein bisschen
relevanter wurden. Dadurch ist das Thema
00:26:57.010 --> 00:27:02.330
des Klimawandels und des Klimaschutzes so
ein bisschen hinten runtergefallen. Wir
00:27:02.330 --> 00:27:06.379
haben weitere Punkte - wir haben die rot
grüne Regierung von Schröder und Fischer
00:27:06.379 --> 00:27:11.460
2000, so Richtung 2000 2005. Wir haben
Fukushima und die Energiewende. Wir haben
00:27:11.460 --> 00:27:15.640
das Pariser Klimaschutzabkommen. Und wir
sehen jetzt auch schon diesen Drall nach
00:27:15.640 --> 00:27:20.410
oben, insbesondere durch Fridays For
Future und die neue Auseinandersetzung mit
00:27:20.410 --> 00:27:23.750
der Einhaltung des Pariser
Klimaschutzabkommens. Was wir jetzt hier
00:27:23.750 --> 00:27:27.360
wieder machen können, ist: Wir können uns
wieder angucken, wie einzelne Parteien
00:27:27.360 --> 00:27:30.490
denn eigentlich darüber reden. Und wir
können feststellen, dass die CDU ziemlich
00:27:30.490 --> 00:27:34.140
durchschnittlich über dieses Thema redet.
In den letzten Jahren sogar deutlich
00:27:34.140 --> 00:27:37.100
abfallend, also deutlich
unterdurchschnittlich. Gerade seit dem
00:27:37.100 --> 00:27:41.410
Pariser Klimaschutzabkommen ist das Thema
für die CDU nicht mehr ganz so relevant
00:27:41.410 --> 00:27:45.720
vielleicht. Wir können die SPD plotten,
das sieht auch ganz durchschnittlich aus.
00:27:45.720 --> 00:27:49.230
Bei der FDP sieht es auch ganz
durchschnittlich aus, bei den Linken sogar
00:27:49.230 --> 00:27:52.880
ein Stück unterdurchschnittlich. Und so
ein bisschen wie erwartet sind es die
00:27:52.880 --> 00:27:57.280
Grünen, die dieses Thema extrem pushen und
die diesen Diskurs sehr, sehr hoch halten.
00:27:57.280 --> 00:28:02.190
Das heißt, die Grünen ziehen hier deutlich
den den Rolling Mean nach oben und steuern
00:28:02.190 --> 00:28:06.170
dieses Thema ganz stark. Wir können aber
auch hier noch ein bisschen weiter
00:28:06.170 --> 00:28:09.010
reingucken, nämlich: Wer sind das denn?
Sind es die jüngeren oder sind es die
00:28:09.010 --> 00:28:12.890
älteren Politiker? Wenn ich mir hier das
mal angucke, dann stelle ich fest, dass
00:28:12.890 --> 00:28:17.140
die mittelalten Politiker zwischen 39 und
59 sich mit dem Thema sehr
00:28:17.140 --> 00:28:21.420
durchschnittlich auseinandersetzen. Und so
ein bisschen wie erwarten kann ich mir
00:28:21.420 --> 00:28:25.220
dann entsprechend vorstellen, dass sich
ältere Politiker über 60 mit diesem Thema
00:28:25.220 --> 00:28:30.080
sehr gering, sehr unterdurchschnittlich
auseinandersetzen und jüngere
00:28:30.080 --> 00:28:35.110
Politikerinnen unter 39 sich mit diesem
Thema deutlich stärker auseinandersetzen.
00:28:35.110 --> 00:28:39.390
Wir sehen auch hier nicht nur eine
stärkere Auseinandersetzung, sondern eben
00:28:39.390 --> 00:28:43.190
auch eine frühere Auseinandersetzung.
Während bei älteren Politikerinnen diese
00:28:43.190 --> 00:28:46.500
Auseinandersetzung immer zeitlich rechts
versetzt ist und immer deutlich weniger
00:28:46.500 --> 00:28:51.050
intensiv ist. Wir können mit dem Open
Discourse Datensatz die Stammdaten des
00:28:51.050 --> 00:28:54.670
Deutschen Bundestages anzapfen und noch
ein kleines Stück tiefer gehen. Wir können
00:28:54.670 --> 00:28:59.120
nämlich die Berufe der Abgeordneten
auswerten. Jeder Abgeordnete gibt seinen
00:28:59.120 --> 00:29:04.480
Beruf oder seinen seinen beruflichen
Hintergrund an. Und diese Daten können wir
00:29:04.480 --> 00:29:08.390
auswerten. Wir haben über 1 000 unique
Berufsbezeichnungen von über 4 000
00:29:08.390 --> 00:29:11.760
Politiker:innen. Wenn ich mir die jetzt
hier mal so angucke, dann sind es Ärzte
00:29:11.760 --> 00:29:16.460
und Apotheker und Unternehmer und
Landwirte und Buchhalter:innen. Und wenn
00:29:16.460 --> 00:29:21.920
ich das so ein bisschen cluster, dann hab
ich jetzt für die folgende Analyse mal 12
00:29:21.920 --> 00:29:25.900
Berufsgruppen gefiltert. Und jetzt kann
man sich angucken, welche Berufsgruppen
00:29:25.900 --> 00:29:30.090
denn dieses Thema besonders stark
fokussieren. Und was auch wieder sehr
00:29:30.090 --> 00:29:33.450
erwartbar ist, ist, dass die
Naturwissenschaftler:innen dieses Thema
00:29:33.450 --> 00:29:37.850
deutlich stärker fokussieren, als andere
das tun. Also das Thema ist sehr
00:29:37.850 --> 00:29:44.940
exorbitant getragen durch Physiker:innen,
durch Biolog:innen, durch alle Personen,
00:29:44.940 --> 00:29:49.330
die irgendwie einen Berufshintergrund in
dem Feld der Naturwissenschaften haben.
00:29:49.330 --> 00:29:54.840
Ich habe uns hier immer noch die
Agrarwirte dazu geplottet. Also alle
00:29:54.840 --> 00:29:59.130
Landwirte und alle Forstwirte und die, die
Bauer oder Bäuerin als Berufsbezeichnung
00:29:59.130 --> 00:30:04.140
angegeben haben. Wir sehen, dass es in der
ersten Welle der Klimadebatte noch sehr
00:30:04.140 --> 00:30:10.130
relevant war und jetzt grad so Richtung
der neueren Zeit für die Landwirte ein
00:30:10.130 --> 00:30:13.870
unterdurchschnittlich relevantes Thema
geworden ist. Und wir können feststellen,
00:30:13.870 --> 00:30:18.290
dass die, die eine Berufsbezeichnung im
Wirtschaftsfeld angegeben haben, sich mit
00:30:18.290 --> 00:30:21.780
diesem Thema auch auseinandersetzen.
Allerdings deutlich weniger intensiv und
00:30:21.780 --> 00:30:25.350
auch wieder rechts verlagert, also
zeitlich zurück verlagert, nachdem sich
00:30:25.350 --> 00:30:30.550
die Naturwissenschaftler:innen mit diesem
Thema zuerst auseinandergesetzt haben. Was
00:30:30.550 --> 00:30:34.830
können wir feststellen oder was könnten
wir mal so ein bisschen uns angucken? Wir
00:30:34.830 --> 00:30:37.550
können uns angucken, was denn eigentlich
die perfekte Gruppe ist, um sich mit dem
00:30:37.550 --> 00:30:40.890
Thema Klimaschutz auseinanderzusetzen und
diese perfekte Trennlinie zwischen der
00:30:40.890 --> 00:30:44.970
perfekten Gruppe von Abgeordneten und der
schlechtesten Gruppe von Abgeordneten, die
00:30:44.970 --> 00:30:49.610
macht sich ziemlich einfach am Geschlecht
und an dem Alter fest. Wenn ich also mir
00:30:49.610 --> 00:30:53.472
mal angucke, wie sich alte männliche
Politiker mit dem Thema auseinandersetzen
00:30:53.472 --> 00:30:57.740
im Vergleich zu jungen weiblichen
Politikerinnen, dann stelle ich fest, dass
00:30:57.740 --> 00:31:01.130
wir da sowohl wieder eine frühere
Auseinandersetzung mit diesem Thema haben.
00:31:01.130 --> 00:31:04.590
Wir haben eine intensivere
Auseinandersetzung mit dem Thema und für
00:31:04.590 --> 00:31:08.550
ältere Politiker, in diesem Fall jetzt
hier über 60, ist die Auseinandersetzung
00:31:08.550 --> 00:31:15.620
wirklich sehr weit unter dem Durchschnitt
des Parlaments. Wir können uns also hier
00:31:15.620 --> 00:31:19.060
vielleicht ein bisschen überlegen, welche
Person wir denn ganz gerne im Bundestag
00:31:19.060 --> 00:31:25.030
hätten, um progressive Themen, so auch den
Datenschutz stärker zu treiben. Wir können
00:31:25.030 --> 00:31:28.240
auch hier im Klimawandel wieder die Top
Runner identifizieren, das können wir
00:31:28.240 --> 00:31:31.740
beliebig operationalisieren. Wir haben uns
immer die Vielredner genommen. Also
00:31:31.740 --> 00:31:35.590
Politiker:innen mit mehr als 500 Reden.
Und haben dann geguckt: Welche haben denn
00:31:35.590 --> 00:31:40.430
den höchsten Klima-Score auf dieses Topic?
Tatsächlich ist es Angela Merkel, die als
00:31:40.430 --> 00:31:44.070
Vielrednerin sich mit diesem Thema am
stärksten auseinandergesetzt haben. Wir
00:31:44.070 --> 00:31:47.100
wollten uns aber auch nochmal einen
Newcomer angucken, in großen
00:31:47.100 --> 00:31:52.100
Anführungszeichen, also Politiker:innen
mit 100 bis 500 Reden. Und da ist es Julia
00:31:52.100 --> 00:31:54.940
Verlinden von den Grünen, die sich am
stärksten mit diesem Thema
00:31:54.940 --> 00:31:59.080
auseinandersetzt. Das ganze Fridays For
Future hat immer auch das... geht es immer
00:31:59.080 --> 00:32:04.531
viel um das Schwänzen und um das
Fernbleiben von Inhalten. Und wir haben
00:32:04.531 --> 00:32:08.160
uns deswegen mal angeguckt, wer denn so
die großen Klimaschwänzer sind im
00:32:08.160 --> 00:32:12.140
Deutschen Bundestag. Das haben wir
operationalisiert, indem wir gesagt haben,
00:32:12.140 --> 00:32:16.256
wir wollen nicht den Politiker, die
Politikerin mit dem geringsten Wert über
00:32:16.256 --> 00:32:19.650
die gesamte Zeit finden, sondern wir
wollen so einen Punkt nehmen, ab dem die
00:32:19.650 --> 00:32:23.610
Klimadebatte wohl in aller Munde sein
müsste. Und wir haben dafür den ersten
00:32:23.610 --> 00:32:30.360
Global Climate Strike genommen, am 19., am
15. März 2019. Und wir haben dann von den
00:32:30.360 --> 00:32:34.810
Politikern geguckt, die die Gelegenheit
hatten, darüber zu reden. Also die
00:32:34.810 --> 00:32:39.400
mindestens 40 Redebeiträge seitdem hatten,
wie sie sich damit auseinandersetzen. Wir
00:32:39.400 --> 00:32:42.251
stellen fest, dass diejenigen, die sich am
wenigsten damit auseinandersetzen, drei
00:32:42.251 --> 00:32:46.860
Männer sind, alle aus der gleichen
Fraktion. Wir haben also Volker Ullrich,
00:32:46.860 --> 00:32:50.710
der sich trotz Gelegenheit am wenigsten
damit auseinandersetzt. Wir haben Thorsten
00:32:50.710 --> 00:32:54.390
Frei, der sich trotz Gelegenheit am
zweitwenigsten damit auseinandersetzt. Und
00:32:54.390 --> 00:32:58.210
wir haben hier auch den Spätzünder im
Klimathema, Philipp Amthor, der sich trotz
00:32:58.210 --> 00:33:01.320
sehr vieler Reden nie mit diesem Thema
oder sehr selten mit diesem Thema
00:33:01.320 --> 00:33:04.930
auseinandersetzt. Wichtig ist hier
vielleicht noch zu sagen, dass wir nicht
00:33:04.930 --> 00:33:08.950
die reinen Reden zum Klimawandel zählen,
sondern dass allein die Verwendung von den
00:33:08.950 --> 00:33:12.830
relevanten Begriffen, um dieses Thema ein
bisschen z.B. in Steuer- oder in
00:33:12.830 --> 00:33:16.510
Haushaltsdebatten zu bringen, hier gezählt
wird. Also wir haben eine sehr komplexe
00:33:16.510 --> 00:33:23.710
Betrachtung des gesprochenen Wortes.
Florian: Genau. Soviel erst einmal zu
00:33:23.710 --> 00:33:28.500
einigen Analysen, die wir bisher
durchgeführt haben. Wie bereits
00:33:28.500 --> 00:33:33.870
angesprochen ist unser eigentliches Ziel
ja aber, dass ihr und alle anderen auch
00:33:33.870 --> 00:33:39.531
Analysen jetzt mit diesen Daten
durchführen können und auf unserem Weg bis
00:33:39.531 --> 00:33:43.330
zur Veröffentlichung, die jetzt im Rahmen
oder auch zu genau dieser Zeit, wenn wir
00:33:43.330 --> 00:33:49.840
diesen Vortrag halten, passiert, haben
schon andere Partner und Partnerinnen, mit
00:33:49.840 --> 00:33:53.260
denen wir zusammengearbeitet haben oder
die mit unseren Daten schon arbeiten
00:33:53.260 --> 00:33:56.151
konnten, ein paar Analysen durchgeführt
oder sind gerade dabei, diese Analysen
00:33:56.151 --> 00:34:00.850
noch durchzuführen. Beispielsweise
CorrelAid, CorrelAid ist ein Netzwerk von
00:34:00.850 --> 00:34:06.250
freiwilligen Data Scientists. Und bei
CorrelAid haben sich zwei Projektteams
00:34:06.250 --> 00:34:09.790
zusammengefunden, die mit unseren Daten
schon seit einiger Zeit ein bisschen herum
00:34:09.790 --> 00:34:14.240
arbeiten. Und die werden auch bald ihre
Ergebnisse und Analysen veröffentlichen.
00:34:14.240 --> 00:34:18.399
Die findet ihr dann zum einen in den
entsprechenden Kanälen von CorrelAid. Auf
00:34:18.399 --> 00:34:21.750
der anderen Seite werden wir die auch bei
uns auf unserer Open Discourse Website
00:34:21.750 --> 00:34:28.040
dann zu gegebener Zeit einbetten. Ein paar
Sachen, die da beispielsweise schon
00:34:28.040 --> 00:34:33.710
gemacht wurden, ist Ann-Kristin Vester hat
sich angeschaut, wie eigentlich die
00:34:33.710 --> 00:34:38.970
Geschlechter im Bundestag auftreten, wie
die, wie der Sprachgebrauch sich
00:34:38.970 --> 00:34:42.870
unterscheidet. An der Stelle auch
nochmal kurz hier der Hinweis bei allen
00:34:42.870 --> 00:34:46.630
Analysen, die wir bisher durchgeführt
haben: Wir betrachten Geschlecht bisher
00:34:46.630 --> 00:34:51.020
immer binär, weil der Bundestag das nicht
anders hergibt. Es gibt bloß eine binäre
00:34:51.020 --> 00:34:55.220
Geschlechtseinteilung. Deswegen mussten
wir das in den Analysen auch so vornehmen
00:34:55.220 --> 00:34:58.970
und das ist auch der Artikel, den Ann-
Kristin Vester geschrieben hat, das ist
00:34:58.970 --> 00:35:04.470
auch dort mit erwähnt. Also eine tiefere
oder eine diversere Untersuchung von den
00:35:04.470 --> 00:35:09.640
Geschlechtern im Bundestag ist aktuell
leider noch nicht möglich. Genau. Eine
00:35:09.640 --> 00:35:13.670
andere Analyse wurde von Alexandra Wörner
durchgeführt. Alexandra Wörner hat sich
00:35:13.670 --> 00:35:17.100
angeschaut, wie denn eigentlich über
Diskriminierung im Bundestag gesprochen
00:35:17.100 --> 00:35:21.040
wurde, von welchen Parteien das wie
intensiv benutzt wurde oder darüber
00:35:21.040 --> 00:35:25.240
gesprochen wurde und wie sich das über den
zeitlichen Verlauf verändert hat. Auch
00:35:25.240 --> 00:35:29.870
ziemlich spannend. Ein anderes Projekt,
das bereits mit unseren Daten durchgeführt
00:35:29.870 --> 00:35:34.361
wurde, kam von ZDF heute.
Datenjournalist:innen von ZDF Heute hatten
00:35:34.361 --> 00:35:39.620
uns Frühsommer/Sommer angeschrieben und
gefragt, ob sie unsere Daten nicht schon
00:35:39.620 --> 00:35:45.800
vor Veröffentlichung mal haben könnten, um
zu schauen, ob sie diese Daten für einen
00:35:45.800 --> 00:35:51.380
Artikel schon nutzen könnten. Und daraus
ist ein Artikel entstanden, in dem sich
00:35:51.380 --> 00:35:55.950
die Journalist:innen damit
auseinandergesetzt haben, wie der
00:35:55.950 --> 00:36:01.530
Bundestag denn eigentlich über Pandemien
und über das Coronavirus im speziellen
00:36:01.530 --> 00:36:06.150
unterhalten hat oder wie das debattiert
wurde. Das Ergebnis war eher, dass der
00:36:06.150 --> 00:36:09.360
Bundestag da nicht besonders viel
Aufmerksamkeit draufgelegt hat. Auch ein
00:36:09.360 --> 00:36:14.790
sehr spannender Artikel. Und als letztes
wollen wir noch kurz das Projekt Open
00:36:14.790 --> 00:36:20.660
Parliament TV eher anteasern, weil der
offizielle Veröffentlichungstermin ist für
00:36:20.660 --> 00:36:26.860
Mai 2021 vorgesehen. Open Parliament TV
hat als Kernziel eigentlich ein sehr
00:36:26.860 --> 00:36:32.201
ähnliches Ideal wie wir bei Open
Discourse. Es geht darum, den Bundestag
00:36:32.201 --> 00:36:37.430
transparenter zu machen. Open Parliament
TV hat dabei das Ziel, die
00:36:37.430 --> 00:36:41.830
Videomitschnitte der Plenardebatten mit
den entsprechenden Transkripten, also
00:36:41.830 --> 00:36:46.730
Plenarprotokollen zusammenzuführen, um
darüber eine noch viel wirksamere oder
00:36:46.730 --> 00:36:52.001
detailliertere Recherchefunktion zu
ermöglichen. Und an der Stelle wird
00:36:52.001 --> 00:36:56.570
gerade evaluiert, wie die Daten von Open
Discourse diesem Projekt noch weiter
00:36:56.570 --> 00:37:06.250
helfen können. Genau. Und jetzt wieder zu
euch. Wie gerade schon angesprochen sind
00:37:06.250 --> 00:37:11.900
unsere Daten ab sofort und unserer Source
Code komplett öffentlich verfügbar. Das
00:37:11.900 --> 00:37:15.870
heißt, ihr habt jetzt die Möglichkeit, mit
diesen Daten zu machen, was ihr wollt. Wir
00:37:15.870 --> 00:37:20.370
haben bei der Veröffentlichung das Ziel
gehabt, die so verfügbar wie möglich zu
00:37:20.370 --> 00:37:26.700
machen und haben dabei auf drei große
Säulen versucht zu achten. Die erste Säule
00:37:26.700 --> 00:37:31.640
dabei sind die Techniker:innen unter euch,
also alle Techniker:innen unter euch. Ihr
00:37:31.640 --> 00:37:37.170
könnt euch unsere GitHub Seite anschauen
von Open Discourse und dort findet ihr
00:37:37.170 --> 00:37:40.400
natürlich den Source Code. Ihr könnt das
alles auschecken, lokal bei euch
00:37:40.400 --> 00:37:43.980
aufsetzen, überprüfen, wie wir eigentlich
vorgegangen sind, verbessern,
00:37:43.980 --> 00:37:50.400
Schwachstellen finden. Außerdem findet ihr
auf der GitHub Seite auch einen Docker
00:37:50.400 --> 00:37:55.051
Container, wo die komplette Datenbank als
Image vorliegt, d.h. die könnt ihr euch
00:37:55.051 --> 00:38:00.770
auch sofort aufsetzen oder halt nochmal
neu generieren lassen, wenn ihr wollt. Für
00:38:00.770 --> 00:38:05.560
die Analytiker:innen und die
Wissenschaftler:innen unter euch haben wir
00:38:05.560 --> 00:38:11.280
ein Harvard Dataverse angelegt. Dort
findet ihr die aktuelle Version unserer
00:38:11.280 --> 00:38:15.430
Datenbank als Data Dump und wir haben das
in vier verschiedenen Dateiformaten
00:38:15.430 --> 00:38:21.050
bereitgestellt als CSV, Feather, Pickle
und RDS-Files, damit ihr je nachdem, womit
00:38:21.050 --> 00:38:26.400
ihr am liebsten arbeitet, genau das
perfekte Dateiformat für euch findet. Und
00:38:26.400 --> 00:38:31.900
als letztes haben wir noch für quasi Quick
Reviews oder schnelle Recherchen auf
00:38:31.900 --> 00:38:36.250
unserer Webseite eine Volltextsuche mit
Filter-Option bereitgestellt. Da könnt ihr
00:38:36.250 --> 00:38:44.420
also nach Stichworten, nach
Parteizugehörigkeit, nach den Namen der
00:38:44.420 --> 00:38:50.450
Politiker, nach Datum usw. filtern und
schauen, ob euch was spannendes auffällt
00:38:50.450 --> 00:38:59.430
oder ob ihr eure Fragen beantworten könnt.
Genau. So viel dann erst mal von uns. Wir
00:38:59.430 --> 00:39:04.310
bedanken uns ganz, ganz herzlich für euer
Interesse und dass ihr uns zugehört habt.
00:39:04.310 --> 00:39:07.360
Wir bedanken uns natürlich auch bei der C
Base dafür, dass wir das Video hier
00:39:07.360 --> 00:39:12.060
aufnehmen konnten. Bei Fragen und
Anregungen schreibt uns gerne eine Mail
00:39:12.060 --> 00:39:17.550
oder kontaktiert uns über die
einschlägigen Kanäle. Oder wir sprechen
00:39:17.550 --> 00:39:26.280
uns dann gleich bei der Fragerunde. Alles
klar. Vielen Dank. Danke schön.
00:39:26.280 --> 00:39:30.640
Herald: Wir sind nun mit den Sprechern
verbunden, sind uns zugeschaltet für
00:39:30.640 --> 00:39:33.871
Fragen und Antworten, die uns zugespielt
worden sind. Herzlich willkommen!
00:39:33.871 --> 00:39:39.470
Philipp & Florian: Hallo!
Herald: Die zweite Welle des Datenschutzes ist
00:39:39.470 --> 00:39:43.510
ja angesichts der Zeit gerade die perfekte
Metapher. Wie lange wird die zweite Welle
00:39:43.510 --> 00:39:48.730
des Datenschutzes wohl noch gehen?
Florian: Ja, gute Frage. Keine Ahnung. Man
00:39:48.730 --> 00:39:54.520
hat ja gesehen, dass es schon ein bisschen
bergab wieder geht, aber viel mehr kann
00:39:54.520 --> 00:39:57.870
ich da eigentlich nicht zu sagen. Aber es
ist spannend, das jetzt im Auge behalten
00:39:57.870 --> 00:40:00.610
zu können.
Herald: Ist auf jeden Fall auf absehbare
00:40:00.610 --> 00:40:04.610
Zeit nicht mit einer Impfung zu rechnen.
Eine Frage, die uns zugespielt worden ist
00:40:04.610 --> 00:40:10.960
über die Hashtags und über IRC, die wir
empfangen und die wir weitergeben, ist: Es
00:40:10.960 --> 00:40:14.380
gibt noch einen weiteren Text Korpus. Ihr
habt jetzt den Deutschen Bundestag
00:40:14.380 --> 00:40:17.890
analysiert, aber es gibt noch eine andere
legislative Kammer, die es lange Jahre
00:40:17.890 --> 00:40:22.350
gab, nämlich die Volkskammer der DDR. Gibt
es dort überhaupt entsprechende Unterlagen
00:40:22.350 --> 00:40:25.080
oder entsprechendes Material, das man
analysieren könnte?
00:40:25.080 --> 00:40:30.350
Florian: Da bin ich mir gar nicht so
sicher. Also ich hab - also davon weiß ich
00:40:30.350 --> 00:40:33.500
nichts. Wir hatten da jetzt auch gar nicht
so weiter reingeguckt. Wir hatten
00:40:33.500 --> 00:40:36.270
natürlich, während wir an dem Projekt
gearbeitet hatten, schon überlegt, wie man
00:40:36.270 --> 00:40:39.540
das alles noch weiterdenken könnte, was
man zusätzlich noch mit aufnehmen könnte.
00:40:39.540 --> 00:40:43.820
Da war die Volkskammer auch schon mal im
Gespräch, aber wir sind da jetzt erstmal
00:40:43.820 --> 00:40:47.990
nicht weiter rein gesprungen. Aber
prinzipiell wird das natürlich total
00:40:47.990 --> 00:40:52.060
spannend, noch weiter in die Richtung zu
denken und das auch noch mit aufzunehmen.
00:40:52.060 --> 00:40:57.330
Aber ich weiß gar nicht, ob es die
Plenarprotokolle da so auch detailliert
00:40:57.330 --> 00:41:02.050
gibt. Genau. Wahrscheinlich wäre es auch
ein relativ großer Aufwand, könnte ich mir
00:41:02.050 --> 00:41:05.850
vorstellen, die Regex Patterns, die wir
jetzt für den Bundestag aufbereitet haben,
00:41:05.850 --> 00:41:11.700
auf die Volkskammer zu übertragen. Weil
wenn sich da... also im Prinzip basiert,
00:41:11.700 --> 00:41:14.800
die Aufarbeitung, die wir gemacht haben
darauf, dass die Struktur in den
00:41:14.800 --> 00:41:18.380
Plenarprotokollen einigermaßen ähnlich
bleibt, über die Legislaturperioden. Die
00:41:18.380 --> 00:41:22.610
wird natürlich jedes Mal angepasst, wenn's
dann notwendig war. Auf der anderen Seite
00:41:22.610 --> 00:41:27.250
brauchen wir die Stammdaten der
Politiker:innen, weil wir das für die
00:41:27.250 --> 00:41:30.820
Fuzzy Matching Logiken nutzen, um zuweisen
zu können: Wer hat denn eigentlich was
00:41:30.820 --> 00:41:35.040
gesagt? Total spannend, das für die
Volkskammer auch noch zu machen.
00:41:35.040 --> 00:41:39.300
Vielleicht jetzt als nächster Schritt. Wir
sind erstmal froh, dass wir den Bundestag
00:41:39.300 --> 00:41:42.670
fertig bekommen haben.
Herald: Auf jeden Fall. Gibt es denn
00:41:42.670 --> 00:41:45.840
Wünsche, die ihr habt für die
Zugänglichkeit von Daten, die euch das
00:41:45.840 --> 00:41:48.870
Leben oder anderen das Leben
einfacher machen würden, bei solchen
00:41:48.870 --> 00:41:52.080
Auswertungen?
Philipp: Das ist glaube ich vor allem die
00:41:52.080 --> 00:41:54.750
strukturierte Erfassung, also eigentlich
hätte der Bundestag selbst die
00:41:54.750 --> 00:41:58.760
Möglichkeit, diese Daten von sich aus
schon strukturiert verfügbar zu machen.
00:41:58.760 --> 00:42:02.320
Vor allem, weil eben diese ganz einfachen
Sachen - ich suche nach Begriffen oder ich
00:42:02.320 --> 00:42:06.230
suche nach Themen oder ich möchte das mal
ein bisschen strukturiert durchsuchen -
00:42:06.230 --> 00:42:10.650
das ist derzeit eine absolut händische
Aufgabe und das ist eigentlich in unserer
00:42:10.650 --> 00:42:15.010
jetzigen Zeit ein kleines bisschen hinter
der Zeit hinterher. Von daher wäre es
00:42:15.010 --> 00:42:20.610
eigentlich sehr sinnvoll, wenn man so
Grundideen von strukturierter Datenhaltung
00:42:20.610 --> 00:42:24.220
dann auch in öffentlichen Verwaltungen
hätte, um eben diesen Zugang zu
00:42:24.220 --> 00:42:27.450
erleichtern. Der Bundestag hat uns jetzt
quasi eineinhalb Jahre Arbeit gekostet,
00:42:27.450 --> 00:42:32.900
das aufzubrechen. Und wär natürlich super,
wenn man solche Grundthemen der
00:42:32.900 --> 00:42:36.930
Datenhaltung, der öffentlich verfügbaren
Datenhaltung auch irgendwie direkt
00:42:36.930 --> 00:42:40.180
mitdenkt.
Florian: Ein ganz kleiner Nachtrag da
00:42:40.180 --> 00:42:43.670
noch. Ein großer Wunsch, der uns vieles
erleichtern würde, jetzt auch Open
00:42:43.670 --> 00:42:48.820
Discourse up to date zu halten, wäre ein
RSS-Feed vom Bundestag. Da sitzen auch die
00:42:48.820 --> 00:42:53.260
Leute von Open Parliament TV so ein
bisschen dran und hoffen, dass das
00:42:53.260 --> 00:42:56.480
irgendwie bereitgestellt wird. Aber das
würde uns natürlich ermöglichen,
00:42:56.480 --> 00:43:01.550
automatisiert den Datensatz zu erweitern,
sobald irgendwie eine neue Rede
00:43:01.550 --> 00:43:08.640
bereitgestellt wurde auf den Servern. Im
Moment geht das leider so noch nicht.
00:43:08.640 --> 00:43:12.690
Herald: Strukturierte, maschinenlesbare
Verwaltung und strukturierte Daten quasi
00:43:12.690 --> 00:43:17.850
als Wunsch. Es gibt ja zum Teil zumindest
eigene Projekte, wo aus dritter Hand
00:43:17.850 --> 00:43:22.310
solche Daten für Dritte bereitgestellt
werden, wie z.B. Wikidata. Ist das eine
00:43:22.310 --> 00:43:26.560
Quelle, auf die ihr euch, die ihr
verwenden könnt für so was?
00:43:26.560 --> 00:43:32.510
Florian: Genau. Teilweise hatten wir das
auch verwendet. Also auf dem Weg zum
00:43:32.510 --> 00:43:38.380
fertigen Produkt haben wir auch mit
Wikidata-Daten gearbeitet. Zum Beispiel
00:43:38.380 --> 00:43:44.050
gibt es in den Stammdaten ja Informationen
darüber, wo Personen geboren wurden und
00:43:44.050 --> 00:43:48.890
das sind die Originalgeburtsorte von
damals, quasi mit den historischen Namen.
00:43:48.890 --> 00:43:55.840
Und an der Stelle hatten wir dann mal als
Test-Experiment bei uns intern für jede
00:43:55.840 --> 00:44:02.120
Person, die wir im Bundestag hatten, jeden
Abgeordneten und jede Abgeordnete, die
00:44:02.120 --> 00:44:05.710
Wikidata-IDs rausgesucht, damit wir mappen
können: Okay, was ist denn jetzt
00:44:05.710 --> 00:44:08.530
eigentlich die ID für den Geburtsort
dahinter, damit wir damit weiterarbeiten
00:44:08.530 --> 00:44:12.350
können? Das liegt aber bei uns nur, also
das ist jetzt nicht Teil des Korpus, weil
00:44:12.350 --> 00:44:16.370
wir das nicht weit... also so weit
validiert haben, dass wir sicher sein
00:44:16.370 --> 00:44:21.080
können, dass das korrekt ist. Aber auf
jeden Fall. Also das wäre so ein bisschen
00:44:21.080 --> 00:44:24.330
die Anschlussfähigkeit, die wir uns
eigentlich wünschen. Also im Idealfall
00:44:24.330 --> 00:44:29.270
wäre jetzt und wäre vielleicht die
Community dazu auch aufgerufen, für jede
00:44:29.270 --> 00:44:33.900
Politiker:in noch die entsprechende
Wikidata ID mit zum am Korpus dazu zu
00:44:33.900 --> 00:44:40.710
packen, damit wir noch viel mehr Daten und
viel mehr Dimensionen haben für den ganzen
00:44:40.710 --> 00:44:44.330
Datensatz haben.
Herald: Wohin wenden sich denn Menschen,
00:44:44.330 --> 00:44:46.901
wenn sie bei eurem Projekt mitmachen
möchten?
00:44:46.901 --> 00:44:52.130
Florian: Am besten z.B.
zwischenruf@opendiscourse.de oder auf
00:44:52.130 --> 00:44:54.680
unserer Webseite opendiscourse.de findet
ihr auch verschiedene
00:44:54.680 --> 00:44:58.930
Kontaktmöglichkeiten. Ihr könnt natürlich
auch direkt über das Repository uns
00:44:58.930 --> 00:45:02.940
Tickets schreiben, falls ihr irgendwie
Sachen habt, die euch aufhalten. Twitter,
00:45:02.940 --> 00:45:08.750
Instagram, sämtliche Kanäle.
Herald: Alle sozialen Netzwerke. Seid ihr
00:45:08.750 --> 00:45:11.980
auf TikTok?
Florian: Nur privat...
00:45:11.980 --> 00:45:17.060
Herald: Zum Thema Transferierbarkeit gab's
dann auch nochmal eine Frage aus dem Chat.
00:45:17.060 --> 00:45:21.369
Zum Beispiel für die Republik Österreich.
Wie gehen den Menschen vor - ihr habt ja
00:45:21.369 --> 00:45:23.920
vorhin umrissen, dass es gar nicht so
einfach ist, so einen Datensatz zu
00:45:23.920 --> 00:45:26.911
analysieren. Aber wie würden denn Menschen
vorgehen, die sagen: Das finden sie
00:45:26.911 --> 00:45:29.330
interessant. Zum Beispiel für ihr
Landesparlament oder eben auch für ein
00:45:29.330 --> 00:45:34.680
anderes Land?
Florian: Genau, an der Stelle sind wir
00:45:34.680 --> 00:45:39.830
leider auch nicht ausreichend Expert:innen
für die Plenarprotokolle, wie die auf
00:45:39.830 --> 00:45:44.680
Landesebene aussehen. Also es könnte sein.
Wir haben da halt noch nicht reingeschaut.
00:45:44.680 --> 00:45:47.770
Es könnte sein, dass es eigentlich gar
nicht zu viele Abänderungen der Regex
00:45:47.770 --> 00:45:52.350
Patterns voraussetzt, um es zu übertragen.
Es könnte aber auch sein, dass es relativ
00:45:52.350 --> 00:45:58.730
aufwändig ist. Wir würden da jetzt so ein
bisschen auf die Stimmen von euch warten.
00:45:58.730 --> 00:46:03.110
Also was interessiert euch denn eigentlich
am meisten? Und wir sind natürlich auch
00:46:03.110 --> 00:46:08.430
sehr dankbar für jedes weitere Paar Augen,
das auf unsere Daten oder bzw. auf unseren
00:46:08.430 --> 00:46:12.110
Source Code draufschaut, um vielleicht
Ideen zu entwickeln, wie man das jetzt
00:46:12.110 --> 00:46:18.112
möglichst effizient auf andere
Anwendungsbereiche übertragen kann.
00:46:18.112 --> 00:46:22.619
Herald: Okay, dann ist noch eine Frage aus
dem Chat, nämlich vielleicht kam das im
00:46:22.619 --> 00:46:26.710
Talk vor. Er schreibt die Person: Aber wie
ist das Projekt zustande gekommen?
00:46:26.710 --> 00:46:33.040
Insbesondere von der Finanzierung her?
Philipp: Also die Idee, die Grundidee war
00:46:33.040 --> 00:46:37.570
glaube ich war, als wir zusammensaßen und
uns überlegt haben, wie können wir denn
00:46:37.570 --> 00:46:41.250
eigentlich in Anbetracht von so vielen
schönen und künstlerischen oder
00:46:41.250 --> 00:46:45.369
politischen Programmen und Aktionen die so
gibt, was können wir da eigentlich
00:46:45.369 --> 00:46:49.810
beitragen, um irgendwas zu machen? Wir
sind Informatiker und Data Scientists und
00:46:49.810 --> 00:46:53.660
das ist nicht so direkt der Punkt, wo man
jetzt die Welt ins Positive drehen kann.
00:46:53.660 --> 00:46:57.500
Aber dann ist uns aufgefallen, dass eben
diese Daten, der Datensatz nicht
00:46:57.500 --> 00:47:01.400
ausreichend verfügbar ist, dass der nicht
maschinenlesbar ist, dass es nur händisch
00:47:01.400 --> 00:47:05.010
durchsuchbare Protokolle sind. Und dann
haben wir diesen Datensatz genommen und
00:47:05.010 --> 00:47:08.340
aufgebrochenen. Grundlegend sind wir sonst
normalerweise in Agenturen und erbringen
00:47:08.340 --> 00:47:11.291
Data Science Machine Learning
Dienstleistungen. Und haben dieses Projekt
00:47:11.291 --> 00:47:15.970
aber in Abstimmung mit unserem Team,
also wir waren zu neunt an diesem Projekt,
00:47:15.970 --> 00:47:21.780
haben das quasi komplett von unserem
Business getrennt und haben quasi gesagt:
00:47:21.780 --> 00:47:25.950
Okay, wann immer wir Arbeitsstunden frei
haben, haben wir Zeit um dieses Projekt zu
00:47:25.950 --> 00:47:31.390
treiben. Und damit diese quasi Bindung der
Privatwirtschaft, die da ja dran sein
00:47:31.390 --> 00:47:34.570
könnte, dass die natürlich auch komplett
eliminiert ist, ist dieses Projekt
00:47:34.570 --> 00:47:39.057
komplett offen und ist komplett
durchsuchbar und ist komplett frei, sodass
00:47:39.057 --> 00:47:42.150
validiert werden kann, dass wir das
natürlich... Wir haben natürlich eine
00:47:42.150 --> 00:47:45.070
eigene politische Meinung, aber die soll
natürlich nicht mit in diesen Datensatz
00:47:45.070 --> 00:47:47.800
fließen. Daher liegt der Datensatz
komplett offen und kann vollkommen
00:47:47.800 --> 00:47:51.900
durchsucht werden. Finanziert ist das aber
quasi aus den Freistunden, die wir als
00:47:51.900 --> 00:47:56.890
Data Science Agentur hatten.
Herald: Vielen Dank Florian, vielen Dank
00:47:56.890 --> 00:48:00.110
für dieses spannende Projekt und wirklich
gehaltvolle Projekt. Bei den
00:48:00.110 --> 00:48:03.920
Beleidigungen muss man auch sagen: Franz
Josef Strauß war von der Runterzählung der
00:48:03.920 --> 00:48:08.320
Top 5 fast zu erwarten, dass der
rauskommt. Ich hatte eigentlich noch Herrn
00:48:08.320 --> 00:48:12.890
Wehner auch erwartet, der eigentlich sein
sein traditioneller Widersacher war. Habt
00:48:12.890 --> 00:48:17.370
ihr denn ein Lieblingsschlagaustausch oder
eine Lieblingsbeleidigung gefunden in
00:48:17.370 --> 00:48:21.020
eurer Arbeit.
Philipp: Ich glaube, man kann es auf so
00:48:21.020 --> 00:48:26.063
unterschiedliche Art und Weisen auch
operationalisieren. Ich glaube wir hatten
00:48:26.063 --> 00:48:29.780
mal eine ganz, eine ganz spannende... ich
glaube das müssten wir nochmal...
00:48:29.780 --> 00:48:33.910
Vielleicht machen wir dafür nochmal einen
extra Teil auf der Website, wo wir die
00:48:33.910 --> 00:48:38.264
spannendsten Beleidigungen nochmal
aufgreifen. Das wäre ein gutes Thema.
00:48:38.264 --> 00:48:41.070
Florian: Wir hatten glaube ich teilweise
in so einem kleinen Dokument mal ein paar
00:48:41.070 --> 00:48:43.660
Sachen gesammelt. Aber ich hab die grad
auch gar nicht im Kopf.
00:48:43.660 --> 00:48:48.021
Herald: Okay, also einen Ausbaupotenzial
für den Spaß da hinten dran, für die
00:48:48.021 --> 00:48:52.420
Spaßig-Seite der Datenanalyse ist auf
jeden Fall vorhanden. Vielen Dank für
00:48:52.420 --> 00:48:58.010
euren Beitrag. Ich hoffe, ihr bekommt viel
Feedback und noch viel Input, wie man hier
00:48:58.010 --> 00:49:00.220
noch mehr draus machen kann. Danke euch!
- Vielen Dank auch.
00:49:00.220 --> 00:49:02.810
- Danke dir.
00:49:02.810 --> 00:49:06.180
Wikipaka Outro Musik
00:49:06.180 --> 00:49:13.000
Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!