1
00:00:00,000 --> 00:00:15,379
Wikipaka Intro Musik
2
00:00:15,379 --> 00:00:18,320
Florian: Herzlich willkommen zu unserem
Talk "Wir wissen, was ihr letzten Sommer
3
00:00:18,320 --> 00:00:21,550
gesagt habt". Wir sind sehr aufgeregt und
freuen uns sehr, dass wir das heute
4
00:00:21,550 --> 00:00:27,160
vorstellen dürfen. Wir sind Philip Koch
und Florian Richter und wir wollen euch
5
00:00:27,160 --> 00:00:31,880
heute unser Projekt Open Discourse
vorstellen und inwiefern Open Discourse
6
00:00:31,880 --> 00:00:36,920
die Transparenz des Bundestages erhöhen
kann. An Open Discourse haben wir die
7
00:00:36,920 --> 00:00:41,350
letzten anderthalb Jahre gearbeitet, in
einem Team von insgesamt neun Personen.
8
00:00:41,350 --> 00:00:48,710
Und genau. Worüber wollen wir euch
eigentlich heute erzählen? Für Open
9
00:00:48,710 --> 00:00:53,519
Discourse haben wir die Plenarprotokolle
des Deutschen Bundestages aufgearbeitet
10
00:00:53,519 --> 00:00:58,900
und die Plenarprotokolle seht ihr hier auf
der rechten Seite, die sehen so aus. Das
11
00:00:58,900 --> 00:01:05,560
heißt für jede Sitzung im Bundestag gibt
es Stenograph:innen, die jedes gesprochene
12
00:01:05,560 --> 00:01:09,400
Wort von den Parteien bzw. von den
Politiker:innen, die gerade eine Rede
13
00:01:09,400 --> 00:01:16,940
halten, aufzeichnen. Und außerdem wird
auch jeder Zwischenruf, jede Reaktion aus
14
00:01:16,940 --> 00:01:21,660
dem Plenum mit aufgezeichnet. Diese
Plenarprotokolle stellt der Bundestag zur
15
00:01:21,660 --> 00:01:27,709
Verfügung, seit 1949. Allerdings als PDF-
Dokument. Das birgt natürlich einige
16
00:01:27,709 --> 00:01:32,440
Probleme, weil PDF Dokumente sind nicht
gut durchsuchbar, weil wir jetzt z.B.
17
00:01:32,440 --> 00:01:36,239
nicht gezielt suchen könnten, was ein
bestimmter Politiker einer bestimmten
18
00:01:36,239 --> 00:01:41,630
Partei im Jahre 1950 beispielsweise gesagt
hat. Das heißt, das ist das Problem, das
19
00:01:41,630 --> 00:01:45,800
wir eigentlich haben. Aber eigentlich
beinhalten diese Plenarprotokoll ziemlich
20
00:01:45,800 --> 00:01:52,029
viel wertvolle Information. Weil
beispielsweise natürlich die einzelnen
21
00:01:52,029 --> 00:01:57,260
Redebeiträge, die Zwischenrufe usw, diese
sind aber als Fließtext in diesem PDF
22
00:01:57,260 --> 00:02:00,320
enthalten. Das heißt, wir brauchen
eigentlich irgendeinen Weg, um das
23
00:02:00,320 --> 00:02:04,179
herauszubrechen. Und genau, das gab's
bisher noch nicht. Mit Open Discourse
24
00:02:04,179 --> 00:02:09,429
haben wir es jetzt erstmals geschafft,
seit 1949 alle Reden, alle Zwischenrufe,
25
00:02:09,429 --> 00:02:15,460
alle Reaktionen und so weiter
herauszuarbeiten. Warum machen wir das
26
00:02:15,460 --> 00:02:20,200
eigentlich? Die Motivation hinter Open
Discourse beruht im Kern darauf, dass wir
27
00:02:20,200 --> 00:02:23,350
davon ausgehen oder wir finden, das
Plenarprotokolle eigentlich eine ziemlich
28
00:02:23,350 --> 00:02:28,970
wertvolle Ressource sind und die Debatten
im Bundestag ja eigentlich so transparent
29
00:02:28,970 --> 00:02:32,680
wie möglich stattfinden sollten. Das
heißt, wir alle haben ein Recht darauf,
30
00:02:32,680 --> 00:02:36,770
auch noch nach 20 Jahren zu wissen, was
eine bestimmte Politikerin oder ein
31
00:02:36,770 --> 00:02:43,700
bestimmter Politiker zu einem bestimmten
Thema gesagt hat. Was auffällt, wenn wir
32
00:02:43,700 --> 00:02:49,970
uns Plenarprotokolle und die Befassung mit
Plenarprotokollen ansehen, ist, dass das vor
33
00:02:49,970 --> 00:02:52,580
allen Dingen in der deutschen
Politikwissenschaft eigentlich ein Thema
34
00:02:52,580 --> 00:02:59,230
ist, das nicht besonders oft angefasst
wird. Es ist unterrepräsentiert in der
35
00:02:59,230 --> 00:03:03,280
Forschung. Das hat mehrere Gründe: Zum
einen.. oder zwei Hauptgründe
36
00:03:03,280 --> 00:03:06,860
wahrscheinlich. Zum einen ist die deutsche
Politikwissenschaft eher aus der
37
00:03:06,860 --> 00:03:10,390
politischen Ideengeschichte erwachsen. Das
heißt, man kümmert sich eigentlich eher
38
00:03:10,390 --> 00:03:14,670
qualitativ um Texte als quantitativ. Das
ändert sich in den letzten Jahren ein
39
00:03:14,670 --> 00:03:18,541
bisschen. Aber im Kern befasst sich die
deutsche Politikwissenschaft immer noch
40
00:03:18,541 --> 00:03:22,530
relativ wenig mit dem Plenardebatten. Und
der große Grund dafür ist dann natürlich
41
00:03:22,530 --> 00:03:26,090
auch, dass diese Plenarprotokolle bisher
noch nicht maschinenlesbar und nicht
42
00:03:26,090 --> 00:03:29,990
leicht auswertbar vorlagen. Man kann sich
vorstellen, wenn man jetzt nach einer
43
00:03:29,990 --> 00:03:34,160
gezielten Fragestellung die
Plenarprotokolle untersuchen möchte,
44
00:03:34,160 --> 00:03:37,690
müsste man im Zweifelsfall über 4 000
Protokolle händisch durchlesen, um zu
45
00:03:37,690 --> 00:03:41,280
schauen: In welchem Protokoll steht jetzt
irgendeine Information, die wichtig ist
46
00:03:41,280 --> 00:03:47,830
für meine Fragestellung. In den letzten
Jahren sehen wir aber, dass das Interesse
47
00:03:47,830 --> 00:03:51,480
an diesen Plenarprotokollen zunehmend
wächst. Und an der Stelle haben wir uns
48
00:03:51,480 --> 00:03:56,660
gedacht, als Team aus in erster Linie Data
Scientists und Software Developern, dass
49
00:03:56,660 --> 00:04:00,800
wir eigentlich die Skills dazu haben,
diese Daten aufzubereiten und der
50
00:04:00,800 --> 00:04:05,370
Öffentlichkeit zur Verfügung zu stellen.
Genau. Das ist also der der aktuelle
51
00:04:05,370 --> 00:04:10,210
Stand. Wir haben das große Problem, dass
es keine einfache Möglichkeit gibt, diese
52
00:04:10,210 --> 00:04:13,850
Plenarprotokolle zu durchsuchen und diese
Plenarprotokolle auch nicht
53
00:04:13,850 --> 00:04:19,709
maschinenlesbar sind, wir also keine
aktuellen Analysemethoden über diesen
54
00:04:19,709 --> 00:04:23,720
Textkorpus laufen lassen können. Unsere
Ziele, die wir uns gesetzt haben für
55
00:04:23,720 --> 00:04:28,849
dieses Projekt, waren mehr Transparenz des
politischen Diskurses in Deutschland, eine
56
00:04:28,849 --> 00:04:32,569
detaillierte Durchsuchbarkeit der
Plenardebatten, ein öffentlicher und
57
00:04:32,569 --> 00:04:36,939
möglichst niedrigschwelliger Zugang zu
diesen Daten, die Anschlussfähigkeit
58
00:04:36,939 --> 00:04:41,279
unseres Projektes, damit dieses Projekt
weiterentwickelt werden kann, dass neue
59
00:04:41,279 --> 00:04:46,759
Projekte daraus entstehen können. Und
natürlich, dass mit diesen Daten auch
60
00:04:46,759 --> 00:04:51,149
geforscht werden kann und wir demnach ein
wissenschaftliches Niveau für diese Daten
61
00:04:51,149 --> 00:04:57,169
brauchen. Ok, kurz zum Status Quo. In den
letzten Jahren, wie gerade angesprochen
62
00:04:57,169 --> 00:05:02,960
hat sich natürlich das Interesse für diese
Plenarprotokoll deutlich erhöht. 2017
63
00:05:02,960 --> 00:05:06,779
beispielsweise gab es das sehr spannende
Projekt Offenes Parlament, was von der
64
00:05:06,779 --> 00:05:12,689
Open Knowledge Foundation getrieben wurde
oder durchgeführt wurde. In diesem Projekt
65
00:05:12,689 --> 00:05:17,330
wurden die Plenarprotokolle der 18.
Wahlperiode aufgearbeitet und diese waren
66
00:05:17,330 --> 00:05:20,889
dann auch granular durchsuchbar, das
heißt, wir hatten Dimensionen zum Datum,
67
00:05:20,889 --> 00:05:27,240
zum Inhalt der Redebeiträge, welche Person
diesen Redebeitrag gehalten hat usw.
68
00:05:27,240 --> 00:05:32,599
Ebenfalls 2017 und 2018 kamen die Projekte
ParlSpeech und GermaParl und wurden
69
00:05:32,599 --> 00:05:37,520
veröffentlicht. Das sind zwei
wissenschaftliche Projekte, die ebenfalls
70
00:05:37,520 --> 00:05:43,409
sehr granular die Redebeiträge aufbereitet
haben des Bundestages. Allerdings im Falle
71
00:05:43,409 --> 00:05:46,449
von ParlSpeech, die haben dieses Jahr
nochmal ein Update von ihrem Datensatz
72
00:05:46,449 --> 00:05:51,580
gemacht. Reicht jetzt von der 12. bis 19.
Wahlperiode. Bei GermaParl sind aktuell
73
00:05:51,580 --> 00:05:56,010
die 13. bis zur 18. Wahlperiode abgedeckt.
D.h. wir haben da auch nicht den
74
00:05:56,010 --> 00:06:02,860
kompletten Umfang der Plenardebatten. Und
an dieser Stelle vor einem Jahr haben
75
00:06:02,860 --> 00:06:07,960
Martin Haars und Kai Biermann das Projekt
vorgestellt, das Zeit Online
76
00:06:07,960 --> 00:06:15,070
veröffentlicht hat, wo das erste Mal alle
oder jedes gesprochene Wort seit 1949
77
00:06:15,070 --> 00:06:20,129
bereitgestellt wurde und es möglich war,
eine Keyword Suche über diesen Korpus zu
78
00:06:20,129 --> 00:06:24,379
laufen zu lassen. Das heißt, man konnte
dadurch erstmals schauen: Wie hat sich
79
00:06:24,379 --> 00:06:30,189
beispielsweise das Keyword Umweltschutz in
den Debatten dargestellt? Wie hat sich das
80
00:06:30,189 --> 00:06:35,889
verändert über die Zeit? Genau. An dieser
Stelle gebe ich jetzt an Philipp weiter
81
00:06:35,889 --> 00:06:38,610
und er wird euch mal erklären, was wir
jetzt eigentlich mit Open Discourse noch
82
00:06:38,610 --> 00:06:41,880
zusätzlich machen können.
Philipp: Genau. Also wir sehen so ein
83
00:06:41,880 --> 00:06:45,460
bisschen oder wir erinnern euch oder viele
von euch erinnern sich vielleicht an den
84
00:06:45,460 --> 00:06:51,849
den Talk von Martin Haase und Kai Biermann
vor einem Jahr. Da haben die gezeigt, wie
85
00:06:51,849 --> 00:06:57,139
sie diese Worte über die Zeit analysiert
haben und haben auch gezeigt, welche
86
00:06:57,139 --> 00:07:00,210
Beschimpfungen in Deutschen Bundestag
relativ typisch waren. Also wir haben
87
00:07:00,210 --> 00:07:05,689
sowas wie Heuchler und Lügner:in und
Idioten und Lümmel und Flegel. Und nur um
88
00:07:05,689 --> 00:07:10,069
da so ein Stück anzuknüpfen und um zu
zeigen, wie wir an dieser Stelle ansetzen
89
00:07:10,069 --> 00:07:13,899
können und das ein Stück weiter denken
können, hab ich euch das mal mitgebracht
90
00:07:13,899 --> 00:07:18,330
und hab euch mal geplottet über die Zeit,
wie häufig mit welcher relativen
91
00:07:18,330 --> 00:07:22,710
Häufigkeit Beschimpfungen im Deutschen
Bundestag passiert sind. Und wir sehen,
92
00:07:22,710 --> 00:07:28,599
dass es eine Zeit gab, in der mal mehr und
mal weniger beschimpft wurde. Und was wir
93
00:07:28,599 --> 00:07:31,360
jetzt aber machen können mit dem Open
Discourse Datensatz: Wir können neue
94
00:07:31,360 --> 00:07:35,270
Dimensionen hinzufügen, denn wir haben
nicht mehr nur das reine gesprochene Wort,
95
00:07:35,270 --> 00:07:37,370
sondern wir haben all die
Metainformationen, weil wir wissen, wer
96
00:07:37,370 --> 00:07:41,819
dieses Wort gesprochen hat. Ich kann also
gucken, ob Männer oder Frauen mehr
97
00:07:41,819 --> 00:07:45,599
geflucht haben und ich stelle fest, dass
Männer mit großem großem Abstand mehr
98
00:07:45,599 --> 00:07:48,620
fluchen als Frauen. Männer sind
diejenigen, die das treiben im Deutschen
99
00:07:48,620 --> 00:07:52,080
Bundestag, und die fluchen und beschimpfen
und beleidigen. Wenn ich die Frauen
100
00:07:52,080 --> 00:07:55,889
dagegen plotte - Das erste Mal, dass eine
Frau im Deutschen Bundestag mit der
101
00:07:55,889 --> 00:08:03,339
Auswahl dieser Beschimpfungen geflucht
hat, war 1977 ungefähr. Und auch so reden
102
00:08:03,339 --> 00:08:09,569
Frauen deutlich, deutlich deutlich weniger
quasi in diesem Wortschatz. Und das Ganze
103
00:08:09,569 --> 00:08:11,969
können wir jetzt immer und immer weiter
berechnen, denn wir haben mit Open
104
00:08:11,969 --> 00:08:16,090
Discourse die Dimensionalität, um diese
Fragestellungen zu beantworten. Fluchen war
105
00:08:16,090 --> 00:08:20,559
z.B. früher ein Thema von Doktor:innen.
Das heißt, Abgeordnete mit einem
106
00:08:20,559 --> 00:08:26,339
akademischen Grad haben deutlich mehr
geflucht und erst in den 85er Jahren haben
107
00:08:26,339 --> 00:08:30,569
dann auch nicht Doktor:innen angefangen,
stärker zu fluchen und Beschimpfungen in
108
00:08:30,569 --> 00:08:35,969
ihren Wortschatz aufzunehmen. Wir können
weiter reingucken und können gucken, wer
109
00:08:35,969 --> 00:08:39,970
denn eigentlich flucht. Also wenn ich
jetzt mal vergleichen möchte, wie die die
110
00:08:39,970 --> 00:08:42,779
Mitte rechts und die Mitte Links Fraktion
im Deutschen Bundestag, wie die sich
111
00:08:42,779 --> 00:08:47,180
unterscheiden in ihrer Nutzung von
Schimpfworten, dann kann ich feststellen,
112
00:08:47,180 --> 00:08:51,460
dass ungefähr seit den 85er Jahren das
Fluchen eine typisch linke Disziplin ist.
113
00:08:51,460 --> 00:08:55,800
Das ist in der Mitte Links Fraktion
ziemlich verortet, jetzt in dem Fall hier
114
00:08:55,800 --> 00:09:02,420
definiert als SPD, Linke, PDS und Grüne im
Vergleich zur CDU, CSU, FDP-Fraktion, die
115
00:09:02,420 --> 00:09:08,230
ein gutes Stück weniger flucht. Wir können
auch bis auf die einzelne Person
116
00:09:08,230 --> 00:09:11,970
runtergehen und wir können die Gewinner im
Beschimpfen des Deutschen Bundestages seit
117
00:09:11,970 --> 00:09:16,480
1949 küren. Vielleicht hat jemand von euch
eine Idee, wer da so drinsteckt. Auf Platz
118
00:09:16,480 --> 00:09:22,460
vier ist es Norbert Blüm von der CDU. Auf
Platz drei ist es Carlo Schmidt von der
119
00:09:22,460 --> 00:09:27,370
SPD, ein bisschen früherer Politiker. Auf
Platz zwei, Ottmar Schreiner von der SPD.
120
00:09:27,370 --> 00:09:32,600
Und auf Platz eins ist es Franz Josef
Strauß von der CSU, der mit großem Abstand
121
00:09:32,600 --> 00:09:38,050
die meisten Flüche im Deutschen Bundestag
gesprochen hat. Ihr seht also: Das, was
122
00:09:38,050 --> 00:09:41,699
wir mit Open Discourse machen können, ist,
wir können dem gleichen Projekt, was auch
123
00:09:41,699 --> 00:09:45,550
die Kollegen von der Zeit haben,
Mehrdimensionalität hinzufügen, weil wir
124
00:09:45,550 --> 00:09:51,380
in unserem Korpus eine Realität abbilden
können und den gesamten PDF-Datensatz
125
00:09:51,380 --> 00:09:56,080
quasi komplett als Datenbank-Struktur
verfügbar gemacht haben. Das heißt, was
126
00:09:56,080 --> 00:10:01,889
wir früher konnten ist, wir konnten Worte
über eine Zeit plotten. Das war so der
127
00:10:01,889 --> 00:10:07,170
Status quo. Und was wir jetzt gemacht
haben ist, wir haben diesen Fließtext,
128
00:10:07,170 --> 00:10:11,380
dieses PDF umgebrochen in eine
Datenbankstruktur und können das jetzt
129
00:10:11,380 --> 00:10:15,290
beliebig filtern und beliebig analysieren
und können da sehr, sehr, sehr tief in die
130
00:10:15,290 --> 00:10:20,740
quantitativen Analysen gehen. Das heißt,
wir fügen diesen Plenardebatten mehr
131
00:10:20,740 --> 00:10:25,360
Dimensionalität hinzu. Früher also Worte
und Zeit und heute eben auch, welche
132
00:10:25,360 --> 00:10:28,990
Person gesprochen hat und damit eben auch
welche Fraktion, welche
133
00:10:28,990 --> 00:10:34,260
Regierungsposition, welches Geschlecht,
welches Alter hat der oder die Sprechende?
134
00:10:34,260 --> 00:10:38,639
Was ist der Beruf der sprechenden Person?
Der akademische Grad, die Jahre im
135
00:10:38,639 --> 00:10:45,220
Bundestag? Der Geburtsort, der Adelstitel.
Und wir haben natürlich auch alle
136
00:10:45,220 --> 00:10:47,810
Reaktionen und Interaktionen des
Bundestag. Das heißt, wir können genau
137
00:10:47,810 --> 00:10:53,069
gucken, welche Personen, welche Fraktion
lacht oder amüsiert sich oder klatscht.
138
00:10:53,069 --> 00:10:57,269
Und welche Einzelpersonen sind es denn,
wenn es irgendwelche Zwischenrufe sind?
139
00:10:57,269 --> 00:11:01,319
Und wenn wir uns das so einer Größe
angucken, dann haben wir ein Datensatz,
140
00:11:01,319 --> 00:11:07,240
bei dem wir etwa 331 Tausend Plenarseiten
ausgewertet haben seit 1949. Wir haben
141
00:11:07,240 --> 00:11:13,120
dadurch 211 Millionen Tokens, also Worte,
in unserem Datensatz von ungefähr 900 000
142
00:11:13,120 --> 00:11:19,080
Redebeiträgen, die wir verzeichnet haben,
gesprochen von 4100 Politiker:innen.
143
00:11:19,080 --> 00:11:23,420
Darauf haben wir dann 2,2 Millionen
Reaktionen und Zwischenrufe des Plenums
144
00:11:23,420 --> 00:11:29,380
von insgesamt 27 Fraktionen und Gruppen
seit der Gründung des Bundestages. Wie
145
00:11:29,380 --> 00:11:32,931
haben wir das gemacht? Vielleicht ein ganz
kurzes Wort dazu, was dahinter steckt. Wir
146
00:11:32,931 --> 00:11:37,230
haben die öffentlich verfügbaren Daten
genommen, die, die daliegen. Das heißt,
147
00:11:37,230 --> 00:11:40,589
das sind die Plenarprotokolle des
Bundestages als PDF. Wir haben das
148
00:11:40,589 --> 00:11:43,980
angereichert mit den Stammdaten der
Abgeordneten, die auch der Bundestag
149
00:11:43,980 --> 00:11:48,279
erfasst und selbst herausgibt. Und wir
haben die Liste der deutschen
150
00:11:48,279 --> 00:11:52,399
Regierungsmitglieder seit 1949 noch mit
dazugegeben, denn es gab relativ viele
151
00:11:52,399 --> 00:11:57,029
oder es gab einige Regierungsmitglieder,
die selbst kein Bundestagsmandat haben.
152
00:11:57,029 --> 00:12:01,620
Auch die haben wir hinzugefügt. Und dann
haben wir diese unendlich langen Texte
153
00:12:01,620 --> 00:12:05,910
eben vorwiegend durch Regular Expressions
gefiltert. Das heißt, wir haben die
154
00:12:05,910 --> 00:12:09,470
relevanten Teile und Protokolle
extrahiert. Wir haben das aufgegliedert.
155
00:12:09,470 --> 00:12:12,870
Und wir haben dann eben nach Redebeiträge,
nach Redner:innen, Zwischenrufe,
156
00:12:12,870 --> 00:12:19,519
Reaktionen unterteilt. Das war mal einer
der längsten Regular Expression Strings.
157
00:12:19,519 --> 00:12:23,370
Der war dann irgendwann so lang, wir haben
dann irgendwann unserem Head of Regular
158
00:12:23,370 --> 00:12:27,199
Expressions das auf ein T-Shirt gedruckt.
Das hatte die gute Vorderseite genutzt.
159
00:12:27,199 --> 00:12:31,360
Und nach diesen ganzen Regular Expressions
haben wir dann auch viel Fuzzy Search und
160
00:12:31,360 --> 00:12:35,550
Matching gemacht, um eben die Fehler auch
in dem Plenarprotokoll auszumerzen. Das
161
00:12:35,550 --> 00:12:38,670
heißt, Politiker:innen sind falsch
geschrieben, irgendwelche Worte sind
162
00:12:38,670 --> 00:12:43,750
zerrissen. Und um das alles wieder
zusammenzuführen, haben wir dann Fuzzy
163
00:12:43,750 --> 00:12:49,620
String Matching angeführt.
Florian: Genau, und an der Stelle kommt
164
00:12:49,620 --> 00:12:53,240
ihr jetzt eigentlich ins Spiel. Das heißt,
was wir im Kern machen wollten und jetzt
165
00:12:53,240 --> 00:12:58,250
geschafft haben, ist diesen die, dieses
Korpus oder diesen Datensatz so
166
00:12:58,250 --> 00:13:03,099
bereitzustellen, dass ihr euch den
auschecken könnt und eigene Analysen mit
167
00:13:03,099 --> 00:13:08,660
diesen Daten durchführen könnt. Das heißt,
der Open Discourse Datensatz und das ganze
168
00:13:08,660 --> 00:13:13,850
Repository dazu ist veröffentlicht. Ihr
könnt euch den Source Code anschauen,
169
00:13:13,850 --> 00:13:17,730
auschecken, die Datenbank bei euch lokal
aufbauen. Und ihr habt noch ein paar
170
00:13:17,730 --> 00:13:22,420
andere Möglichkeiten, auf die ich später
noch genauer ein. Genau. Das Spannende,
171
00:13:22,420 --> 00:13:26,689
finden wir, an diesem Datensatz ist jetzt,
dass es erstmals möglich ist, Analysen
172
00:13:26,689 --> 00:13:32,110
durchzuführen, die vorher in der Form
nicht durchführbar waren. Und während wir
173
00:13:32,110 --> 00:13:35,529
auf eure Analysen warten, zeigen wir euch
ein paar Analysen, die wir schon mal
174
00:13:35,529 --> 00:13:39,710
durchgeführt haben, um euch eine kleine
Inspiration zu geben, was denn eigentlich
175
00:13:39,710 --> 00:13:44,240
möglich ist. Und an dieser Stelle ein
kleiner Disclaimer: Alles, was wir jetzt
176
00:13:44,240 --> 00:13:48,640
gleich zeigen, dient als Inspiration. Wir
haben die Analysen mit größter Sorgfalt
177
00:13:48,640 --> 00:13:53,390
durchgeführt. Aber es ist keine
politikwissenschaftliche Forschung. Und
178
00:13:53,390 --> 00:13:56,529
gerade weil wir jetzt über Politik
sprechen, sollten wir an dieser Stelle ein
179
00:13:56,529 --> 00:13:59,959
bisschen vorsichtig sein. Wir sind uns
weitestgehend sicher, dass die Ergebnisse,
180
00:13:59,959 --> 00:14:03,870
die wir euch präsentieren, sehr plausibel
und weitestgehend korrekt sein werden.
181
00:14:03,870 --> 00:14:08,029
Aber wie gesagt, das ist jetzt keine
politikwissenschaftliche Forschung, das
182
00:14:08,029 --> 00:14:11,320
ist nicht durch ein Peer Review Prozess
gegangen. Soweit als kleiner Disclaimer
183
00:14:11,320 --> 00:14:17,980
dazu. Okay, wir gucken uns jetzt folgend
zwei große Themen an, die in der
184
00:14:17,980 --> 00:14:22,790
Geschichte der Bundesrepublik ziemlich
große Relevanz hatten. Und wir starten mit
185
00:14:22,790 --> 00:14:27,120
dem Thema Datenschutz. Und wir könnten
jetzt dieses Thema so untersuchen, wie es
186
00:14:27,120 --> 00:14:31,829
traditionell bisher immer möglich war. Das
heißt, wir schauen uns mal an, wie oft
187
00:14:31,829 --> 00:14:36,960
eigentlich das Wort Datenschutz in den
Plenarsitzungen gesagt wurde. Und wenn wir
188
00:14:36,960 --> 00:14:41,980
das machen Sie das ungefähr so aus. Das
heißt, wir haben die erste Nennung des
189
00:14:41,980 --> 00:14:47,881
Begriffs Datenschutz Anfang der siebziger
Jahre. Das würde ungefähr so passen, weil
190
00:14:47,881 --> 00:14:53,250
in dem Zeitraum auch Hessen als erstes
Land oder sogar weltweit das erste
191
00:14:53,250 --> 00:14:58,149
Datenschutzgesetz verabschiedet hat. Das
heißt, damals wurde der Begriff
192
00:14:58,149 --> 00:15:03,490
anscheinend das erste Mal genutzt, auch im
Bundestag. Und ab dann ging es weiter. Wir
193
00:15:03,490 --> 00:15:08,099
sehen einen kleinen Abfall in den 90ern,
einen Anstieg dann wieder in den 2000er
194
00:15:08,099 --> 00:15:14,769
Jahren. Genau. Aber das ist eigentlich
noch nicht gut interpretierbar. Wir haben
195
00:15:14,769 --> 00:15:17,200
jetzt einfach nur die Worthäufigkeiten.
Wir wissen nicht, wer hat das eigentlich
196
00:15:17,200 --> 00:15:21,629
gesagt hat. Das heißt, an der Stelle
nutzen wir jetzt unseren Open Discourse
197
00:15:21,629 --> 00:15:26,130
Korpus, um uns das ein bisschen genauer
anzuschauen. Was wir zusätzlich jetzt noch
198
00:15:26,130 --> 00:15:31,850
gemacht haben, ist: Wir haben ein LDA
Topic Modeling trainiert. Das funktioniert
199
00:15:31,850 --> 00:15:37,209
im Wesentlichen so, dass wir davon
ausgehen... bzw. ein LDA Topic Modeling
200
00:15:37,209 --> 00:15:42,999
ist dafür da oder kann genutzt werden, um
latente Themen in Textkorpora zu
201
00:15:42,999 --> 00:15:48,360
ermitteln. Und wir wollen uns ja das Thema
Datenschutz ansehen. Das heißt, wir müssen
202
00:15:48,360 --> 00:15:52,219
versuchen, ein LDA Topic Modeling so zu
trainieren, dass wir dieses
203
00:15:52,219 --> 00:15:56,410
Datenschutzthema auch finden in unseren
Daten. Natürlich nur, solange es da ist.
204
00:15:56,410 --> 00:15:59,560
Glücklicherweise ist es tatsächlich da,
weil darüber ziemlich viel gesprochen
205
00:15:59,560 --> 00:16:04,839
wurde. Das heißt, wenn wir jetzt
eigentlich untersuchen wollen, wie oder in
206
00:16:04,839 --> 00:16:09,181
welchem Ausmaß über Datenschutz gesprochen
wurde im Bundestag, dann ist es natürlich
207
00:16:09,181 --> 00:16:12,670
nicht bloß der Begriff Datenschutz
relevant. Sondern man kann auch über den
208
00:16:12,670 --> 00:16:16,189
Datenschutz reden, dabei aber Begriffe
nutzen wie Informationsfreiheit,
209
00:16:16,189 --> 00:16:20,670
Datenverarbeitung, Speicherung,
Privatsphäre usw.. Das heißt, es ist
210
00:16:20,670 --> 00:16:25,509
eigentlich viel relevanter, dieses latente
Thema des Datenschutzes zu nutzen als
211
00:16:25,509 --> 00:16:30,239
einen spezifischen Begriff. Dafür haben
wir das LDA Topic Modeling trainiert. Das
212
00:16:30,239 --> 00:16:35,319
funktioniert im Wesentlichen so, dass wir
vorgegeben haben, was wir oder wie viele
213
00:16:35,319 --> 00:16:40,189
Topics, spezifische Topics, wir im Korpus
erwarten. Da haben wir verschiedene
214
00:16:40,189 --> 00:16:43,970
Nummern ausprobiert und bei
zweihundertfünfzig letztlich sehr
215
00:16:43,970 --> 00:16:47,120
konsistente Themen gefunden. Und mit
diesem Model haben wir jetzt die weiteren
216
00:16:47,120 --> 00:16:55,310
Analysen durchgeführt. Dieses LDA Topic
Modeling hat als Ergebnis, dass wir für
217
00:16:55,310 --> 00:17:04,080
jeden Redebeitrag, den wir im Korpus
haben, Angaben darüber bekommen, wie der
218
00:17:04,080 --> 00:17:10,600
prozentuale Anteil der jeweiligen 250
Themen in dieser Rede war. Das heißt, wir
219
00:17:10,600 --> 00:17:16,180
haben genau 250 Zahlenwerte für jeden
Redebeitrag. Das ist das, was wir jetzt
220
00:17:16,180 --> 00:17:22,030
folgend zusammen aggregieren und auf der
Y-Achse als Relevanz definieren. Genau das
221
00:17:22,030 --> 00:17:26,890
ist jetzt auch erstmals möglich, weil wir
die einzelnen Redebeiträge als Dokumente
222
00:17:26,890 --> 00:17:33,160
im LDA Topic Modeling nutzen können. Alles
klar. Zurück zum Thema Datenschutz. Okay,
223
00:17:33,160 --> 00:17:38,090
wir plotten uns jetzt mal die
durchschnittlichen Gebrauch des ganzen
224
00:17:38,090 --> 00:17:44,370
Thema Datenschutz im Plenar oder im
Verlauf der Plenarsitzungen. Und was uns
225
00:17:44,370 --> 00:17:49,070
jetzt zum Beispiel schon mal auffällt,
ist, dass auch vor 1970 schon in einem
226
00:17:49,070 --> 00:17:52,690
gewissen sehr geringen Maße über
Datenschutz-Themen gesprochen wurde. Der
227
00:17:52,690 --> 00:17:57,050
Begriff Datenschutz wurde dabei jedoch
nicht genutzt. Wir sehen immer noch, dass
228
00:17:57,050 --> 00:18:01,920
es quasi zwei große Phasen oder zwei große
Wellen gibt. Es gibt die erste Welle, die
229
00:18:01,920 --> 00:18:08,220
ungefähr Mitte der 70er angefangen hat und
dann zum zum Ende der 80er Jahre abgeflaut
230
00:18:08,220 --> 00:18:14,260
ist. Und wir haben eine zweite Welle, die
zum in den 2000er Jahren begonnen hat und
231
00:18:14,260 --> 00:18:18,550
jetzt langsam wieder abflaut. Um zu
validieren, dass das, was wir jetzt hier
232
00:18:18,550 --> 00:18:24,280
gefunden haben oder das, was uns das Topic
Model grad anzeigt, stimmt, haben wir mal
233
00:18:24,280 --> 00:18:28,290
geschaut, was denn eigentlich in diesen
Zeiten so passiert ist. Und wenn wir uns
234
00:18:28,290 --> 00:18:33,390
die 80er Jahre oder den Raum um die 80er
Jahre anschauen, sehen wir, dass derzeit
235
00:18:33,390 --> 00:18:39,130
das Bundesdatenschutzgesetz, also das
erste Datenschutzgesetz auf nationaler
236
00:18:39,130 --> 00:18:44,590
Ebene beschlossen wurde in Deutschland,
dass es die Volkszählungsboykotte gab. Es
237
00:18:44,590 --> 00:18:51,010
sollte eine Volkszählung durchgeführt
werden und die sollte in dem Fall das
238
00:18:51,010 --> 00:18:55,770
erste Mal digital die Daten der
Bevölkerung erfassen. Das hat natürlich
239
00:18:55,770 --> 00:19:01,510
zur Boykotten, zu Protesten und zu Sorgen,
was denn eigentlich, welche Belange das
240
00:19:01,510 --> 00:19:08,350
mit dem eigenen Datenschutz hat. Außerdem:
In der Zeit wurde der CCC gegründet. Es
241
00:19:08,350 --> 00:19:15,290
gab ein ziemlich entscheidendes Urteil vom
Bundesverfassungsgericht, auch im Rahmen
242
00:19:15,290 --> 00:19:19,160
dieser Volkszählung. Und in dem Rahmen
tauchte dann auch erstmals der Begriff der
243
00:19:19,160 --> 00:19:23,680
informationellen Selbstbestimmung auf. Das
heißt, okay, an dem Rahmen oder in dem
244
00:19:23,680 --> 00:19:27,140
Maße ist die erste Welle ziemlich
plausibel. Das wurde im Bundestag dann
245
00:19:27,140 --> 00:19:30,770
offensichtlich auch sehr intensiv
besprochen. Danach ist das ein bisschen
246
00:19:30,770 --> 00:19:35,910
abgeflaut. Wir haben einen kleinen Peak
ungefähr 1995, da wurde die europäische
247
00:19:35,910 --> 00:19:41,100
Datenschutzrichtlinie verabschiedet. Aber
den richtigen Anstieg hatten wir dann erst
248
00:19:41,100 --> 00:19:44,930
zur zweiten Welle. Da kamen dann
Diskussionen auf wie Zensursula und die
249
00:19:44,930 --> 00:19:51,590
DSGVO. Also bei Zensursula wurde halt
diskutiert, inwiefern der Staat eigentlich
250
00:19:51,590 --> 00:19:57,420
das Recht hat, Inhalte im Internet zu
zensieren. Auf der anderen Seite wurde
251
00:19:57,420 --> 00:20:04,530
auch sehr, sehr stark diskutiert, ob der
Staat eigentlich das Recht hat,
252
00:20:04,530 --> 00:20:08,420
Hausdurchsuchungen auf den eigenen
Rechnern quasi durchzuführen. Das heißt,
253
00:20:08,420 --> 00:20:11,321
die zwei Wellen, die wir jetzt hier sehen,
die sind ziemlich plausibel. Das waren
254
00:20:11,321 --> 00:20:16,800
tatsächlich die Zeiten, in denen die
Debatte um den Datenschutz ziemlich stark
255
00:20:16,800 --> 00:20:22,290
ausgeführt wurde. Okay, jetzt schauen wir
uns mal an, welche Dimension wir
256
00:20:22,290 --> 00:20:25,470
eigentlich dazu packen können, um
vielleicht mehr Informationen darüber zu
257
00:20:25,470 --> 00:20:29,380
bekommen, wie das denn diskutiert wurde
und welche Partei sich mehr und welche
258
00:20:29,380 --> 00:20:35,580
Partei sich weniger darum gekümmert hat um
dieses Thema. Und dazu haben wir uns mal
259
00:20:35,580 --> 00:20:41,460
angeschaut, wie die historisch zwei großen
Parteien in Deutschland diese Themen
260
00:20:41,460 --> 00:20:46,440
behandelt haben. Zuerst haben wir uns die
CDU angeschaut und wir sehen, dass die CDU
261
00:20:46,440 --> 00:20:51,300
in der ersten Welle deutlich
überdurchschnittlich über das Thema
262
00:20:51,300 --> 00:20:56,950
Datenschutz gesprochen hat, im Plenarsaal,
in der zweiten Welle aber deutlich
263
00:20:56,950 --> 00:21:01,320
unterdurchschnittlich. Im Vergleich dazu
haben wir uns dann mal angeschaut, wie die
264
00:21:01,320 --> 00:21:06,020
SPD drüber gesprochen hat. Die SPD hat der
ersten Welle unterdurchschnittlich viel
265
00:21:06,020 --> 00:21:12,120
über Datenschutz gesprochen oder hatte in
ihren Reden deutlich weniger Datenschutz
266
00:21:12,120 --> 00:21:16,620
aufgegriffen. In der zweiten Welle oder im
Beginn der zweiten Welle ein bisschen
267
00:21:16,620 --> 00:21:20,730
überdurchschnittlich, dann hat es aber
deutlich abgeflacht. Das könnte - wird
268
00:21:20,730 --> 00:21:26,090
höchstwahrscheinlich damit zu tun haben,
dass während der ersten Welle die SPD in
269
00:21:26,090 --> 00:21:30,920
der Regierung war und die CDU nicht, dass
die CDU das deshalb vielleicht als
270
00:21:30,920 --> 00:21:37,650
relevanter angesehen hat, das Thema
Datenschutz intensiver zu besprechen. In
271
00:21:37,650 --> 00:21:42,350
der zweiten Welle sehen wir, dass zum
Beginn der zweiten Welle die SPD noch eine
272
00:21:42,350 --> 00:21:46,710
Opposition war. Aktuell ist sie natürlich
mit in der Regierung. Das könnte die
273
00:21:46,710 --> 00:21:50,680
Bewegung erklären, warum zu Beginn der
zweiten Welle die SPD leicht
274
00:21:50,680 --> 00:21:56,480
überdurchschnittlich oder das Thema
Datenschutz leicht überdurchschnittlich
275
00:21:56,480 --> 00:22:02,700
relevant fand, dann aber zunehmend
weniger. Wir plotten mal noch zwei andere
276
00:22:02,700 --> 00:22:08,550
spannende Parteien dazu, nämlich die FDP
und die Grünen. Da können wir nämlich
277
00:22:08,550 --> 00:22:14,720
ablesen, dass diese zwei
Oppositionsparteien, zumindest in der
278
00:22:14,720 --> 00:22:20,940
Zeit, dass diese zwei Parteien auch nach
dem Abflauen der ersten Welle die Relevanz
279
00:22:20,940 --> 00:22:25,720
aufrecht erhalten haben. Das heißt, diese
zwei Parteien hatten das Thema trotzdem
280
00:22:25,720 --> 00:22:30,550
weiter im Fokus gehalten. Okay, schauen
wir uns eine andere Dimension an. Wir
281
00:22:30,550 --> 00:22:34,360
schauen uns mal an, wie das vielleicht mit
dem Alter zu tun haben könnte. Und zwar
282
00:22:34,360 --> 00:22:40,760
haben wir das Alter der Politiker:in nach
dem Durchschnitt ungefähr geteilt. Das
283
00:22:40,760 --> 00:22:44,170
heißt, das Durchschnittsalter des
Bundestags aktuell liegt ungefähr bei 50
284
00:22:44,170 --> 00:22:47,580
Jahren. Und so haben wir jetzt
unterschieden nach eher jüngeren
285
00:22:47,580 --> 00:22:52,590
Politikern, die unter 50 Jahre zum
Zeitpunkt der Rede waren und älteren
286
00:22:52,590 --> 00:22:57,660
Politikern, die älter als 50 waren zum
Zeitpunkt der Rede. Und hier sehen wir,
287
00:22:57,660 --> 00:23:03,350
dass die jüngeren Politiker das Thema
Datenschutz deutlich relevanter finden als
288
00:23:03,350 --> 00:23:08,540
die älteren. Okay, als letzte Dimension
schauen wir uns jetzt nochmal an, ob das
289
00:23:08,540 --> 00:23:14,570
dann vielleicht auch ein Zusammenhang mit
dem akademischen Grad hat bzw. ob eine
290
00:23:14,570 --> 00:23:21,160
Politikerin oder ein Politiker einen
Doktortitel trägt. Und an der Stelle sehen
291
00:23:21,160 --> 00:23:26,550
wir das, wenn eine Politiker:in einen
Doktortitel trägt, das dann tendenziell
292
00:23:26,550 --> 00:23:31,360
überdurchschnittlich über Datenschutz
gesprochen wird, als wenn die Person
293
00:23:31,360 --> 00:23:36,750
keinen Doktortitel hat. Man könnte jetzt
versuchen, das irgendwie zusammenzufassen.
294
00:23:36,750 --> 00:23:40,040
Beispielsweise könnte man versuchen, das
so zu interpretieren, dass wenn man
295
00:23:40,040 --> 00:23:43,641
möchte, dass im Plenarsaal viel über
Datenschutz gesprochen wird, dann sollte
296
00:23:43,641 --> 00:23:49,740
man Oppositionsparteien wählen, die eher
jüngere Leute hat. Und diese jüngeren
297
00:23:49,740 --> 00:23:53,850
Leuten sollten vielleicht eher einen
Doktortitel tragen, vielleicht aber auch
298
00:23:53,850 --> 00:23:59,050
nicht. Genau. Aber genau. Diese
Auswertungen waren vorher nicht möglich.
299
00:23:59,050 --> 00:24:02,170
Und jetzt könnte man reinschauen und
gucken: Okay, was steckt denn da
300
00:24:02,170 --> 00:24:06,090
eigentlich drin? Welche Bewegungen stecken
denn in diesen Daten? Wir wollen jetzt
301
00:24:06,090 --> 00:24:11,490
nochmal zwei Personen krönen, die sich
sehr verdient gemacht haben, also die sehr
302
00:24:11,490 --> 00:24:15,570
oder die höchste Relevanzwerte hatten für
das Thema Datenschutz in der ersten und in
303
00:24:15,570 --> 00:24:20,430
der zweiten Welle. In der ersten Welle
geht diese Auszeichnung an Burkhard
304
00:24:20,430 --> 00:24:24,920
Hirsch, der insbesondere zum ersten in der
ersten Phase der ersten Welle
305
00:24:24,920 --> 00:24:30,280
Innenminister war und sich ganz stark
gegen staatliche Überwachung eingesetzt
306
00:24:30,280 --> 00:24:34,710
hat. Das heißt, das klingt auch sehr
plausibel, dass unsere Analyse Burkhard
307
00:24:34,710 --> 00:24:40,410
Hirsch hier als Vorreiter sieht. In der
zweiten Welle haben unsere Analysen
308
00:24:40,410 --> 00:24:44,920
ergeben, dass das Gisela Piltz war, die
sich in besonderem Maße mit Datenschutz
309
00:24:44,920 --> 00:24:49,270
auseinandergesetzt hat. Und Gisela Piltz
hat sich ganz... oder setzt sich ganz
310
00:24:49,270 --> 00:24:55,090
stark gegen die Vorratsdatenspeicherung
ein. Also von daher wirkt auch das
311
00:24:55,090 --> 00:25:00,760
ziemlich plausibel. Genau. Das wäre jetzt
das Beispiel Datenschutz, das wir
312
00:25:00,760 --> 00:25:04,520
aufbereitet haben, um zu gucken: Okay, was
könnte in diesen Daten denn drinstecken
313
00:25:04,520 --> 00:25:07,900
und welche spannenden Fragen könnte man
denn damit eigentlich stellen und
314
00:25:07,900 --> 00:25:13,280
potenziell auch beantworten? Jetzt haben
wir uns noch ein zweites großes Thema
315
00:25:13,280 --> 00:25:16,260
angeschaut, was gerade in den letzten
Jahren ganz, ganz stark an Relevanz
316
00:25:16,260 --> 00:25:21,320
gewonnen hat. Und da wird euch Philipp
jetzt mal erzählen, was wir da so gefunden
317
00:25:21,320 --> 00:25:23,640
haben.
Philipp: Genau. Also wir kommen nochmal
318
00:25:23,640 --> 00:25:28,331
ein bisschen vom Datenschutz zum
Klimaschutz und stellen uns so ein
319
00:25:28,331 --> 00:25:33,620
bisschen den gleichen methodischen Ansatz.
Also wir gucken mal, wie das reine Wort
320
00:25:33,620 --> 00:25:37,080
Klimaschutz verwendet wurde. Und wir
stellen fest, dass das Wort Klimaschutz
321
00:25:37,080 --> 00:25:41,831
eigentlich ein relativ neuer Begriff ist.
Ab den 2000ern. Aber zurück zu dem, was
322
00:25:41,831 --> 00:25:45,570
Florian gerade eben schon gesagt hat Die
reine Analyse einzelner Begriffe ist noch
323
00:25:45,570 --> 00:25:50,050
nicht ausreichend, um diesen Themenkomplex
und die latenten Grundstrukturen darunter
324
00:25:50,050 --> 00:25:54,791
zu erfassen. Deswegen reicht dieser
Begriff Klimaschutz nicht, sondern wir
325
00:25:54,791 --> 00:25:58,540
haben auch hier wieder ein automatisiertes
LDA Topic Modeling verwendet, was uns
326
00:25:58,540 --> 00:26:02,920
hunderte Begriffe automatisiert findet,
die da reinpassen. Also natürlich kann ich
327
00:26:02,920 --> 00:26:06,580
über Klimaschutz reden, ohne den Begriff
Klimaschutz zu verwenden. Ich kann über
328
00:26:06,580 --> 00:26:10,400
das Emissionsschutzgesetz sprechen. Ich
kann über Nachhaltigkeit, über erneuerbare
329
00:26:10,400 --> 00:26:14,111
Energien reden, ohne auch nur einmal das
Wort Klimaschutz zu verwenden. Dieses
330
00:26:14,111 --> 00:26:18,560
Thema also voll fokussieren. Deswegen
haben wir daraus ein Thema gemacht und
331
00:26:18,560 --> 00:26:22,140
gucken uns jetzt diesen ganzen Komplex an
und nicht mehr nur den Begriff. Wenn wir
332
00:26:22,140 --> 00:26:27,890
das tun, dann stellen wir fest, dass seit
1949 dieses Thema nicht erst in den
333
00:26:27,890 --> 00:26:31,730
2000ern an Relevanz gewonnen hat, sondern
auch früher schon da war. Wenn ich jetzt
334
00:26:31,730 --> 00:26:34,900
auch hier wieder so ein bisschen die
Wegmarker setze, dann kann ich auch das
335
00:26:34,900 --> 00:26:39,690
validieren. Also die ersten
Umweltprogramme von Willy Brandt 1970, der
336
00:26:39,690 --> 00:26:45,870
Einzug der Grünen in den Bundestag, die
Atomkatastrophe von Tschernobyl. Wir haben
337
00:26:45,870 --> 00:26:50,740
danach in den 90ern, das ist auch relativ
plausibel, ein Abschwachen dieses Themas,
338
00:26:50,740 --> 00:26:53,330
denn wir hatten gerade in der
Wiedervereinigung dann
339
00:26:53,330 --> 00:26:57,010
Verteilungskonflikte, die so ein bisschen
relevanter wurden. Dadurch ist das Thema
340
00:26:57,010 --> 00:27:02,330
des Klimawandels und des Klimaschutzes so
ein bisschen hinten runtergefallen. Wir
341
00:27:02,330 --> 00:27:06,379
haben weitere Punkte - wir haben die rot
grüne Regierung von Schröder und Fischer
342
00:27:06,379 --> 00:27:11,460
2000, so Richtung 2000 2005. Wir haben
Fukushima und die Energiewende. Wir haben
343
00:27:11,460 --> 00:27:15,640
das Pariser Klimaschutzabkommen. Und wir
sehen jetzt auch schon diesen Drall nach
344
00:27:15,640 --> 00:27:20,410
oben, insbesondere durch Fridays For
Future und die neue Auseinandersetzung mit
345
00:27:20,410 --> 00:27:23,750
der Einhaltung des Pariser
Klimaschutzabkommens. Was wir jetzt hier
346
00:27:23,750 --> 00:27:27,360
wieder machen können, ist: Wir können uns
wieder angucken, wie einzelne Parteien
347
00:27:27,360 --> 00:27:30,490
denn eigentlich darüber reden. Und wir
können feststellen, dass die CDU ziemlich
348
00:27:30,490 --> 00:27:34,140
durchschnittlich über dieses Thema redet.
In den letzten Jahren sogar deutlich
349
00:27:34,140 --> 00:27:37,100
abfallend, also deutlich
unterdurchschnittlich. Gerade seit dem
350
00:27:37,100 --> 00:27:41,410
Pariser Klimaschutzabkommen ist das Thema
für die CDU nicht mehr ganz so relevant
351
00:27:41,410 --> 00:27:45,720
vielleicht. Wir können die SPD plotten,
das sieht auch ganz durchschnittlich aus.
352
00:27:45,720 --> 00:27:49,230
Bei der FDP sieht es auch ganz
durchschnittlich aus, bei den Linken sogar
353
00:27:49,230 --> 00:27:52,880
ein Stück unterdurchschnittlich. Und so
ein bisschen wie erwartet sind es die
354
00:27:52,880 --> 00:27:57,280
Grünen, die dieses Thema extrem pushen und
die diesen Diskurs sehr, sehr hoch halten.
355
00:27:57,280 --> 00:28:02,190
Das heißt, die Grünen ziehen hier deutlich
den den Rolling Mean nach oben und steuern
356
00:28:02,190 --> 00:28:06,170
dieses Thema ganz stark. Wir können aber
auch hier noch ein bisschen weiter
357
00:28:06,170 --> 00:28:09,010
reingucken, nämlich: Wer sind das denn?
Sind es die jüngeren oder sind es die
358
00:28:09,010 --> 00:28:12,890
älteren Politiker? Wenn ich mir hier das
mal angucke, dann stelle ich fest, dass
359
00:28:12,890 --> 00:28:17,140
die mittelalten Politiker zwischen 39 und
59 sich mit dem Thema sehr
360
00:28:17,140 --> 00:28:21,420
durchschnittlich auseinandersetzen. Und so
ein bisschen wie erwarten kann ich mir
361
00:28:21,420 --> 00:28:25,220
dann entsprechend vorstellen, dass sich
ältere Politiker über 60 mit diesem Thema
362
00:28:25,220 --> 00:28:30,080
sehr gering, sehr unterdurchschnittlich
auseinandersetzen und jüngere
363
00:28:30,080 --> 00:28:35,110
Politikerinnen unter 39 sich mit diesem
Thema deutlich stärker auseinandersetzen.
364
00:28:35,110 --> 00:28:39,390
Wir sehen auch hier nicht nur eine
stärkere Auseinandersetzung, sondern eben
365
00:28:39,390 --> 00:28:43,190
auch eine frühere Auseinandersetzung.
Während bei älteren Politikerinnen diese
366
00:28:43,190 --> 00:28:46,500
Auseinandersetzung immer zeitlich rechts
versetzt ist und immer deutlich weniger
367
00:28:46,500 --> 00:28:51,050
intensiv ist. Wir können mit dem Open
Discourse Datensatz die Stammdaten des
368
00:28:51,050 --> 00:28:54,670
Deutschen Bundestages anzapfen und noch
ein kleines Stück tiefer gehen. Wir können
369
00:28:54,670 --> 00:28:59,120
nämlich die Berufe der Abgeordneten
auswerten. Jeder Abgeordnete gibt seinen
370
00:28:59,120 --> 00:29:04,480
Beruf oder seinen seinen beruflichen
Hintergrund an. Und diese Daten können wir
371
00:29:04,480 --> 00:29:08,390
auswerten. Wir haben über 1 000 unique
Berufsbezeichnungen von über 4 000
372
00:29:08,390 --> 00:29:11,760
Politiker:innen. Wenn ich mir die jetzt
hier mal so angucke, dann sind es Ärzte
373
00:29:11,760 --> 00:29:16,460
und Apotheker und Unternehmer und
Landwirte und Buchhalter:innen. Und wenn
374
00:29:16,460 --> 00:29:21,920
ich das so ein bisschen cluster, dann hab
ich jetzt für die folgende Analyse mal 12
375
00:29:21,920 --> 00:29:25,900
Berufsgruppen gefiltert. Und jetzt kann
man sich angucken, welche Berufsgruppen
376
00:29:25,900 --> 00:29:30,090
denn dieses Thema besonders stark
fokussieren. Und was auch wieder sehr
377
00:29:30,090 --> 00:29:33,450
erwartbar ist, ist, dass die
Naturwissenschaftler:innen dieses Thema
378
00:29:33,450 --> 00:29:37,850
deutlich stärker fokussieren, als andere
das tun. Also das Thema ist sehr
379
00:29:37,850 --> 00:29:44,940
exorbitant getragen durch Physiker:innen,
durch Biolog:innen, durch alle Personen,
380
00:29:44,940 --> 00:29:49,330
die irgendwie einen Berufshintergrund in
dem Feld der Naturwissenschaften haben.
381
00:29:49,330 --> 00:29:54,840
Ich habe uns hier immer noch die
Agrarwirte dazu geplottet. Also alle
382
00:29:54,840 --> 00:29:59,130
Landwirte und alle Forstwirte und die, die
Bauer oder Bäuerin als Berufsbezeichnung
383
00:29:59,130 --> 00:30:04,140
angegeben haben. Wir sehen, dass es in der
ersten Welle der Klimadebatte noch sehr
384
00:30:04,140 --> 00:30:10,130
relevant war und jetzt grad so Richtung
der neueren Zeit für die Landwirte ein
385
00:30:10,130 --> 00:30:13,870
unterdurchschnittlich relevantes Thema
geworden ist. Und wir können feststellen,
386
00:30:13,870 --> 00:30:18,290
dass die, die eine Berufsbezeichnung im
Wirtschaftsfeld angegeben haben, sich mit
387
00:30:18,290 --> 00:30:21,780
diesem Thema auch auseinandersetzen.
Allerdings deutlich weniger intensiv und
388
00:30:21,780 --> 00:30:25,350
auch wieder rechts verlagert, also
zeitlich zurück verlagert, nachdem sich
389
00:30:25,350 --> 00:30:30,550
die Naturwissenschaftler:innen mit diesem
Thema zuerst auseinandergesetzt haben. Was
390
00:30:30,550 --> 00:30:34,830
können wir feststellen oder was könnten
wir mal so ein bisschen uns angucken? Wir
391
00:30:34,830 --> 00:30:37,550
können uns angucken, was denn eigentlich
die perfekte Gruppe ist, um sich mit dem
392
00:30:37,550 --> 00:30:40,890
Thema Klimaschutz auseinanderzusetzen und
diese perfekte Trennlinie zwischen der
393
00:30:40,890 --> 00:30:44,970
perfekten Gruppe von Abgeordneten und der
schlechtesten Gruppe von Abgeordneten, die
394
00:30:44,970 --> 00:30:49,610
macht sich ziemlich einfach am Geschlecht
und an dem Alter fest. Wenn ich also mir
395
00:30:49,610 --> 00:30:53,472
mal angucke, wie sich alte männliche
Politiker mit dem Thema auseinandersetzen
396
00:30:53,472 --> 00:30:57,740
im Vergleich zu jungen weiblichen
Politikerinnen, dann stelle ich fest, dass
397
00:30:57,740 --> 00:31:01,130
wir da sowohl wieder eine frühere
Auseinandersetzung mit diesem Thema haben.
398
00:31:01,130 --> 00:31:04,590
Wir haben eine intensivere
Auseinandersetzung mit dem Thema und für
399
00:31:04,590 --> 00:31:08,550
ältere Politiker, in diesem Fall jetzt
hier über 60, ist die Auseinandersetzung
400
00:31:08,550 --> 00:31:15,620
wirklich sehr weit unter dem Durchschnitt
des Parlaments. Wir können uns also hier
401
00:31:15,620 --> 00:31:19,060
vielleicht ein bisschen überlegen, welche
Person wir denn ganz gerne im Bundestag
402
00:31:19,060 --> 00:31:25,030
hätten, um progressive Themen, so auch den
Datenschutz stärker zu treiben. Wir können
403
00:31:25,030 --> 00:31:28,240
auch hier im Klimawandel wieder die Top
Runner identifizieren, das können wir
404
00:31:28,240 --> 00:31:31,740
beliebig operationalisieren. Wir haben uns
immer die Vielredner genommen. Also
405
00:31:31,740 --> 00:31:35,590
Politiker:innen mit mehr als 500 Reden.
Und haben dann geguckt: Welche haben denn
406
00:31:35,590 --> 00:31:40,430
den höchsten Klima-Score auf dieses Topic?
Tatsächlich ist es Angela Merkel, die als
407
00:31:40,430 --> 00:31:44,070
Vielrednerin sich mit diesem Thema am
stärksten auseinandergesetzt haben. Wir
408
00:31:44,070 --> 00:31:47,100
wollten uns aber auch nochmal einen
Newcomer angucken, in großen
409
00:31:47,100 --> 00:31:52,100
Anführungszeichen, also Politiker:innen
mit 100 bis 500 Reden. Und da ist es Julia
410
00:31:52,100 --> 00:31:54,940
Verlinden von den Grünen, die sich am
stärksten mit diesem Thema
411
00:31:54,940 --> 00:31:59,080
auseinandersetzt. Das ganze Fridays For
Future hat immer auch das... geht es immer
412
00:31:59,080 --> 00:32:04,531
viel um das Schwänzen und um das
Fernbleiben von Inhalten. Und wir haben
413
00:32:04,531 --> 00:32:08,160
uns deswegen mal angeguckt, wer denn so
die großen Klimaschwänzer sind im
414
00:32:08,160 --> 00:32:12,140
Deutschen Bundestag. Das haben wir
operationalisiert, indem wir gesagt haben,
415
00:32:12,140 --> 00:32:16,256
wir wollen nicht den Politiker, die
Politikerin mit dem geringsten Wert über
416
00:32:16,256 --> 00:32:19,650
die gesamte Zeit finden, sondern wir
wollen so einen Punkt nehmen, ab dem die
417
00:32:19,650 --> 00:32:23,610
Klimadebatte wohl in aller Munde sein
müsste. Und wir haben dafür den ersten
418
00:32:23,610 --> 00:32:30,360
Global Climate Strike genommen, am 19., am
15. März 2019. Und wir haben dann von den
419
00:32:30,360 --> 00:32:34,810
Politikern geguckt, die die Gelegenheit
hatten, darüber zu reden. Also die
420
00:32:34,810 --> 00:32:39,400
mindestens 40 Redebeiträge seitdem hatten,
wie sie sich damit auseinandersetzen. Wir
421
00:32:39,400 --> 00:32:42,251
stellen fest, dass diejenigen, die sich am
wenigsten damit auseinandersetzen, drei
422
00:32:42,251 --> 00:32:46,860
Männer sind, alle aus der gleichen
Fraktion. Wir haben also Volker Ullrich,
423
00:32:46,860 --> 00:32:50,710
der sich trotz Gelegenheit am wenigsten
damit auseinandersetzt. Wir haben Thorsten
424
00:32:50,710 --> 00:32:54,390
Frei, der sich trotz Gelegenheit am
zweitwenigsten damit auseinandersetzt. Und
425
00:32:54,390 --> 00:32:58,210
wir haben hier auch den Spätzünder im
Klimathema, Philipp Amthor, der sich trotz
426
00:32:58,210 --> 00:33:01,320
sehr vieler Reden nie mit diesem Thema
oder sehr selten mit diesem Thema
427
00:33:01,320 --> 00:33:04,930
auseinandersetzt. Wichtig ist hier
vielleicht noch zu sagen, dass wir nicht
428
00:33:04,930 --> 00:33:08,950
die reinen Reden zum Klimawandel zählen,
sondern dass allein die Verwendung von den
429
00:33:08,950 --> 00:33:12,830
relevanten Begriffen, um dieses Thema ein
bisschen z.B. in Steuer- oder in
430
00:33:12,830 --> 00:33:16,510
Haushaltsdebatten zu bringen, hier gezählt
wird. Also wir haben eine sehr komplexe
431
00:33:16,510 --> 00:33:23,710
Betrachtung des gesprochenen Wortes.
Florian: Genau. Soviel erst einmal zu
432
00:33:23,710 --> 00:33:28,500
einigen Analysen, die wir bisher
durchgeführt haben. Wie bereits
433
00:33:28,500 --> 00:33:33,870
angesprochen ist unser eigentliches Ziel
ja aber, dass ihr und alle anderen auch
434
00:33:33,870 --> 00:33:39,531
Analysen jetzt mit diesen Daten
durchführen können und auf unserem Weg bis
435
00:33:39,531 --> 00:33:43,330
zur Veröffentlichung, die jetzt im Rahmen
oder auch zu genau dieser Zeit, wenn wir
436
00:33:43,330 --> 00:33:49,840
diesen Vortrag halten, passiert, haben
schon andere Partner und Partnerinnen, mit
437
00:33:49,840 --> 00:33:53,260
denen wir zusammengearbeitet haben oder
die mit unseren Daten schon arbeiten
438
00:33:53,260 --> 00:33:56,151
konnten, ein paar Analysen durchgeführt
oder sind gerade dabei, diese Analysen
439
00:33:56,151 --> 00:34:00,850
noch durchzuführen. Beispielsweise
CorrelAid, CorrelAid ist ein Netzwerk von
440
00:34:00,850 --> 00:34:06,250
freiwilligen Data Scientists. Und bei
CorrelAid haben sich zwei Projektteams
441
00:34:06,250 --> 00:34:09,790
zusammengefunden, die mit unseren Daten
schon seit einiger Zeit ein bisschen herum
442
00:34:09,790 --> 00:34:14,240
arbeiten. Und die werden auch bald ihre
Ergebnisse und Analysen veröffentlichen.
443
00:34:14,240 --> 00:34:18,399
Die findet ihr dann zum einen in den
entsprechenden Kanälen von CorrelAid. Auf
444
00:34:18,399 --> 00:34:21,750
der anderen Seite werden wir die auch bei
uns auf unserer Open Discourse Website
445
00:34:21,750 --> 00:34:28,040
dann zu gegebener Zeit einbetten. Ein paar
Sachen, die da beispielsweise schon
446
00:34:28,040 --> 00:34:33,710
gemacht wurden, ist Ann-Kristin Vester hat
sich angeschaut, wie eigentlich die
447
00:34:33,710 --> 00:34:38,970
Geschlechter im Bundestag auftreten, wie
die, wie der Sprachgebrauch sich
448
00:34:38,970 --> 00:34:42,870
unterscheidet. An der Stelle auch
nochmal kurz hier der Hinweis bei allen
449
00:34:42,870 --> 00:34:46,630
Analysen, die wir bisher durchgeführt
haben: Wir betrachten Geschlecht bisher
450
00:34:46,630 --> 00:34:51,020
immer binär, weil der Bundestag das nicht
anders hergibt. Es gibt bloß eine binäre
451
00:34:51,020 --> 00:34:55,220
Geschlechtseinteilung. Deswegen mussten
wir das in den Analysen auch so vornehmen
452
00:34:55,220 --> 00:34:58,970
und das ist auch der Artikel, den Ann-
Kristin Vester geschrieben hat, das ist
453
00:34:58,970 --> 00:35:04,470
auch dort mit erwähnt. Also eine tiefere
oder eine diversere Untersuchung von den
454
00:35:04,470 --> 00:35:09,640
Geschlechtern im Bundestag ist aktuell
leider noch nicht möglich. Genau. Eine
455
00:35:09,640 --> 00:35:13,670
andere Analyse wurde von Alexandra Wörner
durchgeführt. Alexandra Wörner hat sich
456
00:35:13,670 --> 00:35:17,100
angeschaut, wie denn eigentlich über
Diskriminierung im Bundestag gesprochen
457
00:35:17,100 --> 00:35:21,040
wurde, von welchen Parteien das wie
intensiv benutzt wurde oder darüber
458
00:35:21,040 --> 00:35:25,240
gesprochen wurde und wie sich das über den
zeitlichen Verlauf verändert hat. Auch
459
00:35:25,240 --> 00:35:29,870
ziemlich spannend. Ein anderes Projekt,
das bereits mit unseren Daten durchgeführt
460
00:35:29,870 --> 00:35:34,361
wurde, kam von ZDF heute.
Datenjournalist:innen von ZDF Heute hatten
461
00:35:34,361 --> 00:35:39,620
uns Frühsommer/Sommer angeschrieben und
gefragt, ob sie unsere Daten nicht schon
462
00:35:39,620 --> 00:35:45,800
vor Veröffentlichung mal haben könnten, um
zu schauen, ob sie diese Daten für einen
463
00:35:45,800 --> 00:35:51,380
Artikel schon nutzen könnten. Und daraus
ist ein Artikel entstanden, in dem sich
464
00:35:51,380 --> 00:35:55,950
die Journalist:innen damit
auseinandergesetzt haben, wie der
465
00:35:55,950 --> 00:36:01,530
Bundestag denn eigentlich über Pandemien
und über das Coronavirus im speziellen
466
00:36:01,530 --> 00:36:06,150
unterhalten hat oder wie das debattiert
wurde. Das Ergebnis war eher, dass der
467
00:36:06,150 --> 00:36:09,360
Bundestag da nicht besonders viel
Aufmerksamkeit draufgelegt hat. Auch ein
468
00:36:09,360 --> 00:36:14,790
sehr spannender Artikel. Und als letztes
wollen wir noch kurz das Projekt Open
469
00:36:14,790 --> 00:36:20,660
Parliament TV eher anteasern, weil der
offizielle Veröffentlichungstermin ist für
470
00:36:20,660 --> 00:36:26,860
Mai 2021 vorgesehen. Open Parliament TV
hat als Kernziel eigentlich ein sehr
471
00:36:26,860 --> 00:36:32,201
ähnliches Ideal wie wir bei Open
Discourse. Es geht darum, den Bundestag
472
00:36:32,201 --> 00:36:37,430
transparenter zu machen. Open Parliament
TV hat dabei das Ziel, die
473
00:36:37,430 --> 00:36:41,830
Videomitschnitte der Plenardebatten mit
den entsprechenden Transkripten, also
474
00:36:41,830 --> 00:36:46,730
Plenarprotokollen zusammenzuführen, um
darüber eine noch viel wirksamere oder
475
00:36:46,730 --> 00:36:52,001
detailliertere Recherchefunktion zu
ermöglichen. Und an der Stelle wird
476
00:36:52,001 --> 00:36:56,570
gerade evaluiert, wie die Daten von Open
Discourse diesem Projekt noch weiter
477
00:36:56,570 --> 00:37:06,250
helfen können. Genau. Und jetzt wieder zu
euch. Wie gerade schon angesprochen sind
478
00:37:06,250 --> 00:37:11,900
unsere Daten ab sofort und unserer Source
Code komplett öffentlich verfügbar. Das
479
00:37:11,900 --> 00:37:15,870
heißt, ihr habt jetzt die Möglichkeit, mit
diesen Daten zu machen, was ihr wollt. Wir
480
00:37:15,870 --> 00:37:20,370
haben bei der Veröffentlichung das Ziel
gehabt, die so verfügbar wie möglich zu
481
00:37:20,370 --> 00:37:26,700
machen und haben dabei auf drei große
Säulen versucht zu achten. Die erste Säule
482
00:37:26,700 --> 00:37:31,640
dabei sind die Techniker:innen unter euch,
also alle Techniker:innen unter euch. Ihr
483
00:37:31,640 --> 00:37:37,170
könnt euch unsere GitHub Seite anschauen
von Open Discourse und dort findet ihr
484
00:37:37,170 --> 00:37:40,400
natürlich den Source Code. Ihr könnt das
alles auschecken, lokal bei euch
485
00:37:40,400 --> 00:37:43,980
aufsetzen, überprüfen, wie wir eigentlich
vorgegangen sind, verbessern,
486
00:37:43,980 --> 00:37:50,400
Schwachstellen finden. Außerdem findet ihr
auf der GitHub Seite auch einen Docker
487
00:37:50,400 --> 00:37:55,051
Container, wo die komplette Datenbank als
Image vorliegt, d.h. die könnt ihr euch
488
00:37:55,051 --> 00:38:00,770
auch sofort aufsetzen oder halt nochmal
neu generieren lassen, wenn ihr wollt. Für
489
00:38:00,770 --> 00:38:05,560
die Analytiker:innen und die
Wissenschaftler:innen unter euch haben wir
490
00:38:05,560 --> 00:38:11,280
ein Harvard Dataverse angelegt. Dort
findet ihr die aktuelle Version unserer
491
00:38:11,280 --> 00:38:15,430
Datenbank als Data Dump und wir haben das
in vier verschiedenen Dateiformaten
492
00:38:15,430 --> 00:38:21,050
bereitgestellt als CSV, Feather, Pickle
und RDS-Files, damit ihr je nachdem, womit
493
00:38:21,050 --> 00:38:26,400
ihr am liebsten arbeitet, genau das
perfekte Dateiformat für euch findet. Und
494
00:38:26,400 --> 00:38:31,900
als letztes haben wir noch für quasi Quick
Reviews oder schnelle Recherchen auf
495
00:38:31,900 --> 00:38:36,250
unserer Webseite eine Volltextsuche mit
Filter-Option bereitgestellt. Da könnt ihr
496
00:38:36,250 --> 00:38:44,420
also nach Stichworten, nach
Parteizugehörigkeit, nach den Namen der
497
00:38:44,420 --> 00:38:50,450
Politiker, nach Datum usw. filtern und
schauen, ob euch was spannendes auffällt
498
00:38:50,450 --> 00:38:59,430
oder ob ihr eure Fragen beantworten könnt.
Genau. So viel dann erst mal von uns. Wir
499
00:38:59,430 --> 00:39:04,310
bedanken uns ganz, ganz herzlich für euer
Interesse und dass ihr uns zugehört habt.
500
00:39:04,310 --> 00:39:07,360
Wir bedanken uns natürlich auch bei der C
Base dafür, dass wir das Video hier
501
00:39:07,360 --> 00:39:12,060
aufnehmen konnten. Bei Fragen und
Anregungen schreibt uns gerne eine Mail
502
00:39:12,060 --> 00:39:17,550
oder kontaktiert uns über die
einschlägigen Kanäle. Oder wir sprechen
503
00:39:17,550 --> 00:39:26,280
uns dann gleich bei der Fragerunde. Alles
klar. Vielen Dank. Danke schön.
504
00:39:26,280 --> 00:39:30,640
Herald: Wir sind nun mit den Sprechern
verbunden, sind uns zugeschaltet für
505
00:39:30,640 --> 00:39:33,871
Fragen und Antworten, die uns zugespielt
worden sind. Herzlich willkommen!
506
00:39:33,871 --> 00:39:39,470
Philipp & Florian: Hallo!
Herald: Die zweite Welle des Datenschutzes ist
507
00:39:39,470 --> 00:39:43,510
ja angesichts der Zeit gerade die perfekte
Metapher. Wie lange wird die zweite Welle
508
00:39:43,510 --> 00:39:48,730
des Datenschutzes wohl noch gehen?
Florian: Ja, gute Frage. Keine Ahnung. Man
509
00:39:48,730 --> 00:39:54,520
hat ja gesehen, dass es schon ein bisschen
bergab wieder geht, aber viel mehr kann
510
00:39:54,520 --> 00:39:57,870
ich da eigentlich nicht zu sagen. Aber es
ist spannend, das jetzt im Auge behalten
511
00:39:57,870 --> 00:40:00,610
zu können.
Herald: Ist auf jeden Fall auf absehbare
512
00:40:00,610 --> 00:40:04,610
Zeit nicht mit einer Impfung zu rechnen.
Eine Frage, die uns zugespielt worden ist
513
00:40:04,610 --> 00:40:10,960
über die Hashtags und über IRC, die wir
empfangen und die wir weitergeben, ist: Es
514
00:40:10,960 --> 00:40:14,380
gibt noch einen weiteren Text Korpus. Ihr
habt jetzt den Deutschen Bundestag
515
00:40:14,380 --> 00:40:17,890
analysiert, aber es gibt noch eine andere
legislative Kammer, die es lange Jahre
516
00:40:17,890 --> 00:40:22,350
gab, nämlich die Volkskammer der DDR. Gibt
es dort überhaupt entsprechende Unterlagen
517
00:40:22,350 --> 00:40:25,080
oder entsprechendes Material, das man
analysieren könnte?
518
00:40:25,080 --> 00:40:30,350
Florian: Da bin ich mir gar nicht so
sicher. Also ich hab - also davon weiß ich
519
00:40:30,350 --> 00:40:33,500
nichts. Wir hatten da jetzt auch gar nicht
so weiter reingeguckt. Wir hatten
520
00:40:33,500 --> 00:40:36,270
natürlich, während wir an dem Projekt
gearbeitet hatten, schon überlegt, wie man
521
00:40:36,270 --> 00:40:39,540
das alles noch weiterdenken könnte, was
man zusätzlich noch mit aufnehmen könnte.
522
00:40:39,540 --> 00:40:43,820
Da war die Volkskammer auch schon mal im
Gespräch, aber wir sind da jetzt erstmal
523
00:40:43,820 --> 00:40:47,990
nicht weiter rein gesprungen. Aber
prinzipiell wird das natürlich total
524
00:40:47,990 --> 00:40:52,060
spannend, noch weiter in die Richtung zu
denken und das auch noch mit aufzunehmen.
525
00:40:52,060 --> 00:40:57,330
Aber ich weiß gar nicht, ob es die
Plenarprotokolle da so auch detailliert
526
00:40:57,330 --> 00:41:02,050
gibt. Genau. Wahrscheinlich wäre es auch
ein relativ großer Aufwand, könnte ich mir
527
00:41:02,050 --> 00:41:05,850
vorstellen, die Regex Patterns, die wir
jetzt für den Bundestag aufbereitet haben,
528
00:41:05,850 --> 00:41:11,700
auf die Volkskammer zu übertragen. Weil
wenn sich da... also im Prinzip basiert,
529
00:41:11,700 --> 00:41:14,800
die Aufarbeitung, die wir gemacht haben
darauf, dass die Struktur in den
530
00:41:14,800 --> 00:41:18,380
Plenarprotokollen einigermaßen ähnlich
bleibt, über die Legislaturperioden. Die
531
00:41:18,380 --> 00:41:22,610
wird natürlich jedes Mal angepasst, wenn's
dann notwendig war. Auf der anderen Seite
532
00:41:22,610 --> 00:41:27,250
brauchen wir die Stammdaten der
Politiker:innen, weil wir das für die
533
00:41:27,250 --> 00:41:30,820
Fuzzy Matching Logiken nutzen, um zuweisen
zu können: Wer hat denn eigentlich was
534
00:41:30,820 --> 00:41:35,040
gesagt? Total spannend, das für die
Volkskammer auch noch zu machen.
535
00:41:35,040 --> 00:41:39,300
Vielleicht jetzt als nächster Schritt. Wir
sind erstmal froh, dass wir den Bundestag
536
00:41:39,300 --> 00:41:42,670
fertig bekommen haben.
Herald: Auf jeden Fall. Gibt es denn
537
00:41:42,670 --> 00:41:45,840
Wünsche, die ihr habt für die
Zugänglichkeit von Daten, die euch das
538
00:41:45,840 --> 00:41:48,870
Leben oder anderen das Leben
einfacher machen würden, bei solchen
539
00:41:48,870 --> 00:41:52,080
Auswertungen?
Philipp: Das ist glaube ich vor allem die
540
00:41:52,080 --> 00:41:54,750
strukturierte Erfassung, also eigentlich
hätte der Bundestag selbst die
541
00:41:54,750 --> 00:41:58,760
Möglichkeit, diese Daten von sich aus
schon strukturiert verfügbar zu machen.
542
00:41:58,760 --> 00:42:02,320
Vor allem, weil eben diese ganz einfachen
Sachen - ich suche nach Begriffen oder ich
543
00:42:02,320 --> 00:42:06,230
suche nach Themen oder ich möchte das mal
ein bisschen strukturiert durchsuchen -
544
00:42:06,230 --> 00:42:10,650
das ist derzeit eine absolut händische
Aufgabe und das ist eigentlich in unserer
545
00:42:10,650 --> 00:42:15,010
jetzigen Zeit ein kleines bisschen hinter
der Zeit hinterher. Von daher wäre es
546
00:42:15,010 --> 00:42:20,610
eigentlich sehr sinnvoll, wenn man so
Grundideen von strukturierter Datenhaltung
547
00:42:20,610 --> 00:42:24,220
dann auch in öffentlichen Verwaltungen
hätte, um eben diesen Zugang zu
548
00:42:24,220 --> 00:42:27,450
erleichtern. Der Bundestag hat uns jetzt
quasi eineinhalb Jahre Arbeit gekostet,
549
00:42:27,450 --> 00:42:32,900
das aufzubrechen. Und wär natürlich super,
wenn man solche Grundthemen der
550
00:42:32,900 --> 00:42:36,930
Datenhaltung, der öffentlich verfügbaren
Datenhaltung auch irgendwie direkt
551
00:42:36,930 --> 00:42:40,180
mitdenkt.
Florian: Ein ganz kleiner Nachtrag da
552
00:42:40,180 --> 00:42:43,670
noch. Ein großer Wunsch, der uns vieles
erleichtern würde, jetzt auch Open
553
00:42:43,670 --> 00:42:48,820
Discourse up to date zu halten, wäre ein
RSS-Feed vom Bundestag. Da sitzen auch die
554
00:42:48,820 --> 00:42:53,260
Leute von Open Parliament TV so ein
bisschen dran und hoffen, dass das
555
00:42:53,260 --> 00:42:56,480
irgendwie bereitgestellt wird. Aber das
würde uns natürlich ermöglichen,
556
00:42:56,480 --> 00:43:01,550
automatisiert den Datensatz zu erweitern,
sobald irgendwie eine neue Rede
557
00:43:01,550 --> 00:43:08,640
bereitgestellt wurde auf den Servern. Im
Moment geht das leider so noch nicht.
558
00:43:08,640 --> 00:43:12,690
Herald: Strukturierte, maschinenlesbare
Verwaltung und strukturierte Daten quasi
559
00:43:12,690 --> 00:43:17,850
als Wunsch. Es gibt ja zum Teil zumindest
eigene Projekte, wo aus dritter Hand
560
00:43:17,850 --> 00:43:22,310
solche Daten für Dritte bereitgestellt
werden, wie z.B. Wikidata. Ist das eine
561
00:43:22,310 --> 00:43:26,560
Quelle, auf die ihr euch, die ihr
verwenden könnt für so was?
562
00:43:26,560 --> 00:43:32,510
Florian: Genau. Teilweise hatten wir das
auch verwendet. Also auf dem Weg zum
563
00:43:32,510 --> 00:43:38,380
fertigen Produkt haben wir auch mit
Wikidata-Daten gearbeitet. Zum Beispiel
564
00:43:38,380 --> 00:43:44,050
gibt es in den Stammdaten ja Informationen
darüber, wo Personen geboren wurden und
565
00:43:44,050 --> 00:43:48,890
das sind die Originalgeburtsorte von
damals, quasi mit den historischen Namen.
566
00:43:48,890 --> 00:43:55,840
Und an der Stelle hatten wir dann mal als
Test-Experiment bei uns intern für jede
567
00:43:55,840 --> 00:44:02,120
Person, die wir im Bundestag hatten, jeden
Abgeordneten und jede Abgeordnete, die
568
00:44:02,120 --> 00:44:05,710
Wikidata-IDs rausgesucht, damit wir mappen
können: Okay, was ist denn jetzt
569
00:44:05,710 --> 00:44:08,530
eigentlich die ID für den Geburtsort
dahinter, damit wir damit weiterarbeiten
570
00:44:08,530 --> 00:44:12,350
können? Das liegt aber bei uns nur, also
das ist jetzt nicht Teil des Korpus, weil
571
00:44:12,350 --> 00:44:16,370
wir das nicht weit... also so weit
validiert haben, dass wir sicher sein
572
00:44:16,370 --> 00:44:21,080
können, dass das korrekt ist. Aber auf
jeden Fall. Also das wäre so ein bisschen
573
00:44:21,080 --> 00:44:24,330
die Anschlussfähigkeit, die wir uns
eigentlich wünschen. Also im Idealfall
574
00:44:24,330 --> 00:44:29,270
wäre jetzt und wäre vielleicht die
Community dazu auch aufgerufen, für jede
575
00:44:29,270 --> 00:44:33,900
Politiker:in noch die entsprechende
Wikidata ID mit zum am Korpus dazu zu
576
00:44:33,900 --> 00:44:40,710
packen, damit wir noch viel mehr Daten und
viel mehr Dimensionen haben für den ganzen
577
00:44:40,710 --> 00:44:44,330
Datensatz haben.
Herald: Wohin wenden sich denn Menschen,
578
00:44:44,330 --> 00:44:46,901
wenn sie bei eurem Projekt mitmachen
möchten?
579
00:44:46,901 --> 00:44:52,130
Florian: Am besten z.B.
zwischenruf@opendiscourse.de oder auf
580
00:44:52,130 --> 00:44:54,680
unserer Webseite opendiscourse.de findet
ihr auch verschiedene
581
00:44:54,680 --> 00:44:58,930
Kontaktmöglichkeiten. Ihr könnt natürlich
auch direkt über das Repository uns
582
00:44:58,930 --> 00:45:02,940
Tickets schreiben, falls ihr irgendwie
Sachen habt, die euch aufhalten. Twitter,
583
00:45:02,940 --> 00:45:08,750
Instagram, sämtliche Kanäle.
Herald: Alle sozialen Netzwerke. Seid ihr
584
00:45:08,750 --> 00:45:11,980
auf TikTok?
Florian: Nur privat...
585
00:45:11,980 --> 00:45:17,060
Herald: Zum Thema Transferierbarkeit gab's
dann auch nochmal eine Frage aus dem Chat.
586
00:45:17,060 --> 00:45:21,369
Zum Beispiel für die Republik Österreich.
Wie gehen den Menschen vor - ihr habt ja
587
00:45:21,369 --> 00:45:23,920
vorhin umrissen, dass es gar nicht so
einfach ist, so einen Datensatz zu
588
00:45:23,920 --> 00:45:26,911
analysieren. Aber wie würden denn Menschen
vorgehen, die sagen: Das finden sie
589
00:45:26,911 --> 00:45:29,330
interessant. Zum Beispiel für ihr
Landesparlament oder eben auch für ein
590
00:45:29,330 --> 00:45:34,680
anderes Land?
Florian: Genau, an der Stelle sind wir
591
00:45:34,680 --> 00:45:39,830
leider auch nicht ausreichend Expert:innen
für die Plenarprotokolle, wie die auf
592
00:45:39,830 --> 00:45:44,680
Landesebene aussehen. Also es könnte sein.
Wir haben da halt noch nicht reingeschaut.
593
00:45:44,680 --> 00:45:47,770
Es könnte sein, dass es eigentlich gar
nicht zu viele Abänderungen der Regex
594
00:45:47,770 --> 00:45:52,350
Patterns voraussetzt, um es zu übertragen.
Es könnte aber auch sein, dass es relativ
595
00:45:52,350 --> 00:45:58,730
aufwändig ist. Wir würden da jetzt so ein
bisschen auf die Stimmen von euch warten.
596
00:45:58,730 --> 00:46:03,110
Also was interessiert euch denn eigentlich
am meisten? Und wir sind natürlich auch
597
00:46:03,110 --> 00:46:08,430
sehr dankbar für jedes weitere Paar Augen,
das auf unsere Daten oder bzw. auf unseren
598
00:46:08,430 --> 00:46:12,110
Source Code draufschaut, um vielleicht
Ideen zu entwickeln, wie man das jetzt
599
00:46:12,110 --> 00:46:18,112
möglichst effizient auf andere
Anwendungsbereiche übertragen kann.
600
00:46:18,112 --> 00:46:22,619
Herald: Okay, dann ist noch eine Frage aus
dem Chat, nämlich vielleicht kam das im
601
00:46:22,619 --> 00:46:26,710
Talk vor. Er schreibt die Person: Aber wie
ist das Projekt zustande gekommen?
602
00:46:26,710 --> 00:46:33,040
Insbesondere von der Finanzierung her?
Philipp: Also die Idee, die Grundidee war
603
00:46:33,040 --> 00:46:37,570
glaube ich war, als wir zusammensaßen und
uns überlegt haben, wie können wir denn
604
00:46:37,570 --> 00:46:41,250
eigentlich in Anbetracht von so vielen
schönen und künstlerischen oder
605
00:46:41,250 --> 00:46:45,369
politischen Programmen und Aktionen die so
gibt, was können wir da eigentlich
606
00:46:45,369 --> 00:46:49,810
beitragen, um irgendwas zu machen? Wir
sind Informatiker und Data Scientists und
607
00:46:49,810 --> 00:46:53,660
das ist nicht so direkt der Punkt, wo man
jetzt die Welt ins Positive drehen kann.
608
00:46:53,660 --> 00:46:57,500
Aber dann ist uns aufgefallen, dass eben
diese Daten, der Datensatz nicht
609
00:46:57,500 --> 00:47:01,400
ausreichend verfügbar ist, dass der nicht
maschinenlesbar ist, dass es nur händisch
610
00:47:01,400 --> 00:47:05,010
durchsuchbare Protokolle sind. Und dann
haben wir diesen Datensatz genommen und
611
00:47:05,010 --> 00:47:08,340
aufgebrochenen. Grundlegend sind wir sonst
normalerweise in Agenturen und erbringen
612
00:47:08,340 --> 00:47:11,291
Data Science Machine Learning
Dienstleistungen. Und haben dieses Projekt
613
00:47:11,291 --> 00:47:15,970
aber in Abstimmung mit unserem Team,
also wir waren zu neunt an diesem Projekt,
614
00:47:15,970 --> 00:47:21,780
haben das quasi komplett von unserem
Business getrennt und haben quasi gesagt:
615
00:47:21,780 --> 00:47:25,950
Okay, wann immer wir Arbeitsstunden frei
haben, haben wir Zeit um dieses Projekt zu
616
00:47:25,950 --> 00:47:31,390
treiben. Und damit diese quasi Bindung der
Privatwirtschaft, die da ja dran sein
617
00:47:31,390 --> 00:47:34,570
könnte, dass die natürlich auch komplett
eliminiert ist, ist dieses Projekt
618
00:47:34,570 --> 00:47:39,057
komplett offen und ist komplett
durchsuchbar und ist komplett frei, sodass
619
00:47:39,057 --> 00:47:42,150
validiert werden kann, dass wir das
natürlich... Wir haben natürlich eine
620
00:47:42,150 --> 00:47:45,070
eigene politische Meinung, aber die soll
natürlich nicht mit in diesen Datensatz
621
00:47:45,070 --> 00:47:47,800
fließen. Daher liegt der Datensatz
komplett offen und kann vollkommen
622
00:47:47,800 --> 00:47:51,900
durchsucht werden. Finanziert ist das aber
quasi aus den Freistunden, die wir als
623
00:47:51,900 --> 00:47:56,890
Data Science Agentur hatten.
Herald: Vielen Dank Florian, vielen Dank
624
00:47:56,890 --> 00:48:00,110
für dieses spannende Projekt und wirklich
gehaltvolle Projekt. Bei den
625
00:48:00,110 --> 00:48:03,920
Beleidigungen muss man auch sagen: Franz
Josef Strauß war von der Runterzählung der
626
00:48:03,920 --> 00:48:08,320
Top 5 fast zu erwarten, dass der
rauskommt. Ich hatte eigentlich noch Herrn
627
00:48:08,320 --> 00:48:12,890
Wehner auch erwartet, der eigentlich sein
sein traditioneller Widersacher war. Habt
628
00:48:12,890 --> 00:48:17,370
ihr denn ein Lieblingsschlagaustausch oder
eine Lieblingsbeleidigung gefunden in
629
00:48:17,370 --> 00:48:21,020
eurer Arbeit.
Philipp: Ich glaube, man kann es auf so
630
00:48:21,020 --> 00:48:26,063
unterschiedliche Art und Weisen auch
operationalisieren. Ich glaube wir hatten
631
00:48:26,063 --> 00:48:29,780
mal eine ganz, eine ganz spannende... ich
glaube das müssten wir nochmal...
632
00:48:29,780 --> 00:48:33,910
Vielleicht machen wir dafür nochmal einen
extra Teil auf der Website, wo wir die
633
00:48:33,910 --> 00:48:38,264
spannendsten Beleidigungen nochmal
aufgreifen. Das wäre ein gutes Thema.
634
00:48:38,264 --> 00:48:41,070
Florian: Wir hatten glaube ich teilweise
in so einem kleinen Dokument mal ein paar
635
00:48:41,070 --> 00:48:43,660
Sachen gesammelt. Aber ich hab die grad
auch gar nicht im Kopf.
636
00:48:43,660 --> 00:48:48,021
Herald: Okay, also einen Ausbaupotenzial
für den Spaß da hinten dran, für die
637
00:48:48,021 --> 00:48:52,420
Spaßig-Seite der Datenanalyse ist auf
jeden Fall vorhanden. Vielen Dank für
638
00:48:52,420 --> 00:48:58,010
euren Beitrag. Ich hoffe, ihr bekommt viel
Feedback und noch viel Input, wie man hier
639
00:48:58,010 --> 00:49:00,220
noch mehr draus machen kann. Danke euch!
- Vielen Dank auch.
640
00:49:00,220 --> 00:49:02,810
- Danke dir.
641
00:49:02,810 --> 00:49:06,180
Wikipaka Outro Musik
642
00:49:06,180 --> 00:49:13,000
Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!