-
Wikipaka Intro Musik
-
Florian: Herzlich willkommen zu unserem
Talk "Wir wissen, was ihr letzten Sommer
-
gesagt habt". Wir sind sehr aufgeregt und
freuen uns sehr, dass wir das heute
-
vorstellen dürfen. Wir sind Philip Koch
und Florian Richter und wir wollen euch
-
heute unser Projekt Open Discourse
vorstellen und inwiefern Open Discourse
-
die Transparenz des Bundestages erhöhen
kann. An Open Discourse haben wir die
-
letzten anderthalb Jahre gearbeitet, in
einem Team von insgesamt neun Personen.
-
Und genau. Worüber wollen wir euch
eigentlich heute erzählen? Für Open
-
Discourse haben wir die Plenarprotokolle
des Deutschen Bundestages aufgearbeitet
-
und die Plenarprotokolle seht ihr hier auf
der rechten Seite, die sehen so aus. Das
-
heißt für jede Sitzung im Bundestag gibt
es Stenograph:innen, die jedes gesprochene
-
Wort von den Parteien bzw. von den
Politiker:innen, die gerade eine Rede
-
halten, aufzeichnen. Und außerdem wird
auch jeder Zwischenruf, jede Reaktion aus
-
dem Plenum mit aufgezeichnet. Diese
Plenarprotokolle stellt der Bundestag zur
-
Verfügung, seit 1949. Allerdings als PDF-
Dokument. Das birgt natürlich einige
-
Probleme, weil PDF Dokumente sind nicht
gut durchsuchbar, weil wir jetzt z.B.
-
nicht gezielt suchen könnten, was ein
bestimmter Politiker einer bestimmten
-
Partei im Jahre 1950 beispielsweise gesagt
hat. Das heißt, das ist das Problem, das
-
wir eigentlich haben. Aber eigentlich
beinhalten diese Plenarprotokoll ziemlich
-
viel wertvolle Information. Weil
beispielsweise natürlich die einzelnen
-
Redebeiträge, die Zwischenrufe usw, diese
sind aber als Fließtext in diesem PDF
-
enthalten. Das heißt, wir brauchen
eigentlich irgendeinen Weg, um das
-
herauszubrechen. Und genau, das gab's
bisher noch nicht. Mit Open Discourse
-
haben wir es jetzt erstmals geschafft,
seit 1949 alle Reden, alle Zwischenrufe,
-
alle Reaktionen und so weiter
herauszuarbeiten. Warum machen wir das
-
eigentlich? Die Motivation hinter Open
Discourse beruht im Kern darauf, dass wir
-
davon ausgehen oder wir finden, das
Plenarprotokolle eigentlich eine ziemlich
-
wertvolle Ressource sind und die Debatten
im Bundestag ja eigentlich so transparent
-
wie möglich stattfinden sollten. Das
heißt, wir alle haben ein Recht darauf,
-
auch noch nach 20 Jahren zu wissen, was
eine bestimmte Politikerin oder ein
-
bestimmter Politiker zu einem bestimmten
Thema gesagt hat. Was auffällt, wenn wir
-
uns Plenarprotokolle und die Befassung mit
Plenarprotokollen ansehen, ist, dass das vor
-
allen Dingen in der deutschen
Politikwissenschaft eigentlich ein Thema
-
ist, das nicht besonders oft angefasst
wird. Es ist unterrepräsentiert in der
-
Forschung. Das hat mehrere Gründe: Zum
einen.. oder zwei Hauptgründe
-
wahrscheinlich. Zum einen ist die deutsche
Politikwissenschaft eher aus der
-
politischen Ideengeschichte erwachsen. Das
heißt, man kümmert sich eigentlich eher
-
qualitativ um Texte als quantitativ. Das
ändert sich in den letzten Jahren ein
-
bisschen. Aber im Kern befasst sich die
deutsche Politikwissenschaft immer noch
-
relativ wenig mit dem Plenardebatten. Und
der große Grund dafür ist dann natürlich
-
auch, dass diese Plenarprotokolle bisher
noch nicht maschinenlesbar und nicht
-
leicht auswertbar vorlagen. Man kann sich
vorstellen, wenn man jetzt nach einer
-
gezielten Fragestellung die
Plenarprotokolle untersuchen möchte,
-
müsste man im Zweifelsfall über 4 000
Protokolle händisch durchlesen, um zu
-
schauen: In welchem Protokoll steht jetzt
irgendeine Information, die wichtig ist
-
für meine Fragestellung. In den letzten
Jahren sehen wir aber, dass das Interesse
-
an diesen Plenarprotokollen zunehmend
wächst. Und an der Stelle haben wir uns
-
gedacht, als Team aus in erster Linie Data
Scientists und Software Developern, dass
-
wir eigentlich die Skills dazu haben,
diese Daten aufzubereiten und der
-
Öffentlichkeit zur Verfügung zu stellen.
Genau. Das ist also der der aktuelle
-
Stand. Wir haben das große Problem, dass
es keine einfache Möglichkeit gibt, diese
-
Plenarprotokolle zu durchsuchen und diese
Plenarprotokolle auch nicht
-
maschinenlesbar sind, wir also keine
aktuellen Analysemethoden über diesen
-
Textkorpus laufen lassen können. Unsere
Ziele, die wir uns gesetzt haben für
-
dieses Projekt, waren mehr Transparenz des
politischen Diskurses in Deutschland, eine
-
detaillierte Durchsuchbarkeit der
Plenardebatten, ein öffentlicher und
-
möglichst niedrigschwelliger Zugang zu
diesen Daten, die Anschlussfähigkeit
-
unseres Projektes, damit dieses Projekt
weiterentwickelt werden kann, dass neue
-
Projekte daraus entstehen können. Und
natürlich, dass mit diesen Daten auch
-
geforscht werden kann und wir demnach ein
wissenschaftliches Niveau für diese Daten
-
brauchen. Ok, kurz zum Status Quo. In den
letzten Jahren, wie gerade angesprochen
-
hat sich natürlich das Interesse für diese
Plenarprotokoll deutlich erhöht. 2017
-
beispielsweise gab es das sehr spannende
Projekt Offenes Parlament, was von der
-
Open Knowledge Foundation getrieben wurde
oder durchgeführt wurde. In diesem Projekt
-
wurden die Plenarprotokolle der 18.
Wahlperiode aufgearbeitet und diese waren
-
dann auch granular durchsuchbar, das
heißt, wir hatten Dimensionen zum Datum,
-
zum Inhalt der Redebeiträge, welche Person
diesen Redebeitrag gehalten hat usw.
-
Ebenfalls 2017 und 2018 kamen die Projekte
ParlSpeech und GermaParl und wurden
-
veröffentlicht. Das sind zwei
wissenschaftliche Projekte, die ebenfalls
-
sehr granular die Redebeiträge aufbereitet
haben des Bundestages. Allerdings im Falle
-
von ParlSpeech, die haben dieses Jahr
nochmal ein Update von ihrem Datensatz
-
gemacht. Reicht jetzt von der 12. bis 19.
Wahlperiode. Bei GermaParl sind aktuell
-
die 13. bis zur 18. Wahlperiode abgedeckt.
D.h. wir haben da auch nicht den
-
kompletten Umfang der Plenardebatten. Und
an dieser Stelle vor einem Jahr haben
-
Martin Haars und Kai Biermann das Projekt
vorgestellt, das Zeit Online
-
veröffentlicht hat, wo das erste Mal alle
oder jedes gesprochene Wort seit 1949
-
bereitgestellt wurde und es möglich war,
eine Keyword Suche über diesen Korpus zu
-
laufen zu lassen. Das heißt, man konnte
dadurch erstmals schauen: Wie hat sich
-
beispielsweise das Keyword Umweltschutz in
den Debatten dargestellt? Wie hat sich das
-
verändert über die Zeit? Genau. An dieser
Stelle gebe ich jetzt an Philipp weiter
-
und er wird euch mal erklären, was wir
jetzt eigentlich mit Open Discourse noch
-
zusätzlich machen können.
Philipp: Genau. Also wir sehen so ein
-
bisschen oder wir erinnern euch oder viele
von euch erinnern sich vielleicht an den
-
den Talk von Martin Haase und Kai Biermann
vor einem Jahr. Da haben die gezeigt, wie
-
sie diese Worte über die Zeit analysiert
haben und haben auch gezeigt, welche
-
Beschimpfungen in Deutschen Bundestag
relativ typisch waren. Also wir haben
-
sowas wie Heuchler und Lügner:in und
Idioten und Lümmel und Flegel. Und nur um
-
da so ein Stück anzuknüpfen und um zu
zeigen, wie wir an dieser Stelle ansetzen
-
können und das ein Stück weiter denken
können, hab ich euch das mal mitgebracht
-
und hab euch mal geplottet über die Zeit,
wie häufig mit welcher relativen
-
Häufigkeit Beschimpfungen im Deutschen
Bundestag passiert sind. Und wir sehen,
-
dass es eine Zeit gab, in der mal mehr und
mal weniger beschimpft wurde. Und was wir
-
jetzt aber machen können mit dem Open
Discourse Datensatz: Wir können neue
-
Dimensionen hinzufügen, denn wir haben
nicht mehr nur das reine gesprochene Wort,
-
sondern wir haben all die
Metainformationen, weil wir wissen, wer
-
dieses Wort gesprochen hat. Ich kann also
gucken, ob Männer oder Frauen mehr
-
geflucht haben und ich stelle fest, dass
Männer mit großem großem Abstand mehr
-
fluchen als Frauen. Männer sind
diejenigen, die das treiben im Deutschen
-
Bundestag, und die fluchen und beschimpfen
und beleidigen. Wenn ich die Frauen
-
dagegen plotte - Das erste Mal, dass eine
Frau im Deutschen Bundestag mit der
-
Auswahl dieser Beschimpfungen geflucht
hat, war 1977 ungefähr. Und auch so reden
-
Frauen deutlich, deutlich deutlich weniger
quasi in diesem Wortschatz. Und das Ganze
-
können wir jetzt immer und immer weiter
berechnen, denn wir haben mit Open
-
Discourse die Dimensionalität, um diese
Fragestellungen zu beantworten. Fluchen war
-
z.B. früher ein Thema von Doktor:innen.
Das heißt, Abgeordnete mit einem
-
akademischen Grad haben deutlich mehr
geflucht und erst in den 85er Jahren haben
-
dann auch nicht Doktor:innen angefangen,
stärker zu fluchen und Beschimpfungen in
-
ihren Wortschatz aufzunehmen. Wir können
weiter reingucken und können gucken, wer
-
denn eigentlich flucht. Also wenn ich
jetzt mal vergleichen möchte, wie die die
-
Mitte rechts und die Mitte Links Fraktion
im Deutschen Bundestag, wie die sich
-
unterscheiden in ihrer Nutzung von
Schimpfworten, dann kann ich feststellen,
-
dass ungefähr seit den 85er Jahren das
Fluchen eine typisch linke Disziplin ist.
-
Das ist in der Mitte Links Fraktion
ziemlich verortet, jetzt in dem Fall hier
-
definiert als SPD, Linke, PDS und Grüne im
Vergleich zur CDU, CSU, FDP-Fraktion, die
-
ein gutes Stück weniger flucht. Wir können
auch bis auf die einzelne Person
-
runtergehen und wir können die Gewinner im
Beschimpfen des Deutschen Bundestages seit
-
1949 küren. Vielleicht hat jemand von euch
eine Idee, wer da so drinsteckt. Auf Platz
-
vier ist es Norbert Blüm von der CDU. Auf
Platz drei ist es Carlo Schmidt von der
-
SPD, ein bisschen früherer Politiker. Auf
Platz zwei, Ottmar Schreiner von der SPD.
-
Und auf Platz eins ist es Franz Josef
Strauß von der CSU, der mit großem Abstand
-
die meisten Flüche im Deutschen Bundestag
gesprochen hat. Ihr seht also: Das, was
-
wir mit Open Discourse machen können, ist,
wir können dem gleichen Projekt, was auch
-
die Kollegen von der Zeit haben,
Mehrdimensionalität hinzufügen, weil wir
-
in unserem Korpus eine Realität abbilden
können und den gesamten PDF-Datensatz
-
quasi komplett als Datenbank-Struktur
verfügbar gemacht haben. Das heißt, was
-
wir früher konnten ist, wir konnten Worte
über eine Zeit plotten. Das war so der
-
Status quo. Und was wir jetzt gemacht
haben ist, wir haben diesen Fließtext,
-
dieses PDF umgebrochen in eine
Datenbankstruktur und können das jetzt
-
beliebig filtern und beliebig analysieren
und können da sehr, sehr, sehr tief in die
-
quantitativen Analysen gehen. Das heißt,
wir fügen diesen Plenardebatten mehr
-
Dimensionalität hinzu. Früher also Worte
und Zeit und heute eben auch, welche
-
Person gesprochen hat und damit eben auch
welche Fraktion, welche
-
Regierungsposition, welches Geschlecht,
welches Alter hat der oder die Sprechende?
-
Was ist der Beruf der sprechenden Person?
Der akademische Grad, die Jahre im
-
Bundestag? Der Geburtsort, der Adelstitel.
Und wir haben natürlich auch alle
-
Reaktionen und Interaktionen des
Bundestag. Das heißt, wir können genau
-
gucken, welche Personen, welche Fraktion
lacht oder amüsiert sich oder klatscht.
-
Und welche Einzelpersonen sind es denn,
wenn es irgendwelche Zwischenrufe sind?
-
Und wenn wir uns das so einer Größe
angucken, dann haben wir ein Datensatz,
-
bei dem wir etwa 331 Tausend Plenarseiten
ausgewertet haben seit 1949. Wir haben
-
dadurch 211 Millionen Tokens, also Worte,
in unserem Datensatz von ungefähr 900 000
-
Redebeiträgen, die wir verzeichnet haben,
gesprochen von 4100 Politiker:innen.
-
Darauf haben wir dann 2,2 Millionen
Reaktionen und Zwischenrufe des Plenums
-
von insgesamt 27 Fraktionen und Gruppen
seit der Gründung des Bundestages. Wie
-
haben wir das gemacht? Vielleicht ein ganz
kurzes Wort dazu, was dahinter steckt. Wir
-
haben die öffentlich verfügbaren Daten
genommen, die, die daliegen. Das heißt,
-
das sind die Plenarprotokolle des
Bundestages als PDF. Wir haben das
-
angereichert mit den Stammdaten der
Abgeordneten, die auch der Bundestag
-
erfasst und selbst herausgibt. Und wir
haben die Liste der deutschen
-
Regierungsmitglieder seit 1949 noch mit
dazugegeben, denn es gab relativ viele
-
oder es gab einige Regierungsmitglieder,
die selbst kein Bundestagsmandat haben.
-
Auch die haben wir hinzugefügt. Und dann
haben wir diese unendlich langen Texte
-
eben vorwiegend durch Regular Expressions
gefiltert. Das heißt, wir haben die
-
relevanten Teile und Protokolle
extrahiert. Wir haben das aufgegliedert.
-
Und wir haben dann eben nach Redebeiträge,
nach Redner:innen, Zwischenrufe,
-
Reaktionen unterteilt. Das war mal einer
der längsten Regular Expression Strings.
-
Der war dann irgendwann so lang, wir haben
dann irgendwann unserem Head of Regular
-
Expressions das auf ein T-Shirt gedruckt.
Das hatte die gute Vorderseite genutzt.
-
Und nach diesen ganzen Regular Expressions
haben wir dann auch viel Fuzzy Search und
-
Matching gemacht, um eben die Fehler auch
in dem Plenarprotokoll auszumerzen. Das
-
heißt, Politiker:innen sind falsch
geschrieben, irgendwelche Worte sind
-
zerrissen. Und um das alles wieder
zusammenzuführen, haben wir dann Fuzzy
-
String Matching angeführt.
Florian: Genau, und an der Stelle kommt
-
ihr jetzt eigentlich ins Spiel. Das heißt,
was wir im Kern machen wollten und jetzt
-
geschafft haben, ist diesen die, dieses
Korpus oder diesen Datensatz so
-
bereitzustellen, dass ihr euch den
auschecken könnt und eigene Analysen mit
-
diesen Daten durchführen könnt. Das heißt,
der Open Discourse Datensatz und das ganze
-
Repository dazu ist veröffentlicht. Ihr
könnt euch den Source Code anschauen,
-
auschecken, die Datenbank bei euch lokal
aufbauen. Und ihr habt noch ein paar
-
andere Möglichkeiten, auf die ich später
noch genauer ein. Genau. Das Spannende,
-
finden wir, an diesem Datensatz ist jetzt,
dass es erstmals möglich ist, Analysen
-
durchzuführen, die vorher in der Form
nicht durchführbar waren. Und während wir
-
auf eure Analysen warten, zeigen wir euch
ein paar Analysen, die wir schon mal
-
durchgeführt haben, um euch eine kleine
Inspiration zu geben, was denn eigentlich
-
möglich ist. Und an dieser Stelle ein
kleiner Disclaimer: Alles, was wir jetzt
-
gleich zeigen, dient als Inspiration. Wir
haben die Analysen mit größter Sorgfalt
-
durchgeführt. Aber es ist keine
politikwissenschaftliche Forschung. Und
-
gerade weil wir jetzt über Politik
sprechen, sollten wir an dieser Stelle ein
-
bisschen vorsichtig sein. Wir sind uns
weitestgehend sicher, dass die Ergebnisse,
-
die wir euch präsentieren, sehr plausibel
und weitestgehend korrekt sein werden.
-
Aber wie gesagt, das ist jetzt keine
politikwissenschaftliche Forschung, das
-
ist nicht durch ein Peer Review Prozess
gegangen. Soweit als kleiner Disclaimer
-
dazu. Okay, wir gucken uns jetzt folgend
zwei große Themen an, die in der
-
Geschichte der Bundesrepublik ziemlich
große Relevanz hatten. Und wir starten mit
-
dem Thema Datenschutz. Und wir könnten
jetzt dieses Thema so untersuchen, wie es
-
traditionell bisher immer möglich war. Das
heißt, wir schauen uns mal an, wie oft
-
eigentlich das Wort Datenschutz in den
Plenarsitzungen gesagt wurde. Und wenn wir
-
das machen Sie das ungefähr so aus. Das
heißt, wir haben die erste Nennung des
-
Begriffs Datenschutz Anfang der siebziger
Jahre. Das würde ungefähr so passen, weil
-
in dem Zeitraum auch Hessen als erstes
Land oder sogar weltweit das erste
-
Datenschutzgesetz verabschiedet hat. Das
heißt, damals wurde der Begriff
-
anscheinend das erste Mal genutzt, auch im
Bundestag. Und ab dann ging es weiter. Wir
-
sehen einen kleinen Abfall in den 90ern,
einen Anstieg dann wieder in den 2000er
-
Jahren. Genau. Aber das ist eigentlich
noch nicht gut interpretierbar. Wir haben
-
jetzt einfach nur die Worthäufigkeiten.
Wir wissen nicht, wer hat das eigentlich
-
gesagt hat. Das heißt, an der Stelle
nutzen wir jetzt unseren Open Discourse
-
Korpus, um uns das ein bisschen genauer
anzuschauen. Was wir zusätzlich jetzt noch
-
gemacht haben, ist: Wir haben ein LDA
Topic Modeling trainiert. Das funktioniert
-
im Wesentlichen so, dass wir davon
ausgehen... bzw. ein LDA Topic Modeling
-
ist dafür da oder kann genutzt werden, um
latente Themen in Textkorpora zu
-
ermitteln. Und wir wollen uns ja das Thema
Datenschutz ansehen. Das heißt, wir müssen
-
versuchen, ein LDA Topic Modeling so zu
trainieren, dass wir dieses
-
Datenschutzthema auch finden in unseren
Daten. Natürlich nur, solange es da ist.
-
Glücklicherweise ist es tatsächlich da,
weil darüber ziemlich viel gesprochen
-
wurde. Das heißt, wenn wir jetzt
eigentlich untersuchen wollen, wie oder in
-
welchem Ausmaß über Datenschutz gesprochen
wurde im Bundestag, dann ist es natürlich
-
nicht bloß der Begriff Datenschutz
relevant. Sondern man kann auch über den
-
Datenschutz reden, dabei aber Begriffe
nutzen wie Informationsfreiheit,
-
Datenverarbeitung, Speicherung,
Privatsphäre usw.. Das heißt, es ist
-
eigentlich viel relevanter, dieses latente
Thema des Datenschutzes zu nutzen als
-
einen spezifischen Begriff. Dafür haben
wir das LDA Topic Modeling trainiert. Das
-
funktioniert im Wesentlichen so, dass wir
vorgegeben haben, was wir oder wie viele
-
Topics, spezifische Topics, wir im Korpus
erwarten. Da haben wir verschiedene
-
Nummern ausprobiert und bei
zweihundertfünfzig letztlich sehr
-
konsistente Themen gefunden. Und mit
diesem Model haben wir jetzt die weiteren
-
Analysen durchgeführt. Dieses LDA Topic
Modeling hat als Ergebnis, dass wir für
-
jeden Redebeitrag, den wir im Korpus
haben, Angaben darüber bekommen, wie der
-
prozentuale Anteil der jeweiligen 250
Themen in dieser Rede war. Das heißt, wir
-
haben genau 250 Zahlenwerte für jeden
Redebeitrag. Das ist das, was wir jetzt
-
folgend zusammen aggregieren und auf der
Y-Achse als Relevanz definieren. Genau das
-
ist jetzt auch erstmals möglich, weil wir
die einzelnen Redebeiträge als Dokumente
-
im LDA Topic Modeling nutzen können. Alles
klar. Zurück zum Thema Datenschutz. Okay,
-
wir plotten uns jetzt mal die
durchschnittlichen Gebrauch des ganzen
-
Thema Datenschutz im Plenar oder im
Verlauf der Plenarsitzungen. Und was uns
-
jetzt zum Beispiel schon mal auffällt,
ist, dass auch vor 1970 schon in einem
-
gewissen sehr geringen Maße über
Datenschutz-Themen gesprochen wurde. Der
-
Begriff Datenschutz wurde dabei jedoch
nicht genutzt. Wir sehen immer noch, dass
-
es quasi zwei große Phasen oder zwei große
Wellen gibt. Es gibt die erste Welle, die
-
ungefähr Mitte der 70er angefangen hat und
dann zum zum Ende der 80er Jahre abgeflaut
-
ist. Und wir haben eine zweite Welle, die
zum in den 2000er Jahren begonnen hat und
-
jetzt langsam wieder abflaut. Um zu
validieren, dass das, was wir jetzt hier
-
gefunden haben oder das, was uns das Topic
Model grad anzeigt, stimmt, haben wir mal
-
geschaut, was denn eigentlich in diesen
Zeiten so passiert ist. Und wenn wir uns
-
die 80er Jahre oder den Raum um die 80er
Jahre anschauen, sehen wir, dass derzeit
-
das Bundesdatenschutzgesetz, also das
erste Datenschutzgesetz auf nationaler
-
Ebene beschlossen wurde in Deutschland,
dass es die Volkszählungsboykotte gab. Es
-
sollte eine Volkszählung durchgeführt
werden und die sollte in dem Fall das
-
erste Mal digital die Daten der
Bevölkerung erfassen. Das hat natürlich
-
zur Boykotten, zu Protesten und zu Sorgen,
was denn eigentlich, welche Belange das
-
mit dem eigenen Datenschutz hat. Außerdem:
In der Zeit wurde der CCC gegründet. Es
-
gab ein ziemlich entscheidendes Urteil vom
Bundesverfassungsgericht, auch im Rahmen
-
dieser Volkszählung. Und in dem Rahmen
tauchte dann auch erstmals der Begriff der
-
informationellen Selbstbestimmung auf. Das
heißt, okay, an dem Rahmen oder in dem
-
Maße ist die erste Welle ziemlich
plausibel. Das wurde im Bundestag dann
-
offensichtlich auch sehr intensiv
besprochen. Danach ist das ein bisschen
-
abgeflaut. Wir haben einen kleinen Peak
ungefähr 1995, da wurde die europäische
-
Datenschutzrichtlinie verabschiedet. Aber
den richtigen Anstieg hatten wir dann erst
-
zur zweiten Welle. Da kamen dann
Diskussionen auf wie Zensursula und die
-
DSGVO. Also bei Zensursula wurde halt
diskutiert, inwiefern der Staat eigentlich
-
das Recht hat, Inhalte im Internet zu
zensieren. Auf der anderen Seite wurde
-
auch sehr, sehr stark diskutiert, ob der
Staat eigentlich das Recht hat,
-
Hausdurchsuchungen auf den eigenen
Rechnern quasi durchzuführen. Das heißt,
-
die zwei Wellen, die wir jetzt hier sehen,
die sind ziemlich plausibel. Das waren
-
tatsächlich die Zeiten, in denen die
Debatte um den Datenschutz ziemlich stark
-
ausgeführt wurde. Okay, jetzt schauen wir
uns mal an, welche Dimension wir
-
eigentlich dazu packen können, um
vielleicht mehr Informationen darüber zu
-
bekommen, wie das denn diskutiert wurde
und welche Partei sich mehr und welche
-
Partei sich weniger darum gekümmert hat um
dieses Thema. Und dazu haben wir uns mal
-
angeschaut, wie die historisch zwei großen
Parteien in Deutschland diese Themen
-
behandelt haben. Zuerst haben wir uns die
CDU angeschaut und wir sehen, dass die CDU
-
in der ersten Welle deutlich
überdurchschnittlich über das Thema
-
Datenschutz gesprochen hat, im Plenarsaal,
in der zweiten Welle aber deutlich
-
unterdurchschnittlich. Im Vergleich dazu
haben wir uns dann mal angeschaut, wie die
-
SPD drüber gesprochen hat. Die SPD hat der
ersten Welle unterdurchschnittlich viel
-
über Datenschutz gesprochen oder hatte in
ihren Reden deutlich weniger Datenschutz
-
aufgegriffen. In der zweiten Welle oder im
Beginn der zweiten Welle ein bisschen
-
überdurchschnittlich, dann hat es aber
deutlich abgeflacht. Das könnte - wird
-
höchstwahrscheinlich damit zu tun haben,
dass während der ersten Welle die SPD in
-
der Regierung war und die CDU nicht, dass
die CDU das deshalb vielleicht als
-
relevanter angesehen hat, das Thema
Datenschutz intensiver zu besprechen. In
-
der zweiten Welle sehen wir, dass zum
Beginn der zweiten Welle die SPD noch eine
-
Opposition war. Aktuell ist sie natürlich
mit in der Regierung. Das könnte die
-
Bewegung erklären, warum zu Beginn der
zweiten Welle die SPD leicht
-
überdurchschnittlich oder das Thema
Datenschutz leicht überdurchschnittlich
-
relevant fand, dann aber zunehmend
weniger. Wir plotten mal noch zwei andere
-
spannende Parteien dazu, nämlich die FDP
und die Grünen. Da können wir nämlich
-
ablesen, dass diese zwei
Oppositionsparteien, zumindest in der
-
Zeit, dass diese zwei Parteien auch nach
dem Abflauen der ersten Welle die Relevanz
-
aufrecht erhalten haben. Das heißt, diese
zwei Parteien hatten das Thema trotzdem
-
weiter im Fokus gehalten. Okay, schauen
wir uns eine andere Dimension an. Wir
-
schauen uns mal an, wie das vielleicht mit
dem Alter zu tun haben könnte. Und zwar
-
haben wir das Alter der Politiker:in nach
dem Durchschnitt ungefähr geteilt. Das
-
heißt, das Durchschnittsalter des
Bundestags aktuell liegt ungefähr bei 50
-
Jahren. Und so haben wir jetzt
unterschieden nach eher jüngeren
-
Politikern, die unter 50 Jahre zum
Zeitpunkt der Rede waren und älteren
-
Politikern, die älter als 50 waren zum
Zeitpunkt der Rede. Und hier sehen wir,
-
dass die jüngeren Politiker das Thema
Datenschutz deutlich relevanter finden als
-
die älteren. Okay, als letzte Dimension
schauen wir uns jetzt nochmal an, ob das
-
dann vielleicht auch ein Zusammenhang mit
dem akademischen Grad hat bzw. ob eine
-
Politikerin oder ein Politiker einen
Doktortitel trägt. Und an der Stelle sehen
-
wir das, wenn eine Politiker:in einen
Doktortitel trägt, das dann tendenziell
-
überdurchschnittlich über Datenschutz
gesprochen wird, als wenn die Person
-
keinen Doktortitel hat. Man könnte jetzt
versuchen, das irgendwie zusammenzufassen.
-
Beispielsweise könnte man versuchen, das
so zu interpretieren, dass wenn man
-
möchte, dass im Plenarsaal viel über
Datenschutz gesprochen wird, dann sollte
-
man Oppositionsparteien wählen, die eher
jüngere Leute hat. Und diese jüngeren
-
Leuten sollten vielleicht eher einen
Doktortitel tragen, vielleicht aber auch
-
nicht. Genau. Aber genau. Diese
Auswertungen waren vorher nicht möglich.
-
Und jetzt könnte man reinschauen und
gucken: Okay, was steckt denn da
-
eigentlich drin? Welche Bewegungen stecken
denn in diesen Daten? Wir wollen jetzt
-
nochmal zwei Personen krönen, die sich
sehr verdient gemacht haben, also die sehr
-
oder die höchste Relevanzwerte hatten für
das Thema Datenschutz in der ersten und in
-
der zweiten Welle. In der ersten Welle
geht diese Auszeichnung an Burkhard
-
Hirsch, der insbesondere zum ersten in der
ersten Phase der ersten Welle
-
Innenminister war und sich ganz stark
gegen staatliche Überwachung eingesetzt
-
hat. Das heißt, das klingt auch sehr
plausibel, dass unsere Analyse Burkhard
-
Hirsch hier als Vorreiter sieht. In der
zweiten Welle haben unsere Analysen
-
ergeben, dass das Gisela Piltz war, die
sich in besonderem Maße mit Datenschutz
-
auseinandergesetzt hat. Und Gisela Piltz
hat sich ganz... oder setzt sich ganz
-
stark gegen die Vorratsdatenspeicherung
ein. Also von daher wirkt auch das
-
ziemlich plausibel. Genau. Das wäre jetzt
das Beispiel Datenschutz, das wir
-
aufbereitet haben, um zu gucken: Okay, was
könnte in diesen Daten denn drinstecken
-
und welche spannenden Fragen könnte man
denn damit eigentlich stellen und
-
potenziell auch beantworten? Jetzt haben
wir uns noch ein zweites großes Thema
-
angeschaut, was gerade in den letzten
Jahren ganz, ganz stark an Relevanz
-
gewonnen hat. Und da wird euch Philipp
jetzt mal erzählen, was wir da so gefunden
-
haben.
Philipp: Genau. Also wir kommen nochmal
-
ein bisschen vom Datenschutz zum
Klimaschutz und stellen uns so ein
-
bisschen den gleichen methodischen Ansatz.
Also wir gucken mal, wie das reine Wort
-
Klimaschutz verwendet wurde. Und wir
stellen fest, dass das Wort Klimaschutz
-
eigentlich ein relativ neuer Begriff ist.
Ab den 2000ern. Aber zurück zu dem, was
-
Florian gerade eben schon gesagt hat Die
reine Analyse einzelner Begriffe ist noch
-
nicht ausreichend, um diesen Themenkomplex
und die latenten Grundstrukturen darunter
-
zu erfassen. Deswegen reicht dieser
Begriff Klimaschutz nicht, sondern wir
-
haben auch hier wieder ein automatisiertes
LDA Topic Modeling verwendet, was uns
-
hunderte Begriffe automatisiert findet,
die da reinpassen. Also natürlich kann ich
-
über Klimaschutz reden, ohne den Begriff
Klimaschutz zu verwenden. Ich kann über
-
das Emissionsschutzgesetz sprechen. Ich
kann über Nachhaltigkeit, über erneuerbare
-
Energien reden, ohne auch nur einmal das
Wort Klimaschutz zu verwenden. Dieses
-
Thema also voll fokussieren. Deswegen
haben wir daraus ein Thema gemacht und
-
gucken uns jetzt diesen ganzen Komplex an
und nicht mehr nur den Begriff. Wenn wir
-
das tun, dann stellen wir fest, dass seit
1949 dieses Thema nicht erst in den
-
2000ern an Relevanz gewonnen hat, sondern
auch früher schon da war. Wenn ich jetzt
-
auch hier wieder so ein bisschen die
Wegmarker setze, dann kann ich auch das
-
validieren. Also die ersten
Umweltprogramme von Willy Brandt 1970, der
-
Einzug der Grünen in den Bundestag, die
Atomkatastrophe von Tschernobyl. Wir haben
-
danach in den 90ern, das ist auch relativ
plausibel, ein Abschwachen dieses Themas,
-
denn wir hatten gerade in der
Wiedervereinigung dann
-
Verteilungskonflikte, die so ein bisschen
relevanter wurden. Dadurch ist das Thema
-
des Klimawandels und des Klimaschutzes so
ein bisschen hinten runtergefallen. Wir
-
haben weitere Punkte - wir haben die rot
grüne Regierung von Schröder und Fischer
-
2000, so Richtung 2000 2005. Wir haben
Fukushima und die Energiewende. Wir haben
-
das Pariser Klimaschutzabkommen. Und wir
sehen jetzt auch schon diesen Drall nach
-
oben, insbesondere durch Fridays For
Future und die neue Auseinandersetzung mit
-
der Einhaltung des Pariser
Klimaschutzabkommens. Was wir jetzt hier
-
wieder machen können, ist: Wir können uns
wieder angucken, wie einzelne Parteien
-
denn eigentlich darüber reden. Und wir
können feststellen, dass die CDU ziemlich
-
durchschnittlich über dieses Thema redet.
In den letzten Jahren sogar deutlich
-
abfallend, also deutlich
unterdurchschnittlich. Gerade seit dem
-
Pariser Klimaschutzabkommen ist das Thema
für die CDU nicht mehr ganz so relevant
-
vielleicht. Wir können die SPD plotten,
das sieht auch ganz durchschnittlich aus.
-
Bei der FDP sieht es auch ganz
durchschnittlich aus, bei den Linken sogar
-
ein Stück unterdurchschnittlich. Und so
ein bisschen wie erwartet sind es die
-
Grünen, die dieses Thema extrem pushen und
die diesen Diskurs sehr, sehr hoch halten.
-
Das heißt, die Grünen ziehen hier deutlich
den den Rolling Mean nach oben und steuern
-
dieses Thema ganz stark. Wir können aber
auch hier noch ein bisschen weiter
-
reingucken, nämlich: Wer sind das denn?
Sind es die jüngeren oder sind es die
-
älteren Politiker? Wenn ich mir hier das
mal angucke, dann stelle ich fest, dass
-
die mittelalten Politiker zwischen 39 und
59 sich mit dem Thema sehr
-
durchschnittlich auseinandersetzen. Und so
ein bisschen wie erwarten kann ich mir
-
dann entsprechend vorstellen, dass sich
ältere Politiker über 60 mit diesem Thema
-
sehr gering, sehr unterdurchschnittlich
auseinandersetzen und jüngere
-
Politikerinnen unter 39 sich mit diesem
Thema deutlich stärker auseinandersetzen.
-
Wir sehen auch hier nicht nur eine
stärkere Auseinandersetzung, sondern eben
-
auch eine frühere Auseinandersetzung.
Während bei älteren Politikerinnen diese
-
Auseinandersetzung immer zeitlich rechts
versetzt ist und immer deutlich weniger
-
intensiv ist. Wir können mit dem Open
Discourse Datensatz die Stammdaten des
-
Deutschen Bundestages anzapfen und noch
ein kleines Stück tiefer gehen. Wir können
-
nämlich die Berufe der Abgeordneten
auswerten. Jeder Abgeordnete gibt seinen
-
Beruf oder seinen seinen beruflichen
Hintergrund an. Und diese Daten können wir
-
auswerten. Wir haben über 1 000 unique
Berufsbezeichnungen von über 4 000
-
Politiker:innen. Wenn ich mir die jetzt
hier mal so angucke, dann sind es Ärzte
-
und Apotheker und Unternehmer und
Landwirte und Buchhalter:innen. Und wenn
-
ich das so ein bisschen cluster, dann hab
ich jetzt für die folgende Analyse mal 12
-
Berufsgruppen gefiltert. Und jetzt kann
man sich angucken, welche Berufsgruppen
-
denn dieses Thema besonders stark
fokussieren. Und was auch wieder sehr
-
erwartbar ist, ist, dass die
Naturwissenschaftler:innen dieses Thema
-
deutlich stärker fokussieren, als andere
das tun. Also das Thema ist sehr
-
exorbitant getragen durch Physiker:innen,
durch Biolog:innen, durch alle Personen,
-
die irgendwie einen Berufshintergrund in
dem Feld der Naturwissenschaften haben.
-
Ich habe uns hier immer noch die
Agrarwirte dazu geplottet. Also alle
-
Landwirte und alle Forstwirte und die, die
Bauer oder Bäuerin als Berufsbezeichnung
-
angegeben haben. Wir sehen, dass es in der
ersten Welle der Klimadebatte noch sehr
-
relevant war und jetzt grad so Richtung
der neueren Zeit für die Landwirte ein
-
unterdurchschnittlich relevantes Thema
geworden ist. Und wir können feststellen,
-
dass die, die eine Berufsbezeichnung im
Wirtschaftsfeld angegeben haben, sich mit
-
diesem Thema auch auseinandersetzen.
Allerdings deutlich weniger intensiv und
-
auch wieder rechts verlagert, also
zeitlich zurück verlagert, nachdem sich
-
die Naturwissenschaftler:innen mit diesem
Thema zuerst auseinandergesetzt haben. Was
-
können wir feststellen oder was könnten
wir mal so ein bisschen uns angucken? Wir
-
können uns angucken, was denn eigentlich
die perfekte Gruppe ist, um sich mit dem
-
Thema Klimaschutz auseinanderzusetzen und
diese perfekte Trennlinie zwischen der
-
perfekten Gruppe von Abgeordneten und der
schlechtesten Gruppe von Abgeordneten, die
-
macht sich ziemlich einfach am Geschlecht
und an dem Alter fest. Wenn ich also mir
-
mal angucke, wie sich alte männliche
Politiker mit dem Thema auseinandersetzen
-
im Vergleich zu jungen weiblichen
Politikerinnen, dann stelle ich fest, dass
-
wir da sowohl wieder eine frühere
Auseinandersetzung mit diesem Thema haben.
-
Wir haben eine intensivere
Auseinandersetzung mit dem Thema und für
-
ältere Politiker, in diesem Fall jetzt
hier über 60, ist die Auseinandersetzung
-
wirklich sehr weit unter dem Durchschnitt
des Parlaments. Wir können uns also hier
-
vielleicht ein bisschen überlegen, welche
Person wir denn ganz gerne im Bundestag
-
hätten, um progressive Themen, so auch den
Datenschutz stärker zu treiben. Wir können
-
auch hier im Klimawandel wieder die Top
Runner identifizieren, das können wir
-
beliebig operationalisieren. Wir haben uns
immer die Vielredner genommen. Also
-
Politiker:innen mit mehr als 500 Reden.
Und haben dann geguckt: Welche haben denn
-
den höchsten Klima-Score auf dieses Topic?
Tatsächlich ist es Angela Merkel, die als
-
Vielrednerin sich mit diesem Thema am
stärksten auseinandergesetzt haben. Wir
-
wollten uns aber auch nochmal einen
Newcomer angucken, in großen
-
Anführungszeichen, also Politiker:innen
mit 100 bis 500 Reden. Und da ist es Julia
-
Verlinden von den Grünen, die sich am
stärksten mit diesem Thema
-
auseinandersetzt. Das ganze Fridays For
Future hat immer auch das... geht es immer
-
viel um das Schwänzen und um das
Fernbleiben von Inhalten. Und wir haben
-
uns deswegen mal angeguckt, wer denn so
die großen Klimaschwänzer sind im
-
Deutschen Bundestag. Das haben wir
operationalisiert, indem wir gesagt haben,
-
wir wollen nicht den Politiker, die
Politikerin mit dem geringsten Wert über
-
die gesamte Zeit finden, sondern wir
wollen so einen Punkt nehmen, ab dem die
-
Klimadebatte wohl in aller Munde sein
müsste. Und wir haben dafür den ersten
-
Global Climate Strike genommen, am 19., am
15. März 2019. Und wir haben dann von den
-
Politikern geguckt, die die Gelegenheit
hatten, darüber zu reden. Also die
-
mindestens 40 Redebeiträge seitdem hatten,
wie sie sich damit auseinandersetzen. Wir
-
stellen fest, dass diejenigen, die sich am
wenigsten damit auseinandersetzen, drei
-
Männer sind, alle aus der gleichen
Fraktion. Wir haben also Volker Ullrich,
-
der sich trotz Gelegenheit am wenigsten
damit auseinandersetzt. Wir haben Thorsten
-
Frei, der sich trotz Gelegenheit am
zweitwenigsten damit auseinandersetzt. Und
-
wir haben hier auch den Spätzünder im
Klimathema, Philipp Amthor, der sich trotz
-
sehr vieler Reden nie mit diesem Thema
oder sehr selten mit diesem Thema
-
auseinandersetzt. Wichtig ist hier
vielleicht noch zu sagen, dass wir nicht
-
die reinen Reden zum Klimawandel zählen,
sondern dass allein die Verwendung von den
-
relevanten Begriffen, um dieses Thema ein
bisschen z.B. in Steuer- oder in
-
Haushaltsdebatten zu bringen, hier gezählt
wird. Also wir haben eine sehr komplexe
-
Betrachtung des gesprochenen Wortes.
Florian: Genau. Soviel erst einmal zu
-
einigen Analysen, die wir bisher
durchgeführt haben. Wie bereits
-
angesprochen ist unser eigentliches Ziel
ja aber, dass ihr und alle anderen auch
-
Analysen jetzt mit diesen Daten
durchführen können und auf unserem Weg bis
-
zur Veröffentlichung, die jetzt im Rahmen
oder auch zu genau dieser Zeit, wenn wir
-
diesen Vortrag halten, passiert, haben
schon andere Partner und Partnerinnen, mit
-
denen wir zusammengearbeitet haben oder
die mit unseren Daten schon arbeiten
-
konnten, ein paar Analysen durchgeführt
oder sind gerade dabei, diese Analysen
-
noch durchzuführen. Beispielsweise
CorrelAid, CorrelAid ist ein Netzwerk von
-
freiwilligen Data Scientists. Und bei
CorrelAid haben sich zwei Projektteams
-
zusammengefunden, die mit unseren Daten
schon seit einiger Zeit ein bisschen herum
-
arbeiten. Und die werden auch bald ihre
Ergebnisse und Analysen veröffentlichen.
-
Die findet ihr dann zum einen in den
entsprechenden Kanälen von CorrelAid. Auf
-
der anderen Seite werden wir die auch bei
uns auf unserer Open Discourse Website
-
dann zu gegebener Zeit einbetten. Ein paar
Sachen, die da beispielsweise schon
-
gemacht wurden, ist Ann-Kristin Vester hat
sich angeschaut, wie eigentlich die
-
Geschlechter im Bundestag auftreten, wie
die, wie der Sprachgebrauch sich
-
unterscheidet. An der Stelle auch
nochmal kurz hier der Hinweis bei allen
-
Analysen, die wir bisher durchgeführt
haben: Wir betrachten Geschlecht bisher
-
immer binär, weil der Bundestag das nicht
anders hergibt. Es gibt bloß eine binäre
-
Geschlechtseinteilung. Deswegen mussten
wir das in den Analysen auch so vornehmen
-
und das ist auch der Artikel, den Ann-
Kristin Vester geschrieben hat, das ist
-
auch dort mit erwähnt. Also eine tiefere
oder eine diversere Untersuchung von den
-
Geschlechtern im Bundestag ist aktuell
leider noch nicht möglich. Genau. Eine
-
andere Analyse wurde von Alexandra Wörner
durchgeführt. Alexandra Wörner hat sich
-
angeschaut, wie denn eigentlich über
Diskriminierung im Bundestag gesprochen
-
wurde, von welchen Parteien das wie
intensiv benutzt wurde oder darüber
-
gesprochen wurde und wie sich das über den
zeitlichen Verlauf verändert hat. Auch
-
ziemlich spannend. Ein anderes Projekt,
das bereits mit unseren Daten durchgeführt
-
wurde, kam von ZDF heute.
Datenjournalist:innen von ZDF Heute hatten
-
uns Frühsommer/Sommer angeschrieben und
gefragt, ob sie unsere Daten nicht schon
-
vor Veröffentlichung mal haben könnten, um
zu schauen, ob sie diese Daten für einen
-
Artikel schon nutzen könnten. Und daraus
ist ein Artikel entstanden, in dem sich
-
die Journalist:innen damit
auseinandergesetzt haben, wie der
-
Bundestag denn eigentlich über Pandemien
und über das Coronavirus im speziellen
-
unterhalten hat oder wie das debattiert
wurde. Das Ergebnis war eher, dass der
-
Bundestag da nicht besonders viel
Aufmerksamkeit draufgelegt hat. Auch ein
-
sehr spannender Artikel. Und als letztes
wollen wir noch kurz das Projekt Open
-
Parliament TV eher anteasern, weil der
offizielle Veröffentlichungstermin ist für
-
Mai 2021 vorgesehen. Open Parliament TV
hat als Kernziel eigentlich ein sehr
-
ähnliches Ideal wie wir bei Open
Discourse. Es geht darum, den Bundestag
-
transparenter zu machen. Open Parliament
TV hat dabei das Ziel, die
-
Videomitschnitte der Plenardebatten mit
den entsprechenden Transkripten, also
-
Plenarprotokollen zusammenzuführen, um
darüber eine noch viel wirksamere oder
-
detailliertere Recherchefunktion zu
ermöglichen. Und an der Stelle wird
-
gerade evaluiert, wie die Daten von Open
Discourse diesem Projekt noch weiter
-
helfen können. Genau. Und jetzt wieder zu
euch. Wie gerade schon angesprochen sind
-
unsere Daten ab sofort und unserer Source
Code komplett öffentlich verfügbar. Das
-
heißt, ihr habt jetzt die Möglichkeit, mit
diesen Daten zu machen, was ihr wollt. Wir
-
haben bei der Veröffentlichung das Ziel
gehabt, die so verfügbar wie möglich zu
-
machen und haben dabei auf drei große
Säulen versucht zu achten. Die erste Säule
-
dabei sind die Techniker:innen unter euch,
also alle Techniker:innen unter euch. Ihr
-
könnt euch unsere GitHub Seite anschauen
von Open Discourse und dort findet ihr
-
natürlich den Source Code. Ihr könnt das
alles auschecken, lokal bei euch
-
aufsetzen, überprüfen, wie wir eigentlich
vorgegangen sind, verbessern,
-
Schwachstellen finden. Außerdem findet ihr
auf der GitHub Seite auch einen Docker
-
Container, wo die komplette Datenbank als
Image vorliegt, d.h. die könnt ihr euch
-
auch sofort aufsetzen oder halt nochmal
neu generieren lassen, wenn ihr wollt. Für
-
die Analytiker:innen und die
Wissenschaftler:innen unter euch haben wir
-
ein Harvard Dataverse angelegt. Dort
findet ihr die aktuelle Version unserer
-
Datenbank als Data Dump und wir haben das
in vier verschiedenen Dateiformaten
-
bereitgestellt als CSV, Feather, Pickle
und RDS-Files, damit ihr je nachdem, womit
-
ihr am liebsten arbeitet, genau das
perfekte Dateiformat für euch findet. Und
-
als letztes haben wir noch für quasi Quick
Reviews oder schnelle Recherchen auf
-
unserer Webseite eine Volltextsuche mit
Filter-Option bereitgestellt. Da könnt ihr
-
also nach Stichworten, nach
Parteizugehörigkeit, nach den Namen der
-
Politiker, nach Datum usw. filtern und
schauen, ob euch was spannendes auffällt
-
oder ob ihr eure Fragen beantworten könnt.
Genau. So viel dann erst mal von uns. Wir
-
bedanken uns ganz, ganz herzlich für euer
Interesse und dass ihr uns zugehört habt.
-
Wir bedanken uns natürlich auch bei der C
Base dafür, dass wir das Video hier
-
aufnehmen konnten. Bei Fragen und
Anregungen schreibt uns gerne eine Mail
-
oder kontaktiert uns über die
einschlägigen Kanäle. Oder wir sprechen
-
uns dann gleich bei der Fragerunde. Alles
klar. Vielen Dank. Danke schön.
-
Herald: Wir sind nun mit den Sprechern
verbunden, sind uns zugeschaltet für
-
Fragen und Antworten, die uns zugespielt
worden sind. Herzlich willkommen!
-
Philipp & Florian: Hallo!
Herald: Die zweite Welle des Datenschutzes ist
-
ja angesichts der Zeit gerade die perfekte
Metapher. Wie lange wird die zweite Welle
-
des Datenschutzes wohl noch gehen?
Florian: Ja, gute Frage. Keine Ahnung. Man
-
hat ja gesehen, dass es schon ein bisschen
bergab wieder geht, aber viel mehr kann
-
ich da eigentlich nicht zu sagen. Aber es
ist spannend, das jetzt im Auge behalten
-
zu können.
Herald: Ist auf jeden Fall auf absehbare
-
Zeit nicht mit einer Impfung zu rechnen.
Eine Frage, die uns zugespielt worden ist
-
über die Hashtags und über IRC, die wir
empfangen und die wir weitergeben, ist: Es
-
gibt noch einen weiteren Text Korpus. Ihr
habt jetzt den Deutschen Bundestag
-
analysiert, aber es gibt noch eine andere
legislative Kammer, die es lange Jahre
-
gab, nämlich die Volkskammer der DDR. Gibt
es dort überhaupt entsprechende Unterlagen
-
oder entsprechendes Material, das man
analysieren könnte?
-
Florian: Da bin ich mir gar nicht so
sicher. Also ich hab - also davon weiß ich
-
nichts. Wir hatten da jetzt auch gar nicht
so weiter reingeguckt. Wir hatten
-
natürlich, während wir an dem Projekt
gearbeitet hatten, schon überlegt, wie man
-
das alles noch weiterdenken könnte, was
man zusätzlich noch mit aufnehmen könnte.
-
Da war die Volkskammer auch schon mal im
Gespräch, aber wir sind da jetzt erstmal
-
nicht weiter rein gesprungen. Aber
prinzipiell wird das natürlich total
-
spannend, noch weiter in die Richtung zu
denken und das auch noch mit aufzunehmen.
-
Aber ich weiß gar nicht, ob es die
Plenarprotokolle da so auch detailliert
-
gibt. Genau. Wahrscheinlich wäre es auch
ein relativ großer Aufwand, könnte ich mir
-
vorstellen, die Regex Patterns, die wir
jetzt für den Bundestag aufbereitet haben,
-
auf die Volkskammer zu übertragen. Weil
wenn sich da... also im Prinzip basiert,
-
die Aufarbeitung, die wir gemacht haben
darauf, dass die Struktur in den
-
Plenarprotokollen einigermaßen ähnlich
bleibt, über die Legislaturperioden. Die
-
wird natürlich jedes Mal angepasst, wenn's
dann notwendig war. Auf der anderen Seite
-
brauchen wir die Stammdaten der
Politiker:innen, weil wir das für die
-
Fuzzy Matching Logiken nutzen, um zuweisen
zu können: Wer hat denn eigentlich was
-
gesagt? Total spannend, das für die
Volkskammer auch noch zu machen.
-
Vielleicht jetzt als nächster Schritt. Wir
sind erstmal froh, dass wir den Bundestag
-
fertig bekommen haben.
Herald: Auf jeden Fall. Gibt es denn
-
Wünsche, die ihr habt für die
Zugänglichkeit von Daten, die euch das
-
Leben oder anderen das Leben
einfacher machen würden, bei solchen
-
Auswertungen?
Philipp: Das ist glaube ich vor allem die
-
strukturierte Erfassung, also eigentlich
hätte der Bundestag selbst die
-
Möglichkeit, diese Daten von sich aus
schon strukturiert verfügbar zu machen.
-
Vor allem, weil eben diese ganz einfachen
Sachen - ich suche nach Begriffen oder ich
-
suche nach Themen oder ich möchte das mal
ein bisschen strukturiert durchsuchen -
-
das ist derzeit eine absolut händische
Aufgabe und das ist eigentlich in unserer
-
jetzigen Zeit ein kleines bisschen hinter
der Zeit hinterher. Von daher wäre es
-
eigentlich sehr sinnvoll, wenn man so
Grundideen von strukturierter Datenhaltung
-
dann auch in öffentlichen Verwaltungen
hätte, um eben diesen Zugang zu
-
erleichtern. Der Bundestag hat uns jetzt
quasi eineinhalb Jahre Arbeit gekostet,
-
das aufzubrechen. Und wär natürlich super,
wenn man solche Grundthemen der
-
Datenhaltung, der öffentlich verfügbaren
Datenhaltung auch irgendwie direkt
-
mitdenkt.
Florian: Ein ganz kleiner Nachtrag da
-
noch. Ein großer Wunsch, der uns vieles
erleichtern würde, jetzt auch Open
-
Discourse up to date zu halten, wäre ein
RSS-Feed vom Bundestag. Da sitzen auch die
-
Leute von Open Parliament TV so ein
bisschen dran und hoffen, dass das
-
irgendwie bereitgestellt wird. Aber das
würde uns natürlich ermöglichen,
-
automatisiert den Datensatz zu erweitern,
sobald irgendwie eine neue Rede
-
bereitgestellt wurde auf den Servern. Im
Moment geht das leider so noch nicht.
-
Herald: Strukturierte, maschinenlesbare
Verwaltung und strukturierte Daten quasi
-
als Wunsch. Es gibt ja zum Teil zumindest
eigene Projekte, wo aus dritter Hand
-
solche Daten für Dritte bereitgestellt
werden, wie z.B. Wikidata. Ist das eine
-
Quelle, auf die ihr euch, die ihr
verwenden könnt für so was?
-
Florian: Genau. Teilweise hatten wir das
auch verwendet. Also auf dem Weg zum
-
fertigen Produkt haben wir auch mit
Wikidata-Daten gearbeitet. Zum Beispiel
-
gibt es in den Stammdaten ja Informationen
darüber, wo Personen geboren wurden und
-
das sind die Originalgeburtsorte von
damals, quasi mit den historischen Namen.
-
Und an der Stelle hatten wir dann mal als
Test-Experiment bei uns intern für jede
-
Person, die wir im Bundestag hatten, jeden
Abgeordneten und jede Abgeordnete, die
-
Wikidata-IDs rausgesucht, damit wir mappen
können: Okay, was ist denn jetzt
-
eigentlich die ID für den Geburtsort
dahinter, damit wir damit weiterarbeiten
-
können? Das liegt aber bei uns nur, also
das ist jetzt nicht Teil des Korpus, weil
-
wir das nicht weit... also so weit
validiert haben, dass wir sicher sein
-
können, dass das korrekt ist. Aber auf
jeden Fall. Also das wäre so ein bisschen
-
die Anschlussfähigkeit, die wir uns
eigentlich wünschen. Also im Idealfall
-
wäre jetzt und wäre vielleicht die
Community dazu auch aufgerufen, für jede
-
Politiker:in noch die entsprechende
Wikidata ID mit zum am Korpus dazu zu
-
packen, damit wir noch viel mehr Daten und
viel mehr Dimensionen haben für den ganzen
-
Datensatz haben.
Herald: Wohin wenden sich denn Menschen,
-
wenn sie bei eurem Projekt mitmachen
möchten?
-
Florian: Am besten z.B.
zwischenruf@opendiscourse.de oder auf
-
unserer Webseite opendiscourse.de findet
ihr auch verschiedene
-
Kontaktmöglichkeiten. Ihr könnt natürlich
auch direkt über das Repository uns
-
Tickets schreiben, falls ihr irgendwie
Sachen habt, die euch aufhalten. Twitter,
-
Instagram, sämtliche Kanäle.
Herald: Alle sozialen Netzwerke. Seid ihr
-
auf TikTok?
Florian: Nur privat...
-
Herald: Zum Thema Transferierbarkeit gab's
dann auch nochmal eine Frage aus dem Chat.
-
Zum Beispiel für die Republik Österreich.
Wie gehen den Menschen vor - ihr habt ja
-
vorhin umrissen, dass es gar nicht so
einfach ist, so einen Datensatz zu
-
analysieren. Aber wie würden denn Menschen
vorgehen, die sagen: Das finden sie
-
interessant. Zum Beispiel für ihr
Landesparlament oder eben auch für ein
-
anderes Land?
Florian: Genau, an der Stelle sind wir
-
leider auch nicht ausreichend Expert:innen
für die Plenarprotokolle, wie die auf
-
Landesebene aussehen. Also es könnte sein.
Wir haben da halt noch nicht reingeschaut.
-
Es könnte sein, dass es eigentlich gar
nicht zu viele Abänderungen der Regex
-
Patterns voraussetzt, um es zu übertragen.
Es könnte aber auch sein, dass es relativ
-
aufwändig ist. Wir würden da jetzt so ein
bisschen auf die Stimmen von euch warten.
-
Also was interessiert euch denn eigentlich
am meisten? Und wir sind natürlich auch
-
sehr dankbar für jedes weitere Paar Augen,
das auf unsere Daten oder bzw. auf unseren
-
Source Code draufschaut, um vielleicht
Ideen zu entwickeln, wie man das jetzt
-
möglichst effizient auf andere
Anwendungsbereiche übertragen kann.
-
Herald: Okay, dann ist noch eine Frage aus
dem Chat, nämlich vielleicht kam das im
-
Talk vor. Er schreibt die Person: Aber wie
ist das Projekt zustande gekommen?
-
Insbesondere von der Finanzierung her?
Philipp: Also die Idee, die Grundidee war
-
glaube ich war, als wir zusammensaßen und
uns überlegt haben, wie können wir denn
-
eigentlich in Anbetracht von so vielen
schönen und künstlerischen oder
-
politischen Programmen und Aktionen die so
gibt, was können wir da eigentlich
-
beitragen, um irgendwas zu machen? Wir
sind Informatiker und Data Scientists und
-
das ist nicht so direkt der Punkt, wo man
jetzt die Welt ins Positive drehen kann.
-
Aber dann ist uns aufgefallen, dass eben
diese Daten, der Datensatz nicht
-
ausreichend verfügbar ist, dass der nicht
maschinenlesbar ist, dass es nur händisch
-
durchsuchbare Protokolle sind. Und dann
haben wir diesen Datensatz genommen und
-
aufgebrochenen. Grundlegend sind wir sonst
normalerweise in Agenturen und erbringen
-
Data Science Machine Learning
Dienstleistungen. Und haben dieses Projekt
-
aber in Abstimmung mit unserem Team,
also wir waren zu neunt an diesem Projekt,
-
haben das quasi komplett von unserem
Business getrennt und haben quasi gesagt:
-
Okay, wann immer wir Arbeitsstunden frei
haben, haben wir Zeit um dieses Projekt zu
-
treiben. Und damit diese quasi Bindung der
Privatwirtschaft, die da ja dran sein
-
könnte, dass die natürlich auch komplett
eliminiert ist, ist dieses Projekt
-
komplett offen und ist komplett
durchsuchbar und ist komplett frei, sodass
-
validiert werden kann, dass wir das
natürlich... Wir haben natürlich eine
-
eigene politische Meinung, aber die soll
natürlich nicht mit in diesen Datensatz
-
fließen. Daher liegt der Datensatz
komplett offen und kann vollkommen
-
durchsucht werden. Finanziert ist das aber
quasi aus den Freistunden, die wir als
-
Data Science Agentur hatten.
Herald: Vielen Dank Florian, vielen Dank
-
für dieses spannende Projekt und wirklich
gehaltvolle Projekt. Bei den
-
Beleidigungen muss man auch sagen: Franz
Josef Strauß war von der Runterzählung der
-
Top 5 fast zu erwarten, dass der
rauskommt. Ich hatte eigentlich noch Herrn
-
Wehner auch erwartet, der eigentlich sein
sein traditioneller Widersacher war. Habt
-
ihr denn ein Lieblingsschlagaustausch oder
eine Lieblingsbeleidigung gefunden in
-
eurer Arbeit.
Philipp: Ich glaube, man kann es auf so
-
unterschiedliche Art und Weisen auch
operationalisieren. Ich glaube wir hatten
-
mal eine ganz, eine ganz spannende... ich
glaube das müssten wir nochmal...
-
Vielleicht machen wir dafür nochmal einen
extra Teil auf der Website, wo wir die
-
spannendsten Beleidigungen nochmal
aufgreifen. Das wäre ein gutes Thema.
-
Florian: Wir hatten glaube ich teilweise
in so einem kleinen Dokument mal ein paar
-
Sachen gesammelt. Aber ich hab die grad
auch gar nicht im Kopf.
-
Herald: Okay, also einen Ausbaupotenzial
für den Spaß da hinten dran, für die
-
Spaßig-Seite der Datenanalyse ist auf
jeden Fall vorhanden. Vielen Dank für
-
euren Beitrag. Ich hoffe, ihr bekommt viel
Feedback und noch viel Input, wie man hier
-
noch mehr draus machen kann. Danke euch!
- Vielen Dank auch.
-
- Danke dir.
-
Wikipaka Outro Musik
-
Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!