Wikipaka Intro Musik
Florian: Herzlich willkommen zu unserem
Talk "Wir wissen, was ihr letzten Sommer
gesagt habt". Wir sind sehr aufgeregt und
freuen uns sehr, dass wir das heute
vorstellen dürfen. Wir sind Philip Koch
und Florian Richter und wir wollen euch
heute unser Projekt Open Discourse
vorstellen und inwiefern Open Discourse
die Transparenz des Bundestages erhöhen
kann. An Open Discourse haben wir die
letzten anderthalb Jahre gearbeitet, in
einem Team von insgesamt neun Personen.
Und genau. Worüber wollen wir euch
eigentlich heute erzählen? Für Open
Discourse haben wir die Plenarprotokolle
des Deutschen Bundestages aufgearbeitet
und die Plenarprotokolle seht ihr hier auf
der rechten Seite, die sehen so aus. Das
heißt für jede Sitzung im Bundestag gibt
es Stenograph:innen, die jedes gesprochene
Wort von den Parteien bzw. von den
Politiker:innen, die gerade eine Rede
halten, aufzeichnen. Und außerdem wird
auch jeder Zwischenruf, jede Reaktion aus
dem Plenum mit aufgezeichnet. Diese
Plenarprotokolle stellt der Bundestag zur
Verfügung, seit 1949. Allerdings als PDF-
Dokument. Das birgt natürlich einige
Probleme, weil PDF Dokumente sind nicht
gut durchsuchbar, weil wir jetzt z.B.
nicht gezielt suchen könnten, was ein
bestimmter Politiker einer bestimmten
Partei im Jahre 1950 beispielsweise gesagt
hat. Das heißt, das ist das Problem, das
wir eigentlich haben. Aber eigentlich
beinhalten diese Plenarprotokoll ziemlich
viel wertvolle Information. Weil
beispielsweise natürlich die einzelnen
Redebeiträge, die Zwischenrufe usw, diese
sind aber als Fließtext in diesem PDF
enthalten. Das heißt, wir brauchen
eigentlich irgendeinen Weg, um das
herauszubrechen. Und genau, das gab's
bisher noch nicht. Mit Open Discourse
haben wir es jetzt erstmals geschafft,
seit 1949 alle Reden, alle Zwischenrufe,
alle Reaktionen und so weiter
herauszuarbeiten. Warum machen wir das
eigentlich? Die Motivation hinter Open
Discourse beruht im Kern darauf, dass wir
davon ausgehen oder wir finden, das
Plenarprotokolle eigentlich eine ziemlich
wertvolle Ressource sind und die Debatten
im Bundestag ja eigentlich so transparent
wie möglich stattfinden sollten. Das
heißt, wir alle haben ein Recht darauf,
auch noch nach 20 Jahren zu wissen, was
eine bestimmte Politikerin oder ein
bestimmter Politiker zu einem bestimmten
Thema gesagt hat. Was auffällt, wenn wir
uns Plenarprotokolle und die Befassung mit
Plenarprotokollen ansehen, ist, dass das vor
allen Dingen in der deutschen
Politikwissenschaft eigentlich ein Thema
ist, das nicht besonders oft angefasst
wird. Es ist unterrepräsentiert in der
Forschung. Das hat mehrere Gründe: Zum
einen.. oder zwei Hauptgründe
wahrscheinlich. Zum einen ist die deutsche
Politikwissenschaft eher aus der
politischen Ideengeschichte erwachsen. Das
heißt, man kümmert sich eigentlich eher
qualitativ um Texte als quantitativ. Das
ändert sich in den letzten Jahren ein
bisschen. Aber im Kern befasst sich die
deutsche Politikwissenschaft immer noch
relativ wenig mit dem Plenardebatten. Und
der große Grund dafür ist dann natürlich
auch, dass diese Plenarprotokolle bisher
noch nicht maschinenlesbar und nicht
leicht auswertbar vorlagen. Man kann sich
vorstellen, wenn man jetzt nach einer
gezielten Fragestellung die
Plenarprotokolle untersuchen möchte,
müsste man im Zweifelsfall über 4 000
Protokolle händisch durchlesen, um zu
schauen: In welchem Protokoll steht jetzt
irgendeine Information, die wichtig ist
für meine Fragestellung. In den letzten
Jahren sehen wir aber, dass das Interesse
an diesen Plenarprotokollen zunehmend
wächst. Und an der Stelle haben wir uns
gedacht, als Team aus in erster Linie Data
Scientists und Software Developern, dass
wir eigentlich die Skills dazu haben,
diese Daten aufzubereiten und der
Öffentlichkeit zur Verfügung zu stellen.
Genau. Das ist also der der aktuelle
Stand. Wir haben das große Problem, dass
es keine einfache Möglichkeit gibt, diese
Plenarprotokolle zu durchsuchen und diese
Plenarprotokolle auch nicht
maschinenlesbar sind, wir also keine
aktuellen Analysemethoden über diesen
Textkorpus laufen lassen können. Unsere
Ziele, die wir uns gesetzt haben für
dieses Projekt, waren mehr Transparenz des
politischen Diskurses in Deutschland, eine
detaillierte Durchsuchbarkeit der
Plenardebatten, ein öffentlicher und
möglichst niedrigschwelliger Zugang zu
diesen Daten, die Anschlussfähigkeit
unseres Projektes, damit dieses Projekt
weiterentwickelt werden kann, dass neue
Projekte daraus entstehen können. Und
natürlich, dass mit diesen Daten auch
geforscht werden kann und wir demnach ein
wissenschaftliches Niveau für diese Daten
brauchen. Ok, kurz zum Status Quo. In den
letzten Jahren, wie gerade angesprochen
hat sich natürlich das Interesse für diese
Plenarprotokoll deutlich erhöht. 2017
beispielsweise gab es das sehr spannende
Projekt Offenes Parlament, was von der
Open Knowledge Foundation getrieben wurde
oder durchgeführt wurde. In diesem Projekt
wurden die Plenarprotokolle der 18.
Wahlperiode aufgearbeitet und diese waren
dann auch granular durchsuchbar, das
heißt, wir hatten Dimensionen zum Datum,
zum Inhalt der Redebeiträge, welche Person
diesen Redebeitrag gehalten hat usw.
Ebenfalls 2017 und 2018 kamen die Projekte
ParlSpeech und GermaParl und wurden
veröffentlicht. Das sind zwei
wissenschaftliche Projekte, die ebenfalls
sehr granular die Redebeiträge aufbereitet
haben des Bundestages. Allerdings im Falle
von ParlSpeech, die haben dieses Jahr
nochmal ein Update von ihrem Datensatz
gemacht. Reicht jetzt von der 12. bis 19.
Wahlperiode. Bei GermaParl sind aktuell
die 13. bis zur 18. Wahlperiode abgedeckt.
D.h. wir haben da auch nicht den
kompletten Umfang der Plenardebatten. Und
an dieser Stelle vor einem Jahr haben
Martin Haars und Kai Biermann das Projekt
vorgestellt, das Zeit Online
veröffentlicht hat, wo das erste Mal alle
oder jedes gesprochene Wort seit 1949
bereitgestellt wurde und es möglich war,
eine Keyword Suche über diesen Korpus zu
laufen zu lassen. Das heißt, man konnte
dadurch erstmals schauen: Wie hat sich
beispielsweise das Keyword Umweltschutz in
den Debatten dargestellt? Wie hat sich das
verändert über die Zeit? Genau. An dieser
Stelle gebe ich jetzt an Philipp weiter
und er wird euch mal erklären, was wir
jetzt eigentlich mit Open Discourse noch
zusätzlich machen können.
Philipp: Genau. Also wir sehen so ein
bisschen oder wir erinnern euch oder viele
von euch erinnern sich vielleicht an den
den Talk von Martin Haase und Kai Biermann
vor einem Jahr. Da haben die gezeigt, wie
sie diese Worte über die Zeit analysiert
haben und haben auch gezeigt, welche
Beschimpfungen in Deutschen Bundestag
relativ typisch waren. Also wir haben
sowas wie Heuchler und Lügner:in und
Idioten und Lümmel und Flegel. Und nur um
da so ein Stück anzuknüpfen und um zu
zeigen, wie wir an dieser Stelle ansetzen
können und das ein Stück weiter denken
können, hab ich euch das mal mitgebracht
und hab euch mal geplottet über die Zeit,
wie häufig mit welcher relativen
Häufigkeit Beschimpfungen im Deutschen
Bundestag passiert sind. Und wir sehen,
dass es eine Zeit gab, in der mal mehr und
mal weniger beschimpft wurde. Und was wir
jetzt aber machen können mit dem Open
Discourse Datensatz: Wir können neue
Dimensionen hinzufügen, denn wir haben
nicht mehr nur das reine gesprochene Wort,
sondern wir haben all die
Metainformationen, weil wir wissen, wer
dieses Wort gesprochen hat. Ich kann also
gucken, ob Männer oder Frauen mehr
geflucht haben und ich stelle fest, dass
Männer mit großem großem Abstand mehr
fluchen als Frauen. Männer sind
diejenigen, die das treiben im Deutschen
Bundestag, und die fluchen und beschimpfen
und beleidigen. Wenn ich die Frauen
dagegen plotte - Das erste Mal, dass eine
Frau im Deutschen Bundestag mit der
Auswahl dieser Beschimpfungen geflucht
hat, war 1977 ungefähr. Und auch so reden
Frauen deutlich, deutlich deutlich weniger
quasi in diesem Wortschatz. Und das Ganze
können wir jetzt immer und immer weiter
berechnen, denn wir haben mit Open
Discourse die Dimensionalität, um diese
Fragestellungen zu beantworten. Fluchen war
z.B. früher ein Thema von Doktor:innen.
Das heißt, Abgeordnete mit einem
akademischen Grad haben deutlich mehr
geflucht und erst in den 85er Jahren haben
dann auch nicht Doktor:innen angefangen,
stärker zu fluchen und Beschimpfungen in
ihren Wortschatz aufzunehmen. Wir können
weiter reingucken und können gucken, wer
denn eigentlich flucht. Also wenn ich
jetzt mal vergleichen möchte, wie die die
Mitte rechts und die Mitte Links Fraktion
im Deutschen Bundestag, wie die sich
unterscheiden in ihrer Nutzung von
Schimpfworten, dann kann ich feststellen,
dass ungefähr seit den 85er Jahren das
Fluchen eine typisch linke Disziplin ist.
Das ist in der Mitte Links Fraktion
ziemlich verortet, jetzt in dem Fall hier
definiert als SPD, Linke, PDS und Grüne im
Vergleich zur CDU, CSU, FDP-Fraktion, die
ein gutes Stück weniger flucht. Wir können
auch bis auf die einzelne Person
runtergehen und wir können die Gewinner im
Beschimpfen des Deutschen Bundestages seit
1949 küren. Vielleicht hat jemand von euch
eine Idee, wer da so drinsteckt. Auf Platz
vier ist es Norbert Blüm von der CDU. Auf
Platz drei ist es Carlo Schmidt von der
SPD, ein bisschen früherer Politiker. Auf
Platz zwei, Ottmar Schreiner von der SPD.
Und auf Platz eins ist es Franz Josef
Strauß von der CSU, der mit großem Abstand
die meisten Flüche im Deutschen Bundestag
gesprochen hat. Ihr seht also: Das, was
wir mit Open Discourse machen können, ist,
wir können dem gleichen Projekt, was auch
die Kollegen von der Zeit haben,
Mehrdimensionalität hinzufügen, weil wir
in unserem Korpus eine Realität abbilden
können und den gesamten PDF-Datensatz
quasi komplett als Datenbank-Struktur
verfügbar gemacht haben. Das heißt, was
wir früher konnten ist, wir konnten Worte
über eine Zeit plotten. Das war so der
Status quo. Und was wir jetzt gemacht
haben ist, wir haben diesen Fließtext,
dieses PDF umgebrochen in eine
Datenbankstruktur und können das jetzt
beliebig filtern und beliebig analysieren
und können da sehr, sehr, sehr tief in die
quantitativen Analysen gehen. Das heißt,
wir fügen diesen Plenardebatten mehr
Dimensionalität hinzu. Früher also Worte
und Zeit und heute eben auch, welche
Person gesprochen hat und damit eben auch
welche Fraktion, welche
Regierungsposition, welches Geschlecht,
welches Alter hat der oder die Sprechende?
Was ist der Beruf der sprechenden Person?
Der akademische Grad, die Jahre im
Bundestag? Der Geburtsort, der Adelstitel.
Und wir haben natürlich auch alle
Reaktionen und Interaktionen des
Bundestag. Das heißt, wir können genau
gucken, welche Personen, welche Fraktion
lacht oder amüsiert sich oder klatscht.
Und welche Einzelpersonen sind es denn,
wenn es irgendwelche Zwischenrufe sind?
Und wenn wir uns das so einer Größe
angucken, dann haben wir ein Datensatz,
bei dem wir etwa 331 Tausend Plenarseiten
ausgewertet haben seit 1949. Wir haben
dadurch 211 Millionen Tokens, also Worte,
in unserem Datensatz von ungefähr 900 000
Redebeiträgen, die wir verzeichnet haben,
gesprochen von 4100 Politiker:innen.
Darauf haben wir dann 2,2 Millionen
Reaktionen und Zwischenrufe des Plenums
von insgesamt 27 Fraktionen und Gruppen
seit der Gründung des Bundestages. Wie
haben wir das gemacht? Vielleicht ein ganz
kurzes Wort dazu, was dahinter steckt. Wir
haben die öffentlich verfügbaren Daten
genommen, die, die daliegen. Das heißt,
das sind die Plenarprotokolle des
Bundestages als PDF. Wir haben das
angereichert mit den Stammdaten der
Abgeordneten, die auch der Bundestag
erfasst und selbst herausgibt. Und wir
haben die Liste der deutschen
Regierungsmitglieder seit 1949 noch mit
dazugegeben, denn es gab relativ viele
oder es gab einige Regierungsmitglieder,
die selbst kein Bundestagsmandat haben.
Auch die haben wir hinzugefügt. Und dann
haben wir diese unendlich langen Texte
eben vorwiegend durch Regular Expressions
gefiltert. Das heißt, wir haben die
relevanten Teile und Protokolle
extrahiert. Wir haben das aufgegliedert.
Und wir haben dann eben nach Redebeiträge,
nach Redner:innen, Zwischenrufe,
Reaktionen unterteilt. Das war mal einer
der längsten Regular Expression Strings.
Der war dann irgendwann so lang, wir haben
dann irgendwann unserem Head of Regular
Expressions das auf ein T-Shirt gedruckt.
Das hatte die gute Vorderseite genutzt.
Und nach diesen ganzen Regular Expressions
haben wir dann auch viel Fuzzy Search und
Matching gemacht, um eben die Fehler auch
in dem Plenarprotokoll auszumerzen. Das
heißt, Politiker:innen sind falsch
geschrieben, irgendwelche Worte sind
zerrissen. Und um das alles wieder
zusammenzuführen, haben wir dann Fuzzy
String Matching angeführt.
Florian: Genau, und an der Stelle kommt
ihr jetzt eigentlich ins Spiel. Das heißt,
was wir im Kern machen wollten und jetzt
geschafft haben, ist diesen die, dieses
Korpus oder diesen Datensatz so
bereitzustellen, dass ihr euch den
auschecken könnt und eigene Analysen mit
diesen Daten durchführen könnt. Das heißt,
der Open Discourse Datensatz und das ganze
Repository dazu ist veröffentlicht. Ihr
könnt euch den Source Code anschauen,
auschecken, die Datenbank bei euch lokal
aufbauen. Und ihr habt noch ein paar
andere Möglichkeiten, auf die ich später
noch genauer ein. Genau. Das Spannende,
finden wir, an diesem Datensatz ist jetzt,
dass es erstmals möglich ist, Analysen
durchzuführen, die vorher in der Form
nicht durchführbar waren. Und während wir
auf eure Analysen warten, zeigen wir euch
ein paar Analysen, die wir schon mal
durchgeführt haben, um euch eine kleine
Inspiration zu geben, was denn eigentlich
möglich ist. Und an dieser Stelle ein
kleiner Disclaimer: Alles, was wir jetzt
gleich zeigen, dient als Inspiration. Wir
haben die Analysen mit größter Sorgfalt
durchgeführt. Aber es ist keine
politikwissenschaftliche Forschung. Und
gerade weil wir jetzt über Politik
sprechen, sollten wir an dieser Stelle ein
bisschen vorsichtig sein. Wir sind uns
weitestgehend sicher, dass die Ergebnisse,
die wir euch präsentieren, sehr plausibel
und weitestgehend korrekt sein werden.
Aber wie gesagt, das ist jetzt keine
politikwissenschaftliche Forschung, das
ist nicht durch ein Peer Review Prozess
gegangen. Soweit als kleiner Disclaimer
dazu. Okay, wir gucken uns jetzt folgend
zwei große Themen an, die in der
Geschichte der Bundesrepublik ziemlich
große Relevanz hatten. Und wir starten mit
dem Thema Datenschutz. Und wir könnten
jetzt dieses Thema so untersuchen, wie es
traditionell bisher immer möglich war. Das
heißt, wir schauen uns mal an, wie oft
eigentlich das Wort Datenschutz in den
Plenarsitzungen gesagt wurde. Und wenn wir
das machen Sie das ungefähr so aus. Das
heißt, wir haben die erste Nennung des
Begriffs Datenschutz Anfang der siebziger
Jahre. Das würde ungefähr so passen, weil
in dem Zeitraum auch Hessen als erstes
Land oder sogar weltweit das erste
Datenschutzgesetz verabschiedet hat. Das
heißt, damals wurde der Begriff
anscheinend das erste Mal genutzt, auch im
Bundestag. Und ab dann ging es weiter. Wir
sehen einen kleinen Abfall in den 90ern,
einen Anstieg dann wieder in den 2000er
Jahren. Genau. Aber das ist eigentlich
noch nicht gut interpretierbar. Wir haben
jetzt einfach nur die Worthäufigkeiten.
Wir wissen nicht, wer hat das eigentlich
gesagt hat. Das heißt, an der Stelle
nutzen wir jetzt unseren Open Discourse
Korpus, um uns das ein bisschen genauer
anzuschauen. Was wir zusätzlich jetzt noch
gemacht haben, ist: Wir haben ein LDA
Topic Modeling trainiert. Das funktioniert
im Wesentlichen so, dass wir davon
ausgehen... bzw. ein LDA Topic Modeling
ist dafür da oder kann genutzt werden, um
latente Themen in Textkorpora zu
ermitteln. Und wir wollen uns ja das Thema
Datenschutz ansehen. Das heißt, wir müssen
versuchen, ein LDA Topic Modeling so zu
trainieren, dass wir dieses
Datenschutzthema auch finden in unseren
Daten. Natürlich nur, solange es da ist.
Glücklicherweise ist es tatsächlich da,
weil darüber ziemlich viel gesprochen
wurde. Das heißt, wenn wir jetzt
eigentlich untersuchen wollen, wie oder in
welchem Ausmaß über Datenschutz gesprochen
wurde im Bundestag, dann ist es natürlich
nicht bloß der Begriff Datenschutz
relevant. Sondern man kann auch über den
Datenschutz reden, dabei aber Begriffe
nutzen wie Informationsfreiheit,
Datenverarbeitung, Speicherung,
Privatsphäre usw.. Das heißt, es ist
eigentlich viel relevanter, dieses latente
Thema des Datenschutzes zu nutzen als
einen spezifischen Begriff. Dafür haben
wir das LDA Topic Modeling trainiert. Das
funktioniert im Wesentlichen so, dass wir
vorgegeben haben, was wir oder wie viele
Topics, spezifische Topics, wir im Korpus
erwarten. Da haben wir verschiedene
Nummern ausprobiert und bei
zweihundertfünfzig letztlich sehr
konsistente Themen gefunden. Und mit
diesem Model haben wir jetzt die weiteren
Analysen durchgeführt. Dieses LDA Topic
Modeling hat als Ergebnis, dass wir für
jeden Redebeitrag, den wir im Korpus
haben, Angaben darüber bekommen, wie der
prozentuale Anteil der jeweiligen 250
Themen in dieser Rede war. Das heißt, wir
haben genau 250 Zahlenwerte für jeden
Redebeitrag. Das ist das, was wir jetzt
folgend zusammen aggregieren und auf der
Y-Achse als Relevanz definieren. Genau das
ist jetzt auch erstmals möglich, weil wir
die einzelnen Redebeiträge als Dokumente
im LDA Topic Modeling nutzen können. Alles
klar. Zurück zum Thema Datenschutz. Okay,
wir plotten uns jetzt mal die
durchschnittlichen Gebrauch des ganzen
Thema Datenschutz im Plenar oder im
Verlauf der Plenarsitzungen. Und was uns
jetzt zum Beispiel schon mal auffällt,
ist, dass auch vor 1970 schon in einem
gewissen sehr geringen Maße über
Datenschutz-Themen gesprochen wurde. Der
Begriff Datenschutz wurde dabei jedoch
nicht genutzt. Wir sehen immer noch, dass
es quasi zwei große Phasen oder zwei große
Wellen gibt. Es gibt die erste Welle, die
ungefähr Mitte der 70er angefangen hat und
dann zum zum Ende der 80er Jahre abgeflaut
ist. Und wir haben eine zweite Welle, die
zum in den 2000er Jahren begonnen hat und
jetzt langsam wieder abflaut. Um zu
validieren, dass das, was wir jetzt hier
gefunden haben oder das, was uns das Topic
Model grad anzeigt, stimmt, haben wir mal
geschaut, was denn eigentlich in diesen
Zeiten so passiert ist. Und wenn wir uns
die 80er Jahre oder den Raum um die 80er
Jahre anschauen, sehen wir, dass derzeit
das Bundesdatenschutzgesetz, also das
erste Datenschutzgesetz auf nationaler
Ebene beschlossen wurde in Deutschland,
dass es die Volkszählungsboykotte gab. Es
sollte eine Volkszählung durchgeführt
werden und die sollte in dem Fall das
erste Mal digital die Daten der
Bevölkerung erfassen. Das hat natürlich
zur Boykotten, zu Protesten und zu Sorgen,
was denn eigentlich, welche Belange das
mit dem eigenen Datenschutz hat. Außerdem:
In der Zeit wurde der CCC gegründet. Es
gab ein ziemlich entscheidendes Urteil vom
Bundesverfassungsgericht, auch im Rahmen
dieser Volkszählung. Und in dem Rahmen
tauchte dann auch erstmals der Begriff der
informationellen Selbstbestimmung auf. Das
heißt, okay, an dem Rahmen oder in dem
Maße ist die erste Welle ziemlich
plausibel. Das wurde im Bundestag dann
offensichtlich auch sehr intensiv
besprochen. Danach ist das ein bisschen
abgeflaut. Wir haben einen kleinen Peak
ungefähr 1995, da wurde die europäische
Datenschutzrichtlinie verabschiedet. Aber
den richtigen Anstieg hatten wir dann erst
zur zweiten Welle. Da kamen dann
Diskussionen auf wie Zensursula und die
DSGVO. Also bei Zensursula wurde halt
diskutiert, inwiefern der Staat eigentlich
das Recht hat, Inhalte im Internet zu
zensieren. Auf der anderen Seite wurde
auch sehr, sehr stark diskutiert, ob der
Staat eigentlich das Recht hat,
Hausdurchsuchungen auf den eigenen
Rechnern quasi durchzuführen. Das heißt,
die zwei Wellen, die wir jetzt hier sehen,
die sind ziemlich plausibel. Das waren
tatsächlich die Zeiten, in denen die
Debatte um den Datenschutz ziemlich stark
ausgeführt wurde. Okay, jetzt schauen wir
uns mal an, welche Dimension wir
eigentlich dazu packen können, um
vielleicht mehr Informationen darüber zu
bekommen, wie das denn diskutiert wurde
und welche Partei sich mehr und welche
Partei sich weniger darum gekümmert hat um
dieses Thema. Und dazu haben wir uns mal
angeschaut, wie die historisch zwei großen
Parteien in Deutschland diese Themen
behandelt haben. Zuerst haben wir uns die
CDU angeschaut und wir sehen, dass die CDU
in der ersten Welle deutlich
überdurchschnittlich über das Thema
Datenschutz gesprochen hat, im Plenarsaal,
in der zweiten Welle aber deutlich
unterdurchschnittlich. Im Vergleich dazu
haben wir uns dann mal angeschaut, wie die
SPD drüber gesprochen hat. Die SPD hat der
ersten Welle unterdurchschnittlich viel
über Datenschutz gesprochen oder hatte in
ihren Reden deutlich weniger Datenschutz
aufgegriffen. In der zweiten Welle oder im
Beginn der zweiten Welle ein bisschen
überdurchschnittlich, dann hat es aber
deutlich abgeflacht. Das könnte - wird
höchstwahrscheinlich damit zu tun haben,
dass während der ersten Welle die SPD in
der Regierung war und die CDU nicht, dass
die CDU das deshalb vielleicht als
relevanter angesehen hat, das Thema
Datenschutz intensiver zu besprechen. In
der zweiten Welle sehen wir, dass zum
Beginn der zweiten Welle die SPD noch eine
Opposition war. Aktuell ist sie natürlich
mit in der Regierung. Das könnte die
Bewegung erklären, warum zu Beginn der
zweiten Welle die SPD leicht
überdurchschnittlich oder das Thema
Datenschutz leicht überdurchschnittlich
relevant fand, dann aber zunehmend
weniger. Wir plotten mal noch zwei andere
spannende Parteien dazu, nämlich die FDP
und die Grünen. Da können wir nämlich
ablesen, dass diese zwei
Oppositionsparteien, zumindest in der
Zeit, dass diese zwei Parteien auch nach
dem Abflauen der ersten Welle die Relevanz
aufrecht erhalten haben. Das heißt, diese
zwei Parteien hatten das Thema trotzdem
weiter im Fokus gehalten. Okay, schauen
wir uns eine andere Dimension an. Wir
schauen uns mal an, wie das vielleicht mit
dem Alter zu tun haben könnte. Und zwar
haben wir das Alter der Politiker:in nach
dem Durchschnitt ungefähr geteilt. Das
heißt, das Durchschnittsalter des
Bundestags aktuell liegt ungefähr bei 50
Jahren. Und so haben wir jetzt
unterschieden nach eher jüngeren
Politikern, die unter 50 Jahre zum
Zeitpunkt der Rede waren und älteren
Politikern, die älter als 50 waren zum
Zeitpunkt der Rede. Und hier sehen wir,
dass die jüngeren Politiker das Thema
Datenschutz deutlich relevanter finden als
die älteren. Okay, als letzte Dimension
schauen wir uns jetzt nochmal an, ob das
dann vielleicht auch ein Zusammenhang mit
dem akademischen Grad hat bzw. ob eine
Politikerin oder ein Politiker einen
Doktortitel trägt. Und an der Stelle sehen
wir das, wenn eine Politiker:in einen
Doktortitel trägt, das dann tendenziell
überdurchschnittlich über Datenschutz
gesprochen wird, als wenn die Person
keinen Doktortitel hat. Man könnte jetzt
versuchen, das irgendwie zusammenzufassen.
Beispielsweise könnte man versuchen, das
so zu interpretieren, dass wenn man
möchte, dass im Plenarsaal viel über
Datenschutz gesprochen wird, dann sollte
man Oppositionsparteien wählen, die eher
jüngere Leute hat. Und diese jüngeren
Leuten sollten vielleicht eher einen
Doktortitel tragen, vielleicht aber auch
nicht. Genau. Aber genau. Diese
Auswertungen waren vorher nicht möglich.
Und jetzt könnte man reinschauen und
gucken: Okay, was steckt denn da
eigentlich drin? Welche Bewegungen stecken
denn in diesen Daten? Wir wollen jetzt
nochmal zwei Personen krönen, die sich
sehr verdient gemacht haben, also die sehr
oder die höchste Relevanzwerte hatten für
das Thema Datenschutz in der ersten und in
der zweiten Welle. In der ersten Welle
geht diese Auszeichnung an Burkhard
Hirsch, der insbesondere zum ersten in der
ersten Phase der ersten Welle
Innenminister war und sich ganz stark
gegen staatliche Überwachung eingesetzt
hat. Das heißt, das klingt auch sehr
plausibel, dass unsere Analyse Burkhard
Hirsch hier als Vorreiter sieht. In der
zweiten Welle haben unsere Analysen
ergeben, dass das Gisela Piltz war, die
sich in besonderem Maße mit Datenschutz
auseinandergesetzt hat. Und Gisela Piltz
hat sich ganz... oder setzt sich ganz
stark gegen die Vorratsdatenspeicherung
ein. Also von daher wirkt auch das
ziemlich plausibel. Genau. Das wäre jetzt
das Beispiel Datenschutz, das wir
aufbereitet haben, um zu gucken: Okay, was
könnte in diesen Daten denn drinstecken
und welche spannenden Fragen könnte man
denn damit eigentlich stellen und
potenziell auch beantworten? Jetzt haben
wir uns noch ein zweites großes Thema
angeschaut, was gerade in den letzten
Jahren ganz, ganz stark an Relevanz
gewonnen hat. Und da wird euch Philipp
jetzt mal erzählen, was wir da so gefunden
haben.
Philipp: Genau. Also wir kommen nochmal
ein bisschen vom Datenschutz zum
Klimaschutz und stellen uns so ein
bisschen den gleichen methodischen Ansatz.
Also wir gucken mal, wie das reine Wort
Klimaschutz verwendet wurde. Und wir
stellen fest, dass das Wort Klimaschutz
eigentlich ein relativ neuer Begriff ist.
Ab den 2000ern. Aber zurück zu dem, was
Florian gerade eben schon gesagt hat Die
reine Analyse einzelner Begriffe ist noch
nicht ausreichend, um diesen Themenkomplex
und die latenten Grundstrukturen darunter
zu erfassen. Deswegen reicht dieser
Begriff Klimaschutz nicht, sondern wir
haben auch hier wieder ein automatisiertes
LDA Topic Modeling verwendet, was uns
hunderte Begriffe automatisiert findet,
die da reinpassen. Also natürlich kann ich
über Klimaschutz reden, ohne den Begriff
Klimaschutz zu verwenden. Ich kann über
das Emissionsschutzgesetz sprechen. Ich
kann über Nachhaltigkeit, über erneuerbare
Energien reden, ohne auch nur einmal das
Wort Klimaschutz zu verwenden. Dieses
Thema also voll fokussieren. Deswegen
haben wir daraus ein Thema gemacht und
gucken uns jetzt diesen ganzen Komplex an
und nicht mehr nur den Begriff. Wenn wir
das tun, dann stellen wir fest, dass seit
1949 dieses Thema nicht erst in den
2000ern an Relevanz gewonnen hat, sondern
auch früher schon da war. Wenn ich jetzt
auch hier wieder so ein bisschen die
Wegmarker setze, dann kann ich auch das
validieren. Also die ersten
Umweltprogramme von Willy Brandt 1970, der
Einzug der Grünen in den Bundestag, die
Atomkatastrophe von Tschernobyl. Wir haben
danach in den 90ern, das ist auch relativ
plausibel, ein Abschwachen dieses Themas,
denn wir hatten gerade in der
Wiedervereinigung dann
Verteilungskonflikte, die so ein bisschen
relevanter wurden. Dadurch ist das Thema
des Klimawandels und des Klimaschutzes so
ein bisschen hinten runtergefallen. Wir
haben weitere Punkte - wir haben die rot
grüne Regierung von Schröder und Fischer
2000, so Richtung 2000 2005. Wir haben
Fukushima und die Energiewende. Wir haben
das Pariser Klimaschutzabkommen. Und wir
sehen jetzt auch schon diesen Drall nach
oben, insbesondere durch Fridays For
Future und die neue Auseinandersetzung mit
der Einhaltung des Pariser
Klimaschutzabkommens. Was wir jetzt hier
wieder machen können, ist: Wir können uns
wieder angucken, wie einzelne Parteien
denn eigentlich darüber reden. Und wir
können feststellen, dass die CDU ziemlich
durchschnittlich über dieses Thema redet.
In den letzten Jahren sogar deutlich
abfallend, also deutlich
unterdurchschnittlich. Gerade seit dem
Pariser Klimaschutzabkommen ist das Thema
für die CDU nicht mehr ganz so relevant
vielleicht. Wir können die SPD plotten,
das sieht auch ganz durchschnittlich aus.
Bei der FDP sieht es auch ganz
durchschnittlich aus, bei den Linken sogar
ein Stück unterdurchschnittlich. Und so
ein bisschen wie erwartet sind es die
Grünen, die dieses Thema extrem pushen und
die diesen Diskurs sehr, sehr hoch halten.
Das heißt, die Grünen ziehen hier deutlich
den den Rolling Mean nach oben und steuern
dieses Thema ganz stark. Wir können aber
auch hier noch ein bisschen weiter
reingucken, nämlich: Wer sind das denn?
Sind es die jüngeren oder sind es die
älteren Politiker? Wenn ich mir hier das
mal angucke, dann stelle ich fest, dass
die mittelalten Politiker zwischen 39 und
59 sich mit dem Thema sehr
durchschnittlich auseinandersetzen. Und so
ein bisschen wie erwarten kann ich mir
dann entsprechend vorstellen, dass sich
ältere Politiker über 60 mit diesem Thema
sehr gering, sehr unterdurchschnittlich
auseinandersetzen und jüngere
Politikerinnen unter 39 sich mit diesem
Thema deutlich stärker auseinandersetzen.
Wir sehen auch hier nicht nur eine
stärkere Auseinandersetzung, sondern eben
auch eine frühere Auseinandersetzung.
Während bei älteren Politikerinnen diese
Auseinandersetzung immer zeitlich rechts
versetzt ist und immer deutlich weniger
intensiv ist. Wir können mit dem Open
Discourse Datensatz die Stammdaten des
Deutschen Bundestages anzapfen und noch
ein kleines Stück tiefer gehen. Wir können
nämlich die Berufe der Abgeordneten
auswerten. Jeder Abgeordnete gibt seinen
Beruf oder seinen seinen beruflichen
Hintergrund an. Und diese Daten können wir
auswerten. Wir haben über 1 000 unique
Berufsbezeichnungen von über 4 000
Politiker:innen. Wenn ich mir die jetzt
hier mal so angucke, dann sind es Ärzte
und Apotheker und Unternehmer und
Landwirte und Buchhalter:innen. Und wenn
ich das so ein bisschen cluster, dann hab
ich jetzt für die folgende Analyse mal 12
Berufsgruppen gefiltert. Und jetzt kann
man sich angucken, welche Berufsgruppen
denn dieses Thema besonders stark
fokussieren. Und was auch wieder sehr
erwartbar ist, ist, dass die
Naturwissenschaftler:innen dieses Thema
deutlich stärker fokussieren, als andere
das tun. Also das Thema ist sehr
exorbitant getragen durch Physiker:innen,
durch Biolog:innen, durch alle Personen,
die irgendwie einen Berufshintergrund in
dem Feld der Naturwissenschaften haben.
Ich habe uns hier immer noch die
Agrarwirte dazu geplottet. Also alle
Landwirte und alle Forstwirte und die, die
Bauer oder Bäuerin als Berufsbezeichnung
angegeben haben. Wir sehen, dass es in der
ersten Welle der Klimadebatte noch sehr
relevant war und jetzt grad so Richtung
der neueren Zeit für die Landwirte ein
unterdurchschnittlich relevantes Thema
geworden ist. Und wir können feststellen,
dass die, die eine Berufsbezeichnung im
Wirtschaftsfeld angegeben haben, sich mit
diesem Thema auch auseinandersetzen.
Allerdings deutlich weniger intensiv und
auch wieder rechts verlagert, also
zeitlich zurück verlagert, nachdem sich
die Naturwissenschaftler:innen mit diesem
Thema zuerst auseinandergesetzt haben. Was
können wir feststellen oder was könnten
wir mal so ein bisschen uns angucken? Wir
können uns angucken, was denn eigentlich
die perfekte Gruppe ist, um sich mit dem
Thema Klimaschutz auseinanderzusetzen und
diese perfekte Trennlinie zwischen der
perfekten Gruppe von Abgeordneten und der
schlechtesten Gruppe von Abgeordneten, die
macht sich ziemlich einfach am Geschlecht
und an dem Alter fest. Wenn ich also mir
mal angucke, wie sich alte männliche
Politiker mit dem Thema auseinandersetzen
im Vergleich zu jungen weiblichen
Politikerinnen, dann stelle ich fest, dass
wir da sowohl wieder eine frühere
Auseinandersetzung mit diesem Thema haben.
Wir haben eine intensivere
Auseinandersetzung mit dem Thema und für
ältere Politiker, in diesem Fall jetzt
hier über 60, ist die Auseinandersetzung
wirklich sehr weit unter dem Durchschnitt
des Parlaments. Wir können uns also hier
vielleicht ein bisschen überlegen, welche
Person wir denn ganz gerne im Bundestag
hätten, um progressive Themen, so auch den
Datenschutz stärker zu treiben. Wir können
auch hier im Klimawandel wieder die Top
Runner identifizieren, das können wir
beliebig operationalisieren. Wir haben uns
immer die Vielredner genommen. Also
Politiker:innen mit mehr als 500 Reden.
Und haben dann geguckt: Welche haben denn
den höchsten Klima-Score auf dieses Topic?
Tatsächlich ist es Angela Merkel, die als
Vielrednerin sich mit diesem Thema am
stärksten auseinandergesetzt haben. Wir
wollten uns aber auch nochmal einen
Newcomer angucken, in großen
Anführungszeichen, also Politiker:innen
mit 100 bis 500 Reden. Und da ist es Julia
Verlinden von den Grünen, die sich am
stärksten mit diesem Thema
auseinandersetzt. Das ganze Fridays For
Future hat immer auch das... geht es immer
viel um das Schwänzen und um das
Fernbleiben von Inhalten. Und wir haben
uns deswegen mal angeguckt, wer denn so
die großen Klimaschwänzer sind im
Deutschen Bundestag. Das haben wir
operationalisiert, indem wir gesagt haben,
wir wollen nicht den Politiker, die
Politikerin mit dem geringsten Wert über
die gesamte Zeit finden, sondern wir
wollen so einen Punkt nehmen, ab dem die
Klimadebatte wohl in aller Munde sein
müsste. Und wir haben dafür den ersten
Global Climate Strike genommen, am 19., am
15. März 2019. Und wir haben dann von den
Politikern geguckt, die die Gelegenheit
hatten, darüber zu reden. Also die
mindestens 40 Redebeiträge seitdem hatten,
wie sie sich damit auseinandersetzen. Wir
stellen fest, dass diejenigen, die sich am
wenigsten damit auseinandersetzen, drei
Männer sind, alle aus der gleichen
Fraktion. Wir haben also Volker Ullrich,
der sich trotz Gelegenheit am wenigsten
damit auseinandersetzt. Wir haben Thorsten
Frei, der sich trotz Gelegenheit am
zweitwenigsten damit auseinandersetzt. Und
wir haben hier auch den Spätzünder im
Klimathema, Philipp Amthor, der sich trotz
sehr vieler Reden nie mit diesem Thema
oder sehr selten mit diesem Thema
auseinandersetzt. Wichtig ist hier
vielleicht noch zu sagen, dass wir nicht
die reinen Reden zum Klimawandel zählen,
sondern dass allein die Verwendung von den
relevanten Begriffen, um dieses Thema ein
bisschen z.B. in Steuer- oder in
Haushaltsdebatten zu bringen, hier gezählt
wird. Also wir haben eine sehr komplexe
Betrachtung des gesprochenen Wortes.
Florian: Genau. Soviel erst einmal zu
einigen Analysen, die wir bisher
durchgeführt haben. Wie bereits
angesprochen ist unser eigentliches Ziel
ja aber, dass ihr und alle anderen auch
Analysen jetzt mit diesen Daten
durchführen können und auf unserem Weg bis
zur Veröffentlichung, die jetzt im Rahmen
oder auch zu genau dieser Zeit, wenn wir
diesen Vortrag halten, passiert, haben
schon andere Partner und Partnerinnen, mit
denen wir zusammengearbeitet haben oder
die mit unseren Daten schon arbeiten
konnten, ein paar Analysen durchgeführt
oder sind gerade dabei, diese Analysen
noch durchzuführen. Beispielsweise
CorrelAid, CorrelAid ist ein Netzwerk von
freiwilligen Data Scientists. Und bei
CorrelAid haben sich zwei Projektteams
zusammengefunden, die mit unseren Daten
schon seit einiger Zeit ein bisschen herum
arbeiten. Und die werden auch bald ihre
Ergebnisse und Analysen veröffentlichen.
Die findet ihr dann zum einen in den
entsprechenden Kanälen von CorrelAid. Auf
der anderen Seite werden wir die auch bei
uns auf unserer Open Discourse Website
dann zu gegebener Zeit einbetten. Ein paar
Sachen, die da beispielsweise schon
gemacht wurden, ist Ann-Kristin Vester hat
sich angeschaut, wie eigentlich die
Geschlechter im Bundestag auftreten, wie
die, wie der Sprachgebrauch sich
unterscheidet. An der Stelle auch
nochmal kurz hier der Hinweis bei allen
Analysen, die wir bisher durchgeführt
haben: Wir betrachten Geschlecht bisher
immer binär, weil der Bundestag das nicht
anders hergibt. Es gibt bloß eine binäre
Geschlechtseinteilung. Deswegen mussten
wir das in den Analysen auch so vornehmen
und das ist auch der Artikel, den Ann-
Kristin Vester geschrieben hat, das ist
auch dort mit erwähnt. Also eine tiefere
oder eine diversere Untersuchung von den
Geschlechtern im Bundestag ist aktuell
leider noch nicht möglich. Genau. Eine
andere Analyse wurde von Alexandra Wörner
durchgeführt. Alexandra Wörner hat sich
angeschaut, wie denn eigentlich über
Diskriminierung im Bundestag gesprochen
wurde, von welchen Parteien das wie
intensiv benutzt wurde oder darüber
gesprochen wurde und wie sich das über den
zeitlichen Verlauf verändert hat. Auch
ziemlich spannend. Ein anderes Projekt,
das bereits mit unseren Daten durchgeführt
wurde, kam von ZDF heute.
Datenjournalist:innen von ZDF Heute hatten
uns Frühsommer/Sommer angeschrieben und
gefragt, ob sie unsere Daten nicht schon
vor Veröffentlichung mal haben könnten, um
zu schauen, ob sie diese Daten für einen
Artikel schon nutzen könnten. Und daraus
ist ein Artikel entstanden, in dem sich
die Journalist:innen damit
auseinandergesetzt haben, wie der
Bundestag denn eigentlich über Pandemien
und über das Coronavirus im speziellen
unterhalten hat oder wie das debattiert
wurde. Das Ergebnis war eher, dass der
Bundestag da nicht besonders viel
Aufmerksamkeit draufgelegt hat. Auch ein
sehr spannender Artikel. Und als letztes
wollen wir noch kurz das Projekt Open
Parliament TV eher anteasern, weil der
offizielle Veröffentlichungstermin ist für
Mai 2021 vorgesehen. Open Parliament TV
hat als Kernziel eigentlich ein sehr
ähnliches Ideal wie wir bei Open
Discourse. Es geht darum, den Bundestag
transparenter zu machen. Open Parliament
TV hat dabei das Ziel, die
Videomitschnitte der Plenardebatten mit
den entsprechenden Transkripten, also
Plenarprotokollen zusammenzuführen, um
darüber eine noch viel wirksamere oder
detailliertere Recherchefunktion zu
ermöglichen. Und an der Stelle wird
gerade evaluiert, wie die Daten von Open
Discourse diesem Projekt noch weiter
helfen können. Genau. Und jetzt wieder zu
euch. Wie gerade schon angesprochen sind
unsere Daten ab sofort und unserer Source
Code komplett öffentlich verfügbar. Das
heißt, ihr habt jetzt die Möglichkeit, mit
diesen Daten zu machen, was ihr wollt. Wir
haben bei der Veröffentlichung das Ziel
gehabt, die so verfügbar wie möglich zu
machen und haben dabei auf drei große
Säulen versucht zu achten. Die erste Säule
dabei sind die Techniker:innen unter euch,
also alle Techniker:innen unter euch. Ihr
könnt euch unsere GitHub Seite anschauen
von Open Discourse und dort findet ihr
natürlich den Source Code. Ihr könnt das
alles auschecken, lokal bei euch
aufsetzen, überprüfen, wie wir eigentlich
vorgegangen sind, verbessern,
Schwachstellen finden. Außerdem findet ihr
auf der GitHub Seite auch einen Docker
Container, wo die komplette Datenbank als
Image vorliegt, d.h. die könnt ihr euch
auch sofort aufsetzen oder halt nochmal
neu generieren lassen, wenn ihr wollt. Für
die Analytiker:innen und die
Wissenschaftler:innen unter euch haben wir
ein Harvard Dataverse angelegt. Dort
findet ihr die aktuelle Version unserer
Datenbank als Data Dump und wir haben das
in vier verschiedenen Dateiformaten
bereitgestellt als CSV, Feather, Pickle
und RDS-Files, damit ihr je nachdem, womit
ihr am liebsten arbeitet, genau das
perfekte Dateiformat für euch findet. Und
als letztes haben wir noch für quasi Quick
Reviews oder schnelle Recherchen auf
unserer Webseite eine Volltextsuche mit
Filter-Option bereitgestellt. Da könnt ihr
also nach Stichworten, nach
Parteizugehörigkeit, nach den Namen der
Politiker, nach Datum usw. filtern und
schauen, ob euch was spannendes auffällt
oder ob ihr eure Fragen beantworten könnt.
Genau. So viel dann erst mal von uns. Wir
bedanken uns ganz, ganz herzlich für euer
Interesse und dass ihr uns zugehört habt.
Wir bedanken uns natürlich auch bei der C
Base dafür, dass wir das Video hier
aufnehmen konnten. Bei Fragen und
Anregungen schreibt uns gerne eine Mail
oder kontaktiert uns über die
einschlägigen Kanäle. Oder wir sprechen
uns dann gleich bei der Fragerunde. Alles
klar. Vielen Dank. Danke schön.
Herald: Wir sind nun mit den Sprechern
verbunden, sind uns zugeschaltet für
Fragen und Antworten, die uns zugespielt
worden sind. Herzlich willkommen!
Philipp & Florian: Hallo!
Herald: Die zweite Welle des Datenschutzes ist
ja angesichts der Zeit gerade die perfekte
Metapher. Wie lange wird die zweite Welle
des Datenschutzes wohl noch gehen?
Florian: Ja, gute Frage. Keine Ahnung. Man
hat ja gesehen, dass es schon ein bisschen
bergab wieder geht, aber viel mehr kann
ich da eigentlich nicht zu sagen. Aber es
ist spannend, das jetzt im Auge behalten
zu können.
Herald: Ist auf jeden Fall auf absehbare
Zeit nicht mit einer Impfung zu rechnen.
Eine Frage, die uns zugespielt worden ist
über die Hashtags und über IRC, die wir
empfangen und die wir weitergeben, ist: Es
gibt noch einen weiteren Text Korpus. Ihr
habt jetzt den Deutschen Bundestag
analysiert, aber es gibt noch eine andere
legislative Kammer, die es lange Jahre
gab, nämlich die Volkskammer der DDR. Gibt
es dort überhaupt entsprechende Unterlagen
oder entsprechendes Material, das man
analysieren könnte?
Florian: Da bin ich mir gar nicht so
sicher. Also ich hab - also davon weiß ich
nichts. Wir hatten da jetzt auch gar nicht
so weiter reingeguckt. Wir hatten
natürlich, während wir an dem Projekt
gearbeitet hatten, schon überlegt, wie man
das alles noch weiterdenken könnte, was
man zusätzlich noch mit aufnehmen könnte.
Da war die Volkskammer auch schon mal im
Gespräch, aber wir sind da jetzt erstmal
nicht weiter rein gesprungen. Aber
prinzipiell wird das natürlich total
spannend, noch weiter in die Richtung zu
denken und das auch noch mit aufzunehmen.
Aber ich weiß gar nicht, ob es die
Plenarprotokolle da so auch detailliert
gibt. Genau. Wahrscheinlich wäre es auch
ein relativ großer Aufwand, könnte ich mir
vorstellen, die Regex Patterns, die wir
jetzt für den Bundestag aufbereitet haben,
auf die Volkskammer zu übertragen. Weil
wenn sich da... also im Prinzip basiert,
die Aufarbeitung, die wir gemacht haben
darauf, dass die Struktur in den
Plenarprotokollen einigermaßen ähnlich
bleibt, über die Legislaturperioden. Die
wird natürlich jedes Mal angepasst, wenn's
dann notwendig war. Auf der anderen Seite
brauchen wir die Stammdaten der
Politiker:innen, weil wir das für die
Fuzzy Matching Logiken nutzen, um zuweisen
zu können: Wer hat denn eigentlich was
gesagt? Total spannend, das für die
Volkskammer auch noch zu machen.
Vielleicht jetzt als nächster Schritt. Wir
sind erstmal froh, dass wir den Bundestag
fertig bekommen haben.
Herald: Auf jeden Fall. Gibt es denn
Wünsche, die ihr habt für die
Zugänglichkeit von Daten, die euch das
Leben oder anderen das Leben
einfacher machen würden, bei solchen
Auswertungen?
Philipp: Das ist glaube ich vor allem die
strukturierte Erfassung, also eigentlich
hätte der Bundestag selbst die
Möglichkeit, diese Daten von sich aus
schon strukturiert verfügbar zu machen.
Vor allem, weil eben diese ganz einfachen
Sachen - ich suche nach Begriffen oder ich
suche nach Themen oder ich möchte das mal
ein bisschen strukturiert durchsuchen -
das ist derzeit eine absolut händische
Aufgabe und das ist eigentlich in unserer
jetzigen Zeit ein kleines bisschen hinter
der Zeit hinterher. Von daher wäre es
eigentlich sehr sinnvoll, wenn man so
Grundideen von strukturierter Datenhaltung
dann auch in öffentlichen Verwaltungen
hätte, um eben diesen Zugang zu
erleichtern. Der Bundestag hat uns jetzt
quasi eineinhalb Jahre Arbeit gekostet,
das aufzubrechen. Und wär natürlich super,
wenn man solche Grundthemen der
Datenhaltung, der öffentlich verfügbaren
Datenhaltung auch irgendwie direkt
mitdenkt.
Florian: Ein ganz kleiner Nachtrag da
noch. Ein großer Wunsch, der uns vieles
erleichtern würde, jetzt auch Open
Discourse up to date zu halten, wäre ein
RSS-Feed vom Bundestag. Da sitzen auch die
Leute von Open Parliament TV so ein
bisschen dran und hoffen, dass das
irgendwie bereitgestellt wird. Aber das
würde uns natürlich ermöglichen,
automatisiert den Datensatz zu erweitern,
sobald irgendwie eine neue Rede
bereitgestellt wurde auf den Servern. Im
Moment geht das leider so noch nicht.
Herald: Strukturierte, maschinenlesbare
Verwaltung und strukturierte Daten quasi
als Wunsch. Es gibt ja zum Teil zumindest
eigene Projekte, wo aus dritter Hand
solche Daten für Dritte bereitgestellt
werden, wie z.B. Wikidata. Ist das eine
Quelle, auf die ihr euch, die ihr
verwenden könnt für so was?
Florian: Genau. Teilweise hatten wir das
auch verwendet. Also auf dem Weg zum
fertigen Produkt haben wir auch mit
Wikidata-Daten gearbeitet. Zum Beispiel
gibt es in den Stammdaten ja Informationen
darüber, wo Personen geboren wurden und
das sind die Originalgeburtsorte von
damals, quasi mit den historischen Namen.
Und an der Stelle hatten wir dann mal als
Test-Experiment bei uns intern für jede
Person, die wir im Bundestag hatten, jeden
Abgeordneten und jede Abgeordnete, die
Wikidata-IDs rausgesucht, damit wir mappen
können: Okay, was ist denn jetzt
eigentlich die ID für den Geburtsort
dahinter, damit wir damit weiterarbeiten
können? Das liegt aber bei uns nur, also
das ist jetzt nicht Teil des Korpus, weil
wir das nicht weit... also so weit
validiert haben, dass wir sicher sein
können, dass das korrekt ist. Aber auf
jeden Fall. Also das wäre so ein bisschen
die Anschlussfähigkeit, die wir uns
eigentlich wünschen. Also im Idealfall
wäre jetzt und wäre vielleicht die
Community dazu auch aufgerufen, für jede
Politiker:in noch die entsprechende
Wikidata ID mit zum am Korpus dazu zu
packen, damit wir noch viel mehr Daten und
viel mehr Dimensionen haben für den ganzen
Datensatz haben.
Herald: Wohin wenden sich denn Menschen,
wenn sie bei eurem Projekt mitmachen
möchten?
Florian: Am besten z.B.
zwischenruf@opendiscourse.de oder auf
unserer Webseite opendiscourse.de findet
ihr auch verschiedene
Kontaktmöglichkeiten. Ihr könnt natürlich
auch direkt über das Repository uns
Tickets schreiben, falls ihr irgendwie
Sachen habt, die euch aufhalten. Twitter,
Instagram, sämtliche Kanäle.
Herald: Alle sozialen Netzwerke. Seid ihr
auf TikTok?
Florian: Nur privat...
Herald: Zum Thema Transferierbarkeit gab's
dann auch nochmal eine Frage aus dem Chat.
Zum Beispiel für die Republik Österreich.
Wie gehen den Menschen vor - ihr habt ja
vorhin umrissen, dass es gar nicht so
einfach ist, so einen Datensatz zu
analysieren. Aber wie würden denn Menschen
vorgehen, die sagen: Das finden sie
interessant. Zum Beispiel für ihr
Landesparlament oder eben auch für ein
anderes Land?
Florian: Genau, an der Stelle sind wir
leider auch nicht ausreichend Expert:innen
für die Plenarprotokolle, wie die auf
Landesebene aussehen. Also es könnte sein.
Wir haben da halt noch nicht reingeschaut.
Es könnte sein, dass es eigentlich gar
nicht zu viele Abänderungen der Regex
Patterns voraussetzt, um es zu übertragen.
Es könnte aber auch sein, dass es relativ
aufwändig ist. Wir würden da jetzt so ein
bisschen auf die Stimmen von euch warten.
Also was interessiert euch denn eigentlich
am meisten? Und wir sind natürlich auch
sehr dankbar für jedes weitere Paar Augen,
das auf unsere Daten oder bzw. auf unseren
Source Code draufschaut, um vielleicht
Ideen zu entwickeln, wie man das jetzt
möglichst effizient auf andere
Anwendungsbereiche übertragen kann.
Herald: Okay, dann ist noch eine Frage aus
dem Chat, nämlich vielleicht kam das im
Talk vor. Er schreibt die Person: Aber wie
ist das Projekt zustande gekommen?
Insbesondere von der Finanzierung her?
Philipp: Also die Idee, die Grundidee war
glaube ich war, als wir zusammensaßen und
uns überlegt haben, wie können wir denn
eigentlich in Anbetracht von so vielen
schönen und künstlerischen oder
politischen Programmen und Aktionen die so
gibt, was können wir da eigentlich
beitragen, um irgendwas zu machen? Wir
sind Informatiker und Data Scientists und
das ist nicht so direkt der Punkt, wo man
jetzt die Welt ins Positive drehen kann.
Aber dann ist uns aufgefallen, dass eben
diese Daten, der Datensatz nicht
ausreichend verfügbar ist, dass der nicht
maschinenlesbar ist, dass es nur händisch
durchsuchbare Protokolle sind. Und dann
haben wir diesen Datensatz genommen und
aufgebrochenen. Grundlegend sind wir sonst
normalerweise in Agenturen und erbringen
Data Science Machine Learning
Dienstleistungen. Und haben dieses Projekt
aber in Abstimmung mit unserem Team,
also wir waren zu neunt an diesem Projekt,
haben das quasi komplett von unserem
Business getrennt und haben quasi gesagt:
Okay, wann immer wir Arbeitsstunden frei
haben, haben wir Zeit um dieses Projekt zu
treiben. Und damit diese quasi Bindung der
Privatwirtschaft, die da ja dran sein
könnte, dass die natürlich auch komplett
eliminiert ist, ist dieses Projekt
komplett offen und ist komplett
durchsuchbar und ist komplett frei, sodass
validiert werden kann, dass wir das
natürlich... Wir haben natürlich eine
eigene politische Meinung, aber die soll
natürlich nicht mit in diesen Datensatz
fließen. Daher liegt der Datensatz
komplett offen und kann vollkommen
durchsucht werden. Finanziert ist das aber
quasi aus den Freistunden, die wir als
Data Science Agentur hatten.
Herald: Vielen Dank Florian, vielen Dank
für dieses spannende Projekt und wirklich
gehaltvolle Projekt. Bei den
Beleidigungen muss man auch sagen: Franz
Josef Strauß war von der Runterzählung der
Top 5 fast zu erwarten, dass der
rauskommt. Ich hatte eigentlich noch Herrn
Wehner auch erwartet, der eigentlich sein
sein traditioneller Widersacher war. Habt
ihr denn ein Lieblingsschlagaustausch oder
eine Lieblingsbeleidigung gefunden in
eurer Arbeit.
Philipp: Ich glaube, man kann es auf so
unterschiedliche Art und Weisen auch
operationalisieren. Ich glaube wir hatten
mal eine ganz, eine ganz spannende... ich
glaube das müssten wir nochmal...
Vielleicht machen wir dafür nochmal einen
extra Teil auf der Website, wo wir die
spannendsten Beleidigungen nochmal
aufgreifen. Das wäre ein gutes Thema.
Florian: Wir hatten glaube ich teilweise
in so einem kleinen Dokument mal ein paar
Sachen gesammelt. Aber ich hab die grad
auch gar nicht im Kopf.
Herald: Okay, also einen Ausbaupotenzial
für den Spaß da hinten dran, für die
Spaßig-Seite der Datenanalyse ist auf
jeden Fall vorhanden. Vielen Dank für
euren Beitrag. Ich hoffe, ihr bekommt viel
Feedback und noch viel Input, wie man hier
noch mehr draus machen kann. Danke euch!
- Vielen Dank auch.
- Danke dir.
Wikipaka Outro Musik
Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!