< Return to Video

#rC3 - Wir wissen, was ihr letzten Sommer gesagt habt! - Open Discourse und die Transparenz des Bun

  • 0:00 - 0:15
    Wikipaka Intro Musik
  • 0:15 - 0:18
    Florian: Herzlich willkommen zu unserem
    Talk "Wir wissen, was ihr letzten Sommer
  • 0:18 - 0:22
    gesagt habt". Wir sind sehr aufgeregt und
    freuen uns sehr, dass wir das heute
  • 0:22 - 0:27
    vorstellen dürfen. Wir sind Philip Koch
    und Florian Richter und wir wollen euch
  • 0:27 - 0:32
    heute unser Projekt Open Discourse
    vorstellen und inwiefern Open Discourse
  • 0:32 - 0:37
    die Transparenz des Bundestages erhöhen
    kann. An Open Discourse haben wir die
  • 0:37 - 0:41
    letzten anderthalb Jahre gearbeitet, in
    einem Team von insgesamt neun Personen.
  • 0:41 - 0:49
    Und genau. Worüber wollen wir euch
    eigentlich heute erzählen? Für Open
  • 0:49 - 0:54
    Discourse haben wir die Plenarprotokolle
    des Deutschen Bundestages aufgearbeitet
  • 0:54 - 0:59
    und die Plenarprotokolle seht ihr hier auf
    der rechten Seite, die sehen so aus. Das
  • 0:59 - 1:06
    heißt für jede Sitzung im Bundestag gibt
    es Stenograph:innen, die jedes gesprochene
  • 1:06 - 1:09
    Wort von den Parteien bzw. von den
    Politiker:innen, die gerade eine Rede
  • 1:09 - 1:17
    halten, aufzeichnen. Und außerdem wird
    auch jeder Zwischenruf, jede Reaktion aus
  • 1:17 - 1:22
    dem Plenum mit aufgezeichnet. Diese
    Plenarprotokolle stellt der Bundestag zur
  • 1:22 - 1:28
    Verfügung, seit 1949. Allerdings als PDF-
    Dokument. Das birgt natürlich einige
  • 1:28 - 1:32
    Probleme, weil PDF Dokumente sind nicht
    gut durchsuchbar, weil wir jetzt z.B.
  • 1:32 - 1:36
    nicht gezielt suchen könnten, was ein
    bestimmter Politiker einer bestimmten
  • 1:36 - 1:42
    Partei im Jahre 1950 beispielsweise gesagt
    hat. Das heißt, das ist das Problem, das
  • 1:42 - 1:46
    wir eigentlich haben. Aber eigentlich
    beinhalten diese Plenarprotokoll ziemlich
  • 1:46 - 1:52
    viel wertvolle Information. Weil
    beispielsweise natürlich die einzelnen
  • 1:52 - 1:57
    Redebeiträge, die Zwischenrufe usw, diese
    sind aber als Fließtext in diesem PDF
  • 1:57 - 2:00
    enthalten. Das heißt, wir brauchen
    eigentlich irgendeinen Weg, um das
  • 2:00 - 2:04
    herauszubrechen. Und genau, das gab's
    bisher noch nicht. Mit Open Discourse
  • 2:04 - 2:09
    haben wir es jetzt erstmals geschafft,
    seit 1949 alle Reden, alle Zwischenrufe,
  • 2:09 - 2:15
    alle Reaktionen und so weiter
    herauszuarbeiten. Warum machen wir das
  • 2:15 - 2:20
    eigentlich? Die Motivation hinter Open
    Discourse beruht im Kern darauf, dass wir
  • 2:20 - 2:23
    davon ausgehen oder wir finden, das
    Plenarprotokolle eigentlich eine ziemlich
  • 2:23 - 2:29
    wertvolle Ressource sind und die Debatten
    im Bundestag ja eigentlich so transparent
  • 2:29 - 2:33
    wie möglich stattfinden sollten. Das
    heißt, wir alle haben ein Recht darauf,
  • 2:33 - 2:37
    auch noch nach 20 Jahren zu wissen, was
    eine bestimmte Politikerin oder ein
  • 2:37 - 2:44
    bestimmter Politiker zu einem bestimmten
    Thema gesagt hat. Was auffällt, wenn wir
  • 2:44 - 2:50
    uns Plenarprotokolle und die Befassung mit
    Plenarprotokollen ansehen, ist, dass das vor
  • 2:50 - 2:53
    allen Dingen in der deutschen
    Politikwissenschaft eigentlich ein Thema
  • 2:53 - 2:59
    ist, das nicht besonders oft angefasst
    wird. Es ist unterrepräsentiert in der
  • 2:59 - 3:03
    Forschung. Das hat mehrere Gründe: Zum
    einen.. oder zwei Hauptgründe
  • 3:03 - 3:07
    wahrscheinlich. Zum einen ist die deutsche
    Politikwissenschaft eher aus der
  • 3:07 - 3:10
    politischen Ideengeschichte erwachsen. Das
    heißt, man kümmert sich eigentlich eher
  • 3:10 - 3:15
    qualitativ um Texte als quantitativ. Das
    ändert sich in den letzten Jahren ein
  • 3:15 - 3:19
    bisschen. Aber im Kern befasst sich die
    deutsche Politikwissenschaft immer noch
  • 3:19 - 3:23
    relativ wenig mit dem Plenardebatten. Und
    der große Grund dafür ist dann natürlich
  • 3:23 - 3:26
    auch, dass diese Plenarprotokolle bisher
    noch nicht maschinenlesbar und nicht
  • 3:26 - 3:30
    leicht auswertbar vorlagen. Man kann sich
    vorstellen, wenn man jetzt nach einer
  • 3:30 - 3:34
    gezielten Fragestellung die
    Plenarprotokolle untersuchen möchte,
  • 3:34 - 3:38
    müsste man im Zweifelsfall über 4 000
    Protokolle händisch durchlesen, um zu
  • 3:38 - 3:41
    schauen: In welchem Protokoll steht jetzt
    irgendeine Information, die wichtig ist
  • 3:41 - 3:48
    für meine Fragestellung. In den letzten
    Jahren sehen wir aber, dass das Interesse
  • 3:48 - 3:51
    an diesen Plenarprotokollen zunehmend
    wächst. Und an der Stelle haben wir uns
  • 3:51 - 3:57
    gedacht, als Team aus in erster Linie Data
    Scientists und Software Developern, dass
  • 3:57 - 4:01
    wir eigentlich die Skills dazu haben,
    diese Daten aufzubereiten und der
  • 4:01 - 4:05
    Öffentlichkeit zur Verfügung zu stellen.
    Genau. Das ist also der der aktuelle
  • 4:05 - 4:10
    Stand. Wir haben das große Problem, dass
    es keine einfache Möglichkeit gibt, diese
  • 4:10 - 4:14
    Plenarprotokolle zu durchsuchen und diese
    Plenarprotokolle auch nicht
  • 4:14 - 4:20
    maschinenlesbar sind, wir also keine
    aktuellen Analysemethoden über diesen
  • 4:20 - 4:24
    Textkorpus laufen lassen können. Unsere
    Ziele, die wir uns gesetzt haben für
  • 4:24 - 4:29
    dieses Projekt, waren mehr Transparenz des
    politischen Diskurses in Deutschland, eine
  • 4:29 - 4:33
    detaillierte Durchsuchbarkeit der
    Plenardebatten, ein öffentlicher und
  • 4:33 - 4:37
    möglichst niedrigschwelliger Zugang zu
    diesen Daten, die Anschlussfähigkeit
  • 4:37 - 4:41
    unseres Projektes, damit dieses Projekt
    weiterentwickelt werden kann, dass neue
  • 4:41 - 4:47
    Projekte daraus entstehen können. Und
    natürlich, dass mit diesen Daten auch
  • 4:47 - 4:51
    geforscht werden kann und wir demnach ein
    wissenschaftliches Niveau für diese Daten
  • 4:51 - 4:57
    brauchen. Ok, kurz zum Status Quo. In den
    letzten Jahren, wie gerade angesprochen
  • 4:57 - 5:03
    hat sich natürlich das Interesse für diese
    Plenarprotokoll deutlich erhöht. 2017
  • 5:03 - 5:07
    beispielsweise gab es das sehr spannende
    Projekt Offenes Parlament, was von der
  • 5:07 - 5:13
    Open Knowledge Foundation getrieben wurde
    oder durchgeführt wurde. In diesem Projekt
  • 5:13 - 5:17
    wurden die Plenarprotokolle der 18.
    Wahlperiode aufgearbeitet und diese waren
  • 5:17 - 5:21
    dann auch granular durchsuchbar, das
    heißt, wir hatten Dimensionen zum Datum,
  • 5:21 - 5:27
    zum Inhalt der Redebeiträge, welche Person
    diesen Redebeitrag gehalten hat usw.
  • 5:27 - 5:33
    Ebenfalls 2017 und 2018 kamen die Projekte
    ParlSpeech und GermaParl und wurden
  • 5:33 - 5:38
    veröffentlicht. Das sind zwei
    wissenschaftliche Projekte, die ebenfalls
  • 5:38 - 5:43
    sehr granular die Redebeiträge aufbereitet
    haben des Bundestages. Allerdings im Falle
  • 5:43 - 5:46
    von ParlSpeech, die haben dieses Jahr
    nochmal ein Update von ihrem Datensatz
  • 5:46 - 5:52
    gemacht. Reicht jetzt von der 12. bis 19.
    Wahlperiode. Bei GermaParl sind aktuell
  • 5:52 - 5:56
    die 13. bis zur 18. Wahlperiode abgedeckt.
    D.h. wir haben da auch nicht den
  • 5:56 - 6:03
    kompletten Umfang der Plenardebatten. Und
    an dieser Stelle vor einem Jahr haben
  • 6:03 - 6:08
    Martin Haars und Kai Biermann das Projekt
    vorgestellt, das Zeit Online
  • 6:08 - 6:15
    veröffentlicht hat, wo das erste Mal alle
    oder jedes gesprochene Wort seit 1949
  • 6:15 - 6:20
    bereitgestellt wurde und es möglich war,
    eine Keyword Suche über diesen Korpus zu
  • 6:20 - 6:24
    laufen zu lassen. Das heißt, man konnte
    dadurch erstmals schauen: Wie hat sich
  • 6:24 - 6:30
    beispielsweise das Keyword Umweltschutz in
    den Debatten dargestellt? Wie hat sich das
  • 6:30 - 6:36
    verändert über die Zeit? Genau. An dieser
    Stelle gebe ich jetzt an Philipp weiter
  • 6:36 - 6:39
    und er wird euch mal erklären, was wir
    jetzt eigentlich mit Open Discourse noch
  • 6:39 - 6:42
    zusätzlich machen können.
    Philipp: Genau. Also wir sehen so ein
  • 6:42 - 6:45
    bisschen oder wir erinnern euch oder viele
    von euch erinnern sich vielleicht an den
  • 6:45 - 6:52
    den Talk von Martin Haase und Kai Biermann
    vor einem Jahr. Da haben die gezeigt, wie
  • 6:52 - 6:57
    sie diese Worte über die Zeit analysiert
    haben und haben auch gezeigt, welche
  • 6:57 - 7:00
    Beschimpfungen in Deutschen Bundestag
    relativ typisch waren. Also wir haben
  • 7:00 - 7:06
    sowas wie Heuchler und Lügner:in und
    Idioten und Lümmel und Flegel. Und nur um
  • 7:06 - 7:10
    da so ein Stück anzuknüpfen und um zu
    zeigen, wie wir an dieser Stelle ansetzen
  • 7:10 - 7:14
    können und das ein Stück weiter denken
    können, hab ich euch das mal mitgebracht
  • 7:14 - 7:18
    und hab euch mal geplottet über die Zeit,
    wie häufig mit welcher relativen
  • 7:18 - 7:23
    Häufigkeit Beschimpfungen im Deutschen
    Bundestag passiert sind. Und wir sehen,
  • 7:23 - 7:29
    dass es eine Zeit gab, in der mal mehr und
    mal weniger beschimpft wurde. Und was wir
  • 7:29 - 7:31
    jetzt aber machen können mit dem Open
    Discourse Datensatz: Wir können neue
  • 7:31 - 7:35
    Dimensionen hinzufügen, denn wir haben
    nicht mehr nur das reine gesprochene Wort,
  • 7:35 - 7:37
    sondern wir haben all die
    Metainformationen, weil wir wissen, wer
  • 7:37 - 7:42
    dieses Wort gesprochen hat. Ich kann also
    gucken, ob Männer oder Frauen mehr
  • 7:42 - 7:46
    geflucht haben und ich stelle fest, dass
    Männer mit großem großem Abstand mehr
  • 7:46 - 7:49
    fluchen als Frauen. Männer sind
    diejenigen, die das treiben im Deutschen
  • 7:49 - 7:52
    Bundestag, und die fluchen und beschimpfen
    und beleidigen. Wenn ich die Frauen
  • 7:52 - 7:56
    dagegen plotte - Das erste Mal, dass eine
    Frau im Deutschen Bundestag mit der
  • 7:56 - 8:03
    Auswahl dieser Beschimpfungen geflucht
    hat, war 1977 ungefähr. Und auch so reden
  • 8:03 - 8:10
    Frauen deutlich, deutlich deutlich weniger
    quasi in diesem Wortschatz. Und das Ganze
  • 8:10 - 8:12
    können wir jetzt immer und immer weiter
    berechnen, denn wir haben mit Open
  • 8:12 - 8:16
    Discourse die Dimensionalität, um diese
    Fragestellungen zu beantworten. Fluchen war
  • 8:16 - 8:21
    z.B. früher ein Thema von Doktor:innen.
    Das heißt, Abgeordnete mit einem
  • 8:21 - 8:26
    akademischen Grad haben deutlich mehr
    geflucht und erst in den 85er Jahren haben
  • 8:26 - 8:31
    dann auch nicht Doktor:innen angefangen,
    stärker zu fluchen und Beschimpfungen in
  • 8:31 - 8:36
    ihren Wortschatz aufzunehmen. Wir können
    weiter reingucken und können gucken, wer
  • 8:36 - 8:40
    denn eigentlich flucht. Also wenn ich
    jetzt mal vergleichen möchte, wie die die
  • 8:40 - 8:43
    Mitte rechts und die Mitte Links Fraktion
    im Deutschen Bundestag, wie die sich
  • 8:43 - 8:47
    unterscheiden in ihrer Nutzung von
    Schimpfworten, dann kann ich feststellen,
  • 8:47 - 8:51
    dass ungefähr seit den 85er Jahren das
    Fluchen eine typisch linke Disziplin ist.
  • 8:51 - 8:56
    Das ist in der Mitte Links Fraktion
    ziemlich verortet, jetzt in dem Fall hier
  • 8:56 - 9:02
    definiert als SPD, Linke, PDS und Grüne im
    Vergleich zur CDU, CSU, FDP-Fraktion, die
  • 9:02 - 9:08
    ein gutes Stück weniger flucht. Wir können
    auch bis auf die einzelne Person
  • 9:08 - 9:12
    runtergehen und wir können die Gewinner im
    Beschimpfen des Deutschen Bundestages seit
  • 9:12 - 9:16
    1949 küren. Vielleicht hat jemand von euch
    eine Idee, wer da so drinsteckt. Auf Platz
  • 9:16 - 9:22
    vier ist es Norbert Blüm von der CDU. Auf
    Platz drei ist es Carlo Schmidt von der
  • 9:22 - 9:27
    SPD, ein bisschen früherer Politiker. Auf
    Platz zwei, Ottmar Schreiner von der SPD.
  • 9:27 - 9:33
    Und auf Platz eins ist es Franz Josef
    Strauß von der CSU, der mit großem Abstand
  • 9:33 - 9:38
    die meisten Flüche im Deutschen Bundestag
    gesprochen hat. Ihr seht also: Das, was
  • 9:38 - 9:42
    wir mit Open Discourse machen können, ist,
    wir können dem gleichen Projekt, was auch
  • 9:42 - 9:46
    die Kollegen von der Zeit haben,
    Mehrdimensionalität hinzufügen, weil wir
  • 9:46 - 9:51
    in unserem Korpus eine Realität abbilden
    können und den gesamten PDF-Datensatz
  • 9:51 - 9:56
    quasi komplett als Datenbank-Struktur
    verfügbar gemacht haben. Das heißt, was
  • 9:56 - 10:02
    wir früher konnten ist, wir konnten Worte
    über eine Zeit plotten. Das war so der
  • 10:02 - 10:07
    Status quo. Und was wir jetzt gemacht
    haben ist, wir haben diesen Fließtext,
  • 10:07 - 10:11
    dieses PDF umgebrochen in eine
    Datenbankstruktur und können das jetzt
  • 10:11 - 10:15
    beliebig filtern und beliebig analysieren
    und können da sehr, sehr, sehr tief in die
  • 10:15 - 10:21
    quantitativen Analysen gehen. Das heißt,
    wir fügen diesen Plenardebatten mehr
  • 10:21 - 10:25
    Dimensionalität hinzu. Früher also Worte
    und Zeit und heute eben auch, welche
  • 10:25 - 10:29
    Person gesprochen hat und damit eben auch
    welche Fraktion, welche
  • 10:29 - 10:34
    Regierungsposition, welches Geschlecht,
    welches Alter hat der oder die Sprechende?
  • 10:34 - 10:39
    Was ist der Beruf der sprechenden Person?
    Der akademische Grad, die Jahre im
  • 10:39 - 10:45
    Bundestag? Der Geburtsort, der Adelstitel.
    Und wir haben natürlich auch alle
  • 10:45 - 10:48
    Reaktionen und Interaktionen des
    Bundestag. Das heißt, wir können genau
  • 10:48 - 10:53
    gucken, welche Personen, welche Fraktion
    lacht oder amüsiert sich oder klatscht.
  • 10:53 - 10:57
    Und welche Einzelpersonen sind es denn,
    wenn es irgendwelche Zwischenrufe sind?
  • 10:57 - 11:01
    Und wenn wir uns das so einer Größe
    angucken, dann haben wir ein Datensatz,
  • 11:01 - 11:07
    bei dem wir etwa 331 Tausend Plenarseiten
    ausgewertet haben seit 1949. Wir haben
  • 11:07 - 11:13
    dadurch 211 Millionen Tokens, also Worte,
    in unserem Datensatz von ungefähr 900 000
  • 11:13 - 11:19
    Redebeiträgen, die wir verzeichnet haben,
    gesprochen von 4100 Politiker:innen.
  • 11:19 - 11:23
    Darauf haben wir dann 2,2 Millionen
    Reaktionen und Zwischenrufe des Plenums
  • 11:23 - 11:29
    von insgesamt 27 Fraktionen und Gruppen
    seit der Gründung des Bundestages. Wie
  • 11:29 - 11:33
    haben wir das gemacht? Vielleicht ein ganz
    kurzes Wort dazu, was dahinter steckt. Wir
  • 11:33 - 11:37
    haben die öffentlich verfügbaren Daten
    genommen, die, die daliegen. Das heißt,
  • 11:37 - 11:41
    das sind die Plenarprotokolle des
    Bundestages als PDF. Wir haben das
  • 11:41 - 11:44
    angereichert mit den Stammdaten der
    Abgeordneten, die auch der Bundestag
  • 11:44 - 11:48
    erfasst und selbst herausgibt. Und wir
    haben die Liste der deutschen
  • 11:48 - 11:52
    Regierungsmitglieder seit 1949 noch mit
    dazugegeben, denn es gab relativ viele
  • 11:52 - 11:57
    oder es gab einige Regierungsmitglieder,
    die selbst kein Bundestagsmandat haben.
  • 11:57 - 12:02
    Auch die haben wir hinzugefügt. Und dann
    haben wir diese unendlich langen Texte
  • 12:02 - 12:06
    eben vorwiegend durch Regular Expressions
    gefiltert. Das heißt, wir haben die
  • 12:06 - 12:09
    relevanten Teile und Protokolle
    extrahiert. Wir haben das aufgegliedert.
  • 12:09 - 12:13
    Und wir haben dann eben nach Redebeiträge,
    nach Redner:innen, Zwischenrufe,
  • 12:13 - 12:20
    Reaktionen unterteilt. Das war mal einer
    der längsten Regular Expression Strings.
  • 12:20 - 12:23
    Der war dann irgendwann so lang, wir haben
    dann irgendwann unserem Head of Regular
  • 12:23 - 12:27
    Expressions das auf ein T-Shirt gedruckt.
    Das hatte die gute Vorderseite genutzt.
  • 12:27 - 12:31
    Und nach diesen ganzen Regular Expressions
    haben wir dann auch viel Fuzzy Search und
  • 12:31 - 12:36
    Matching gemacht, um eben die Fehler auch
    in dem Plenarprotokoll auszumerzen. Das
  • 12:36 - 12:39
    heißt, Politiker:innen sind falsch
    geschrieben, irgendwelche Worte sind
  • 12:39 - 12:44
    zerrissen. Und um das alles wieder
    zusammenzuführen, haben wir dann Fuzzy
  • 12:44 - 12:50
    String Matching angeführt.
    Florian: Genau, und an der Stelle kommt
  • 12:50 - 12:53
    ihr jetzt eigentlich ins Spiel. Das heißt,
    was wir im Kern machen wollten und jetzt
  • 12:53 - 12:58
    geschafft haben, ist diesen die, dieses
    Korpus oder diesen Datensatz so
  • 12:58 - 13:03
    bereitzustellen, dass ihr euch den
    auschecken könnt und eigene Analysen mit
  • 13:03 - 13:09
    diesen Daten durchführen könnt. Das heißt,
    der Open Discourse Datensatz und das ganze
  • 13:09 - 13:14
    Repository dazu ist veröffentlicht. Ihr
    könnt euch den Source Code anschauen,
  • 13:14 - 13:18
    auschecken, die Datenbank bei euch lokal
    aufbauen. Und ihr habt noch ein paar
  • 13:18 - 13:22
    andere Möglichkeiten, auf die ich später
    noch genauer ein. Genau. Das Spannende,
  • 13:22 - 13:27
    finden wir, an diesem Datensatz ist jetzt,
    dass es erstmals möglich ist, Analysen
  • 13:27 - 13:32
    durchzuführen, die vorher in der Form
    nicht durchführbar waren. Und während wir
  • 13:32 - 13:36
    auf eure Analysen warten, zeigen wir euch
    ein paar Analysen, die wir schon mal
  • 13:36 - 13:40
    durchgeführt haben, um euch eine kleine
    Inspiration zu geben, was denn eigentlich
  • 13:40 - 13:44
    möglich ist. Und an dieser Stelle ein
    kleiner Disclaimer: Alles, was wir jetzt
  • 13:44 - 13:49
    gleich zeigen, dient als Inspiration. Wir
    haben die Analysen mit größter Sorgfalt
  • 13:49 - 13:53
    durchgeführt. Aber es ist keine
    politikwissenschaftliche Forschung. Und
  • 13:53 - 13:57
    gerade weil wir jetzt über Politik
    sprechen, sollten wir an dieser Stelle ein
  • 13:57 - 14:00
    bisschen vorsichtig sein. Wir sind uns
    weitestgehend sicher, dass die Ergebnisse,
  • 14:00 - 14:04
    die wir euch präsentieren, sehr plausibel
    und weitestgehend korrekt sein werden.
  • 14:04 - 14:08
    Aber wie gesagt, das ist jetzt keine
    politikwissenschaftliche Forschung, das
  • 14:08 - 14:11
    ist nicht durch ein Peer Review Prozess
    gegangen. Soweit als kleiner Disclaimer
  • 14:11 - 14:18
    dazu. Okay, wir gucken uns jetzt folgend
    zwei große Themen an, die in der
  • 14:18 - 14:23
    Geschichte der Bundesrepublik ziemlich
    große Relevanz hatten. Und wir starten mit
  • 14:23 - 14:27
    dem Thema Datenschutz. Und wir könnten
    jetzt dieses Thema so untersuchen, wie es
  • 14:27 - 14:32
    traditionell bisher immer möglich war. Das
    heißt, wir schauen uns mal an, wie oft
  • 14:32 - 14:37
    eigentlich das Wort Datenschutz in den
    Plenarsitzungen gesagt wurde. Und wenn wir
  • 14:37 - 14:42
    das machen Sie das ungefähr so aus. Das
    heißt, wir haben die erste Nennung des
  • 14:42 - 14:48
    Begriffs Datenschutz Anfang der siebziger
    Jahre. Das würde ungefähr so passen, weil
  • 14:48 - 14:53
    in dem Zeitraum auch Hessen als erstes
    Land oder sogar weltweit das erste
  • 14:53 - 14:58
    Datenschutzgesetz verabschiedet hat. Das
    heißt, damals wurde der Begriff
  • 14:58 - 15:03
    anscheinend das erste Mal genutzt, auch im
    Bundestag. Und ab dann ging es weiter. Wir
  • 15:03 - 15:08
    sehen einen kleinen Abfall in den 90ern,
    einen Anstieg dann wieder in den 2000er
  • 15:08 - 15:15
    Jahren. Genau. Aber das ist eigentlich
    noch nicht gut interpretierbar. Wir haben
  • 15:15 - 15:17
    jetzt einfach nur die Worthäufigkeiten.
    Wir wissen nicht, wer hat das eigentlich
  • 15:17 - 15:22
    gesagt hat. Das heißt, an der Stelle
    nutzen wir jetzt unseren Open Discourse
  • 15:22 - 15:26
    Korpus, um uns das ein bisschen genauer
    anzuschauen. Was wir zusätzlich jetzt noch
  • 15:26 - 15:32
    gemacht haben, ist: Wir haben ein LDA
    Topic Modeling trainiert. Das funktioniert
  • 15:32 - 15:37
    im Wesentlichen so, dass wir davon
    ausgehen... bzw. ein LDA Topic Modeling
  • 15:37 - 15:43
    ist dafür da oder kann genutzt werden, um
    latente Themen in Textkorpora zu
  • 15:43 - 15:48
    ermitteln. Und wir wollen uns ja das Thema
    Datenschutz ansehen. Das heißt, wir müssen
  • 15:48 - 15:52
    versuchen, ein LDA Topic Modeling so zu
    trainieren, dass wir dieses
  • 15:52 - 15:56
    Datenschutzthema auch finden in unseren
    Daten. Natürlich nur, solange es da ist.
  • 15:56 - 16:00
    Glücklicherweise ist es tatsächlich da,
    weil darüber ziemlich viel gesprochen
  • 16:00 - 16:05
    wurde. Das heißt, wenn wir jetzt
    eigentlich untersuchen wollen, wie oder in
  • 16:05 - 16:09
    welchem Ausmaß über Datenschutz gesprochen
    wurde im Bundestag, dann ist es natürlich
  • 16:09 - 16:13
    nicht bloß der Begriff Datenschutz
    relevant. Sondern man kann auch über den
  • 16:13 - 16:16
    Datenschutz reden, dabei aber Begriffe
    nutzen wie Informationsfreiheit,
  • 16:16 - 16:21
    Datenverarbeitung, Speicherung,
    Privatsphäre usw.. Das heißt, es ist
  • 16:21 - 16:26
    eigentlich viel relevanter, dieses latente
    Thema des Datenschutzes zu nutzen als
  • 16:26 - 16:30
    einen spezifischen Begriff. Dafür haben
    wir das LDA Topic Modeling trainiert. Das
  • 16:30 - 16:35
    funktioniert im Wesentlichen so, dass wir
    vorgegeben haben, was wir oder wie viele
  • 16:35 - 16:40
    Topics, spezifische Topics, wir im Korpus
    erwarten. Da haben wir verschiedene
  • 16:40 - 16:44
    Nummern ausprobiert und bei
    zweihundertfünfzig letztlich sehr
  • 16:44 - 16:47
    konsistente Themen gefunden. Und mit
    diesem Model haben wir jetzt die weiteren
  • 16:47 - 16:55
    Analysen durchgeführt. Dieses LDA Topic
    Modeling hat als Ergebnis, dass wir für
  • 16:55 - 17:04
    jeden Redebeitrag, den wir im Korpus
    haben, Angaben darüber bekommen, wie der
  • 17:04 - 17:11
    prozentuale Anteil der jeweiligen 250
    Themen in dieser Rede war. Das heißt, wir
  • 17:11 - 17:16
    haben genau 250 Zahlenwerte für jeden
    Redebeitrag. Das ist das, was wir jetzt
  • 17:16 - 17:22
    folgend zusammen aggregieren und auf der
    Y-Achse als Relevanz definieren. Genau das
  • 17:22 - 17:27
    ist jetzt auch erstmals möglich, weil wir
    die einzelnen Redebeiträge als Dokumente
  • 17:27 - 17:33
    im LDA Topic Modeling nutzen können. Alles
    klar. Zurück zum Thema Datenschutz. Okay,
  • 17:33 - 17:38
    wir plotten uns jetzt mal die
    durchschnittlichen Gebrauch des ganzen
  • 17:38 - 17:44
    Thema Datenschutz im Plenar oder im
    Verlauf der Plenarsitzungen. Und was uns
  • 17:44 - 17:49
    jetzt zum Beispiel schon mal auffällt,
    ist, dass auch vor 1970 schon in einem
  • 17:49 - 17:53
    gewissen sehr geringen Maße über
    Datenschutz-Themen gesprochen wurde. Der
  • 17:53 - 17:57
    Begriff Datenschutz wurde dabei jedoch
    nicht genutzt. Wir sehen immer noch, dass
  • 17:57 - 18:02
    es quasi zwei große Phasen oder zwei große
    Wellen gibt. Es gibt die erste Welle, die
  • 18:02 - 18:08
    ungefähr Mitte der 70er angefangen hat und
    dann zum zum Ende der 80er Jahre abgeflaut
  • 18:08 - 18:14
    ist. Und wir haben eine zweite Welle, die
    zum in den 2000er Jahren begonnen hat und
  • 18:14 - 18:19
    jetzt langsam wieder abflaut. Um zu
    validieren, dass das, was wir jetzt hier
  • 18:19 - 18:24
    gefunden haben oder das, was uns das Topic
    Model grad anzeigt, stimmt, haben wir mal
  • 18:24 - 18:28
    geschaut, was denn eigentlich in diesen
    Zeiten so passiert ist. Und wenn wir uns
  • 18:28 - 18:33
    die 80er Jahre oder den Raum um die 80er
    Jahre anschauen, sehen wir, dass derzeit
  • 18:33 - 18:39
    das Bundesdatenschutzgesetz, also das
    erste Datenschutzgesetz auf nationaler
  • 18:39 - 18:45
    Ebene beschlossen wurde in Deutschland,
    dass es die Volkszählungsboykotte gab. Es
  • 18:45 - 18:51
    sollte eine Volkszählung durchgeführt
    werden und die sollte in dem Fall das
  • 18:51 - 18:56
    erste Mal digital die Daten der
    Bevölkerung erfassen. Das hat natürlich
  • 18:56 - 19:02
    zur Boykotten, zu Protesten und zu Sorgen,
    was denn eigentlich, welche Belange das
  • 19:02 - 19:08
    mit dem eigenen Datenschutz hat. Außerdem:
    In der Zeit wurde der CCC gegründet. Es
  • 19:08 - 19:15
    gab ein ziemlich entscheidendes Urteil vom
    Bundesverfassungsgericht, auch im Rahmen
  • 19:15 - 19:19
    dieser Volkszählung. Und in dem Rahmen
    tauchte dann auch erstmals der Begriff der
  • 19:19 - 19:24
    informationellen Selbstbestimmung auf. Das
    heißt, okay, an dem Rahmen oder in dem
  • 19:24 - 19:27
    Maße ist die erste Welle ziemlich
    plausibel. Das wurde im Bundestag dann
  • 19:27 - 19:31
    offensichtlich auch sehr intensiv
    besprochen. Danach ist das ein bisschen
  • 19:31 - 19:36
    abgeflaut. Wir haben einen kleinen Peak
    ungefähr 1995, da wurde die europäische
  • 19:36 - 19:41
    Datenschutzrichtlinie verabschiedet. Aber
    den richtigen Anstieg hatten wir dann erst
  • 19:41 - 19:45
    zur zweiten Welle. Da kamen dann
    Diskussionen auf wie Zensursula und die
  • 19:45 - 19:52
    DSGVO. Also bei Zensursula wurde halt
    diskutiert, inwiefern der Staat eigentlich
  • 19:52 - 19:57
    das Recht hat, Inhalte im Internet zu
    zensieren. Auf der anderen Seite wurde
  • 19:57 - 20:05
    auch sehr, sehr stark diskutiert, ob der
    Staat eigentlich das Recht hat,
  • 20:05 - 20:08
    Hausdurchsuchungen auf den eigenen
    Rechnern quasi durchzuführen. Das heißt,
  • 20:08 - 20:11
    die zwei Wellen, die wir jetzt hier sehen,
    die sind ziemlich plausibel. Das waren
  • 20:11 - 20:17
    tatsächlich die Zeiten, in denen die
    Debatte um den Datenschutz ziemlich stark
  • 20:17 - 20:22
    ausgeführt wurde. Okay, jetzt schauen wir
    uns mal an, welche Dimension wir
  • 20:22 - 20:25
    eigentlich dazu packen können, um
    vielleicht mehr Informationen darüber zu
  • 20:25 - 20:29
    bekommen, wie das denn diskutiert wurde
    und welche Partei sich mehr und welche
  • 20:29 - 20:36
    Partei sich weniger darum gekümmert hat um
    dieses Thema. Und dazu haben wir uns mal
  • 20:36 - 20:41
    angeschaut, wie die historisch zwei großen
    Parteien in Deutschland diese Themen
  • 20:41 - 20:46
    behandelt haben. Zuerst haben wir uns die
    CDU angeschaut und wir sehen, dass die CDU
  • 20:46 - 20:51
    in der ersten Welle deutlich
    überdurchschnittlich über das Thema
  • 20:51 - 20:57
    Datenschutz gesprochen hat, im Plenarsaal,
    in der zweiten Welle aber deutlich
  • 20:57 - 21:01
    unterdurchschnittlich. Im Vergleich dazu
    haben wir uns dann mal angeschaut, wie die
  • 21:01 - 21:06
    SPD drüber gesprochen hat. Die SPD hat der
    ersten Welle unterdurchschnittlich viel
  • 21:06 - 21:12
    über Datenschutz gesprochen oder hatte in
    ihren Reden deutlich weniger Datenschutz
  • 21:12 - 21:17
    aufgegriffen. In der zweiten Welle oder im
    Beginn der zweiten Welle ein bisschen
  • 21:17 - 21:21
    überdurchschnittlich, dann hat es aber
    deutlich abgeflacht. Das könnte - wird
  • 21:21 - 21:26
    höchstwahrscheinlich damit zu tun haben,
    dass während der ersten Welle die SPD in
  • 21:26 - 21:31
    der Regierung war und die CDU nicht, dass
    die CDU das deshalb vielleicht als
  • 21:31 - 21:38
    relevanter angesehen hat, das Thema
    Datenschutz intensiver zu besprechen. In
  • 21:38 - 21:42
    der zweiten Welle sehen wir, dass zum
    Beginn der zweiten Welle die SPD noch eine
  • 21:42 - 21:47
    Opposition war. Aktuell ist sie natürlich
    mit in der Regierung. Das könnte die
  • 21:47 - 21:51
    Bewegung erklären, warum zu Beginn der
    zweiten Welle die SPD leicht
  • 21:51 - 21:56
    überdurchschnittlich oder das Thema
    Datenschutz leicht überdurchschnittlich
  • 21:56 - 22:03
    relevant fand, dann aber zunehmend
    weniger. Wir plotten mal noch zwei andere
  • 22:03 - 22:09
    spannende Parteien dazu, nämlich die FDP
    und die Grünen. Da können wir nämlich
  • 22:09 - 22:15
    ablesen, dass diese zwei
    Oppositionsparteien, zumindest in der
  • 22:15 - 22:21
    Zeit, dass diese zwei Parteien auch nach
    dem Abflauen der ersten Welle die Relevanz
  • 22:21 - 22:26
    aufrecht erhalten haben. Das heißt, diese
    zwei Parteien hatten das Thema trotzdem
  • 22:26 - 22:31
    weiter im Fokus gehalten. Okay, schauen
    wir uns eine andere Dimension an. Wir
  • 22:31 - 22:34
    schauen uns mal an, wie das vielleicht mit
    dem Alter zu tun haben könnte. Und zwar
  • 22:34 - 22:41
    haben wir das Alter der Politiker:in nach
    dem Durchschnitt ungefähr geteilt. Das
  • 22:41 - 22:44
    heißt, das Durchschnittsalter des
    Bundestags aktuell liegt ungefähr bei 50
  • 22:44 - 22:48
    Jahren. Und so haben wir jetzt
    unterschieden nach eher jüngeren
  • 22:48 - 22:53
    Politikern, die unter 50 Jahre zum
    Zeitpunkt der Rede waren und älteren
  • 22:53 - 22:58
    Politikern, die älter als 50 waren zum
    Zeitpunkt der Rede. Und hier sehen wir,
  • 22:58 - 23:03
    dass die jüngeren Politiker das Thema
    Datenschutz deutlich relevanter finden als
  • 23:03 - 23:09
    die älteren. Okay, als letzte Dimension
    schauen wir uns jetzt nochmal an, ob das
  • 23:09 - 23:15
    dann vielleicht auch ein Zusammenhang mit
    dem akademischen Grad hat bzw. ob eine
  • 23:15 - 23:21
    Politikerin oder ein Politiker einen
    Doktortitel trägt. Und an der Stelle sehen
  • 23:21 - 23:27
    wir das, wenn eine Politiker:in einen
    Doktortitel trägt, das dann tendenziell
  • 23:27 - 23:31
    überdurchschnittlich über Datenschutz
    gesprochen wird, als wenn die Person
  • 23:31 - 23:37
    keinen Doktortitel hat. Man könnte jetzt
    versuchen, das irgendwie zusammenzufassen.
  • 23:37 - 23:40
    Beispielsweise könnte man versuchen, das
    so zu interpretieren, dass wenn man
  • 23:40 - 23:44
    möchte, dass im Plenarsaal viel über
    Datenschutz gesprochen wird, dann sollte
  • 23:44 - 23:50
    man Oppositionsparteien wählen, die eher
    jüngere Leute hat. Und diese jüngeren
  • 23:50 - 23:54
    Leuten sollten vielleicht eher einen
    Doktortitel tragen, vielleicht aber auch
  • 23:54 - 23:59
    nicht. Genau. Aber genau. Diese
    Auswertungen waren vorher nicht möglich.
  • 23:59 - 24:02
    Und jetzt könnte man reinschauen und
    gucken: Okay, was steckt denn da
  • 24:02 - 24:06
    eigentlich drin? Welche Bewegungen stecken
    denn in diesen Daten? Wir wollen jetzt
  • 24:06 - 24:11
    nochmal zwei Personen krönen, die sich
    sehr verdient gemacht haben, also die sehr
  • 24:11 - 24:16
    oder die höchste Relevanzwerte hatten für
    das Thema Datenschutz in der ersten und in
  • 24:16 - 24:20
    der zweiten Welle. In der ersten Welle
    geht diese Auszeichnung an Burkhard
  • 24:20 - 24:25
    Hirsch, der insbesondere zum ersten in der
    ersten Phase der ersten Welle
  • 24:25 - 24:30
    Innenminister war und sich ganz stark
    gegen staatliche Überwachung eingesetzt
  • 24:30 - 24:35
    hat. Das heißt, das klingt auch sehr
    plausibel, dass unsere Analyse Burkhard
  • 24:35 - 24:40
    Hirsch hier als Vorreiter sieht. In der
    zweiten Welle haben unsere Analysen
  • 24:40 - 24:45
    ergeben, dass das Gisela Piltz war, die
    sich in besonderem Maße mit Datenschutz
  • 24:45 - 24:49
    auseinandergesetzt hat. Und Gisela Piltz
    hat sich ganz... oder setzt sich ganz
  • 24:49 - 24:55
    stark gegen die Vorratsdatenspeicherung
    ein. Also von daher wirkt auch das
  • 24:55 - 25:01
    ziemlich plausibel. Genau. Das wäre jetzt
    das Beispiel Datenschutz, das wir
  • 25:01 - 25:05
    aufbereitet haben, um zu gucken: Okay, was
    könnte in diesen Daten denn drinstecken
  • 25:05 - 25:08
    und welche spannenden Fragen könnte man
    denn damit eigentlich stellen und
  • 25:08 - 25:13
    potenziell auch beantworten? Jetzt haben
    wir uns noch ein zweites großes Thema
  • 25:13 - 25:16
    angeschaut, was gerade in den letzten
    Jahren ganz, ganz stark an Relevanz
  • 25:16 - 25:21
    gewonnen hat. Und da wird euch Philipp
    jetzt mal erzählen, was wir da so gefunden
  • 25:21 - 25:24
    haben.
    Philipp: Genau. Also wir kommen nochmal
  • 25:24 - 25:28
    ein bisschen vom Datenschutz zum
    Klimaschutz und stellen uns so ein
  • 25:28 - 25:34
    bisschen den gleichen methodischen Ansatz.
    Also wir gucken mal, wie das reine Wort
  • 25:34 - 25:37
    Klimaschutz verwendet wurde. Und wir
    stellen fest, dass das Wort Klimaschutz
  • 25:37 - 25:42
    eigentlich ein relativ neuer Begriff ist.
    Ab den 2000ern. Aber zurück zu dem, was
  • 25:42 - 25:46
    Florian gerade eben schon gesagt hat Die
    reine Analyse einzelner Begriffe ist noch
  • 25:46 - 25:50
    nicht ausreichend, um diesen Themenkomplex
    und die latenten Grundstrukturen darunter
  • 25:50 - 25:55
    zu erfassen. Deswegen reicht dieser
    Begriff Klimaschutz nicht, sondern wir
  • 25:55 - 25:59
    haben auch hier wieder ein automatisiertes
    LDA Topic Modeling verwendet, was uns
  • 25:59 - 26:03
    hunderte Begriffe automatisiert findet,
    die da reinpassen. Also natürlich kann ich
  • 26:03 - 26:07
    über Klimaschutz reden, ohne den Begriff
    Klimaschutz zu verwenden. Ich kann über
  • 26:07 - 26:10
    das Emissionsschutzgesetz sprechen. Ich
    kann über Nachhaltigkeit, über erneuerbare
  • 26:10 - 26:14
    Energien reden, ohne auch nur einmal das
    Wort Klimaschutz zu verwenden. Dieses
  • 26:14 - 26:19
    Thema also voll fokussieren. Deswegen
    haben wir daraus ein Thema gemacht und
  • 26:19 - 26:22
    gucken uns jetzt diesen ganzen Komplex an
    und nicht mehr nur den Begriff. Wenn wir
  • 26:22 - 26:28
    das tun, dann stellen wir fest, dass seit
    1949 dieses Thema nicht erst in den
  • 26:28 - 26:32
    2000ern an Relevanz gewonnen hat, sondern
    auch früher schon da war. Wenn ich jetzt
  • 26:32 - 26:35
    auch hier wieder so ein bisschen die
    Wegmarker setze, dann kann ich auch das
  • 26:35 - 26:40
    validieren. Also die ersten
    Umweltprogramme von Willy Brandt 1970, der
  • 26:40 - 26:46
    Einzug der Grünen in den Bundestag, die
    Atomkatastrophe von Tschernobyl. Wir haben
  • 26:46 - 26:51
    danach in den 90ern, das ist auch relativ
    plausibel, ein Abschwachen dieses Themas,
  • 26:51 - 26:53
    denn wir hatten gerade in der
    Wiedervereinigung dann
  • 26:53 - 26:57
    Verteilungskonflikte, die so ein bisschen
    relevanter wurden. Dadurch ist das Thema
  • 26:57 - 27:02
    des Klimawandels und des Klimaschutzes so
    ein bisschen hinten runtergefallen. Wir
  • 27:02 - 27:06
    haben weitere Punkte - wir haben die rot
    grüne Regierung von Schröder und Fischer
  • 27:06 - 27:11
    2000, so Richtung 2000 2005. Wir haben
    Fukushima und die Energiewende. Wir haben
  • 27:11 - 27:16
    das Pariser Klimaschutzabkommen. Und wir
    sehen jetzt auch schon diesen Drall nach
  • 27:16 - 27:20
    oben, insbesondere durch Fridays For
    Future und die neue Auseinandersetzung mit
  • 27:20 - 27:24
    der Einhaltung des Pariser
    Klimaschutzabkommens. Was wir jetzt hier
  • 27:24 - 27:27
    wieder machen können, ist: Wir können uns
    wieder angucken, wie einzelne Parteien
  • 27:27 - 27:30
    denn eigentlich darüber reden. Und wir
    können feststellen, dass die CDU ziemlich
  • 27:30 - 27:34
    durchschnittlich über dieses Thema redet.
    In den letzten Jahren sogar deutlich
  • 27:34 - 27:37
    abfallend, also deutlich
    unterdurchschnittlich. Gerade seit dem
  • 27:37 - 27:41
    Pariser Klimaschutzabkommen ist das Thema
    für die CDU nicht mehr ganz so relevant
  • 27:41 - 27:46
    vielleicht. Wir können die SPD plotten,
    das sieht auch ganz durchschnittlich aus.
  • 27:46 - 27:49
    Bei der FDP sieht es auch ganz
    durchschnittlich aus, bei den Linken sogar
  • 27:49 - 27:53
    ein Stück unterdurchschnittlich. Und so
    ein bisschen wie erwartet sind es die
  • 27:53 - 27:57
    Grünen, die dieses Thema extrem pushen und
    die diesen Diskurs sehr, sehr hoch halten.
  • 27:57 - 28:02
    Das heißt, die Grünen ziehen hier deutlich
    den den Rolling Mean nach oben und steuern
  • 28:02 - 28:06
    dieses Thema ganz stark. Wir können aber
    auch hier noch ein bisschen weiter
  • 28:06 - 28:09
    reingucken, nämlich: Wer sind das denn?
    Sind es die jüngeren oder sind es die
  • 28:09 - 28:13
    älteren Politiker? Wenn ich mir hier das
    mal angucke, dann stelle ich fest, dass
  • 28:13 - 28:17
    die mittelalten Politiker zwischen 39 und
    59 sich mit dem Thema sehr
  • 28:17 - 28:21
    durchschnittlich auseinandersetzen. Und so
    ein bisschen wie erwarten kann ich mir
  • 28:21 - 28:25
    dann entsprechend vorstellen, dass sich
    ältere Politiker über 60 mit diesem Thema
  • 28:25 - 28:30
    sehr gering, sehr unterdurchschnittlich
    auseinandersetzen und jüngere
  • 28:30 - 28:35
    Politikerinnen unter 39 sich mit diesem
    Thema deutlich stärker auseinandersetzen.
  • 28:35 - 28:39
    Wir sehen auch hier nicht nur eine
    stärkere Auseinandersetzung, sondern eben
  • 28:39 - 28:43
    auch eine frühere Auseinandersetzung.
    Während bei älteren Politikerinnen diese
  • 28:43 - 28:46
    Auseinandersetzung immer zeitlich rechts
    versetzt ist und immer deutlich weniger
  • 28:46 - 28:51
    intensiv ist. Wir können mit dem Open
    Discourse Datensatz die Stammdaten des
  • 28:51 - 28:55
    Deutschen Bundestages anzapfen und noch
    ein kleines Stück tiefer gehen. Wir können
  • 28:55 - 28:59
    nämlich die Berufe der Abgeordneten
    auswerten. Jeder Abgeordnete gibt seinen
  • 28:59 - 29:04
    Beruf oder seinen seinen beruflichen
    Hintergrund an. Und diese Daten können wir
  • 29:04 - 29:08
    auswerten. Wir haben über 1 000 unique
    Berufsbezeichnungen von über 4 000
  • 29:08 - 29:12
    Politiker:innen. Wenn ich mir die jetzt
    hier mal so angucke, dann sind es Ärzte
  • 29:12 - 29:16
    und Apotheker und Unternehmer und
    Landwirte und Buchhalter:innen. Und wenn
  • 29:16 - 29:22
    ich das so ein bisschen cluster, dann hab
    ich jetzt für die folgende Analyse mal 12
  • 29:22 - 29:26
    Berufsgruppen gefiltert. Und jetzt kann
    man sich angucken, welche Berufsgruppen
  • 29:26 - 29:30
    denn dieses Thema besonders stark
    fokussieren. Und was auch wieder sehr
  • 29:30 - 29:33
    erwartbar ist, ist, dass die
    Naturwissenschaftler:innen dieses Thema
  • 29:33 - 29:38
    deutlich stärker fokussieren, als andere
    das tun. Also das Thema ist sehr
  • 29:38 - 29:45
    exorbitant getragen durch Physiker:innen,
    durch Biolog:innen, durch alle Personen,
  • 29:45 - 29:49
    die irgendwie einen Berufshintergrund in
    dem Feld der Naturwissenschaften haben.
  • 29:49 - 29:55
    Ich habe uns hier immer noch die
    Agrarwirte dazu geplottet. Also alle
  • 29:55 - 29:59
    Landwirte und alle Forstwirte und die, die
    Bauer oder Bäuerin als Berufsbezeichnung
  • 29:59 - 30:04
    angegeben haben. Wir sehen, dass es in der
    ersten Welle der Klimadebatte noch sehr
  • 30:04 - 30:10
    relevant war und jetzt grad so Richtung
    der neueren Zeit für die Landwirte ein
  • 30:10 - 30:14
    unterdurchschnittlich relevantes Thema
    geworden ist. Und wir können feststellen,
  • 30:14 - 30:18
    dass die, die eine Berufsbezeichnung im
    Wirtschaftsfeld angegeben haben, sich mit
  • 30:18 - 30:22
    diesem Thema auch auseinandersetzen.
    Allerdings deutlich weniger intensiv und
  • 30:22 - 30:25
    auch wieder rechts verlagert, also
    zeitlich zurück verlagert, nachdem sich
  • 30:25 - 30:31
    die Naturwissenschaftler:innen mit diesem
    Thema zuerst auseinandergesetzt haben. Was
  • 30:31 - 30:35
    können wir feststellen oder was könnten
    wir mal so ein bisschen uns angucken? Wir
  • 30:35 - 30:38
    können uns angucken, was denn eigentlich
    die perfekte Gruppe ist, um sich mit dem
  • 30:38 - 30:41
    Thema Klimaschutz auseinanderzusetzen und
    diese perfekte Trennlinie zwischen der
  • 30:41 - 30:45
    perfekten Gruppe von Abgeordneten und der
    schlechtesten Gruppe von Abgeordneten, die
  • 30:45 - 30:50
    macht sich ziemlich einfach am Geschlecht
    und an dem Alter fest. Wenn ich also mir
  • 30:50 - 30:53
    mal angucke, wie sich alte männliche
    Politiker mit dem Thema auseinandersetzen
  • 30:53 - 30:58
    im Vergleich zu jungen weiblichen
    Politikerinnen, dann stelle ich fest, dass
  • 30:58 - 31:01
    wir da sowohl wieder eine frühere
    Auseinandersetzung mit diesem Thema haben.
  • 31:01 - 31:05
    Wir haben eine intensivere
    Auseinandersetzung mit dem Thema und für
  • 31:05 - 31:09
    ältere Politiker, in diesem Fall jetzt
    hier über 60, ist die Auseinandersetzung
  • 31:09 - 31:16
    wirklich sehr weit unter dem Durchschnitt
    des Parlaments. Wir können uns also hier
  • 31:16 - 31:19
    vielleicht ein bisschen überlegen, welche
    Person wir denn ganz gerne im Bundestag
  • 31:19 - 31:25
    hätten, um progressive Themen, so auch den
    Datenschutz stärker zu treiben. Wir können
  • 31:25 - 31:28
    auch hier im Klimawandel wieder die Top
    Runner identifizieren, das können wir
  • 31:28 - 31:32
    beliebig operationalisieren. Wir haben uns
    immer die Vielredner genommen. Also
  • 31:32 - 31:36
    Politiker:innen mit mehr als 500 Reden.
    Und haben dann geguckt: Welche haben denn
  • 31:36 - 31:40
    den höchsten Klima-Score auf dieses Topic?
    Tatsächlich ist es Angela Merkel, die als
  • 31:40 - 31:44
    Vielrednerin sich mit diesem Thema am
    stärksten auseinandergesetzt haben. Wir
  • 31:44 - 31:47
    wollten uns aber auch nochmal einen
    Newcomer angucken, in großen
  • 31:47 - 31:52
    Anführungszeichen, also Politiker:innen
    mit 100 bis 500 Reden. Und da ist es Julia
  • 31:52 - 31:55
    Verlinden von den Grünen, die sich am
    stärksten mit diesem Thema
  • 31:55 - 31:59
    auseinandersetzt. Das ganze Fridays For
    Future hat immer auch das... geht es immer
  • 31:59 - 32:05
    viel um das Schwänzen und um das
    Fernbleiben von Inhalten. Und wir haben
  • 32:05 - 32:08
    uns deswegen mal angeguckt, wer denn so
    die großen Klimaschwänzer sind im
  • 32:08 - 32:12
    Deutschen Bundestag. Das haben wir
    operationalisiert, indem wir gesagt haben,
  • 32:12 - 32:16
    wir wollen nicht den Politiker, die
    Politikerin mit dem geringsten Wert über
  • 32:16 - 32:20
    die gesamte Zeit finden, sondern wir
    wollen so einen Punkt nehmen, ab dem die
  • 32:20 - 32:24
    Klimadebatte wohl in aller Munde sein
    müsste. Und wir haben dafür den ersten
  • 32:24 - 32:30
    Global Climate Strike genommen, am 19., am
    15. März 2019. Und wir haben dann von den
  • 32:30 - 32:35
    Politikern geguckt, die die Gelegenheit
    hatten, darüber zu reden. Also die
  • 32:35 - 32:39
    mindestens 40 Redebeiträge seitdem hatten,
    wie sie sich damit auseinandersetzen. Wir
  • 32:39 - 32:42
    stellen fest, dass diejenigen, die sich am
    wenigsten damit auseinandersetzen, drei
  • 32:42 - 32:47
    Männer sind, alle aus der gleichen
    Fraktion. Wir haben also Volker Ullrich,
  • 32:47 - 32:51
    der sich trotz Gelegenheit am wenigsten
    damit auseinandersetzt. Wir haben Thorsten
  • 32:51 - 32:54
    Frei, der sich trotz Gelegenheit am
    zweitwenigsten damit auseinandersetzt. Und
  • 32:54 - 32:58
    wir haben hier auch den Spätzünder im
    Klimathema, Philipp Amthor, der sich trotz
  • 32:58 - 33:01
    sehr vieler Reden nie mit diesem Thema
    oder sehr selten mit diesem Thema
  • 33:01 - 33:05
    auseinandersetzt. Wichtig ist hier
    vielleicht noch zu sagen, dass wir nicht
  • 33:05 - 33:09
    die reinen Reden zum Klimawandel zählen,
    sondern dass allein die Verwendung von den
  • 33:09 - 33:13
    relevanten Begriffen, um dieses Thema ein
    bisschen z.B. in Steuer- oder in
  • 33:13 - 33:17
    Haushaltsdebatten zu bringen, hier gezählt
    wird. Also wir haben eine sehr komplexe
  • 33:17 - 33:24
    Betrachtung des gesprochenen Wortes.
    Florian: Genau. Soviel erst einmal zu
  • 33:24 - 33:28
    einigen Analysen, die wir bisher
    durchgeführt haben. Wie bereits
  • 33:28 - 33:34
    angesprochen ist unser eigentliches Ziel
    ja aber, dass ihr und alle anderen auch
  • 33:34 - 33:40
    Analysen jetzt mit diesen Daten
    durchführen können und auf unserem Weg bis
  • 33:40 - 33:43
    zur Veröffentlichung, die jetzt im Rahmen
    oder auch zu genau dieser Zeit, wenn wir
  • 33:43 - 33:50
    diesen Vortrag halten, passiert, haben
    schon andere Partner und Partnerinnen, mit
  • 33:50 - 33:53
    denen wir zusammengearbeitet haben oder
    die mit unseren Daten schon arbeiten
  • 33:53 - 33:56
    konnten, ein paar Analysen durchgeführt
    oder sind gerade dabei, diese Analysen
  • 33:56 - 34:01
    noch durchzuführen. Beispielsweise
    CorrelAid, CorrelAid ist ein Netzwerk von
  • 34:01 - 34:06
    freiwilligen Data Scientists. Und bei
    CorrelAid haben sich zwei Projektteams
  • 34:06 - 34:10
    zusammengefunden, die mit unseren Daten
    schon seit einiger Zeit ein bisschen herum
  • 34:10 - 34:14
    arbeiten. Und die werden auch bald ihre
    Ergebnisse und Analysen veröffentlichen.
  • 34:14 - 34:18
    Die findet ihr dann zum einen in den
    entsprechenden Kanälen von CorrelAid. Auf
  • 34:18 - 34:22
    der anderen Seite werden wir die auch bei
    uns auf unserer Open Discourse Website
  • 34:22 - 34:28
    dann zu gegebener Zeit einbetten. Ein paar
    Sachen, die da beispielsweise schon
  • 34:28 - 34:34
    gemacht wurden, ist Ann-Kristin Vester hat
    sich angeschaut, wie eigentlich die
  • 34:34 - 34:39
    Geschlechter im Bundestag auftreten, wie
    die, wie der Sprachgebrauch sich
  • 34:39 - 34:43
    unterscheidet. An der Stelle auch
    nochmal kurz hier der Hinweis bei allen
  • 34:43 - 34:47
    Analysen, die wir bisher durchgeführt
    haben: Wir betrachten Geschlecht bisher
  • 34:47 - 34:51
    immer binär, weil der Bundestag das nicht
    anders hergibt. Es gibt bloß eine binäre
  • 34:51 - 34:55
    Geschlechtseinteilung. Deswegen mussten
    wir das in den Analysen auch so vornehmen
  • 34:55 - 34:59
    und das ist auch der Artikel, den Ann-
    Kristin Vester geschrieben hat, das ist
  • 34:59 - 35:04
    auch dort mit erwähnt. Also eine tiefere
    oder eine diversere Untersuchung von den
  • 35:04 - 35:10
    Geschlechtern im Bundestag ist aktuell
    leider noch nicht möglich. Genau. Eine
  • 35:10 - 35:14
    andere Analyse wurde von Alexandra Wörner
    durchgeführt. Alexandra Wörner hat sich
  • 35:14 - 35:17
    angeschaut, wie denn eigentlich über
    Diskriminierung im Bundestag gesprochen
  • 35:17 - 35:21
    wurde, von welchen Parteien das wie
    intensiv benutzt wurde oder darüber
  • 35:21 - 35:25
    gesprochen wurde und wie sich das über den
    zeitlichen Verlauf verändert hat. Auch
  • 35:25 - 35:30
    ziemlich spannend. Ein anderes Projekt,
    das bereits mit unseren Daten durchgeführt
  • 35:30 - 35:34
    wurde, kam von ZDF heute.
    Datenjournalist:innen von ZDF Heute hatten
  • 35:34 - 35:40
    uns Frühsommer/Sommer angeschrieben und
    gefragt, ob sie unsere Daten nicht schon
  • 35:40 - 35:46
    vor Veröffentlichung mal haben könnten, um
    zu schauen, ob sie diese Daten für einen
  • 35:46 - 35:51
    Artikel schon nutzen könnten. Und daraus
    ist ein Artikel entstanden, in dem sich
  • 35:51 - 35:56
    die Journalist:innen damit
    auseinandergesetzt haben, wie der
  • 35:56 - 36:02
    Bundestag denn eigentlich über Pandemien
    und über das Coronavirus im speziellen
  • 36:02 - 36:06
    unterhalten hat oder wie das debattiert
    wurde. Das Ergebnis war eher, dass der
  • 36:06 - 36:09
    Bundestag da nicht besonders viel
    Aufmerksamkeit draufgelegt hat. Auch ein
  • 36:09 - 36:15
    sehr spannender Artikel. Und als letztes
    wollen wir noch kurz das Projekt Open
  • 36:15 - 36:21
    Parliament TV eher anteasern, weil der
    offizielle Veröffentlichungstermin ist für
  • 36:21 - 36:27
    Mai 2021 vorgesehen. Open Parliament TV
    hat als Kernziel eigentlich ein sehr
  • 36:27 - 36:32
    ähnliches Ideal wie wir bei Open
    Discourse. Es geht darum, den Bundestag
  • 36:32 - 36:37
    transparenter zu machen. Open Parliament
    TV hat dabei das Ziel, die
  • 36:37 - 36:42
    Videomitschnitte der Plenardebatten mit
    den entsprechenden Transkripten, also
  • 36:42 - 36:47
    Plenarprotokollen zusammenzuführen, um
    darüber eine noch viel wirksamere oder
  • 36:47 - 36:52
    detailliertere Recherchefunktion zu
    ermöglichen. Und an der Stelle wird
  • 36:52 - 36:57
    gerade evaluiert, wie die Daten von Open
    Discourse diesem Projekt noch weiter
  • 36:57 - 37:06
    helfen können. Genau. Und jetzt wieder zu
    euch. Wie gerade schon angesprochen sind
  • 37:06 - 37:12
    unsere Daten ab sofort und unserer Source
    Code komplett öffentlich verfügbar. Das
  • 37:12 - 37:16
    heißt, ihr habt jetzt die Möglichkeit, mit
    diesen Daten zu machen, was ihr wollt. Wir
  • 37:16 - 37:20
    haben bei der Veröffentlichung das Ziel
    gehabt, die so verfügbar wie möglich zu
  • 37:20 - 37:27
    machen und haben dabei auf drei große
    Säulen versucht zu achten. Die erste Säule
  • 37:27 - 37:32
    dabei sind die Techniker:innen unter euch,
    also alle Techniker:innen unter euch. Ihr
  • 37:32 - 37:37
    könnt euch unsere GitHub Seite anschauen
    von Open Discourse und dort findet ihr
  • 37:37 - 37:40
    natürlich den Source Code. Ihr könnt das
    alles auschecken, lokal bei euch
  • 37:40 - 37:44
    aufsetzen, überprüfen, wie wir eigentlich
    vorgegangen sind, verbessern,
  • 37:44 - 37:50
    Schwachstellen finden. Außerdem findet ihr
    auf der GitHub Seite auch einen Docker
  • 37:50 - 37:55
    Container, wo die komplette Datenbank als
    Image vorliegt, d.h. die könnt ihr euch
  • 37:55 - 38:01
    auch sofort aufsetzen oder halt nochmal
    neu generieren lassen, wenn ihr wollt. Für
  • 38:01 - 38:06
    die Analytiker:innen und die
    Wissenschaftler:innen unter euch haben wir
  • 38:06 - 38:11
    ein Harvard Dataverse angelegt. Dort
    findet ihr die aktuelle Version unserer
  • 38:11 - 38:15
    Datenbank als Data Dump und wir haben das
    in vier verschiedenen Dateiformaten
  • 38:15 - 38:21
    bereitgestellt als CSV, Feather, Pickle
    und RDS-Files, damit ihr je nachdem, womit
  • 38:21 - 38:26
    ihr am liebsten arbeitet, genau das
    perfekte Dateiformat für euch findet. Und
  • 38:26 - 38:32
    als letztes haben wir noch für quasi Quick
    Reviews oder schnelle Recherchen auf
  • 38:32 - 38:36
    unserer Webseite eine Volltextsuche mit
    Filter-Option bereitgestellt. Da könnt ihr
  • 38:36 - 38:44
    also nach Stichworten, nach
    Parteizugehörigkeit, nach den Namen der
  • 38:44 - 38:50
    Politiker, nach Datum usw. filtern und
    schauen, ob euch was spannendes auffällt
  • 38:50 - 38:59
    oder ob ihr eure Fragen beantworten könnt.
    Genau. So viel dann erst mal von uns. Wir
  • 38:59 - 39:04
    bedanken uns ganz, ganz herzlich für euer
    Interesse und dass ihr uns zugehört habt.
  • 39:04 - 39:07
    Wir bedanken uns natürlich auch bei der C
    Base dafür, dass wir das Video hier
  • 39:07 - 39:12
    aufnehmen konnten. Bei Fragen und
    Anregungen schreibt uns gerne eine Mail
  • 39:12 - 39:18
    oder kontaktiert uns über die
    einschlägigen Kanäle. Oder wir sprechen
  • 39:18 - 39:26
    uns dann gleich bei der Fragerunde. Alles
    klar. Vielen Dank. Danke schön.
  • 39:26 - 39:31
    Herald: Wir sind nun mit den Sprechern
    verbunden, sind uns zugeschaltet für
  • 39:31 - 39:34
    Fragen und Antworten, die uns zugespielt
    worden sind. Herzlich willkommen!
  • 39:34 - 39:39
    Philipp & Florian: Hallo!
    Herald: Die zweite Welle des Datenschutzes ist
  • 39:39 - 39:44
    ja angesichts der Zeit gerade die perfekte
    Metapher. Wie lange wird die zweite Welle
  • 39:44 - 39:49
    des Datenschutzes wohl noch gehen?
    Florian: Ja, gute Frage. Keine Ahnung. Man
  • 39:49 - 39:55
    hat ja gesehen, dass es schon ein bisschen
    bergab wieder geht, aber viel mehr kann
  • 39:55 - 39:58
    ich da eigentlich nicht zu sagen. Aber es
    ist spannend, das jetzt im Auge behalten
  • 39:58 - 40:01
    zu können.
    Herald: Ist auf jeden Fall auf absehbare
  • 40:01 - 40:05
    Zeit nicht mit einer Impfung zu rechnen.
    Eine Frage, die uns zugespielt worden ist
  • 40:05 - 40:11
    über die Hashtags und über IRC, die wir
    empfangen und die wir weitergeben, ist: Es
  • 40:11 - 40:14
    gibt noch einen weiteren Text Korpus. Ihr
    habt jetzt den Deutschen Bundestag
  • 40:14 - 40:18
    analysiert, aber es gibt noch eine andere
    legislative Kammer, die es lange Jahre
  • 40:18 - 40:22
    gab, nämlich die Volkskammer der DDR. Gibt
    es dort überhaupt entsprechende Unterlagen
  • 40:22 - 40:25
    oder entsprechendes Material, das man
    analysieren könnte?
  • 40:25 - 40:30
    Florian: Da bin ich mir gar nicht so
    sicher. Also ich hab - also davon weiß ich
  • 40:30 - 40:34
    nichts. Wir hatten da jetzt auch gar nicht
    so weiter reingeguckt. Wir hatten
  • 40:34 - 40:36
    natürlich, während wir an dem Projekt
    gearbeitet hatten, schon überlegt, wie man
  • 40:36 - 40:40
    das alles noch weiterdenken könnte, was
    man zusätzlich noch mit aufnehmen könnte.
  • 40:40 - 40:44
    Da war die Volkskammer auch schon mal im
    Gespräch, aber wir sind da jetzt erstmal
  • 40:44 - 40:48
    nicht weiter rein gesprungen. Aber
    prinzipiell wird das natürlich total
  • 40:48 - 40:52
    spannend, noch weiter in die Richtung zu
    denken und das auch noch mit aufzunehmen.
  • 40:52 - 40:57
    Aber ich weiß gar nicht, ob es die
    Plenarprotokolle da so auch detailliert
  • 40:57 - 41:02
    gibt. Genau. Wahrscheinlich wäre es auch
    ein relativ großer Aufwand, könnte ich mir
  • 41:02 - 41:06
    vorstellen, die Regex Patterns, die wir
    jetzt für den Bundestag aufbereitet haben,
  • 41:06 - 41:12
    auf die Volkskammer zu übertragen. Weil
    wenn sich da... also im Prinzip basiert,
  • 41:12 - 41:15
    die Aufarbeitung, die wir gemacht haben
    darauf, dass die Struktur in den
  • 41:15 - 41:18
    Plenarprotokollen einigermaßen ähnlich
    bleibt, über die Legislaturperioden. Die
  • 41:18 - 41:23
    wird natürlich jedes Mal angepasst, wenn's
    dann notwendig war. Auf der anderen Seite
  • 41:23 - 41:27
    brauchen wir die Stammdaten der
    Politiker:innen, weil wir das für die
  • 41:27 - 41:31
    Fuzzy Matching Logiken nutzen, um zuweisen
    zu können: Wer hat denn eigentlich was
  • 41:31 - 41:35
    gesagt? Total spannend, das für die
    Volkskammer auch noch zu machen.
  • 41:35 - 41:39
    Vielleicht jetzt als nächster Schritt. Wir
    sind erstmal froh, dass wir den Bundestag
  • 41:39 - 41:43
    fertig bekommen haben.
    Herald: Auf jeden Fall. Gibt es denn
  • 41:43 - 41:46
    Wünsche, die ihr habt für die
    Zugänglichkeit von Daten, die euch das
  • 41:46 - 41:49
    Leben oder anderen das Leben
    einfacher machen würden, bei solchen
  • 41:49 - 41:52
    Auswertungen?
    Philipp: Das ist glaube ich vor allem die
  • 41:52 - 41:55
    strukturierte Erfassung, also eigentlich
    hätte der Bundestag selbst die
  • 41:55 - 41:59
    Möglichkeit, diese Daten von sich aus
    schon strukturiert verfügbar zu machen.
  • 41:59 - 42:02
    Vor allem, weil eben diese ganz einfachen
    Sachen - ich suche nach Begriffen oder ich
  • 42:02 - 42:06
    suche nach Themen oder ich möchte das mal
    ein bisschen strukturiert durchsuchen -
  • 42:06 - 42:11
    das ist derzeit eine absolut händische
    Aufgabe und das ist eigentlich in unserer
  • 42:11 - 42:15
    jetzigen Zeit ein kleines bisschen hinter
    der Zeit hinterher. Von daher wäre es
  • 42:15 - 42:21
    eigentlich sehr sinnvoll, wenn man so
    Grundideen von strukturierter Datenhaltung
  • 42:21 - 42:24
    dann auch in öffentlichen Verwaltungen
    hätte, um eben diesen Zugang zu
  • 42:24 - 42:27
    erleichtern. Der Bundestag hat uns jetzt
    quasi eineinhalb Jahre Arbeit gekostet,
  • 42:27 - 42:33
    das aufzubrechen. Und wär natürlich super,
    wenn man solche Grundthemen der
  • 42:33 - 42:37
    Datenhaltung, der öffentlich verfügbaren
    Datenhaltung auch irgendwie direkt
  • 42:37 - 42:40
    mitdenkt.
    Florian: Ein ganz kleiner Nachtrag da
  • 42:40 - 42:44
    noch. Ein großer Wunsch, der uns vieles
    erleichtern würde, jetzt auch Open
  • 42:44 - 42:49
    Discourse up to date zu halten, wäre ein
    RSS-Feed vom Bundestag. Da sitzen auch die
  • 42:49 - 42:53
    Leute von Open Parliament TV so ein
    bisschen dran und hoffen, dass das
  • 42:53 - 42:56
    irgendwie bereitgestellt wird. Aber das
    würde uns natürlich ermöglichen,
  • 42:56 - 43:02
    automatisiert den Datensatz zu erweitern,
    sobald irgendwie eine neue Rede
  • 43:02 - 43:09
    bereitgestellt wurde auf den Servern. Im
    Moment geht das leider so noch nicht.
  • 43:09 - 43:13
    Herald: Strukturierte, maschinenlesbare
    Verwaltung und strukturierte Daten quasi
  • 43:13 - 43:18
    als Wunsch. Es gibt ja zum Teil zumindest
    eigene Projekte, wo aus dritter Hand
  • 43:18 - 43:22
    solche Daten für Dritte bereitgestellt
    werden, wie z.B. Wikidata. Ist das eine
  • 43:22 - 43:27
    Quelle, auf die ihr euch, die ihr
    verwenden könnt für so was?
  • 43:27 - 43:33
    Florian: Genau. Teilweise hatten wir das
    auch verwendet. Also auf dem Weg zum
  • 43:33 - 43:38
    fertigen Produkt haben wir auch mit
    Wikidata-Daten gearbeitet. Zum Beispiel
  • 43:38 - 43:44
    gibt es in den Stammdaten ja Informationen
    darüber, wo Personen geboren wurden und
  • 43:44 - 43:49
    das sind die Originalgeburtsorte von
    damals, quasi mit den historischen Namen.
  • 43:49 - 43:56
    Und an der Stelle hatten wir dann mal als
    Test-Experiment bei uns intern für jede
  • 43:56 - 44:02
    Person, die wir im Bundestag hatten, jeden
    Abgeordneten und jede Abgeordnete, die
  • 44:02 - 44:06
    Wikidata-IDs rausgesucht, damit wir mappen
    können: Okay, was ist denn jetzt
  • 44:06 - 44:09
    eigentlich die ID für den Geburtsort
    dahinter, damit wir damit weiterarbeiten
  • 44:09 - 44:12
    können? Das liegt aber bei uns nur, also
    das ist jetzt nicht Teil des Korpus, weil
  • 44:12 - 44:16
    wir das nicht weit... also so weit
    validiert haben, dass wir sicher sein
  • 44:16 - 44:21
    können, dass das korrekt ist. Aber auf
    jeden Fall. Also das wäre so ein bisschen
  • 44:21 - 44:24
    die Anschlussfähigkeit, die wir uns
    eigentlich wünschen. Also im Idealfall
  • 44:24 - 44:29
    wäre jetzt und wäre vielleicht die
    Community dazu auch aufgerufen, für jede
  • 44:29 - 44:34
    Politiker:in noch die entsprechende
    Wikidata ID mit zum am Korpus dazu zu
  • 44:34 - 44:41
    packen, damit wir noch viel mehr Daten und
    viel mehr Dimensionen haben für den ganzen
  • 44:41 - 44:44
    Datensatz haben.
    Herald: Wohin wenden sich denn Menschen,
  • 44:44 - 44:47
    wenn sie bei eurem Projekt mitmachen
    möchten?
  • 44:47 - 44:52
    Florian: Am besten z.B.
    zwischenruf@opendiscourse.de oder auf
  • 44:52 - 44:55
    unserer Webseite opendiscourse.de findet
    ihr auch verschiedene
  • 44:55 - 44:59
    Kontaktmöglichkeiten. Ihr könnt natürlich
    auch direkt über das Repository uns
  • 44:59 - 45:03
    Tickets schreiben, falls ihr irgendwie
    Sachen habt, die euch aufhalten. Twitter,
  • 45:03 - 45:09
    Instagram, sämtliche Kanäle.
    Herald: Alle sozialen Netzwerke. Seid ihr
  • 45:09 - 45:12
    auf TikTok?
    Florian: Nur privat...
  • 45:12 - 45:17
    Herald: Zum Thema Transferierbarkeit gab's
    dann auch nochmal eine Frage aus dem Chat.
  • 45:17 - 45:21
    Zum Beispiel für die Republik Österreich.
    Wie gehen den Menschen vor - ihr habt ja
  • 45:21 - 45:24
    vorhin umrissen, dass es gar nicht so
    einfach ist, so einen Datensatz zu
  • 45:24 - 45:27
    analysieren. Aber wie würden denn Menschen
    vorgehen, die sagen: Das finden sie
  • 45:27 - 45:29
    interessant. Zum Beispiel für ihr
    Landesparlament oder eben auch für ein
  • 45:29 - 45:35
    anderes Land?
    Florian: Genau, an der Stelle sind wir
  • 45:35 - 45:40
    leider auch nicht ausreichend Expert:innen
    für die Plenarprotokolle, wie die auf
  • 45:40 - 45:45
    Landesebene aussehen. Also es könnte sein.
    Wir haben da halt noch nicht reingeschaut.
  • 45:45 - 45:48
    Es könnte sein, dass es eigentlich gar
    nicht zu viele Abänderungen der Regex
  • 45:48 - 45:52
    Patterns voraussetzt, um es zu übertragen.
    Es könnte aber auch sein, dass es relativ
  • 45:52 - 45:59
    aufwändig ist. Wir würden da jetzt so ein
    bisschen auf die Stimmen von euch warten.
  • 45:59 - 46:03
    Also was interessiert euch denn eigentlich
    am meisten? Und wir sind natürlich auch
  • 46:03 - 46:08
    sehr dankbar für jedes weitere Paar Augen,
    das auf unsere Daten oder bzw. auf unseren
  • 46:08 - 46:12
    Source Code draufschaut, um vielleicht
    Ideen zu entwickeln, wie man das jetzt
  • 46:12 - 46:18
    möglichst effizient auf andere
    Anwendungsbereiche übertragen kann.
  • 46:18 - 46:23
    Herald: Okay, dann ist noch eine Frage aus
    dem Chat, nämlich vielleicht kam das im
  • 46:23 - 46:27
    Talk vor. Er schreibt die Person: Aber wie
    ist das Projekt zustande gekommen?
  • 46:27 - 46:33
    Insbesondere von der Finanzierung her?
    Philipp: Also die Idee, die Grundidee war
  • 46:33 - 46:38
    glaube ich war, als wir zusammensaßen und
    uns überlegt haben, wie können wir denn
  • 46:38 - 46:41
    eigentlich in Anbetracht von so vielen
    schönen und künstlerischen oder
  • 46:41 - 46:45
    politischen Programmen und Aktionen die so
    gibt, was können wir da eigentlich
  • 46:45 - 46:50
    beitragen, um irgendwas zu machen? Wir
    sind Informatiker und Data Scientists und
  • 46:50 - 46:54
    das ist nicht so direkt der Punkt, wo man
    jetzt die Welt ins Positive drehen kann.
  • 46:54 - 46:58
    Aber dann ist uns aufgefallen, dass eben
    diese Daten, der Datensatz nicht
  • 46:58 - 47:01
    ausreichend verfügbar ist, dass der nicht
    maschinenlesbar ist, dass es nur händisch
  • 47:01 - 47:05
    durchsuchbare Protokolle sind. Und dann
    haben wir diesen Datensatz genommen und
  • 47:05 - 47:08
    aufgebrochenen. Grundlegend sind wir sonst
    normalerweise in Agenturen und erbringen
  • 47:08 - 47:11
    Data Science Machine Learning
    Dienstleistungen. Und haben dieses Projekt
  • 47:11 - 47:16
    aber in Abstimmung mit unserem Team,
    also wir waren zu neunt an diesem Projekt,
  • 47:16 - 47:22
    haben das quasi komplett von unserem
    Business getrennt und haben quasi gesagt:
  • 47:22 - 47:26
    Okay, wann immer wir Arbeitsstunden frei
    haben, haben wir Zeit um dieses Projekt zu
  • 47:26 - 47:31
    treiben. Und damit diese quasi Bindung der
    Privatwirtschaft, die da ja dran sein
  • 47:31 - 47:35
    könnte, dass die natürlich auch komplett
    eliminiert ist, ist dieses Projekt
  • 47:35 - 47:39
    komplett offen und ist komplett
    durchsuchbar und ist komplett frei, sodass
  • 47:39 - 47:42
    validiert werden kann, dass wir das
    natürlich... Wir haben natürlich eine
  • 47:42 - 47:45
    eigene politische Meinung, aber die soll
    natürlich nicht mit in diesen Datensatz
  • 47:45 - 47:48
    fließen. Daher liegt der Datensatz
    komplett offen und kann vollkommen
  • 47:48 - 47:52
    durchsucht werden. Finanziert ist das aber
    quasi aus den Freistunden, die wir als
  • 47:52 - 47:57
    Data Science Agentur hatten.
    Herald: Vielen Dank Florian, vielen Dank
  • 47:57 - 48:00
    für dieses spannende Projekt und wirklich
    gehaltvolle Projekt. Bei den
  • 48:00 - 48:04
    Beleidigungen muss man auch sagen: Franz
    Josef Strauß war von der Runterzählung der
  • 48:04 - 48:08
    Top 5 fast zu erwarten, dass der
    rauskommt. Ich hatte eigentlich noch Herrn
  • 48:08 - 48:13
    Wehner auch erwartet, der eigentlich sein
    sein traditioneller Widersacher war. Habt
  • 48:13 - 48:17
    ihr denn ein Lieblingsschlagaustausch oder
    eine Lieblingsbeleidigung gefunden in
  • 48:17 - 48:21
    eurer Arbeit.
    Philipp: Ich glaube, man kann es auf so
  • 48:21 - 48:26
    unterschiedliche Art und Weisen auch
    operationalisieren. Ich glaube wir hatten
  • 48:26 - 48:30
    mal eine ganz, eine ganz spannende... ich
    glaube das müssten wir nochmal...
  • 48:30 - 48:34
    Vielleicht machen wir dafür nochmal einen
    extra Teil auf der Website, wo wir die
  • 48:34 - 48:38
    spannendsten Beleidigungen nochmal
    aufgreifen. Das wäre ein gutes Thema.
  • 48:38 - 48:41
    Florian: Wir hatten glaube ich teilweise
    in so einem kleinen Dokument mal ein paar
  • 48:41 - 48:44
    Sachen gesammelt. Aber ich hab die grad
    auch gar nicht im Kopf.
  • 48:44 - 48:48
    Herald: Okay, also einen Ausbaupotenzial
    für den Spaß da hinten dran, für die
  • 48:48 - 48:52
    Spaßig-Seite der Datenanalyse ist auf
    jeden Fall vorhanden. Vielen Dank für
  • 48:52 - 48:58
    euren Beitrag. Ich hoffe, ihr bekommt viel
    Feedback und noch viel Input, wie man hier
  • 48:58 - 49:00
    noch mehr draus machen kann. Danke euch!
    - Vielen Dank auch.
  • 49:00 - 49:03
    - Danke dir.
  • 49:03 - 49:06
    Wikipaka Outro Musik
  • 49:06 - 49:13
    Untertitel erstellt von c3subtitles.de
    im Jahr 2021. Mach mit und hilf uns!
Title:
#rC3 - Wir wissen, was ihr letzten Sommer gesagt habt! - Open Discourse und die Transparenz des Bun
Description:

more » « less
Video Language:
German
Duration:
49:13

German subtitles

Revisions