Return to Video

#rC3 - Datenguide: Statistiken für alle!

  • 0:00 - 0:17
    Wikipaka Intro Musik
  • 0:17 - 0:22
    Herald: Es ist 12 Uhr. Willkommen zum
    Wikipaka Television und Fernstreamen. Wir
  • 0:22 - 0:27
    leben im Informationszeitalter. Wir leben
    im Zeitalter der Digitalisierung. Doch wo
  • 0:27 - 0:32
    sind sie, die Informationen und wo ist das
    Digitalisierte? Oder kurz: Wo sind die
  • 0:32 - 0:37
    Daten? Das weiß unser Korrespondent Simon
    Jockers. Der arbeitet nämlich an der
  • 0:37 - 0:41
    Schnittstelle zwischen Softwareentwicklung
    und Journalismus, entwickelt verschiedene
  • 0:41 - 0:46
    Tools, die allen Menschen, vor allem
    JournalistInnen, dabei helfen, mit Daten
  • 0:46 - 0:52
    sinnvoll arbeiten zu können, z.B. mit den
    Daten der statistischen Ämter. Im Projekt
  • 0:52 - 0:59
    Datenguide ist er besonders aktiv. Das ist
    ein Tool, als freie Software, und genau
  • 0:59 - 1:06
    das wird er jetzt vorstellen. Bitteschön.
    Simon: Hi, ich heiße Simon Jokers und ich
  • 1:06 - 1:10
    bin einer der Köpfe hinter Datenguide.
    Datenguide - das ist eine Open Data
  • 1:10 - 1:14
    Initiative, mit der wir amtlichen
    Statistiken zugänglicher für alle machen
  • 1:14 - 1:21
    wollen. Und bei Datenguide, da entwickeln
    wir Open Source Software, die dabei hilft,
  • 1:21 - 1:26
    mit amtlichen Statistiken zu arbeiten und
    wir veranstalten Workshops und Hackdays
  • 1:26 - 1:30
    und andere Veranstaltungen zu diesem
    Thema. Und dieser Vortrag heute, der hat
  • 1:30 - 1:34
    zwei große Teile. Im ersten Teil gebe ich
    so einen allgemeinen Überblick über
  • 1:34 - 1:38
    amtliche Statistik und im zweiten Teil
    erkläre ich, was genau wir mit Datenguide
  • 1:38 - 1:44
    machen. Aber zum Einstieg Was ist
    eigentlich amtliche Statistik? Einfach
  • 1:44 - 1:47
    gesagt sind das alle Statistiken zu
    Gesellschaft, Umwelt und Wirtschaft, die
  • 1:47 - 1:52
    von den Statistischen Ämtern erstellt
    werden. Und bei Datenguide konzentrieren
  • 1:52 - 1:56
    wir uns auf einen bestimmten Bereich der
    amtlichen Statistik, und zwar auf die
  • 1:56 - 2:01
    Regionalstatistik, d.h. Statistiken zu
    Regionen wie z.B. Bundesländern,
  • 2:01 - 2:08
    Landkreisen und Gemeinden. Und wenn man
    sich jetzt die Selbstdarstellungen der
  • 2:08 - 2:14
    Statistischen Ämter anschaut, dann sagen
    die, dass die Statistiken, die sie
  • 2:14 - 2:18
    produzieren, objektiv, unabhängig und
    qualitativ hochwertig sind und da gehe ich
  • 2:18 - 2:24
    auf jeden Fall mit. Und weiter sagen sie
    dann, dass Sie das machen für Politik,
  • 2:24 - 2:28
    Verwaltung, Wirtschaft sowie für
    Bürgerinnen und Bürger. Und bei Datenguide
  • 2:28 - 2:32
    sind wir der Meinung, dass dieser letzte
    Teil, Bürgerinnen und Bürger, dass man den
  • 2:32 - 2:40
    durchaus noch besser machen kann. Um ein
    bisschen plastischer zu machen, was so
  • 2:40 - 2:42
    drinsteckt in der amtlichen Statistik, hab
    ich hier mal ein paar Beispiele gesammelt.
  • 2:42 - 2:47
    Bei amtlicher Statistik, da denkt man
    meistens erst einmal an demografische
  • 2:47 - 2:50
    Daten und das ist auf jeden Fall richtig.
    Also es gibt in der amtlichen Statistik
  • 2:50 - 2:55
    Zahlen zur Bevölkerung, zur
    Altersstruktur, zu Wanderungsbewegungen,
  • 2:55 - 3:02
    also zum Hinzug und Wegzug aus bestimmten
    Regionen. Und es gibt beispielsweise auch
  • 3:02 - 3:07
    Daten zur Migration, also z.B. zu
    Schutzsuchenden in Deutschland oder zur
  • 3:07 - 3:12
    Einbürgerung. Und für dieses Beispiel hier
    hab ich mir mal die Frage gestellt: Wo
  • 3:12 - 3:17
    gibt's in Deutschland denn die meisten
    RentnerInnen? Und dann habe ich mir die
  • 3:17 - 3:21
    Daten aus der amtlichen Statistik
    runtergeladen und habe sie mit einem
  • 3:21 - 3:25
    Datenvisualisierungs-Tool auf eine Karte
    gepackt. Und hier sehen wir, dass die
  • 3:25 - 3:32
    Rentnermetropolen Deutschlands die Städte
    Baden-Baden und Dessau-Roßlau sind. Und in
  • 3:32 - 3:39
    beiden Städten kommen auf 100 Personen im
    typischen Erwerbsalter fast 50 Menschen,
  • 3:39 - 3:46
    die schon im Rentenalter sind. Aber es
    gibt eben nicht nur demografische Daten,
  • 3:46 - 3:52
    sondern ganz allgemein auch Daten zu den
    Bereichen Wirtschaft und Umwelt. Also z.B.
  • 3:52 - 3:57
    Daten zu Industrie und Gewerbe oder Daten
    zum Tourismus oder Daten zur
  • 3:57 - 4:02
    Abfallentsorgung oder Daten zur
    Landwirtschaft. In diesem Beispiel hier,
  • 4:02 - 4:07
    da hab ich mir mal angeschaut, wo es in
    Deutschland die meisten Schweine gibt. Und
  • 4:07 - 4:11
    da gibt's einen ganz klaren Cluster in
    Niedersachsen und in Teilen von Nordrhein-
  • 4:11 - 4:20
    Westfalen. Und es gibt Zahlen zu Wahlen.
    Also z.B. gültige Stimmen, Wahlbeteiligung
  • 4:20 - 4:25
    oder Wahlberechtigte bei Landtagswahlen,
    bei Bundestagswahlen und bei Europawahlen.
  • 4:25 - 4:30
    Und für die letzte Europawahl hab ich mir
    in dieser Grafik mal angeschaut, wo die
  • 4:30 - 4:35
    Leute denn tendenziell eher grün wählen
    und wo die Leute eher AfD wählen. Und dann
  • 4:35 - 4:39
    sehen wir hier erst mal, dass es da eine
    ganz klare Trennung gibt. Also die Grünen
  • 4:39 - 4:43
    sind eher eine Partei der Westdeutschen
    und die AfD ist scheinbar eher eine Partei
  • 4:43 - 4:49
    der Ostdeutschen. Und am einen Ende des
    Spektrums sehen wir dass in Freiburg im
  • 4:49 - 4:56
    Breisgau 39 prozent grün gewählt haben,
    während am anderen Ende des Spektrums in
  • 4:56 - 5:03
    der Sächsischen Schweiz, Ost-Erzgebirge,
    dort haben 33 Prozent die AfD gewählt. Und
  • 5:03 - 5:07
    das ist jetzt auch nur ein ganz einfaches
    Beispiel. Aber es gibt eben eine ganze
  • 5:07 - 5:16
    Reihe von Daten aus dem Bereich der
    Wahlen, mit denen ihr arbeiten könnt. Und,
  • 5:16 - 5:21
    ein ganz wichtiger Aspekt ist, dass die
    Statistiken der amtlichen Statistik in der
  • 5:21 - 5:25
    Regel Zeitreihen sind. Das heißt, die
    Beispiele, die ich gerade gezeigt habe,
  • 5:25 - 5:30
    die haben immer den Zustand zu einem
    bestimmten Zeitpunkt gezeigt. Aber die
  • 5:30 - 5:33
    Daten gibt's eigentlich immer über die
    Zeit, weil so eine Statistik, die wird
  • 5:33 - 5:38
    immer wieder durchgeführt. Und dann haltet
    ihr eine Zeitreihe, mit der ihr Verläufe
  • 5:38 - 5:42
    zeigen könnt, wie ich das hier gemacht
    habe, z.B. mit Immobilienpreisen für die
  • 5:42 - 5:50
    Städte Hamburg, Berlin und Leipzig. Und
    auf Basis dieser vier Beispiele, die ich
  • 5:50 - 5:53
    jetzt gerade gezeigt habe, könnt ihr euch
    wahrscheinlich ganz gut vorstellen, dass
  • 5:53 - 5:57
    es eine Reihe von, ich sag mal,
    zivilgesellschaftlichen Anwendungen für
  • 5:57 - 6:01
    diese Daten gibt. Das ist einmal der
    Bereich Journalismus. Also amtliche
  • 6:01 - 6:05
    Statistiken sind ein super wertvolles
    Werkzeug, z.B. für Datenjournalismus oder
  • 6:05 - 6:11
    für Fact Checking. Und amtliche
    Statistiken sind auch sehr wichtig, z.B.
  • 6:11 - 6:16
    für die Sozialwissenschaften. Aber auch
    für zivilgesellschaftliche Initiativen
  • 6:16 - 6:24
    können Daten echter Mehrwert sein, z.B.
    wenn eine Initiative Daten-gestützt für
  • 6:24 - 6:30
    die gute Sache kämpfen will. Wenn man
    jetzt anfängt mit amtlichen Statistiken
  • 6:30 - 6:35
    zu arbeiten, dann ist es immer ganz
    wichtig, sich einmal in den Hinterkopf zu
  • 6:35 - 6:39
    rufen, wie diese Daten entstehen. Und dazu
    erzähle ich immer ganz gerne diese
  • 6:39 - 6:42
    Geschichte, die habt ihr in den letzten
    Tagen vielleicht auch schon mal gehört.
  • 6:42 - 6:47
    Und zwar war es so, dass etwa vor 2 000
    Jahren Kaiser Augustus, der Kaiser des
  • 6:47 - 6:54
    Römischen Reiches, einen Zensus angesetzt
    hat, weil er bessere Daten über die
  • 6:54 - 7:02
    Bevölkerung seines Reichs brauchte. Und im
    Rahmen von diesem Zensus, da mussten Maria
  • 7:02 - 7:12
    und Josef zusammen nach Bethlehem reisen,
    um sich zählen zu lassen. Und das passiert
  • 7:12 - 7:19
    auch heute noch. Also in allen
    Industrienationen gibt es irgendeine Form
  • 7:19 - 7:24
    von Zensus, der so ungefähr alle zehn
    Jahre durchgeführt wird. Entweder in Form
  • 7:24 - 7:28
    von einer klassischen Volkszählung, wo
    wirklich Menschen von Tür zu Tür gehen und
  • 7:28 - 7:34
    von der Bevölkerung Daten über jeden
    einzelnen Haushalt erfassen oder, das ist
  • 7:34 - 7:39
    der andere Ansatz, indem man Daten aus
    Registern, die ohnehin vorliegen,
  • 7:39 - 7:45
    zusammenfasst. Der Zensus in Deutschland,
    der zum letzten Mal 2011 stattgefunden hat
  • 7:45 - 7:50
    und zum nächsten Mal 2022 stattfindet, der
    ist in erster Linie ein Register-Zensus.
  • 7:50 - 7:54
    Das heißt, es werden Daten aus dem
    Bevölkerungsregistern und anderen
  • 7:54 - 7:58
    amtlichen Registern zusammengetragen und
    dann wird eben mit statistischen Methoden
  • 7:58 - 8:05
    berechnet, z.B. wie viele Menschen in
    einer Stadt leben. Und zusätzlich gibt es
  • 8:05 - 8:10
    dann ein eine kleinere Anzahl von
    Menschen, die befragt wird, um das
  • 8:10 - 8:18
    gegenzuchecken. Es gibt auch eben diese
    andere Art, ein Zensus durchzuführen, die
  • 8:18 - 8:22
    man Mikrozensus nennt. Und das ist eben
    einfach ein Sample. Das heißt, man befragt
  • 8:22 - 8:26
    einen bestimmten Teil der Gesellschaft und
    dann nimmt man diese Daten und rechnet die
  • 8:26 - 8:32
    hoch auf das ganze Land. Und es gibt den
    Bereich der Sekundärstatistik, da werden
  • 8:32 - 8:38
    z.B. Daten, die an anderer Stelle erfasst
    werden, z.B. von der Agentur für Arbeit,
  • 8:38 - 8:42
    die werden dann hinterher weitergegeben an
    die Statistischen Ämter und die
  • 8:42 - 8:46
    Statistischen Ämter, die bereiten dann
    eine Statistik auf und veröffentlichen
  • 8:46 - 8:53
    die. Und bei allen Verfahren ist es ganz
    wichtig zu verstehen, dass die Daten eben
  • 8:53 - 8:59
    nicht ein perfektes Abbild der Welt sind.
    Es sind immer Daten, die nach einer
  • 8:59 - 9:04
    bestimmten Methodik erhoben wurden und
    weiterverarbeitet. Und die sind in der
  • 9:04 - 9:09
    Regel nicht perfekt. Aber trotzdem ist die
    amtliche Statistik normalerweise das
  • 9:09 - 9:12
    Beste, was wir haben. Also die amtliche
    Statistik ist in den meisten Fällen so
  • 9:12 - 9:21
    etwas wie der Goldstandard der Daten. Ja,
    und wichtig in diesem Zusammenhang ist
  • 9:21 - 9:25
    auch – wir haben in Deutschland ein ganz
    strenges Statistikgeheimnis, d. h. dass
  • 9:25 - 9:30
    die Daten, die so gesammelt werden, werden
    immer anonymisiert. Es werden nur
  • 9:30 - 9:34
    aggregierte Zahlen veröffentlicht und
    grundsätzlich dürfen Menschen oder
  • 9:34 - 9:40
    Unternehmen nie nachträglich
    identifizierbar sein. Und trotzdem oder
  • 9:40 - 9:47
    auch deswegen ist in Deutschland der
    Zensus immer hochumstritten, also in den
  • 9:47 - 9:54
    80er Jahren, da gab es sehr große Proteste
    und auch Verfassungsbeschwerden gegen den
  • 9:54 - 10:00
    Zensus. Und das ist auch der Grund, warum
    wir heute in Deutschland überhaupt dieses
  • 10:00 - 10:05
    Konzept eines Rechts auf informationelle
    Selbstbestimmung in dieser Form haben. Das
  • 10:05 - 10:09
    heißt, die Proteste, die es immer wieder
    gibt gegen den Zensus, die sind sehr
  • 10:09 - 10:13
    wichtig für den Datenschutz in
    Deutschland. Aber ich will das jetzt gar
  • 10:13 - 10:17
    nicht so thematisieren. In diesem Vortrag
    soll es eher darum gehen, dass diese Daten
  • 10:17 - 10:22
    jetzt da sind und dass wir euch in die
    Position versetzen wollen, mit diesen
  • 10:22 - 10:29
    Daten auch wirklich zu arbeiten. Wenn ihr
    jetzt euch überlegt habt: Okay, ich
  • 10:29 - 10:32
    brauche Statistiken zu einem bestimmten
    Thema und die finde ich vielleicht in der
  • 10:32 - 10:38
    amtlichen Statistik und ihr sucht mal im
    Web, dann seid ihr höchstwahrscheinlich
  • 10:38 - 10:42
    erst einmal ziemlich erschlagen, weil es
    wirklich sehr, sehr viele Angebote im Web
  • 10:42 - 10:47
    gibt, die amtliche Statistiken zur
    Verfügung stellen. Und die sind leider
  • 10:47 - 10:52
    auch von sehr unterschiedlicher Qualität.
    Der Grund dafür ist, einfach gesagt,
  • 10:52 - 10:56
    Föderalismus. Also wir haben in
    Deutschland eben das Statistische
  • 10:56 - 11:02
    Bundesamt und das wird auch Destatis
    genannt. Und wir haben 14 statistische
  • 11:02 - 11:06
    Landesämter. Außerdem haben wir noch den
    Bereich der Kommunalstatistik oder
  • 11:06 - 11:09
    städtisch statistische Ämter, wo
    eigentlich in jeder Kommune in Deutschland
  • 11:09 - 11:13
    auch irgendwie Daten erfasst werden. Und
    all diese Daten werden dann auch in
  • 11:13 - 11:20
    irgendeiner Form im Web veröffentlicht.
    Und da haben wir sehr, ich sag mal, coole
  • 11:20 - 11:25
    oder moderne Angebote wie das hier. Das
    ist ganz neu - das Dashboard Deutschland
  • 11:25 - 11:30
    vom Statistischen Bundesamt. Und hier
    könnt ihr euch so eine Sammlung von
  • 11:30 - 11:35
    aktuellen Statistiken angucken. Die sind
    dann auch dargestellt in so ziemlich
  • 11:35 - 11:40
    coolen Grafiken. Aber ihr habt halt keine
    Möglichkeit, jetzt nach einem bestimmten
  • 11:40 - 11:46
    Thema zu suchen oder die Daten hinterher
    runterzuladen und in euren eigenen
  • 11:46 - 11:51
    Analysen oder Grafiken
    weiterzuverarbeiten. Das heißt, wenn ihr
  • 11:51 - 11:54
    damit eigene Sachen machen wollt mit
    diesen Daten, dann sind solche
  • 11:54 - 12:01
    Veröffentlichungen relativ nutzlos. Und
    noch viel schlimmer ist dieses Beispiel:
  • 12:01 - 12:07
    Das gibt es leider immer noch, dass Daten
    einfach in ein PDF gepackt werden in Form
  • 12:07 - 12:12
    von einer Tabelle oder einer Grafik. Und
    hinterher ist es dann sehr schwer für
  • 12:12 - 12:20
    euch, diese Daten wieder rauszuholen aus
    diesem PDF. Und damit ihr jetzt diese
  • 12:20 - 12:26
    Recherche nicht selber machen müsst, hab
    ich mal für euch zusammengefasst, was die
  • 12:26 - 12:30
    richtig guten Portale sind, wo ihr
    höchstwahrscheinlich oder hoffentlich auch
  • 12:30 - 12:38
    die Daten findet, die ihr braucht. Der
    erste Startpunkt ist... oder sollte
  • 12:38 - 12:43
    normalerweise GENESIS Online sein. GENESIS
    Online ist so die zentrale Datenbank oder
  • 12:43 - 12:47
    das zentrale Datenportal des Statistischen
    Bundesamts. Hier habt ihr jetzt gleich so
  • 12:47 - 12:50
    ein großes Suchfeld, da könnt ihr ein
    Thema eingeben und dann findet ihr
  • 12:50 - 12:55
    hoffentlich Daten, die euch interessieren,
    könnt die dann als Tabelle anzeigen und
  • 12:55 - 13:01
    runterladen. Aber damit es nicht zu
    einfach ist, gibt es nicht nur dieses
  • 13:01 - 13:06
    blaue Daten-Portal, sondern es gibt das
    ganze auch nochmal in Rot. Und das hier
  • 13:06 - 13:10
    ist die Regional-Datenbank Deutschland und
    das ist die gemeinsame Plattform der
  • 13:10 - 13:14
    Statistischen Ämter in Deutschland. Und
    hier findet ihr eben Daten
  • 13:14 - 13:18
    heruntergebrochen auf die verschiedenen
    Regionen. Das heißt, wenn ihr Daten sucht
  • 13:18 - 13:22
    über eure Stadt oder euren Landkreis und
    die vielleicht sogar mit anderen Regionen
  • 13:22 - 13:26
    vergleichen wollt, dann findet ihr diese
    Daten hier in der Regionaldatenbank
  • 13:26 - 13:32
    Deutschland. Jetzt ist es so, dass diese
    Daten leider oft nicht sehr aktuell sind
  • 13:32 - 13:37
    und auch oft nicht so detailliert, wie man
    sie vielleicht braucht. Und wenn ihr da...
  • 13:37 - 13:41
    ich sage mal, noch genauere oder
    aktuellere Daten braucht, dann hilft es
  • 13:41 - 13:46
    immer, sich auch die Portale der
    Statistischen Landesämter anzuschauen.
  • 13:46 - 13:51
    Also jedes Statistische Landesamt hat auch
    so ein Daten-Portal und das funktioniert
  • 13:51 - 13:54
    letzten Endes auch wie
    regionalstatistik.de oder GENESIS Online.
  • 13:54 - 14:01
    Und der Grund, warum diese Portale alle
    sehr ähnlich aussehen, ist, dass die
  • 14:01 - 14:03
    meisten dieser Portale auf der gleichen
    Softwarelösung basieren. Diese Software-
  • 14:03 - 14:09
    Lösung heißt Genesis. Und das ist halt so
    eine Eigenentwicklung der Statistischen
  • 14:09 - 14:17
    Ämter, die die dann benutzen, um ihre
    eigenen Daten-Portale aufzusetzen. Und in
  • 14:17 - 14:24
    diesen GENESIS-Anwendungen, da könnt ihr
    einfach gesagt nach einem Thema suchen
  • 14:24 - 14:30
    oder nach einer Statistik suchen, die ihr
    braucht. Und wenn ihr eine gefunden habt,
  • 14:30 - 14:33
    dann klickt ihr euch durch so ein Menü und
    dann könnt ihr euch eben eine Tabelle
  • 14:33 - 14:41
    anzeigen. Und diese Tabelle könnt ihr dann
    entweder in eine einfache Grafik
  • 14:41 - 14:51
    verarbeiten direkt auf diesem Portal. Oder
    ihr könnt sie exportieren in einer Excel-
  • 14:51 - 14:55
    Tabelle oder eine CSV-Datei. Jetzt ist es
    leider so, dass dieses
  • 14:55 - 14:59
    Datenvisualisierungstool leider nur sehr
    rudimentär ist. Und ich hab's ehrlich
  • 14:59 - 15:04
    gesagt noch nie geschafft, damit irgendwas
    sinnvoll Verwendbares zu generieren. Und
  • 15:04 - 15:11
    dieser Daten Export für Excel und CSV, der
    ist auch nicht maschinenlesbar. Das heißt,
  • 15:11 - 15:15
    es sind verschachtelte Daten, die können
    nur schwer mit anderen Tools
  • 15:15 - 15:21
    weiterverarbeitet werden, ohne sie vorher
    händisch aufzurollen. Erwähnenswert ist
  • 15:21 - 15:26
    noch, dass es einen Webservice gibt, also
    eine Daten-Schnittstelle, mit der er
  • 15:26 - 15:31
    direkt auf Datensätze zugreifen könnt. Die
    verwendete bisher Soap, also Soap ist
  • 15:31 - 15:36
    quasi ein Standard für Datenschnittstellen
    - der ist eher so aus dem letzten
  • 15:36 - 15:42
    Jahrhundert und wird heute eher so im
    Enterprise Segment eingesetzt. Soap ist
  • 15:42 - 15:47
    eher nicht so das Werkzeug, mit dem ich
    normalerweise jeden Tag arbeite, aber -
  • 15:47 - 15:51
    und das ist ganz neu, es gibt jetzt auch
    eine REST-Schnittstelle, also eine
  • 15:51 - 15:55
    modernere Datenschnittstelle, die euch
    JSON zurückgibt. Und es gibt die
  • 15:55 - 16:01
    Möglichkeit, ein neues Datenformat zu
    exportieren. Das nennen die Statistischen
  • 16:01 - 16:05
    Ämter Flat CSV und ein Flat CSV ist
    einfach ein normale CSV-Datei, die nicht
  • 16:05 - 16:11
    verschachtelt ist und deswegen einfacher
    zu verarbeiten. Also hier sehen wir so ein
  • 16:11 - 16:18
    Beispiel. Wenn ihr jetzt auf
    regionalstatistik.de z.B. eine Tabelle
  • 16:18 - 16:23
    gefunden habt, dann könnt ihr euch die
    anzeigen lassen, das sieht dann so aus.
  • 16:23 - 16:27
    Das ist so eine verschachtelte Tabellen
    Darstellung und da könnt ihr jetzt den
  • 16:27 - 16:31
    Wert raussuchen oder die Zahl raussuchen,
    die ihr braucht. Oder ihr könnt euch das
  • 16:31 - 16:38
    Ganze eben als Excel oder CSV-Datei
    exportieren oder ihr könnt die in so einer
  • 16:38 - 16:46
    einfachen Grafik aufbereiten. Ganz
    wichtig: Diese Daten sind Open Data. Sie
  • 16:46 - 16:52
    erscheinen unter der Datenlizenz
    Deutschland. Die erfordert eine
  • 16:52 - 16:56
    Namensnennung, einen Verweis auf die
    Lizenz und einen Verweis auf den
  • 16:56 - 17:01
    Datensatz, den ihr verwendet. Also auf den
    Ort, von dem er diesen Datensatz
  • 17:01 - 17:07
    heruntergeladen habt. Und das ist sehr
    ähnlich wie eine CC-BY Lizenz. Das ist
  • 17:07 - 17:12
    jetzt nicht die perfekte Lizenz für Open
    Data, also z.B. CC0 wäre irgendwie
  • 17:12 - 17:17
    einfacher zu verwenden, aber es ist jetzt
    auch nicht das Schlechteste. Grundsätzlich
  • 17:17 - 17:21
    könnt ihr diese Daten also weiter
    verwenden. Vor einem Jahr, da wäre jetzt
  • 17:21 - 17:27
    an dieser Stelle des Vortrags ein großer
    Rant gekommen darüber, wie schlimm diese
  • 17:27 - 17:32
    GENESIS-Software ist. Aber ich muss sagen,
    dass GENESIS in den letzten Monaten
  • 17:32 - 17:37
    wirklich deutlich verbessert wurde. Das
    heißt, die Plattform ist jetzt auf jeden
  • 17:37 - 17:42
    Fall nutzerfreundlicher. Aber trotzdem
    gibt's immer noch eine Reihe von
  • 17:42 - 17:45
    Problemen. Das größte Problem aus meiner
    Sicht ist, dass es keine stabilen URLs
  • 17:45 - 17:50
    gibt. Das heißt, es gibt eine
    sessionbasierte Navigation. Und wenn ihr
  • 17:50 - 17:55
    in eine Tabelle gefunden habt, die ihr
    benutzen wollt und ihr kopiert in der
  • 17:55 - 18:00
    Browserleiste die URL dazu, dann könnt ihr
    die nicht jemand anderem schicken, weil
  • 18:00 - 18:03
    sie dann nicht mehr funktionieren wird.
    Deshalb werdet ihr auch die Browser vor
  • 18:03 - 18:08
    und zurück Navigation nur eingeschränkt
    nutzen können und die Seite wird eben
  • 18:08 - 18:13
    nicht von Suchmaschinen indiziert. Das
    heißt, wenn ihr auf DuckDuckGo oder auf
  • 18:13 - 18:19
    Google nach einer Statistik sucht, dann
    werdet ihr kein Ergebnis von der GENESIS-
  • 18:19 - 18:24
    Datenbank finden. Das nächste Problem ist,
    dass der Datenabruf je nach Plattform und
  • 18:24 - 18:28
    je nachdem, wie viele Daten ihr
    herunterladen wollt, eine Anmeldung
  • 18:28 - 18:33
    erfordert. Das heißt, ihr sucht euch eine
    Tabelle aus, die ihr benutzen wollt und
  • 18:33 - 18:37
    dann könnt ihr die eben nicht direkt
    runterladen, sondern ihr müsst euch erst
  • 18:37 - 18:41
    ein Login anlegen und mit diesem Login
    könnt ihr die Daten dann bestellen und
  • 18:41 - 18:45
    danach in so einer Art digitalem Postfach
    abrufen. Hier wäre es natürlich schöner,
  • 18:45 - 18:50
    wenn man einfach direkt auf den Datensatz
    zugreifen könnte. Wenn ihr die Daten
  • 18:50 - 18:56
    weiterverarbeiten wollt, dann steht ihr
    vor dem Problem, dass dieser Datenexport,
  • 18:56 - 19:01
    der ein CSV generiert, sehr speziell ist.
    Das heißt, die Daten sind verschachtelt.
  • 19:01 - 19:08
    Sie verwenden ein deutsches Zahlenformat,
    also Komma als Dezimaltrennzeichen und sie
  • 19:08 - 19:15
    verwenden nicht etwa Unicode oder UTF 8
    als Zeichenkodierung wie die meisten
  • 19:15 - 19:20
    modernen Tools, sondern Windows 1252. Und
    meine Vermutung ist, dass dieses ein
  • 19:20 - 19:26
    bisschen schräge Format gewählt wurde, um
    maximale Kompatibilität mit Microsoft
  • 19:26 - 19:31
    Office sicherzustellen. Das heißt, die
    Tabellen sind dafür gemacht, dass man sie
  • 19:31 - 19:35
    in Excel öffnet und dann auf DIN-A4
    ausdruckt. Nicht unbedingt dafür, sie
  • 19:35 - 19:39
    einfach direkt in einem
    Datenvisualisierungstool weiterverarbeiten
  • 19:39 - 19:42
    zu können. Und jetzt könnte man denken:
    Okay, aber es gibt eine
  • 19:42 - 19:46
    Datenschnittstelle, wo ich die Daten
    herunterladen kann. Und hier ist es so,
  • 19:46 - 19:51
    dass diese Datenschnittstellen leider eine
    sehr hohe Lernschwelle haben. Z.B. diese
  • 19:51 - 19:56
    neue Rest-API, die kommt mit einem 200
    seitigen Handbuch und ich denke da kann
  • 19:56 - 20:00
    man schon ganz gut sehen, dass sie nicht
    gedacht ist für, ich sage mal so, casual
  • 20:00 - 20:04
    Datennutzer, die einfach nur schnell eine
    Tabelle herunterladen möchten. Und das ist
  • 20:04 - 20:11
    der Punkt, wo jetzt Datenguide zum Einsatz
    kommt. Was wir bei Datenguide machen, ist:
  • 20:11 - 20:15
    Wir nehmen uns die Daten aus
    regionalstatistik.de und laden die Daten
  • 20:15 - 20:21
    einfach einmal alle runter. Also wir
    nehmen diese regionalen Statistiken und
  • 20:21 - 20:25
    machen einen riesen Datenimport. Den
    machen wir jede Nacht, damit wir eine
  • 20:25 - 20:29
    Spiegelung haben, die aktuell ist. Und die
    Daten stellen wir dann eben über unsere
  • 20:29 - 20:33
    eigenen Datenschnittstelle in unserem
    eigenen Format zur Verfügung und
  • 20:33 - 20:39
    entwickeln dann eine Webanwendung auf
    Basis dieser Daten, mit denen ihr die
  • 20:39 - 20:45
    Daten durchsuchen und herunterladen könnt.
    Das sieht dann ungefähr so aus. Wir nennen
  • 20:45 - 20:52
    es das Datenguide Datenportal und das ist
    ein experimentelles Tool, mit dem ihr eine
  • 20:52 - 20:57
    Region oder mehrere Regionen auswählen
    könnt und dann eine Statistik für diese
  • 20:57 - 21:01
    Region. Und dann könnt ihr noch ein paar
    Einstellungen machen und z.B. innerhalb
  • 21:01 - 21:06
    der Statistik weiter einschränken, was ihr
    braucht. Und dann könnt ihr die Daten
  • 21:06 - 21:10
    herunterladen. Und die sind dann
    idealerweise schon in einem Format, was
  • 21:10 - 21:13
    ihr genau so einfach in einem
    Datenvisualisierungstool oder
  • 21:13 - 21:18
    Datenanalyse-Tool weiterverwenden könnt,
    ohne dass ihr die Daten erstmal von Hand
  • 21:18 - 21:24
    aufräumen musst. Und wir haben eben nicht
    nur dieses Datenportal, sondern wir
  • 21:24 - 21:28
    verwenden die Daten auch, um auf der
    Datenguide Website die Statistiken zu
  • 21:28 - 21:33
    erklären. Wir haben eben festgestellt,
    dass die Nutzbarmachung von statistischen
  • 21:33 - 21:39
    Daten eben nicht nur ein rein technisches
    Problem ist, sondern auch ein Problem mit
  • 21:39 - 21:43
    Data Literacy. Das heißt, Menschen müssen
    einfach wissen, wie sie mit diesen Daten
  • 21:43 - 21:46
    umgehen, damit sie mit diesen Daten
    umgehen können. Und deswegen haben wir ja
  • 21:46 - 21:52
    jetzt so verschiedene Erklärstücke
    veröffentlicht auf der Datenguide-Website.
  • 21:52 - 21:57
    Und diese Daten, die wir zur Verfügung
    stellen, die wollen wir eben nicht nur zur
  • 21:57 - 22:01
    Verfügung stellen für unser eigenes Tool,
    sondern wir haben ganz bewusst eine offene
  • 22:01 - 22:07
    API, die Dritte verwenden können, um dann
    ihre eigenen Anwendungen auf Basis dieser
  • 22:07 - 22:12
    Daten zu entwickeln. Es gibt zwei
    Datenschnittstellen, also zwei
  • 22:12 - 22:16
    verschiedene Datenschnittstellen, die wir
    zur Verfügung stellen. Die erste ist ein
  • 22:16 - 22:21
    einfacher Tabellendownload über http und
    der ist einfach dafür gedacht, dass ihr
  • 22:21 - 22:26
    z.B. direkt im Browser einfach über die
    URLleiste einen Link eingebt und dann
  • 22:26 - 22:31
    kriegt ihr eine Tabelle zurück. Und das
    ist dieser Tabellen Download, den man eben
  • 22:31 - 22:36
    auch mit dem Datenguide Datenportal
    zusammenbauen kann. Und diese Tabellen
  • 22:36 - 22:41
    könnt ihr dann entweder in verschiedenen
    CSV Formaten - je nachdem was ihr braucht
  • 22:41 - 22:48
    - runterladen oder als JSON, um sie z.B.
    mit JavaScript weiter zu verarbeiten. Und
  • 22:48 - 22:54
    wenn ihr eine komplexere Anwendungen plant
    auf Basis von statistischen Daten, dann
  • 22:54 - 23:00
    könnt ihr diese andere Datenschnittstelle
    verwenden, die wir zur Verfügung stellen,
  • 23:00 - 23:05
    die verwendet GraphQL. GraphQL ist, ich
    sage mal einfach gesagt, ein moderner
  • 23:05 - 23:10
    Standard für Datenschnittstellen, um
    komplexere Anwendungen zu realisieren.
  • 23:10 - 23:15
    Beide Datenschnittstellen sind
    experimentell in dem Sinne, dass es da
  • 23:15 - 23:19
    durchaus noch Probleme gibt und auch
    Fehler, von denen wir zum Teil schon
  • 23:19 - 23:23
    wissen und zum Teil wahrscheinlich noch
    nicht. Und dass die sich auch in ihrer
  • 23:23 - 23:30
    Spezifikation noch ändern. Das heißt, es
    gibt keine finale Spezifikation für unsere
  • 23:30 - 23:36
    Datenschnittstellen. Wenn ihr jetzt diesen
    Tabellen Download nutzen wollt, dann
  • 23:36 - 23:41
    funktioniert das im einfachsten Fall so,
    dass ihr auf die Datenguide Website geht.
  • 23:41 - 23:45
    Dort benutzt ihr dieses Datenportal, um
    eine Region oder eine Reihe von Regionen
  • 23:45 - 23:51
    auszuwählen, eine Statistik auszuwählen
    und dann klickt ihr eben auf Datendownload
  • 23:51 - 23:57
    oder ihr kopiert einfach die CSV Daten in
    die Zwischenablage und dann fügt ihr die
  • 23:57 - 24:01
    Daten in einem Datenvisualisierungstool
    eurer Wahl ein. Ich habe das zum
  • 24:01 - 24:05
    Beispiel... also diese Grafiken, die ich
    eingangs gezeigt habe, die habe ich mit
  • 24:05 - 24:09
    Data Wrapper gemacht. Das ist ein
    einfaches Datenvisualisierungstool. Da
  • 24:09 - 24:14
    könnt ihr quasi so eine CSV-Datei rein
    laden und dann könnt ihr quasi eine Karte
  • 24:14 - 24:19
    davon erstellen oder ein Liniendiagramm.
    Und - Full Disclosure - ich arbeite auch
  • 24:19 - 24:24
    an Data Wrapper, aber nach dem gleichen
    Prinzip könnt ihr die Daten mit einem
  • 24:24 - 24:33
    beliebigen Datenvisualisierungstool oder
    Analysetool eurer Wahl verwenden. Das ist
  • 24:33 - 24:41
    ein Beispiel für die Verwendung von dieser
    fortgeschrittenen GraphQL Schnittstelle.
  • 24:41 - 24:47
    Das ist ein einfaches Quiz zu amtlichen
    Statistiken, was bei einem Hack-Day
  • 24:47 - 24:54
    entstanden ist, und hier könnt ihr quasi
    euer Wissen über eure Region testen, auf
  • 24:54 - 25:00
    Basis von amtlichen Statistiken. Und ein
    bisschen praktischeres Beispiel für die
  • 25:00 - 25:04
    Nutzung von dieser GraphQL-Schnittstelle
    ist Datenguide Python. Datenguide Python
  • 25:04 - 25:10
    ist eine Python Bibliothek, mit der ihr
    eben direkt aus Python heraus, z.B. aus
  • 25:10 - 25:16
    einem Jupyter Notebook, auf amtliche
    Statistiken zugreifen könnt, ohne dass ihr
  • 25:16 - 25:20
    euch selber mit http requests oder so
    auseinandersetzen müsst. Das ist ein
  • 25:20 - 25:28
    Projekt, das wird von einer befreundeten
    Organisation betreut, Correlate, und die haben
  • 25:28 - 25:34
    auf Basis der Datenschnittstelle diese
    Bibliothek entwickelt, um es einfacher zu
  • 25:34 - 25:41
    machen, mit Python auf amtliche
    Statistiken zuzugreifen. Das war
  • 25:41 - 25:46
    eigentlich schon alles, was ich hatte.
    Datenguide ist jetzt an einem Punkt, wo
  • 25:46 - 25:52
    wir uns überlegen: Wie geht es weiter?
    Also wir machen das jetzt seit drei Jahren
  • 25:52 - 25:57
    und wir sind ursprünglich unter der Maxime
    gestartet, dass wir gesagt haben, wir
  • 25:57 - 26:01
    machen Datenguide, um es irgendwann wieder
    abschalten zu können, weil idealerweise
  • 26:01 - 26:07
    wir nur eine eine Demo oder ein Proof of
    Concept entwickeln. Und auf dieser Basis
  • 26:07 - 26:12
    erkennen dann die Statistischen Ämter, wie
    sie ihre Arbeit besser machen können, um,
  • 26:12 - 26:17
    ich sag mal, normale Leute zu erreichen.
    Jetzt ist es so, dass GENESIS online in
  • 26:17 - 26:23
    den letzten Jahren oder in den letzten
    Monaten deutlich besser geworden ist. Aber
  • 26:23 - 26:28
    trotzdem ist es noch nicht so weit, dass
    wir Datenguide jetzt irgendwie nächstes
  • 26:28 - 26:32
    Jahr abschalten werden. Das heißt, wir
    überlegen uns weiterhin: Was können wir
  • 26:32 - 26:37
    tun, um amtliche Statistiken besser
    aufzubereiten, damit sie für alle nutzbar
  • 26:37 - 26:43
    und auch nützlich sind? Und in diesem
    Zusammenhang müssen wir eben auch unsere
  • 26:43 - 26:47
    Webanwendungen und die
    Datenschnittstellen, die wir zur Verfügung
  • 26:47 - 26:52
    stellen noch einfacher und vor allem auch
    stabiler machen. Und in dem Zusammenhang
  • 26:52 - 26:58
    ist auch relevant, dass es jetzt eben
    diese neuen Schnittstellen gibt in GENESIS
  • 26:58 - 27:02
    Online. Also ich hab ja vorhin von dieser
    neuen Rest Schnittstelle gesprochen und
  • 27:02 - 27:06
    ich könnte mir gut vorstellen, dass man
    die benutzen kann, um unsere
  • 27:06 - 27:14
    Dateninfrastruktur bei Datenguide noch
    einfacher zu machen. Das heißt, wir sind
  • 27:14 - 27:19
    jetzt an dem Punkt, wo wir so ein bisschen
    an der Orientierung feilen, aber auch eben
  • 27:19 - 27:26
    weiter aktiv an den Tools arbeiten, die
    wir schon haben. Und dazu auch nochmal die
  • 27:26 - 27:30
    Ansage, dass das eben ein Open-Source-
    Projekt ist. Das heißt, wir sind im Moment
  • 27:30 - 27:34
    eine kleine Gruppe von Leuten, die daran
    arbeitet. Und wenn ihr euch auch beruflich
  • 27:34 - 27:39
    mit amtlichen Statistiken auseinandersetzt
    oder Interesse habt, an so einem Projekt
  • 27:39 - 27:48
    beizutragen, dann kontaktiert uns gerne.
    Ihr findet uns oder ihr erreicht uns über
  • 27:48 - 27:54
    community@datengui.de. Oder ihr findet uns
    auf Twitter, auf Mastodon oder eben auf
  • 27:54 - 28:01
    GitHub. Und jetzt haben wir noch Zeit für
    ein paar Fragen. Vielen Dank.
  • 28:01 - 28:04
    Herald: "Kontaktiert uns sehr gerne und
    findet uns." Das gilt natürlich vor allem
  • 28:04 - 28:09
    für so eine langfristige Perspektive.
    Kurzfristig können wir hier direkt Simon
  • 28:09 - 28:14
    Fragen stellen. Das heißt, ihr könnt alle
    Fragen stellen. Wir können Fragen stellen,
  • 28:14 - 28:21
    indem ihr z.B. im IRC - okay, ich sollte
    das vielleicht noch ein bisschen muten.
  • 28:21 - 28:30
    Hört man das? Wahrscheinlich. Ah, Profi
    Version. Gut. Wo war ich? Genau, wie kommt
  • 28:30 - 28:36
    ihr ins IRC? Wo könnte ihr die Fragen
    stellen? Ihr könnt einfach, wenn ihr auf
  • 28:36 - 28:41
    media.ccc.de wahrscheinlich seid, da gibt
    es einen kleinen Button, wo Chat steht. Da
  • 28:41 - 28:45
    könnt ihr draufklicken und dann öffnet
    sich direkt im Browser ein Chatfenster. Da
  • 28:45 - 28:50
    könnt ihr reinkommen und könnt dort eure
    Fragen stellen. Genauso geht es aber auch
  • 28:50 - 28:55
    auf Mastodon und auf Twitter. Das hab ich
    auch alles im Blick. Ihr müsste dazu dann
  • 28:55 - 29:01
    den Hashtag #rC3Wikipaka ergänzen, dass
    wir das dann auch rechtzeitig sehen. So,
  • 29:01 - 29:10
    wir haben auch schon die ersten Fragen.
    Vielleicht als allererstes: Amtliche
  • 29:10 - 29:15
    Statistiken - wenn man darüber nachdenkt,
    dann geht es auch immer darum, dass es
  • 29:15 - 29:20
    eben um einzelne kommunale
    Verwaltungsgebiete geht. Postleitzahlen,
  • 29:20 - 29:25
    Kreise, was auch immer, die verändern sich
    aber über die Zeit. Das heißt, es gibt
  • 29:25 - 29:30
    sowas wie Gebietsreformen. Und dann ist
    die Frage: Wie geht man damit um? Wo
  • 29:30 - 29:36
    gibt's Informationen, wann sich was wie
    ändert?
  • 29:36 - 29:40
    Simon: Ja, das ist eine sehr gute Frage,
    tatsächlich, und auch Probleme, die man in
  • 29:40 - 29:44
    der Praxis immer wieder zu tun hat. Wir
    haben es bei Datenguide bisher ausgespart,
  • 29:44 - 29:49
    uns mit dem Problem auseinanderzusetzen,
    einfach weil wir andere Probleme haben,
  • 29:49 - 29:57
    auf die wir uns konzentrieren. Aber es
    gibt auf jeden Fall Verfahren, wie man das
  • 29:57 - 30:01
    umrechnen kann, sage ich mal einfach. Also
    wenn man... normalerweise hat man einen
  • 30:01 - 30:05
    Datensatz und die Region verschwindet oder
    es gibt... die Region geht in zwei neuen
  • 30:05 - 30:08
    Regionen auf oder zwei Regionen werden zu
    einer zusammengefasst. Nur um so zu
  • 30:08 - 30:15
    erklären, was das Datenproblem bei einer
    Gebietsreform ist. Und es gibt eine Liste
  • 30:15 - 30:18
    der Gemeinden, die wird von den
    statistischen Ämtern veröffentlicht jedes
  • 30:18 - 30:26
    Jahr und da sieht man dann halt
    Änderungen. Und es gibt das BBSR. Das ist
  • 30:26 - 30:32
    das Bundesamt für - das muss ich jetzt mal
    nachgucken - das Bundesamt für Bauwesen
  • 30:32 - 30:39
    und Raumordnung und die haben auch Infos
    zu dem Thema. Und ich weiß auch, dass
  • 30:39 - 30:45
    Datenjournalistenkollegen von mir dann
    auch schon direkt beim BBSR angefragt
  • 30:45 - 30:52
    haben, wenn es darum ging, konkret ein
    Problem aufzulösen oder quasi eine
  • 30:52 - 30:57
    Änderung, die stattgefunden hat, irgendwie
    auf die Daten zu übertragen. Das heißt, da
  • 30:57 - 31:01
    gibt's durchaus Verfahren, aber man muss
    sich damit ein bisschen auseinandersetzen.
  • 31:01 - 31:05
    Und es ist nichts von dem, das wir jetzt
    einfach automatisiert durch Datenguide
  • 31:05 - 31:11
    lösen können. Also ich glaube, das
    Stichwort wäre: Liste der Gemeinden bei
  • 31:11 - 31:19
    Destatis und im Zweifelsfall das BBSR
    kontaktieren bzw. schauen, ob die Infos
  • 31:19 - 31:26
    auf ihrer Website parat halten. Ich höre
    dich leider nicht, Julia.
  • 31:26 - 31:31
    Herald: Vielen Dank dafür. Die nächste
    Frage wäre: Muss man sich denn
  • 31:31 - 31:35
    identifizieren, um Daten zu bekommen oder
    kann man sie anonym bekommen?
  • 31:35 - 31:40
    Simon: Also man kann die Daten anonym
    bekommen. Sowohl bei uns, als auch bei den
  • 31:40 - 31:46
    statistischen Ämtern, wenn man einfach nur
    Daten runterladen will. Also ich hab ja im
  • 31:46 - 31:52
    Talk erwähnt, dass man teilweise für diese
    GENESIS-Datenbanken einen Login braucht
  • 31:52 - 31:58
    und da kann man sich meinem Verständnis
    nach einfach anmelden. Ich hab das jetzt
  • 31:58 - 32:02
    schon eine Weile nicht mehr gemacht, aber
    man kann sich glaub ich einfach anmelden,
  • 32:02 - 32:06
    ohne dass man Daten angeben muss. Man
    braucht, soweit ich das in Erinnerung
  • 32:06 - 32:10
    habe, nur eine E-Mail-Adresse und dann
    bekommt man quasi einen generierten
  • 32:10 - 32:15
    Nutzernamen. Ich glaube, anders ist es,
    wenn man Daten wirklich anfragen will von
  • 32:15 - 32:20
    den statistischen Ämtern, also genauso,
    wie wenn man bei anderen öffentlichen
  • 32:20 - 32:24
    Stellen irgendwie eine Anfrage macht. Da
    gibt es bestimmte Verfahren, auch bei den
  • 32:24 - 32:28
    statistischen Ämtern. Und ich gehe mal
    davon aus, dass man sich dann in
  • 32:28 - 32:34
    irgendeiner Form identifizieren muss und
    sei es nur aus sozialen Gründen, weil man
  • 32:34 - 32:39
    halt mit Menschen dort zu tun hat. Aber
    grundsätzlich, wenn es darum geht, Daten
  • 32:39 - 32:43
    abzufragen aus regionalstatistik.de oder
    über Datenguide: Das ist Open Data, das
  • 32:43 - 32:48
    einfach im Web zur Verfügung steht.
    Einfach gesagt.
  • 32:48 - 32:52
    Herald: Okay, dann ist natürlich die
    Frage: Du hast gesagt, dass das ultimative
  • 32:52 - 32:57
    Ziel ist, den Service irgendwann
    abzuschalten, wenn die Statistik Ämter
  • 32:57 - 33:02
    selbst mal auf einem gewissen Stand
    angekommen sind. Wie realistisch ist das
  • 33:02 - 33:05
    denn?
    Simon: Ja, ich glaube, das kommt dann
  • 33:05 - 33:11
    darauf an, wie man diesen Wissensstand
    definiert. Also ich glaube, es hat auf
  • 33:11 - 33:16
    jeden Fall eine... das Mindset ändert sich
    bei den statistischen Ämtern und die haben
  • 33:16 - 33:19
    festgestellt, dass der Bereich
    Datenjournalismus und auch vielleicht
  • 33:19 - 33:24
    andere zivilgesellschaftliche Initiativen
    durchaus wichtige Multiplikatoren für ihre
  • 33:24 - 33:29
    Veröffentlichungen sind und dass es auch
    in ihrem Interesse ist, in der
  • 33:29 - 33:36
    Öffentlichkeit gut dazustehen. Und
    dementsprechend hat da eine Änderung des
  • 33:36 - 33:42
    Mindsets stattgefunden. Ich glaube, die
    Software verändert sich nur sehr langsam
  • 33:42 - 33:45
    und deswegen würde ich sagen, es ist
    unwahrscheinlich, dass wir irgendwann im
  • 33:45 - 33:50
    nächsten oder übernächsten Jahr wirklich
    die Arbeit, die wir bei Datenguide machen,
  • 33:50 - 33:54
    einstellen. Aber es ist nicht völlig
    unrealistisch.
  • 33:54 - 33:59
    Herald: Dazu auch direkt die Frage: Wie
    ist das mit den Daten der Statistischen
  • 33:59 - 34:03
    Landesämter? Weil nämlich hier jemand
    versucht hat, anzufragen, wie es zum
  • 34:03 - 34:07
    Beispiel in Baden-Württemberg ist, wo erst
    einmal niemand wusste, was Open Data ist.
  • 34:07 - 34:11
    Und jetzt möchte diese Person wissen, wie
    ist das eigentlich mit der föderalen
  • 34:11 - 34:15
    Struktur und bekommt man die Daten der
    Statistischen Landesämter?
  • 34:15 - 34:20
    Simon: Also auf regionalstatistik.de, da
    sind ja grundsätzlich mal die Daten der
  • 34:20 - 34:25
    Statistischen Landesämter gesammelt. Also
    regionalstatistik.de ist so der kleinste
  • 34:25 - 34:31
    gemeinsame Nenner, wo die Statistischen
    Ämter gewisse Daten zusammentragen. Und
  • 34:31 - 34:36
    dann gibt's eben zusätzlich noch Daten,
    die halt auf regionaler Ebene, also nur
  • 34:36 - 34:41
    auf Ebene der Bundesländer zur Verfügung
    stehen. Also spezielle Datensätze, zum
  • 34:41 - 34:45
    Beispiel, die dann nur für Brandenburg
    oder nur für Baden-Württemberg oder so zur
  • 34:45 - 34:50
    Verfügung stehen oder die vielleicht nicht
    vergleichbar sind zwischen verschiedenen
  • 34:50 - 34:56
    Ländern. Und es gibt eigentlich immer
    irgendeine Form von Datenportal. Ich bin
  • 34:56 - 35:00
    mir jetzt... tatsächlich bin ich nicht so
    firm, was Baden-Württemberg angeht, weil
  • 35:00 - 35:04
    ich damit persönlich noch nie etwas zu tun
    hatte. Aber ich würde eigentlich erwarten,
  • 35:04 - 35:09
    dass es auch ein Datenportal des
    Statistischen Landesamts Baden-Württemberg
  • 35:09 - 35:14
    gibt. Es ist nicht notwendigerweise auch
    eine GENESIS-Instanz, also es gibt auch
  • 35:14 - 35:17
    Datenplattformen, die eben nicht auf
    Genesis basieren. Aber es gibt
  • 35:17 - 35:21
    normalerweise irgendeine Form von
    zentraler Veröffentlichung jedes einzelnen
  • 35:21 - 35:25
    Statistischen Landesamtes.
    Herald: Ich meine, Baden-Württemberg ist
  • 35:25 - 35:28
    ein bisschen verrückt. Ich hatte mal
    versucht, da drauf zu klicken und dann
  • 35:28 - 35:30
    kommt man wieder auf die gleiche Seite,
    ohne irgendwie tiefer zu kommen. Also wer
  • 35:30 - 35:34
    da mehr weiß, gerne mehr Informationen.
    Simon: Ja, also ich kann mir das gerne
  • 35:34 - 35:37
    nochmal genauer angucken und vielleicht
    noch etwas dazu posten.
  • 35:37 - 35:42
    Herald: Da helfen sich nämlich schon sehr
    viele Menschen auch untereinander mit den
  • 35:42 - 35:46
    verschiedensten Links. Vielleicht nochmal
    zurück zur Weiterentwicklung: Wie geht es
  • 35:46 - 35:50
    weiter bei euch, plant ihr denn auch
    Visualisierungstools direkt auf eurer
  • 35:50 - 35:55
    Website zu integrieren?
    Simon: Ja, also das ist ein schwieriges
  • 35:55 - 36:02
    Thema, tatsächlich. Also wir haben es vor.
    Wir haben... also wenn jemand schon
  • 36:02 - 36:06
    frühere Versionen dieses Vortrags gesehen
    hat, weil es war ja so ein bisschen best-
  • 36:06 - 36:09
    of Zusammenfassung aus den letzten drei
    Jahren. Wenn ihr eine frühere Version
  • 36:09 - 36:13
    dieses Talks gesehen habt oder irgendwann
    in der Vergangenheit mal auf der
  • 36:13 - 36:16
    Datenguide-Website wart, dann gab's da
    durchaus auch so einfache
  • 36:16 - 36:21
    Visualisierungen. Wir haben festgestellt,
    dass es sehr schwierig ist, die halt so
  • 36:21 - 36:25
    generisch zu bauen, dass sie immer
    funktionieren, weil die Daten, also die
  • 36:25 - 36:30
    Datensätze sind sehr unterschiedlich. Es
    gibt so einen Plan, so eine "kleinste
  • 36:30 - 36:36
    gemeinsame Nenner Visualisierung" zu haben
    für jeden Datensatz. So ähnlich wie die
  • 36:36 - 36:41
    Statistischen Ämter das machen auf
    regionalstatistik.de oder auf GENESIS
  • 36:41 - 36:46
    Online. Aber nur halt ein bisschen
    moderner und besser zu benutzen. Aber
  • 36:46 - 36:52
    bisher gibt's das nicht. Wenn jemand
    Interesse hat, an sowas zu arbeiten, mit
  • 36:52 - 36:57
    mir zusammen oder mit jemand von uns
    zusammen, dann bin ich gerne bereit, mich
  • 36:57 - 37:01
    darüber zu unterhalten, wie man das
    konkret im Detail macht. Weil es ist halt
  • 37:01 - 37:04
    ein Open-Source-Projekt. Es ist definitiv
    nichts, an dem jemand jetzt gerade aktuell
  • 37:04 - 37:09
    arbeitet. Aber es steht auf unserer Liste.
    Herald: Thema Open-Source-Projekt, dazu
  • 37:09 - 37:14
    noch ein kleiner Einwurf: Wie ist das mit
    GENESIS? Die Vermutung ist, dass es
  • 37:14 - 37:18
    wahrscheinlich proprietär ist. Gibt's da
    irgendwelche Bestrebungen? Wenn das
  • 37:18 - 37:23
    proprietär ist, ob man das vielleicht auch
    OpenSource stellen möchte?
  • 37:23 - 37:29
    Simon: Ist mir nicht... also nicht, dass
    ich wüsste. Ja, ich bin mir auch nicht
  • 37:29 - 37:33
    sicher... GENESIS ist halt ein riesen
    Monster, meinem Verständnis nach. Ich hab
  • 37:33 - 37:37
    noch nie Code gesehen, aber es ist meinem
    Verständnis nach eine Java-Anwendung, die
  • 37:37 - 37:42
    es dann Ende der 90er ins Web geschafft
    hat. Und das ist auch der Grund dafür,
  • 37:42 - 37:48
    warum es eben diese ganze sessionbasierte
    Navigation gibt, weil es glaube ich
  • 37:48 - 37:53
    ursprünglich... das ist nicht aus der
    heutigen Webanwendungen
  • 37:53 - 37:59
    Entwicklungsperspektive gestartet worden,
    dieses Projekt. Aber ich habe keine, ich
  • 37:59 - 38:05
    kann keine geheime Background-Infos zur
    Entwicklung von GENESIS Online geben, aber
  • 38:05 - 38:11
    ich kann mir, ehrlich gesagt, nicht
    vorstellen, dass es in der... dass es als
  • 38:11 - 38:17
    Open Source irgendwann in der
    Öffentlichkeit landet. Also, wen es im
  • 38:17 - 38:24
    Detail interessiert, GENESIS online ist
    eine Eigenentwicklung und das wird von
  • 38:24 - 38:32
    ITNRW entwickelt. ITNRW ist so eine
    Kombination aus regionalem IT-
  • 38:32 - 38:36
    Dienstleister für das Land Nordrhein-
    Westfalen und dem Statistischen Landesamt
  • 38:36 - 38:45
    Nordrhein-Westfalen. Das ist beides quasi
    unter diesem Dach. Und die betreiben
  • 38:45 - 38:50
    regionalstatistik.de. Und die Software
    hinter GENESIS online wird zum Teil auch
  • 38:50 - 38:54
    in Wiesbaden beim Statistischen Bundesamt
    entwickelt. Es gibt Leute, die im
  • 38:54 - 39:02
    öffentlichen Dienst sind und an dieser
    Software arbeiten.
  • 39:02 - 39:06
    Herald: Okay, sehr gut. Jetzt hab ich noch
    sehr viele Fragen von Dateninteressierten,
  • 39:06 - 39:12
    die vielleicht ein bisschen über das, was
    ihr jetzt als Datenguide anbietet,
  • 39:12 - 39:16
    hinausgehen, trotzdem: Hast du eine
    Empfehlung für eine Datenquelle für
  • 39:16 - 39:22
    internationale Daten?
    Simon: Das ist eine gute Frage. Es kommt
  • 39:22 - 39:26
    es darauf an, worum es geht. Also es gibt
    halt, genauso wie die Statistischen
  • 39:26 - 39:30
    Landesämter in Deutschland alle
    zusammenarbeiten und dann eine gemeinsame
  • 39:30 - 39:34
    Datenveröffentlichung machen, gibt's auf
    europäischer Ebene auch gemeinsame
  • 39:34 - 39:43
    Datenveröffentlichungen. Also es gibt ein
    europäisches Open Data Portal, wo die EU-
  • 39:43 - 39:50
    Mitgliedsländer Daten hin liefern. Es gibt
    auch ein zweites Open Data Portal, wo die,
  • 39:50 - 39:54
    wo es eben alle möglichen Arten von Open
    Data von der EU gibt. Und es gibt auch
  • 39:54 - 40:01
    eine gemeinsame Plattform von Eurostat,
    also Eurostat ist quasi sowas wie die
  • 40:01 - 40:06
    gemeinsame Arbeitsgemeinschaft der
    statistischen Ämter in den einzelnen
  • 40:06 - 40:11
    Mitgliedsländern der EU. Das heißt, es
    geht immer so nach oben. Auf europäischer,
  • 40:11 - 40:18
    auf internationaler Ebene - also die
    Weltbank hat statistische Informationen,
  • 40:18 - 40:24
    quasi über alle Länder. Da findet man
    Dinge. Und es gibt halt so verschiedene,
  • 40:24 - 40:31
    ich sage mal unabhängige Plattformen, z.B.
    Our World in Data ist sehr gut. Muss kurz
  • 40:31 - 40:39
    nachgucken, ob ich das richtig sage.
    Genau, das ist ourworldindata.org. Und die
  • 40:39 - 40:48
    sammeln quasi Daten zu allen möglichen
    Themen, die halt weltweit zur Verfügung
  • 40:48 - 40:55
    stehen. Das ist von der Oxford University
    und da findet man sehr viele Datensätze,
  • 40:55 - 41:01
    wenn man so internationale Vergleiche
    machen möchte, oder ja, Daten zu
  • 41:01 - 41:06
    verschiedenen Themen braucht, die wirklich
    für verschiedene Länder irgendwie
  • 41:06 - 41:13
    vergleichbar zur Verfügung stehen, dann
    ist das auch ein guter Startpunkt.
  • 41:13 - 41:17
    Herald: Okay, genau so eine ähnliche Frage
    wäre: Was ist eigentlich mit
  • 41:17 - 41:22
    teilöffentlichen Daten, zum Beispiel von
    der Deutschen Bahn? Findet man die bei
  • 41:22 - 41:27
    euch auch oder weißt du, wo man die
    vielleicht finden könnte, z.B. Wie viele
  • 41:27 - 41:34
    Güterzüge fahren nach Hamburg?
    Simon: Da bin ich jetzt tatsächlich
  • 41:34 - 41:42
    überfragt. Also ich weiß, dass die Bahn...
    also es gibt ja eine OpenData-Initiative
  • 41:42 - 41:46
    innerhalb der Bahn. Ich könnte mir
    vorstellen, dass es da vielleicht
  • 41:46 - 41:51
    Veröffentlichungen zu diesem Thema gibt.
    Aber sicher bin ich mir da nicht. Ich hab
  • 41:51 - 41:57
    mich mit dem Thema noch nicht befasst, ich
    würde jetzt nicht völlig ausschließen,
  • 41:57 - 42:03
    dass es von den Statistischen Bundesämtern
    so im Kontext Verkehr irgendwie Daten zu
  • 42:03 - 42:09
    diesem Thema gibt. Aber ich hatte bisher
    nie was damit zu tun. Müsste ich jetzt
  • 42:09 - 42:14
    auch mal auf den Seiten der Statistischen
    Ämter nachgucken. Ansonsten ... es gibt
  • 42:14 - 42:19
    ja, heißt es opendata.bahn.de?
    Herald: Ich weiß nicht gerade aus dem Kopf
  • 42:19 - 42:23
    genau, wie es heißt, aber die Bahn hat
    selber auch offene Daten.. Also das ist
  • 42:23 - 42:28
    nicht bei euch jetzt direkt mit dabei?
    Simon: Nee.
  • 42:28 - 42:34
    Herald: Okay, eine andere, sehr konkrete
    Frage zu Daten wäre: Gibt's z.B. sowas wie
  • 42:34 - 42:40
    die Energieverbrauchsdaten der
    Bundesländer für einzelne Gemeinden oder
  • 42:40 - 42:43
    auf Bundesebene? Findet man sowas bei
    euch?
  • 42:43 - 42:45
    Simon: Das ist auch eine sehr spezielle
    Frage.
  • 42:45 - 42:49
    Herald: Genau das ist richtig. Vielleicht
    weißt du es, und sonst kannst du
  • 42:49 - 42:55
    vielleicht erklären, wie man dran kommt?
    Simon: Also man kann quasi auf... man
  • 42:55 - 43:03
    könnte jetzt auf regionalstatistik.de z.B.
    mal nach dem Thema Energie suchen. Oder
  • 43:03 - 43:10
    Stromversorgung. Und dann schauen, ob es
    da Ergebnisse gibt oder eben auf
  • 43:10 - 43:19
    Datenguide. Auch dieses Datenguide
    Datenportal. Wenn ihr auf Datenportal
  • 43:19 - 43:26
    klickt auf der Datenguidewebsite und dann
    gibt's da so ein Interface, wo ihr ein
  • 43:26 - 43:31
    Suchbegriff eingeben könnt unter Statistik
    und da mal mit dem Suchbegriff Strom oder
  • 43:31 - 43:37
    Energie. Ansonsten wäre ich mir relativ
    sicher, dass es - es gibt ja Europäische
  • 43:37 - 43:43
    Energie-Agenturen - dass es irgendwie
    Stellen gibt, die Daten dazu
  • 43:43 - 43:52
    veröffentlichen. Müsste ich aber auch
    recherchieren.
  • 43:52 - 43:55
    Herald: Vielen Dank für deine Antworten zu
    den sehr spezifischen Fragen. Ich habe
  • 43:55 - 44:00
    außerdem noch eine sehr spezifische Frage,
    die uns über Twitter erreicht hat, und
  • 44:00 - 44:06
    zwar: Es geht um die Verwendung der Daten
    der USGS, die aktuell nur noch als PDF
  • 44:06 - 44:10
    vorliegen. Ich weiß leider selbst nicht,
    was die USGS ist. Weißt du das? Ich habe
  • 44:10 - 44:15
    auch nochmal nachgefragt und bisher noch
    keine Antwort bekommen.
  • 44:15 - 44:22
    Simon: Also das sind Geodaten aus den USA,
    glaub ich, aber ich kann dazu nichts
  • 44:22 - 44:28
    sagen, leider. Ich weiß, dass es in den
    USA ja auch diese... gab es in den letzten
  • 44:28 - 44:33
    4 Jahren ja so eine umgekehrte
    Entwicklung, wo verschiedene Daten, die
  • 44:33 - 44:37
    quasi in der Public Domain oder als Open
    Data zur Verfügung standen, jetzt eben
  • 44:37 - 44:41
    nicht mehr als Open Data zur Verfügung
    stehen, weil es einfach so ist, dass...
  • 44:41 - 44:47
    die Obama-Regierung hat sehr viel geöffnet
    im Sinne von Open Data und die Trump-
  • 44:47 - 44:53
    Regierung hat dann einfach sehr viel
    wieder zugemacht und teilweise auch
  • 44:53 - 44:58
    Organisationen oder Organisationsformen,
    die es gab und die gemeinsam Daten
  • 44:58 - 45:02
    veröffentlich haben, in der Form
    aufgelöst. Aber jetzt zu dieser konkreten
  • 45:02 - 45:06
    Frage kann ich nichts sagen.
    Herald: Sind ja auch alles sehr
  • 45:06 - 45:10
    spezifische Fragen, die auch schon
    eigentlich über euer Angebot so ein
  • 45:10 - 45:15
    bisschen hinausgehen, wo man dann merkt:
    Okay, hier sitzen die Datennerds, die auch
  • 45:15 - 45:19
    bis ins Letzte alles ausschöpfen wollen.
    Jetzt ist natürlich so ein bisschen die
  • 45:19 - 45:22
    Frage: Was ist denn vielleicht, wenn ich
    noch nicht so viel Erfahrung habe, mich
  • 45:22 - 45:26
    aber ganz gerne mal mit den Daten bei euch
    beschäftigen möchte. Wie kann ich denn
  • 45:26 - 45:31
    mitmachen? Wie kann ich einsteigen, wie
    kann ich anfangen? Simon: Also der... wenn ich
  • 45:31 - 45:36
    jetzt da mit dem Thema anfangen würde,
    würde mir glaube ich... also normalerweise
  • 45:36 - 45:39
    hat man ja ein Thema, mit dem man sich
    auseinandersetzen will, also ein
  • 45:39 - 45:44
    inhaltliches Thema, zu dem man Daten
    sucht. Dann würde ich mal gucken, was
  • 45:44 - 45:49
    gibt's bei den statistischen Ämtern, was
    gibt's auf Datenguide zu dem Thema? Und
  • 45:49 - 45:54
    dann würde ich mal ein bisschen anfangen,
    mit diesen Daten zu arbeiten. Mit... also
  • 45:54 - 46:01
    mal die Daten sich genauer angucken, Daten
    runterladen und dann mit einem Tool deiner
  • 46:01 - 46:07
    Wahl diese Daten zu visualisieren oder zu
    gucken, was man da rausziehen kann. Es
  • 46:07 - 46:13
    kann so einfach wie Excel sein oder mit
    Python oder R oder auch mit einfachen
  • 46:13 - 46:19
    Datenvisualisierungstools wie Data Wrapper
    oder Flourish Studio. Das sind beides
  • 46:19 - 46:22
    Tools, die kann man umsonst im Web
    benutzen, da mal die Daten hochladen und
  • 46:22 - 46:27
    dann gucken, was man daraus machen kann.
    Einfach, um mal so ein Gefühl dafür zu
  • 46:27 - 46:31
    kriegen. Und wenn ihr ganz konkret an
    Datenguide mitarbeiten wollt, dann ist
  • 46:31 - 46:36
    Datenguide natürlich in erster Linie mal
    eine Software-Projekt. Das heißt, wir
  • 46:36 - 46:42
    haben, wir hätten Tickets, an denen man
    arbeiten könnte. Am einfachsten im Moment
  • 46:42 - 46:47
    ist, wenn man uns direkt kontaktiert über
    die Kanäle, die ich vorhin angezeigt habe
  • 46:47 - 46:51
    oder einfach über Datenguide auf Twitter
    z.B., mal Kontakt mit uns aufnimmt und
  • 46:51 - 46:57
    dann können wir darüber reden. Wir haben
    sehr viele Tickets, also ein sehr langes
  • 46:57 - 47:02
    Backlog. Es ist glaub ich nicht, es ist
    unterschiedlich schwierig, da
  • 47:02 - 47:07
    einzusteigen. Aber zusammen würden wir,
    glaube ich, auch einfache Tickets, um
  • 47:07 - 47:14
    einzusteigen, finden. Und die andere Sache
    ist eben, dass wir auch ein Interesse dran
  • 47:14 - 47:21
    haben, mehr Arbeit rund um Data Literacy
    zu machen. Das heißt, auch wenn ihr nicht
  • 47:21 - 47:26
    aus dem Bereich Softwareentwicklung kommt,
    aber euch halt für Daten interessiert,
  • 47:26 - 47:31
    oder als Nutzer von Daten irgendwie
    Erfahrung habt, dann gäbe es auch die
  • 47:31 - 47:35
    Möglichkeit, z.B. Workshops zu machen zum
    Thema Datenguide und amtlicher Statistik.
  • 47:35 - 47:39
    Da haben wir auch schon so ein paar
    Materialien. Aber da könnte man eben
  • 47:39 - 47:45
    weitere Dinge aufschreiben oder einfach
    Workshops halten. Und da ist auch, glaube
  • 47:45 - 47:49
    ich, die einfachste Möglichkeit, mal mit
    uns Kontakt aufzunehmen. Über die
  • 47:49 - 47:54
    genannten Kanäle.
    Herald: Okay, dann sehe ich jetzt erstmal
  • 47:54 - 48:00
    keine weiteren Fragen mehr. Hast du noch
    irgendetwas, was du ergänzen möchtest, was
  • 48:00 - 48:06
    dir jetzt vielleicht noch aufgefallen ist?
    Simon: Also ich würde mich gerne bedanken.
  • 48:06 - 48:12
    Also danke an das Wikipaka-Team, dass sie
    das alles auf die Beine gestellt haben.
  • 48:12 - 48:17
    Und ich freue mich, wenn ihr uns
    kontaktiert im Nachgang von diesem Talk.
  • 48:17 - 48:22
    Herald: Genau, das wird jetzt auch noch
    gehen. Wir haben noch ein kleines Q&A, das
  • 48:22 - 48:25
    wird in einem BigBlueButton Raum
    stattfinden. Den Link dafür findet ihr
  • 48:25 - 48:30
    auch dann gleich im IRC, also wieder auf
    media.ccc.de gehen, wo ihr wahrscheinlich
  • 48:30 - 48:36
    seid, wenn ihr diesen Stream schaut, auf
    Chat klicken und dann kommt ihr direkt in
  • 48:36 - 48:39
    den richtigen Channel rein. Und dort
    gibt's dann den Link zum
  • 48:39 - 48:44
    Q&A-BigBlueButton-Raum. Da wird dann Simon
    noch ein paar Fragen beantworten. Ich
  • 48:44 - 48:49
    bedanke mich ganz herzlich für die
    Antworten auf diese ganzen Fragen, für die
  • 48:49 - 48:52
    Vorstellung eures Projekts und nicht
    zuletzt dafür, dass ihr das überhaupt
  • 48:52 - 48:59
    macht. Danke und großen virtuellen
    Applaus. Und damit beenden wir jetzt
  • 48:59 - 49:03
    diesen wunderbaren Talk zu Datenguide.
    Dankeschön.
  • 49:03 - 49:05
    Simon: Danke.
  • 49:05 - 49:10
    rC3 Wikipaka Outro Musik
  • 49:10 - 49:15
    Untertitel erstellt von c3subtitles.de
    im Jahr 2021. Mach mit und hilf uns!
Title:
#rC3 - Datenguide: Statistiken für alle!
Description:

more » « less
Video Language:
German
Duration:
49:15

German subtitles

Revisions