Return to Video

cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4

  • 0:00 - 0:20
    Musik
  • 0:20 - 0:23
    Herald: Ja, herzlich willkommen zum
    nächsten Talk in der Wikipaka WG. Hier
  • 0:23 - 0:37
    zeigen uns Simon und P3nny das Projekt
    Datenguide. Viel Spaß!
  • 0:37 - 0:44
    Simon: Hallo. Ok. Hi zusammen. Ja, wie
    gesagt, P3nny und ich, wir möchten über
  • 0:44 - 0:48
    einen Open Data Projekt sprechen, an dem
    wir arbeiten. Das Projekt heißt
  • 0:48 - 0:56
    Datenguide. Findet ihr unter datengui.de.
    Und unsere Mission ist einfach gesagt,
  • 0:56 - 1:05
    Statistiken zugänglicher zu machen für
    alle. Wenn wir über Statistiken reden,
  • 1:05 - 1:10
    dann reden wir über amtliche Statistik.
    Außerdem werden wir gefördert vom MIZ in
  • 1:10 - 1:14
    Babelsberg von einem Programm, das heißt
    Prototype Fund. Das sind ausgezeichnete
  • 1:14 - 1:19
    Programme. Wenn Ihr Funding Möglichkeiten
    sucht für eure Open Source Projekte, kann
  • 1:19 - 1:25
    ich nur empfehlen, euch das mal genauer
    anzugucken. Unser Sourcecode ist frei auf
  • 1:25 - 1:31
    GitHub unter Datenguide. Und wenn wir
    über Statistiken reden, dann meinen wir
  • 1:31 - 1:36
    amtliche Statistik. Amtliche Statistik ist
    einfach gesagt alle Statistiken zu
  • 1:36 - 1:39
    Gesellschaft, Umwelt und Wirtschaft. Und
    das sind Statistiken, die von den
  • 1:39 - 1:47
    Statistischen Ämtern erstellt werden. Und
    das ist, was die Statistiker deskriptive
  • 1:47 - 1:53
    Statistik nennen. Das heißt, es gibt da
    keine Interpretation, keine Prognosen,
  • 1:53 - 1:57
    sondern es ist einfach nur einfache
    Statistik, die beschreibt, wie irgendwas
  • 1:57 - 2:05
    ist. Paar Beispiele sind z.B. Zahlen über
    Schulen. Also Zahlen zu Schülern und
  • 2:05 - 2:12
    Absolventen nach Schulart für eure Stadt
    z.B. Oder Zahlen zur Abfallentsorgung.
  • 2:12 - 2:16
    Also wie viel Hausmüll gibt es in eurer
    Stadt? Wieviel wird recycelt in eurer
  • 2:16 - 2:20
    Stadt? Und Zahlen zu Migration und
    Einbürgerung, z.B.: Wie viele Menschen
  • 2:20 - 2:25
    werden in eurer Stadt eingebürgert? Wie
    alt sind die? Wie alt waren die? Oder seit
  • 2:25 - 2:30
    wie vielen Jahren sind die in Deutschland?
    Das sind jetzt nur drei Beispiele. Der
  • 2:30 - 2:37
    Datensatz oder der Datenpool, mit dem wir
    uns jetzt im Moment auseinandersetzen,
  • 2:37 - 2:42
    sind die Daten von regionalstatistik.de.
    Was das bedeutet, werde ich nachher
  • 2:42 - 2:48
    nochmal ein bisschen erklären. Und da
    reden wir über 450 Datensätze zu allen
  • 2:48 - 2:53
    möglichen Themen. Das heißt, diese drei
    Sachen sind einfach nur Beispiele. Wenn
  • 2:53 - 2:57
    man sich jetzt so anguckt, was die
    Statistischen Ämter sagen über sich
  • 2:57 - 3:01
    selber, dann sagen die, sie sind objektiv
    unabhängig und machen qualitativ
  • 3:01 - 3:07
    hochwertige Statistik. Da gehe ich auch
    mit, ja. Und dann sagen die noch, sie
  • 3:07 - 3:11
    machen es für Politik, Verwaltung,
    Wirtschaft sowie für Bürgerinnen und
  • 3:11 - 3:16
    Bürger. Und wenn man sich anguckt, wie die
    amtliche Statistik im Moment
  • 3:16 - 3:22
    veröffentlicht wird und an wen die so...
    für wen diese aufbereitet wird, dann gehe
  • 3:22 - 3:27
    ich mit, dass das Ziel Politik und
    Verwaltung ist - Wirtschaft vermutlich auch.
  • 3:27 - 3:31
    Bürgerinnen und Bürger, da gibt es ein
    gewisses Defizit und das ist eben das
  • 3:31 - 3:38
    Thema, das wir uns anschauen. Aber erst
    einmal so ein kleiner Exkurs. Ja, erstmal,
  • 3:38 - 3:42
    wo kommen überhaupt diese Daten her? Und
    ihr habt vielleicht vor kurzem diese
  • 3:42 - 3:48
    Geschichte gehört: Das ist die Geschichte
    einer Volkszählung. Ja, also vor ungefähr
  • 3:48 - 3:54
    2000 Jahren hat sich Kaiser Augustus,
    Herrscher des Römischen Reiches, überlegt,
  • 3:54 - 4:00
    dass er bessere Daten braucht über die
    Bürger in seinem Reich. Also hat er ein
  • 4:00 - 4:05
    Zensus angeordnet. Und im Rahmen von
    diesem Zensus sollte jeder Bewohner des
  • 4:05 - 4:12
    Römischen Reichs zu seiner Heimatstadt
    reisen und sich dort zählen lassen. Und in
  • 4:12 - 4:15
    dem Prozess wurde ein kleines Kind
    geboren. Aber am Ende ist es immer noch
  • 4:15 - 4:23
    die Geschichte von einer Volkszählung und
    ... zum Zwecke der Steuererhebung, genau.
  • 4:23 - 4:28
    Also die Römer hatten relativ großen
    militärischen Komplex, den sie finanzieren
  • 4:28 - 4:32
    mussten und deshalb mussten sie wissen,
    wo, wie viele Menschen leben, damit sie
  • 4:32 - 4:37
    wissen, wie viele Steuern sie erheben
    können. Und genauso ist es bis heute.
  • 4:37 - 4:44
    Überall, wo es einen Staat gibt oder eine
    Verwaltung, braucht die Information
  • 4:44 - 4:49
    darüber, wie viele Menschen irgendwo
    leben, wie viele Kinder zur Schule gehen,
  • 4:49 - 4:54
    wie viele Kinder vielleicht demnächst zur
    Schule gehen. Und deswegen wird relativ
  • 4:54 - 5:00
    viel Aufwand betrieben, Daten zu erfassen
    über uns all. In eigentlich allen
  • 5:00 - 5:05
    Industrienationen, sag ich mal, haben wir
    sowas wie ein 10jährigen Zensus. Und das
  • 5:05 - 5:09
    ist eigentlich so ähnlich wie die
    Geschichte von Kaiser Augustus vorher. Das
  • 5:09 - 5:13
    heißt, alle zehn Jahre werden in
    irgendeiner Form alle Menschen gezählt,
  • 5:13 - 5:17
    die in einem Land leben. Heute reisen wir
    nicht mehr an unseren Geburtsort, sondern
  • 5:17 - 5:21
    es gibt Leute, die normalerweise von Tür
    zu Tür gehen, bei euch klingeln und euch
  • 5:21 - 5:29
    dann Fragen stellen. In Deutschland ist
    das ein bisschen anders. Hier gab es einen
  • 5:29 - 5:35
    letzten Zensus 2011 und davor gab's eine
    Weile keinen Zensus. Hat mit unserer
  • 5:35 - 5:39
    Geschichte zu tun und auch mit Protesten,
    die es gab, in der Vergangenheit. Aber es
  • 5:39 - 5:41
    gibt auch verschiedene andere
    Möglichkeiten, wie eigentlich immer Daten
  • 5:41 - 5:46
    erfasst wurden. Außer der richtigen
    Volkszählung, also dem Makrozensus, gibt's
  • 5:46 - 5:50
    einen Mikrozensus. Und beim Mikrozensus
    wird eben einfach eine Stichprobe
  • 5:50 - 5:53
    genommen. Das heißt, eine Handvoll Leute
    wird genauer betrachtet und davon
  • 5:53 - 5:58
    ausgehend wird dann irgendwas
    hochgerechnet. Und außerdem gibt es etwas,
  • 5:58 - 6:03
    was die Statistiker Sekundärstatistik
    nennen. Das heißt, Daten, die irgendwo an
  • 6:03 - 6:07
    anderer Stelle erfasst werden, werden
    verarbeitet. Für die Statistik, also in
  • 6:07 - 6:11
    Deutschland werden irgendwelche Zahlen,
    z.B. über Landwirthschaft, erfasst, bei
  • 6:11 - 6:15
    irgendwelchen Landwirtschaftsämtern. Und
    diese Zahlen werden dann an die
  • 6:15 - 6:18
    statistischen Ämter weitergegeben und dort
    werden dann eben Statistiken draus
  • 6:18 - 6:20
    gemacht, die dann auch von den
    Statistischen Ämtern veröffentlicht
  • 6:20 - 6:26
    werden. Außerdem gibt's bei uns und vielen
    anderen, ich sag mal so europäischen und
  • 6:26 - 6:31
    nordischen Ländern gibt's einen
    Registerzensus. Und das heißt, die Zahlen,
  • 6:31 - 6:35
    die es über euch schon gibt, z.B. im
    Bevölkerungsregister - weil ihr habt euch
  • 6:35 - 6:40
    ja alle ordentlich angemeldet - die
    Zahlen, die werden dann wiederum verwendet
  • 6:40 - 6:46
    und an die statistischen Ämter
    weitergegeben. Ja, ihr könnt euch ja
  • 6:46 - 6:51
    vorstellen, das sind relativ viele Daten.
    Das sind persönliche Daten über uns alle
  • 6:51 - 6:59
    und deswegen wird in Deutschland das
    Statistikgeheimnis sehr hochgehalten. Also
  • 6:59 - 7:03
    das ist tatsächlich ein Begriff aus der
    amtlichen Statistik. Das bedeutet, dass
  • 7:03 - 7:08
    Sie sich extrem viel Mühe geben, Daten zu
    anonymisieren, die werden in der... also
  • 7:08 - 7:11
    Zahlen, die in einem Rahmen vom Zensus
    erfasst werden, werden normalerweise schon
  • 7:11 - 7:15
    anonymisiert, wenn sie erhoben werden. Das
    heißt, da steht nie irgendwie euer Name
  • 7:15 - 7:20
    drauf. Und es werden nur aggregierte
    Zahlen veröffentlicht. Das heißt, in
  • 7:20 - 7:24
    diesen Datensätzen, von denen wir reden,
    da steht normalerweise drin, wie viel es
  • 7:24 - 7:29
    von irgendetwas gibt und nicht, was genau
    es gibt. Das ist auch ein wichtiger Punkt.
  • 7:29 - 7:34
    Außerdem dürfen Menschen und Unternehmen
    nicht nachträglich identifizierbar sein.
  • 7:34 - 7:41
    Und das ist so ein bisschen kontroverses
    Thema. Und da wird auch nächstes Jahr ein
  • 7:41 - 7:46
    bisschen was passieren. Weil gerade für
    Journalistinnen und Journalisten ist es
  • 7:46 - 7:51
    halt auch wichtig, Daten über Unternehmen
    zu kriegen. Und unsere Hauptzielgruppe im
  • 7:51 - 7:57
    Moment ist Journalismus. Und die erste
    Frage, die uns Leute stellen, ist
  • 7:57 - 8:00
    normalerweise: Ja, kann ich jetzt hier
    Bayer in meiner Stadt genauer
  • 8:00 - 8:05
    identifizieren und sehen, was sie machen?
    Und die Antwort ist nein. Also wenn es
  • 8:05 - 8:09
    irgendwo in einer Stadt zum Beispiel nur
    einen Landwirtschaftsbetrieb gibt, dann
  • 8:09 - 8:13
    werdet ihr über diese Stadt keine Zahlen
    zur Landwirtschaft kriegen, weil
  • 8:13 - 8:18
    Statistikgeheimnis. Das ist auch ein
    wichtiger Aspekt, spielt aber bei vielen
  • 8:18 - 8:24
    Zahlen auch keine Rolle, die tatsächlich
    da drin sind. Ja, jetzt habe ich gerade
  • 8:24 - 8:29
    schon gesagt: Volkszählung ist ein
    kontroverses Thema. Und amtliche Statistik
  • 8:29 - 8:34
    insgesamt auch, so gesehen. Wenn ihr, wie
    ich, noch irgendwie die 80er mitgekriegt
  • 8:34 - 8:37
    habt, dann könnt ihr euch vielleicht an
    solche Graffitis erinnern, weil in den
  • 8:37 - 8:42
    80ern gab es tatsächlich einen massiven
    Protest und 81 wurde der Zensus verhindert
  • 8:42 - 8:49
    in der BRD und 87 hat er dann nur sehr
    eingeschränkt stattgefunden. Und die
  • 8:49 - 8:55
    Proteste und die Verfassungsklagen, die es
    damals gab, die sind auch quasi in
  • 8:55 - 8:59
    wichtiger... oder eigentlich die Wurzel
    auch dieser Idee der informationellen
  • 8:59 - 9:03
    Selbstbestimmung, die wir heute haben.
    Also quasi diese Idee von Datenschutz, mit
  • 9:03 - 9:05
    der wir hier rumlaufen und sagen, dass wir
    selber die Kontrolle über unsere
  • 9:05 - 9:09
    persönlichen Daten haben, die sind konkret
    darauf zurückzuführen. Deswegen ist es auf
  • 9:09 - 9:17
    jeden Fall auch eine wichtige Diskussion.
    Für unser Projekt spielt das keine Rolle.
  • 9:17 - 9:21
    Wir sehen es so: Die Daten sind jetzt da
    und die wurden von euch erfasst mit euren
  • 9:21 - 9:25
    Steuergeldern. Und es ist wichtig, dass
    ihr Zugriff auf diese Daten habt. Und
  • 9:25 - 9:29
    deswegen machen wir dieses Projekt. Wenn
    ihr jetzt mit diesen Zahlen arbeiten
  • 9:29 - 9:35
    wollt, dann gibt's eine gute und eine
    schlechte Nachricht. Die gute Nachricht
  • 9:35 - 9:40
    ist: Das ist freies Wissen. Also Open
    Data. Es gibt die Daten-Lizenz
  • 9:40 - 9:46
    Deutschland, unter der diese Daten
    veröffentlicht werden, die erfordert, wenn
  • 9:46 - 9:48
    ihr die Daten quasi verwendet und
    wiederveröffentlicht, dass ihr die Quelle
  • 9:48 - 9:52
    nennt, dass in diesem Fall normalerweise
    die Statistischen Ämter, dass ihr ein
  • 9:52 - 9:56
    Verweis auf die Lizenz macht und ein
    Verweis auf den Datensatz - also
  • 9:56 - 10:00
    normalerweise die URL angebt, von wo ihr
    das heruntergeladen habt. Das - also wenn
  • 10:00 - 10:03
    ihr euch ein bisschen mit offenen Lizenzen
    befasst - das ist so ähnlich wie eine
  • 10:03 - 10:11
    Creative Commons CC-BY Lizenz. Das heißt,
    je nach Anwendungsfall ist es ein bisschen
  • 10:11 - 10:14
    problematisch. Also ich habe gestern
    gelernt, dass man die Daten z.B. nicht in
  • 10:14 - 10:18
    Wikidata einspeisen kann, weil es keine
    CC0 Lizenz ist. Und für viele Anwendungen
  • 10:18 - 10:24
    mit Daten wäre natürlich eine CC0 Lizenz
    besser. Aber das ist nicht der Punkt, wo
  • 10:24 - 10:30
    wir ansetzen können. Also wir gucken, dass
    die Daten möglichst einfach verwendbar
  • 10:30 - 10:34
    sind. Und ihr müsst dann eben beachten,
    dass sie unter der Datenlizenz Deutschland
  • 10:34 - 10:40
    veröffentlicht werden und die
    dementsprechend angeben. Ja, jetzt gibt es
  • 10:40 - 10:43
    aber auch eine schlechte Nachricht und die
    ist, dass mit diesen Daten zu arbeiten gar
  • 10:43 - 10:52
    nicht so einfach ist. Und da übergebe ich
    jetzt an P3nny.
  • 10:52 - 10:56
    P3nny: Ich darf aus dem Leidensdruck des
    Journalisten berichten. Also es ist nicht
  • 10:56 - 11:00
    so, dass es komplettes Neuland wäre, dass
    es keine offenen Datenportale gäbe. Es
  • 11:00 - 11:05
    gibt relativ viele davon. Sie sind alle
    schön und schön unterschiedlich, alle
  • 11:05 - 11:10
    lustig aufgebaut. Zur Übersicht: Es gibt
    das Statistische Bundesamt, dann gibt es
  • 11:10 - 11:14
    Destatis, es gibt 14 statistische
    Landesämter und da drunter Derby Dragons.
  • 11:14 - 11:18
    Also es gibt noch Kommunalstatistik,
    städtisch statistische Ämter und alle
  • 11:18 - 11:24
    haben irgendwie ihre eigenen kleinen Dinge
    - und da durchzusteigen ist auch immer
  • 11:24 - 11:30
    spannend, weil sie meistens quasi diese
    Verwaltungsakte abbilden. Dann gibt's so
  • 11:30 - 11:34
    einzelne Anwendungen, wo Dinge ganz
    besonders gut aufbereitet werden. Aber oft
  • 11:34 - 11:37
    ist es so, hier Zensus 2011 ist für
    Journalisten meistens schon nicht mehr so
  • 11:37 - 11:44
    richtig spannend, weil ist ja schon lang
    vorbei. Oder es gibt solche schönen
  • 11:44 - 11:50
    Beispiele, wo sich Menschen in PDFs
    austoben und wundervolle Torten, Grafiken
  • 11:50 - 11:54
    und 3D Diagramme bauen, ich aber mit den
    Daten wenig anfangen kann. Also wenn ich
  • 11:54 - 11:57
    als Journalistin jetzt sagen würde, die
    sozialversicherungspflichtig
  • 11:57 - 12:02
    Beschäftigten, das möchte ich in meiner
    Veröffentlichung zitieren und möchte
  • 12:02 - 12:07
    einfach nur auf meiner Internetseite
    dieses Diagramm auch mit zeigen, dann muss
  • 12:07 - 12:11
    ich ja da hinschreiben, muss die richtige
    Stelle finden, die dieses PDF erstellt hat
  • 12:11 - 12:14
    und muss die darum bitten, mir die Daten
    zu schicken. Und es ist schon passiert,
  • 12:14 - 12:20
    dass sie mir die dann quasi in der
    E-Mail... also quasi im E-Mail Text habe
  • 12:20 - 12:24
    ich dann Daten bekommen - auch nicht so
    richtig das Format, mit dem wir was
  • 12:24 - 12:29
    anfangen können. Unser Lieblingsportal hat
    Simon vorhin schon gesagt, das ist
  • 12:29 - 12:36
    regionalstatistik.de. Das gibt es. Da
    finden sich auch tatsächlich auf der
  • 12:36 - 12:41
    regionalen Ebene - also Bundesländer und
    drunter, Regierungsbezirke,
  • 12:41 - 12:44
    Gemeindebezirke - finden sich die Daten
    und die dann auch flächendeckend für ganz
  • 12:44 - 12:48
    Deutschland oder für ein ganzes
    Bundesland. Wenn ich da aber dran kommen
  • 12:48 - 12:52
    möchte, dann habe ich Schritt 1: Ich gucke
    mir den Datenkatalog an. Ich gucke, was da
  • 12:52 - 12:57
    drin ist. Suche mich irgendwie da durch.
    Muss halt deren Logik verstehen, wie sie
  • 12:57 - 13:01
    das mal angelegt haben. Finde dann
    irgendwelche Tabellen meistens - auch so:
  • 13:01 - 13:04
    Was unterscheidet jetzt die regionale
    tiefe Kreise von den regionalen Ebenen,
  • 13:04 - 13:08
    und so. Das ist viel, was ich verstehen
    muss. Dann gibt's noch so eine Variablen-
  • 13:08 - 13:14
    Auswahl. Dann muss ich das genauer
    spezifizieren. Dann kann ich endlich diese
  • 13:14 - 13:17
    Tabelle abrufen und kriege dann den
    Hinweis: Diese können Sie jetzt nicht
  • 13:17 - 13:20
    abrufen. Sie wollen zu viele Daten
    abrufen. Sie müssen sich erst mal Konto
  • 13:20 - 13:24
    erstellen. Dann erstelle ich mir dieses
    Konto. Dann mache ich diesen Werteabruf,
  • 13:24 - 13:31
    dann warte ich und irgendwann landet eine
    Tabelle in meinem Postfach und ich bekomme
  • 13:31 - 13:37
    eine Tabelle, die sehr gut dafür geeignet
    ist, in A4 ausgedruckt zu werden. Das
  • 13:37 - 13:41
    heißt, sie hat, das ist mit das
    Allerschlimmste, sie hat diese komischen
  • 13:41 - 13:46
    Header, also so verschachtelte Dinger, wo
    ich dann quasi, wenn ich als Journalistin
  • 13:46 - 13:49
    - also entweder fange ich als Journalistin
    an und versuche, das irgendwie in Excel
  • 13:49 - 13:52
    dann zu bereinigen und so und auch die
    Journalisten merken langsam, dass das
  • 13:52 - 13:57
    nicht der beste Weg ist, alle drei Monate
    bei - was weiß ich, Quartals Statistiken -
  • 13:57 - 13:59
    das immer wieder in Excel machen zu
    müssen. Das heißt, ich als Journalistin
  • 13:59 - 14:03
    geh hin, mache eine Python für Dummies
    Kurs oder sowas und möchte dann mal was
  • 14:03 - 14:08
    mit offenen Daten machen. Treffe dann auf
    diese Daten, lade mir die runter als CSV-
  • 14:08 - 14:11
    Datei und dann kriege ich schon den ersten
    Error, weil das sind keine CSV Dateien,
  • 14:11 - 14:15
    sondern Semikolon separierte Werte, weil
    Deutsch. Wir haben also einen 1000er
  • 14:15 - 14:19
    Trennzeichen, das ein Komma ist. Wenn ich
    dieses Problem gelöst habe, laufe ich
  • 14:19 - 14:24
    gegen die... Also ist das keine UTF 8
    sondern eine ISO88591 Kodierung. Das
  • 14:24 - 14:29
    heißt, erstmal sind alle Ös und Äs kaputt.
    Dann muss ich noch das Problem mit dem
  • 14:29 - 14:34
    Header lösen. Das heißt, meistens muss ich
    den Header ganz rausschmeißen und einmal
  • 14:34 - 14:38
    die Zeilen irgendwie selber benennen, was
    auch eine Fehlerquelle ist. Und dann, wenn
  • 14:38 - 14:42
    ich jetzt, sagen wir mal, die unter 3
    Betreuungskinder auf eine Karte mappen
  • 14:42 - 14:46
    wollte, dass ich so eine Karte habe, dass
    da wo die meisten u3 betreut sind -
  • 14:46 - 14:49
    eigentlich will ich ja wahrscheinlich auch
    den Anteil an der Bevölkerung haben,
  • 14:49 - 14:52
    Bevölkerung gesamt ist da nicht drin, die
    muss ich mir dann von woanders her holen,
  • 14:52 - 14:58
    männlich-weiblich zusammenrechnen, den
    Anteil ausrechnen - es ist ein relativ
  • 14:58 - 15:03
    aufwandreicher Prozess, den ich da machen
    muss. Ach so genau. Und hier sind auch
  • 15:03 - 15:06
    tatsächlich nicht nur die Gemeindeebenen
    drin, sondern meistens auch das Bundesland
  • 15:06 - 15:10
    und die darüber liegenden Ebenen, d.h. die
    muss ich auch erstmal wieder
  • 15:10 - 15:14
    rausschmeißen, damit ich nur meine
    Gemeinden habe und die dann auf die Karte
  • 15:14 - 15:19
    bringen kann. Und manchmal sagen die auch:
    Wir nehmen euch Arbeit ab und machen
  • 15:19 - 15:23
    selber Visualisierungen. Da kommen dann
    manchmal solche Dinge bei raus. Wir haben
  • 15:23 - 15:27
    noch nicht ganz rausgekriegt, was uns das
    sagen soll. Also das funktioniert noch
  • 15:27 - 15:46
    nicht so richtig gut. Und da kommt der
    Datenguide ins Spiel und löst dieses Problem.
  • 15:46 - 15:49
    Simon: Genau. Was wir machen, ist: Wir
  • 15:49 - 15:52
    lösen dieses Problem für euch. Also dieses
    Problem, dass Patricia jetzt beschrieben
  • 15:52 - 15:58
    hat, hoffentlich, perspektivisch. Was wir
    machen, ist, wir importieren quasi alle
  • 15:58 - 16:03
    Daten und alle Daten, die jetzt in diesem
    Fall in dem regionalstatistik.de Portal
  • 16:03 - 16:12
    sind. Und dann bieten wir sie über eine
    moderne JSON-API an und bauen dann quasi
  • 16:12 - 16:15
    ein - ich sag mal ein alternatives Daten
    Portal. Das ist eine Website, die bauen
  • 16:15 - 16:25
    wir dann quasi on top auf diese Daten-
    Schnittstelle und diese Plattform, die sieht
  • 16:25 - 16:31
    ungefähr so aus. Ich kann euch das auch
    live zeigen. Ich habe das jetzt nur glaube
  • 16:31 - 16:38
    ich nicht offen und wir sind noch nicht
    online. Es ist alles so ein bisschen frühe
  • 16:38 - 16:45
    Alpha. Wir sind so ein bisschen online,
    aber mit kryptischer URL in so einem
  • 16:45 - 17:00
    Preview irgendwo. Muss ich mir grad mal
    angucken.
  • 17:00 - 17:08
    P3nny: Ich schwöre, hier war ein Bug
    irgendwo. Hier lief ein Bug rum und jetzt
  • 17:08 - 17:17
    ist er weg. Wahrscheinlich ist er jetzt
    bei dir.
  • 17:17 - 17:21
    Simon: Okay, also das ist, wie unser
    Prototyp im Moment aussieht. Es ist
  • 17:21 - 17:25
    einfach eine Website, da werden ein paar
    Orte gefeatured, wo irgendwas interessant
  • 17:25 - 17:30
    ist. Ansonsten haben wir hier eine Suche,
    wo ihr den Namen eurer Stadt oder eures
  • 17:30 - 17:34
    Landkreises eingeben könnt. Also für diese
    Oberfläche arbeiten wir im Moment mit
  • 17:34 - 17:39
    Städten und Landkreisen, mit so ungefähr
    400 Entitäten oder so in Deutschland und
  • 17:39 - 17:43
    in dem Datensatz sind auch Gemeinden drin.
    Aber dann reden wir gleich über, ich
  • 17:43 - 17:47
    glaube, 15 000 oder so. Und im Moment
    machen wir es uns einfach und gucken uns
  • 17:47 - 17:52
    einfach Städte und Landkreise an. Also
    wenn wir hier einen Ort suchen, zum
  • 17:52 - 18:02
    Beispiel Leipzig. Ja, genau, dann sehen
    wir erst einmal: Es gibt Leipzig Stadt und
  • 18:02 - 18:06
    Leipzig Landkreis, also quasi der
    Landkreis drumrum. Wir gucken uns mal die
  • 18:06 - 18:13
    Stadt Leipzig an und dann sehen wir hier
    Leipzig. Und dann haben wir hier so ein
  • 18:13 - 18:18
    bisschen generischen Text. Den importieren
    wir im Moment von Wikipedia, wollen wir
  • 18:18 - 18:23
    aber perspektivisch selber generieren, auf
    Basis der Daten, die da drin sind. Und
  • 18:23 - 18:29
    dann sehen wir hier so ein paar
    Datensätze, die wir schon, die wir jetzt
  • 18:29 - 18:32
    mal so, ich sag mal prototypisch
    aufbereitet haben. Die sind hier...
  • 18:32 - 18:38
    Leipzig hat irgendetwas um die 500 000
    Einwohner 2017, 300 Quadratkilometer
  • 18:38 - 18:44
    Fläche. Dann haben wir hier eine einfache
    Visualisierung, wo wir Leipzig mal mit
  • 18:44 - 18:48
    München vergleichen. Hier sehen wir, das
    Münchner deutlich höhere
  • 18:48 - 18:52
    Bevölkerungsdichte hat als Leipzig. Und
    dann können wir hier so ein paar Sachen
  • 18:52 - 18:56
    machen. Wir können uns hier die Zahlen zu
    diesem Datensatz angucken und dann sehen
  • 18:56 - 18:59
    wir schon, das ist eine sehr einfache
    Tabelle, die hat einfach nur ein paar
  • 18:59 - 19:03
    Spalten. Jede Spalte hat eine klare
    Beschriftung und das ist halt was, das
  • 19:03 - 19:06
    können wir einfach als CSV runterladen und
    in beliebigen Programmen weiterverwenden.
  • 19:06 - 19:17
    Und gleichzeitig haben wir hier auch eine
    GraphQL-Query. Das ist quasi eine Daten...
  • 19:17 - 19:21
    ich sage mal eine API Abfrage. Also mit
    GraphQL, also mit so einer
  • 19:21 - 19:25
    Datenschnittstelle kann man einfache
    einfache Queries schreiben. Man kann sich
  • 19:25 - 19:31
    das so vorstellen, dass man da eine leere
    JSON Datei hinschickt, die beschreibt,
  • 19:31 - 19:34
    welche Daten ihr wollt. In der sind nur
    die Keys drin und dann kriegt ihr eine
  • 19:34 - 19:37
    JSON Datei zurück, da sind zu den Keys
    auch die Values drin. Das heißt, es ist
  • 19:37 - 19:42
    eine sehr einfache Art und Weise, zu
    spezifizieren, welche Daten ihr sehen
  • 19:42 - 19:46
    wollt. Deswegen experimentieren wir im
    Moment mit GraphQL. Es ist auch so ein
  • 19:46 - 19:49
    bisschen alles im Fluss. Also wir haben
    schon quasi die Version... also hier sieht
  • 19:49 - 19:52
    man die Version 1 unserer Schnittstelle.
    Wir arbeiten im Moment an einer zweiten
  • 19:52 - 19:55
    Version, weil wir halt festgestellt haben,
    dass verschiedene Dinge dann doch nicht so
  • 19:55 - 20:01
    funktionieren, wie wir uns das vorstellen.
    Aber API Design ist auch nicht einfach.
  • 20:01 - 20:06
    Hier gibt's dann eben die Möglichkeit, das
    CSV runterzuladen oder in so einem
  • 20:06 - 20:12
    interaktiven Tool dieses GraphQL zu
    testen, um quasi... naja, also wenn ihr
  • 20:12 - 20:19
    seht: Ah, das ist ja schön, aber ich will
    Leipzig nicht mit München, sondern mit dem
  • 20:19 - 20:23
    Bundesland Sachsen vergleichen. Dann könnt
    ihr hier quasi unseren Query Builder
  • 20:23 - 20:29
    benutzen und euch selber was bauen und
    direkt das Ergebnis sehen. Darauf gehe ich
  • 20:29 - 20:32
    gleich noch ein bisschen ein. Hier sehen
    wir noch so ein paar andere Beispiele.
  • 20:32 - 20:36
    Da haben wir einfach mal experimentiert
    mit Daten. Hier haben wir noch die
  • 20:36 - 20:41
    Bevölkerungsverteilung nach Altersgruppen.
    Und die Ergebnisse der letzten Europawahl
  • 20:41 - 20:48
    Das sind auch so ein paar Beispiele. Sieht
    man, was da an Daten drinsteckt. Ja. Also
  • 20:48 - 20:53
    wie gesagt, das ist einfach nur ein
    Prototyp im Moment. Da kann man eben
  • 20:53 - 20:58
    sehen, wie das grundsätzlich aussehen
    kann. Wir sehen hier, dass... wir haben
  • 20:58 - 21:02
    hier so eine Übersicht über alle Städte
    und Landkreise in Deutschland, sortiert
  • 21:02 - 21:06
    nach Bundesland. Und wenn ich jetzt hier
    irgendetwas Beliebiges herausgreife -
  • 21:06 - 21:12
    Deggendorf in Bayern - dann sehen wir,
    dass wir ja, hier ist quasi das Gleiche.
  • 21:12 - 21:18
    Genauso für Deggendorf. Das ist im Moment,
    was wir machen. Und das ist so ein
  • 21:18 - 21:23
    Komplex, an dem wir arbeiten, der quasi
    auf der einen Seite zeigen soll, was es an
  • 21:23 - 21:27
    Daten da drin gibt, euch einfache Tools
    geben soll, diese Daten runterzuladen,
  • 21:27 - 21:31
    ohne dass ihr euch mit GraphQL
    auseinandersetzen müsst. Auf der anderen
  • 21:31 - 21:35
    Seite soll es auch die Möglichkeit sein,
    eben den Start zu finden in unsere
  • 21:35 - 21:41
    Datenschnittstelle und...
    P3nny: Perspektivisch würden wir uns da
  • 21:41 - 21:46
    schon auch noch vorstellen, dass nicht
    überall bei allem das Gleiche angezeigt
  • 21:46 - 21:49
    wird, sondern wir können ja dann auch eine
    gewisse Logik dran machen. Also zeig mir
  • 21:49 - 21:53
    die Stadt.... also ich habe die
    Gesamtstatistik über Leipzig und ich zeige
  • 21:53 - 21:58
    mir die drei Statistiken, wo Leipzig
    entweder in den Top5 oder in den Low 5 ist im
  • 21:58 - 22:04
    Vergleich zum Bundesland, im Vergleich zum
    Bundesschnitt oder so.. Ne, um halt
  • 22:04 - 22:07
    quasi so für die Journalisten zu sagen:
    Das sind die spannenden Dinge. Und
  • 22:07 - 22:10
    gleichzeitig aber auch den Eisberg
    darunter: Also das sind alle Daten, weil
  • 22:10 - 22:14
    ich jetzt eine bestimmte Frage habe,
    irgendwie anzubieten.
  • 22:14 - 22:26
    Simon: Okay. Ja, jetzt hab ich ja gesagt,
    wir haben diese Datenschnittstelle. Und
  • 22:26 - 22:30
    ich hab euch auch diese Website gezeigt,
    die wir aus der Datenschnittstelle
  • 22:30 - 22:35
    speisen. Aber diese Datenschnittstelle,
    die ist nicht nur Mittel zum Zweck, um
  • 22:35 - 22:39
    diese Website zu bauen, sondern unsere
    Idee ist eigentlich, dass diese Website,
  • 22:39 - 22:44
    die wir haben, dieses Daten-Portal, dass
    das quasi ein Anwendungsfall ist für diese
  • 22:44 - 22:47
    Schnittstelle, um zu zeigen, was man damit
    machen kann. Aber wir möchten eigentlich,
  • 22:47 - 22:50
    dass ihr diese Schnittstelle verwendet für
    andere Dinge. Auf Basis von dieser
  • 22:50 - 22:55
    GraphQL-Schnittstelle sollte man zum
    Beispiel möglichst… relativ einfach eine
  • 22:55 - 23:00
    Python-Bibliothek schreiben können, z.B.
    damit ihr in euren Datenauswertungen mit
  • 23:00 - 23:05
    Python direkt auf amtliche Statistikdaten
    zugreifen könnt. Oder ein R-Package, damit
  • 23:05 - 23:10
    Leute, die quasi statistisch mit R
    arbeiten, vielleicht an einer Hochschule
  • 23:10 - 23:16
    oder Journalisten, dass die quasi auf
    diese Daten direkt in R zugreifen können,
  • 23:16 - 23:20
    ohne dass sie sich jedesmal durch dieses
    Datenportal klicken müssen und sich eine
  • 23:20 - 23:25
    CSV-Datei runterladen, die sie dann erst
    einmal aufräumen müssen. Und man kann sich
  • 23:25 - 23:28
    da alles mögliche überlegen, denke ich,
    auf Basis dieser API. Wir haben auch
  • 23:28 - 23:32
    gestern schon über Twitter Bots gesprochen
    und alle möglichen anderen lustigen Dinge.
  • 23:32 - 23:38
    Und ich würde euch einfach einladen, damit
    ein bisschen zu experimentieren. Ich zeige
  • 23:38 - 23:43
    euch jetzt mal ein bisschen, wie so ein
    Query funktioniert, weil es tatsächlich
  • 23:43 - 23:47
    relativ einfach, es ist zumindest relativ
    einfach, mal eine einfache Query zu
  • 23:47 - 23:56
    schreiben. Hier sehen wir so ein Beispiel
    für eine Abfrage. Ich werde es jetzt
  • 23:56 - 24:00
    gleich mal replizieren. Ich muss mir nur
    hier nochmal angucken, wie das aussieht.
  • 24:00 - 24:12
    Also, wir haben hier diese Schnittstelle
    oder diese, ich sage mal diese grafische
  • 24:12 - 24:16
    Oberfläche für unsere Datenschnittstelle.
    GraphQL funktioniert normalerweise so,
  • 24:16 - 24:21
    wenn man irgendwo ein GraphQL Server
    betreibt, dann kommt automatisch so ein
  • 24:21 - 24:26
    graphisches Interface mit, damit man
    Queries einfacher ausprobieren kann. Das
  • 24:26 - 24:30
    ist quasi ein Debugging-Tool, wenn ihr so
    wollt oder ein Werkzeug, um euch ein
  • 24:30 - 24:33
    bisschen mit eurer API zu befassen. Und
    das ist normalerweise direkt eingebaut in
  • 24:33 - 24:37
    so ne Schnittstelle. Und bei uns ist das
    auch der Fall und ich habe das hier jetzt
  • 24:37 - 24:41
    schon mal ausgefüllt. Sehen wir, wenn wir
    so eine einfache Query machen, dann fragen
  • 24:41 - 24:44
    wir erst einmal nach Regions. Also Regions
    sind quasi alle Regionen, die wir in
  • 24:44 - 24:48
    Deutschland haben. Wenn ich jetzt hier auf
    Play drücke, also wenn ich hier mal Name
  • 24:48 - 24:52
    reinschreibe und hier auf Play drücke,
    dann dauert es sehr lange, weil er dann
  • 24:52 - 24:55
    irgendwie durch unsere Datenbank geht und
    für 15 000 Entities oder so den Namen
  • 24:55 - 24:59
    raussucht. Deswegen werde ich das jetzt
    erst einmal nicht machen. Ich werde das
  • 24:59 - 25:05
    erstmal ein bisschen einschränken. Und
    jetzt gibt's hier schon eine interessante
  • 25:05 - 25:11
    Sache. Und zwar steht hier, stehen zwei
    Dinge: "parent" und "nuts". Und "nuts" ist
  • 25:11 - 25:22
    eine interessante Sache. Das ist ja ein
    Standard für eindeutige... ein Standard
  • 25:22 - 25:28
    dafür, regionale Einheiten zu beschreiben.
    Das heißt, wenn man in der EU verschiedene
  • 25:28 - 25:32
    Städte miteinander vergleichen will, dann
    gibt's halt so einige Begriffe wie
  • 25:32 - 25:35
    Großstadt, Landkreis. Ne, keine Ahnung.
    In Frankreich gibt es keine Landkreise.
  • 25:35 - 25:38
    Aber wenn man Dinge miteinander
    vergleichen will, dann gibt es dafür eben
  • 25:38 - 25:42
    einen Standard. Und da gibt's den NUTS-
    Standard und da gibt's verschiedene NUTS-
  • 25:42 - 25:51
    Levels. Und wenn wir jetzt alle größeren
    Städte und Landkreise sehen wollen, dann
  • 25:51 - 25:59
    ist es z.B. der NUTS-Level 3 in
    Deutschland. Ich schreib hier "nuts: 3"
  • 25:59 - 26:04
    und drücke auf Start. Und dann sehen wir,
    wir kriegen hier irgendwie alle Städte und
  • 26:04 - 26:09
    Landkreise in Deutschland. Ja, Starnberg,
    schön, Ravensburg, Biberach. Also man
  • 26:09 - 26:14
    sieht, die sind auch irgendwie so ein
    bisschen sortiert da drin. Wenn ich jetzt
  • 26:14 - 26:19
    quasi nur alle Städte und Landkreise in
    einem Bundesland sehen will, dann kann ich
  • 26:19 - 26:23
    das auch weiter spezifizieren. Und zwar
    kann ich immer eine höhere Einheit
  • 26:23 - 26:30
    spezifizieren in dieser API. Und das heißt
    "parent" in der API. Das heißt, ich will
  • 26:30 - 26:36
    alles unterhalb von einem Parent. Und ich
    zeige es jetzt mal anhand vom Saarland.
  • 26:36 - 26:40
    Saarland ist mein Lieblings-Bundesland,
    wenn man mit so statistischen Daten
  • 26:40 - 26:43
    arbeitet. Saarland ist immer schön
    übersichtlich. Gab's nicht so viele
  • 26:43 - 26:49
    Gemeindereformen, gibt auch nicht so viele
    Landkreise. Es ist super, ja, 1a
  • 26:49 - 26:55
    Bundesland. So und jetzt sehen wir hier
    quasi eine Einschränkung: Das sind alle
  • 26:55 - 26:59
    Städte und Landkreise im Saarland. Und
    jetzt können wir uns mal noch so ein
  • 26:59 - 27:05
    bisschen andere Dinge angucken. Jetzt gebe
    ich mal hier... wir haben eine ID für jede
  • 27:05 - 27:12
    Einheit und die ID, das sehen wir, die
    fängt auch immer mit 10 an, genau wie das
  • 27:12 - 27:16
    Bundesland. Das ist keine ID, die wir uns
    überlegt haben, sondern das ist der
  • 27:16 - 27:21
    sogenannte Gemeindeschlüssel, den wir in
    Deutschland haben. Es ist quasi ein
  • 27:21 - 27:25
    eindeutiger Bezeichner für jede Stadt,
    jede Gemeinde, jeden Landkreis. Die haben
  • 27:25 - 27:32
    alle solche Nummern. Und anhand von diesen
    kann man hier sehr gut arbeiten. Also ich
  • 27:32 - 27:35
    könnte jetzt auch eine Region anhand von
    Ihrer ID raussuchen. Mache ich jetzt
  • 27:35 - 27:39
    erstmal nicht. Können wir nachher noch
    machen. Ich will jetzt auch ein paar
  • 27:39 - 27:46
    statistische Daten sehen. Und dann habe
    ich hier in diesem Beispiel, sieht man
  • 27:46 - 27:51
    hier: Das wird dann ein bisschen
    kryptisch. Und da verwenden... haben wir
  • 27:51 - 27:54
    uns auch nicht selber etwas ausgedacht.
    Das heißt, wir haben versucht, uns das
  • 27:54 - 27:58
    selber auszudenken in der ersten Version
    von unserer API und haben dann eben
  • 27:58 - 28:02
    festgestellt, dass es sehr viel erstens
    redaktioneller Aufwand ist und es geht
  • 28:02 - 28:05
    dann auch irgendwann ganz schnell kaputt,
    weil wir uns vielleicht auch nicht so gut
  • 28:05 - 28:10
    auskennen wie die Leute, die die amtliche
    Statistik machen. Weil, naja, wenn es
  • 28:10 - 28:15
    einfach wäre, dann hätte man, hätten die
    es auch einfacher gemacht wahrscheinlich.
  • 28:15 - 28:19
    Und deswegen verwenden jetzt in der
    aktuellen Version von unserer API, an der
  • 28:19 - 28:23
    wir jetzt arbeiten, quasi direkt die
    Identifier, die auch die Statistischen
  • 28:23 - 28:30
    Ämter verwenden. Dadurch wird es
    einfacher, diese Sachen nachzuvollziehen.
  • 28:30 - 28:33
    Und auch wenn ihr quasi einen
    tatsächlichen Datensatz habt, irgendwie in
  • 28:33 - 28:37
    regionalstatistik.de, den dann hinterher
    bei uns rauszusuchen. Das heißt aber auch,
  • 28:37 - 28:42
    Ihr müsst irgendwie wissen, wofür diese
    Codes stehen. Und hier gibt's eine super
  • 28:42 - 28:49
    Vorschlagsuche, quasi. Wenn ich hier
    anfange, irgendetwas zu tippen, dann sehe
  • 28:49 - 28:55
    ich hier verschiedene Vorschläge und hier
    unten sehe ich dann auch eine Erklärung,
  • 28:55 - 28:59
    was das ist. Das heißt, wir haben uns
    schon ein bisschen Mühe gegeben, dass man
  • 28:59 - 29:03
    sich das so ein bisschen erschließen kann,
    was da drin ist. Und ich glaube, das war
  • 29:03 - 29:08
    jetzt BEVMK, das sind von Scheidungen
    betroffene Kinder. Und wenn ich jetzt hier
  • 29:08 - 29:12
    draufklicke, dann kriege ich hier auch so
    eine Doku. Das ist jetzt bei diesem
  • 29:12 - 29:17
    Datensatz sehr einfach. Da sehen wir
    einfach, aus welcher Statistik der kommt.
  • 29:17 - 29:23
    Das ist die "Statistik rechtskräftiger
    Urteile in Ehesachen", Nummer 12631. Das
  • 29:23 - 29:25
    heißt, anhand davon könnt ihr die
    wahrscheinlich dann auch in
  • 29:25 - 29:30
    regionalstatistik.de raussuchen. Oder wenn
    ihr beim Statistischen Bundesamt anrufen
  • 29:30 - 29:34
    müsst, dann wissen die auch, worum es
    geht. Aber wir wollen ja eigentlich, dass
  • 29:34 - 29:39
    ihr da nicht anrufen müsst. Deswegen geben
    wir die jetzt einfach mal so aus. Sehen
  • 29:39 - 29:46
    wir, das ist hier rot markiert. Und dann
    sagt er: Ich hab irgendwas vergessen. Wie
  • 29:46 - 29:52
    hieß es? Drei. Und jetzt sehen wir, das
    ist immer noch rot. Dann sagt er: Das muss
  • 29:52 - 29:57
    eine Unterauswahl haben. Also mache ich
    mal eine Unterauswahl. Und wir sehen schon
  • 29:57 - 30:02
    hier auf der von euch aus gesehen linken
    Seite, dass... von euch aus gesehen
  • 30:02 - 30:07
    rechten Seite... ist die gleiche Seite wie
    bei mir auch am Bildschirm, eigentlich
  • 30:07 - 30:11
    easy. Auf der rechten Seite seht ihr, was
    man da so machen kann und da sehen wir,
  • 30:11 - 30:16
    wir können Jahr und einen Wert abrufen und
    auch die Quelle. Ich mache das jetzt
  • 30:16 - 30:23
    einfach mal, geb hier mal Value ein. Drück
    auf Play und dann sehen wir, wir kriegen
  • 30:23 - 30:27
    hier irgendwie so eine Liste, da sind
    Werte drin. Irgendwie für jede einzelne
  • 30:27 - 30:31
    Stadt, jeden einzelnen Landkreis. Da macht
    es noch nicht so viel Sinn, weil das sind
  • 30:31 - 30:37
    halt Werte für ein Jahr. Deswegen geben
    wir uns zusätzlich noch das Jahr aus und
  • 30:37 - 30:42
    dann sehen wir hier quasi einen Datensatz
    für jedes Jahr. Den könnte man jetzt
  • 30:42 - 30:47
    wahrscheinlich auch noch so ein bisschen
    sortieren und so... Das sind alles jetzt
  • 30:47 - 30:51
    nur so API Design Sachen, an denen wir
    arbeiten. Aber grundsätzlich seht ihr, wie
  • 30:51 - 30:56
    das funktioniert. Und genauso könnt ihr
    eben anhand von diesem Schlüssel, den wir
  • 30:56 - 31:01
    hier haben, auch Daten für einen
    einzelnen, für eine einzelne Stadt
  • 31:01 - 31:05
    abrufen. Das heißt, das hier ist mehr so
    eine Bulkabfrage, wo wir quasi sehr viele
  • 31:05 - 31:11
    Daten kriegen über alle Städte und
    Landkreise in einem Bundesland. Aber wir
  • 31:11 - 31:19
    können jetzt auch sehr detailliert nach
    einem einzelnen Wert fragen. Zum Beispiel
  • 31:19 - 31:22
    kann ich hier jetzt das Ganze für
    Saarbrücken machen. Also wir sehen,
  • 31:22 - 31:37
    Saarbrücken hat die ID 10041 und dann kann
    ich hier eingeben: ID. Whoa. Also ist alles
  • 31:37 - 31:43
    auch noch ein bisschen Alpha, ne... 10041
    und wir geben jetzt einfach mal
  • 31:43 - 31:48
    spaßeshalber die gleichen Werte aus. Und
    dann sehen wir, wir kriegen jetzt eine
  • 31:48 - 31:52
    Antwort, quasi eine JSON Datei und die
    enthält jetzt nur die Werte für
  • 31:52 - 31:56
    Saarbrücken. Und wenn wir jetzt ein
    genaues Jahr wollen, sagen wir, wir
  • 31:56 - 32:04
    wollen 2014, dann kann ich das hier auch
    weiter nach dem Jahr filtern. Ja, und
  • 32:04 - 32:10
    jetzt kriegen wir einfach nur den Wert
    zurück für 2014. Und so kann man eben
  • 32:10 - 32:14
    beliebige andere Statistiken auch
    abfragen. Es ist sehr einfach für
  • 32:14 - 32:19
    Datensätze, die sehr einfach sind, so wie
    der. Es gibt in der Praxis auch sta– äh,
  • 32:19 - 32:23
    statistische Datensätze, die sind
    irgendwie hoch verschachtelt. Wir haben ja
  • 32:23 - 32:28
    vorhin auch so eine Tabelle gesehen, wo
    sie dann versucht haben, diese Tabelle
  • 32:28 - 32:31
    quasi, also diese verschachtelten Daten
    irgendwie zweidimensional in einer Tabelle
  • 32:31 - 32:35
    darzustellen. Und dann kommt irgendwas
    raus, was man nicht mehr... also was man
  • 32:35 - 32:38
    nicht mehr mit einem Computer verarbeiten
    kann, sondern nur noch auf A4 ausdrucken.
  • 32:38 - 32:43
    Und für diese komplexeren Sachen muss man
    sich das dann ein bisschen genauer
  • 32:43 - 32:47
    angucken, wie die Dinge halt ineinander
    verschachtelt sind. Aber grundsätzlich
  • 32:47 - 32:52
    sollte man das alles irgendwie hier aus
    der API rauskriegen. Also wenn wir hier
  • 32:52 - 33:00
    diese BEVMK-Sache suchen. Also ich habe
    gerade gesehen, da sind jetzt nicht so
  • 33:00 - 33:04
    viele Dinge drin, aber wenn wir uns
    irgendwas anderes raussuchen, dann sehen
  • 33:04 - 33:08
    wir, hier gibt's z.B. nen komplexeren
    Datensatz. Da kann man jetzt noch
  • 33:08 - 33:14
    irgendwelche Auswahl treffen. Nur
    Kinder, die im Januar geboren wurden oder
  • 33:14 - 33:19
    nur Kinder, die im Februar geboren wurden
    und so.. Ja, also ich denke, ihr versteht,
  • 33:19 - 33:26
    worum es geht. Wir haben jetzt ein
    bisschen Zeit. Ich würde das jetzt hier
  • 33:26 - 33:32
    für Fragen öffnen und wenn ihr ganz
    konkrete Fragen habt oder Ideen habt
  • 33:32 - 33:38
    dafür, was man damit machen kann - oder
    wenn ihr vielleicht Interesse habt, an so
  • 33:38 - 33:43
    einem Open-Source-Projekt mitzuarbeiten,
    dann können wir ja gerne nachher ein
  • 33:43 - 33:47
    bisschen quatschen. Also da gibt's viele
    Dinge, die man machen kann oder die wir
  • 33:47 - 33:55
    für das nächste Jahr geplant haben. Also
    wir haben einen fröhlichen Haufen Python-
  • 33:55 - 34:00
    und JavaScript-Code und wir haben auch
    redaktionelle Aufgaben. Also ich sag mal
  • 34:00 - 34:03
    so, Fragestellungen, wo man sich mal so
    ein bisschen Statistik angucken kann oder
  • 34:03 - 34:07
    so ein bisschen mit uns überlegen, wie man
    jetzt irgendwas besonders gut darstellen
  • 34:07 - 34:11
    kann oder wie man irgendwas besonders gut
    erklären kann - das ist dann eher
  • 34:11 - 34:16
    Patricias Thema und wir haben für nächstes
    Jahr geplant, dass wir einen größeren
  • 34:16 - 34:20
    Hackathon organisieren. Vermutlich in
    Berlin und vermutlich irgendwann noch vor
  • 34:20 - 34:25
    der Europawahl, eventuell auch mit einem
    Schwerpunkt auf Daten aus der Europawahl.
  • 34:25 - 34:29
    Weil hier drin sind eben auch sehr viele
    historische Wahlergebnisse und auch so
  • 34:29 - 34:33
    Sachen wie Wahlbeteiligung. Und die sind
    schon aufgelöst nach Gemeinden und
  • 34:33 - 34:36
    Städten, d.h. da kann man sehr
    interessante Dinge damit machen, weil man
  • 34:36 - 34:42
    die eben dann sehr gut.... keine Ahnung,
    Arbeitsmarktstatistik mit Wahlergebnissen
  • 34:42 - 34:45
    oder so vergleichen kann. Das macht
    vielleicht nicht so wahnsinnig viel Sinn,
  • 34:45 - 34:50
    aber da kann man sich sicher sinnigere
    Dinge überlegen. Ihr findet uns auf
  • 34:50 - 34:55
    Twitter und auf GitHub unter @datenguide
    und ihr findet die Slides für diesen
  • 34:55 - 35:00
    Vortrag unter dieser URL:
    downloads.datengui.de/35c3. Ich werde es
  • 35:00 - 35:05
    nachher nochmal irgendwie vertwittern oder
    sonstwie posten und ansonsten -
  • 35:05 - 35:09
    Fragen von euch!
  • 35:09 - 35:16
    Applaus
  • 35:16 - 35:20
    Q: Ja, hört man mich? Vielen Dank erst
    einmal für den Vortrag. Ich habe gesehen,
  • 35:20 - 35:25
    das ist eine Python-Flask-App, wenn ich
    richtig gesehen habe. Also erst einmal
  • 35:25 - 35:31
    Gratulation dafür - eine sehr gute Wahl!
    Mich würde noch interessieren, man hat ja
  • 35:31 - 35:34
    einige Daten gesehen, einige
    Beispieldaten. Wir hatten z.B. das Jahr,
  • 35:34 - 35:38
    das war aber ein String. Verarbeitet ihr
    die Sachen irgendwie noch weiter oder ist
  • 35:38 - 35:42
    das einfach nur dadurch, dass es aus einer
    CSV kommt, erst einmal als String einfach
  • 35:42 - 35:46
    reingepastet?
    Simon: Ja, also es ist so durch ein paar
  • 35:46 - 35:49
    Iterationen gegangen und das, was wir
    jetzt gesehen haben, das wird tatsächlich
  • 35:49 - 35:54
    automatisch generiert auf Basis von den
    Daten, die da rauskommen. Und ja, es ist
  • 35:54 - 35:57
    im Moment noch so ein bisschen
    inkonsistent. Also man hat auch, wenn man
  • 35:57 - 36:03
    noch genauer aufgepasst hat, gesehen, dass
    dieser NUTS-Level z.B. war ein Integer,
  • 36:03 - 36:08
    aber andere Sachen sind halt Zahlen. Ob
    jetzt ein Jahr eine Zahl ist oder ein
  • 36:08 - 36:14
    String... Ja, ich denke, wir sind dabei,
    das noch auszuknobeln. Wir haben jetzt im
  • 36:14 - 36:18
    Moment den Ansatz gewählt, möglichst wenig
    der Daten irgendwie weiter zu verarbeiten
  • 36:18 - 36:24
    und das möglichst direkt abzubilden in
    einer API, was auch zur Folge hat, dass im
  • 36:24 - 36:28
    Moment komplexere Queries auch teilweise
    sehr umständlich zu schreiben sind. Und
  • 36:28 - 36:33
    das ist einfach ein Thema, an dem wir im
    Moment noch arbeiten. Wir... was man noch
  • 36:33 - 36:37
    dazu sagen kann: Wenn jemand von euch sich
    schon intensiver mit dem Thema
  • 36:37 - 36:42
    auseinandergesetzt hat, es gibt ein
    anderes Projekt, das heißt ReGenesis. Das
  • 36:42 - 36:47
    hat Friedrich Lindenberg mal gemacht vor
    ein paar Jahren. Das ist quasi auch eine
  • 36:47 - 36:51
    Webanwendung, die eine Rest-API zur
    Verfügung stellt für diese Daten. Das
  • 36:51 - 36:54
    Projekt ist schon so ein bisschen sehr in
    die Jahre gekommen und wird auch nicht
  • 36:54 - 36:58
    mehr weiter gepflegt. Und wir setzen aber
    darauf auf. Das heißt, der Code, mit dem
  • 36:58 - 37:04
    wir die Daten herunterladen aus diesen
    offiziellen Portalen, das ist quasi der
  • 37:04 - 37:09
    ReGenesis-Code, den wir auch verwenden.
    Das ist eben auch eine Python-Anwendung.
  • 37:09 - 37:13
    Okay, weitere Fragen?
    P3nny: Ja, und wir müssen halt nochmal
  • 37:13 - 37:17
    gucken, weil die Idee ist, welche Schritte
    man sich vornimmt. Man könnte das relativ
  • 37:17 - 37:21
    umfangreich machen, dass man halt jeden
    einzelnen Datensatz durchgehen muss. Man
  • 37:21 - 37:24
    könnte dann definitiv eine bessere
    Erklärung dazu schreiben, muss das aber
  • 37:24 - 37:29
    halt mal recherchieren. Man müsste dann
    halt quasi diese Untervalues auch
  • 37:29 - 37:32
    nochmal... also man könnte versuchen,
    jeden einzelnen dieser Datensätze besser
  • 37:32 - 37:36
    zu machen. Das ist vielleicht ein bisschen
    viel gewollt, sodass wir jetzt erst gesagt
  • 37:36 - 37:39
    haben: Okay, wir gehen den Schritt zurück
    und machen halt diesen Pain, den ich
  • 37:39 - 37:44
    beschrieben habe, weniger schlimm. Also
    erstmal den ersten Schritt und dann das
  • 37:44 - 37:47
    andere auch in Kooperation mit den
    jeweiligen Ämtern und so, weil man dann
  • 37:47 - 37:49
    immer nochmal jemanden fragen muss, der
    diese Statistik erstellt hat. Weil wenn
  • 37:49 - 37:52
    ich dann eine einfachere Beschreibung hin
    schreibe, schlägt er nachher die Hände
  • 37:52 - 37:57
    über dem Kopf zusammen und sagt: Ja, so
    kann man das aber nicht genau sagen.
  • 37:57 - 38:01
    Deswegen - da dazwischen, in diesem
    Spannungsfeld bewegen wir uns und machen
  • 38:01 - 38:07
    jetzt erstmal den ersten Schritt.
    Q: Ja, wie sieht denn generell euer
  • 38:07 - 38:11
    Technologie Stack aus? Python und Flask
    haben wir jetzt schon gehört. Was ist noch
  • 38:11 - 38:16
    im Spiel bei euch?
    Simon: Also wir benutzen ja wie gesagt
  • 38:16 - 38:22
    Python und Flask für die Webanwendungen.
    Wir benutzen Elastic Search für die...
  • 38:22 - 38:26
    quasi als Such-Backend, aber wir arbeiten
    im Moment mit Elastic Search auch so, dass
  • 38:26 - 38:31
    wir einfach diesen kompletten Datensatz,
    den wir runterladen, einfach reinpumpen,
  • 38:31 - 38:35
    damit man auch darüber suchen kann. Ich
    bin mir auch noch nicht sicher, ob das der
  • 38:35 - 38:38
    perfekte Weg ist, aber im Moment
    funktioniert das für uns ganz gut. Das
  • 38:38 - 38:42
    heißt, wir haben keine Postgres-Datenbank
    oder so, wo das drin ist, sondern wir
  • 38:42 - 38:50
    haben einfach nur diesen Postgres... äh,
    diesen Elastic Search Datenhaufen und
  • 38:50 - 38:53
    suchen das dann darin. Das heißt, die
    Flask-App ist im Moment auch eine sehr
  • 38:53 - 38:58
    sehr einfache Flask-App, die einfach nur
    ein - ich sage jetzt mal so - ein Frontend
  • 38:58 - 39:02
    darüber zur Verfügung stellt - also quasi
    ein technisches Frontend. Die
  • 39:02 - 39:07
    Benutzeroberfläche, die ihr sehen könnt,
    also das grafische Frontend, das
  • 39:07 - 39:13
    entwickeln wir mit React und ein bisschen
    Datenvisualisierungs-Bibliotheken,
  • 39:13 - 39:19
    VictoryJS wäre so ein Stichwort. Das ist
    eine quasi ein React Wrapper um D3. Also
  • 39:19 - 39:24
    D3 ist so eine Datenvisualisierungs-
    Bibliothek, VictoryJS sind quasi
  • 39:24 - 39:33
    Datenvisualisierungs-Komponenten, die man
    in React verwenden kann auf Basis von D3.
  • 39:33 - 39:40
    Eine interessante technische Sache, was
    Patricia gerade angesprochen hat, ist: Es
  • 39:40 - 39:44
    gibt so eine Bewegung in der JavaScript-
    Welt, nicht mehr super komplexe JavaScript
  • 39:44 - 39:48
    Anwendungen zu bauen, die nur auf dem
    Client laufen, sondern Sachen halt
  • 39:48 - 39:52
    irgendwie wieder wie früher auf dem Server
    zu rendern oder idealerweise schon quasi
  • 39:52 - 39:58
    zu einem... ich sage mal zum Build-
    Zeitpunkt wieder als HTML auszugeben. Und
  • 39:58 - 40:03
    da gibt es ein fancy Wort dafür, das heißt
    JAMstack. Was es bedeutet: Das heißt
  • 40:03 - 40:08
    einfach nur, man baut eine Anwendung mit
    JavaScript, in unserem Fall mit React. Die
  • 40:08 - 40:13
    baut auf einer API auf. Die API kann auch
    für andere Dinge wiederverwendet werden
  • 40:13 - 40:18
    und wir bauen halt so einen JavaScript
    Client dafür. Und aus diesem JavaScript
  • 40:18 - 40:24
    Client generieren wir dann aber ganz viele
    HTML-Seiten, damit man quasi eine HTML-
  • 40:24 - 40:28
    Seite hat für jede Stadt. Und wenn du die
    dann... wenn du dann auf diese Seite
  • 40:28 - 40:32
    gehst, dann lädtst du die HTML-Seite
    runter und die kannst du direkt sehen,
  • 40:32 - 40:36
    weil es ist halt einfach nur HTML. Aber im
    Hintergrund wird halt dieser ganze
  • 40:36 - 40:41
    JavaScript-Kram initialisiert. Und das
    klingt jetzt sehr kompliziert, aber da
  • 40:41 - 40:44
    gibt es ein Framework, mit dem man sowas
    machen kann und das heißt Gatsby.js. Und
  • 40:44 - 40:48
    das benutzen wir hier und es funktioniert
    für uns auch sehr gut. Wenn euch... wenn
  • 40:48 - 40:51
    ihr da genaueres wissen wollt, ich hänge
    hier nachher noch ein bisschen rum, da
  • 40:51 - 40:55
    kann ich euch auch zeigen, wie das
    funktioniert. Haben wir noch Zeit für eine
  • 40:55 - 40:58
    Frage?
    Q: Halt, eine noch! Also noch einmal ein
  • 40:58 - 41:06
    Lob. Ich fand Konzept, Präsentation und
    eure Prototypen sehr gut aussehend. Eine
  • 41:06 - 41:11
    konzeptionelle Frage: Ihr habt jetzt einen
    hohen Fokus auf regionale Sachen gelegt.
  • 41:11 - 41:15
    Geht ja auch eine Ebene höher. Also
    Bundesländer und der Bund vielleicht. Ich
  • 41:15 - 41:18
    sehe nämlich mittel- bis langfristig auf
    jeden Fall irgendwie das Potenzial,
  • 41:18 - 41:23
    Statista... oder einen starken
    Konkurrenten zu Statista aufzubauen, wo
  • 41:23 - 41:28
    mir einfach gerade ein bisschen Open
    Source mäßig etwas fehlt.
  • 41:28 - 41:37
    Simon: Ja, also der Punkt kommt sehr oft.
    Also der Punkt kommt sehr oft. Ja, also
  • 41:37 - 41:41
    ich finde auch, Statista finde ich extrem
    schwierig. Vor allem finde ich es
  • 41:41 - 41:45
    schwierig, dass man, wenn man jetzt
    irgendeinen Datensatz googlet, dann findet
  • 41:45 - 41:49
    man meistens Statista und es vermittelt
    einem irgendwie, dass man jetzt bezahlen
  • 41:49 - 41:53
    muss, um diesen Datensatz herunterzuladen.
    Und wenn wir über diese amtliche Statistik
  • 41:53 - 41:59
    reden, dann sind das halt freie Daten. Und
    diese Idee, die ich vorhin beschrieben
  • 41:59 - 42:03
    habe, dass wir einzelne HTML-Seiten
    generieren für jeden Ort und jeden
  • 42:03 - 42:08
    Datensatz, der kommt auch daher, dass wir
    eigentlich so den Long Tail nutzen wollen
  • 42:08 - 42:12
    in den Suchmaschinen und eigentlich
    idealerweise dann irgendwann höher gerankt
  • 42:12 - 42:16
    werden als Statista. Zu dem anderen Teil
    deiner Frage, andere Datensätze da
  • 42:16 - 42:23
    reinzunehmen. Die statistischen Ämter
    benutzen dieses System Genesis, um diese
  • 42:23 - 42:26
    Daten zu veröffentlichen.
    regionalstatistik.de ist quasi eine
  • 42:26 - 42:30
    Genesis-Instanz, wo die Daten der
    Statistischen Landesämter drin sind. Aber
  • 42:30 - 42:34
    es gibt eben andere Genesis-Instanzen und
    mit unserer Technologie kann man
  • 42:34 - 42:39
    grundsätzlich auch andere Genesis-
    Instanzen - die Daten aus anderen Genesis-
  • 42:39 - 42:43
    Instanzen laden und zur Verfügung stellen,
    weil das alles genau gleich funktioniert.
  • 42:43 - 42:48
    Das hat halt mit unserem föderalen System,
    was wir in Deutschland haben, zu tun.
  • 42:48 - 42:52
    Wobei das nicht heißt, dass die Software
    ein föderiertes System ist. Also es ist
  • 42:52 - 42:58
    nicht Mastodon-föderiert, dass ich quasi
    über eine Instanz von dieser Software alle
  • 42:58 - 43:02
    Daten abfragen kann, sondern die haben
    halt einfach einzelne Instanzen, weil halt
  • 43:02 - 43:06
    andere Leute zuständig sind für andere
    Datensätze. Aber perspektivisch wäre es
  • 43:06 - 43:11
    schon mein Ziel, mit diesem Konzept auch
    andere Datensätze, idealerweise halt
  • 43:11 - 43:15
    alles, was irgendwie über Genesis
    veröffentlicht wird, zur Verfügung zu
  • 43:15 - 43:18
    stellen. Wir haben uns jetzt eben als
    einfachen Use Case die
  • 43:18 - 43:22
    regionalstatistik.de ausgesucht. Also ich
    muss dazu sagen, wir arbeiten da schon
  • 43:22 - 43:28
    seit einem Jahr dran. Und wir haben am
    Anfang sehr viel ausprobiert und wir haben
  • 43:28 - 43:34
    auch über die Zeit unseren Scope verändert
    und die Tatsache, dass wir jetzt eben
  • 43:34 - 43:38
    diese konkrete, dieses konkrete Produkt
    entwickeln und uns auf die
  • 43:38 - 43:42
    regionalstatistik konzentrieren, das ist
    eigentlich eine neuere Sache. Aber das ist
  • 43:42 - 43:45
    einfach etwas, was wir jetzt machen
    müssen, damit wir mit irgendetwas mal
  • 43:45 - 43:50
    vorankommen. Wir sind auch nur zu dritt
    und vielleicht so vier, je nachdem, wie
  • 43:50 - 43:57
    man das zählt. Und lange zu zweit. Genau
    deswegen, ja. Wir sind halt auch nicht
  • 43:57 - 44:03
    Statista. Aber Open Source Schreibtisch-
    Hooligan Statista finde ich super. Also
  • 44:03 - 44:06
    wenn noch ein paar Leute von euch Lust
    haben, dann können wir uns sehr gerne
  • 44:06 - 44:10
    drüber unterhalten.
    Herald: Also wir haben auch noch viel Zeit
  • 44:10 - 44:14
    übrig, denke ich. Noch eine Viertelstunde
    oder so. Wenn es noch mehr Fragen gibt,
  • 44:14 - 44:20
    supergeil. Ja, gerne weiter.
    Q: Wie organisiert ihr euch als Projekt
  • 44:20 - 44:27
    und wie finanziert ihr euch?
    Simon: Ja, also vielleicht... genau.
  • 44:27 - 44:33
    Patricia geht mal hier zurück, weit
    zurück. Also wir organisieren uns im
  • 44:33 - 44:43
    Moment so ein bisschen über GitHub Issues.
    Wir haben nen Slack-Channel im OKF-Slack.
  • 44:43 - 44:47
    Das ist halt irgendwie das Einfachste für
    uns, wir sind auch ein verteiltes Team.
  • 44:47 - 44:52
    Also ich sage mal, wir arbeiten zeitlich
    und räumlich verteilt. Patricia ist in
  • 44:52 - 44:57
    Köln. Ich bin in Berlin. Mein anderer
    Kollege Simon Wörpel, der ganz viel an der
  • 44:57 - 45:01
    API arbeitet, der ist zwar auch in Berlin,
    aber Berlin ist eine große Stadt. Wir
  • 45:01 - 45:07
    sehen uns jetzt auch nicht jeden Tag.
    Deswegen halt sehr viel über Slack. Wir
  • 45:07 - 45:11
    haben uns jetzt in der Vergangenheit immer
    mal getroffen. Ich glaube, wir uns zwei
  • 45:11 - 45:19
    Mal getroffen, seit wir an dem Projekt
    arbeiten. Und... also dreimal mit jetzt.
  • 45:19 - 45:25
    Nächstes Jahr wollen wir, also wie gesagt,
    so eine Art Hackathon machen. Da wollen
  • 45:25 - 45:30
    wir auch ein bisschen mehr Community
    zusammenbringen und dann halt in dem
  • 45:30 - 45:34
    Zusammenhang auch irgendwie gucken, wie
    man das Projekt als Open Source Projekt
  • 45:34 - 45:37
    weiterentwickeln kann und was für
    Kommunikationskanäle man dann auch
  • 45:37 - 45:44
    braucht. Zur Förderung. Also ich hab ja
    vorhin gesagt, wir hatten am Anfang eine
  • 45:44 - 45:50
    Förderung vom Prototype Fund. Das ist ein
    sehr gutes Förderprogramm für Open Source
  • 45:50 - 45:55
    Projekte, die halt irgendwie eine
    gesellschaftliche Relevanz haben. Das war
  • 45:55 - 45:58
    auch in der in der Bewerbung, in der
    Durchführung super. Also kann ich nur
  • 45:58 - 46:02
    jedem empfehlen. Ich habe tatsächlich
    inzwischen auch schon ein zweites
  • 46:02 - 46:07
    Prototype Fund Projekt hinter mir. Alle da
    bewerben. Ich muss dazu sagen, ich habe
  • 46:07 - 46:10
    mich auch mit viel mehr Kram beworben, der
    wurde nicht genommen. Gibt wahrscheinlich
  • 46:10 - 46:17
    auch viele Bewerber. Aber ich kann auf
    jeden Fall jedem raten, es auszuprobieren
  • 46:17 - 46:20
    und euch am besten vorher mal mit den
    Leuten vom Prototype Fund zu unterhalten.
  • 46:20 - 46:23
    Die sind auch hier irgendwie unterwegs.
    Wenn ihr die hier anpingt, dann habt ihr
  • 46:23 - 46:26
    sicher die Möglichkeit, da noch eine
    Audienz zu kriegen. Das ist auch ein
  • 46:26 - 46:30
    laufendes Programm. Also Prototype Fund
    könnt ihr euch glaub ich noch das nächste
  • 46:30 - 46:37
    Jahr oder so auf ein paar weitere
    Förderrunden noch bewerben. Unsere
  • 46:37 - 46:44
    aktuelle Förderung setzt sich zusammen aus
    Geld, das wir vom Medien
  • 46:44 - 46:49
    Innovationszentrum Babelsberg bekommen
    haben und so einem Stipendium, das ich
  • 46:49 - 46:56
    habe, im Moment. Das Medien
    Innovationszentrum ist so ein Konstrukt,
  • 46:56 - 47:01
    da werden quasi Rundfunkgebühren
    umverteilt an Innovationsprojekte und die
  • 47:01 - 47:07
    haben auch ein großes Interesse dran, so
    Open Source Projekte zu fördern. Kann man
  • 47:07 - 47:12
    sich auch bewerben, ist ein bisschen
    aufwendiger, so in der Durchführung und
  • 47:12 - 47:18
    was den administrativen Aufwand angeht und
    ist nicht so viel Geld wie der Prototype
  • 47:18 - 47:21
    Fund. Deswegen immer erst einmal beim
    Prototype Fund bewerben und wenn ihr dann
  • 47:21 - 47:25
    noch mehr Geld braucht, beim MIZ bewerben.
    Das wäre so meine Strategie.
  • 47:25 - 47:29
    P3nny: Genau. Was wir aber im Rahmen
    dieses MIZ-Dingens machen, weil der Fokus
  • 47:29 - 47:33
    da auf Journalisten und journalistische
    Produktentwicklung liegt, ist, mit
  • 47:33 - 47:37
    Redaktionen zusammenzuarbeiten. Also es
    gab neulich einen dpa Hack Day, wo schon
  • 47:37 - 47:43
    die ersten Journalistinnen mit einem Team
    die API genutzt haben, um so eine Art
  • 47:43 - 47:47
    Newslettersystem... also ich kann mich
    als Lokalredakteur für meine Stadt
  • 47:47 - 47:51
    Flensburg oder so da anmelden und kriege
    dann halt immer nen Alert, wenn Daten...
  • 47:51 - 47:56
    also wenn Flensburg irgendwo top oder low
    gerankt ist. Sowas kann man sich ja auch
  • 47:56 - 47:59
    vorstellen, dass man das als Service
    anbietet. Und ich selber bin freie
  • 47:59 - 48:03
    Mitarbeiterin beim WDR. Geplant ist, dass
    wir ein Daten-Projekt vielleicht rund um
  • 48:03 - 48:08
    die Europageschichte oder so mit dem WDR
    und so machen. Also um das, was wir da
  • 48:08 - 48:11
    tun, auch reinzutragen in etablierte
    journalistische Unternehmen.
  • 48:11 - 48:17
    Simon: Ja also ich vermute mal, dass deine
    Frage auch mehr so auf Businessmodell
  • 48:17 - 48:23
    abgezielt hat dafür. Und das haben wir
    tatsächlich im Moment nicht. Man muss mal
  • 48:23 - 48:29
    gucken. Also jetzt im Moment ist es ja
    sehr... also es ist sehr billig, das zu
  • 48:29 - 48:32
    betreiben für uns im Moment. Die Website
    wird wahrscheinlich auch relativ
  • 48:32 - 48:36
    unproblematisch sein, weil die ist erstmal
    nur ein Haufen HTML. Das kann man im
  • 48:36 - 48:39
    Zweifelsfall umsonst bei Netlify oder so
    betreiben oder auf GitHub. Interessanter
  • 48:39 - 48:45
    ist halt die Sache mit der API. Also ich
    glaube, wenn wir... also so ein großer
  • 48:45 - 48:50
    Elastic Search Cluster kostet richtig
    Geld. Ich denke mal, wenn wir Power User
  • 48:50 - 48:55
    haben, die dafür halt irgendwas... also
    diese API für irgendetwas benutzen, was
  • 48:55 - 48:58
    vielleicht für die auch eine kommerzielle
    Relevanz hat, dann kann ich mir schon
  • 48:58 - 49:04
    vorstellen, dass man da irgendein Modell
    findet, wo man quasi dafür bezahlt, wenn
  • 49:04 - 49:08
    man einen sehr hohen, sehr hohes
    Datenaufkommen verursacht oder so. Aber
  • 49:08 - 49:13
    das ist so ein Problem, mit dem wir uns im
    Moment noch nicht befassen. Grundsätzlich
  • 49:13 - 49:18
    hab ich... Genau. Es gibt ja alle
    möglichen Ideen, was man da drum machen
  • 49:18 - 49:22
    kann. Ich kann mir gut vorstellen, dass
    man perspektivisch vielleicht etwas über
  • 49:22 - 49:26
    Sponsoring macht, also dass man sagt, dass
    Medienorganisationen, die unsere Daten
  • 49:26 - 49:32
    verwenden... keine Ahnung, uns irgendwie
    fördern oder so. Patrica hat gerade
  • 49:32 - 49:36
    gesagt, wir haben auch schon so überlegt,
    ob man halt ne Brücke baut zu anderen
  • 49:36 - 49:39
    Tools, wo man dann vielleicht irgendwas
    Kommerzielles macht, was nicht der Kern,
  • 49:39 - 49:43
    das Kernprojekt ist. Also dass man sagt,
    es gibt ein Datenvisualisierungstool, das
  • 49:43 - 49:46
    heißt Data Wrapper. Naja, dass man sagt,
    wenn Data Wrapper irgendwie unsere Daten
  • 49:46 - 49:49
    benutzen will, dann stellen wir das denen
    halt in irgendeiner Form zur Verfügung und
  • 49:49 - 49:54
    man überlegt sich dann da halt ein Modell
    dazu. Aber ich will eigentlich nicht so...
  • 49:54 - 49:56
    ich sehe mich jetzt nicht als
    Medienunternehmer und ich will jetzt auch
  • 49:56 - 50:02
    nicht den nächsten Statista Datenbroker
    gründen, gerade hier auf dem Kongress.
  • 50:02 - 50:08
    Also idealerweise würde dieses Angebot
    auch irgendwann sich selber abschaffen,
  • 50:08 - 50:11
    weil die statistischen Ämter sehen, wie
    sie die Daten eigentlich aufbereiten
  • 50:11 - 50:14
    müssen, damit Bürger die nutzen und dann
    machen sie selber ein ähnliches Angebot.
  • 50:14 - 50:18
    Das ist jetzt vielleicht sehr utopisch
    gedacht, aber es gibt durchaus Leute bei
  • 50:18 - 50:22
    den statistischen Ämtern, die ein
    Interesse daran haben, sich breiter zu
  • 50:22 - 50:26
    öffnen. Und die sehen auch, dass sie etwas
    machen müssen. Weil die sind dem
  • 50:26 - 50:32
    Innenministerium unterstellt und die sind
    nicht unbedingt die größte Priorität vom
  • 50:32 - 50:36
    Innenministerium gerade. Das heißt, die
    haben durchaus auch ein Interesse daran,
  • 50:36 - 50:40
    mehr Aufmerksamkeit für ihre Arbeit und
    ihre Daten zu kriegen. Und wir stehen auch
  • 50:40 - 50:51
    auf jeden Fall im engen Austausch mit den
    statistischen Ämtern.
  • 50:51 - 50:57
    Q: Ja hi, eine Frage, wie ihr die Daten
    gewinnt. Ihr habt gesagt, Genesis wäre ein
  • 50:57 - 51:00
    Austauschformat? Also ich stelle mir das
    sehr mühsam vor, wenn ich jetzt überlege,
  • 51:00 - 51:03
    wie ich diese ganzen Daten von diesen
    Seiten aggregieren müsste, das wäre - ich
  • 51:03 - 51:07
    würde jetzt schon aufhören. Und es scheint
    da nen Standard zu geben. Könnt ihr
  • 51:07 - 51:10
    darüber was sagen oder wie diese Daten zu
    euch kommen?
  • 51:10 - 51:14
    Simon: Ja, genau. Also ich habe vorhin ja
    erwähnt, wir sind da schon durch so ein
  • 51:14 - 51:19
    paar Iterationen gegangen. Am Anfang haben
    wir tatsächlich die Daten mehr oder
  • 51:19 - 51:24
    weniger gescrapet, was auch nicht so
    einfach ist, weil eigentlich werden die
  • 51:24 - 51:29
    Daten da halt für jeden Abruf generiert,
    aber da gibt's halt so ein paar... das ist
  • 51:29 - 51:35
    alles, ja, also alles so ein bisschen
    kompliziert. Aber es gibt halt die
  • 51:35 - 51:38
    Möglichkeit, da auch statische Daten
    runterzuladen einfach und das haben wir eine
  • 51:38 - 51:42
    Weile gemacht und haben uns dann so ein
    Schema-System überlegt, mit dem man quasi
  • 51:42 - 51:47
    automatisiert diese einzelnen Datensätze
    aufräumen kann. Da musste man aber immer
  • 51:47 - 51:53
    noch für jeden von den 450 Datensätze
    irgendein Schema beschreiben. Wir sind
  • 51:53 - 51:58
    dann im Austausch mit den statistischen
    Ämtern so weit gekommen, dass es
  • 51:58 - 52:02
    tatsächlich eine Daten-Schnittstelle gibt,
    die ist für regionalstatistik.de nicht
  • 52:02 - 52:10
    dokumentiert. Aber sie existiert. Alle
    Genesis-Instanzen, die betrieben werden,
  • 52:10 - 52:14
    die haben eine Daten-Schnittstelle. Die
    kostet manchmal Geld, manchmal nicht. Bei
  • 52:14 - 52:19
    dem offiziellen Angebot von Destatis zum
    Beispiel, da kostet die ein Haufen Geld
  • 52:19 - 52:23
    und ist dokumentiert. Bei
    regionalstatistik.de kostet die nichts,
  • 52:23 - 52:27
    dafür ist auch nirgendwo im Web was drüber
    geschrieben. Wir benutzen jetzt aber diese
  • 52:27 - 52:31
    Datenschnittstelle, das ist eine SOAP-
    Schnittstelle, wenn des hier jemand was
  • 52:31 - 52:35
    sagt. Also es ist mehr so Enterprise
    Level. Das benutzen halt Banken und
  • 52:35 - 52:39
    Versicherungen. Vielleicht heute auch
    nicht mehr, wenn sie heute nochmal damit
  • 52:39 - 52:44
    anfangen würden. Aber es ist halt eine
    SOAP-Schnittstelle und ist quasi eine
  • 52:44 - 52:50
    SOAP-Schnittstelle auf nen OLAP Data Cube.
    Also das ganze ist ein Datenquader, also
  • 52:50 - 52:54
    irgendwie so eine Terabyte große
    Datenstruktur, die irgendwo steht. Die
  • 52:54 - 52:58
    könnte man sich auch komplett runterladen
    und dann direkt auf diesem OLAP Cube
  • 52:58 - 53:03
    operieren. Aber im Moment benutzen wir
    ReGenesis, das ist eben dieses Open Source
  • 53:03 - 53:09
    Tool, was ich vorhin beschrieben habe. Und
    mit ReGenesis kann man eben diese SOAP API
  • 53:09 - 53:14
    relativ einfach aus Python ansprechen.
    Aber die Idee ist halt, dass wir ein Layer
  • 53:14 - 53:18
    drüber ziehen, der einfacher ist. Aber wir
    räumen jetzt, also Stand jetzt, räumen wir
  • 53:18 - 53:23
    nicht mehr manuell Daten auf, die wir
    gescrapet haben. So viel kann ich sagen.
  • 53:23 - 53:28
    Q: So eine Follow up Frage hätte ich dazu
    noch aus dem Operations-Bereich: Skaliert
  • 53:28 - 53:32
    das? Also wenn ihr weitere Datenquellen
    anbinden wollt, wie Bundes-, whatever?
  • 53:32 - 53:34
    Keine Ahnung, wie viel manuelle Arbeit
    steckt da drin?
  • 53:34 - 53:38
    Simon: Naja, also jetzt kann man
    tatsächlich halt... also es gibt dieses
  • 53:38 - 53:42
    Open Source Projekt, kannst du dir
    angucken, kann man mit mehr oder weniger,
  • 53:42 - 53:47
    naja, ich glaube so in 20 bis 30 Minuten
    kann man sich dieses Backend-Projekt
  • 53:47 - 53:51
    aufsetzen und dann auch Daten da rein
    laden. Also es ist schon alles irgendwie
  • 53:51 - 53:55
    so automatisiert, dass man das machen kann
    jetzt für uns. Naja, inwieweit es skaliert
  • 53:55 - 53:58
    Also skalieren hat hier verschiedene
    Dimensionen. Also einmal pumpen wir die
  • 53:58 - 54:02
    Daten halt alle in Elastic Search. Keine
    Ahnung, ob das skaliert, wird sich noch
  • 54:02 - 54:09
    rausstellen. Funktioniert jetzt mit dem
    Datensatz, den wir haben. Die andere Sache
  • 54:09 - 54:14
    ist halt der Download der Daten und das
    ist im Moment relativ einfach aufgesetzt.
  • 54:14 - 54:18
    Also ich hatte vorgestern hier einen
    technischeren Talk drüben in der Chaos
  • 54:18 - 54:22
    Zone und hab darüber geredet, wie das
    technisch funktioniert. Und dann kam
  • 54:22 - 54:29
    gestern jemand zu mir und hat mir erklärt,
    er hat jetzt einen Docker-Container
  • 54:29 - 54:33
    gebaut, der unser Backend enthält mit
    allem Zeug. Also das heißt, irgendjemand
  • 54:33 - 54:36
    hat sich dann hingesetzt und das gemacht.
    Das ging offensichtlich relativ einfach.
  • 54:36 - 54:43
    Ich weiß nicht ob die Person da ist. Nein,
    auch gut, aber ja. Also mit dem Text-Hack
  • 54:43 - 54:46
    zu arbeiten ist relativ einfach, wie es
    perspektivisch skaliert, ist glaube ich
  • 54:46 - 54:52
    eher ein Problem der Datenhaltung. Und ich
    glaube, wenn man richtig viel damit machen
  • 54:52 - 54:56
    wollte, müsste man eigentlich sich mit
    diesem OLAP Cube befassen. Das sagen auch
  • 54:56 - 55:00
    die Leute von den statistischen Ämtern.
    Also wenn man denen mit einem besonderen
  • 55:00 - 55:03
    Problem kommt, dann sagen die: Ja, da
    müssen sie halt den Datenquader
  • 55:03 - 55:10
    runterladen. Also, das heißt Datenquader
    bei denen. Aber ja, das machen tatsächlich
  • 55:10 - 55:14
    auch Leute. Also Statista lädt
    wahrscheinlich diesen OLAP Cube runter,
  • 55:14 - 55:17
    wahrscheinlich irgendwie jede Nacht oder
    so. Das wäre jetzt so meine Vermutung. Und
  • 55:17 - 55:21
    dann haben die halt irgendwelche Prozesse
    hinten dran, was das in ihre Systeme
  • 55:21 - 55:24
    übersetzt. Aber das ist halt so ein
    Bereich, in dem wir jetzt
  • 55:24 - 55:28
    nicht operieren. Also das ist dann
    auch ein anderes Projekt, glaube ich.
  • 55:31 - 55:37
    Q: Gibt es, gibt es irgendwo eine
    Übersicht von diesen amtlichen
  • 55:37 - 55:40
    Kennzeichen, von den Variablen oder den
    Definitionen dahinter?
  • 55:40 - 55:45
    Simon: Ja. Willst du darüber was sagen?
    P3nny: Also auf regionalstatistik.de
  • 55:45 - 55:53
    gibt's einen Daten-Katalog und in dem sind
    die quasi nach Feldern aufgeschlüsselt.
  • 55:53 - 56:00
    Also Wirtschaft, Umwelt, Bevölkerung oder
    so grob. Und da drunter findest du dann
  • 56:00 - 56:03
    die einzelnen Dateien. Wobei so richtig
    gut zum Durchsteigen ist das nicht. Aber
  • 56:03 - 56:07
    wenn man sich damit beschäftigt, dann
    versteht man das schon. Und dann findet
  • 56:07 - 56:10
    man diese Kennziffer und diese Kennziffer
    kann man ja dann auch wieder in die API
  • 56:10 - 56:13
    reinschmeißen.
  • 56:13 - 56:19
    Hier vorne noch?
    Da hinten?
  • 56:19 - 56:22
    Simon: Also eine Sache dazu ist auch, dass
  • 56:22 - 56:30
    wir auch... also wir haben so ein GitHub
    Issue offen, diese Übersicht auch da
  • 56:30 - 56:36
    rauszuziehen und quasi mit in unsere in
    unsere Web-Oberfläche einzubinden. Also
  • 56:36 - 56:42
    ich habe gerade schon gezeigt, dass wir so
    eine riesenlange Liste haben von jeder
  • 56:42 - 56:46
    Stadt und jeder Gemeinde. Und genauso
    wollen wir halt auch eine riesenlange
  • 56:46 - 56:51
    Liste von jedem Merkmal, das man
    durchsuchen kann. Das heißt, das ist quasi
  • 56:51 - 56:56
    eine Aufgabe, an der wir arbeiten werden
    in den nächsten Wochen.
  • 56:56 - 57:02
    Q: Okay, von mir... okay sorry. Nochmal
    eine Folgefrage quasi: Habt ihr
  • 57:02 - 57:06
    mittelfristig vor, auch manuelle
    Dateneingabe zu ermöglichen? Weil es gibt
  • 57:06 - 57:10
    ja relativ viele Reports von
    Unternehmensberatungen etc pp, wo
  • 57:10 - 57:14
    superspannende Daten drinstehen, was aber
    glaube ich schwierig zu automatisieren
  • 57:14 - 57:16
    ist. Ob ihr da so vorhabt, einen
    Communityapproach zu fahren,
  • 57:16 - 57:19
    dass irgendjemand das einträgt und
    irgendjemand reviewt das
  • 57:19 - 57:21
    und dann passt das schon oder
    irgendwas in die Richtung?
  • 57:21 - 57:23
    Simon: Also ja, das haben wir im Moment
  • 57:23 - 57:30
    nicht vor. Also im Moment ist unser Weg
    der einfache Weg und das ist, quasi Dinge
  • 57:30 - 57:34
    verwenden, die irgendwie einheitlich
    erfasst werden, wo klar definiert ist, wo
  • 57:34 - 57:37
    sie herkommen, wo auch die Lizenz-
    Situation klar ist und die dann halt
  • 57:37 - 57:41
    wieder zu veröffentlichen. Also ich hab
    die Frage auch schon öfter bekommen bei so
  • 57:41 - 57:45
    Präsentationen und es ist im Moment,
    glaube ich, irgendwie komplett out of
  • 57:45 - 57:49
    scope für uns, weil es halt dann so viele
    Fragen aufwirft, mit denen wir uns dann
  • 57:49 - 57:53
    befassen müssten. Das ist halt einfach...
    da haben wir gerade andere Probleme, die
  • 57:53 - 57:56
    wir einfacher lösen könnten, so. Aber
    interessant wäre es auf jeden Fall und das
  • 57:56 - 58:02
    wäre dann quasi so ein Gecrowdsourcestes,
    selber gemachtes Open Data Statista. Also
  • 58:02 - 58:04
    ich fände es super interessant, aber das
    ist glaube ich ein anderes Projekt
  • 58:04 - 58:07
    einfach.
  • 58:07 - 58:13
    Herald: Ich glaube, wir haben noch Zeit
    für eine letzte Frage. Gibt's noch eine?
  • 58:13 - 58:21
    Simon: Ja, keine Fragen. Ist doch super.
    Ja, ich bin hier links um die Ecke
  • 58:21 - 58:24
    noch ne Weile, wenn ihr irgendwie
    konkretere Fragen habt
  • 58:24 - 58:27
    oder euch nochmal was angucken
    wollt oder mir noch von eurer Idee
  • 58:27 - 58:31
    erzählen wollt, dann kommt gern vorbei und
    quatscht mich an. Vielen Dank.
  • 58:31 - 58:32
    Applaus
  • 58:32 - 58:34
    Musik
  • 58:34 - 58:57
    Untertitel erstellt von c3subtitles.de
    im Jahr 2021. Mach mit und hilf uns!
Title:
cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
Video Language:
German
Duration:
58:57

German subtitles

Revisions