<i>Musik</i>

Herald: Ja, herzlich willkommen zum
nächsten Talk in der Wikipaka WG. Hier

zeigen uns Simon und P3nny das Projekt
Datenguide. Viel Spaß!

Simon: Hallo. Ok. Hi zusammen. Ja, wie
gesagt, P3nny und ich, wir möchten über

einen Open Data Projekt sprechen, an dem
wir arbeiten. Das Projekt heißt

Datenguide. Findet ihr unter datengui.de.
Und unsere Mission ist einfach gesagt,

Statistiken zugänglicher zu machen für
alle. Wenn wir über Statistiken reden,

dann reden wir über amtliche Statistik.
Außerdem werden wir gefördert vom MIZ in

Babelsberg von einem Programm, das heißt
Prototype Fund. Das sind ausgezeichnete

Programme. Wenn Ihr Funding Möglichkeiten
sucht für eure Open Source Projekte, kann

ich nur empfehlen, euch das mal genauer
anzugucken. Unser Sourcecode ist frei auf

GitHub unter Datenguide. Und wenn wir
über Statistiken reden, dann meinen wir

amtliche Statistik. Amtliche Statistik ist
einfach gesagt alle Statistiken zu

Gesellschaft, Umwelt und Wirtschaft. Und
das sind Statistiken, die von den

Statistischen Ämtern erstellt werden. Und
das ist, was die Statistiker deskriptive

Statistik nennen. Das heißt, es gibt da
keine Interpretation, keine Prognosen,

sondern es ist einfach nur einfache
Statistik, die beschreibt, wie irgendwas

ist. Paar Beispiele sind z.B. Zahlen über
Schulen. Also Zahlen zu Schülern und

Absolventen nach Schulart für eure Stadt
z.B. Oder Zahlen zur Abfallentsorgung.

Also wie viel Hausmüll gibt es in eurer
Stadt? Wieviel wird recycelt in eurer

Stadt? Und Zahlen zu Migration und
Einbürgerung, z.B.: Wie viele Menschen

werden in eurer Stadt eingebürgert? Wie
alt sind die? Wie alt waren die? Oder seit

wie vielen Jahren sind die in Deutschland?
Das sind jetzt nur drei Beispiele. Der

Datensatz oder der Datenpool, mit dem wir
uns jetzt im Moment auseinandersetzen,

sind die Daten von regionalstatistik.de.
Was das bedeutet, werde ich nachher

nochmal ein bisschen erklären. Und da
reden wir über 450 Datensätze zu allen

möglichen Themen. Das heißt, diese drei
Sachen sind einfach nur Beispiele. Wenn

man sich jetzt so anguckt, was die
Statistischen Ämter sagen über sich

selber, dann sagen die, sie sind objektiv
unabhängig und machen qualitativ

hochwertige Statistik. Da gehe ich auch
mit, ja. Und dann sagen die noch, sie

machen es für Politik, Verwaltung,
Wirtschaft sowie für Bürgerinnen und

Bürger. Und wenn man sich anguckt, wie die
amtliche Statistik im Moment

veröffentlicht wird und an wen die so...
für wen diese aufbereitet wird, dann gehe

ich mit, dass das Ziel Politik und
Verwaltung ist - Wirtschaft vermutlich auch.

Bürgerinnen und Bürger, da gibt es ein
gewisses Defizit und das ist eben das

Thema, das wir uns anschauen. Aber erst
einmal so ein kleiner Exkurs. Ja, erstmal,

wo kommen überhaupt diese Daten her? Und
ihr habt vielleicht vor kurzem diese

Geschichte gehört: Das ist die Geschichte
einer Volkszählung. Ja, also vor ungefähr

2000 Jahren hat sich Kaiser Augustus,
Herrscher des Römischen Reiches, überlegt,

dass er bessere Daten braucht über die
Bürger in seinem Reich. Also hat er ein

Zensus angeordnet. Und im Rahmen von
diesem Zensus sollte jeder Bewohner des

Römischen Reichs zu seiner Heimatstadt
reisen und sich dort zählen lassen. Und in

dem Prozess wurde ein kleines Kind
geboren. Aber am Ende ist es immer noch

die Geschichte von einer Volkszählung und
... zum Zwecke der Steuererhebung, genau.

Also die Römer hatten relativ großen
militärischen Komplex, den sie finanzieren

mussten und deshalb mussten sie wissen,
wo, wie viele Menschen leben, damit sie

wissen, wie viele Steuern sie erheben
können. Und genauso ist es bis heute.

Überall, wo es einen Staat gibt oder eine
Verwaltung, braucht die Information

darüber, wie viele Menschen irgendwo
leben, wie viele Kinder zur Schule gehen,

wie viele Kinder vielleicht demnächst zur
Schule gehen. Und deswegen wird relativ

viel Aufwand betrieben, Daten zu erfassen
über uns all. In eigentlich allen

Industrienationen, sag ich mal, haben wir
sowas wie ein 10jährigen Zensus. Und das

ist eigentlich so ähnlich wie die
Geschichte von Kaiser Augustus vorher. Das

heißt, alle zehn Jahre werden in
irgendeiner Form alle Menschen gezählt,

die in einem Land leben. Heute reisen wir
nicht mehr an unseren Geburtsort, sondern

es gibt Leute, die normalerweise von Tür
zu Tür gehen, bei euch klingeln und euch

dann Fragen stellen. In Deutschland ist
das ein bisschen anders. Hier gab es einen

letzten Zensus 2011 und davor gab's eine
Weile keinen Zensus. Hat mit unserer

Geschichte zu tun und auch mit Protesten,
die es gab, in der Vergangenheit. Aber es

gibt auch verschiedene andere
Möglichkeiten, wie eigentlich immer Daten

erfasst wurden. Außer der richtigen
Volkszählung, also dem Makrozensus, gibt's

einen Mikrozensus. Und beim Mikrozensus
wird eben einfach eine Stichprobe

genommen. Das heißt, eine Handvoll Leute
wird genauer betrachtet und davon

ausgehend wird dann irgendwas
hochgerechnet. Und außerdem gibt es etwas,

was die Statistiker Sekundärstatistik
nennen. Das heißt, Daten, die irgendwo an

anderer Stelle erfasst werden, werden
verarbeitet. Für die Statistik, also in

Deutschland werden irgendwelche Zahlen,
z.B. über Landwirthschaft, erfasst, bei

irgendwelchen Landwirtschaftsämtern. Und
diese Zahlen werden dann an die

statistischen Ämter weitergegeben und dort
werden dann eben Statistiken draus

gemacht, die dann auch von den
Statistischen Ämtern veröffentlicht

werden. Außerdem gibt's bei uns und vielen
anderen, ich sag mal so europäischen und

nordischen Ländern gibt's einen
Registerzensus. Und das heißt, die Zahlen,

die es über euch schon gibt, z.B. im
Bevölkerungsregister - weil ihr habt euch

ja alle ordentlich angemeldet - die
Zahlen, die werden dann wiederum verwendet

und an die statistischen Ämter
weitergegeben. Ja, ihr könnt euch ja

vorstellen, das sind relativ viele Daten.
Das sind persönliche Daten über uns alle

und deswegen wird in Deutschland das
Statistikgeheimnis sehr hochgehalten. Also

das ist tatsächlich ein Begriff aus der
amtlichen Statistik. Das bedeutet, dass

Sie sich extrem viel Mühe geben, Daten zu
anonymisieren, die werden in der... also

Zahlen, die in einem Rahmen vom Zensus
erfasst werden, werden normalerweise schon

anonymisiert, wenn sie erhoben werden. Das
heißt, da steht nie irgendwie euer Name

drauf. Und es werden nur aggregierte
Zahlen veröffentlicht. Das heißt, in

diesen Datensätzen, von denen wir reden,
da steht normalerweise drin, wie viel es

von irgendetwas gibt und nicht, was genau
es gibt. Das ist auch ein wichtiger Punkt.

Außerdem dürfen Menschen und Unternehmen
nicht nachträglich identifizierbar sein.

Und das ist so ein bisschen kontroverses
Thema. Und da wird auch nächstes Jahr ein

bisschen was passieren. Weil gerade für
Journalistinnen und Journalisten ist es

halt auch wichtig, Daten über Unternehmen
zu kriegen. Und unsere Hauptzielgruppe im

Moment ist Journalismus. Und die erste
Frage, die uns Leute stellen, ist

normalerweise: Ja, kann ich jetzt hier
Bayer in meiner Stadt genauer

identifizieren und sehen, was sie machen?
Und die Antwort ist nein. Also wenn es

irgendwo in einer Stadt zum Beispiel nur
einen Landwirtschaftsbetrieb gibt, dann

werdet ihr über diese Stadt keine Zahlen
zur Landwirtschaft kriegen, weil

Statistikgeheimnis. Das ist auch ein
wichtiger Aspekt, spielt aber bei vielen

Zahlen auch keine Rolle, die tatsächlich
da drin sind. Ja, jetzt habe ich gerade

schon gesagt: Volkszählung ist ein
kontroverses Thema. Und amtliche Statistik

insgesamt auch, so gesehen. Wenn ihr, wie
ich, noch irgendwie die 80er mitgekriegt

habt, dann könnt ihr euch vielleicht an
solche Graffitis erinnern, weil in den

80ern gab es tatsächlich einen massiven
Protest und 81 wurde der Zensus verhindert

in der BRD und 87 hat er dann nur sehr
eingeschränkt stattgefunden. Und die

Proteste und die Verfassungsklagen, die es
damals gab, die sind auch quasi in

wichtiger... oder eigentlich die Wurzel
auch dieser Idee der informationellen

Selbstbestimmung, die wir heute haben.
Also quasi diese Idee von Datenschutz, mit

der wir hier rumlaufen und sagen, dass wir
selber die Kontrolle über unsere

persönlichen Daten haben, die sind konkret
darauf zurückzuführen. Deswegen ist es auf

jeden Fall auch eine wichtige Diskussion.
Für unser Projekt spielt das keine Rolle.

Wir sehen es so: Die Daten sind jetzt da
und die wurden von euch erfasst mit euren

Steuergeldern. Und es ist wichtig, dass
ihr Zugriff auf diese Daten habt. Und

deswegen machen wir dieses Projekt. Wenn
ihr jetzt mit diesen Zahlen arbeiten

wollt, dann gibt's eine gute und eine
schlechte Nachricht. Die gute Nachricht

ist: Das ist freies Wissen. Also Open
Data. Es gibt die Daten-Lizenz

Deutschland, unter der diese Daten
veröffentlicht werden, die erfordert, wenn

ihr die Daten quasi verwendet und
wiederveröffentlicht, dass ihr die Quelle

nennt, dass in diesem Fall normalerweise
die Statistischen Ämter, dass ihr ein

Verweis auf die Lizenz macht und ein
Verweis auf den Datensatz - also

normalerweise die URL angebt, von wo ihr
das heruntergeladen habt. Das - also wenn

ihr euch ein bisschen mit offenen Lizenzen
befasst - das ist so ähnlich wie eine

Creative Commons CC-BY Lizenz. Das heißt,
je nach Anwendungsfall ist es ein bisschen

problematisch. Also ich habe gestern
gelernt, dass man die Daten z.B. nicht in

Wikidata einspeisen kann, weil es keine
CC0 Lizenz ist. Und für viele Anwendungen

mit Daten wäre natürlich eine CC0 Lizenz
besser. Aber das ist nicht der Punkt, wo

wir ansetzen können. Also wir gucken, dass
die Daten möglichst einfach verwendbar

sind. Und ihr müsst dann eben beachten,
dass sie unter der Datenlizenz Deutschland

veröffentlicht werden und die
dementsprechend angeben. Ja, jetzt gibt es

aber auch eine schlechte Nachricht und die
ist, dass mit diesen Daten zu arbeiten gar

nicht so einfach ist. Und da übergebe ich
jetzt an P3nny.

P3nny: Ich darf aus dem Leidensdruck des
Journalisten berichten. Also es ist nicht

so, dass es komplettes Neuland wäre, dass
es keine offenen Datenportale gäbe. Es

gibt relativ viele davon. Sie sind alle
schön und schön unterschiedlich, alle

lustig aufgebaut. Zur Übersicht: Es gibt
das Statistische Bundesamt, dann gibt es

Destatis, es gibt 14 statistische
Landesämter und da drunter Derby Dragons.

Also es gibt noch Kommunalstatistik,
städtisch statistische Ämter und alle

haben irgendwie ihre eigenen kleinen Dinge
- und da durchzusteigen ist auch immer

spannend, weil sie meistens quasi diese
Verwaltungsakte abbilden. Dann gibt's so

einzelne Anwendungen, wo Dinge ganz
besonders gut aufbereitet werden. Aber oft

ist es so, hier Zensus 2011 ist für
Journalisten meistens schon nicht mehr so

richtig spannend, weil ist ja schon lang
vorbei. Oder es gibt solche schönen

Beispiele, wo sich Menschen in PDFs
austoben und wundervolle Torten, Grafiken

und 3D Diagramme bauen, ich aber mit den
Daten wenig anfangen kann. Also wenn ich

als Journalistin jetzt sagen würde, die
sozialversicherungspflichtig

Beschäftigten, das möchte ich in meiner
Veröffentlichung zitieren und möchte

einfach nur auf meiner Internetseite
dieses Diagramm auch mit zeigen, dann muss

ich ja da hinschreiben, muss die richtige
Stelle finden, die dieses PDF erstellt hat

und muss die darum bitten, mir die Daten
zu schicken. Und es ist schon passiert,

dass sie mir die dann quasi in der
E-Mail... also quasi im E-Mail Text habe

ich dann Daten bekommen - auch nicht so
richtig das Format, mit dem wir was

anfangen können. Unser Lieblingsportal hat
Simon vorhin schon gesagt, das ist

regionalstatistik.de. Das gibt es. Da
finden sich auch tatsächlich auf der

regionalen Ebene - also Bundesländer und
drunter, Regierungsbezirke,

Gemeindebezirke - finden sich die Daten
und die dann auch flächendeckend für ganz

Deutschland oder für ein ganzes
Bundesland. Wenn ich da aber dran kommen

möchte, dann habe ich Schritt 1: Ich gucke
mir den Datenkatalog an. Ich gucke, was da

drin ist. Suche mich irgendwie da durch.
Muss halt deren Logik verstehen, wie sie

das mal angelegt haben. Finde dann
irgendwelche Tabellen meistens - auch so:

Was unterscheidet jetzt die regionale
tiefe Kreise von den regionalen Ebenen,

und so. Das ist viel, was ich verstehen
muss. Dann gibt's noch so eine Variablen-

Auswahl. Dann muss ich das genauer
spezifizieren. Dann kann ich endlich diese

Tabelle abrufen und kriege dann den
Hinweis: Diese können Sie jetzt nicht

abrufen. Sie wollen zu viele Daten
abrufen. Sie müssen sich erst mal Konto

erstellen. Dann erstelle ich mir dieses
Konto. Dann mache ich diesen Werteabruf,

dann warte ich und irgendwann landet eine
Tabelle in meinem Postfach und ich bekomme

eine Tabelle, die sehr gut dafür geeignet
ist, in A4 ausgedruckt zu werden. Das

heißt, sie hat, das ist mit das
Allerschlimmste, sie hat diese komischen

Header, also so verschachtelte Dinger, wo
ich dann quasi, wenn ich als Journalistin

- also entweder fange ich als Journalistin
an und versuche, das irgendwie in Excel

dann zu bereinigen und so und auch die
Journalisten merken langsam, dass das

nicht der beste Weg ist, alle drei Monate
bei - was weiß ich, Quartals Statistiken -

das immer wieder in Excel machen zu
müssen. Das heißt, ich als Journalistin

geh hin, mache eine Python für Dummies
Kurs oder sowas und möchte dann mal was

mit offenen Daten machen. Treffe dann auf
diese Daten, lade mir die runter als CSV-

Datei und dann kriege ich schon den ersten
Error, weil das sind keine CSV Dateien,

sondern Semikolon separierte Werte, weil
Deutsch. Wir haben also einen 1000er

Trennzeichen, das ein Komma ist. Wenn ich
dieses Problem gelöst habe, laufe ich

gegen die... Also ist das keine UTF 8
sondern eine ISO88591 Kodierung. Das

heißt, erstmal sind alle Ös und Äs kaputt.
Dann muss ich noch das Problem mit dem

Header lösen. Das heißt, meistens muss ich
den Header ganz rausschmeißen und einmal

die Zeilen irgendwie selber benennen, was
auch eine Fehlerquelle ist. Und dann, wenn

ich jetzt, sagen wir mal, die unter 3
Betreuungskinder auf eine Karte mappen

wollte, dass ich so eine Karte habe, dass
da wo die meisten u3 betreut sind -

eigentlich will ich ja wahrscheinlich auch
den Anteil an der Bevölkerung haben,

Bevölkerung gesamt ist da nicht drin, die
muss ich mir dann von woanders her holen,

männlich-weiblich zusammenrechnen, den
Anteil ausrechnen - es ist ein relativ

aufwandreicher Prozess, den ich da machen
muss. Ach so genau. Und hier sind auch

tatsächlich nicht nur die Gemeindeebenen
drin, sondern meistens auch das Bundesland

und die darüber liegenden Ebenen, d.h. die
muss ich auch erstmal wieder

rausschmeißen, damit ich nur meine
Gemeinden habe und die dann auf die Karte

bringen kann. Und manchmal sagen die auch:
Wir nehmen euch Arbeit ab und machen

selber Visualisierungen. Da kommen dann
manchmal solche Dinge bei raus. Wir haben

noch nicht ganz rausgekriegt, was uns das
sagen soll. Also das funktioniert noch

nicht so richtig gut. Und da kommt der
Datenguide ins Spiel und löst dieses Problem.

Simon: Genau. Was wir machen, ist: Wir

lösen dieses Problem für euch. Also dieses
Problem, dass Patricia jetzt beschrieben

hat, hoffentlich, perspektivisch. Was wir
machen, ist, wir importieren quasi alle

Daten und alle Daten, die jetzt in diesem
Fall in dem regionalstatistik.de Portal

sind. Und dann bieten wir sie über eine
moderne JSON-API an und bauen dann quasi

ein - ich sag mal ein alternatives Daten
Portal. Das ist eine Website, die bauen

wir dann quasi on top auf diese Daten-
Schnittstelle und diese Plattform, die sieht

ungefähr so aus. Ich kann euch das auch
live zeigen. Ich habe das jetzt nur glaube

ich nicht offen und wir sind noch nicht
online. Es ist alles so ein bisschen frühe

Alpha. Wir sind so ein bisschen online,
aber mit kryptischer URL in so einem

Preview irgendwo. Muss ich mir grad mal
angucken.

P3nny: Ich schwöre, hier war ein Bug
irgendwo. Hier lief ein Bug rum und jetzt

ist er weg. Wahrscheinlich ist er jetzt
bei dir.

Simon: Okay, also das ist, wie unser
Prototyp im Moment aussieht. Es ist

einfach eine Website, da werden ein paar
Orte gefeatured, wo irgendwas interessant

ist. Ansonsten haben wir hier eine Suche,
wo ihr den Namen eurer Stadt oder eures

Landkreises eingeben könnt. Also für diese
Oberfläche arbeiten wir im Moment mit

Städten und Landkreisen, mit so ungefähr
400 Entitäten oder so in Deutschland und

in dem Datensatz sind auch Gemeinden drin.
Aber dann reden wir gleich über, ich

glaube, 15 000 oder so. Und im Moment
machen wir es uns einfach und gucken uns

einfach Städte und Landkreise an. Also
wenn wir hier einen Ort suchen, zum

Beispiel Leipzig. Ja, genau, dann sehen
wir erst einmal: Es gibt Leipzig Stadt und

Leipzig Landkreis, also quasi der
Landkreis drumrum. Wir gucken uns mal die

Stadt Leipzig an und dann sehen wir hier
Leipzig. Und dann haben wir hier so ein

bisschen generischen Text. Den importieren
wir im Moment von Wikipedia, wollen wir

aber perspektivisch selber generieren, auf
Basis der Daten, die da drin sind. Und

dann sehen wir hier so ein paar
Datensätze, die wir schon, die wir jetzt

mal so, ich sag mal prototypisch
aufbereitet haben. Die sind hier...

Leipzig hat irgendetwas um die 500 000
Einwohner 2017, 300 Quadratkilometer

Fläche. Dann haben wir hier eine einfache
Visualisierung, wo wir Leipzig mal mit

München vergleichen. Hier sehen wir, das
Münchner deutlich höhere

Bevölkerungsdichte hat als Leipzig. Und
dann können wir hier so ein paar Sachen

machen. Wir können uns hier die Zahlen zu
diesem Datensatz angucken und dann sehen

wir schon, das ist eine sehr einfache
Tabelle, die hat einfach nur ein paar

Spalten. Jede Spalte hat eine klare
Beschriftung und das ist halt was, das

können wir einfach als CSV runterladen und
in beliebigen Programmen weiterverwenden.

Und gleichzeitig haben wir hier auch eine
GraphQL-Query. Das ist quasi eine Daten...

ich sage mal eine API Abfrage. Also mit
GraphQL, also mit so einer

Datenschnittstelle kann man einfache
einfache Queries schreiben. Man kann sich

das so vorstellen, dass man da eine leere
JSON Datei hinschickt, die beschreibt,

welche Daten ihr wollt. In der sind nur
die Keys drin und dann kriegt ihr eine

JSON Datei zurück, da sind zu den Keys
auch die Values drin. Das heißt, es ist

eine sehr einfache Art und Weise, zu
spezifizieren, welche Daten ihr sehen

wollt. Deswegen experimentieren wir im
Moment mit GraphQL. Es ist auch so ein

bisschen alles im Fluss. Also wir haben
schon quasi die Version... also hier sieht

man die Version 1 unserer Schnittstelle.
Wir arbeiten im Moment an einer zweiten

Version, weil wir halt festgestellt haben,
dass verschiedene Dinge dann doch nicht so

funktionieren, wie wir uns das vorstellen.
Aber API Design ist auch nicht einfach.

Hier gibt's dann eben die Möglichkeit, das
CSV runterzuladen oder in so einem

interaktiven Tool dieses GraphQL zu
testen, um quasi... naja, also wenn ihr

seht: Ah, das ist ja schön, aber ich will
Leipzig nicht mit München, sondern mit dem

Bundesland Sachsen vergleichen. Dann könnt
ihr hier quasi unseren Query Builder

benutzen und euch selber was bauen und
direkt das Ergebnis sehen. Darauf gehe ich

gleich noch ein bisschen ein. Hier sehen
wir noch so ein paar andere Beispiele.

Da haben wir einfach mal experimentiert 
mit Daten. Hier haben wir noch die

Bevölkerungsverteilung nach Altersgruppen.
Und die Ergebnisse der letzten Europawahl

Das sind auch so ein paar Beispiele. Sieht
man, was da an Daten drinsteckt. Ja. Also

wie gesagt, das ist einfach nur ein
Prototyp im Moment. Da kann man eben

sehen, wie das grundsätzlich aussehen
kann. Wir sehen hier, dass... wir haben

hier so eine Übersicht über alle Städte
und Landkreise in Deutschland, sortiert

nach Bundesland. Und wenn ich jetzt hier
irgendetwas Beliebiges herausgreife -

Deggendorf in Bayern - dann sehen wir,
dass wir ja, hier ist quasi das Gleiche.

Genauso für Deggendorf. Das ist im Moment,
was wir machen. Und das ist so ein

Komplex, an dem wir arbeiten, der quasi
auf der einen Seite zeigen soll, was es an

Daten da drin gibt, euch einfache Tools
geben soll, diese Daten runterzuladen,

ohne dass ihr euch mit GraphQL
auseinandersetzen müsst. Auf der anderen

Seite soll es auch die Möglichkeit sein,
eben den Start zu finden in unsere

Datenschnittstelle und...
P3nny: Perspektivisch würden wir uns da

schon auch noch vorstellen, dass nicht
überall bei allem das Gleiche angezeigt

wird, sondern wir können ja dann auch eine
gewisse Logik dran machen. Also zeig mir

die Stadt.... also ich habe die
Gesamtstatistik über Leipzig und ich zeige

mir die drei Statistiken, wo Leipzig
entweder in den Top5 oder in den Low 5 ist im

Vergleich zum Bundesland, im Vergleich zum
Bundesschnitt oder so.. Ne, um halt

quasi so für die Journalisten zu sagen:
Das sind die spannenden Dinge. Und

gleichzeitig aber auch den Eisberg
darunter: Also das sind alle Daten, weil

ich jetzt eine bestimmte Frage habe,
irgendwie anzubieten.

Simon: Okay. Ja, jetzt hab ich ja gesagt,
wir haben diese Datenschnittstelle. Und

ich hab euch auch diese Website gezeigt,
die wir aus der Datenschnittstelle

speisen. Aber diese Datenschnittstelle,
die ist nicht nur Mittel zum Zweck, um

diese Website zu bauen, sondern unsere
Idee ist eigentlich, dass diese Website,

die wir haben, dieses Daten-Portal, dass
das quasi ein Anwendungsfall ist für diese

Schnittstelle, um zu zeigen, was man damit
machen kann. Aber wir möchten eigentlich,

dass ihr diese Schnittstelle verwendet für
andere Dinge. Auf Basis von dieser

GraphQL-Schnittstelle sollte man zum
Beispiel möglichst… relativ einfach eine

Python-Bibliothek schreiben können, z.B.
damit ihr in euren Datenauswertungen mit

Python direkt auf amtliche Statistikdaten
zugreifen könnt. Oder ein R-Package, damit

Leute, die quasi statistisch mit R
arbeiten, vielleicht an einer Hochschule

oder Journalisten, dass die quasi auf
diese Daten direkt in R zugreifen können,

ohne dass sie sich jedesmal durch dieses
Datenportal klicken müssen und sich eine

CSV-Datei runterladen, die sie dann erst
einmal aufräumen müssen. Und man kann sich

da alles mögliche überlegen, denke ich,
auf Basis dieser API. Wir haben auch

gestern schon über Twitter Bots gesprochen
und alle möglichen anderen lustigen Dinge.

Und ich würde euch einfach einladen, damit
ein bisschen zu experimentieren. Ich zeige

euch jetzt mal ein bisschen, wie so ein
Query funktioniert, weil es tatsächlich

relativ einfach, es ist zumindest relativ
einfach, mal eine einfache Query zu

schreiben. Hier sehen wir so ein Beispiel
für eine Abfrage. Ich werde es jetzt

gleich mal replizieren. Ich muss mir nur
hier nochmal angucken, wie das aussieht.

Also, wir haben hier diese Schnittstelle
oder diese, ich sage mal diese grafische

Oberfläche für unsere Datenschnittstelle.
GraphQL funktioniert normalerweise so,

wenn man irgendwo ein GraphQL Server
betreibt, dann kommt automatisch so ein

graphisches Interface mit, damit man
Queries einfacher ausprobieren kann. Das

ist quasi ein Debugging-Tool, wenn ihr so
wollt oder ein Werkzeug, um euch ein

bisschen mit eurer API zu befassen. Und
das ist normalerweise direkt eingebaut in

so ne Schnittstelle. Und bei uns ist das
auch der Fall und ich habe das hier jetzt

schon mal ausgefüllt. Sehen wir, wenn wir
so eine einfache Query machen, dann fragen

wir erst einmal nach Regions. Also Regions
sind quasi alle Regionen, die wir in

Deutschland haben. Wenn ich jetzt hier auf
Play drücke, also wenn ich hier mal Name

reinschreibe und hier auf Play drücke,
dann dauert es sehr lange, weil er dann

irgendwie durch unsere Datenbank geht und
für 15 000 Entities oder so den Namen

raussucht. Deswegen werde ich das jetzt
erst einmal nicht machen. Ich werde das

erstmal ein bisschen einschränken. Und
jetzt gibt's hier schon eine interessante

Sache. Und zwar steht hier, stehen zwei
Dinge: "parent" und "nuts". Und "nuts" ist

eine interessante Sache. Das ist ja ein
Standard für eindeutige... ein Standard

dafür, regionale Einheiten zu beschreiben.
Das heißt, wenn man in der EU verschiedene

Städte miteinander vergleichen will, dann
gibt's halt so einige Begriffe wie

Großstadt, Landkreis. Ne, keine Ahnung.
In Frankreich gibt es keine Landkreise.

Aber wenn man Dinge miteinander
vergleichen will, dann gibt es dafür eben

einen Standard. Und da gibt's den NUTS-
Standard und da gibt's verschiedene NUTS-

Levels. Und wenn wir jetzt alle größeren
Städte und Landkreise sehen wollen, dann

ist es z.B. der NUTS-Level 3 in
Deutschland. Ich schreib hier "nuts: 3"

und drücke auf Start. Und dann sehen wir,
wir kriegen hier irgendwie alle Städte und

Landkreise in Deutschland. Ja, Starnberg,
schön, Ravensburg, Biberach. Also man

sieht, die sind auch irgendwie so ein
bisschen sortiert da drin. Wenn ich jetzt

quasi nur alle Städte und Landkreise in
einem Bundesland sehen will, dann kann ich

das auch weiter spezifizieren. Und zwar
kann ich immer eine höhere Einheit

spezifizieren in dieser API. Und das heißt
"parent" in der API. Das heißt, ich will

alles unterhalb von einem Parent. Und ich
zeige es jetzt mal anhand vom Saarland.

Saarland ist mein Lieblings-Bundesland,
wenn man mit so statistischen Daten

arbeitet. Saarland ist immer schön
übersichtlich. Gab's nicht so viele

Gemeindereformen, gibt auch nicht so viele
Landkreise. Es ist super, ja, 1a

Bundesland. So und jetzt sehen wir hier
quasi eine Einschränkung: Das sind alle

Städte und Landkreise im Saarland. Und
jetzt können wir uns mal noch so ein

bisschen andere Dinge angucken. Jetzt gebe
ich mal hier... wir haben eine ID für jede

Einheit und die ID, das sehen wir, die
fängt auch immer mit 10 an, genau wie das

Bundesland. Das ist keine ID, die wir uns
überlegt haben, sondern das ist der

sogenannte Gemeindeschlüssel, den wir in
Deutschland haben. Es ist quasi ein

eindeutiger Bezeichner für jede Stadt,
jede Gemeinde, jeden Landkreis. Die haben

alle solche Nummern. Und anhand von diesen
kann man hier sehr gut arbeiten. Also ich

könnte jetzt auch eine Region anhand von
Ihrer ID raussuchen. Mache ich jetzt

erstmal nicht. Können wir nachher noch
machen. Ich will jetzt auch ein paar

statistische Daten sehen. Und dann habe
ich hier in diesem Beispiel, sieht man

hier: Das wird dann ein bisschen
kryptisch. Und da verwenden... haben wir

uns auch nicht selber etwas ausgedacht.
Das heißt, wir haben versucht, uns das

selber auszudenken in der ersten Version
von unserer API und haben dann eben

festgestellt, dass es sehr viel erstens
redaktioneller Aufwand ist und es geht

dann auch irgendwann ganz schnell kaputt,
weil wir uns vielleicht auch nicht so gut

auskennen wie die Leute, die die amtliche
Statistik machen. Weil, naja, wenn es

einfach wäre, dann hätte man, hätten die
es auch einfacher gemacht wahrscheinlich.

Und deswegen verwenden jetzt in der
aktuellen Version von unserer API, an der

wir jetzt arbeiten, quasi direkt die
Identifier, die auch die Statistischen

Ämter verwenden. Dadurch wird es
einfacher, diese Sachen nachzuvollziehen.

Und auch wenn ihr quasi einen
tatsächlichen Datensatz habt, irgendwie in

regionalstatistik.de, den dann hinterher
bei uns rauszusuchen. Das heißt aber auch,

Ihr müsst irgendwie wissen, wofür diese
Codes stehen. Und hier gibt's eine super

Vorschlagsuche, quasi. Wenn ich hier
anfange, irgendetwas zu tippen, dann sehe

ich hier verschiedene Vorschläge und hier
unten sehe ich dann auch eine Erklärung,

was das ist. Das heißt, wir haben uns
schon ein bisschen Mühe gegeben, dass man

sich das so ein bisschen erschließen kann,
was da drin ist. Und ich glaube, das war

jetzt BEVMK, das sind von Scheidungen
betroffene Kinder. Und wenn ich jetzt hier

draufklicke, dann kriege ich hier auch so
eine Doku. Das ist jetzt bei diesem

Datensatz sehr einfach. Da sehen wir
einfach, aus welcher Statistik der kommt.

Das ist die "Statistik rechtskräftiger
Urteile in Ehesachen", Nummer 12631. Das

heißt, anhand davon könnt ihr die
wahrscheinlich dann auch in

regionalstatistik.de raussuchen. Oder wenn
ihr beim Statistischen Bundesamt anrufen

müsst, dann wissen die auch, worum es
geht. Aber wir wollen ja eigentlich, dass

ihr da nicht anrufen müsst. Deswegen geben
wir die jetzt einfach mal so aus. Sehen

wir, das ist hier rot markiert. Und dann
sagt er: Ich hab irgendwas vergessen. Wie

hieß es? Drei. Und jetzt sehen wir, das
ist immer noch rot. Dann sagt er: Das muss

eine Unterauswahl haben. Also mache ich
mal eine Unterauswahl. Und wir sehen schon

hier auf der von euch aus gesehen linken
Seite, dass... von euch aus gesehen

rechten Seite... ist die gleiche Seite wie
bei mir auch am Bildschirm, eigentlich

easy. Auf der rechten Seite seht ihr, was
man da so machen kann und da sehen wir,

wir können Jahr und einen Wert abrufen und
auch die Quelle. Ich mache das jetzt

einfach mal, geb hier mal Value ein. Drück
auf Play und dann sehen wir, wir kriegen

hier irgendwie so eine Liste, da sind
Werte drin. Irgendwie für jede einzelne

Stadt, jeden einzelnen Landkreis. Da macht
es noch nicht so viel Sinn, weil das sind

halt Werte für ein Jahr. Deswegen geben
wir uns zusätzlich noch das Jahr aus und

dann sehen wir hier quasi einen Datensatz
für jedes Jahr. Den könnte man jetzt

wahrscheinlich auch noch so ein bisschen
sortieren und so... Das sind alles jetzt

nur so API Design Sachen, an denen wir
arbeiten. Aber grundsätzlich seht ihr, wie

das funktioniert. Und genauso könnt ihr
eben anhand von diesem Schlüssel, den wir

hier haben, auch Daten für einen
einzelnen, für eine einzelne Stadt

abrufen. Das heißt, das hier ist mehr so
eine Bulkabfrage, wo wir quasi sehr viele

Daten kriegen über alle Städte und
Landkreise in einem Bundesland. Aber wir

können jetzt auch sehr detailliert nach
einem einzelnen Wert fragen. Zum Beispiel

kann ich hier jetzt das Ganze für
Saarbrücken machen. Also wir sehen,

Saarbrücken hat die ID 10041 und dann kann
ich hier eingeben: ID. Whoa. Also ist alles

auch noch ein bisschen Alpha, ne... 10041
und wir geben jetzt einfach mal

spaßeshalber die gleichen Werte aus. Und
dann sehen wir, wir kriegen jetzt eine

Antwort, quasi eine JSON Datei und die
enthält jetzt nur die Werte für

Saarbrücken. Und wenn wir jetzt ein
genaues Jahr wollen, sagen wir, wir

wollen 2014, dann kann ich das hier auch
weiter nach dem Jahr filtern. Ja, und

jetzt kriegen wir einfach nur den Wert
zurück für 2014. Und so kann man eben

beliebige andere Statistiken auch
abfragen. Es ist sehr einfach für

Datensätze, die sehr einfach sind, so wie
der. Es gibt in der Praxis auch sta– äh,

statistische Datensätze, die sind
irgendwie hoch verschachtelt. Wir haben ja

vorhin auch so eine Tabelle gesehen, wo
sie dann versucht haben, diese Tabelle

quasi, also diese verschachtelten Daten
irgendwie zweidimensional in einer Tabelle

darzustellen. Und dann kommt irgendwas
raus, was man nicht mehr... also was man

nicht mehr mit einem Computer verarbeiten
kann, sondern nur noch auf A4 ausdrucken.

Und für diese komplexeren Sachen muss man
sich das dann ein bisschen genauer

angucken, wie die Dinge halt ineinander
verschachtelt sind. Aber grundsätzlich

sollte man das alles irgendwie hier aus
der API rauskriegen. Also wenn wir hier

diese BEVMK-Sache suchen. Also ich habe
gerade gesehen, da sind jetzt nicht so

viele Dinge drin, aber wenn wir uns
irgendwas anderes raussuchen, dann sehen

wir, hier gibt's z.B. nen komplexeren
Datensatz. Da kann man jetzt noch

irgendwelche Auswahl treffen. Nur
Kinder, die im Januar geboren wurden oder

nur Kinder, die im Februar geboren wurden
und so.. Ja, also ich denke, ihr versteht,

worum es geht. Wir haben jetzt ein
bisschen Zeit. Ich würde das jetzt hier

für Fragen öffnen und wenn ihr ganz
konkrete Fragen habt oder Ideen habt

dafür, was man damit machen kann - oder
wenn ihr vielleicht Interesse habt, an so

einem Open-Source-Projekt mitzuarbeiten,
dann können wir ja gerne nachher ein

bisschen quatschen. Also da gibt's viele
Dinge, die man machen kann oder die wir

für das nächste Jahr geplant haben. Also
wir haben einen fröhlichen Haufen Python-

und JavaScript-Code und wir haben auch
redaktionelle Aufgaben. Also ich sag mal

so, Fragestellungen, wo man sich mal so
ein bisschen Statistik angucken kann oder

so ein bisschen mit uns überlegen, wie man
jetzt irgendwas besonders gut darstellen

kann oder wie man irgendwas besonders gut
erklären kann - das ist dann eher

Patricias Thema und wir haben für nächstes
Jahr geplant, dass wir einen größeren

Hackathon organisieren. Vermutlich in
Berlin und vermutlich irgendwann noch vor

der Europawahl, eventuell auch mit einem
Schwerpunkt auf Daten aus der Europawahl.

Weil hier drin sind eben auch sehr viele
historische Wahlergebnisse und auch so

Sachen wie Wahlbeteiligung. Und die sind
schon aufgelöst nach Gemeinden und

Städten, d.h. da kann man sehr
interessante Dinge damit machen, weil man

die eben dann sehr gut.... keine Ahnung,
Arbeitsmarktstatistik mit Wahlergebnissen

oder so vergleichen kann. Das macht
vielleicht nicht so wahnsinnig viel Sinn,

aber da kann man sich sicher sinnigere
Dinge überlegen. Ihr findet uns auf

Twitter und auf GitHub unter @datenguide
und ihr findet die Slides für diesen

Vortrag unter dieser URL:
downloads.datengui.de/35c3. Ich werde es

nachher nochmal irgendwie vertwittern oder
sonstwie posten und ansonsten -

Fragen von euch!

<i>Applaus</i>

Q: Ja, hört man mich? Vielen Dank erst
einmal für den Vortrag. Ich habe gesehen,

das ist eine Python-Flask-App, wenn ich
richtig gesehen habe. Also erst einmal

Gratulation dafür - eine sehr gute Wahl!
Mich würde noch interessieren, man hat ja

einige Daten gesehen, einige
Beispieldaten. Wir hatten z.B. das Jahr,

das war aber ein String. Verarbeitet ihr
die Sachen irgendwie noch weiter oder ist

das einfach nur dadurch, dass es aus einer
CSV kommt, erst einmal als String einfach

reingepastet?
Simon: Ja, also es ist so durch ein paar

Iterationen gegangen und das, was wir
jetzt gesehen haben, das wird tatsächlich

automatisch generiert auf Basis von den
Daten, die da rauskommen. Und ja, es ist

im Moment noch so ein bisschen
inkonsistent. Also man hat auch, wenn man

noch genauer aufgepasst hat, gesehen, dass
dieser NUTS-Level z.B. war ein Integer,

aber andere Sachen sind halt Zahlen. Ob
jetzt ein Jahr eine Zahl ist oder ein

String... Ja, ich denke, wir sind dabei,
das noch auszuknobeln. Wir haben jetzt im

Moment den Ansatz gewählt, möglichst wenig
der Daten irgendwie weiter zu verarbeiten

und das möglichst direkt abzubilden in
einer API, was auch zur Folge hat, dass im

Moment komplexere Queries auch teilweise
sehr umständlich zu schreiben sind. Und

das ist einfach ein Thema, an dem wir im
Moment noch arbeiten. Wir... was man noch

dazu sagen kann: Wenn jemand von euch sich
schon intensiver mit dem Thema

auseinandergesetzt hat, es gibt ein
anderes Projekt, das heißt ReGenesis. Das

hat Friedrich Lindenberg mal gemacht vor
ein paar Jahren. Das ist quasi auch eine

Webanwendung, die eine Rest-API zur
Verfügung stellt für diese Daten. Das

Projekt ist schon so ein bisschen sehr in
die Jahre gekommen und wird auch nicht

mehr weiter gepflegt. Und wir setzen aber
darauf auf. Das heißt, der Code, mit dem

wir die Daten herunterladen aus diesen
offiziellen Portalen, das ist quasi der

ReGenesis-Code, den wir auch verwenden.
Das ist eben auch eine Python-Anwendung.

Okay, weitere Fragen?
P3nny: Ja, und wir müssen halt nochmal

gucken, weil die Idee ist, welche Schritte
man sich vornimmt. Man könnte das relativ

umfangreich machen, dass man halt jeden
einzelnen Datensatz durchgehen muss. Man

könnte dann definitiv eine bessere
Erklärung dazu schreiben, muss das aber

halt mal recherchieren. Man müsste dann
halt quasi diese Untervalues auch

nochmal... also man könnte versuchen,
jeden einzelnen dieser Datensätze besser

zu machen. Das ist vielleicht ein bisschen
viel gewollt, sodass wir jetzt erst gesagt

haben: Okay, wir gehen den Schritt zurück
und machen halt diesen Pain, den ich

beschrieben habe, weniger schlimm. Also
erstmal den ersten Schritt und dann das

andere auch in Kooperation mit den
jeweiligen Ämtern und so, weil man dann

immer nochmal jemanden fragen muss, der
diese Statistik erstellt hat. Weil wenn

ich dann eine einfachere Beschreibung hin
schreibe, schlägt er nachher die Hände

über dem Kopf zusammen und sagt: Ja, so
kann man das aber nicht genau sagen.

Deswegen - da dazwischen, in diesem
Spannungsfeld bewegen wir uns und machen

jetzt erstmal den ersten Schritt.
Q: Ja, wie sieht denn generell euer

Technologie Stack aus? Python und Flask
haben wir jetzt schon gehört. Was ist noch

im Spiel bei euch?
Simon: Also wir benutzen ja wie gesagt

Python und Flask für die Webanwendungen.
Wir benutzen Elastic Search für die...

quasi als Such-Backend, aber wir arbeiten
im Moment mit Elastic Search auch so, dass

wir einfach diesen kompletten Datensatz,
den wir runterladen, einfach reinpumpen,

damit man auch darüber suchen kann. Ich
bin mir auch noch nicht sicher, ob das der

perfekte Weg ist, aber im Moment
funktioniert das für uns ganz gut. Das

heißt, wir haben keine Postgres-Datenbank
oder so, wo das drin ist, sondern wir

haben einfach nur diesen Postgres... äh,
diesen Elastic Search Datenhaufen und

suchen das dann darin. Das heißt, die
Flask-App ist im Moment auch eine sehr

sehr einfache Flask-App, die einfach nur
ein - ich sage jetzt mal so - ein Frontend

darüber zur Verfügung stellt - also quasi
ein technisches Frontend. Die

Benutzeroberfläche, die ihr sehen könnt,
also das grafische Frontend, das

entwickeln wir mit React und ein bisschen
Datenvisualisierungs-Bibliotheken,

VictoryJS wäre so ein Stichwort. Das ist
eine quasi ein React Wrapper um D3. Also

D3 ist so eine Datenvisualisierungs-
Bibliothek, VictoryJS sind quasi

Datenvisualisierungs-Komponenten, die man
in React verwenden kann auf Basis von D3.

Eine interessante technische Sache, was
Patricia gerade angesprochen hat, ist: Es

gibt so eine Bewegung in der JavaScript-
Welt, nicht mehr super komplexe JavaScript

Anwendungen zu bauen, die nur auf dem
Client laufen, sondern Sachen halt

irgendwie wieder wie früher auf dem Server
zu rendern oder idealerweise schon quasi

zu einem... ich sage mal zum Build-
Zeitpunkt wieder als HTML auszugeben. Und

da gibt es ein fancy Wort dafür, das heißt
JAMstack. Was es bedeutet: Das heißt

einfach nur, man baut eine Anwendung mit
JavaScript, in unserem Fall mit React. Die

baut auf einer API auf. Die API kann auch
für andere Dinge wiederverwendet werden

und wir bauen halt so einen JavaScript
Client dafür. Und aus diesem JavaScript

Client generieren wir dann aber ganz viele
HTML-Seiten, damit man quasi eine HTML-

Seite hat für jede Stadt. Und wenn du die
dann... wenn du dann auf diese Seite

gehst, dann lädtst du die HTML-Seite
runter und die kannst du direkt sehen,

weil es ist halt einfach nur HTML. Aber im
Hintergrund wird halt dieser ganze

JavaScript-Kram initialisiert. Und das
klingt jetzt sehr kompliziert, aber da

gibt es ein Framework, mit dem man sowas
machen kann und das heißt Gatsby.js. Und

das benutzen wir hier und es funktioniert
für uns auch sehr gut. Wenn euch... wenn

ihr da genaueres wissen wollt, ich hänge
hier nachher noch ein bisschen rum, da

kann ich euch auch zeigen, wie das
funktioniert. Haben wir noch Zeit für eine

Frage?
Q: Halt, eine noch! Also noch einmal ein

Lob. Ich fand Konzept, Präsentation und
eure Prototypen sehr gut aussehend. Eine

konzeptionelle Frage: Ihr habt jetzt einen
hohen Fokus auf regionale Sachen gelegt.

Geht ja auch eine Ebene höher. Also
Bundesländer und der Bund vielleicht. Ich

sehe nämlich mittel- bis langfristig auf
jeden Fall irgendwie das Potenzial,

Statista... oder einen starken
Konkurrenten zu Statista aufzubauen, wo

mir einfach gerade ein bisschen Open
Source mäßig etwas fehlt.

Simon: Ja, also der Punkt kommt sehr oft.
Also der Punkt kommt sehr oft. Ja, also

ich finde auch, Statista finde ich extrem
schwierig. Vor allem finde ich es

schwierig, dass man, wenn man jetzt
irgendeinen Datensatz googlet, dann findet

man meistens Statista und es vermittelt
einem irgendwie, dass man jetzt bezahlen

muss, um diesen Datensatz herunterzuladen.
Und wenn wir über diese amtliche Statistik

reden, dann sind das halt freie Daten. Und
diese Idee, die ich vorhin beschrieben

habe, dass wir einzelne HTML-Seiten
generieren für jeden Ort und jeden

Datensatz, der kommt auch daher, dass wir
eigentlich so den Long Tail nutzen wollen

in den Suchmaschinen und eigentlich
idealerweise dann irgendwann höher gerankt

werden als Statista. Zu dem anderen Teil
deiner Frage, andere Datensätze da

reinzunehmen. Die statistischen Ämter
benutzen dieses System Genesis, um diese

Daten zu veröffentlichen.
regionalstatistik.de ist quasi eine

Genesis-Instanz, wo die Daten der
Statistischen Landesämter drin sind. Aber

es gibt eben andere Genesis-Instanzen und
mit unserer Technologie kann man

grundsätzlich auch andere Genesis-
Instanzen - die Daten aus anderen Genesis-

Instanzen laden und zur Verfügung stellen,
weil das alles genau gleich funktioniert.

Das hat halt mit unserem föderalen System,
was wir in Deutschland haben, zu tun.

Wobei das nicht heißt, dass die Software
ein föderiertes System ist. Also es ist

nicht Mastodon-föderiert, dass ich quasi
über eine Instanz von dieser Software alle

Daten abfragen kann, sondern die haben
halt einfach einzelne Instanzen, weil halt

andere Leute zuständig sind für andere
Datensätze. Aber perspektivisch wäre es

schon mein Ziel, mit diesem Konzept auch
andere Datensätze, idealerweise halt

alles, was irgendwie über Genesis
veröffentlicht wird, zur Verfügung zu

stellen. Wir haben uns jetzt eben als
einfachen Use Case die

regionalstatistik.de ausgesucht. Also ich
muss dazu sagen, wir arbeiten da schon

seit einem Jahr dran. Und wir haben am
Anfang sehr viel ausprobiert und wir haben

auch über die Zeit unseren Scope verändert
und die Tatsache, dass wir jetzt eben

diese konkrete, dieses konkrete Produkt
entwickeln und uns auf die

regionalstatistik konzentrieren, das ist
eigentlich eine neuere Sache. Aber das ist

einfach etwas, was wir jetzt machen
müssen, damit wir mit irgendetwas mal

vorankommen. Wir sind auch nur zu dritt
und vielleicht so vier, je nachdem, wie

man das zählt. Und lange zu zweit. Genau
deswegen, ja. Wir sind halt auch nicht

Statista. Aber Open Source Schreibtisch-
Hooligan Statista finde ich super. Also

wenn noch ein paar Leute von euch Lust
haben, dann können wir uns sehr gerne

drüber unterhalten.
Herald: Also wir haben auch noch viel Zeit

übrig, denke ich. Noch eine Viertelstunde
oder so. Wenn es noch mehr Fragen gibt,

supergeil. Ja, gerne weiter.
Q: Wie organisiert ihr euch als Projekt

und wie finanziert ihr euch?
Simon: Ja, also vielleicht... genau.

Patricia geht mal hier zurück, weit
zurück. Also wir organisieren uns im

Moment so ein bisschen über GitHub Issues.
Wir haben nen Slack-Channel im OKF-Slack.

Das ist halt irgendwie das Einfachste für
uns, wir sind auch ein verteiltes Team.

Also ich sage mal, wir arbeiten zeitlich
und räumlich verteilt. Patricia ist in

Köln. Ich bin in Berlin. Mein anderer
Kollege Simon Wörpel, der ganz viel an der

API arbeitet, der ist zwar auch in Berlin,
aber Berlin ist eine große Stadt. Wir

sehen uns jetzt auch nicht jeden Tag.
Deswegen halt sehr viel über Slack. Wir

haben uns jetzt in der Vergangenheit immer
mal getroffen. Ich glaube, wir uns zwei

Mal getroffen, seit wir an dem Projekt
arbeiten. Und... also dreimal mit jetzt.

Nächstes Jahr wollen wir, also wie gesagt,
so eine Art Hackathon machen. Da wollen

wir auch ein bisschen mehr Community
zusammenbringen und dann halt in dem

Zusammenhang auch irgendwie gucken, wie
man das Projekt als Open Source Projekt

weiterentwickeln kann und was für
Kommunikationskanäle man dann auch

braucht. Zur Förderung. Also ich hab ja
vorhin gesagt, wir hatten am Anfang eine

Förderung vom Prototype Fund. Das ist ein
sehr gutes Förderprogramm für Open Source

Projekte, die halt irgendwie eine
gesellschaftliche Relevanz haben. Das war

auch in der in der Bewerbung, in der
Durchführung super. Also kann ich nur

jedem empfehlen. Ich habe tatsächlich
inzwischen auch schon ein zweites

Prototype Fund Projekt hinter mir. Alle da
bewerben. Ich muss dazu sagen, ich habe

mich auch mit viel mehr Kram beworben, der
wurde nicht genommen. Gibt wahrscheinlich

auch viele Bewerber. Aber ich kann auf
jeden Fall jedem raten, es auszuprobieren

und euch am besten vorher mal mit den
Leuten vom Prototype Fund zu unterhalten.

Die sind auch hier irgendwie unterwegs.
Wenn ihr die hier anpingt, dann habt ihr

sicher die Möglichkeit, da noch eine
Audienz zu kriegen. Das ist auch ein

laufendes Programm. Also Prototype Fund
könnt ihr euch glaub ich noch das nächste

Jahr oder so auf ein paar weitere
Förderrunden noch bewerben. Unsere

aktuelle Förderung setzt sich zusammen aus
Geld, das wir vom Medien

Innovationszentrum Babelsberg bekommen
haben und so einem Stipendium, das ich

habe, im Moment. Das Medien
Innovationszentrum ist so ein Konstrukt,

da werden quasi Rundfunkgebühren
umverteilt an Innovationsprojekte und die

haben auch ein großes Interesse dran, so
Open Source Projekte zu fördern. Kann man

sich auch bewerben, ist ein bisschen
aufwendiger, so in der Durchführung und

was den administrativen Aufwand angeht und
ist nicht so viel Geld wie der Prototype

Fund. Deswegen immer erst einmal beim
Prototype Fund bewerben und wenn ihr dann

noch mehr Geld braucht, beim MIZ bewerben.
Das wäre so meine Strategie.

P3nny: Genau. Was wir aber im Rahmen
dieses MIZ-Dingens machen, weil der Fokus

da auf Journalisten und journalistische
Produktentwicklung liegt, ist, mit

Redaktionen zusammenzuarbeiten. Also es
gab neulich einen dpa Hack Day, wo schon

die ersten Journalistinnen mit einem Team
die API genutzt haben, um so eine Art

Newslettersystem... also ich kann mich
als Lokalredakteur für meine Stadt

Flensburg oder so da anmelden und kriege
dann halt immer nen Alert, wenn Daten...

also wenn Flensburg irgendwo top oder low
gerankt ist. Sowas kann man sich ja auch

vorstellen, dass man das als Service
anbietet. Und ich selber bin freie

Mitarbeiterin beim WDR. Geplant ist, dass
wir ein Daten-Projekt vielleicht rund um

die Europageschichte oder so mit dem WDR
und so machen. Also um das, was wir da

tun, auch reinzutragen in etablierte
journalistische Unternehmen.

Simon: Ja also ich vermute mal, dass deine
Frage auch mehr so auf Businessmodell

abgezielt hat dafür. Und das haben wir
tatsächlich im Moment nicht. Man muss mal

gucken. Also jetzt im Moment ist es ja
sehr... also es ist sehr billig, das zu

betreiben für uns im Moment. Die Website
wird wahrscheinlich auch relativ

unproblematisch sein, weil die ist erstmal
nur ein Haufen HTML. Das kann man im

Zweifelsfall umsonst bei Netlify oder so
betreiben oder auf GitHub. Interessanter

ist halt die Sache mit der API. Also ich
glaube, wenn wir... also so ein großer

Elastic Search Cluster kostet richtig
Geld. Ich denke mal, wenn wir Power User

haben, die dafür halt irgendwas... also
diese API für irgendetwas benutzen, was

vielleicht für die auch eine kommerzielle
Relevanz hat, dann kann ich mir schon

vorstellen, dass man da irgendein Modell
findet, wo man quasi dafür bezahlt, wenn

man einen sehr hohen, sehr hohes
Datenaufkommen verursacht oder so. Aber

das ist so ein Problem, mit dem wir uns im
Moment noch nicht befassen. Grundsätzlich

hab ich... Genau. Es gibt ja alle
möglichen Ideen, was man da drum machen

kann. Ich kann mir gut vorstellen, dass
man perspektivisch vielleicht etwas über

Sponsoring macht, also dass man sagt, dass
Medienorganisationen, die unsere Daten

verwenden... keine Ahnung, uns irgendwie
fördern oder so. Patrica hat gerade

gesagt, wir haben auch schon so überlegt,
ob man halt ne Brücke baut zu anderen

Tools, wo man dann vielleicht irgendwas
Kommerzielles macht, was nicht der Kern,

das Kernprojekt ist. Also dass man sagt,
es gibt ein Datenvisualisierungstool, das

heißt Data Wrapper. Naja, dass man sagt,
wenn Data Wrapper irgendwie unsere Daten

benutzen will, dann stellen wir das denen
halt in irgendeiner Form zur Verfügung und

man überlegt sich dann da halt ein Modell
dazu. Aber ich will eigentlich nicht so...

ich sehe mich jetzt nicht als
Medienunternehmer und ich will jetzt auch

nicht den nächsten Statista Datenbroker
gründen, gerade hier auf dem Kongress.

Also idealerweise würde dieses Angebot
auch irgendwann sich selber abschaffen,

weil die statistischen Ämter sehen, wie
sie die Daten eigentlich aufbereiten

müssen, damit Bürger die nutzen und dann
machen sie selber ein ähnliches Angebot.

Das ist jetzt vielleicht sehr utopisch
gedacht, aber es gibt durchaus Leute bei

den statistischen Ämtern, die ein
Interesse daran haben, sich breiter zu

öffnen. Und die sehen auch, dass sie etwas
machen müssen. Weil die sind dem

Innenministerium unterstellt und die sind
nicht unbedingt die größte Priorität vom

Innenministerium gerade. Das heißt, die
haben durchaus auch ein Interesse daran,

mehr Aufmerksamkeit für ihre Arbeit und
ihre Daten zu kriegen. Und wir stehen auch

auf jeden Fall im engen Austausch mit den
statistischen Ämtern.

Q: Ja hi, eine Frage, wie ihr die Daten
gewinnt. Ihr habt gesagt, Genesis wäre ein

Austauschformat? Also ich stelle mir das
sehr mühsam vor, wenn ich jetzt überlege,

wie ich diese ganzen Daten von diesen
Seiten aggregieren müsste, das wäre - ich

würde jetzt schon aufhören. Und es scheint
da nen Standard zu geben. Könnt ihr

darüber was sagen oder wie diese Daten zu
euch kommen?

Simon: Ja, genau. Also ich habe vorhin ja
erwähnt, wir sind da schon durch so ein

paar Iterationen gegangen. Am Anfang haben
wir tatsächlich die Daten mehr oder

weniger gescrapet, was auch nicht so
einfach ist, weil eigentlich werden die

Daten da halt für jeden Abruf generiert,
aber da gibt's halt so ein paar... das ist

alles, ja, also alles so ein bisschen
kompliziert. Aber es gibt halt die

Möglichkeit, da auch statische Daten
runterzuladen einfach und das haben wir eine

Weile gemacht und haben uns dann so ein
Schema-System überlegt, mit dem man quasi

automatisiert diese einzelnen Datensätze
aufräumen kann. Da musste man aber immer

noch für jeden von den 450 Datensätze
irgendein Schema beschreiben. Wir sind

dann im Austausch mit den statistischen
Ämtern so weit gekommen, dass es

tatsächlich eine Daten-Schnittstelle gibt,
die ist für regionalstatistik.de nicht

dokumentiert. Aber sie existiert. Alle
Genesis-Instanzen, die betrieben werden,

die haben eine Daten-Schnittstelle. Die
kostet manchmal Geld, manchmal nicht. Bei

dem offiziellen Angebot von Destatis zum
Beispiel, da kostet die ein Haufen Geld

und ist dokumentiert. Bei
regionalstatistik.de kostet die nichts,

dafür ist auch nirgendwo im Web was drüber
geschrieben. Wir benutzen jetzt aber diese

Datenschnittstelle, das ist eine SOAP-
Schnittstelle, wenn des hier jemand was

sagt. Also es ist mehr so Enterprise
Level. Das benutzen halt Banken und

Versicherungen. Vielleicht heute auch
nicht mehr, wenn sie heute nochmal damit

anfangen würden. Aber es ist halt eine
SOAP-Schnittstelle und ist quasi eine

SOAP-Schnittstelle auf nen OLAP Data Cube.
Also das ganze ist ein Datenquader, also

irgendwie so eine Terabyte große
Datenstruktur, die irgendwo steht. Die

könnte man sich auch komplett runterladen
und dann direkt auf diesem OLAP Cube

operieren. Aber im Moment benutzen wir
ReGenesis, das ist eben dieses Open Source

Tool, was ich vorhin beschrieben habe. Und
mit ReGenesis kann man eben diese SOAP API

relativ einfach aus Python ansprechen.
Aber die Idee ist halt, dass wir ein Layer

drüber ziehen, der einfacher ist. Aber wir
räumen jetzt, also Stand jetzt, räumen wir

nicht mehr manuell Daten auf, die wir
gescrapet haben. So viel kann ich sagen.

Q: So eine Follow up Frage hätte ich dazu
noch aus dem Operations-Bereich: Skaliert

das? Also wenn ihr weitere Datenquellen
anbinden wollt, wie Bundes-, whatever?

Keine Ahnung, wie viel manuelle Arbeit
steckt da drin?

Simon: Naja, also jetzt kann man
tatsächlich halt... also es gibt dieses

Open Source Projekt, kannst du dir
angucken, kann man mit mehr oder weniger,

naja, ich glaube so in 20 bis 30 Minuten
kann man sich dieses Backend-Projekt

aufsetzen und dann auch Daten da rein
laden. Also es ist schon alles irgendwie

so automatisiert, dass man das machen kann
jetzt für uns. Naja, inwieweit es skaliert

Also skalieren hat hier verschiedene
Dimensionen. Also einmal pumpen wir die

Daten halt alle in Elastic Search. Keine
Ahnung, ob das skaliert, wird sich noch

rausstellen. Funktioniert jetzt mit dem
Datensatz, den wir haben. Die andere Sache

ist halt der Download der Daten und das
ist im Moment relativ einfach aufgesetzt.

Also ich hatte vorgestern hier einen
technischeren Talk drüben in der Chaos

Zone und hab darüber geredet, wie das
technisch funktioniert. Und dann kam

gestern jemand zu mir und hat mir erklärt,
er hat jetzt einen Docker-Container

gebaut, der unser Backend enthält mit
allem Zeug. Also das heißt, irgendjemand

hat sich dann hingesetzt und das gemacht.
Das ging offensichtlich relativ einfach.

Ich weiß nicht ob die Person da ist. Nein,
auch gut, aber ja. Also mit dem Text-Hack

zu arbeiten ist relativ einfach, wie es
perspektivisch skaliert, ist glaube ich

eher ein Problem der Datenhaltung. Und ich
glaube, wenn man richtig viel damit machen

wollte, müsste man eigentlich sich mit
diesem OLAP Cube befassen. Das sagen auch

die Leute von den statistischen Ämtern.
Also wenn man denen mit einem besonderen

Problem kommt, dann sagen die: Ja, da
müssen sie halt den Datenquader

runterladen. Also, das heißt Datenquader
bei denen. Aber ja, das machen tatsächlich

auch Leute. Also Statista lädt
wahrscheinlich diesen OLAP Cube runter,

wahrscheinlich irgendwie jede Nacht oder
so. Das wäre jetzt so meine Vermutung. Und

dann haben die halt irgendwelche Prozesse
hinten dran, was das in ihre Systeme

übersetzt. Aber das ist halt so ein
Bereich, in dem wir jetzt

nicht operieren. Also das ist dann
auch ein anderes Projekt, glaube ich.

Q: Gibt es, gibt es irgendwo eine
Übersicht von diesen amtlichen

Kennzeichen, von den Variablen oder den
Definitionen dahinter?

Simon: Ja. Willst du darüber was sagen?
P3nny: Also auf regionalstatistik.de

gibt's einen Daten-Katalog und in dem sind
die quasi nach Feldern aufgeschlüsselt.

Also Wirtschaft, Umwelt, Bevölkerung oder
so grob. Und da drunter findest du dann

die einzelnen Dateien. Wobei so richtig
gut zum Durchsteigen ist das nicht. Aber

wenn man sich damit beschäftigt, dann
versteht man das schon. Und dann findet

man diese Kennziffer und diese Kennziffer
kann man ja dann auch wieder in die API

reinschmeißen.

Hier vorne noch?
Da hinten?

Simon: Also eine Sache dazu ist auch, dass

wir auch... also wir haben so ein GitHub
Issue offen, diese Übersicht auch da

rauszuziehen und quasi mit in unsere in
unsere Web-Oberfläche einzubinden. Also

ich habe gerade schon gezeigt, dass wir so
eine riesenlange Liste haben von jeder

Stadt und jeder Gemeinde. Und genauso
wollen wir halt auch eine riesenlange

Liste von jedem Merkmal, das man
durchsuchen kann. Das heißt, das ist quasi

eine Aufgabe, an der wir arbeiten werden
in den nächsten Wochen.

Q: Okay, von mir... okay sorry. Nochmal
eine Folgefrage quasi: Habt ihr

mittelfristig vor, auch manuelle
Dateneingabe zu ermöglichen? Weil es gibt

ja relativ viele Reports von
Unternehmensberatungen etc pp, wo

superspannende Daten drinstehen, was aber
glaube ich schwierig zu automatisieren

ist. Ob ihr da so vorhabt, einen
Communityapproach zu fahren,

dass irgendjemand das einträgt und 
irgendjemand reviewt das

und dann passt das schon oder
irgendwas in die Richtung?

Simon: Also ja, das haben wir im Moment

nicht vor. Also im Moment ist unser Weg
der einfache Weg und das ist, quasi Dinge

verwenden, die irgendwie einheitlich
erfasst werden, wo klar definiert ist, wo

sie herkommen, wo auch die Lizenz-
Situation klar ist und die dann halt

wieder zu veröffentlichen. Also ich hab
die Frage auch schon öfter bekommen bei so

Präsentationen und es ist im Moment,
glaube ich, irgendwie komplett out of

scope für uns, weil es halt dann so viele
Fragen aufwirft, mit denen wir uns dann

befassen müssten. Das ist halt einfach...
da haben wir gerade andere Probleme, die

wir einfacher lösen könnten, so. Aber
interessant wäre es auf jeden Fall und das

wäre dann quasi so ein Gecrowdsourcestes,
selber gemachtes Open Data Statista. Also

ich fände es super interessant, aber das
ist glaube ich ein anderes Projekt

einfach.

Herald: Ich glaube, wir haben noch Zeit
für eine letzte Frage. Gibt's noch eine?

Simon: Ja, keine Fragen. Ist doch super. 
Ja, ich bin hier links um die Ecke

noch ne Weile, wenn ihr irgendwie 
konkretere Fragen habt

oder euch nochmal was angucken
wollt oder mir noch von eurer Idee

erzählen wollt, dann kommt gern vorbei und
quatscht mich an. Vielen Dank.

<i>Applaus</i>

<i>Musik</i>

Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!