cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4

Edit subtitles

0:00 - 0:20

Musik
0:20 - 0:23

Herald: Ja, herzlich willkommen zum
nächsten Talk in der Wikipaka WG. Hier
0:23 - 0:37

zeigen uns Simon und P3nny das Projekt
Datenguide. Viel Spaß!
0:37 - 0:44

Simon: Hallo. Ok. Hi zusammen. Ja, wie
gesagt, P3nny und ich, wir möchten über
0:44 - 0:48

einen Open Data Projekt sprechen, an dem
wir arbeiten. Das Projekt heißt
0:48 - 0:56

Datenguide. Findet ihr unter datengui.de.
Und unsere Mission ist einfach gesagt,
0:56 - 1:05

Statistiken zugänglicher zu machen für
alle. Wenn wir über Statistiken reden,
1:05 - 1:10

dann reden wir über amtliche Statistik.
Außerdem werden wir gefördert vom MIZ in
1:10 - 1:14

Babelsberg von einem Programm, das heißt
Prototype Fund. Das sind ausgezeichnete
1:14 - 1:19

Programme. Wenn Ihr Funding Möglichkeiten
sucht für eure Open Source Projekte, kann
1:19 - 1:25

ich nur empfehlen, euch das mal genauer
anzugucken. Unser Sourcecode ist frei auf
1:25 - 1:31

GitHub unter Datenguide. Und wenn wir
über Statistiken reden, dann meinen wir
1:31 - 1:36

amtliche Statistik. Amtliche Statistik ist
einfach gesagt alle Statistiken zu
1:36 - 1:39

Gesellschaft, Umwelt und Wirtschaft. Und
das sind Statistiken, die von den
1:39 - 1:47

Statistischen Ämtern erstellt werden. Und
das ist, was die Statistiker deskriptive
1:47 - 1:53

Statistik nennen. Das heißt, es gibt da
keine Interpretation, keine Prognosen,
1:53 - 1:57

sondern es ist einfach nur einfache
Statistik, die beschreibt, wie irgendwas
1:57 - 2:05

ist. Paar Beispiele sind z.B. Zahlen über
Schulen. Also Zahlen zu Schülern und
2:05 - 2:12

Absolventen nach Schulart für eure Stadt
z.B. Oder Zahlen zur Abfallentsorgung.
2:12 - 2:16

Also wie viel Hausmüll gibt es in eurer
Stadt? Wieviel wird recycelt in eurer
2:16 - 2:20

Stadt? Und Zahlen zu Migration und
Einbürgerung, z.B.: Wie viele Menschen
2:20 - 2:25

werden in eurer Stadt eingebürgert? Wie
alt sind die? Wie alt waren die? Oder seit
2:25 - 2:30

wie vielen Jahren sind die in Deutschland?
Das sind jetzt nur drei Beispiele. Der
2:30 - 2:37

Datensatz oder der Datenpool, mit dem wir
uns jetzt im Moment auseinandersetzen,
2:37 - 2:42

sind die Daten von regionalstatistik.de.
Was das bedeutet, werde ich nachher
2:42 - 2:48

nochmal ein bisschen erklären. Und da
reden wir über 450 Datensätze zu allen
2:48 - 2:53

möglichen Themen. Das heißt, diese drei
Sachen sind einfach nur Beispiele. Wenn
2:53 - 2:57

man sich jetzt so anguckt, was die
Statistischen Ämter sagen über sich
2:57 - 3:01

selber, dann sagen die, sie sind objektiv
unabhängig und machen qualitativ
3:01 - 3:07

hochwertige Statistik. Da gehe ich auch
mit, ja. Und dann sagen die noch, sie
3:07 - 3:11

machen es für Politik, Verwaltung,
Wirtschaft sowie für Bürgerinnen und
3:11 - 3:16

Bürger. Und wenn man sich anguckt, wie die
amtliche Statistik im Moment
3:16 - 3:22

veröffentlicht wird und an wen die so...
für wen diese aufbereitet wird, dann gehe
3:22 - 3:27

ich mit, dass das Ziel Politik und
Verwaltung ist - Wirtschaft vermutlich auch.
3:27 - 3:31

Bürgerinnen und Bürger, da gibt es ein
gewisses Defizit und das ist eben das
3:31 - 3:38

Thema, das wir uns anschauen. Aber erst
einmal so ein kleiner Exkurs. Ja, erstmal,
3:38 - 3:42

wo kommen überhaupt diese Daten her? Und
ihr habt vielleicht vor kurzem diese
3:42 - 3:48

Geschichte gehört: Das ist die Geschichte
einer Volkszählung. Ja, also vor ungefähr
3:48 - 3:54

2000 Jahren hat sich Kaiser Augustus,
Herrscher des Römischen Reiches, überlegt,
3:54 - 4:00

dass er bessere Daten braucht über die
Bürger in seinem Reich. Also hat er ein
4:00 - 4:05

Zensus angeordnet. Und im Rahmen von
diesem Zensus sollte jeder Bewohner des
4:05 - 4:12

Römischen Reichs zu seiner Heimatstadt
reisen und sich dort zählen lassen. Und in
4:12 - 4:15

dem Prozess wurde ein kleines Kind
geboren. Aber am Ende ist es immer noch
4:15 - 4:23

die Geschichte von einer Volkszählung und
... zum Zwecke der Steuererhebung, genau.
4:23 - 4:28

Also die Römer hatten relativ großen
militärischen Komplex, den sie finanzieren
4:28 - 4:32

mussten und deshalb mussten sie wissen,
wo, wie viele Menschen leben, damit sie
4:32 - 4:37

wissen, wie viele Steuern sie erheben
können. Und genauso ist es bis heute.
4:37 - 4:44

Überall, wo es einen Staat gibt oder eine
Verwaltung, braucht die Information
4:44 - 4:49

darüber, wie viele Menschen irgendwo
leben, wie viele Kinder zur Schule gehen,
4:49 - 4:54

wie viele Kinder vielleicht demnächst zur
Schule gehen. Und deswegen wird relativ
4:54 - 5:00

viel Aufwand betrieben, Daten zu erfassen
über uns all. In eigentlich allen
5:00 - 5:05

Industrienationen, sag ich mal, haben wir
sowas wie ein 10jährigen Zensus. Und das
5:05 - 5:09

ist eigentlich so ähnlich wie die
Geschichte von Kaiser Augustus vorher. Das
5:09 - 5:13

heißt, alle zehn Jahre werden in
irgendeiner Form alle Menschen gezählt,
5:13 - 5:17

die in einem Land leben. Heute reisen wir
nicht mehr an unseren Geburtsort, sondern
5:17 - 5:21

es gibt Leute, die normalerweise von Tür
zu Tür gehen, bei euch klingeln und euch
5:21 - 5:29

dann Fragen stellen. In Deutschland ist
das ein bisschen anders. Hier gab es einen
5:29 - 5:35

letzten Zensus 2011 und davor gab's eine
Weile keinen Zensus. Hat mit unserer
5:35 - 5:39

Geschichte zu tun und auch mit Protesten,
die es gab, in der Vergangenheit. Aber es
5:39 - 5:41

gibt auch verschiedene andere
Möglichkeiten, wie eigentlich immer Daten
5:41 - 5:46

erfasst wurden. Außer der richtigen
Volkszählung, also dem Makrozensus, gibt's
5:46 - 5:50

einen Mikrozensus. Und beim Mikrozensus
wird eben einfach eine Stichprobe
5:50 - 5:53

genommen. Das heißt, eine Handvoll Leute
wird genauer betrachtet und davon
5:53 - 5:58

ausgehend wird dann irgendwas
hochgerechnet. Und außerdem gibt es etwas,
5:58 - 6:03

was die Statistiker Sekundärstatistik
nennen. Das heißt, Daten, die irgendwo an
6:03 - 6:07

anderer Stelle erfasst werden, werden
verarbeitet. Für die Statistik, also in
6:07 - 6:11

Deutschland werden irgendwelche Zahlen,
z.B. über Landwirthschaft, erfasst, bei
6:11 - 6:15

irgendwelchen Landwirtschaftsämtern. Und
diese Zahlen werden dann an die
6:15 - 6:18

statistischen Ämter weitergegeben und dort
werden dann eben Statistiken draus
6:18 - 6:20

gemacht, die dann auch von den
Statistischen Ämtern veröffentlicht
6:20 - 6:26

werden. Außerdem gibt's bei uns und vielen
anderen, ich sag mal so europäischen und
6:26 - 6:31

nordischen Ländern gibt's einen
Registerzensus. Und das heißt, die Zahlen,
6:31 - 6:35

die es über euch schon gibt, z.B. im
Bevölkerungsregister - weil ihr habt euch
6:35 - 6:40

ja alle ordentlich angemeldet - die
Zahlen, die werden dann wiederum verwendet
6:40 - 6:46

und an die statistischen Ämter
weitergegeben. Ja, ihr könnt euch ja
6:46 - 6:51

vorstellen, das sind relativ viele Daten.
Das sind persönliche Daten über uns alle
6:51 - 6:59

und deswegen wird in Deutschland das
Statistikgeheimnis sehr hochgehalten. Also
6:59 - 7:03

das ist tatsächlich ein Begriff aus der
amtlichen Statistik. Das bedeutet, dass
7:03 - 7:08

Sie sich extrem viel Mühe geben, Daten zu
anonymisieren, die werden in der... also
7:08 - 7:11

Zahlen, die in einem Rahmen vom Zensus
erfasst werden, werden normalerweise schon
7:11 - 7:15

anonymisiert, wenn sie erhoben werden. Das
heißt, da steht nie irgendwie euer Name
7:15 - 7:20

drauf. Und es werden nur aggregierte
Zahlen veröffentlicht. Das heißt, in
7:20 - 7:24

diesen Datensätzen, von denen wir reden,
da steht normalerweise drin, wie viel es
7:24 - 7:29

von irgendetwas gibt und nicht, was genau
es gibt. Das ist auch ein wichtiger Punkt.
7:29 - 7:34

Außerdem dürfen Menschen und Unternehmen
nicht nachträglich identifizierbar sein.
7:34 - 7:41

Und das ist so ein bisschen kontroverses
Thema. Und da wird auch nächstes Jahr ein
7:41 - 7:46

bisschen was passieren. Weil gerade für
Journalistinnen und Journalisten ist es
7:46 - 7:51

halt auch wichtig, Daten über Unternehmen
zu kriegen. Und unsere Hauptzielgruppe im
7:51 - 7:57

Moment ist Journalismus. Und die erste
Frage, die uns Leute stellen, ist
7:57 - 8:00

normalerweise: Ja, kann ich jetzt hier
Bayer in meiner Stadt genauer
8:00 - 8:05

identifizieren und sehen, was sie machen?
Und die Antwort ist nein. Also wenn es
8:05 - 8:09

irgendwo in einer Stadt zum Beispiel nur
einen Landwirtschaftsbetrieb gibt, dann
8:09 - 8:13

werdet ihr über diese Stadt keine Zahlen
zur Landwirtschaft kriegen, weil
8:13 - 8:18

Statistikgeheimnis. Das ist auch ein
wichtiger Aspekt, spielt aber bei vielen
8:18 - 8:24

Zahlen auch keine Rolle, die tatsächlich
da drin sind. Ja, jetzt habe ich gerade
8:24 - 8:29

schon gesagt: Volkszählung ist ein
kontroverses Thema. Und amtliche Statistik
8:29 - 8:34

insgesamt auch, so gesehen. Wenn ihr, wie
ich, noch irgendwie die 80er mitgekriegt
8:34 - 8:37

habt, dann könnt ihr euch vielleicht an
solche Graffitis erinnern, weil in den
8:37 - 8:42

80ern gab es tatsächlich einen massiven
Protest und 81 wurde der Zensus verhindert
8:42 - 8:49

in der BRD und 87 hat er dann nur sehr
eingeschränkt stattgefunden. Und die
8:49 - 8:55

Proteste und die Verfassungsklagen, die es
damals gab, die sind auch quasi in
8:55 - 8:59

wichtiger... oder eigentlich die Wurzel
auch dieser Idee der informationellen
8:59 - 9:03

Selbstbestimmung, die wir heute haben.
Also quasi diese Idee von Datenschutz, mit
9:03 - 9:05

der wir hier rumlaufen und sagen, dass wir
selber die Kontrolle über unsere
9:05 - 9:09

persönlichen Daten haben, die sind konkret
darauf zurückzuführen. Deswegen ist es auf
9:09 - 9:17

jeden Fall auch eine wichtige Diskussion.
Für unser Projekt spielt das keine Rolle.
9:17 - 9:21

Wir sehen es so: Die Daten sind jetzt da
und die wurden von euch erfasst mit euren
9:21 - 9:25

Steuergeldern. Und es ist wichtig, dass
ihr Zugriff auf diese Daten habt. Und
9:25 - 9:29

deswegen machen wir dieses Projekt. Wenn
ihr jetzt mit diesen Zahlen arbeiten
9:29 - 9:35

wollt, dann gibt's eine gute und eine
schlechte Nachricht. Die gute Nachricht
9:35 - 9:40

ist: Das ist freies Wissen. Also Open
Data. Es gibt die Daten-Lizenz
9:40 - 9:46

Deutschland, unter der diese Daten
veröffentlicht werden, die erfordert, wenn
9:46 - 9:48

ihr die Daten quasi verwendet und
wiederveröffentlicht, dass ihr die Quelle
9:48 - 9:52

nennt, dass in diesem Fall normalerweise
die Statistischen Ämter, dass ihr ein
9:52 - 9:56

Verweis auf die Lizenz macht und ein
Verweis auf den Datensatz - also
9:56 - 10:00

normalerweise die URL angebt, von wo ihr
das heruntergeladen habt. Das - also wenn
10:00 - 10:03

ihr euch ein bisschen mit offenen Lizenzen
befasst - das ist so ähnlich wie eine
10:03 - 10:11

Creative Commons CC-BY Lizenz. Das heißt,
je nach Anwendungsfall ist es ein bisschen
10:11 - 10:14

problematisch. Also ich habe gestern
gelernt, dass man die Daten z.B. nicht in
10:14 - 10:18

Wikidata einspeisen kann, weil es keine
CC0 Lizenz ist. Und für viele Anwendungen
10:18 - 10:24

mit Daten wäre natürlich eine CC0 Lizenz
besser. Aber das ist nicht der Punkt, wo
10:24 - 10:30

wir ansetzen können. Also wir gucken, dass
die Daten möglichst einfach verwendbar
10:30 - 10:34

sind. Und ihr müsst dann eben beachten,
dass sie unter der Datenlizenz Deutschland
10:34 - 10:40

veröffentlicht werden und die
dementsprechend angeben. Ja, jetzt gibt es
10:40 - 10:43

aber auch eine schlechte Nachricht und die
ist, dass mit diesen Daten zu arbeiten gar
10:43 - 10:52

nicht so einfach ist. Und da übergebe ich
jetzt an P3nny.
10:52 - 10:56

P3nny: Ich darf aus dem Leidensdruck des
Journalisten berichten. Also es ist nicht
10:56 - 11:00

so, dass es komplettes Neuland wäre, dass
es keine offenen Datenportale gäbe. Es
11:00 - 11:05

gibt relativ viele davon. Sie sind alle
schön und schön unterschiedlich, alle
11:05 - 11:10

lustig aufgebaut. Zur Übersicht: Es gibt
das Statistische Bundesamt, dann gibt es
11:10 - 11:14

Destatis, es gibt 14 statistische
Landesämter und da drunter Derby Dragons.
11:14 - 11:18

Also es gibt noch Kommunalstatistik,
städtisch statistische Ämter und alle
11:18 - 11:24

haben irgendwie ihre eigenen kleinen Dinge
- und da durchzusteigen ist auch immer
11:24 - 11:30

spannend, weil sie meistens quasi diese
Verwaltungsakte abbilden. Dann gibt's so
11:30 - 11:34

einzelne Anwendungen, wo Dinge ganz
besonders gut aufbereitet werden. Aber oft
11:34 - 11:37

ist es so, hier Zensus 2011 ist für
Journalisten meistens schon nicht mehr so
11:37 - 11:44

richtig spannend, weil ist ja schon lang
vorbei. Oder es gibt solche schönen
11:44 - 11:50

Beispiele, wo sich Menschen in PDFs
austoben und wundervolle Torten, Grafiken
11:50 - 11:54

und 3D Diagramme bauen, ich aber mit den
Daten wenig anfangen kann. Also wenn ich
11:54 - 11:57

als Journalistin jetzt sagen würde, die
sozialversicherungspflichtig
11:57 - 12:02

Beschäftigten, das möchte ich in meiner
Veröffentlichung zitieren und möchte
12:02 - 12:07

einfach nur auf meiner Internetseite
dieses Diagramm auch mit zeigen, dann muss
12:07 - 12:11

ich ja da hinschreiben, muss die richtige
Stelle finden, die dieses PDF erstellt hat
12:11 - 12:14

und muss die darum bitten, mir die Daten
zu schicken. Und es ist schon passiert,
12:14 - 12:20

dass sie mir die dann quasi in der
E-Mail... also quasi im E-Mail Text habe
12:20 - 12:24

ich dann Daten bekommen - auch nicht so
richtig das Format, mit dem wir was
12:24 - 12:29

anfangen können. Unser Lieblingsportal hat
Simon vorhin schon gesagt, das ist
12:29 - 12:36

regionalstatistik.de. Das gibt es. Da
finden sich auch tatsächlich auf der
12:36 - 12:41

regionalen Ebene - also Bundesländer und
drunter, Regierungsbezirke,
12:41 - 12:44

Gemeindebezirke - finden sich die Daten
und die dann auch flächendeckend für ganz
12:44 - 12:48

Deutschland oder für ein ganzes
Bundesland. Wenn ich da aber dran kommen
12:48 - 12:52

möchte, dann habe ich Schritt 1: Ich gucke
mir den Datenkatalog an. Ich gucke, was da
12:52 - 12:57

drin ist. Suche mich irgendwie da durch.
Muss halt deren Logik verstehen, wie sie
12:57 - 13:01

das mal angelegt haben. Finde dann
irgendwelche Tabellen meistens - auch so:
13:01 - 13:04

Was unterscheidet jetzt die regionale
tiefe Kreise von den regionalen Ebenen,
13:04 - 13:08

und so. Das ist viel, was ich verstehen
muss. Dann gibt's noch so eine Variablen-
13:08 - 13:14

Auswahl. Dann muss ich das genauer
spezifizieren. Dann kann ich endlich diese
13:14 - 13:17

Tabelle abrufen und kriege dann den
Hinweis: Diese können Sie jetzt nicht
13:17 - 13:20

abrufen. Sie wollen zu viele Daten
abrufen. Sie müssen sich erst mal Konto
13:20 - 13:24

erstellen. Dann erstelle ich mir dieses
Konto. Dann mache ich diesen Werteabruf,
13:24 - 13:31

dann warte ich und irgendwann landet eine
Tabelle in meinem Postfach und ich bekomme
13:31 - 13:37

eine Tabelle, die sehr gut dafür geeignet
ist, in A4 ausgedruckt zu werden. Das
13:37 - 13:41

heißt, sie hat, das ist mit das
Allerschlimmste, sie hat diese komischen
13:41 - 13:46

Header, also so verschachtelte Dinger, wo
ich dann quasi, wenn ich als Journalistin
13:46 - 13:49

- also entweder fange ich als Journalistin
an und versuche, das irgendwie in Excel
13:49 - 13:52

dann zu bereinigen und so und auch die
Journalisten merken langsam, dass das
13:52 - 13:57

nicht der beste Weg ist, alle drei Monate
bei - was weiß ich, Quartals Statistiken -
13:57 - 13:59

das immer wieder in Excel machen zu
müssen. Das heißt, ich als Journalistin
13:59 - 14:03

geh hin, mache eine Python für Dummies
Kurs oder sowas und möchte dann mal was
14:03 - 14:08

mit offenen Daten machen. Treffe dann auf
diese Daten, lade mir die runter als CSV-
14:08 - 14:11

Datei und dann kriege ich schon den ersten
Error, weil das sind keine CSV Dateien,
14:11 - 14:15

sondern Semikolon separierte Werte, weil
Deutsch. Wir haben also einen 1000er
14:15 - 14:19

Trennzeichen, das ein Komma ist. Wenn ich
dieses Problem gelöst habe, laufe ich
14:19 - 14:24

gegen die... Also ist das keine UTF 8
sondern eine ISO88591 Kodierung. Das
14:24 - 14:29

heißt, erstmal sind alle Ös und Äs kaputt.
Dann muss ich noch das Problem mit dem
14:29 - 14:34

Header lösen. Das heißt, meistens muss ich
den Header ganz rausschmeißen und einmal
14:34 - 14:38

die Zeilen irgendwie selber benennen, was
auch eine Fehlerquelle ist. Und dann, wenn
14:38 - 14:42

ich jetzt, sagen wir mal, die unter 3
Betreuungskinder auf eine Karte mappen
14:42 - 14:46

wollte, dass ich so eine Karte habe, dass
da wo die meisten u3 betreut sind -
14:46 - 14:49

eigentlich will ich ja wahrscheinlich auch
den Anteil an der Bevölkerung haben,
14:49 - 14:52

Bevölkerung gesamt ist da nicht drin, die
muss ich mir dann von woanders her holen,
14:52 - 14:58

männlich-weiblich zusammenrechnen, den
Anteil ausrechnen - es ist ein relativ
14:58 - 15:03

aufwandreicher Prozess, den ich da machen
muss. Ach so genau. Und hier sind auch
15:03 - 15:06

tatsächlich nicht nur die Gemeindeebenen
drin, sondern meistens auch das Bundesland
15:06 - 15:10

und die darüber liegenden Ebenen, d.h. die
muss ich auch erstmal wieder
15:10 - 15:14

rausschmeißen, damit ich nur meine
Gemeinden habe und die dann auf die Karte
15:14 - 15:19

bringen kann. Und manchmal sagen die auch:
Wir nehmen euch Arbeit ab und machen
15:19 - 15:23

selber Visualisierungen. Da kommen dann
manchmal solche Dinge bei raus. Wir haben
15:23 - 15:27

noch nicht ganz rausgekriegt, was uns das
sagen soll. Also das funktioniert noch
15:27 - 15:46

nicht so richtig gut. Und da kommt der
Datenguide ins Spiel und löst dieses Problem.
15:46 - 15:49

Simon: Genau. Was wir machen, ist: Wir
15:49 - 15:52

lösen dieses Problem für euch. Also dieses
Problem, dass Patricia jetzt beschrieben
15:52 - 15:58

hat, hoffentlich, perspektivisch. Was wir
machen, ist, wir importieren quasi alle
15:58 - 16:03

Daten und alle Daten, die jetzt in diesem
Fall in dem regionalstatistik.de Portal
16:03 - 16:12

sind. Und dann bieten wir sie über eine
moderne JSON-API an und bauen dann quasi
16:12 - 16:15

ein - ich sag mal ein alternatives Daten
Portal. Das ist eine Website, die bauen
16:15 - 16:25

wir dann quasi on top auf diese Daten-
Schnittstelle und diese Plattform, die sieht
16:25 - 16:31

ungefähr so aus. Ich kann euch das auch
live zeigen. Ich habe das jetzt nur glaube
16:31 - 16:38

ich nicht offen und wir sind noch nicht
online. Es ist alles so ein bisschen frühe
16:38 - 16:45

Alpha. Wir sind so ein bisschen online,
aber mit kryptischer URL in so einem
16:45 - 17:00

Preview irgendwo. Muss ich mir grad mal
angucken.
17:00 - 17:08

P3nny: Ich schwöre, hier war ein Bug
irgendwo. Hier lief ein Bug rum und jetzt
17:08 - 17:17

ist er weg. Wahrscheinlich ist er jetzt
bei dir.
17:17 - 17:21

Simon: Okay, also das ist, wie unser
Prototyp im Moment aussieht. Es ist
17:21 - 17:25

einfach eine Website, da werden ein paar
Orte gefeatured, wo irgendwas interessant
17:25 - 17:30

ist. Ansonsten haben wir hier eine Suche,
wo ihr den Namen eurer Stadt oder eures
17:30 - 17:34

Landkreises eingeben könnt. Also für diese
Oberfläche arbeiten wir im Moment mit
17:34 - 17:39

Städten und Landkreisen, mit so ungefähr
400 Entitäten oder so in Deutschland und
17:39 - 17:43

in dem Datensatz sind auch Gemeinden drin.
Aber dann reden wir gleich über, ich
17:43 - 17:47

glaube, 15 000 oder so. Und im Moment
machen wir es uns einfach und gucken uns
17:47 - 17:52

einfach Städte und Landkreise an. Also
wenn wir hier einen Ort suchen, zum
17:52 - 18:02

Beispiel Leipzig. Ja, genau, dann sehen
wir erst einmal: Es gibt Leipzig Stadt und
18:02 - 18:06

Leipzig Landkreis, also quasi der
Landkreis drumrum. Wir gucken uns mal die
18:06 - 18:13

Stadt Leipzig an und dann sehen wir hier
Leipzig. Und dann haben wir hier so ein
18:13 - 18:18

bisschen generischen Text. Den importieren
wir im Moment von Wikipedia, wollen wir
18:18 - 18:23

aber perspektivisch selber generieren, auf
Basis der Daten, die da drin sind. Und
18:23 - 18:29

dann sehen wir hier so ein paar
Datensätze, die wir schon, die wir jetzt
18:29 - 18:32

mal so, ich sag mal prototypisch
aufbereitet haben. Die sind hier...
18:32 - 18:38

Leipzig hat irgendetwas um die 500 000
Einwohner 2017, 300 Quadratkilometer
18:38 - 18:44

Fläche. Dann haben wir hier eine einfache
Visualisierung, wo wir Leipzig mal mit
18:44 - 18:48

München vergleichen. Hier sehen wir, das
Münchner deutlich höhere
18:48 - 18:52

Bevölkerungsdichte hat als Leipzig. Und
dann können wir hier so ein paar Sachen
18:52 - 18:56

machen. Wir können uns hier die Zahlen zu
diesem Datensatz angucken und dann sehen
18:56 - 18:59

wir schon, das ist eine sehr einfache
Tabelle, die hat einfach nur ein paar
18:59 - 19:03

Spalten. Jede Spalte hat eine klare
Beschriftung und das ist halt was, das
19:03 - 19:06

können wir einfach als CSV runterladen und
in beliebigen Programmen weiterverwenden.
19:06 - 19:17

Und gleichzeitig haben wir hier auch eine
GraphQL-Query. Das ist quasi eine Daten...
19:17 - 19:21

ich sage mal eine API Abfrage. Also mit
GraphQL, also mit so einer
19:21 - 19:25

Datenschnittstelle kann man einfache
einfache Queries schreiben. Man kann sich
19:25 - 19:31

das so vorstellen, dass man da eine leere
JSON Datei hinschickt, die beschreibt,
19:31 - 19:34

welche Daten ihr wollt. In der sind nur
die Keys drin und dann kriegt ihr eine
19:34 - 19:37

JSON Datei zurück, da sind zu den Keys
auch die Values drin. Das heißt, es ist
19:37 - 19:42

eine sehr einfache Art und Weise, zu
spezifizieren, welche Daten ihr sehen
19:42 - 19:46

wollt. Deswegen experimentieren wir im
Moment mit GraphQL. Es ist auch so ein
19:46 - 19:49

bisschen alles im Fluss. Also wir haben
schon quasi die Version... also hier sieht
19:49 - 19:52

man die Version 1 unserer Schnittstelle.
Wir arbeiten im Moment an einer zweiten
19:52 - 19:55

Version, weil wir halt festgestellt haben,
dass verschiedene Dinge dann doch nicht so
19:55 - 20:01

funktionieren, wie wir uns das vorstellen.
Aber API Design ist auch nicht einfach.
20:01 - 20:06

Hier gibt's dann eben die Möglichkeit, das
CSV runterzuladen oder in so einem
20:06 - 20:12

interaktiven Tool dieses GraphQL zu
testen, um quasi... naja, also wenn ihr
20:12 - 20:19

seht: Ah, das ist ja schön, aber ich will
Leipzig nicht mit München, sondern mit dem
20:19 - 20:23

Bundesland Sachsen vergleichen. Dann könnt
ihr hier quasi unseren Query Builder
20:23 - 20:29

benutzen und euch selber was bauen und
direkt das Ergebnis sehen. Darauf gehe ich
20:29 - 20:32

gleich noch ein bisschen ein. Hier sehen
wir noch so ein paar andere Beispiele.
20:32 - 20:36

Da haben wir einfach mal experimentiert
mit Daten. Hier haben wir noch die
20:36 - 20:41

Bevölkerungsverteilung nach Altersgruppen.
Und die Ergebnisse der letzten Europawahl
20:41 - 20:48

Das sind auch so ein paar Beispiele. Sieht
man, was da an Daten drinsteckt. Ja. Also
20:48 - 20:53

wie gesagt, das ist einfach nur ein
Prototyp im Moment. Da kann man eben
20:53 - 20:58

sehen, wie das grundsätzlich aussehen
kann. Wir sehen hier, dass... wir haben
20:58 - 21:02

hier so eine Übersicht über alle Städte
und Landkreise in Deutschland, sortiert
21:02 - 21:06

nach Bundesland. Und wenn ich jetzt hier
irgendetwas Beliebiges herausgreife -
21:06 - 21:12

Deggendorf in Bayern - dann sehen wir,
dass wir ja, hier ist quasi das Gleiche.
21:12 - 21:18

Genauso für Deggendorf. Das ist im Moment,
was wir machen. Und das ist so ein
21:18 - 21:23

Komplex, an dem wir arbeiten, der quasi
auf der einen Seite zeigen soll, was es an
21:23 - 21:27

Daten da drin gibt, euch einfache Tools
geben soll, diese Daten runterzuladen,
21:27 - 21:31

ohne dass ihr euch mit GraphQL
auseinandersetzen müsst. Auf der anderen
21:31 - 21:35

Seite soll es auch die Möglichkeit sein,
eben den Start zu finden in unsere
21:35 - 21:41

Datenschnittstelle und...
P3nny: Perspektivisch würden wir uns da
21:41 - 21:46

schon auch noch vorstellen, dass nicht
überall bei allem das Gleiche angezeigt
21:46 - 21:49

wird, sondern wir können ja dann auch eine
gewisse Logik dran machen. Also zeig mir
21:49 - 21:53

die Stadt.... also ich habe die
Gesamtstatistik über Leipzig und ich zeige
21:53 - 21:58

mir die drei Statistiken, wo Leipzig
entweder in den Top5 oder in den Low 5 ist im
21:58 - 22:04

Vergleich zum Bundesland, im Vergleich zum
Bundesschnitt oder so.. Ne, um halt
22:04 - 22:07

quasi so für die Journalisten zu sagen:
Das sind die spannenden Dinge. Und
22:07 - 22:10

gleichzeitig aber auch den Eisberg
darunter: Also das sind alle Daten, weil
22:10 - 22:14

ich jetzt eine bestimmte Frage habe,
irgendwie anzubieten.
22:14 - 22:26

Simon: Okay. Ja, jetzt hab ich ja gesagt,
wir haben diese Datenschnittstelle. Und
22:26 - 22:30

ich hab euch auch diese Website gezeigt,
die wir aus der Datenschnittstelle
22:30 - 22:35

speisen. Aber diese Datenschnittstelle,
die ist nicht nur Mittel zum Zweck, um
22:35 - 22:39

diese Website zu bauen, sondern unsere
Idee ist eigentlich, dass diese Website,
22:39 - 22:44

die wir haben, dieses Daten-Portal, dass
das quasi ein Anwendungsfall ist für diese
22:44 - 22:47

Schnittstelle, um zu zeigen, was man damit
machen kann. Aber wir möchten eigentlich,
22:47 - 22:50

dass ihr diese Schnittstelle verwendet für
andere Dinge. Auf Basis von dieser
22:50 - 22:55

GraphQL-Schnittstelle sollte man zum
Beispiel möglichst… relativ einfach eine
22:55 - 23:00

Python-Bibliothek schreiben können, z.B.
damit ihr in euren Datenauswertungen mit
23:00 - 23:05

Python direkt auf amtliche Statistikdaten
zugreifen könnt. Oder ein R-Package, damit
23:05 - 23:10

Leute, die quasi statistisch mit R
arbeiten, vielleicht an einer Hochschule
23:10 - 23:16

oder Journalisten, dass die quasi auf
diese Daten direkt in R zugreifen können,
23:16 - 23:20

ohne dass sie sich jedesmal durch dieses
Datenportal klicken müssen und sich eine
23:20 - 23:25

CSV-Datei runterladen, die sie dann erst
einmal aufräumen müssen. Und man kann sich
23:25 - 23:28

da alles mögliche überlegen, denke ich,
auf Basis dieser API. Wir haben auch
23:28 - 23:32

gestern schon über Twitter Bots gesprochen
und alle möglichen anderen lustigen Dinge.
23:32 - 23:38

Und ich würde euch einfach einladen, damit
ein bisschen zu experimentieren. Ich zeige
23:38 - 23:43

euch jetzt mal ein bisschen, wie so ein
Query funktioniert, weil es tatsächlich
23:43 - 23:47

relativ einfach, es ist zumindest relativ
einfach, mal eine einfache Query zu
23:47 - 23:56

schreiben. Hier sehen wir so ein Beispiel
für eine Abfrage. Ich werde es jetzt
23:56 - 24:00

gleich mal replizieren. Ich muss mir nur
hier nochmal angucken, wie das aussieht.
24:00 - 24:12

Also, wir haben hier diese Schnittstelle
oder diese, ich sage mal diese grafische
24:12 - 24:16

Oberfläche für unsere Datenschnittstelle.
GraphQL funktioniert normalerweise so,
24:16 - 24:21

wenn man irgendwo ein GraphQL Server
betreibt, dann kommt automatisch so ein
24:21 - 24:26

graphisches Interface mit, damit man
Queries einfacher ausprobieren kann. Das
24:26 - 24:30

ist quasi ein Debugging-Tool, wenn ihr so
wollt oder ein Werkzeug, um euch ein
24:30 - 24:33

bisschen mit eurer API zu befassen. Und
das ist normalerweise direkt eingebaut in
24:33 - 24:37

so ne Schnittstelle. Und bei uns ist das
auch der Fall und ich habe das hier jetzt
24:37 - 24:41

schon mal ausgefüllt. Sehen wir, wenn wir
so eine einfache Query machen, dann fragen
24:41 - 24:44

wir erst einmal nach Regions. Also Regions
sind quasi alle Regionen, die wir in
24:44 - 24:48

Deutschland haben. Wenn ich jetzt hier auf
Play drücke, also wenn ich hier mal Name
24:48 - 24:52

reinschreibe und hier auf Play drücke,
dann dauert es sehr lange, weil er dann
24:52 - 24:55

irgendwie durch unsere Datenbank geht und
für 15 000 Entities oder so den Namen
24:55 - 24:59

raussucht. Deswegen werde ich das jetzt
erst einmal nicht machen. Ich werde das
24:59 - 25:05

erstmal ein bisschen einschränken. Und
jetzt gibt's hier schon eine interessante
25:05 - 25:11

Sache. Und zwar steht hier, stehen zwei
Dinge: "parent" und "nuts". Und "nuts" ist
25:11 - 25:22

eine interessante Sache. Das ist ja ein
Standard für eindeutige... ein Standard
25:22 - 25:28

dafür, regionale Einheiten zu beschreiben.
Das heißt, wenn man in der EU verschiedene
25:28 - 25:32

Städte miteinander vergleichen will, dann
gibt's halt so einige Begriffe wie
25:32 - 25:35

Großstadt, Landkreis. Ne, keine Ahnung.
In Frankreich gibt es keine Landkreise.
25:35 - 25:38

Aber wenn man Dinge miteinander
vergleichen will, dann gibt es dafür eben
25:38 - 25:42

einen Standard. Und da gibt's den NUTS-
Standard und da gibt's verschiedene NUTS-
25:42 - 25:51

Levels. Und wenn wir jetzt alle größeren
Städte und Landkreise sehen wollen, dann
25:51 - 25:59

ist es z.B. der NUTS-Level 3 in
Deutschland. Ich schreib hier "nuts: 3"
25:59 - 26:04

und drücke auf Start. Und dann sehen wir,
wir kriegen hier irgendwie alle Städte und
26:04 - 26:09

Landkreise in Deutschland. Ja, Starnberg,
schön, Ravensburg, Biberach. Also man
26:09 - 26:14

sieht, die sind auch irgendwie so ein
bisschen sortiert da drin. Wenn ich jetzt
26:14 - 26:19

quasi nur alle Städte und Landkreise in
einem Bundesland sehen will, dann kann ich
26:19 - 26:23

das auch weiter spezifizieren. Und zwar
kann ich immer eine höhere Einheit
26:23 - 26:30

spezifizieren in dieser API. Und das heißt
"parent" in der API. Das heißt, ich will
26:30 - 26:36

alles unterhalb von einem Parent. Und ich
zeige es jetzt mal anhand vom Saarland.
26:36 - 26:40

Saarland ist mein Lieblings-Bundesland,
wenn man mit so statistischen Daten
26:40 - 26:43

arbeitet. Saarland ist immer schön
übersichtlich. Gab's nicht so viele
26:43 - 26:49

Gemeindereformen, gibt auch nicht so viele
Landkreise. Es ist super, ja, 1a
26:49 - 26:55

Bundesland. So und jetzt sehen wir hier
quasi eine Einschränkung: Das sind alle
26:55 - 26:59

Städte und Landkreise im Saarland. Und
jetzt können wir uns mal noch so ein
26:59 - 27:05

bisschen andere Dinge angucken. Jetzt gebe
ich mal hier... wir haben eine ID für jede
27:05 - 27:12

Einheit und die ID, das sehen wir, die
fängt auch immer mit 10 an, genau wie das
27:12 - 27:16

Bundesland. Das ist keine ID, die wir uns
überlegt haben, sondern das ist der
27:16 - 27:21

sogenannte Gemeindeschlüssel, den wir in
Deutschland haben. Es ist quasi ein
27:21 - 27:25

eindeutiger Bezeichner für jede Stadt,
jede Gemeinde, jeden Landkreis. Die haben
27:25 - 27:32

alle solche Nummern. Und anhand von diesen
kann man hier sehr gut arbeiten. Also ich
27:32 - 27:35

könnte jetzt auch eine Region anhand von
Ihrer ID raussuchen. Mache ich jetzt
27:35 - 27:39

erstmal nicht. Können wir nachher noch
machen. Ich will jetzt auch ein paar
27:39 - 27:46

statistische Daten sehen. Und dann habe
ich hier in diesem Beispiel, sieht man
27:46 - 27:51

hier: Das wird dann ein bisschen
kryptisch. Und da verwenden... haben wir
27:51 - 27:54

uns auch nicht selber etwas ausgedacht.
Das heißt, wir haben versucht, uns das
27:54 - 27:58

selber auszudenken in der ersten Version
von unserer API und haben dann eben
27:58 - 28:02

festgestellt, dass es sehr viel erstens
redaktioneller Aufwand ist und es geht
28:02 - 28:05

dann auch irgendwann ganz schnell kaputt,
weil wir uns vielleicht auch nicht so gut
28:05 - 28:10

auskennen wie die Leute, die die amtliche
Statistik machen. Weil, naja, wenn es
28:10 - 28:15

einfach wäre, dann hätte man, hätten die
es auch einfacher gemacht wahrscheinlich.
28:15 - 28:19

Und deswegen verwenden jetzt in der
aktuellen Version von unserer API, an der
28:19 - 28:23

wir jetzt arbeiten, quasi direkt die
Identifier, die auch die Statistischen
28:23 - 28:30

Ämter verwenden. Dadurch wird es
einfacher, diese Sachen nachzuvollziehen.
28:30 - 28:33

Und auch wenn ihr quasi einen
tatsächlichen Datensatz habt, irgendwie in
28:33 - 28:37

regionalstatistik.de, den dann hinterher
bei uns rauszusuchen. Das heißt aber auch,
28:37 - 28:42

Ihr müsst irgendwie wissen, wofür diese
Codes stehen. Und hier gibt's eine super
28:42 - 28:49

Vorschlagsuche, quasi. Wenn ich hier
anfange, irgendetwas zu tippen, dann sehe
28:49 - 28:55

ich hier verschiedene Vorschläge und hier
unten sehe ich dann auch eine Erklärung,
28:55 - 28:59

was das ist. Das heißt, wir haben uns
schon ein bisschen Mühe gegeben, dass man
28:59 - 29:03

sich das so ein bisschen erschließen kann,
was da drin ist. Und ich glaube, das war
29:03 - 29:08

jetzt BEVMK, das sind von Scheidungen
betroffene Kinder. Und wenn ich jetzt hier
29:08 - 29:12

draufklicke, dann kriege ich hier auch so
eine Doku. Das ist jetzt bei diesem
29:12 - 29:17

Datensatz sehr einfach. Da sehen wir
einfach, aus welcher Statistik der kommt.
29:17 - 29:23

Das ist die "Statistik rechtskräftiger
Urteile in Ehesachen", Nummer 12631. Das
29:23 - 29:25

heißt, anhand davon könnt ihr die
wahrscheinlich dann auch in
29:25 - 29:30

regionalstatistik.de raussuchen. Oder wenn
ihr beim Statistischen Bundesamt anrufen
29:30 - 29:34

müsst, dann wissen die auch, worum es
geht. Aber wir wollen ja eigentlich, dass
29:34 - 29:39

ihr da nicht anrufen müsst. Deswegen geben
wir die jetzt einfach mal so aus. Sehen
29:39 - 29:46

wir, das ist hier rot markiert. Und dann
sagt er: Ich hab irgendwas vergessen. Wie
29:46 - 29:52

hieß es? Drei. Und jetzt sehen wir, das
ist immer noch rot. Dann sagt er: Das muss
29:52 - 29:57

eine Unterauswahl haben. Also mache ich
mal eine Unterauswahl. Und wir sehen schon
29:57 - 30:02

hier auf der von euch aus gesehen linken
Seite, dass... von euch aus gesehen
30:02 - 30:07

rechten Seite... ist die gleiche Seite wie
bei mir auch am Bildschirm, eigentlich
30:07 - 30:11

easy. Auf der rechten Seite seht ihr, was
man da so machen kann und da sehen wir,
30:11 - 30:16

wir können Jahr und einen Wert abrufen und
auch die Quelle. Ich mache das jetzt
30:16 - 30:23

einfach mal, geb hier mal Value ein. Drück
auf Play und dann sehen wir, wir kriegen
30:23 - 30:27

hier irgendwie so eine Liste, da sind
Werte drin. Irgendwie für jede einzelne
30:27 - 30:31

Stadt, jeden einzelnen Landkreis. Da macht
es noch nicht so viel Sinn, weil das sind
30:31 - 30:37

halt Werte für ein Jahr. Deswegen geben
wir uns zusätzlich noch das Jahr aus und
30:37 - 30:42

dann sehen wir hier quasi einen Datensatz
für jedes Jahr. Den könnte man jetzt
30:42 - 30:47

wahrscheinlich auch noch so ein bisschen
sortieren und so... Das sind alles jetzt
30:47 - 30:51

nur so API Design Sachen, an denen wir
arbeiten. Aber grundsätzlich seht ihr, wie
30:51 - 30:56

das funktioniert. Und genauso könnt ihr
eben anhand von diesem Schlüssel, den wir
30:56 - 31:01

hier haben, auch Daten für einen
einzelnen, für eine einzelne Stadt
31:01 - 31:05

abrufen. Das heißt, das hier ist mehr so
eine Bulkabfrage, wo wir quasi sehr viele
31:05 - 31:11

Daten kriegen über alle Städte und
Landkreise in einem Bundesland. Aber wir
31:11 - 31:19

können jetzt auch sehr detailliert nach
einem einzelnen Wert fragen. Zum Beispiel
31:19 - 31:22

kann ich hier jetzt das Ganze für
Saarbrücken machen. Also wir sehen,
31:22 - 31:37

Saarbrücken hat die ID 10041 und dann kann
ich hier eingeben: ID. Whoa. Also ist alles
31:37 - 31:43

auch noch ein bisschen Alpha, ne... 10041
und wir geben jetzt einfach mal
31:43 - 31:48

spaßeshalber die gleichen Werte aus. Und
dann sehen wir, wir kriegen jetzt eine
31:48 - 31:52

Antwort, quasi eine JSON Datei und die
enthält jetzt nur die Werte für
31:52 - 31:56

Saarbrücken. Und wenn wir jetzt ein
genaues Jahr wollen, sagen wir, wir
31:56 - 32:04

wollen 2014, dann kann ich das hier auch
weiter nach dem Jahr filtern. Ja, und
32:04 - 32:10

jetzt kriegen wir einfach nur den Wert
zurück für 2014. Und so kann man eben
32:10 - 32:14

beliebige andere Statistiken auch
abfragen. Es ist sehr einfach für
32:14 - 32:19

Datensätze, die sehr einfach sind, so wie
der. Es gibt in der Praxis auch sta– äh,
32:19 - 32:23

statistische Datensätze, die sind
irgendwie hoch verschachtelt. Wir haben ja
32:23 - 32:28

vorhin auch so eine Tabelle gesehen, wo
sie dann versucht haben, diese Tabelle
32:28 - 32:31

quasi, also diese verschachtelten Daten
irgendwie zweidimensional in einer Tabelle
32:31 - 32:35

darzustellen. Und dann kommt irgendwas
raus, was man nicht mehr... also was man
32:35 - 32:38

nicht mehr mit einem Computer verarbeiten
kann, sondern nur noch auf A4 ausdrucken.
32:38 - 32:43

Und für diese komplexeren Sachen muss man
sich das dann ein bisschen genauer
32:43 - 32:47

angucken, wie die Dinge halt ineinander
verschachtelt sind. Aber grundsätzlich
32:47 - 32:52

sollte man das alles irgendwie hier aus
der API rauskriegen. Also wenn wir hier
32:52 - 33:00

diese BEVMK-Sache suchen. Also ich habe
gerade gesehen, da sind jetzt nicht so
33:00 - 33:04

viele Dinge drin, aber wenn wir uns
irgendwas anderes raussuchen, dann sehen
33:04 - 33:08

wir, hier gibt's z.B. nen komplexeren
Datensatz. Da kann man jetzt noch
33:08 - 33:14

irgendwelche Auswahl treffen. Nur
Kinder, die im Januar geboren wurden oder
33:14 - 33:19

nur Kinder, die im Februar geboren wurden
und so.. Ja, also ich denke, ihr versteht,
33:19 - 33:26

worum es geht. Wir haben jetzt ein
bisschen Zeit. Ich würde das jetzt hier
33:26 - 33:32

für Fragen öffnen und wenn ihr ganz
konkrete Fragen habt oder Ideen habt
33:32 - 33:38

dafür, was man damit machen kann - oder
wenn ihr vielleicht Interesse habt, an so
33:38 - 33:43

einem Open-Source-Projekt mitzuarbeiten,
dann können wir ja gerne nachher ein
33:43 - 33:47

bisschen quatschen. Also da gibt's viele
Dinge, die man machen kann oder die wir
33:47 - 33:55

für das nächste Jahr geplant haben. Also
wir haben einen fröhlichen Haufen Python-
33:55 - 34:00

und JavaScript-Code und wir haben auch
redaktionelle Aufgaben. Also ich sag mal
34:00 - 34:03

so, Fragestellungen, wo man sich mal so
ein bisschen Statistik angucken kann oder
34:03 - 34:07

so ein bisschen mit uns überlegen, wie man
jetzt irgendwas besonders gut darstellen
34:07 - 34:11

kann oder wie man irgendwas besonders gut
erklären kann - das ist dann eher
34:11 - 34:16

Patricias Thema und wir haben für nächstes
Jahr geplant, dass wir einen größeren
34:16 - 34:20

Hackathon organisieren. Vermutlich in
Berlin und vermutlich irgendwann noch vor
34:20 - 34:25

der Europawahl, eventuell auch mit einem
Schwerpunkt auf Daten aus der Europawahl.
34:25 - 34:29

Weil hier drin sind eben auch sehr viele
historische Wahlergebnisse und auch so
34:29 - 34:33

Sachen wie Wahlbeteiligung. Und die sind
schon aufgelöst nach Gemeinden und
34:33 - 34:36

Städten, d.h. da kann man sehr
interessante Dinge damit machen, weil man
34:36 - 34:42

die eben dann sehr gut.... keine Ahnung,
Arbeitsmarktstatistik mit Wahlergebnissen
34:42 - 34:45

oder so vergleichen kann. Das macht
vielleicht nicht so wahnsinnig viel Sinn,
34:45 - 34:50

aber da kann man sich sicher sinnigere
Dinge überlegen. Ihr findet uns auf
34:50 - 34:55

Twitter und auf GitHub unter @datenguide
und ihr findet die Slides für diesen
34:55 - 35:00

Vortrag unter dieser URL:
downloads.datengui.de/35c3. Ich werde es
35:00 - 35:05

nachher nochmal irgendwie vertwittern oder
sonstwie posten und ansonsten -
35:05 - 35:09

Fragen von euch!
35:09 - 35:16

Applaus
35:16 - 35:20

Q: Ja, hört man mich? Vielen Dank erst
einmal für den Vortrag. Ich habe gesehen,
35:20 - 35:25

das ist eine Python-Flask-App, wenn ich
richtig gesehen habe. Also erst einmal
35:25 - 35:31

Gratulation dafür - eine sehr gute Wahl!
Mich würde noch interessieren, man hat ja
35:31 - 35:34

einige Daten gesehen, einige
Beispieldaten. Wir hatten z.B. das Jahr,
35:34 - 35:38

das war aber ein String. Verarbeitet ihr
die Sachen irgendwie noch weiter oder ist
35:38 - 35:42

das einfach nur dadurch, dass es aus einer
CSV kommt, erst einmal als String einfach
35:42 - 35:46

reingepastet?
Simon: Ja, also es ist so durch ein paar
35:46 - 35:49

Iterationen gegangen und das, was wir
jetzt gesehen haben, das wird tatsächlich
35:49 - 35:54

automatisch generiert auf Basis von den
Daten, die da rauskommen. Und ja, es ist
35:54 - 35:57

im Moment noch so ein bisschen
inkonsistent. Also man hat auch, wenn man
35:57 - 36:03

noch genauer aufgepasst hat, gesehen, dass
dieser NUTS-Level z.B. war ein Integer,
36:03 - 36:08

aber andere Sachen sind halt Zahlen. Ob
jetzt ein Jahr eine Zahl ist oder ein
36:08 - 36:14

String... Ja, ich denke, wir sind dabei,
das noch auszuknobeln. Wir haben jetzt im
36:14 - 36:18

Moment den Ansatz gewählt, möglichst wenig
der Daten irgendwie weiter zu verarbeiten
36:18 - 36:24

und das möglichst direkt abzubilden in
einer API, was auch zur Folge hat, dass im
36:24 - 36:28

Moment komplexere Queries auch teilweise
sehr umständlich zu schreiben sind. Und
36:28 - 36:33

das ist einfach ein Thema, an dem wir im
Moment noch arbeiten. Wir... was man noch
36:33 - 36:37

dazu sagen kann: Wenn jemand von euch sich
schon intensiver mit dem Thema
36:37 - 36:42

auseinandergesetzt hat, es gibt ein
anderes Projekt, das heißt ReGenesis. Das
36:42 - 36:47

hat Friedrich Lindenberg mal gemacht vor
ein paar Jahren. Das ist quasi auch eine
36:47 - 36:51

Webanwendung, die eine Rest-API zur
Verfügung stellt für diese Daten. Das
36:51 - 36:54

Projekt ist schon so ein bisschen sehr in
die Jahre gekommen und wird auch nicht
36:54 - 36:58

mehr weiter gepflegt. Und wir setzen aber
darauf auf. Das heißt, der Code, mit dem
36:58 - 37:04

wir die Daten herunterladen aus diesen
offiziellen Portalen, das ist quasi der
37:04 - 37:09

ReGenesis-Code, den wir auch verwenden.
Das ist eben auch eine Python-Anwendung.
37:09 - 37:13

Okay, weitere Fragen?
P3nny: Ja, und wir müssen halt nochmal
37:13 - 37:17

gucken, weil die Idee ist, welche Schritte
man sich vornimmt. Man könnte das relativ
37:17 - 37:21

umfangreich machen, dass man halt jeden
einzelnen Datensatz durchgehen muss. Man
37:21 - 37:24

könnte dann definitiv eine bessere
Erklärung dazu schreiben, muss das aber
37:24 - 37:29

halt mal recherchieren. Man müsste dann
halt quasi diese Untervalues auch
37:29 - 37:32

nochmal... also man könnte versuchen,
jeden einzelnen dieser Datensätze besser
37:32 - 37:36

zu machen. Das ist vielleicht ein bisschen
viel gewollt, sodass wir jetzt erst gesagt
37:36 - 37:39

haben: Okay, wir gehen den Schritt zurück
und machen halt diesen Pain, den ich
37:39 - 37:44

beschrieben habe, weniger schlimm. Also
erstmal den ersten Schritt und dann das
37:44 - 37:47

andere auch in Kooperation mit den
jeweiligen Ämtern und so, weil man dann
37:47 - 37:49

immer nochmal jemanden fragen muss, der
diese Statistik erstellt hat. Weil wenn
37:49 - 37:52

ich dann eine einfachere Beschreibung hin
schreibe, schlägt er nachher die Hände
37:52 - 37:57

über dem Kopf zusammen und sagt: Ja, so
kann man das aber nicht genau sagen.
37:57 - 38:01

Deswegen - da dazwischen, in diesem
Spannungsfeld bewegen wir uns und machen
38:01 - 38:07

jetzt erstmal den ersten Schritt.
Q: Ja, wie sieht denn generell euer
38:07 - 38:11

Technologie Stack aus? Python und Flask
haben wir jetzt schon gehört. Was ist noch
38:11 - 38:16

im Spiel bei euch?
Simon: Also wir benutzen ja wie gesagt
38:16 - 38:22

Python und Flask für die Webanwendungen.
Wir benutzen Elastic Search für die...
38:22 - 38:26

quasi als Such-Backend, aber wir arbeiten
im Moment mit Elastic Search auch so, dass
38:26 - 38:31

wir einfach diesen kompletten Datensatz,
den wir runterladen, einfach reinpumpen,
38:31 - 38:35

damit man auch darüber suchen kann. Ich
bin mir auch noch nicht sicher, ob das der
38:35 - 38:38

perfekte Weg ist, aber im Moment
funktioniert das für uns ganz gut. Das
38:38 - 38:42

heißt, wir haben keine Postgres-Datenbank
oder so, wo das drin ist, sondern wir
38:42 - 38:50

haben einfach nur diesen Postgres... äh,
diesen Elastic Search Datenhaufen und
38:50 - 38:53

suchen das dann darin. Das heißt, die
Flask-App ist im Moment auch eine sehr
38:53 - 38:58

sehr einfache Flask-App, die einfach nur
ein - ich sage jetzt mal so - ein Frontend
38:58 - 39:02

darüber zur Verfügung stellt - also quasi
ein technisches Frontend. Die
39:02 - 39:07

Benutzeroberfläche, die ihr sehen könnt,
also das grafische Frontend, das
39:07 - 39:13

entwickeln wir mit React und ein bisschen
Datenvisualisierungs-Bibliotheken,
39:13 - 39:19

VictoryJS wäre so ein Stichwort. Das ist
eine quasi ein React Wrapper um D3. Also
39:19 - 39:24

D3 ist so eine Datenvisualisierungs-
Bibliothek, VictoryJS sind quasi
39:24 - 39:33

Datenvisualisierungs-Komponenten, die man
in React verwenden kann auf Basis von D3.
39:33 - 39:40

Eine interessante technische Sache, was
Patricia gerade angesprochen hat, ist: Es
39:40 - 39:44

gibt so eine Bewegung in der JavaScript-
Welt, nicht mehr super komplexe JavaScript
39:44 - 39:48

Anwendungen zu bauen, die nur auf dem
Client laufen, sondern Sachen halt
39:48 - 39:52

irgendwie wieder wie früher auf dem Server
zu rendern oder idealerweise schon quasi
39:52 - 39:58

zu einem... ich sage mal zum Build-
Zeitpunkt wieder als HTML auszugeben. Und
39:58 - 40:03

da gibt es ein fancy Wort dafür, das heißt
JAMstack. Was es bedeutet: Das heißt
40:03 - 40:08

einfach nur, man baut eine Anwendung mit
JavaScript, in unserem Fall mit React. Die
40:08 - 40:13

baut auf einer API auf. Die API kann auch
für andere Dinge wiederverwendet werden
40:13 - 40:18

und wir bauen halt so einen JavaScript
Client dafür. Und aus diesem JavaScript
40:18 - 40:24

Client generieren wir dann aber ganz viele
HTML-Seiten, damit man quasi eine HTML-
40:24 - 40:28

Seite hat für jede Stadt. Und wenn du die
dann... wenn du dann auf diese Seite
40:28 - 40:32

gehst, dann lädtst du die HTML-Seite
runter und die kannst du direkt sehen,
40:32 - 40:36

weil es ist halt einfach nur HTML. Aber im
Hintergrund wird halt dieser ganze
40:36 - 40:41

JavaScript-Kram initialisiert. Und das
klingt jetzt sehr kompliziert, aber da
40:41 - 40:44

gibt es ein Framework, mit dem man sowas
machen kann und das heißt Gatsby.js. Und
40:44 - 40:48

das benutzen wir hier und es funktioniert
für uns auch sehr gut. Wenn euch... wenn
40:48 - 40:51

ihr da genaueres wissen wollt, ich hänge
hier nachher noch ein bisschen rum, da
40:51 - 40:55

kann ich euch auch zeigen, wie das
funktioniert. Haben wir noch Zeit für eine
40:55 - 40:58

Frage?
Q: Halt, eine noch! Also noch einmal ein
40:58 - 41:06

Lob. Ich fand Konzept, Präsentation und
eure Prototypen sehr gut aussehend. Eine
41:06 - 41:11

konzeptionelle Frage: Ihr habt jetzt einen
hohen Fokus auf regionale Sachen gelegt.
41:11 - 41:15

Geht ja auch eine Ebene höher. Also
Bundesländer und der Bund vielleicht. Ich
41:15 - 41:18

sehe nämlich mittel- bis langfristig auf
jeden Fall irgendwie das Potenzial,
41:18 - 41:23

Statista... oder einen starken
Konkurrenten zu Statista aufzubauen, wo
41:23 - 41:28

mir einfach gerade ein bisschen Open
Source mäßig etwas fehlt.
41:28 - 41:37

Simon: Ja, also der Punkt kommt sehr oft.
Also der Punkt kommt sehr oft. Ja, also
41:37 - 41:41

ich finde auch, Statista finde ich extrem
schwierig. Vor allem finde ich es
41:41 - 41:45

schwierig, dass man, wenn man jetzt
irgendeinen Datensatz googlet, dann findet
41:45 - 41:49

man meistens Statista und es vermittelt
einem irgendwie, dass man jetzt bezahlen
41:49 - 41:53

muss, um diesen Datensatz herunterzuladen.
Und wenn wir über diese amtliche Statistik
41:53 - 41:59

reden, dann sind das halt freie Daten. Und
diese Idee, die ich vorhin beschrieben
41:59 - 42:03

habe, dass wir einzelne HTML-Seiten
generieren für jeden Ort und jeden
42:03 - 42:08

Datensatz, der kommt auch daher, dass wir
eigentlich so den Long Tail nutzen wollen
42:08 - 42:12

in den Suchmaschinen und eigentlich
idealerweise dann irgendwann höher gerankt
42:12 - 42:16

werden als Statista. Zu dem anderen Teil
deiner Frage, andere Datensätze da
42:16 - 42:23

reinzunehmen. Die statistischen Ämter
benutzen dieses System Genesis, um diese
42:23 - 42:26

Daten zu veröffentlichen.
regionalstatistik.de ist quasi eine
42:26 - 42:30

Genesis-Instanz, wo die Daten der
Statistischen Landesämter drin sind. Aber
42:30 - 42:34

es gibt eben andere Genesis-Instanzen und
mit unserer Technologie kann man
42:34 - 42:39

grundsätzlich auch andere Genesis-
Instanzen - die Daten aus anderen Genesis-
42:39 - 42:43

Instanzen laden und zur Verfügung stellen,
weil das alles genau gleich funktioniert.
42:43 - 42:48

Das hat halt mit unserem föderalen System,
was wir in Deutschland haben, zu tun.
42:48 - 42:52

Wobei das nicht heißt, dass die Software
ein föderiertes System ist. Also es ist
42:52 - 42:58

nicht Mastodon-föderiert, dass ich quasi
über eine Instanz von dieser Software alle
42:58 - 43:02

Daten abfragen kann, sondern die haben
halt einfach einzelne Instanzen, weil halt
43:02 - 43:06

andere Leute zuständig sind für andere
Datensätze. Aber perspektivisch wäre es
43:06 - 43:11

schon mein Ziel, mit diesem Konzept auch
andere Datensätze, idealerweise halt
43:11 - 43:15

alles, was irgendwie über Genesis
veröffentlicht wird, zur Verfügung zu
43:15 - 43:18

stellen. Wir haben uns jetzt eben als
einfachen Use Case die
43:18 - 43:22

regionalstatistik.de ausgesucht. Also ich
muss dazu sagen, wir arbeiten da schon
43:22 - 43:28

seit einem Jahr dran. Und wir haben am
Anfang sehr viel ausprobiert und wir haben
43:28 - 43:34

auch über die Zeit unseren Scope verändert
und die Tatsache, dass wir jetzt eben
43:34 - 43:38

diese konkrete, dieses konkrete Produkt
entwickeln und uns auf die
43:38 - 43:42

regionalstatistik konzentrieren, das ist
eigentlich eine neuere Sache. Aber das ist
43:42 - 43:45

einfach etwas, was wir jetzt machen
müssen, damit wir mit irgendetwas mal
43:45 - 43:50

vorankommen. Wir sind auch nur zu dritt
und vielleicht so vier, je nachdem, wie
43:50 - 43:57

man das zählt. Und lange zu zweit. Genau
deswegen, ja. Wir sind halt auch nicht
43:57 - 44:03

Statista. Aber Open Source Schreibtisch-
Hooligan Statista finde ich super. Also
44:03 - 44:06

wenn noch ein paar Leute von euch Lust
haben, dann können wir uns sehr gerne
44:06 - 44:10

drüber unterhalten.
Herald: Also wir haben auch noch viel Zeit
44:10 - 44:14

übrig, denke ich. Noch eine Viertelstunde
oder so. Wenn es noch mehr Fragen gibt,
44:14 - 44:20

supergeil. Ja, gerne weiter.
Q: Wie organisiert ihr euch als Projekt
44:20 - 44:27

und wie finanziert ihr euch?
Simon: Ja, also vielleicht... genau.
44:27 - 44:33

Patricia geht mal hier zurück, weit
zurück. Also wir organisieren uns im
44:33 - 44:43

Moment so ein bisschen über GitHub Issues.
Wir haben nen Slack-Channel im OKF-Slack.
44:43 - 44:47

Das ist halt irgendwie das Einfachste für
uns, wir sind auch ein verteiltes Team.
44:47 - 44:52

Also ich sage mal, wir arbeiten zeitlich
und räumlich verteilt. Patricia ist in
44:52 - 44:57

Köln. Ich bin in Berlin. Mein anderer
Kollege Simon Wörpel, der ganz viel an der
44:57 - 45:01

API arbeitet, der ist zwar auch in Berlin,
aber Berlin ist eine große Stadt. Wir
45:01 - 45:07

sehen uns jetzt auch nicht jeden Tag.
Deswegen halt sehr viel über Slack. Wir
45:07 - 45:11

haben uns jetzt in der Vergangenheit immer
mal getroffen. Ich glaube, wir uns zwei
45:11 - 45:19

Mal getroffen, seit wir an dem Projekt
arbeiten. Und... also dreimal mit jetzt.
45:19 - 45:25

Nächstes Jahr wollen wir, also wie gesagt,
so eine Art Hackathon machen. Da wollen
45:25 - 45:30

wir auch ein bisschen mehr Community
zusammenbringen und dann halt in dem
45:30 - 45:34

Zusammenhang auch irgendwie gucken, wie
man das Projekt als Open Source Projekt
45:34 - 45:37

weiterentwickeln kann und was für
Kommunikationskanäle man dann auch
45:37 - 45:44

braucht. Zur Förderung. Also ich hab ja
vorhin gesagt, wir hatten am Anfang eine
45:44 - 45:50

Förderung vom Prototype Fund. Das ist ein
sehr gutes Förderprogramm für Open Source
45:50 - 45:55

Projekte, die halt irgendwie eine
gesellschaftliche Relevanz haben. Das war
45:55 - 45:58

auch in der in der Bewerbung, in der
Durchführung super. Also kann ich nur
45:58 - 46:02

jedem empfehlen. Ich habe tatsächlich
inzwischen auch schon ein zweites
46:02 - 46:07

Prototype Fund Projekt hinter mir. Alle da
bewerben. Ich muss dazu sagen, ich habe
46:07 - 46:10

mich auch mit viel mehr Kram beworben, der
wurde nicht genommen. Gibt wahrscheinlich
46:10 - 46:17

auch viele Bewerber. Aber ich kann auf
jeden Fall jedem raten, es auszuprobieren
46:17 - 46:20

und euch am besten vorher mal mit den
Leuten vom Prototype Fund zu unterhalten.
46:20 - 46:23

Die sind auch hier irgendwie unterwegs.
Wenn ihr die hier anpingt, dann habt ihr
46:23 - 46:26

sicher die Möglichkeit, da noch eine
Audienz zu kriegen. Das ist auch ein
46:26 - 46:30

laufendes Programm. Also Prototype Fund
könnt ihr euch glaub ich noch das nächste
46:30 - 46:37

Jahr oder so auf ein paar weitere
Förderrunden noch bewerben. Unsere
46:37 - 46:44

aktuelle Förderung setzt sich zusammen aus
Geld, das wir vom Medien
46:44 - 46:49

Innovationszentrum Babelsberg bekommen
haben und so einem Stipendium, das ich
46:49 - 46:56

habe, im Moment. Das Medien
Innovationszentrum ist so ein Konstrukt,
46:56 - 47:01

da werden quasi Rundfunkgebühren
umverteilt an Innovationsprojekte und die
47:01 - 47:07

haben auch ein großes Interesse dran, so
Open Source Projekte zu fördern. Kann man
47:07 - 47:12

sich auch bewerben, ist ein bisschen
aufwendiger, so in der Durchführung und
47:12 - 47:18

was den administrativen Aufwand angeht und
ist nicht so viel Geld wie der Prototype
47:18 - 47:21

Fund. Deswegen immer erst einmal beim
Prototype Fund bewerben und wenn ihr dann
47:21 - 47:25

noch mehr Geld braucht, beim MIZ bewerben.
Das wäre so meine Strategie.
47:25 - 47:29

P3nny: Genau. Was wir aber im Rahmen
dieses MIZ-Dingens machen, weil der Fokus
47:29 - 47:33

da auf Journalisten und journalistische
Produktentwicklung liegt, ist, mit
47:33 - 47:37

Redaktionen zusammenzuarbeiten. Also es
gab neulich einen dpa Hack Day, wo schon
47:37 - 47:43

die ersten Journalistinnen mit einem Team
die API genutzt haben, um so eine Art
47:43 - 47:47

Newslettersystem... also ich kann mich
als Lokalredakteur für meine Stadt
47:47 - 47:51

Flensburg oder so da anmelden und kriege
dann halt immer nen Alert, wenn Daten...
47:51 - 47:56

also wenn Flensburg irgendwo top oder low
gerankt ist. Sowas kann man sich ja auch
47:56 - 47:59

vorstellen, dass man das als Service
anbietet. Und ich selber bin freie
47:59 - 48:03

Mitarbeiterin beim WDR. Geplant ist, dass
wir ein Daten-Projekt vielleicht rund um
48:03 - 48:08

die Europageschichte oder so mit dem WDR
und so machen. Also um das, was wir da
48:08 - 48:11

tun, auch reinzutragen in etablierte
journalistische Unternehmen.
48:11 - 48:17

Simon: Ja also ich vermute mal, dass deine
Frage auch mehr so auf Businessmodell
48:17 - 48:23

abgezielt hat dafür. Und das haben wir
tatsächlich im Moment nicht. Man muss mal
48:23 - 48:29

gucken. Also jetzt im Moment ist es ja
sehr... also es ist sehr billig, das zu
48:29 - 48:32

betreiben für uns im Moment. Die Website
wird wahrscheinlich auch relativ
48:32 - 48:36

unproblematisch sein, weil die ist erstmal
nur ein Haufen HTML. Das kann man im
48:36 - 48:39

Zweifelsfall umsonst bei Netlify oder so
betreiben oder auf GitHub. Interessanter
48:39 - 48:45

ist halt die Sache mit der API. Also ich
glaube, wenn wir... also so ein großer
48:45 - 48:50

Elastic Search Cluster kostet richtig
Geld. Ich denke mal, wenn wir Power User
48:50 - 48:55

haben, die dafür halt irgendwas... also
diese API für irgendetwas benutzen, was
48:55 - 48:58

vielleicht für die auch eine kommerzielle
Relevanz hat, dann kann ich mir schon
48:58 - 49:04

vorstellen, dass man da irgendein Modell
findet, wo man quasi dafür bezahlt, wenn
49:04 - 49:08

man einen sehr hohen, sehr hohes
Datenaufkommen verursacht oder so. Aber
49:08 - 49:13

das ist so ein Problem, mit dem wir uns im
Moment noch nicht befassen. Grundsätzlich
49:13 - 49:18

hab ich... Genau. Es gibt ja alle
möglichen Ideen, was man da drum machen
49:18 - 49:22

kann. Ich kann mir gut vorstellen, dass
man perspektivisch vielleicht etwas über
49:22 - 49:26

Sponsoring macht, also dass man sagt, dass
Medienorganisationen, die unsere Daten
49:26 - 49:32

verwenden... keine Ahnung, uns irgendwie
fördern oder so. Patrica hat gerade
49:32 - 49:36

gesagt, wir haben auch schon so überlegt,
ob man halt ne Brücke baut zu anderen
49:36 - 49:39

Tools, wo man dann vielleicht irgendwas
Kommerzielles macht, was nicht der Kern,
49:39 - 49:43

das Kernprojekt ist. Also dass man sagt,
es gibt ein Datenvisualisierungstool, das
49:43 - 49:46

heißt Data Wrapper. Naja, dass man sagt,
wenn Data Wrapper irgendwie unsere Daten
49:46 - 49:49

benutzen will, dann stellen wir das denen
halt in irgendeiner Form zur Verfügung und
49:49 - 49:54

man überlegt sich dann da halt ein Modell
dazu. Aber ich will eigentlich nicht so...
49:54 - 49:56

ich sehe mich jetzt nicht als
Medienunternehmer und ich will jetzt auch
49:56 - 50:02

nicht den nächsten Statista Datenbroker
gründen, gerade hier auf dem Kongress.
50:02 - 50:08

Also idealerweise würde dieses Angebot
auch irgendwann sich selber abschaffen,
50:08 - 50:11

weil die statistischen Ämter sehen, wie
sie die Daten eigentlich aufbereiten
50:11 - 50:14

müssen, damit Bürger die nutzen und dann
machen sie selber ein ähnliches Angebot.
50:14 - 50:18

Das ist jetzt vielleicht sehr utopisch
gedacht, aber es gibt durchaus Leute bei
50:18 - 50:22

den statistischen Ämtern, die ein
Interesse daran haben, sich breiter zu
50:22 - 50:26

öffnen. Und die sehen auch, dass sie etwas
machen müssen. Weil die sind dem
50:26 - 50:32

Innenministerium unterstellt und die sind
nicht unbedingt die größte Priorität vom
50:32 - 50:36

Innenministerium gerade. Das heißt, die
haben durchaus auch ein Interesse daran,
50:36 - 50:40

mehr Aufmerksamkeit für ihre Arbeit und
ihre Daten zu kriegen. Und wir stehen auch
50:40 - 50:51

auf jeden Fall im engen Austausch mit den
statistischen Ämtern.
50:51 - 50:57

Q: Ja hi, eine Frage, wie ihr die Daten
gewinnt. Ihr habt gesagt, Genesis wäre ein
50:57 - 51:00

Austauschformat? Also ich stelle mir das
sehr mühsam vor, wenn ich jetzt überlege,
51:00 - 51:03

wie ich diese ganzen Daten von diesen
Seiten aggregieren müsste, das wäre - ich
51:03 - 51:07

würde jetzt schon aufhören. Und es scheint
da nen Standard zu geben. Könnt ihr
51:07 - 51:10

darüber was sagen oder wie diese Daten zu
euch kommen?
51:10 - 51:14

Simon: Ja, genau. Also ich habe vorhin ja
erwähnt, wir sind da schon durch so ein
51:14 - 51:19

paar Iterationen gegangen. Am Anfang haben
wir tatsächlich die Daten mehr oder
51:19 - 51:24

weniger gescrapet, was auch nicht so
einfach ist, weil eigentlich werden die
51:24 - 51:29

Daten da halt für jeden Abruf generiert,
aber da gibt's halt so ein paar... das ist
51:29 - 51:35

alles, ja, also alles so ein bisschen
kompliziert. Aber es gibt halt die
51:35 - 51:38

Möglichkeit, da auch statische Daten
runterzuladen einfach und das haben wir eine
51:38 - 51:42

Weile gemacht und haben uns dann so ein
Schema-System überlegt, mit dem man quasi
51:42 - 51:47

automatisiert diese einzelnen Datensätze
aufräumen kann. Da musste man aber immer
51:47 - 51:53

noch für jeden von den 450 Datensätze
irgendein Schema beschreiben. Wir sind
51:53 - 51:58

dann im Austausch mit den statistischen
Ämtern so weit gekommen, dass es
51:58 - 52:02

tatsächlich eine Daten-Schnittstelle gibt,
die ist für regionalstatistik.de nicht
52:02 - 52:10

dokumentiert. Aber sie existiert. Alle
Genesis-Instanzen, die betrieben werden,
52:10 - 52:14

die haben eine Daten-Schnittstelle. Die
kostet manchmal Geld, manchmal nicht. Bei
52:14 - 52:19

dem offiziellen Angebot von Destatis zum
Beispiel, da kostet die ein Haufen Geld
52:19 - 52:23

und ist dokumentiert. Bei
regionalstatistik.de kostet die nichts,
52:23 - 52:27

dafür ist auch nirgendwo im Web was drüber
geschrieben. Wir benutzen jetzt aber diese
52:27 - 52:31

Datenschnittstelle, das ist eine SOAP-
Schnittstelle, wenn des hier jemand was
52:31 - 52:35

sagt. Also es ist mehr so Enterprise
Level. Das benutzen halt Banken und
52:35 - 52:39

Versicherungen. Vielleicht heute auch
nicht mehr, wenn sie heute nochmal damit
52:39 - 52:44

anfangen würden. Aber es ist halt eine
SOAP-Schnittstelle und ist quasi eine
52:44 - 52:50

SOAP-Schnittstelle auf nen OLAP Data Cube.
Also das ganze ist ein Datenquader, also
52:50 - 52:54

irgendwie so eine Terabyte große
Datenstruktur, die irgendwo steht. Die
52:54 - 52:58

könnte man sich auch komplett runterladen
und dann direkt auf diesem OLAP Cube
52:58 - 53:03

operieren. Aber im Moment benutzen wir
ReGenesis, das ist eben dieses Open Source
53:03 - 53:09

Tool, was ich vorhin beschrieben habe. Und
mit ReGenesis kann man eben diese SOAP API
53:09 - 53:14

relativ einfach aus Python ansprechen.
Aber die Idee ist halt, dass wir ein Layer
53:14 - 53:18

drüber ziehen, der einfacher ist. Aber wir
räumen jetzt, also Stand jetzt, räumen wir
53:18 - 53:23

nicht mehr manuell Daten auf, die wir
gescrapet haben. So viel kann ich sagen.
53:23 - 53:28

Q: So eine Follow up Frage hätte ich dazu
noch aus dem Operations-Bereich: Skaliert
53:28 - 53:32

das? Also wenn ihr weitere Datenquellen
anbinden wollt, wie Bundes-, whatever?
53:32 - 53:34

Keine Ahnung, wie viel manuelle Arbeit
steckt da drin?
53:34 - 53:38

Simon: Naja, also jetzt kann man
tatsächlich halt... also es gibt dieses
53:38 - 53:42

Open Source Projekt, kannst du dir
angucken, kann man mit mehr oder weniger,
53:42 - 53:47

naja, ich glaube so in 20 bis 30 Minuten
kann man sich dieses Backend-Projekt
53:47 - 53:51

aufsetzen und dann auch Daten da rein
laden. Also es ist schon alles irgendwie
53:51 - 53:55

so automatisiert, dass man das machen kann
jetzt für uns. Naja, inwieweit es skaliert
53:55 - 53:58

Also skalieren hat hier verschiedene
Dimensionen. Also einmal pumpen wir die
53:58 - 54:02

Daten halt alle in Elastic Search. Keine
Ahnung, ob das skaliert, wird sich noch
54:02 - 54:09

rausstellen. Funktioniert jetzt mit dem
Datensatz, den wir haben. Die andere Sache
54:09 - 54:14

ist halt der Download der Daten und das
ist im Moment relativ einfach aufgesetzt.
54:14 - 54:18

Also ich hatte vorgestern hier einen
technischeren Talk drüben in der Chaos
54:18 - 54:22

Zone und hab darüber geredet, wie das
technisch funktioniert. Und dann kam
54:22 - 54:29

gestern jemand zu mir und hat mir erklärt,
er hat jetzt einen Docker-Container
54:29 - 54:33

gebaut, der unser Backend enthält mit
allem Zeug. Also das heißt, irgendjemand
54:33 - 54:36

hat sich dann hingesetzt und das gemacht.
Das ging offensichtlich relativ einfach.
54:36 - 54:43

Ich weiß nicht ob die Person da ist. Nein,
auch gut, aber ja. Also mit dem Text-Hack
54:43 - 54:46

zu arbeiten ist relativ einfach, wie es
perspektivisch skaliert, ist glaube ich
54:46 - 54:52

eher ein Problem der Datenhaltung. Und ich
glaube, wenn man richtig viel damit machen
54:52 - 54:56

wollte, müsste man eigentlich sich mit
diesem OLAP Cube befassen. Das sagen auch
54:56 - 55:00

die Leute von den statistischen Ämtern.
Also wenn man denen mit einem besonderen
55:00 - 55:03

Problem kommt, dann sagen die: Ja, da
müssen sie halt den Datenquader
55:03 - 55:10

runterladen. Also, das heißt Datenquader
bei denen. Aber ja, das machen tatsächlich
55:10 - 55:14

auch Leute. Also Statista lädt
wahrscheinlich diesen OLAP Cube runter,
55:14 - 55:17

wahrscheinlich irgendwie jede Nacht oder
so. Das wäre jetzt so meine Vermutung. Und
55:17 - 55:21

dann haben die halt irgendwelche Prozesse
hinten dran, was das in ihre Systeme
55:21 - 55:24

übersetzt. Aber das ist halt so ein
Bereich, in dem wir jetzt
55:24 - 55:28

nicht operieren. Also das ist dann
auch ein anderes Projekt, glaube ich.
55:31 - 55:37

Q: Gibt es, gibt es irgendwo eine
Übersicht von diesen amtlichen
55:37 - 55:40

Kennzeichen, von den Variablen oder den
Definitionen dahinter?
55:40 - 55:45

Simon: Ja. Willst du darüber was sagen?
P3nny: Also auf regionalstatistik.de
55:45 - 55:53

gibt's einen Daten-Katalog und in dem sind
die quasi nach Feldern aufgeschlüsselt.
55:53 - 56:00

Also Wirtschaft, Umwelt, Bevölkerung oder
so grob. Und da drunter findest du dann
56:00 - 56:03

die einzelnen Dateien. Wobei so richtig
gut zum Durchsteigen ist das nicht. Aber
56:03 - 56:07

wenn man sich damit beschäftigt, dann
versteht man das schon. Und dann findet
56:07 - 56:10

man diese Kennziffer und diese Kennziffer
kann man ja dann auch wieder in die API
56:10 - 56:13

reinschmeißen.
56:13 - 56:19

Hier vorne noch?
Da hinten?
56:19 - 56:22

Simon: Also eine Sache dazu ist auch, dass
56:22 - 56:30

wir auch... also wir haben so ein GitHub
Issue offen, diese Übersicht auch da
56:30 - 56:36

rauszuziehen und quasi mit in unsere in
unsere Web-Oberfläche einzubinden. Also
56:36 - 56:42

ich habe gerade schon gezeigt, dass wir so
eine riesenlange Liste haben von jeder
56:42 - 56:46

Stadt und jeder Gemeinde. Und genauso
wollen wir halt auch eine riesenlange
56:46 - 56:51

Liste von jedem Merkmal, das man
durchsuchen kann. Das heißt, das ist quasi
56:51 - 56:56

eine Aufgabe, an der wir arbeiten werden
in den nächsten Wochen.
56:56 - 57:02

Q: Okay, von mir... okay sorry. Nochmal
eine Folgefrage quasi: Habt ihr
57:02 - 57:06

mittelfristig vor, auch manuelle
Dateneingabe zu ermöglichen? Weil es gibt
57:06 - 57:10

ja relativ viele Reports von
Unternehmensberatungen etc pp, wo
57:10 - 57:14

superspannende Daten drinstehen, was aber
glaube ich schwierig zu automatisieren
57:14 - 57:16

ist. Ob ihr da so vorhabt, einen
Communityapproach zu fahren,
57:16 - 57:19

dass irgendjemand das einträgt und
irgendjemand reviewt das
57:19 - 57:21

und dann passt das schon oder
irgendwas in die Richtung?
57:21 - 57:23

Simon: Also ja, das haben wir im Moment
57:23 - 57:30

nicht vor. Also im Moment ist unser Weg
der einfache Weg und das ist, quasi Dinge
57:30 - 57:34

verwenden, die irgendwie einheitlich
erfasst werden, wo klar definiert ist, wo
57:34 - 57:37

sie herkommen, wo auch die Lizenz-
Situation klar ist und die dann halt
57:37 - 57:41

wieder zu veröffentlichen. Also ich hab
die Frage auch schon öfter bekommen bei so
57:41 - 57:45

Präsentationen und es ist im Moment,
glaube ich, irgendwie komplett out of
57:45 - 57:49

scope für uns, weil es halt dann so viele
Fragen aufwirft, mit denen wir uns dann
57:49 - 57:53

befassen müssten. Das ist halt einfach...
da haben wir gerade andere Probleme, die
57:53 - 57:56

wir einfacher lösen könnten, so. Aber
interessant wäre es auf jeden Fall und das
57:56 - 58:02

wäre dann quasi so ein Gecrowdsourcestes,
selber gemachtes Open Data Statista. Also
58:02 - 58:04

ich fände es super interessant, aber das
ist glaube ich ein anderes Projekt
58:04 - 58:07

einfach.
58:07 - 58:13

Herald: Ich glaube, wir haben noch Zeit
für eine letzte Frage. Gibt's noch eine?
58:13 - 58:21

Simon: Ja, keine Fragen. Ist doch super.
Ja, ich bin hier links um die Ecke
58:21 - 58:24

noch ne Weile, wenn ihr irgendwie
konkretere Fragen habt
58:24 - 58:27

oder euch nochmal was angucken
wollt oder mir noch von eurer Idee
58:27 - 58:31

erzählen wollt, dann kommt gern vorbei und
quatscht mich an. Vielen Dank.
58:31 - 58:32

Applaus
58:32 - 58:34

Musik
58:34 - 58:57

Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!

Title:: cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
Video Language:: German
Duration:: 58:57

	Stefan Kaufmann edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	Stefan Kaufmann edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	Stefan Kaufmann edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	Lafresa_rC3 edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	C3Subtitles edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	C3Subtitles edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	C3Subtitles edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4
	C3Subtitles edited German subtitles for cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4

German subtitles

Revisions

Revision 8 Edited

Stefan Kaufmann

cdn.media.ccc.de/.../35c3-wikipakawg-32-deu-Datenguide_Projektvorstellung_Workshop_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)