0:00:00.000,0:00:19.527
Musik
0:00:19.527,0:00:23.490
Herald: Ja, herzlich willkommen zum[br]nächsten Talk in der Wikipaka WG. Hier
0:00:23.490,0:00:37.284
zeigen uns Simon und P3nny das Projekt[br]Datenguide. Viel Spaß!
0:00:37.284,0:00:43.950
Simon: Hallo. Ok. Hi zusammen. Ja, wie[br]gesagt, P3nny und ich, wir möchten über
0:00:43.950,0:00:47.720
einen Open Data Projekt sprechen, an dem[br]wir arbeiten. Das Projekt heißt
0:00:47.720,0:00:56.170
Datenguide. Findet ihr unter datengui.de.[br]Und unsere Mission ist einfach gesagt,
0:00:56.170,0:01:04.869
Statistiken zugänglicher zu machen für[br]alle. Wenn wir über Statistiken reden,
0:01:04.869,0:01:09.560
dann reden wir über amtliche Statistik.[br]Außerdem werden wir gefördert vom MIZ in
0:01:09.560,0:01:13.580
Babelsberg von einem Programm, das heißt[br]Prototype Fund. Das sind ausgezeichnete
0:01:13.580,0:01:19.260
Programme. Wenn Ihr Funding Möglichkeiten[br]sucht für eure Open Source Projekte, kann
0:01:19.260,0:01:25.100
ich nur empfehlen, euch das mal genauer[br]anzugucken. Unser Sourcecode ist frei auf
0:01:25.100,0:01:30.820
GitHub unter Datenguide. Und wenn wir[br]über Statistiken reden, dann meinen wir
0:01:30.820,0:01:35.850
amtliche Statistik. Amtliche Statistik ist[br]einfach gesagt alle Statistiken zu
0:01:35.850,0:01:39.341
Gesellschaft, Umwelt und Wirtschaft. Und[br]das sind Statistiken, die von den
0:01:39.341,0:01:47.030
Statistischen Ämtern erstellt werden. Und[br]das ist, was die Statistiker deskriptive
0:01:47.030,0:01:53.369
Statistik nennen. Das heißt, es gibt da[br]keine Interpretation, keine Prognosen,
0:01:53.369,0:01:56.619
sondern es ist einfach nur einfache[br]Statistik, die beschreibt, wie irgendwas
0:01:56.619,0:02:04.909
ist. Paar Beispiele sind z.B. Zahlen über[br]Schulen. Also Zahlen zu Schülern und
0:02:04.909,0:02:11.680
Absolventen nach Schulart für eure Stadt[br]z.B. Oder Zahlen zur Abfallentsorgung.
0:02:11.680,0:02:15.500
Also wie viel Hausmüll gibt es in eurer[br]Stadt? Wieviel wird recycelt in eurer
0:02:15.500,0:02:19.900
Stadt? Und Zahlen zu Migration und[br]Einbürgerung, z.B.: Wie viele Menschen
0:02:19.900,0:02:25.370
werden in eurer Stadt eingebürgert? Wie[br]alt sind die? Wie alt waren die? Oder seit
0:02:25.370,0:02:29.590
wie vielen Jahren sind die in Deutschland?[br]Das sind jetzt nur drei Beispiele. Der
0:02:29.590,0:02:37.370
Datensatz oder der Datenpool, mit dem wir[br]uns jetzt im Moment auseinandersetzen,
0:02:37.370,0:02:41.790
sind die Daten von regionalstatistik.de.[br]Was das bedeutet, werde ich nachher
0:02:41.790,0:02:47.500
nochmal ein bisschen erklären. Und da[br]reden wir über 450 Datensätze zu allen
0:02:47.500,0:02:53.280
möglichen Themen. Das heißt, diese drei[br]Sachen sind einfach nur Beispiele. Wenn
0:02:53.280,0:02:57.000
man sich jetzt so anguckt, was die[br]Statistischen Ämter sagen über sich
0:02:57.000,0:03:01.480
selber, dann sagen die, sie sind objektiv[br]unabhängig und machen qualitativ
0:03:01.480,0:03:07.340
hochwertige Statistik. Da gehe ich auch[br]mit, ja. Und dann sagen die noch, sie
0:03:07.340,0:03:11.379
machen es für Politik, Verwaltung,[br]Wirtschaft sowie für Bürgerinnen und
0:03:11.379,0:03:15.940
Bürger. Und wenn man sich anguckt, wie die[br]amtliche Statistik im Moment
0:03:15.940,0:03:22.400
veröffentlicht wird und an wen die so...[br]für wen diese aufbereitet wird, dann gehe
0:03:22.400,0:03:27.420
ich mit, dass das Ziel Politik und[br]Verwaltung ist - Wirtschaft vermutlich auch.
0:03:27.420,0:03:30.700
Bürgerinnen und Bürger, da gibt es ein[br]gewisses Defizit und das ist eben das
0:03:30.700,0:03:37.990
Thema, das wir uns anschauen. Aber erst[br]einmal so ein kleiner Exkurs. Ja, erstmal,
0:03:37.990,0:03:41.850
wo kommen überhaupt diese Daten her? Und[br]ihr habt vielleicht vor kurzem diese
0:03:41.850,0:03:47.870
Geschichte gehört: Das ist die Geschichte[br]einer Volkszählung. Ja, also vor ungefähr
0:03:47.870,0:03:53.630
2000 Jahren hat sich Kaiser Augustus,[br]Herrscher des Römischen Reiches, überlegt,
0:03:53.630,0:04:00.069
dass er bessere Daten braucht über die[br]Bürger in seinem Reich. Also hat er ein
0:04:00.069,0:04:05.480
Zensus angeordnet. Und im Rahmen von[br]diesem Zensus sollte jeder Bewohner des
0:04:05.480,0:04:11.560
Römischen Reichs zu seiner Heimatstadt[br]reisen und sich dort zählen lassen. Und in
0:04:11.560,0:04:14.530
dem Prozess wurde ein kleines Kind[br]geboren. Aber am Ende ist es immer noch
0:04:14.530,0:04:23.470
die Geschichte von einer Volkszählung und[br]... zum Zwecke der Steuererhebung, genau.
0:04:23.470,0:04:27.990
Also die Römer hatten relativ großen[br]militärischen Komplex, den sie finanzieren
0:04:27.990,0:04:31.950
mussten und deshalb mussten sie wissen,[br]wo, wie viele Menschen leben, damit sie
0:04:31.950,0:04:37.020
wissen, wie viele Steuern sie erheben[br]können. Und genauso ist es bis heute.
0:04:37.020,0:04:44.170
Überall, wo es einen Staat gibt oder eine[br]Verwaltung, braucht die Information
0:04:44.170,0:04:48.800
darüber, wie viele Menschen irgendwo[br]leben, wie viele Kinder zur Schule gehen,
0:04:48.800,0:04:53.660
wie viele Kinder vielleicht demnächst zur[br]Schule gehen. Und deswegen wird relativ
0:04:53.660,0:04:59.590
viel Aufwand betrieben, Daten zu erfassen[br]über uns all. In eigentlich allen
0:04:59.590,0:05:05.190
Industrienationen, sag ich mal, haben wir[br]sowas wie ein 10jährigen Zensus. Und das
0:05:05.190,0:05:08.720
ist eigentlich so ähnlich wie die[br]Geschichte von Kaiser Augustus vorher. Das
0:05:08.720,0:05:12.720
heißt, alle zehn Jahre werden in[br]irgendeiner Form alle Menschen gezählt,
0:05:12.720,0:05:16.870
die in einem Land leben. Heute reisen wir[br]nicht mehr an unseren Geburtsort, sondern
0:05:16.870,0:05:21.240
es gibt Leute, die normalerweise von Tür[br]zu Tür gehen, bei euch klingeln und euch
0:05:21.240,0:05:28.690
dann Fragen stellen. In Deutschland ist[br]das ein bisschen anders. Hier gab es einen
0:05:28.690,0:05:34.919
letzten Zensus 2011 und davor gab's eine[br]Weile keinen Zensus. Hat mit unserer
0:05:34.919,0:05:38.630
Geschichte zu tun und auch mit Protesten,[br]die es gab, in der Vergangenheit. Aber es
0:05:38.630,0:05:41.169
gibt auch verschiedene andere[br]Möglichkeiten, wie eigentlich immer Daten
0:05:41.169,0:05:46.310
erfasst wurden. Außer der richtigen[br]Volkszählung, also dem Makrozensus, gibt's
0:05:46.310,0:05:49.680
einen Mikrozensus. Und beim Mikrozensus[br]wird eben einfach eine Stichprobe
0:05:49.680,0:05:53.160
genommen. Das heißt, eine Handvoll Leute[br]wird genauer betrachtet und davon
0:05:53.160,0:05:58.290
ausgehend wird dann irgendwas[br]hochgerechnet. Und außerdem gibt es etwas,
0:05:58.290,0:06:02.880
was die Statistiker Sekundärstatistik[br]nennen. Das heißt, Daten, die irgendwo an
0:06:02.880,0:06:07.470
anderer Stelle erfasst werden, werden[br]verarbeitet. Für die Statistik, also in
0:06:07.470,0:06:10.940
Deutschland werden irgendwelche Zahlen,[br]z.B. über Landwirthschaft, erfasst, bei
0:06:10.940,0:06:14.810
irgendwelchen Landwirtschaftsämtern. Und[br]diese Zahlen werden dann an die
0:06:14.810,0:06:17.910
statistischen Ämter weitergegeben und dort[br]werden dann eben Statistiken draus
0:06:17.910,0:06:20.140
gemacht, die dann auch von den[br]Statistischen Ämtern veröffentlicht
0:06:20.140,0:06:25.750
werden. Außerdem gibt's bei uns und vielen[br]anderen, ich sag mal so europäischen und
0:06:25.750,0:06:30.830
nordischen Ländern gibt's einen[br]Registerzensus. Und das heißt, die Zahlen,
0:06:30.830,0:06:34.759
die es über euch schon gibt, z.B. im[br]Bevölkerungsregister - weil ihr habt euch
0:06:34.759,0:06:40.120
ja alle ordentlich angemeldet - die[br]Zahlen, die werden dann wiederum verwendet
0:06:40.120,0:06:46.140
und an die statistischen Ämter[br]weitergegeben. Ja, ihr könnt euch ja
0:06:46.140,0:06:50.930
vorstellen, das sind relativ viele Daten.[br]Das sind persönliche Daten über uns alle
0:06:50.930,0:06:58.919
und deswegen wird in Deutschland das[br]Statistikgeheimnis sehr hochgehalten. Also
0:06:58.919,0:07:02.800
das ist tatsächlich ein Begriff aus der[br]amtlichen Statistik. Das bedeutet, dass
0:07:02.800,0:07:07.880
Sie sich extrem viel Mühe geben, Daten zu[br]anonymisieren, die werden in der... also
0:07:07.880,0:07:10.970
Zahlen, die in einem Rahmen vom Zensus[br]erfasst werden, werden normalerweise schon
0:07:10.970,0:07:14.509
anonymisiert, wenn sie erhoben werden. Das[br]heißt, da steht nie irgendwie euer Name
0:07:14.509,0:07:20.259
drauf. Und es werden nur aggregierte[br]Zahlen veröffentlicht. Das heißt, in
0:07:20.259,0:07:24.000
diesen Datensätzen, von denen wir reden,[br]da steht normalerweise drin, wie viel es
0:07:24.000,0:07:29.090
von irgendetwas gibt und nicht, was genau[br]es gibt. Das ist auch ein wichtiger Punkt.
0:07:29.090,0:07:33.610
Außerdem dürfen Menschen und Unternehmen[br]nicht nachträglich identifizierbar sein.
0:07:33.610,0:07:40.660
Und das ist so ein bisschen kontroverses[br]Thema. Und da wird auch nächstes Jahr ein
0:07:40.660,0:07:45.820
bisschen was passieren. Weil gerade für[br]Journalistinnen und Journalisten ist es
0:07:45.820,0:07:51.250
halt auch wichtig, Daten über Unternehmen[br]zu kriegen. Und unsere Hauptzielgruppe im
0:07:51.250,0:07:56.530
Moment ist Journalismus. Und die erste[br]Frage, die uns Leute stellen, ist
0:07:56.530,0:08:00.340
normalerweise: Ja, kann ich jetzt hier[br]Bayer in meiner Stadt genauer
0:08:00.340,0:08:05.340
identifizieren und sehen, was sie machen?[br]Und die Antwort ist nein. Also wenn es
0:08:05.340,0:08:09.280
irgendwo in einer Stadt zum Beispiel nur[br]einen Landwirtschaftsbetrieb gibt, dann
0:08:09.280,0:08:12.869
werdet ihr über diese Stadt keine Zahlen[br]zur Landwirtschaft kriegen, weil
0:08:12.869,0:08:17.639
Statistikgeheimnis. Das ist auch ein[br]wichtiger Aspekt, spielt aber bei vielen
0:08:17.639,0:08:23.509
Zahlen auch keine Rolle, die tatsächlich[br]da drin sind. Ja, jetzt habe ich gerade
0:08:23.509,0:08:28.669
schon gesagt: Volkszählung ist ein[br]kontroverses Thema. Und amtliche Statistik
0:08:28.669,0:08:34.019
insgesamt auch, so gesehen. Wenn ihr, wie[br]ich, noch irgendwie die 80er mitgekriegt
0:08:34.019,0:08:37.019
habt, dann könnt ihr euch vielleicht an[br]solche Graffitis erinnern, weil in den
0:08:37.019,0:08:42.129
80ern gab es tatsächlich einen massiven[br]Protest und 81 wurde der Zensus verhindert
0:08:42.129,0:08:48.611
in der BRD und 87 hat er dann nur sehr[br]eingeschränkt stattgefunden. Und die
0:08:48.611,0:08:55.069
Proteste und die Verfassungsklagen, die es[br]damals gab, die sind auch quasi in
0:08:55.069,0:08:58.839
wichtiger... oder eigentlich die Wurzel[br]auch dieser Idee der informationellen
0:08:58.839,0:09:02.759
Selbstbestimmung, die wir heute haben.[br]Also quasi diese Idee von Datenschutz, mit
0:09:02.759,0:09:05.199
der wir hier rumlaufen und sagen, dass wir[br]selber die Kontrolle über unsere
0:09:05.199,0:09:09.489
persönlichen Daten haben, die sind konkret[br]darauf zurückzuführen. Deswegen ist es auf
0:09:09.489,0:09:16.800
jeden Fall auch eine wichtige Diskussion.[br]Für unser Projekt spielt das keine Rolle.
0:09:16.800,0:09:20.939
Wir sehen es so: Die Daten sind jetzt da[br]und die wurden von euch erfasst mit euren
0:09:20.939,0:09:24.779
Steuergeldern. Und es ist wichtig, dass[br]ihr Zugriff auf diese Daten habt. Und
0:09:24.779,0:09:29.389
deswegen machen wir dieses Projekt. Wenn[br]ihr jetzt mit diesen Zahlen arbeiten
0:09:29.389,0:09:34.699
wollt, dann gibt's eine gute und eine[br]schlechte Nachricht. Die gute Nachricht
0:09:34.699,0:09:39.910
ist: Das ist freies Wissen. Also Open[br]Data. Es gibt die Daten-Lizenz
0:09:39.910,0:09:45.569
Deutschland, unter der diese Daten[br]veröffentlicht werden, die erfordert, wenn
0:09:45.569,0:09:48.470
ihr die Daten quasi verwendet und[br]wiederveröffentlicht, dass ihr die Quelle
0:09:48.470,0:09:51.680
nennt, dass in diesem Fall normalerweise[br]die Statistischen Ämter, dass ihr ein
0:09:51.680,0:09:55.779
Verweis auf die Lizenz macht und ein[br]Verweis auf den Datensatz - also
0:09:55.779,0:09:59.680
normalerweise die URL angebt, von wo ihr[br]das heruntergeladen habt. Das - also wenn
0:09:59.680,0:10:02.880
ihr euch ein bisschen mit offenen Lizenzen[br]befasst - das ist so ähnlich wie eine
0:10:02.880,0:10:10.939
Creative Commons CC-BY Lizenz. Das heißt,[br]je nach Anwendungsfall ist es ein bisschen
0:10:10.939,0:10:13.639
problematisch. Also ich habe gestern[br]gelernt, dass man die Daten z.B. nicht in
0:10:13.639,0:10:18.049
Wikidata einspeisen kann, weil es keine[br]CC0 Lizenz ist. Und für viele Anwendungen
0:10:18.049,0:10:24.310
mit Daten wäre natürlich eine CC0 Lizenz[br]besser. Aber das ist nicht der Punkt, wo
0:10:24.310,0:10:29.680
wir ansetzen können. Also wir gucken, dass[br]die Daten möglichst einfach verwendbar
0:10:29.680,0:10:33.959
sind. Und ihr müsst dann eben beachten,[br]dass sie unter der Datenlizenz Deutschland
0:10:33.959,0:10:39.540
veröffentlicht werden und die[br]dementsprechend angeben. Ja, jetzt gibt es
0:10:39.540,0:10:42.829
aber auch eine schlechte Nachricht und die[br]ist, dass mit diesen Daten zu arbeiten gar
0:10:42.829,0:10:52.369
nicht so einfach ist. Und da übergebe ich[br]jetzt an P3nny.
0:10:52.369,0:10:56.410
P3nny: Ich darf aus dem Leidensdruck des[br]Journalisten berichten. Also es ist nicht
0:10:56.410,0:10:59.839
so, dass es komplettes Neuland wäre, dass[br]es keine offenen Datenportale gäbe. Es
0:10:59.839,0:11:04.689
gibt relativ viele davon. Sie sind alle[br]schön und schön unterschiedlich, alle
0:11:04.689,0:11:10.239
lustig aufgebaut. Zur Übersicht: Es gibt[br]das Statistische Bundesamt, dann gibt es
0:11:10.239,0:11:14.209
Destatis, es gibt 14 statistische[br]Landesämter und da drunter Derby Dragons.
0:11:14.209,0:11:18.149
Also es gibt noch Kommunalstatistik,[br]städtisch statistische Ämter und alle
0:11:18.149,0:11:24.439
haben irgendwie ihre eigenen kleinen Dinge[br]- und da durchzusteigen ist auch immer
0:11:24.439,0:11:30.019
spannend, weil sie meistens quasi diese[br]Verwaltungsakte abbilden. Dann gibt's so
0:11:30.019,0:11:34.149
einzelne Anwendungen, wo Dinge ganz[br]besonders gut aufbereitet werden. Aber oft
0:11:34.149,0:11:37.410
ist es so, hier Zensus 2011 ist für[br]Journalisten meistens schon nicht mehr so
0:11:37.410,0:11:44.249
richtig spannend, weil ist ja schon lang[br]vorbei. Oder es gibt solche schönen
0:11:44.249,0:11:49.500
Beispiele, wo sich Menschen in PDFs[br]austoben und wundervolle Torten, Grafiken
0:11:49.500,0:11:54.360
und 3D Diagramme bauen, ich aber mit den[br]Daten wenig anfangen kann. Also wenn ich
0:11:54.360,0:11:57.239
als Journalistin jetzt sagen würde, die[br]sozialversicherungspflichtig
0:11:57.239,0:12:01.520
Beschäftigten, das möchte ich in meiner[br]Veröffentlichung zitieren und möchte
0:12:01.520,0:12:06.790
einfach nur auf meiner Internetseite[br]dieses Diagramm auch mit zeigen, dann muss
0:12:06.790,0:12:10.798
ich ja da hinschreiben, muss die richtige[br]Stelle finden, die dieses PDF erstellt hat
0:12:10.798,0:12:14.410
und muss die darum bitten, mir die Daten[br]zu schicken. Und es ist schon passiert,
0:12:14.410,0:12:19.529
dass sie mir die dann quasi in der[br]E-Mail... also quasi im E-Mail Text habe
0:12:19.529,0:12:24.449
ich dann Daten bekommen - auch nicht so[br]richtig das Format, mit dem wir was
0:12:24.449,0:12:29.219
anfangen können. Unser Lieblingsportal hat[br]Simon vorhin schon gesagt, das ist
0:12:29.219,0:12:35.519
regionalstatistik.de. Das gibt es. Da[br]finden sich auch tatsächlich auf der
0:12:35.519,0:12:40.649
regionalen Ebene - also Bundesländer und[br]drunter, Regierungsbezirke,
0:12:40.649,0:12:44.470
Gemeindebezirke - finden sich die Daten[br]und die dann auch flächendeckend für ganz
0:12:44.470,0:12:47.949
Deutschland oder für ein ganzes[br]Bundesland. Wenn ich da aber dran kommen
0:12:47.949,0:12:52.429
möchte, dann habe ich Schritt 1: Ich gucke[br]mir den Datenkatalog an. Ich gucke, was da
0:12:52.429,0:12:56.641
drin ist. Suche mich irgendwie da durch.[br]Muss halt deren Logik verstehen, wie sie
0:12:56.641,0:13:00.689
das mal angelegt haben. Finde dann[br]irgendwelche Tabellen meistens - auch so:
0:13:00.689,0:13:04.119
Was unterscheidet jetzt die regionale[br]tiefe Kreise von den regionalen Ebenen,
0:13:04.119,0:13:08.170
und so. Das ist viel, was ich verstehen[br]muss. Dann gibt's noch so eine Variablen-
0:13:08.170,0:13:13.749
Auswahl. Dann muss ich das genauer[br]spezifizieren. Dann kann ich endlich diese
0:13:13.749,0:13:17.170
Tabelle abrufen und kriege dann den[br]Hinweis: Diese können Sie jetzt nicht
0:13:17.170,0:13:20.101
abrufen. Sie wollen zu viele Daten[br]abrufen. Sie müssen sich erst mal Konto
0:13:20.101,0:13:23.809
erstellen. Dann erstelle ich mir dieses[br]Konto. Dann mache ich diesen Werteabruf,
0:13:23.809,0:13:30.790
dann warte ich und irgendwann landet eine[br]Tabelle in meinem Postfach und ich bekomme
0:13:30.790,0:13:36.758
eine Tabelle, die sehr gut dafür geeignet[br]ist, in A4 ausgedruckt zu werden. Das
0:13:36.758,0:13:40.579
heißt, sie hat, das ist mit das[br]Allerschlimmste, sie hat diese komischen
0:13:40.579,0:13:46.179
Header, also so verschachtelte Dinger, wo[br]ich dann quasi, wenn ich als Journalistin
0:13:46.179,0:13:48.949
- also entweder fange ich als Journalistin[br]an und versuche, das irgendwie in Excel
0:13:48.949,0:13:51.509
dann zu bereinigen und so und auch die[br]Journalisten merken langsam, dass das
0:13:51.509,0:13:56.570
nicht der beste Weg ist, alle drei Monate[br]bei - was weiß ich, Quartals Statistiken -
0:13:56.570,0:13:58.609
das immer wieder in Excel machen zu[br]müssen. Das heißt, ich als Journalistin
0:13:58.609,0:14:02.779
geh hin, mache eine Python für Dummies[br]Kurs oder sowas und möchte dann mal was
0:14:02.779,0:14:07.810
mit offenen Daten machen. Treffe dann auf[br]diese Daten, lade mir die runter als CSV-
0:14:07.810,0:14:11.439
Datei und dann kriege ich schon den ersten[br]Error, weil das sind keine CSV Dateien,
0:14:11.439,0:14:14.829
sondern Semikolon separierte Werte, weil[br]Deutsch. Wir haben also einen 1000er
0:14:14.829,0:14:18.610
Trennzeichen, das ein Komma ist. Wenn ich[br]dieses Problem gelöst habe, laufe ich
0:14:18.610,0:14:24.399
gegen die... Also ist das keine UTF 8[br]sondern eine ISO88591 Kodierung. Das
0:14:24.399,0:14:28.839
heißt, erstmal sind alle Ös und Äs kaputt.[br]Dann muss ich noch das Problem mit dem
0:14:28.839,0:14:33.669
Header lösen. Das heißt, meistens muss ich[br]den Header ganz rausschmeißen und einmal
0:14:33.669,0:14:37.600
die Zeilen irgendwie selber benennen, was[br]auch eine Fehlerquelle ist. Und dann, wenn
0:14:37.600,0:14:42.250
ich jetzt, sagen wir mal, die unter 3[br]Betreuungskinder auf eine Karte mappen
0:14:42.250,0:14:46.079
wollte, dass ich so eine Karte habe, dass[br]da wo die meisten u3 betreut sind -
0:14:46.079,0:14:49.410
eigentlich will ich ja wahrscheinlich auch[br]den Anteil an der Bevölkerung haben,
0:14:49.410,0:14:52.470
Bevölkerung gesamt ist da nicht drin, die[br]muss ich mir dann von woanders her holen,
0:14:52.470,0:14:57.579
männlich-weiblich zusammenrechnen, den[br]Anteil ausrechnen - es ist ein relativ
0:14:57.579,0:15:03.109
aufwandreicher Prozess, den ich da machen[br]muss. Ach so genau. Und hier sind auch
0:15:03.109,0:15:06.369
tatsächlich nicht nur die Gemeindeebenen[br]drin, sondern meistens auch das Bundesland
0:15:06.369,0:15:09.790
und die darüber liegenden Ebenen, d.h. die[br]muss ich auch erstmal wieder
0:15:09.790,0:15:13.519
rausschmeißen, damit ich nur meine[br]Gemeinden habe und die dann auf die Karte
0:15:13.519,0:15:18.579
bringen kann. Und manchmal sagen die auch:[br]Wir nehmen euch Arbeit ab und machen
0:15:18.579,0:15:22.939
selber Visualisierungen. Da kommen dann[br]manchmal solche Dinge bei raus. Wir haben
0:15:22.939,0:15:26.730
noch nicht ganz rausgekriegt, was uns das[br]sagen soll. Also das funktioniert noch
0:15:26.730,0:15:45.659
nicht so richtig gut. Und da kommt der[br]Datenguide ins Spiel und löst dieses Problem.
0:15:45.659,0:15:48.719
Simon: Genau. Was wir machen, ist: Wir
0:15:48.719,0:15:52.069
lösen dieses Problem für euch. Also dieses[br]Problem, dass Patricia jetzt beschrieben
0:15:52.069,0:15:57.889
hat, hoffentlich, perspektivisch. Was wir[br]machen, ist, wir importieren quasi alle
0:15:57.889,0:16:03.499
Daten und alle Daten, die jetzt in diesem[br]Fall in dem regionalstatistik.de Portal
0:16:03.499,0:16:11.919
sind. Und dann bieten wir sie über eine[br]moderne JSON-API an und bauen dann quasi
0:16:11.919,0:16:15.050
ein - ich sag mal ein alternatives Daten[br]Portal. Das ist eine Website, die bauen
0:16:15.050,0:16:25.470
wir dann quasi on top auf diese Daten-[br]Schnittstelle und diese Plattform, die sieht
0:16:25.470,0:16:30.859
ungefähr so aus. Ich kann euch das auch[br]live zeigen. Ich habe das jetzt nur glaube
0:16:30.859,0:16:37.639
ich nicht offen und wir sind noch nicht[br]online. Es ist alles so ein bisschen frühe
0:16:37.639,0:16:45.169
Alpha. Wir sind so ein bisschen online,[br]aber mit kryptischer URL in so einem
0:16:45.169,0:17:00.357
Preview irgendwo. Muss ich mir grad mal[br]angucken.
0:17:00.357,0:17:07.580
P3nny: Ich schwöre, hier war ein Bug[br]irgendwo. Hier lief ein Bug rum und jetzt
0:17:07.580,0:17:17.380
ist er weg. Wahrscheinlich ist er jetzt[br]bei dir.
0:17:17.380,0:17:20.939
Simon: Okay, also das ist, wie unser[br]Prototyp im Moment aussieht. Es ist
0:17:20.939,0:17:24.569
einfach eine Website, da werden ein paar[br]Orte gefeatured, wo irgendwas interessant
0:17:24.569,0:17:29.520
ist. Ansonsten haben wir hier eine Suche,[br]wo ihr den Namen eurer Stadt oder eures
0:17:29.520,0:17:34.140
Landkreises eingeben könnt. Also für diese[br]Oberfläche arbeiten wir im Moment mit
0:17:34.140,0:17:39.360
Städten und Landkreisen, mit so ungefähr[br]400 Entitäten oder so in Deutschland und
0:17:39.360,0:17:43.160
in dem Datensatz sind auch Gemeinden drin.[br]Aber dann reden wir gleich über, ich
0:17:43.160,0:17:47.259
glaube, 15 000 oder so. Und im Moment[br]machen wir es uns einfach und gucken uns
0:17:47.259,0:17:52.070
einfach Städte und Landkreise an. Also[br]wenn wir hier einen Ort suchen, zum
0:17:52.070,0:18:01.750
Beispiel Leipzig. Ja, genau, dann sehen[br]wir erst einmal: Es gibt Leipzig Stadt und
0:18:01.750,0:18:05.630
Leipzig Landkreis, also quasi der[br]Landkreis drumrum. Wir gucken uns mal die
0:18:05.630,0:18:12.861
Stadt Leipzig an und dann sehen wir hier[br]Leipzig. Und dann haben wir hier so ein
0:18:12.861,0:18:17.770
bisschen generischen Text. Den importieren[br]wir im Moment von Wikipedia, wollen wir
0:18:17.770,0:18:23.470
aber perspektivisch selber generieren, auf[br]Basis der Daten, die da drin sind. Und
0:18:23.470,0:18:28.990
dann sehen wir hier so ein paar[br]Datensätze, die wir schon, die wir jetzt
0:18:28.990,0:18:32.490
mal so, ich sag mal prototypisch[br]aufbereitet haben. Die sind hier...
0:18:32.490,0:18:38.440
Leipzig hat irgendetwas um die 500 000[br]Einwohner 2017, 300 Quadratkilometer
0:18:38.440,0:18:44.380
Fläche. Dann haben wir hier eine einfache[br]Visualisierung, wo wir Leipzig mal mit
0:18:44.380,0:18:47.799
München vergleichen. Hier sehen wir, das[br]Münchner deutlich höhere
0:18:47.799,0:18:52.090
Bevölkerungsdichte hat als Leipzig. Und[br]dann können wir hier so ein paar Sachen
0:18:52.090,0:18:56.250
machen. Wir können uns hier die Zahlen zu[br]diesem Datensatz angucken und dann sehen
0:18:56.250,0:18:59.448
wir schon, das ist eine sehr einfache[br]Tabelle, die hat einfach nur ein paar
0:18:59.448,0:19:02.610
Spalten. Jede Spalte hat eine klare[br]Beschriftung und das ist halt was, das
0:19:02.610,0:19:06.460
können wir einfach als CSV runterladen und[br]in beliebigen Programmen weiterverwenden.
0:19:06.460,0:19:17.130
Und gleichzeitig haben wir hier auch eine[br]GraphQL-Query. Das ist quasi eine Daten...
0:19:17.130,0:19:20.779
ich sage mal eine API Abfrage. Also mit[br]GraphQL, also mit so einer
0:19:20.779,0:19:25.289
Datenschnittstelle kann man einfache[br]einfache Queries schreiben. Man kann sich
0:19:25.289,0:19:30.889
das so vorstellen, dass man da eine leere[br]JSON Datei hinschickt, die beschreibt,
0:19:30.889,0:19:34.250
welche Daten ihr wollt. In der sind nur[br]die Keys drin und dann kriegt ihr eine
0:19:34.250,0:19:37.430
JSON Datei zurück, da sind zu den Keys[br]auch die Values drin. Das heißt, es ist
0:19:37.430,0:19:41.659
eine sehr einfache Art und Weise, zu[br]spezifizieren, welche Daten ihr sehen
0:19:41.659,0:19:46.121
wollt. Deswegen experimentieren wir im[br]Moment mit GraphQL. Es ist auch so ein
0:19:46.121,0:19:48.690
bisschen alles im Fluss. Also wir haben[br]schon quasi die Version... also hier sieht
0:19:48.690,0:19:51.750
man die Version 1 unserer Schnittstelle.[br]Wir arbeiten im Moment an einer zweiten
0:19:51.750,0:19:55.120
Version, weil wir halt festgestellt haben,[br]dass verschiedene Dinge dann doch nicht so
0:19:55.120,0:20:00.950
funktionieren, wie wir uns das vorstellen.[br]Aber API Design ist auch nicht einfach.
0:20:00.950,0:20:05.639
Hier gibt's dann eben die Möglichkeit, das[br]CSV runterzuladen oder in so einem
0:20:05.639,0:20:12.240
interaktiven Tool dieses GraphQL zu[br]testen, um quasi... naja, also wenn ihr
0:20:12.240,0:20:18.669
seht: Ah, das ist ja schön, aber ich will[br]Leipzig nicht mit München, sondern mit dem
0:20:18.669,0:20:23.440
Bundesland Sachsen vergleichen. Dann könnt[br]ihr hier quasi unseren Query Builder
0:20:23.440,0:20:28.879
benutzen und euch selber was bauen und[br]direkt das Ergebnis sehen. Darauf gehe ich
0:20:28.879,0:20:32.021
gleich noch ein bisschen ein. Hier sehen[br]wir noch so ein paar andere Beispiele.
0:20:32.021,0:20:35.599
Da haben wir einfach mal experimentiert [br]mit Daten. Hier haben wir noch die
0:20:35.599,0:20:41.100
Bevölkerungsverteilung nach Altersgruppen.[br]Und die Ergebnisse der letzten Europawahl
0:20:41.100,0:20:48.430
Das sind auch so ein paar Beispiele. Sieht[br]man, was da an Daten drinsteckt. Ja. Also
0:20:48.430,0:20:52.820
wie gesagt, das ist einfach nur ein[br]Prototyp im Moment. Da kann man eben
0:20:52.820,0:20:58.030
sehen, wie das grundsätzlich aussehen[br]kann. Wir sehen hier, dass... wir haben
0:20:58.030,0:21:02.210
hier so eine Übersicht über alle Städte[br]und Landkreise in Deutschland, sortiert
0:21:02.210,0:21:06.430
nach Bundesland. Und wenn ich jetzt hier[br]irgendetwas Beliebiges herausgreife -
0:21:06.430,0:21:11.929
Deggendorf in Bayern - dann sehen wir,[br]dass wir ja, hier ist quasi das Gleiche.
0:21:11.929,0:21:18.090
Genauso für Deggendorf. Das ist im Moment,[br]was wir machen. Und das ist so ein
0:21:18.090,0:21:23.409
Komplex, an dem wir arbeiten, der quasi[br]auf der einen Seite zeigen soll, was es an
0:21:23.409,0:21:27.409
Daten da drin gibt, euch einfache Tools[br]geben soll, diese Daten runterzuladen,
0:21:27.409,0:21:31.490
ohne dass ihr euch mit GraphQL[br]auseinandersetzen müsst. Auf der anderen
0:21:31.490,0:21:35.070
Seite soll es auch die Möglichkeit sein,[br]eben den Start zu finden in unsere
0:21:35.070,0:21:40.909
Datenschnittstelle und...[br]P3nny: Perspektivisch würden wir uns da
0:21:40.909,0:21:46.460
schon auch noch vorstellen, dass nicht[br]überall bei allem das Gleiche angezeigt
0:21:46.460,0:21:49.309
wird, sondern wir können ja dann auch eine[br]gewisse Logik dran machen. Also zeig mir
0:21:49.309,0:21:52.759
die Stadt.... also ich habe die[br]Gesamtstatistik über Leipzig und ich zeige
0:21:52.759,0:21:57.830
mir die drei Statistiken, wo Leipzig[br]entweder in den Top5 oder in den Low 5 ist im
0:21:57.830,0:22:03.600
Vergleich zum Bundesland, im Vergleich zum[br]Bundesschnitt oder so.. Ne, um halt
0:22:03.600,0:22:07.110
quasi so für die Journalisten zu sagen:[br]Das sind die spannenden Dinge. Und
0:22:07.110,0:22:10.410
gleichzeitig aber auch den Eisberg[br]darunter: Also das sind alle Daten, weil
0:22:10.410,0:22:14.179
ich jetzt eine bestimmte Frage habe,[br]irgendwie anzubieten.
0:22:14.179,0:22:26.310
Simon: Okay. Ja, jetzt hab ich ja gesagt,[br]wir haben diese Datenschnittstelle. Und
0:22:26.310,0:22:29.891
ich hab euch auch diese Website gezeigt,[br]die wir aus der Datenschnittstelle
0:22:29.891,0:22:35.250
speisen. Aber diese Datenschnittstelle,[br]die ist nicht nur Mittel zum Zweck, um
0:22:35.250,0:22:39.440
diese Website zu bauen, sondern unsere[br]Idee ist eigentlich, dass diese Website,
0:22:39.440,0:22:43.839
die wir haben, dieses Daten-Portal, dass[br]das quasi ein Anwendungsfall ist für diese
0:22:43.839,0:22:46.776
Schnittstelle, um zu zeigen, was man damit[br]machen kann. Aber wir möchten eigentlich,
0:22:46.776,0:22:50.330
dass ihr diese Schnittstelle verwendet für[br]andere Dinge. Auf Basis von dieser
0:22:50.330,0:22:55.070
GraphQL-Schnittstelle sollte man zum[br]Beispiel möglichst… relativ einfach eine
0:22:55.070,0:22:59.500
Python-Bibliothek schreiben können, z.B.[br]damit ihr in euren Datenauswertungen mit
0:22:59.500,0:23:05.059
Python direkt auf amtliche Statistikdaten[br]zugreifen könnt. Oder ein R-Package, damit
0:23:05.059,0:23:09.940
Leute, die quasi statistisch mit R[br]arbeiten, vielleicht an einer Hochschule
0:23:09.940,0:23:16.110
oder Journalisten, dass die quasi auf[br]diese Daten direkt in R zugreifen können,
0:23:16.110,0:23:19.899
ohne dass sie sich jedesmal durch dieses[br]Datenportal klicken müssen und sich eine
0:23:19.899,0:23:24.809
CSV-Datei runterladen, die sie dann erst[br]einmal aufräumen müssen. Und man kann sich
0:23:24.809,0:23:28.077
da alles mögliche überlegen, denke ich,[br]auf Basis dieser API. Wir haben auch
0:23:28.077,0:23:32.279
gestern schon über Twitter Bots gesprochen[br]und alle möglichen anderen lustigen Dinge.
0:23:32.279,0:23:38.340
Und ich würde euch einfach einladen, damit[br]ein bisschen zu experimentieren. Ich zeige
0:23:38.340,0:23:42.971
euch jetzt mal ein bisschen, wie so ein[br]Query funktioniert, weil es tatsächlich
0:23:42.971,0:23:47.499
relativ einfach, es ist zumindest relativ[br]einfach, mal eine einfache Query zu
0:23:47.499,0:23:55.640
schreiben. Hier sehen wir so ein Beispiel[br]für eine Abfrage. Ich werde es jetzt
0:23:55.640,0:23:59.819
gleich mal replizieren. Ich muss mir nur[br]hier nochmal angucken, wie das aussieht.
0:23:59.819,0:24:12.380
Also, wir haben hier diese Schnittstelle[br]oder diese, ich sage mal diese grafische
0:24:12.380,0:24:16.289
Oberfläche für unsere Datenschnittstelle.[br]GraphQL funktioniert normalerweise so,
0:24:16.289,0:24:20.830
wenn man irgendwo ein GraphQL Server[br]betreibt, dann kommt automatisch so ein
0:24:20.830,0:24:25.741
graphisches Interface mit, damit man[br]Queries einfacher ausprobieren kann. Das
0:24:25.741,0:24:29.736
ist quasi ein Debugging-Tool, wenn ihr so[br]wollt oder ein Werkzeug, um euch ein
0:24:29.736,0:24:33.429
bisschen mit eurer API zu befassen. Und[br]das ist normalerweise direkt eingebaut in
0:24:33.429,0:24:36.970
so ne Schnittstelle. Und bei uns ist das[br]auch der Fall und ich habe das hier jetzt
0:24:36.970,0:24:40.710
schon mal ausgefüllt. Sehen wir, wenn wir[br]so eine einfache Query machen, dann fragen
0:24:40.710,0:24:44.431
wir erst einmal nach Regions. Also Regions[br]sind quasi alle Regionen, die wir in
0:24:44.431,0:24:48.210
Deutschland haben. Wenn ich jetzt hier auf[br]Play drücke, also wenn ich hier mal Name
0:24:48.210,0:24:51.720
reinschreibe und hier auf Play drücke,[br]dann dauert es sehr lange, weil er dann
0:24:51.720,0:24:54.980
irgendwie durch unsere Datenbank geht und[br]für 15 000 Entities oder so den Namen
0:24:54.980,0:24:59.149
raussucht. Deswegen werde ich das jetzt[br]erst einmal nicht machen. Ich werde das
0:24:59.149,0:25:04.879
erstmal ein bisschen einschränken. Und[br]jetzt gibt's hier schon eine interessante
0:25:04.879,0:25:10.970
Sache. Und zwar steht hier, stehen zwei[br]Dinge: "parent" und "nuts". Und "nuts" ist
0:25:10.970,0:25:22.070
eine interessante Sache. Das ist ja ein[br]Standard für eindeutige... ein Standard
0:25:22.070,0:25:28.009
dafür, regionale Einheiten zu beschreiben.[br]Das heißt, wenn man in der EU verschiedene
0:25:28.009,0:25:31.679
Städte miteinander vergleichen will, dann[br]gibt's halt so einige Begriffe wie
0:25:31.679,0:25:35.399
Großstadt, Landkreis. Ne, keine Ahnung.[br]In Frankreich gibt es keine Landkreise.
0:25:35.399,0:25:38.379
Aber wenn man Dinge miteinander[br]vergleichen will, dann gibt es dafür eben
0:25:38.379,0:25:42.160
einen Standard. Und da gibt's den NUTS-[br]Standard und da gibt's verschiedene NUTS-
0:25:42.160,0:25:51.190
Levels. Und wenn wir jetzt alle größeren[br]Städte und Landkreise sehen wollen, dann
0:25:51.190,0:25:58.529
ist es z.B. der NUTS-Level 3 in[br]Deutschland. Ich schreib hier "nuts: 3"
0:25:58.529,0:26:04.090
und drücke auf Start. Und dann sehen wir,[br]wir kriegen hier irgendwie alle Städte und
0:26:04.090,0:26:09.009
Landkreise in Deutschland. Ja, Starnberg,[br]schön, Ravensburg, Biberach. Also man
0:26:09.009,0:26:14.491
sieht, die sind auch irgendwie so ein[br]bisschen sortiert da drin. Wenn ich jetzt
0:26:14.491,0:26:19.070
quasi nur alle Städte und Landkreise in[br]einem Bundesland sehen will, dann kann ich
0:26:19.070,0:26:22.649
das auch weiter spezifizieren. Und zwar[br]kann ich immer eine höhere Einheit
0:26:22.649,0:26:30.020
spezifizieren in dieser API. Und das heißt[br]"parent" in der API. Das heißt, ich will
0:26:30.020,0:26:35.960
alles unterhalb von einem Parent. Und ich[br]zeige es jetzt mal anhand vom Saarland.
0:26:35.960,0:26:39.789
Saarland ist mein Lieblings-Bundesland,[br]wenn man mit so statistischen Daten
0:26:39.789,0:26:43.239
arbeitet. Saarland ist immer schön[br]übersichtlich. Gab's nicht so viele
0:26:43.239,0:26:48.989
Gemeindereformen, gibt auch nicht so viele[br]Landkreise. Es ist super, ja, 1a
0:26:48.989,0:26:54.809
Bundesland. So und jetzt sehen wir hier[br]quasi eine Einschränkung: Das sind alle
0:26:54.809,0:26:59.121
Städte und Landkreise im Saarland. Und[br]jetzt können wir uns mal noch so ein
0:26:59.121,0:27:05.100
bisschen andere Dinge angucken. Jetzt gebe[br]ich mal hier... wir haben eine ID für jede
0:27:05.100,0:27:12.039
Einheit und die ID, das sehen wir, die[br]fängt auch immer mit 10 an, genau wie das
0:27:12.039,0:27:15.809
Bundesland. Das ist keine ID, die wir uns[br]überlegt haben, sondern das ist der
0:27:15.809,0:27:20.889
sogenannte Gemeindeschlüssel, den wir in[br]Deutschland haben. Es ist quasi ein
0:27:20.889,0:27:25.460
eindeutiger Bezeichner für jede Stadt,[br]jede Gemeinde, jeden Landkreis. Die haben
0:27:25.460,0:27:31.659
alle solche Nummern. Und anhand von diesen[br]kann man hier sehr gut arbeiten. Also ich
0:27:31.659,0:27:35.399
könnte jetzt auch eine Region anhand von[br]Ihrer ID raussuchen. Mache ich jetzt
0:27:35.399,0:27:38.920
erstmal nicht. Können wir nachher noch[br]machen. Ich will jetzt auch ein paar
0:27:38.920,0:27:45.630
statistische Daten sehen. Und dann habe[br]ich hier in diesem Beispiel, sieht man
0:27:45.630,0:27:51.313
hier: Das wird dann ein bisschen[br]kryptisch. Und da verwenden... haben wir
0:27:51.313,0:27:54.340
uns auch nicht selber etwas ausgedacht.[br]Das heißt, wir haben versucht, uns das
0:27:54.340,0:27:57.580
selber auszudenken in der ersten Version[br]von unserer API und haben dann eben
0:27:57.580,0:28:01.500
festgestellt, dass es sehr viel erstens[br]redaktioneller Aufwand ist und es geht
0:28:01.500,0:28:05.140
dann auch irgendwann ganz schnell kaputt,[br]weil wir uns vielleicht auch nicht so gut
0:28:05.140,0:28:09.559
auskennen wie die Leute, die die amtliche[br]Statistik machen. Weil, naja, wenn es
0:28:09.559,0:28:15.149
einfach wäre, dann hätte man, hätten die[br]es auch einfacher gemacht wahrscheinlich.
0:28:15.149,0:28:18.990
Und deswegen verwenden jetzt in der[br]aktuellen Version von unserer API, an der
0:28:18.990,0:28:22.510
wir jetzt arbeiten, quasi direkt die[br]Identifier, die auch die Statistischen
0:28:22.510,0:28:29.889
Ämter verwenden. Dadurch wird es[br]einfacher, diese Sachen nachzuvollziehen.
0:28:29.889,0:28:33.369
Und auch wenn ihr quasi einen[br]tatsächlichen Datensatz habt, irgendwie in
0:28:33.369,0:28:37.460
regionalstatistik.de, den dann hinterher[br]bei uns rauszusuchen. Das heißt aber auch,
0:28:37.460,0:28:42.159
Ihr müsst irgendwie wissen, wofür diese[br]Codes stehen. Und hier gibt's eine super
0:28:42.159,0:28:48.950
Vorschlagsuche, quasi. Wenn ich hier[br]anfange, irgendetwas zu tippen, dann sehe
0:28:48.950,0:28:54.520
ich hier verschiedene Vorschläge und hier[br]unten sehe ich dann auch eine Erklärung,
0:28:54.520,0:28:58.740
was das ist. Das heißt, wir haben uns[br]schon ein bisschen Mühe gegeben, dass man
0:28:58.740,0:29:02.640
sich das so ein bisschen erschließen kann,[br]was da drin ist. Und ich glaube, das war
0:29:02.640,0:29:08.019
jetzt BEVMK, das sind von Scheidungen[br]betroffene Kinder. Und wenn ich jetzt hier
0:29:08.019,0:29:12.090
draufklicke, dann kriege ich hier auch so[br]eine Doku. Das ist jetzt bei diesem
0:29:12.090,0:29:17.389
Datensatz sehr einfach. Da sehen wir[br]einfach, aus welcher Statistik der kommt.
0:29:17.389,0:29:22.740
Das ist die "Statistik rechtskräftiger[br]Urteile in Ehesachen", Nummer 12631. Das
0:29:22.740,0:29:25.499
heißt, anhand davon könnt ihr die[br]wahrscheinlich dann auch in
0:29:25.499,0:29:29.529
regionalstatistik.de raussuchen. Oder wenn[br]ihr beim Statistischen Bundesamt anrufen
0:29:29.529,0:29:33.539
müsst, dann wissen die auch, worum es[br]geht. Aber wir wollen ja eigentlich, dass
0:29:33.539,0:29:38.870
ihr da nicht anrufen müsst. Deswegen geben[br]wir die jetzt einfach mal so aus. Sehen
0:29:38.870,0:29:45.519
wir, das ist hier rot markiert. Und dann[br]sagt er: Ich hab irgendwas vergessen. Wie
0:29:45.519,0:29:52.440
hieß es? Drei. Und jetzt sehen wir, das[br]ist immer noch rot. Dann sagt er: Das muss
0:29:52.440,0:29:56.679
eine Unterauswahl haben. Also mache ich[br]mal eine Unterauswahl. Und wir sehen schon
0:29:56.679,0:30:02.470
hier auf der von euch aus gesehen linken[br]Seite, dass... von euch aus gesehen
0:30:02.470,0:30:07.240
rechten Seite... ist die gleiche Seite wie[br]bei mir auch am Bildschirm, eigentlich
0:30:07.240,0:30:11.280
easy. Auf der rechten Seite seht ihr, was[br]man da so machen kann und da sehen wir,
0:30:11.280,0:30:15.619
wir können Jahr und einen Wert abrufen und[br]auch die Quelle. Ich mache das jetzt
0:30:15.619,0:30:22.650
einfach mal, geb hier mal Value ein. Drück[br]auf Play und dann sehen wir, wir kriegen
0:30:22.650,0:30:27.001
hier irgendwie so eine Liste, da sind[br]Werte drin. Irgendwie für jede einzelne
0:30:27.001,0:30:30.979
Stadt, jeden einzelnen Landkreis. Da macht[br]es noch nicht so viel Sinn, weil das sind
0:30:30.979,0:30:36.700
halt Werte für ein Jahr. Deswegen geben[br]wir uns zusätzlich noch das Jahr aus und
0:30:36.700,0:30:41.809
dann sehen wir hier quasi einen Datensatz[br]für jedes Jahr. Den könnte man jetzt
0:30:41.809,0:30:46.804
wahrscheinlich auch noch so ein bisschen[br]sortieren und so... Das sind alles jetzt
0:30:46.804,0:30:50.619
nur so API Design Sachen, an denen wir[br]arbeiten. Aber grundsätzlich seht ihr, wie
0:30:50.619,0:30:55.900
das funktioniert. Und genauso könnt ihr[br]eben anhand von diesem Schlüssel, den wir
0:30:55.900,0:31:00.980
hier haben, auch Daten für einen[br]einzelnen, für eine einzelne Stadt
0:31:00.980,0:31:05.419
abrufen. Das heißt, das hier ist mehr so[br]eine Bulkabfrage, wo wir quasi sehr viele
0:31:05.419,0:31:11.240
Daten kriegen über alle Städte und[br]Landkreise in einem Bundesland. Aber wir
0:31:11.240,0:31:18.539
können jetzt auch sehr detailliert nach[br]einem einzelnen Wert fragen. Zum Beispiel
0:31:18.539,0:31:22.120
kann ich hier jetzt das Ganze für[br]Saarbrücken machen. Also wir sehen,
0:31:22.120,0:31:37.039
Saarbrücken hat die ID 10041 und dann kann[br]ich hier eingeben: ID. Whoa. Also ist alles
0:31:37.039,0:31:43.380
auch noch ein bisschen Alpha, ne... 10041[br]und wir geben jetzt einfach mal
0:31:43.380,0:31:47.580
spaßeshalber die gleichen Werte aus. Und[br]dann sehen wir, wir kriegen jetzt eine
0:31:47.580,0:31:51.780
Antwort, quasi eine JSON Datei und die[br]enthält jetzt nur die Werte für
0:31:51.780,0:31:55.529
Saarbrücken. Und wenn wir jetzt ein[br]genaues Jahr wollen, sagen wir, wir
0:31:55.529,0:32:04.009
wollen 2014, dann kann ich das hier auch[br]weiter nach dem Jahr filtern. Ja, und
0:32:04.009,0:32:10.369
jetzt kriegen wir einfach nur den Wert[br]zurück für 2014. Und so kann man eben
0:32:10.369,0:32:14.320
beliebige andere Statistiken auch[br]abfragen. Es ist sehr einfach für
0:32:14.320,0:32:18.539
Datensätze, die sehr einfach sind, so wie[br]der. Es gibt in der Praxis auch sta– äh,
0:32:18.539,0:32:22.539
statistische Datensätze, die sind[br]irgendwie hoch verschachtelt. Wir haben ja
0:32:22.539,0:32:27.970
vorhin auch so eine Tabelle gesehen, wo[br]sie dann versucht haben, diese Tabelle
0:32:27.970,0:32:31.461
quasi, also diese verschachtelten Daten[br]irgendwie zweidimensional in einer Tabelle
0:32:31.461,0:32:34.730
darzustellen. Und dann kommt irgendwas[br]raus, was man nicht mehr... also was man
0:32:34.730,0:32:38.261
nicht mehr mit einem Computer verarbeiten[br]kann, sondern nur noch auf A4 ausdrucken.
0:32:38.261,0:32:43.119
Und für diese komplexeren Sachen muss man[br]sich das dann ein bisschen genauer
0:32:43.119,0:32:47.029
angucken, wie die Dinge halt ineinander[br]verschachtelt sind. Aber grundsätzlich
0:32:47.029,0:32:52.000
sollte man das alles irgendwie hier aus[br]der API rauskriegen. Also wenn wir hier
0:32:52.000,0:33:00.330
diese BEVMK-Sache suchen. Also ich habe[br]gerade gesehen, da sind jetzt nicht so
0:33:00.330,0:33:04.340
viele Dinge drin, aber wenn wir uns[br]irgendwas anderes raussuchen, dann sehen
0:33:04.340,0:33:08.480
wir, hier gibt's z.B. nen komplexeren[br]Datensatz. Da kann man jetzt noch
0:33:08.480,0:33:13.750
irgendwelche Auswahl treffen. Nur[br]Kinder, die im Januar geboren wurden oder
0:33:13.750,0:33:19.309
nur Kinder, die im Februar geboren wurden[br]und so.. Ja, also ich denke, ihr versteht,
0:33:19.309,0:33:26.360
worum es geht. Wir haben jetzt ein[br]bisschen Zeit. Ich würde das jetzt hier
0:33:26.360,0:33:31.739
für Fragen öffnen und wenn ihr ganz[br]konkrete Fragen habt oder Ideen habt
0:33:31.739,0:33:37.789
dafür, was man damit machen kann - oder[br]wenn ihr vielleicht Interesse habt, an so
0:33:37.789,0:33:42.799
einem Open-Source-Projekt mitzuarbeiten,[br]dann können wir ja gerne nachher ein
0:33:42.799,0:33:47.389
bisschen quatschen. Also da gibt's viele[br]Dinge, die man machen kann oder die wir
0:33:47.389,0:33:54.559
für das nächste Jahr geplant haben. Also[br]wir haben einen fröhlichen Haufen Python-
0:33:54.559,0:34:00.360
und JavaScript-Code und wir haben auch[br]redaktionelle Aufgaben. Also ich sag mal
0:34:00.360,0:34:03.230
so, Fragestellungen, wo man sich mal so[br]ein bisschen Statistik angucken kann oder
0:34:03.230,0:34:06.909
so ein bisschen mit uns überlegen, wie man[br]jetzt irgendwas besonders gut darstellen
0:34:06.909,0:34:10.700
kann oder wie man irgendwas besonders gut[br]erklären kann - das ist dann eher
0:34:10.700,0:34:16.179
Patricias Thema und wir haben für nächstes[br]Jahr geplant, dass wir einen größeren
0:34:16.179,0:34:20.379
Hackathon organisieren. Vermutlich in[br]Berlin und vermutlich irgendwann noch vor
0:34:20.379,0:34:25.230
der Europawahl, eventuell auch mit einem[br]Schwerpunkt auf Daten aus der Europawahl.
0:34:25.230,0:34:29.369
Weil hier drin sind eben auch sehr viele[br]historische Wahlergebnisse und auch so
0:34:29.369,0:34:32.892
Sachen wie Wahlbeteiligung. Und die sind[br]schon aufgelöst nach Gemeinden und
0:34:32.892,0:34:36.091
Städten, d.h. da kann man sehr[br]interessante Dinge damit machen, weil man
0:34:36.091,0:34:42.258
die eben dann sehr gut.... keine Ahnung,[br]Arbeitsmarktstatistik mit Wahlergebnissen
0:34:42.258,0:34:45.447
oder so vergleichen kann. Das macht[br]vielleicht nicht so wahnsinnig viel Sinn,
0:34:45.447,0:34:49.549
aber da kann man sich sicher sinnigere[br]Dinge überlegen. Ihr findet uns auf
0:34:49.549,0:34:54.619
Twitter und auf GitHub unter @datenguide[br]und ihr findet die Slides für diesen
0:34:54.619,0:35:00.160
Vortrag unter dieser URL:[br]downloads.datengui.de/35c3. Ich werde es
0:35:00.160,0:35:05.380
nachher nochmal irgendwie vertwittern oder[br]sonstwie posten und ansonsten -
0:35:05.380,0:35:08.916
Fragen von euch!
0:35:08.916,0:35:16.390
Applaus
0:35:16.390,0:35:20.220
Q: Ja, hört man mich? Vielen Dank erst[br]einmal für den Vortrag. Ich habe gesehen,
0:35:20.220,0:35:24.640
das ist eine Python-Flask-App, wenn ich[br]richtig gesehen habe. Also erst einmal
0:35:24.640,0:35:30.580
Gratulation dafür - eine sehr gute Wahl![br]Mich würde noch interessieren, man hat ja
0:35:30.580,0:35:33.968
einige Daten gesehen, einige[br]Beispieldaten. Wir hatten z.B. das Jahr,
0:35:33.968,0:35:37.700
das war aber ein String. Verarbeitet ihr[br]die Sachen irgendwie noch weiter oder ist
0:35:37.700,0:35:41.878
das einfach nur dadurch, dass es aus einer[br]CSV kommt, erst einmal als String einfach
0:35:41.878,0:35:45.951
reingepastet?[br]Simon: Ja, also es ist so durch ein paar
0:35:45.951,0:35:49.120
Iterationen gegangen und das, was wir[br]jetzt gesehen haben, das wird tatsächlich
0:35:49.120,0:35:54.360
automatisch generiert auf Basis von den[br]Daten, die da rauskommen. Und ja, es ist
0:35:54.360,0:35:57.470
im Moment noch so ein bisschen[br]inkonsistent. Also man hat auch, wenn man
0:35:57.470,0:36:02.660
noch genauer aufgepasst hat, gesehen, dass[br]dieser NUTS-Level z.B. war ein Integer,
0:36:02.660,0:36:07.640
aber andere Sachen sind halt Zahlen. Ob[br]jetzt ein Jahr eine Zahl ist oder ein
0:36:07.640,0:36:13.599
String... Ja, ich denke, wir sind dabei,[br]das noch auszuknobeln. Wir haben jetzt im
0:36:13.599,0:36:17.799
Moment den Ansatz gewählt, möglichst wenig[br]der Daten irgendwie weiter zu verarbeiten
0:36:17.799,0:36:24.238
und das möglichst direkt abzubilden in[br]einer API, was auch zur Folge hat, dass im
0:36:24.238,0:36:28.370
Moment komplexere Queries auch teilweise[br]sehr umständlich zu schreiben sind. Und
0:36:28.370,0:36:33.180
das ist einfach ein Thema, an dem wir im[br]Moment noch arbeiten. Wir... was man noch
0:36:33.180,0:36:36.799
dazu sagen kann: Wenn jemand von euch sich[br]schon intensiver mit dem Thema
0:36:36.799,0:36:41.760
auseinandergesetzt hat, es gibt ein[br]anderes Projekt, das heißt ReGenesis. Das
0:36:41.760,0:36:47.359
hat Friedrich Lindenberg mal gemacht vor[br]ein paar Jahren. Das ist quasi auch eine
0:36:47.359,0:36:50.800
Webanwendung, die eine Rest-API zur[br]Verfügung stellt für diese Daten. Das
0:36:50.800,0:36:54.130
Projekt ist schon so ein bisschen sehr in[br]die Jahre gekommen und wird auch nicht
0:36:54.130,0:36:58.300
mehr weiter gepflegt. Und wir setzen aber[br]darauf auf. Das heißt, der Code, mit dem
0:36:58.300,0:37:03.950
wir die Daten herunterladen aus diesen[br]offiziellen Portalen, das ist quasi der
0:37:03.950,0:37:09.170
ReGenesis-Code, den wir auch verwenden.[br]Das ist eben auch eine Python-Anwendung.
0:37:09.170,0:37:12.960
Okay, weitere Fragen?[br]P3nny: Ja, und wir müssen halt nochmal
0:37:12.960,0:37:17.019
gucken, weil die Idee ist, welche Schritte[br]man sich vornimmt. Man könnte das relativ
0:37:17.019,0:37:20.630
umfangreich machen, dass man halt jeden[br]einzelnen Datensatz durchgehen muss. Man
0:37:20.630,0:37:23.870
könnte dann definitiv eine bessere[br]Erklärung dazu schreiben, muss das aber
0:37:23.870,0:37:28.719
halt mal recherchieren. Man müsste dann[br]halt quasi diese Untervalues auch
0:37:28.719,0:37:31.973
nochmal... also man könnte versuchen,[br]jeden einzelnen dieser Datensätze besser
0:37:31.973,0:37:35.927
zu machen. Das ist vielleicht ein bisschen[br]viel gewollt, sodass wir jetzt erst gesagt
0:37:35.927,0:37:38.820
haben: Okay, wir gehen den Schritt zurück[br]und machen halt diesen Pain, den ich
0:37:38.820,0:37:43.530
beschrieben habe, weniger schlimm. Also[br]erstmal den ersten Schritt und dann das
0:37:43.530,0:37:46.560
andere auch in Kooperation mit den[br]jeweiligen Ämtern und so, weil man dann
0:37:46.560,0:37:49.190
immer nochmal jemanden fragen muss, der[br]diese Statistik erstellt hat. Weil wenn
0:37:49.190,0:37:52.230
ich dann eine einfachere Beschreibung hin[br]schreibe, schlägt er nachher die Hände
0:37:52.230,0:37:56.760
über dem Kopf zusammen und sagt: Ja, so[br]kann man das aber nicht genau sagen.
0:37:56.760,0:38:00.950
Deswegen - da dazwischen, in diesem[br]Spannungsfeld bewegen wir uns und machen
0:38:00.950,0:38:06.720
jetzt erstmal den ersten Schritt.[br]Q: Ja, wie sieht denn generell euer
0:38:06.720,0:38:10.610
Technologie Stack aus? Python und Flask[br]haben wir jetzt schon gehört. Was ist noch
0:38:10.610,0:38:16.320
im Spiel bei euch?[br]Simon: Also wir benutzen ja wie gesagt
0:38:16.320,0:38:21.630
Python und Flask für die Webanwendungen.[br]Wir benutzen Elastic Search für die...
0:38:21.630,0:38:25.570
quasi als Such-Backend, aber wir arbeiten[br]im Moment mit Elastic Search auch so, dass
0:38:25.570,0:38:31.170
wir einfach diesen kompletten Datensatz,[br]den wir runterladen, einfach reinpumpen,
0:38:31.170,0:38:35.029
damit man auch darüber suchen kann. Ich[br]bin mir auch noch nicht sicher, ob das der
0:38:35.029,0:38:38.400
perfekte Weg ist, aber im Moment[br]funktioniert das für uns ganz gut. Das
0:38:38.400,0:38:42.240
heißt, wir haben keine Postgres-Datenbank[br]oder so, wo das drin ist, sondern wir
0:38:42.240,0:38:50.210
haben einfach nur diesen Postgres... äh,[br]diesen Elastic Search Datenhaufen und
0:38:50.210,0:38:53.321
suchen das dann darin. Das heißt, die[br]Flask-App ist im Moment auch eine sehr
0:38:53.321,0:38:57.950
sehr einfache Flask-App, die einfach nur[br]ein - ich sage jetzt mal so - ein Frontend
0:38:57.950,0:39:01.680
darüber zur Verfügung stellt - also quasi[br]ein technisches Frontend. Die
0:39:01.680,0:39:06.620
Benutzeroberfläche, die ihr sehen könnt,[br]also das grafische Frontend, das
0:39:06.620,0:39:12.870
entwickeln wir mit React und ein bisschen[br]Datenvisualisierungs-Bibliotheken,
0:39:12.870,0:39:19.310
VictoryJS wäre so ein Stichwort. Das ist[br]eine quasi ein React Wrapper um D3. Also
0:39:19.310,0:39:23.640
D3 ist so eine Datenvisualisierungs-[br]Bibliothek, VictoryJS sind quasi
0:39:23.640,0:39:32.600
Datenvisualisierungs-Komponenten, die man[br]in React verwenden kann auf Basis von D3.
0:39:32.600,0:39:39.540
Eine interessante technische Sache, was[br]Patricia gerade angesprochen hat, ist: Es
0:39:39.540,0:39:44.285
gibt so eine Bewegung in der JavaScript-[br]Welt, nicht mehr super komplexe JavaScript
0:39:44.285,0:39:47.790
Anwendungen zu bauen, die nur auf dem[br]Client laufen, sondern Sachen halt
0:39:47.790,0:39:51.980
irgendwie wieder wie früher auf dem Server[br]zu rendern oder idealerweise schon quasi
0:39:51.980,0:39:57.549
zu einem... ich sage mal zum Build-[br]Zeitpunkt wieder als HTML auszugeben. Und
0:39:57.549,0:40:03.390
da gibt es ein fancy Wort dafür, das heißt[br]JAMstack. Was es bedeutet: Das heißt
0:40:03.390,0:40:08.000
einfach nur, man baut eine Anwendung mit[br]JavaScript, in unserem Fall mit React. Die
0:40:08.000,0:40:12.549
baut auf einer API auf. Die API kann auch[br]für andere Dinge wiederverwendet werden
0:40:12.549,0:40:17.609
und wir bauen halt so einen JavaScript[br]Client dafür. Und aus diesem JavaScript
0:40:17.609,0:40:24.200
Client generieren wir dann aber ganz viele[br]HTML-Seiten, damit man quasi eine HTML-
0:40:24.200,0:40:28.059
Seite hat für jede Stadt. Und wenn du die[br]dann... wenn du dann auf diese Seite
0:40:28.059,0:40:32.060
gehst, dann lädtst du die HTML-Seite[br]runter und die kannst du direkt sehen,
0:40:32.060,0:40:36.309
weil es ist halt einfach nur HTML. Aber im[br]Hintergrund wird halt dieser ganze
0:40:36.309,0:40:40.549
JavaScript-Kram initialisiert. Und das[br]klingt jetzt sehr kompliziert, aber da
0:40:40.549,0:40:44.390
gibt es ein Framework, mit dem man sowas[br]machen kann und das heißt Gatsby.js. Und
0:40:44.390,0:40:47.559
das benutzen wir hier und es funktioniert[br]für uns auch sehr gut. Wenn euch... wenn
0:40:47.559,0:40:50.930
ihr da genaueres wissen wollt, ich hänge[br]hier nachher noch ein bisschen rum, da
0:40:50.930,0:40:54.940
kann ich euch auch zeigen, wie das[br]funktioniert. Haben wir noch Zeit für eine
0:40:54.940,0:40:58.440
Frage?[br]Q: Halt, eine noch! Also noch einmal ein
0:40:58.440,0:41:05.740
Lob. Ich fand Konzept, Präsentation und[br]eure Prototypen sehr gut aussehend. Eine
0:41:05.740,0:41:10.619
konzeptionelle Frage: Ihr habt jetzt einen[br]hohen Fokus auf regionale Sachen gelegt.
0:41:10.619,0:41:14.640
Geht ja auch eine Ebene höher. Also[br]Bundesländer und der Bund vielleicht. Ich
0:41:14.640,0:41:18.250
sehe nämlich mittel- bis langfristig auf[br]jeden Fall irgendwie das Potenzial,
0:41:18.250,0:41:22.980
Statista... oder einen starken[br]Konkurrenten zu Statista aufzubauen, wo
0:41:22.980,0:41:28.309
mir einfach gerade ein bisschen Open[br]Source mäßig etwas fehlt.
0:41:28.309,0:41:36.730
Simon: Ja, also der Punkt kommt sehr oft.[br]Also der Punkt kommt sehr oft. Ja, also
0:41:36.730,0:41:41.230
ich finde auch, Statista finde ich extrem[br]schwierig. Vor allem finde ich es
0:41:41.230,0:41:44.982
schwierig, dass man, wenn man jetzt[br]irgendeinen Datensatz googlet, dann findet
0:41:44.982,0:41:48.810
man meistens Statista und es vermittelt[br]einem irgendwie, dass man jetzt bezahlen
0:41:48.810,0:41:53.000
muss, um diesen Datensatz herunterzuladen.[br]Und wenn wir über diese amtliche Statistik
0:41:53.000,0:41:59.140
reden, dann sind das halt freie Daten. Und[br]diese Idee, die ich vorhin beschrieben
0:41:59.140,0:42:02.660
habe, dass wir einzelne HTML-Seiten[br]generieren für jeden Ort und jeden
0:42:02.660,0:42:07.880
Datensatz, der kommt auch daher, dass wir[br]eigentlich so den Long Tail nutzen wollen
0:42:07.880,0:42:11.910
in den Suchmaschinen und eigentlich[br]idealerweise dann irgendwann höher gerankt
0:42:11.910,0:42:16.220
werden als Statista. Zu dem anderen Teil[br]deiner Frage, andere Datensätze da
0:42:16.220,0:42:23.109
reinzunehmen. Die statistischen Ämter[br]benutzen dieses System Genesis, um diese
0:42:23.109,0:42:26.270
Daten zu veröffentlichen.[br]regionalstatistik.de ist quasi eine
0:42:26.270,0:42:30.390
Genesis-Instanz, wo die Daten der[br]Statistischen Landesämter drin sind. Aber
0:42:30.390,0:42:34.010
es gibt eben andere Genesis-Instanzen und[br]mit unserer Technologie kann man
0:42:34.010,0:42:39.054
grundsätzlich auch andere Genesis-[br]Instanzen - die Daten aus anderen Genesis-
0:42:39.054,0:42:43.040
Instanzen laden und zur Verfügung stellen,[br]weil das alles genau gleich funktioniert.
0:42:43.040,0:42:48.069
Das hat halt mit unserem föderalen System,[br]was wir in Deutschland haben, zu tun.
0:42:48.069,0:42:51.849
Wobei das nicht heißt, dass die Software[br]ein föderiertes System ist. Also es ist
0:42:51.849,0:42:57.799
nicht Mastodon-föderiert, dass ich quasi[br]über eine Instanz von dieser Software alle
0:42:57.799,0:43:02.130
Daten abfragen kann, sondern die haben[br]halt einfach einzelne Instanzen, weil halt
0:43:02.130,0:43:06.500
andere Leute zuständig sind für andere[br]Datensätze. Aber perspektivisch wäre es
0:43:06.500,0:43:10.920
schon mein Ziel, mit diesem Konzept auch[br]andere Datensätze, idealerweise halt
0:43:10.920,0:43:14.502
alles, was irgendwie über Genesis[br]veröffentlicht wird, zur Verfügung zu
0:43:14.502,0:43:17.859
stellen. Wir haben uns jetzt eben als[br]einfachen Use Case die
0:43:17.859,0:43:22.440
regionalstatistik.de ausgesucht. Also ich[br]muss dazu sagen, wir arbeiten da schon
0:43:22.440,0:43:28.349
seit einem Jahr dran. Und wir haben am[br]Anfang sehr viel ausprobiert und wir haben
0:43:28.349,0:43:33.680
auch über die Zeit unseren Scope verändert[br]und die Tatsache, dass wir jetzt eben
0:43:33.680,0:43:37.970
diese konkrete, dieses konkrete Produkt[br]entwickeln und uns auf die
0:43:37.970,0:43:41.880
regionalstatistik konzentrieren, das ist[br]eigentlich eine neuere Sache. Aber das ist
0:43:41.880,0:43:45.451
einfach etwas, was wir jetzt machen[br]müssen, damit wir mit irgendetwas mal
0:43:45.451,0:43:50.069
vorankommen. Wir sind auch nur zu dritt[br]und vielleicht so vier, je nachdem, wie
0:43:50.069,0:43:57.210
man das zählt. Und lange zu zweit. Genau[br]deswegen, ja. Wir sind halt auch nicht
0:43:57.210,0:44:02.610
Statista. Aber Open Source Schreibtisch-[br]Hooligan Statista finde ich super. Also
0:44:02.610,0:44:06.230
wenn noch ein paar Leute von euch Lust[br]haben, dann können wir uns sehr gerne
0:44:06.230,0:44:09.919
drüber unterhalten.[br]Herald: Also wir haben auch noch viel Zeit
0:44:09.919,0:44:13.857
übrig, denke ich. Noch eine Viertelstunde[br]oder so. Wenn es noch mehr Fragen gibt,
0:44:13.857,0:44:19.810
supergeil. Ja, gerne weiter.[br]Q: Wie organisiert ihr euch als Projekt
0:44:19.810,0:44:26.990
und wie finanziert ihr euch?[br]Simon: Ja, also vielleicht... genau.
0:44:26.990,0:44:32.839
Patricia geht mal hier zurück, weit[br]zurück. Also wir organisieren uns im
0:44:32.839,0:44:42.750
Moment so ein bisschen über GitHub Issues.[br]Wir haben nen Slack-Channel im OKF-Slack.
0:44:42.750,0:44:47.270
Das ist halt irgendwie das Einfachste für[br]uns, wir sind auch ein verteiltes Team.
0:44:47.270,0:44:52.180
Also ich sage mal, wir arbeiten zeitlich[br]und räumlich verteilt. Patricia ist in
0:44:52.180,0:44:56.540
Köln. Ich bin in Berlin. Mein anderer[br]Kollege Simon Wörpel, der ganz viel an der
0:44:56.540,0:45:01.250
API arbeitet, der ist zwar auch in Berlin,[br]aber Berlin ist eine große Stadt. Wir
0:45:01.250,0:45:07.120
sehen uns jetzt auch nicht jeden Tag.[br]Deswegen halt sehr viel über Slack. Wir
0:45:07.120,0:45:10.720
haben uns jetzt in der Vergangenheit immer[br]mal getroffen. Ich glaube, wir uns zwei
0:45:10.720,0:45:19.240
Mal getroffen, seit wir an dem Projekt[br]arbeiten. Und... also dreimal mit jetzt.
0:45:19.240,0:45:24.671
Nächstes Jahr wollen wir, also wie gesagt,[br]so eine Art Hackathon machen. Da wollen
0:45:24.671,0:45:30.470
wir auch ein bisschen mehr Community[br]zusammenbringen und dann halt in dem
0:45:30.470,0:45:34.151
Zusammenhang auch irgendwie gucken, wie[br]man das Projekt als Open Source Projekt
0:45:34.151,0:45:37.319
weiterentwickeln kann und was für[br]Kommunikationskanäle man dann auch
0:45:37.319,0:45:43.890
braucht. Zur Förderung. Also ich hab ja[br]vorhin gesagt, wir hatten am Anfang eine
0:45:43.890,0:45:50.470
Förderung vom Prototype Fund. Das ist ein[br]sehr gutes Förderprogramm für Open Source
0:45:50.470,0:45:54.910
Projekte, die halt irgendwie eine[br]gesellschaftliche Relevanz haben. Das war
0:45:54.910,0:45:58.406
auch in der in der Bewerbung, in der[br]Durchführung super. Also kann ich nur
0:45:58.406,0:46:01.560
jedem empfehlen. Ich habe tatsächlich[br]inzwischen auch schon ein zweites
0:46:01.560,0:46:06.921
Prototype Fund Projekt hinter mir. Alle da[br]bewerben. Ich muss dazu sagen, ich habe
0:46:06.921,0:46:10.219
mich auch mit viel mehr Kram beworben, der[br]wurde nicht genommen. Gibt wahrscheinlich
0:46:10.219,0:46:16.674
auch viele Bewerber. Aber ich kann auf[br]jeden Fall jedem raten, es auszuprobieren
0:46:16.674,0:46:20.069
und euch am besten vorher mal mit den[br]Leuten vom Prototype Fund zu unterhalten.
0:46:20.069,0:46:22.920
Die sind auch hier irgendwie unterwegs.[br]Wenn ihr die hier anpingt, dann habt ihr
0:46:22.920,0:46:26.470
sicher die Möglichkeit, da noch eine[br]Audienz zu kriegen. Das ist auch ein
0:46:26.470,0:46:30.319
laufendes Programm. Also Prototype Fund[br]könnt ihr euch glaub ich noch das nächste
0:46:30.319,0:46:36.990
Jahr oder so auf ein paar weitere[br]Förderrunden noch bewerben. Unsere
0:46:36.990,0:46:44.039
aktuelle Förderung setzt sich zusammen aus[br]Geld, das wir vom Medien
0:46:44.039,0:46:49.109
Innovationszentrum Babelsberg bekommen[br]haben und so einem Stipendium, das ich
0:46:49.109,0:46:56.020
habe, im Moment. Das Medien[br]Innovationszentrum ist so ein Konstrukt,
0:46:56.020,0:47:01.400
da werden quasi Rundfunkgebühren[br]umverteilt an Innovationsprojekte und die
0:47:01.400,0:47:06.520
haben auch ein großes Interesse dran, so[br]Open Source Projekte zu fördern. Kann man
0:47:06.520,0:47:12.180
sich auch bewerben, ist ein bisschen[br]aufwendiger, so in der Durchführung und
0:47:12.180,0:47:17.653
was den administrativen Aufwand angeht und[br]ist nicht so viel Geld wie der Prototype
0:47:17.653,0:47:21.360
Fund. Deswegen immer erst einmal beim[br]Prototype Fund bewerben und wenn ihr dann
0:47:21.360,0:47:24.920
noch mehr Geld braucht, beim MIZ bewerben.[br]Das wäre so meine Strategie.
0:47:24.920,0:47:28.660
P3nny: Genau. Was wir aber im Rahmen[br]dieses MIZ-Dingens machen, weil der Fokus
0:47:28.660,0:47:32.680
da auf Journalisten und journalistische[br]Produktentwicklung liegt, ist, mit
0:47:32.680,0:47:37.160
Redaktionen zusammenzuarbeiten. Also es[br]gab neulich einen dpa Hack Day, wo schon
0:47:37.160,0:47:43.170
die ersten Journalistinnen mit einem Team[br]die API genutzt haben, um so eine Art
0:47:43.170,0:47:46.649
Newslettersystem... also ich kann mich[br]als Lokalredakteur für meine Stadt
0:47:46.649,0:47:50.560
Flensburg oder so da anmelden und kriege[br]dann halt immer nen Alert, wenn Daten...
0:47:50.560,0:47:55.710
also wenn Flensburg irgendwo top oder low[br]gerankt ist. Sowas kann man sich ja auch
0:47:55.710,0:47:59.490
vorstellen, dass man das als Service[br]anbietet. Und ich selber bin freie
0:47:59.490,0:48:03.130
Mitarbeiterin beim WDR. Geplant ist, dass[br]wir ein Daten-Projekt vielleicht rund um
0:48:03.130,0:48:07.599
die Europageschichte oder so mit dem WDR[br]und so machen. Also um das, was wir da
0:48:07.599,0:48:11.090
tun, auch reinzutragen in etablierte[br]journalistische Unternehmen.
0:48:11.090,0:48:17.299
Simon: Ja also ich vermute mal, dass deine[br]Frage auch mehr so auf Businessmodell
0:48:17.299,0:48:23.150
abgezielt hat dafür. Und das haben wir[br]tatsächlich im Moment nicht. Man muss mal
0:48:23.150,0:48:28.600
gucken. Also jetzt im Moment ist es ja[br]sehr... also es ist sehr billig, das zu
0:48:28.600,0:48:31.910
betreiben für uns im Moment. Die Website[br]wird wahrscheinlich auch relativ
0:48:31.910,0:48:35.510
unproblematisch sein, weil die ist erstmal[br]nur ein Haufen HTML. Das kann man im
0:48:35.510,0:48:39.290
Zweifelsfall umsonst bei Netlify oder so[br]betreiben oder auf GitHub. Interessanter
0:48:39.290,0:48:45.060
ist halt die Sache mit der API. Also ich[br]glaube, wenn wir... also so ein großer
0:48:45.060,0:48:50.400
Elastic Search Cluster kostet richtig[br]Geld. Ich denke mal, wenn wir Power User
0:48:50.400,0:48:55.210
haben, die dafür halt irgendwas... also[br]diese API für irgendetwas benutzen, was
0:48:55.210,0:48:58.439
vielleicht für die auch eine kommerzielle[br]Relevanz hat, dann kann ich mir schon
0:48:58.439,0:49:04.350
vorstellen, dass man da irgendein Modell[br]findet, wo man quasi dafür bezahlt, wenn
0:49:04.350,0:49:08.200
man einen sehr hohen, sehr hohes[br]Datenaufkommen verursacht oder so. Aber
0:49:08.200,0:49:12.859
das ist so ein Problem, mit dem wir uns im[br]Moment noch nicht befassen. Grundsätzlich
0:49:12.859,0:49:18.439
hab ich... Genau. Es gibt ja alle[br]möglichen Ideen, was man da drum machen
0:49:18.439,0:49:21.670
kann. Ich kann mir gut vorstellen, dass[br]man perspektivisch vielleicht etwas über
0:49:21.670,0:49:25.720
Sponsoring macht, also dass man sagt, dass[br]Medienorganisationen, die unsere Daten
0:49:25.720,0:49:31.720
verwenden... keine Ahnung, uns irgendwie[br]fördern oder so. Patrica hat gerade
0:49:31.720,0:49:35.512
gesagt, wir haben auch schon so überlegt,[br]ob man halt ne Brücke baut zu anderen
0:49:35.512,0:49:39.290
Tools, wo man dann vielleicht irgendwas[br]Kommerzielles macht, was nicht der Kern,
0:49:39.290,0:49:43.220
das Kernprojekt ist. Also dass man sagt,[br]es gibt ein Datenvisualisierungstool, das
0:49:43.220,0:49:46.319
heißt Data Wrapper. Naja, dass man sagt,[br]wenn Data Wrapper irgendwie unsere Daten
0:49:46.319,0:49:49.450
benutzen will, dann stellen wir das denen[br]halt in irgendeiner Form zur Verfügung und
0:49:49.450,0:49:54.150
man überlegt sich dann da halt ein Modell[br]dazu. Aber ich will eigentlich nicht so...
0:49:54.150,0:49:56.450
ich sehe mich jetzt nicht als[br]Medienunternehmer und ich will jetzt auch
0:49:56.450,0:50:01.920
nicht den nächsten Statista Datenbroker[br]gründen, gerade hier auf dem Kongress.
0:50:01.920,0:50:07.655
Also idealerweise würde dieses Angebot[br]auch irgendwann sich selber abschaffen,
0:50:07.655,0:50:11.020
weil die statistischen Ämter sehen, wie[br]sie die Daten eigentlich aufbereiten
0:50:11.020,0:50:13.960
müssen, damit Bürger die nutzen und dann[br]machen sie selber ein ähnliches Angebot.
0:50:13.960,0:50:18.330
Das ist jetzt vielleicht sehr utopisch[br]gedacht, aber es gibt durchaus Leute bei
0:50:18.330,0:50:22.339
den statistischen Ämtern, die ein[br]Interesse daran haben, sich breiter zu
0:50:22.339,0:50:26.451
öffnen. Und die sehen auch, dass sie etwas[br]machen müssen. Weil die sind dem
0:50:26.451,0:50:32.109
Innenministerium unterstellt und die sind[br]nicht unbedingt die größte Priorität vom
0:50:32.109,0:50:35.990
Innenministerium gerade. Das heißt, die[br]haben durchaus auch ein Interesse daran,
0:50:35.990,0:50:39.890
mehr Aufmerksamkeit für ihre Arbeit und[br]ihre Daten zu kriegen. Und wir stehen auch
0:50:39.890,0:50:51.190
auf jeden Fall im engen Austausch mit den[br]statistischen Ämtern.
0:50:51.190,0:50:57.060
Q: Ja hi, eine Frage, wie ihr die Daten[br]gewinnt. Ihr habt gesagt, Genesis wäre ein
0:50:57.060,0:51:00.210
Austauschformat? Also ich stelle mir das[br]sehr mühsam vor, wenn ich jetzt überlege,
0:51:00.210,0:51:03.450
wie ich diese ganzen Daten von diesen[br]Seiten aggregieren müsste, das wäre - ich
0:51:03.450,0:51:06.710
würde jetzt schon aufhören. Und es scheint[br]da nen Standard zu geben. Könnt ihr
0:51:06.710,0:51:09.640
darüber was sagen oder wie diese Daten zu[br]euch kommen?
0:51:09.640,0:51:13.760
Simon: Ja, genau. Also ich habe vorhin ja[br]erwähnt, wir sind da schon durch so ein
0:51:13.760,0:51:18.980
paar Iterationen gegangen. Am Anfang haben[br]wir tatsächlich die Daten mehr oder
0:51:18.980,0:51:23.849
weniger gescrapet, was auch nicht so[br]einfach ist, weil eigentlich werden die
0:51:23.849,0:51:29.299
Daten da halt für jeden Abruf generiert,[br]aber da gibt's halt so ein paar... das ist
0:51:29.299,0:51:34.596
alles, ja, also alles so ein bisschen[br]kompliziert. Aber es gibt halt die
0:51:34.596,0:51:37.837
Möglichkeit, da auch statische Daten[br]runterzuladen einfach und das haben wir eine
0:51:37.837,0:51:41.809
Weile gemacht und haben uns dann so ein[br]Schema-System überlegt, mit dem man quasi
0:51:41.809,0:51:47.350
automatisiert diese einzelnen Datensätze[br]aufräumen kann. Da musste man aber immer
0:51:47.350,0:51:52.960
noch für jeden von den 450 Datensätze[br]irgendein Schema beschreiben. Wir sind
0:51:52.960,0:51:57.710
dann im Austausch mit den statistischen[br]Ämtern so weit gekommen, dass es
0:51:57.710,0:52:01.970
tatsächlich eine Daten-Schnittstelle gibt,[br]die ist für regionalstatistik.de nicht
0:52:01.970,0:52:09.654
dokumentiert. Aber sie existiert. Alle[br]Genesis-Instanzen, die betrieben werden,
0:52:09.654,0:52:14.119
die haben eine Daten-Schnittstelle. Die[br]kostet manchmal Geld, manchmal nicht. Bei
0:52:14.119,0:52:18.829
dem offiziellen Angebot von Destatis zum[br]Beispiel, da kostet die ein Haufen Geld
0:52:18.829,0:52:22.859
und ist dokumentiert. Bei[br]regionalstatistik.de kostet die nichts,
0:52:22.859,0:52:27.109
dafür ist auch nirgendwo im Web was drüber[br]geschrieben. Wir benutzen jetzt aber diese
0:52:27.109,0:52:30.800
Datenschnittstelle, das ist eine SOAP-[br]Schnittstelle, wenn des hier jemand was
0:52:30.800,0:52:34.700
sagt. Also es ist mehr so Enterprise[br]Level. Das benutzen halt Banken und
0:52:34.700,0:52:38.710
Versicherungen. Vielleicht heute auch[br]nicht mehr, wenn sie heute nochmal damit
0:52:38.710,0:52:44.300
anfangen würden. Aber es ist halt eine[br]SOAP-Schnittstelle und ist quasi eine
0:52:44.300,0:52:49.540
SOAP-Schnittstelle auf nen OLAP Data Cube.[br]Also das ganze ist ein Datenquader, also
0:52:49.540,0:52:54.204
irgendwie so eine Terabyte große[br]Datenstruktur, die irgendwo steht. Die
0:52:54.204,0:52:57.580
könnte man sich auch komplett runterladen[br]und dann direkt auf diesem OLAP Cube
0:52:57.580,0:53:03.460
operieren. Aber im Moment benutzen wir[br]ReGenesis, das ist eben dieses Open Source
0:53:03.460,0:53:08.670
Tool, was ich vorhin beschrieben habe. Und[br]mit ReGenesis kann man eben diese SOAP API
0:53:08.670,0:53:13.970
relativ einfach aus Python ansprechen.[br]Aber die Idee ist halt, dass wir ein Layer
0:53:13.970,0:53:18.160
drüber ziehen, der einfacher ist. Aber wir[br]räumen jetzt, also Stand jetzt, räumen wir
0:53:18.160,0:53:22.540
nicht mehr manuell Daten auf, die wir[br]gescrapet haben. So viel kann ich sagen.
0:53:22.540,0:53:27.579
Q: So eine Follow up Frage hätte ich dazu[br]noch aus dem Operations-Bereich: Skaliert
0:53:27.579,0:53:31.540
das? Also wenn ihr weitere Datenquellen[br]anbinden wollt, wie Bundes-, whatever?
0:53:31.540,0:53:34.190
Keine Ahnung, wie viel manuelle Arbeit[br]steckt da drin?
0:53:34.190,0:53:37.620
Simon: Naja, also jetzt kann man[br]tatsächlich halt... also es gibt dieses
0:53:37.620,0:53:42.189
Open Source Projekt, kannst du dir[br]angucken, kann man mit mehr oder weniger,
0:53:42.189,0:53:46.830
naja, ich glaube so in 20 bis 30 Minuten[br]kann man sich dieses Backend-Projekt
0:53:46.830,0:53:50.540
aufsetzen und dann auch Daten da rein[br]laden. Also es ist schon alles irgendwie
0:53:50.540,0:53:54.890
so automatisiert, dass man das machen kann[br]jetzt für uns. Naja, inwieweit es skaliert
0:53:54.890,0:53:58.448
Also skalieren hat hier verschiedene[br]Dimensionen. Also einmal pumpen wir die
0:53:58.448,0:54:02.460
Daten halt alle in Elastic Search. Keine[br]Ahnung, ob das skaliert, wird sich noch
0:54:02.460,0:54:09.230
rausstellen. Funktioniert jetzt mit dem[br]Datensatz, den wir haben. Die andere Sache
0:54:09.230,0:54:14.210
ist halt der Download der Daten und das[br]ist im Moment relativ einfach aufgesetzt.
0:54:14.210,0:54:17.569
Also ich hatte vorgestern hier einen[br]technischeren Talk drüben in der Chaos
0:54:17.569,0:54:21.700
Zone und hab darüber geredet, wie das[br]technisch funktioniert. Und dann kam
0:54:21.700,0:54:28.720
gestern jemand zu mir und hat mir erklärt,[br]er hat jetzt einen Docker-Container
0:54:28.720,0:54:32.770
gebaut, der unser Backend enthält mit[br]allem Zeug. Also das heißt, irgendjemand
0:54:32.770,0:54:35.680
hat sich dann hingesetzt und das gemacht.[br]Das ging offensichtlich relativ einfach.
0:54:35.680,0:54:43.090
Ich weiß nicht ob die Person da ist. Nein,[br]auch gut, aber ja. Also mit dem Text-Hack
0:54:43.090,0:54:46.153
zu arbeiten ist relativ einfach, wie es[br]perspektivisch skaliert, ist glaube ich
0:54:46.153,0:54:52.099
eher ein Problem der Datenhaltung. Und ich[br]glaube, wenn man richtig viel damit machen
0:54:52.099,0:54:56.039
wollte, müsste man eigentlich sich mit[br]diesem OLAP Cube befassen. Das sagen auch
0:54:56.039,0:54:59.710
die Leute von den statistischen Ämtern.[br]Also wenn man denen mit einem besonderen
0:54:59.710,0:55:03.430
Problem kommt, dann sagen die: Ja, da[br]müssen sie halt den Datenquader
0:55:03.430,0:55:09.700
runterladen. Also, das heißt Datenquader[br]bei denen. Aber ja, das machen tatsächlich
0:55:09.700,0:55:13.580
auch Leute. Also Statista lädt[br]wahrscheinlich diesen OLAP Cube runter,
0:55:13.580,0:55:16.930
wahrscheinlich irgendwie jede Nacht oder[br]so. Das wäre jetzt so meine Vermutung. Und
0:55:16.930,0:55:20.750
dann haben die halt irgendwelche Prozesse[br]hinten dran, was das in ihre Systeme
0:55:20.750,0:55:23.700
übersetzt. Aber das ist halt so ein[br]Bereich, in dem wir jetzt
0:55:23.700,0:55:28.289
nicht operieren. Also das ist dann[br]auch ein anderes Projekt, glaube ich.
0:55:31.199,0:55:37.279
Q: Gibt es, gibt es irgendwo eine[br]Übersicht von diesen amtlichen
0:55:37.279,0:55:40.359
Kennzeichen, von den Variablen oder den[br]Definitionen dahinter?
0:55:40.359,0:55:45.440
Simon: Ja. Willst du darüber was sagen?[br]P3nny: Also auf regionalstatistik.de
0:55:45.440,0:55:53.349
gibt's einen Daten-Katalog und in dem sind[br]die quasi nach Feldern aufgeschlüsselt.
0:55:53.349,0:56:00.150
Also Wirtschaft, Umwelt, Bevölkerung oder[br]so grob. Und da drunter findest du dann
0:56:00.150,0:56:03.450
die einzelnen Dateien. Wobei so richtig[br]gut zum Durchsteigen ist das nicht. Aber
0:56:03.450,0:56:06.700
wenn man sich damit beschäftigt, dann[br]versteht man das schon. Und dann findet
0:56:06.700,0:56:10.410
man diese Kennziffer und diese Kennziffer[br]kann man ja dann auch wieder in die API
0:56:10.410,0:56:13.040
reinschmeißen.
0:56:13.040,0:56:18.870
Hier vorne noch?[br]Da hinten?
0:56:18.870,0:56:22.040
Simon: Also eine Sache dazu ist auch, dass
0:56:22.040,0:56:30.390
wir auch... also wir haben so ein GitHub[br]Issue offen, diese Übersicht auch da
0:56:30.390,0:56:36.450
rauszuziehen und quasi mit in unsere in[br]unsere Web-Oberfläche einzubinden. Also
0:56:36.450,0:56:42.250
ich habe gerade schon gezeigt, dass wir so[br]eine riesenlange Liste haben von jeder
0:56:42.250,0:56:46.319
Stadt und jeder Gemeinde. Und genauso[br]wollen wir halt auch eine riesenlange
0:56:46.319,0:56:50.796
Liste von jedem Merkmal, das man[br]durchsuchen kann. Das heißt, das ist quasi
0:56:50.796,0:56:55.970
eine Aufgabe, an der wir arbeiten werden[br]in den nächsten Wochen.
0:56:55.970,0:57:01.760
Q: Okay, von mir... okay sorry. Nochmal[br]eine Folgefrage quasi: Habt ihr
0:57:01.760,0:57:06.160
mittelfristig vor, auch manuelle[br]Dateneingabe zu ermöglichen? Weil es gibt
0:57:06.160,0:57:10.080
ja relativ viele Reports von[br]Unternehmensberatungen etc pp, wo
0:57:10.080,0:57:13.850
superspannende Daten drinstehen, was aber[br]glaube ich schwierig zu automatisieren
0:57:13.850,0:57:16.490
ist. Ob ihr da so vorhabt, einen[br]Communityapproach zu fahren,
0:57:16.490,0:57:18.720
dass irgendjemand das einträgt und [br]irgendjemand reviewt das
0:57:18.720,0:57:21.150
und dann passt das schon oder[br]irgendwas in die Richtung?
0:57:21.150,0:57:23.010
Simon: Also ja, das haben wir im Moment
0:57:23.010,0:57:29.660
nicht vor. Also im Moment ist unser Weg[br]der einfache Weg und das ist, quasi Dinge
0:57:29.660,0:57:33.740
verwenden, die irgendwie einheitlich[br]erfasst werden, wo klar definiert ist, wo
0:57:33.740,0:57:36.950
sie herkommen, wo auch die Lizenz-[br]Situation klar ist und die dann halt
0:57:36.950,0:57:40.860
wieder zu veröffentlichen. Also ich hab[br]die Frage auch schon öfter bekommen bei so
0:57:40.860,0:57:44.930
Präsentationen und es ist im Moment,[br]glaube ich, irgendwie komplett out of
0:57:44.930,0:57:48.510
scope für uns, weil es halt dann so viele[br]Fragen aufwirft, mit denen wir uns dann
0:57:48.510,0:57:52.980
befassen müssten. Das ist halt einfach...[br]da haben wir gerade andere Probleme, die
0:57:52.980,0:57:56.420
wir einfacher lösen könnten, so. Aber[br]interessant wäre es auf jeden Fall und das
0:57:56.420,0:58:01.710
wäre dann quasi so ein Gecrowdsourcestes,[br]selber gemachtes Open Data Statista. Also
0:58:01.710,0:58:04.359
ich fände es super interessant, aber das[br]ist glaube ich ein anderes Projekt
0:58:04.359,0:58:07.418
einfach.
0:58:07.418,0:58:12.729
Herald: Ich glaube, wir haben noch Zeit[br]für eine letzte Frage. Gibt's noch eine?
0:58:12.729,0:58:21.390
Simon: Ja, keine Fragen. Ist doch super. [br]Ja, ich bin hier links um die Ecke
0:58:21.390,0:58:24.240
noch ne Weile, wenn ihr irgendwie [br]konkretere Fragen habt
0:58:24.240,0:58:27.339
oder euch nochmal was angucken[br]wollt oder mir noch von eurer Idee
0:58:27.339,0:58:30.990
erzählen wollt, dann kommt gern vorbei und[br]quatscht mich an. Vielen Dank.
0:58:30.990,0:58:32.140
Applaus
0:58:32.140,0:58:33.839
Musik
0:58:33.839,0:58:56.822
Untertitel erstellt von c3subtitles.de[br]im Jahr 2021. Mach mit und hilf uns!