0:00:00.000,0:00:19.527 Musik 0:00:19.527,0:00:23.490 Herald: Ja, herzlich willkommen zum[br]nächsten Talk in der Wikipaka WG. Hier 0:00:23.490,0:00:37.284 zeigen uns Simon und P3nny das Projekt[br]Datenguide. Viel Spaß! 0:00:37.284,0:00:43.950 Simon: Hallo. Ok. Hi zusammen. Ja, wie[br]gesagt, P3nny und ich, wir möchten über 0:00:43.950,0:00:47.720 einen Open Data Projekt sprechen, an dem[br]wir arbeiten. Das Projekt heißt 0:00:47.720,0:00:56.170 Datenguide. Findet ihr unter datengui.de.[br]Und unsere Mission ist einfach gesagt, 0:00:56.170,0:01:04.869 Statistiken zugänglicher zu machen für[br]alle. Wenn wir über Statistiken reden, 0:01:04.869,0:01:09.560 dann reden wir über amtliche Statistik.[br]Außerdem werden wir gefördert vom MIZ in 0:01:09.560,0:01:13.580 Babelsberg von einem Programm, das heißt[br]Prototype Fund. Das sind ausgezeichnete 0:01:13.580,0:01:19.260 Programme. Wenn Ihr Funding Möglichkeiten[br]sucht für eure Open Source Projekte, kann 0:01:19.260,0:01:25.100 ich nur empfehlen, euch das mal genauer[br]anzugucken. Unser Sourcecode ist frei auf 0:01:25.100,0:01:30.820 GitHub unter Datenguide. Und wenn wir[br]über Statistiken reden, dann meinen wir 0:01:30.820,0:01:35.850 amtliche Statistik. Amtliche Statistik ist[br]einfach gesagt alle Statistiken zu 0:01:35.850,0:01:39.341 Gesellschaft, Umwelt und Wirtschaft. Und[br]das sind Statistiken, die von den 0:01:39.341,0:01:47.030 Statistischen Ämtern erstellt werden. Und[br]das ist, was die Statistiker deskriptive 0:01:47.030,0:01:53.369 Statistik nennen. Das heißt, es gibt da[br]keine Interpretation, keine Prognosen, 0:01:53.369,0:01:56.619 sondern es ist einfach nur einfache[br]Statistik, die beschreibt, wie irgendwas 0:01:56.619,0:02:04.909 ist. Paar Beispiele sind z.B. Zahlen über[br]Schulen. Also Zahlen zu Schülern und 0:02:04.909,0:02:11.680 Absolventen nach Schulart für eure Stadt[br]z.B. Oder Zahlen zur Abfallentsorgung. 0:02:11.680,0:02:15.500 Also wie viel Hausmüll gibt es in eurer[br]Stadt? Wieviel wird recycelt in eurer 0:02:15.500,0:02:19.900 Stadt? Und Zahlen zu Migration und[br]Einbürgerung, z.B.: Wie viele Menschen 0:02:19.900,0:02:25.370 werden in eurer Stadt eingebürgert? Wie[br]alt sind die? Wie alt waren die? Oder seit 0:02:25.370,0:02:29.590 wie vielen Jahren sind die in Deutschland?[br]Das sind jetzt nur drei Beispiele. Der 0:02:29.590,0:02:37.370 Datensatz oder der Datenpool, mit dem wir[br]uns jetzt im Moment auseinandersetzen, 0:02:37.370,0:02:41.790 sind die Daten von regionalstatistik.de.[br]Was das bedeutet, werde ich nachher 0:02:41.790,0:02:47.500 nochmal ein bisschen erklären. Und da[br]reden wir über 450 Datensätze zu allen 0:02:47.500,0:02:53.280 möglichen Themen. Das heißt, diese drei[br]Sachen sind einfach nur Beispiele. Wenn 0:02:53.280,0:02:57.000 man sich jetzt so anguckt, was die[br]Statistischen Ämter sagen über sich 0:02:57.000,0:03:01.480 selber, dann sagen die, sie sind objektiv[br]unabhängig und machen qualitativ 0:03:01.480,0:03:07.340 hochwertige Statistik. Da gehe ich auch[br]mit, ja. Und dann sagen die noch, sie 0:03:07.340,0:03:11.379 machen es für Politik, Verwaltung,[br]Wirtschaft sowie für Bürgerinnen und 0:03:11.379,0:03:15.940 Bürger. Und wenn man sich anguckt, wie die[br]amtliche Statistik im Moment 0:03:15.940,0:03:22.400 veröffentlicht wird und an wen die so...[br]für wen diese aufbereitet wird, dann gehe 0:03:22.400,0:03:27.420 ich mit, dass das Ziel Politik und[br]Verwaltung ist - Wirtschaft vermutlich auch. 0:03:27.420,0:03:30.700 Bürgerinnen und Bürger, da gibt es ein[br]gewisses Defizit und das ist eben das 0:03:30.700,0:03:37.990 Thema, das wir uns anschauen. Aber erst[br]einmal so ein kleiner Exkurs. Ja, erstmal, 0:03:37.990,0:03:41.850 wo kommen überhaupt diese Daten her? Und[br]ihr habt vielleicht vor kurzem diese 0:03:41.850,0:03:47.870 Geschichte gehört: Das ist die Geschichte[br]einer Volkszählung. Ja, also vor ungefähr 0:03:47.870,0:03:53.630 2000 Jahren hat sich Kaiser Augustus,[br]Herrscher des Römischen Reiches, überlegt, 0:03:53.630,0:04:00.069 dass er bessere Daten braucht über die[br]Bürger in seinem Reich. Also hat er ein 0:04:00.069,0:04:05.480 Zensus angeordnet. Und im Rahmen von[br]diesem Zensus sollte jeder Bewohner des 0:04:05.480,0:04:11.560 Römischen Reichs zu seiner Heimatstadt[br]reisen und sich dort zählen lassen. Und in 0:04:11.560,0:04:14.530 dem Prozess wurde ein kleines Kind[br]geboren. Aber am Ende ist es immer noch 0:04:14.530,0:04:23.470 die Geschichte von einer Volkszählung und[br]... zum Zwecke der Steuererhebung, genau. 0:04:23.470,0:04:27.990 Also die Römer hatten relativ großen[br]militärischen Komplex, den sie finanzieren 0:04:27.990,0:04:31.950 mussten und deshalb mussten sie wissen,[br]wo, wie viele Menschen leben, damit sie 0:04:31.950,0:04:37.020 wissen, wie viele Steuern sie erheben[br]können. Und genauso ist es bis heute. 0:04:37.020,0:04:44.170 Überall, wo es einen Staat gibt oder eine[br]Verwaltung, braucht die Information 0:04:44.170,0:04:48.800 darüber, wie viele Menschen irgendwo[br]leben, wie viele Kinder zur Schule gehen, 0:04:48.800,0:04:53.660 wie viele Kinder vielleicht demnächst zur[br]Schule gehen. Und deswegen wird relativ 0:04:53.660,0:04:59.590 viel Aufwand betrieben, Daten zu erfassen[br]über uns all. In eigentlich allen 0:04:59.590,0:05:05.190 Industrienationen, sag ich mal, haben wir[br]sowas wie ein 10jährigen Zensus. Und das 0:05:05.190,0:05:08.720 ist eigentlich so ähnlich wie die[br]Geschichte von Kaiser Augustus vorher. Das 0:05:08.720,0:05:12.720 heißt, alle zehn Jahre werden in[br]irgendeiner Form alle Menschen gezählt, 0:05:12.720,0:05:16.870 die in einem Land leben. Heute reisen wir[br]nicht mehr an unseren Geburtsort, sondern 0:05:16.870,0:05:21.240 es gibt Leute, die normalerweise von Tür[br]zu Tür gehen, bei euch klingeln und euch 0:05:21.240,0:05:28.690 dann Fragen stellen. In Deutschland ist[br]das ein bisschen anders. Hier gab es einen 0:05:28.690,0:05:34.919 letzten Zensus 2011 und davor gab's eine[br]Weile keinen Zensus. Hat mit unserer 0:05:34.919,0:05:38.630 Geschichte zu tun und auch mit Protesten,[br]die es gab, in der Vergangenheit. Aber es 0:05:38.630,0:05:41.169 gibt auch verschiedene andere[br]Möglichkeiten, wie eigentlich immer Daten 0:05:41.169,0:05:46.310 erfasst wurden. Außer der richtigen[br]Volkszählung, also dem Makrozensus, gibt's 0:05:46.310,0:05:49.680 einen Mikrozensus. Und beim Mikrozensus[br]wird eben einfach eine Stichprobe 0:05:49.680,0:05:53.160 genommen. Das heißt, eine Handvoll Leute[br]wird genauer betrachtet und davon 0:05:53.160,0:05:58.290 ausgehend wird dann irgendwas[br]hochgerechnet. Und außerdem gibt es etwas, 0:05:58.290,0:06:02.880 was die Statistiker Sekundärstatistik[br]nennen. Das heißt, Daten, die irgendwo an 0:06:02.880,0:06:07.470 anderer Stelle erfasst werden, werden[br]verarbeitet. Für die Statistik, also in 0:06:07.470,0:06:10.940 Deutschland werden irgendwelche Zahlen,[br]z.B. über Landwirthschaft, erfasst, bei 0:06:10.940,0:06:14.810 irgendwelchen Landwirtschaftsämtern. Und[br]diese Zahlen werden dann an die 0:06:14.810,0:06:17.910 statistischen Ämter weitergegeben und dort[br]werden dann eben Statistiken draus 0:06:17.910,0:06:20.140 gemacht, die dann auch von den[br]Statistischen Ämtern veröffentlicht 0:06:20.140,0:06:25.750 werden. Außerdem gibt's bei uns und vielen[br]anderen, ich sag mal so europäischen und 0:06:25.750,0:06:30.830 nordischen Ländern gibt's einen[br]Registerzensus. Und das heißt, die Zahlen, 0:06:30.830,0:06:34.759 die es über euch schon gibt, z.B. im[br]Bevölkerungsregister - weil ihr habt euch 0:06:34.759,0:06:40.120 ja alle ordentlich angemeldet - die[br]Zahlen, die werden dann wiederum verwendet 0:06:40.120,0:06:46.140 und an die statistischen Ämter[br]weitergegeben. Ja, ihr könnt euch ja 0:06:46.140,0:06:50.930 vorstellen, das sind relativ viele Daten.[br]Das sind persönliche Daten über uns alle 0:06:50.930,0:06:58.919 und deswegen wird in Deutschland das[br]Statistikgeheimnis sehr hochgehalten. Also 0:06:58.919,0:07:02.800 das ist tatsächlich ein Begriff aus der[br]amtlichen Statistik. Das bedeutet, dass 0:07:02.800,0:07:07.880 Sie sich extrem viel Mühe geben, Daten zu[br]anonymisieren, die werden in der... also 0:07:07.880,0:07:10.970 Zahlen, die in einem Rahmen vom Zensus[br]erfasst werden, werden normalerweise schon 0:07:10.970,0:07:14.509 anonymisiert, wenn sie erhoben werden. Das[br]heißt, da steht nie irgendwie euer Name 0:07:14.509,0:07:20.259 drauf. Und es werden nur aggregierte[br]Zahlen veröffentlicht. Das heißt, in 0:07:20.259,0:07:24.000 diesen Datensätzen, von denen wir reden,[br]da steht normalerweise drin, wie viel es 0:07:24.000,0:07:29.090 von irgendetwas gibt und nicht, was genau[br]es gibt. Das ist auch ein wichtiger Punkt. 0:07:29.090,0:07:33.610 Außerdem dürfen Menschen und Unternehmen[br]nicht nachträglich identifizierbar sein. 0:07:33.610,0:07:40.660 Und das ist so ein bisschen kontroverses[br]Thema. Und da wird auch nächstes Jahr ein 0:07:40.660,0:07:45.820 bisschen was passieren. Weil gerade für[br]Journalistinnen und Journalisten ist es 0:07:45.820,0:07:51.250 halt auch wichtig, Daten über Unternehmen[br]zu kriegen. Und unsere Hauptzielgruppe im 0:07:51.250,0:07:56.530 Moment ist Journalismus. Und die erste[br]Frage, die uns Leute stellen, ist 0:07:56.530,0:08:00.340 normalerweise: Ja, kann ich jetzt hier[br]Bayer in meiner Stadt genauer 0:08:00.340,0:08:05.340 identifizieren und sehen, was sie machen?[br]Und die Antwort ist nein. Also wenn es 0:08:05.340,0:08:09.280 irgendwo in einer Stadt zum Beispiel nur[br]einen Landwirtschaftsbetrieb gibt, dann 0:08:09.280,0:08:12.869 werdet ihr über diese Stadt keine Zahlen[br]zur Landwirtschaft kriegen, weil 0:08:12.869,0:08:17.639 Statistikgeheimnis. Das ist auch ein[br]wichtiger Aspekt, spielt aber bei vielen 0:08:17.639,0:08:23.509 Zahlen auch keine Rolle, die tatsächlich[br]da drin sind. Ja, jetzt habe ich gerade 0:08:23.509,0:08:28.669 schon gesagt: Volkszählung ist ein[br]kontroverses Thema. Und amtliche Statistik 0:08:28.669,0:08:34.019 insgesamt auch, so gesehen. Wenn ihr, wie[br]ich, noch irgendwie die 80er mitgekriegt 0:08:34.019,0:08:37.019 habt, dann könnt ihr euch vielleicht an[br]solche Graffitis erinnern, weil in den 0:08:37.019,0:08:42.129 80ern gab es tatsächlich einen massiven[br]Protest und 81 wurde der Zensus verhindert 0:08:42.129,0:08:48.611 in der BRD und 87 hat er dann nur sehr[br]eingeschränkt stattgefunden. Und die 0:08:48.611,0:08:55.069 Proteste und die Verfassungsklagen, die es[br]damals gab, die sind auch quasi in 0:08:55.069,0:08:58.839 wichtiger... oder eigentlich die Wurzel[br]auch dieser Idee der informationellen 0:08:58.839,0:09:02.759 Selbstbestimmung, die wir heute haben.[br]Also quasi diese Idee von Datenschutz, mit 0:09:02.759,0:09:05.199 der wir hier rumlaufen und sagen, dass wir[br]selber die Kontrolle über unsere 0:09:05.199,0:09:09.489 persönlichen Daten haben, die sind konkret[br]darauf zurückzuführen. Deswegen ist es auf 0:09:09.489,0:09:16.800 jeden Fall auch eine wichtige Diskussion.[br]Für unser Projekt spielt das keine Rolle. 0:09:16.800,0:09:20.939 Wir sehen es so: Die Daten sind jetzt da[br]und die wurden von euch erfasst mit euren 0:09:20.939,0:09:24.779 Steuergeldern. Und es ist wichtig, dass[br]ihr Zugriff auf diese Daten habt. Und 0:09:24.779,0:09:29.389 deswegen machen wir dieses Projekt. Wenn[br]ihr jetzt mit diesen Zahlen arbeiten 0:09:29.389,0:09:34.699 wollt, dann gibt's eine gute und eine[br]schlechte Nachricht. Die gute Nachricht 0:09:34.699,0:09:39.910 ist: Das ist freies Wissen. Also Open[br]Data. Es gibt die Daten-Lizenz 0:09:39.910,0:09:45.569 Deutschland, unter der diese Daten[br]veröffentlicht werden, die erfordert, wenn 0:09:45.569,0:09:48.470 ihr die Daten quasi verwendet und[br]wiederveröffentlicht, dass ihr die Quelle 0:09:48.470,0:09:51.680 nennt, dass in diesem Fall normalerweise[br]die Statistischen Ämter, dass ihr ein 0:09:51.680,0:09:55.779 Verweis auf die Lizenz macht und ein[br]Verweis auf den Datensatz - also 0:09:55.779,0:09:59.680 normalerweise die URL angebt, von wo ihr[br]das heruntergeladen habt. Das - also wenn 0:09:59.680,0:10:02.880 ihr euch ein bisschen mit offenen Lizenzen[br]befasst - das ist so ähnlich wie eine 0:10:02.880,0:10:10.939 Creative Commons CC-BY Lizenz. Das heißt,[br]je nach Anwendungsfall ist es ein bisschen 0:10:10.939,0:10:13.639 problematisch. Also ich habe gestern[br]gelernt, dass man die Daten z.B. nicht in 0:10:13.639,0:10:18.049 Wikidata einspeisen kann, weil es keine[br]CC0 Lizenz ist. Und für viele Anwendungen 0:10:18.049,0:10:24.310 mit Daten wäre natürlich eine CC0 Lizenz[br]besser. Aber das ist nicht der Punkt, wo 0:10:24.310,0:10:29.680 wir ansetzen können. Also wir gucken, dass[br]die Daten möglichst einfach verwendbar 0:10:29.680,0:10:33.959 sind. Und ihr müsst dann eben beachten,[br]dass sie unter der Datenlizenz Deutschland 0:10:33.959,0:10:39.540 veröffentlicht werden und die[br]dementsprechend angeben. Ja, jetzt gibt es 0:10:39.540,0:10:42.829 aber auch eine schlechte Nachricht und die[br]ist, dass mit diesen Daten zu arbeiten gar 0:10:42.829,0:10:52.369 nicht so einfach ist. Und da übergebe ich[br]jetzt an P3nny. 0:10:52.369,0:10:56.410 P3nny: Ich darf aus dem Leidensdruck des[br]Journalisten berichten. Also es ist nicht 0:10:56.410,0:10:59.839 so, dass es komplettes Neuland wäre, dass[br]es keine offenen Datenportale gäbe. Es 0:10:59.839,0:11:04.689 gibt relativ viele davon. Sie sind alle[br]schön und schön unterschiedlich, alle 0:11:04.689,0:11:10.239 lustig aufgebaut. Zur Übersicht: Es gibt[br]das Statistische Bundesamt, dann gibt es 0:11:10.239,0:11:14.209 Destatis, es gibt 14 statistische[br]Landesämter und da drunter Derby Dragons. 0:11:14.209,0:11:18.149 Also es gibt noch Kommunalstatistik,[br]städtisch statistische Ämter und alle 0:11:18.149,0:11:24.439 haben irgendwie ihre eigenen kleinen Dinge[br]- und da durchzusteigen ist auch immer 0:11:24.439,0:11:30.019 spannend, weil sie meistens quasi diese[br]Verwaltungsakte abbilden. Dann gibt's so 0:11:30.019,0:11:34.149 einzelne Anwendungen, wo Dinge ganz[br]besonders gut aufbereitet werden. Aber oft 0:11:34.149,0:11:37.410 ist es so, hier Zensus 2011 ist für[br]Journalisten meistens schon nicht mehr so 0:11:37.410,0:11:44.249 richtig spannend, weil ist ja schon lang[br]vorbei. Oder es gibt solche schönen 0:11:44.249,0:11:49.500 Beispiele, wo sich Menschen in PDFs[br]austoben und wundervolle Torten, Grafiken 0:11:49.500,0:11:54.360 und 3D Diagramme bauen, ich aber mit den[br]Daten wenig anfangen kann. Also wenn ich 0:11:54.360,0:11:57.239 als Journalistin jetzt sagen würde, die[br]sozialversicherungspflichtig 0:11:57.239,0:12:01.520 Beschäftigten, das möchte ich in meiner[br]Veröffentlichung zitieren und möchte 0:12:01.520,0:12:06.790 einfach nur auf meiner Internetseite[br]dieses Diagramm auch mit zeigen, dann muss 0:12:06.790,0:12:10.798 ich ja da hinschreiben, muss die richtige[br]Stelle finden, die dieses PDF erstellt hat 0:12:10.798,0:12:14.410 und muss die darum bitten, mir die Daten[br]zu schicken. Und es ist schon passiert, 0:12:14.410,0:12:19.529 dass sie mir die dann quasi in der[br]E-Mail... also quasi im E-Mail Text habe 0:12:19.529,0:12:24.449 ich dann Daten bekommen - auch nicht so[br]richtig das Format, mit dem wir was 0:12:24.449,0:12:29.219 anfangen können. Unser Lieblingsportal hat[br]Simon vorhin schon gesagt, das ist 0:12:29.219,0:12:35.519 regionalstatistik.de. Das gibt es. Da[br]finden sich auch tatsächlich auf der 0:12:35.519,0:12:40.649 regionalen Ebene - also Bundesländer und[br]drunter, Regierungsbezirke, 0:12:40.649,0:12:44.470 Gemeindebezirke - finden sich die Daten[br]und die dann auch flächendeckend für ganz 0:12:44.470,0:12:47.949 Deutschland oder für ein ganzes[br]Bundesland. Wenn ich da aber dran kommen 0:12:47.949,0:12:52.429 möchte, dann habe ich Schritt 1: Ich gucke[br]mir den Datenkatalog an. Ich gucke, was da 0:12:52.429,0:12:56.641 drin ist. Suche mich irgendwie da durch.[br]Muss halt deren Logik verstehen, wie sie 0:12:56.641,0:13:00.689 das mal angelegt haben. Finde dann[br]irgendwelche Tabellen meistens - auch so: 0:13:00.689,0:13:04.119 Was unterscheidet jetzt die regionale[br]tiefe Kreise von den regionalen Ebenen, 0:13:04.119,0:13:08.170 und so. Das ist viel, was ich verstehen[br]muss. Dann gibt's noch so eine Variablen- 0:13:08.170,0:13:13.749 Auswahl. Dann muss ich das genauer[br]spezifizieren. Dann kann ich endlich diese 0:13:13.749,0:13:17.170 Tabelle abrufen und kriege dann den[br]Hinweis: Diese können Sie jetzt nicht 0:13:17.170,0:13:20.101 abrufen. Sie wollen zu viele Daten[br]abrufen. Sie müssen sich erst mal Konto 0:13:20.101,0:13:23.809 erstellen. Dann erstelle ich mir dieses[br]Konto. Dann mache ich diesen Werteabruf, 0:13:23.809,0:13:30.790 dann warte ich und irgendwann landet eine[br]Tabelle in meinem Postfach und ich bekomme 0:13:30.790,0:13:36.758 eine Tabelle, die sehr gut dafür geeignet[br]ist, in A4 ausgedruckt zu werden. Das 0:13:36.758,0:13:40.579 heißt, sie hat, das ist mit das[br]Allerschlimmste, sie hat diese komischen 0:13:40.579,0:13:46.179 Header, also so verschachtelte Dinger, wo[br]ich dann quasi, wenn ich als Journalistin 0:13:46.179,0:13:48.949 - also entweder fange ich als Journalistin[br]an und versuche, das irgendwie in Excel 0:13:48.949,0:13:51.509 dann zu bereinigen und so und auch die[br]Journalisten merken langsam, dass das 0:13:51.509,0:13:56.570 nicht der beste Weg ist, alle drei Monate[br]bei - was weiß ich, Quartals Statistiken - 0:13:56.570,0:13:58.609 das immer wieder in Excel machen zu[br]müssen. Das heißt, ich als Journalistin 0:13:58.609,0:14:02.779 geh hin, mache eine Python für Dummies[br]Kurs oder sowas und möchte dann mal was 0:14:02.779,0:14:07.810 mit offenen Daten machen. Treffe dann auf[br]diese Daten, lade mir die runter als CSV- 0:14:07.810,0:14:11.439 Datei und dann kriege ich schon den ersten[br]Error, weil das sind keine CSV Dateien, 0:14:11.439,0:14:14.829 sondern Semikolon separierte Werte, weil[br]Deutsch. Wir haben also einen 1000er 0:14:14.829,0:14:18.610 Trennzeichen, das ein Komma ist. Wenn ich[br]dieses Problem gelöst habe, laufe ich 0:14:18.610,0:14:24.399 gegen die... Also ist das keine UTF 8[br]sondern eine ISO88591 Kodierung. Das 0:14:24.399,0:14:28.839 heißt, erstmal sind alle Ös und Äs kaputt.[br]Dann muss ich noch das Problem mit dem 0:14:28.839,0:14:33.669 Header lösen. Das heißt, meistens muss ich[br]den Header ganz rausschmeißen und einmal 0:14:33.669,0:14:37.600 die Zeilen irgendwie selber benennen, was[br]auch eine Fehlerquelle ist. Und dann, wenn 0:14:37.600,0:14:42.250 ich jetzt, sagen wir mal, die unter 3[br]Betreuungskinder auf eine Karte mappen 0:14:42.250,0:14:46.079 wollte, dass ich so eine Karte habe, dass[br]da wo die meisten u3 betreut sind - 0:14:46.079,0:14:49.410 eigentlich will ich ja wahrscheinlich auch[br]den Anteil an der Bevölkerung haben, 0:14:49.410,0:14:52.470 Bevölkerung gesamt ist da nicht drin, die[br]muss ich mir dann von woanders her holen, 0:14:52.470,0:14:57.579 männlich-weiblich zusammenrechnen, den[br]Anteil ausrechnen - es ist ein relativ 0:14:57.579,0:15:03.109 aufwandreicher Prozess, den ich da machen[br]muss. Ach so genau. Und hier sind auch 0:15:03.109,0:15:06.369 tatsächlich nicht nur die Gemeindeebenen[br]drin, sondern meistens auch das Bundesland 0:15:06.369,0:15:09.790 und die darüber liegenden Ebenen, d.h. die[br]muss ich auch erstmal wieder 0:15:09.790,0:15:13.519 rausschmeißen, damit ich nur meine[br]Gemeinden habe und die dann auf die Karte 0:15:13.519,0:15:18.579 bringen kann. Und manchmal sagen die auch:[br]Wir nehmen euch Arbeit ab und machen 0:15:18.579,0:15:22.939 selber Visualisierungen. Da kommen dann[br]manchmal solche Dinge bei raus. Wir haben 0:15:22.939,0:15:26.730 noch nicht ganz rausgekriegt, was uns das[br]sagen soll. Also das funktioniert noch 0:15:26.730,0:15:45.659 nicht so richtig gut. Und da kommt der[br]Datenguide ins Spiel und löst dieses Problem. 0:15:45.659,0:15:48.719 Simon: Genau. Was wir machen, ist: Wir 0:15:48.719,0:15:52.069 lösen dieses Problem für euch. Also dieses[br]Problem, dass Patricia jetzt beschrieben 0:15:52.069,0:15:57.889 hat, hoffentlich, perspektivisch. Was wir[br]machen, ist, wir importieren quasi alle 0:15:57.889,0:16:03.499 Daten und alle Daten, die jetzt in diesem[br]Fall in dem regionalstatistik.de Portal 0:16:03.499,0:16:11.919 sind. Und dann bieten wir sie über eine[br]moderne JSON-API an und bauen dann quasi 0:16:11.919,0:16:15.050 ein - ich sag mal ein alternatives Daten[br]Portal. Das ist eine Website, die bauen 0:16:15.050,0:16:25.470 wir dann quasi on top auf diese Daten-[br]Schnittstelle und diese Plattform, die sieht 0:16:25.470,0:16:30.859 ungefähr so aus. Ich kann euch das auch[br]live zeigen. Ich habe das jetzt nur glaube 0:16:30.859,0:16:37.639 ich nicht offen und wir sind noch nicht[br]online. Es ist alles so ein bisschen frühe 0:16:37.639,0:16:45.169 Alpha. Wir sind so ein bisschen online,[br]aber mit kryptischer URL in so einem 0:16:45.169,0:17:00.357 Preview irgendwo. Muss ich mir grad mal[br]angucken. 0:17:00.357,0:17:07.580 P3nny: Ich schwöre, hier war ein Bug[br]irgendwo. Hier lief ein Bug rum und jetzt 0:17:07.580,0:17:17.380 ist er weg. Wahrscheinlich ist er jetzt[br]bei dir. 0:17:17.380,0:17:20.939 Simon: Okay, also das ist, wie unser[br]Prototyp im Moment aussieht. Es ist 0:17:20.939,0:17:24.569 einfach eine Website, da werden ein paar[br]Orte gefeatured, wo irgendwas interessant 0:17:24.569,0:17:29.520 ist. Ansonsten haben wir hier eine Suche,[br]wo ihr den Namen eurer Stadt oder eures 0:17:29.520,0:17:34.140 Landkreises eingeben könnt. Also für diese[br]Oberfläche arbeiten wir im Moment mit 0:17:34.140,0:17:39.360 Städten und Landkreisen, mit so ungefähr[br]400 Entitäten oder so in Deutschland und 0:17:39.360,0:17:43.160 in dem Datensatz sind auch Gemeinden drin.[br]Aber dann reden wir gleich über, ich 0:17:43.160,0:17:47.259 glaube, 15 000 oder so. Und im Moment[br]machen wir es uns einfach und gucken uns 0:17:47.259,0:17:52.070 einfach Städte und Landkreise an. Also[br]wenn wir hier einen Ort suchen, zum 0:17:52.070,0:18:01.750 Beispiel Leipzig. Ja, genau, dann sehen[br]wir erst einmal: Es gibt Leipzig Stadt und 0:18:01.750,0:18:05.630 Leipzig Landkreis, also quasi der[br]Landkreis drumrum. Wir gucken uns mal die 0:18:05.630,0:18:12.861 Stadt Leipzig an und dann sehen wir hier[br]Leipzig. Und dann haben wir hier so ein 0:18:12.861,0:18:17.770 bisschen generischen Text. Den importieren[br]wir im Moment von Wikipedia, wollen wir 0:18:17.770,0:18:23.470 aber perspektivisch selber generieren, auf[br]Basis der Daten, die da drin sind. Und 0:18:23.470,0:18:28.990 dann sehen wir hier so ein paar[br]Datensätze, die wir schon, die wir jetzt 0:18:28.990,0:18:32.490 mal so, ich sag mal prototypisch[br]aufbereitet haben. Die sind hier... 0:18:32.490,0:18:38.440 Leipzig hat irgendetwas um die 500 000[br]Einwohner 2017, 300 Quadratkilometer 0:18:38.440,0:18:44.380 Fläche. Dann haben wir hier eine einfache[br]Visualisierung, wo wir Leipzig mal mit 0:18:44.380,0:18:47.799 München vergleichen. Hier sehen wir, das[br]Münchner deutlich höhere 0:18:47.799,0:18:52.090 Bevölkerungsdichte hat als Leipzig. Und[br]dann können wir hier so ein paar Sachen 0:18:52.090,0:18:56.250 machen. Wir können uns hier die Zahlen zu[br]diesem Datensatz angucken und dann sehen 0:18:56.250,0:18:59.448 wir schon, das ist eine sehr einfache[br]Tabelle, die hat einfach nur ein paar 0:18:59.448,0:19:02.610 Spalten. Jede Spalte hat eine klare[br]Beschriftung und das ist halt was, das 0:19:02.610,0:19:06.460 können wir einfach als CSV runterladen und[br]in beliebigen Programmen weiterverwenden. 0:19:06.460,0:19:17.130 Und gleichzeitig haben wir hier auch eine[br]GraphQL-Query. Das ist quasi eine Daten... 0:19:17.130,0:19:20.779 ich sage mal eine API Abfrage. Also mit[br]GraphQL, also mit so einer 0:19:20.779,0:19:25.289 Datenschnittstelle kann man einfache[br]einfache Queries schreiben. Man kann sich 0:19:25.289,0:19:30.889 das so vorstellen, dass man da eine leere[br]JSON Datei hinschickt, die beschreibt, 0:19:30.889,0:19:34.250 welche Daten ihr wollt. In der sind nur[br]die Keys drin und dann kriegt ihr eine 0:19:34.250,0:19:37.430 JSON Datei zurück, da sind zu den Keys[br]auch die Values drin. Das heißt, es ist 0:19:37.430,0:19:41.659 eine sehr einfache Art und Weise, zu[br]spezifizieren, welche Daten ihr sehen 0:19:41.659,0:19:46.121 wollt. Deswegen experimentieren wir im[br]Moment mit GraphQL. Es ist auch so ein 0:19:46.121,0:19:48.690 bisschen alles im Fluss. Also wir haben[br]schon quasi die Version... also hier sieht 0:19:48.690,0:19:51.750 man die Version 1 unserer Schnittstelle.[br]Wir arbeiten im Moment an einer zweiten 0:19:51.750,0:19:55.120 Version, weil wir halt festgestellt haben,[br]dass verschiedene Dinge dann doch nicht so 0:19:55.120,0:20:00.950 funktionieren, wie wir uns das vorstellen.[br]Aber API Design ist auch nicht einfach. 0:20:00.950,0:20:05.639 Hier gibt's dann eben die Möglichkeit, das[br]CSV runterzuladen oder in so einem 0:20:05.639,0:20:12.240 interaktiven Tool dieses GraphQL zu[br]testen, um quasi... naja, also wenn ihr 0:20:12.240,0:20:18.669 seht: Ah, das ist ja schön, aber ich will[br]Leipzig nicht mit München, sondern mit dem 0:20:18.669,0:20:23.440 Bundesland Sachsen vergleichen. Dann könnt[br]ihr hier quasi unseren Query Builder 0:20:23.440,0:20:28.879 benutzen und euch selber was bauen und[br]direkt das Ergebnis sehen. Darauf gehe ich 0:20:28.879,0:20:32.021 gleich noch ein bisschen ein. Hier sehen[br]wir noch so ein paar andere Beispiele. 0:20:32.021,0:20:35.599 Da haben wir einfach mal experimentiert [br]mit Daten. Hier haben wir noch die 0:20:35.599,0:20:41.100 Bevölkerungsverteilung nach Altersgruppen.[br]Und die Ergebnisse der letzten Europawahl 0:20:41.100,0:20:48.430 Das sind auch so ein paar Beispiele. Sieht[br]man, was da an Daten drinsteckt. Ja. Also 0:20:48.430,0:20:52.820 wie gesagt, das ist einfach nur ein[br]Prototyp im Moment. Da kann man eben 0:20:52.820,0:20:58.030 sehen, wie das grundsätzlich aussehen[br]kann. Wir sehen hier, dass... wir haben 0:20:58.030,0:21:02.210 hier so eine Übersicht über alle Städte[br]und Landkreise in Deutschland, sortiert 0:21:02.210,0:21:06.430 nach Bundesland. Und wenn ich jetzt hier[br]irgendetwas Beliebiges herausgreife - 0:21:06.430,0:21:11.929 Deggendorf in Bayern - dann sehen wir,[br]dass wir ja, hier ist quasi das Gleiche. 0:21:11.929,0:21:18.090 Genauso für Deggendorf. Das ist im Moment,[br]was wir machen. Und das ist so ein 0:21:18.090,0:21:23.409 Komplex, an dem wir arbeiten, der quasi[br]auf der einen Seite zeigen soll, was es an 0:21:23.409,0:21:27.409 Daten da drin gibt, euch einfache Tools[br]geben soll, diese Daten runterzuladen, 0:21:27.409,0:21:31.490 ohne dass ihr euch mit GraphQL[br]auseinandersetzen müsst. Auf der anderen 0:21:31.490,0:21:35.070 Seite soll es auch die Möglichkeit sein,[br]eben den Start zu finden in unsere 0:21:35.070,0:21:40.909 Datenschnittstelle und...[br]P3nny: Perspektivisch würden wir uns da 0:21:40.909,0:21:46.460 schon auch noch vorstellen, dass nicht[br]überall bei allem das Gleiche angezeigt 0:21:46.460,0:21:49.309 wird, sondern wir können ja dann auch eine[br]gewisse Logik dran machen. Also zeig mir 0:21:49.309,0:21:52.759 die Stadt.... also ich habe die[br]Gesamtstatistik über Leipzig und ich zeige 0:21:52.759,0:21:57.830 mir die drei Statistiken, wo Leipzig[br]entweder in den Top5 oder in den Low 5 ist im 0:21:57.830,0:22:03.600 Vergleich zum Bundesland, im Vergleich zum[br]Bundesschnitt oder so.. Ne, um halt 0:22:03.600,0:22:07.110 quasi so für die Journalisten zu sagen:[br]Das sind die spannenden Dinge. Und 0:22:07.110,0:22:10.410 gleichzeitig aber auch den Eisberg[br]darunter: Also das sind alle Daten, weil 0:22:10.410,0:22:14.179 ich jetzt eine bestimmte Frage habe,[br]irgendwie anzubieten. 0:22:14.179,0:22:26.310 Simon: Okay. Ja, jetzt hab ich ja gesagt,[br]wir haben diese Datenschnittstelle. Und 0:22:26.310,0:22:29.891 ich hab euch auch diese Website gezeigt,[br]die wir aus der Datenschnittstelle 0:22:29.891,0:22:35.250 speisen. Aber diese Datenschnittstelle,[br]die ist nicht nur Mittel zum Zweck, um 0:22:35.250,0:22:39.440 diese Website zu bauen, sondern unsere[br]Idee ist eigentlich, dass diese Website, 0:22:39.440,0:22:43.839 die wir haben, dieses Daten-Portal, dass[br]das quasi ein Anwendungsfall ist für diese 0:22:43.839,0:22:46.776 Schnittstelle, um zu zeigen, was man damit[br]machen kann. Aber wir möchten eigentlich, 0:22:46.776,0:22:50.330 dass ihr diese Schnittstelle verwendet für[br]andere Dinge. Auf Basis von dieser 0:22:50.330,0:22:55.070 GraphQL-Schnittstelle sollte man zum[br]Beispiel möglichst… relativ einfach eine 0:22:55.070,0:22:59.500 Python-Bibliothek schreiben können, z.B.[br]damit ihr in euren Datenauswertungen mit 0:22:59.500,0:23:05.059 Python direkt auf amtliche Statistikdaten[br]zugreifen könnt. Oder ein R-Package, damit 0:23:05.059,0:23:09.940 Leute, die quasi statistisch mit R[br]arbeiten, vielleicht an einer Hochschule 0:23:09.940,0:23:16.110 oder Journalisten, dass die quasi auf[br]diese Daten direkt in R zugreifen können, 0:23:16.110,0:23:19.899 ohne dass sie sich jedesmal durch dieses[br]Datenportal klicken müssen und sich eine 0:23:19.899,0:23:24.809 CSV-Datei runterladen, die sie dann erst[br]einmal aufräumen müssen. Und man kann sich 0:23:24.809,0:23:28.077 da alles mögliche überlegen, denke ich,[br]auf Basis dieser API. Wir haben auch 0:23:28.077,0:23:32.279 gestern schon über Twitter Bots gesprochen[br]und alle möglichen anderen lustigen Dinge. 0:23:32.279,0:23:38.340 Und ich würde euch einfach einladen, damit[br]ein bisschen zu experimentieren. Ich zeige 0:23:38.340,0:23:42.971 euch jetzt mal ein bisschen, wie so ein[br]Query funktioniert, weil es tatsächlich 0:23:42.971,0:23:47.499 relativ einfach, es ist zumindest relativ[br]einfach, mal eine einfache Query zu 0:23:47.499,0:23:55.640 schreiben. Hier sehen wir so ein Beispiel[br]für eine Abfrage. Ich werde es jetzt 0:23:55.640,0:23:59.819 gleich mal replizieren. Ich muss mir nur[br]hier nochmal angucken, wie das aussieht. 0:23:59.819,0:24:12.380 Also, wir haben hier diese Schnittstelle[br]oder diese, ich sage mal diese grafische 0:24:12.380,0:24:16.289 Oberfläche für unsere Datenschnittstelle.[br]GraphQL funktioniert normalerweise so, 0:24:16.289,0:24:20.830 wenn man irgendwo ein GraphQL Server[br]betreibt, dann kommt automatisch so ein 0:24:20.830,0:24:25.741 graphisches Interface mit, damit man[br]Queries einfacher ausprobieren kann. Das 0:24:25.741,0:24:29.736 ist quasi ein Debugging-Tool, wenn ihr so[br]wollt oder ein Werkzeug, um euch ein 0:24:29.736,0:24:33.429 bisschen mit eurer API zu befassen. Und[br]das ist normalerweise direkt eingebaut in 0:24:33.429,0:24:36.970 so ne Schnittstelle. Und bei uns ist das[br]auch der Fall und ich habe das hier jetzt 0:24:36.970,0:24:40.710 schon mal ausgefüllt. Sehen wir, wenn wir[br]so eine einfache Query machen, dann fragen 0:24:40.710,0:24:44.431 wir erst einmal nach Regions. Also Regions[br]sind quasi alle Regionen, die wir in 0:24:44.431,0:24:48.210 Deutschland haben. Wenn ich jetzt hier auf[br]Play drücke, also wenn ich hier mal Name 0:24:48.210,0:24:51.720 reinschreibe und hier auf Play drücke,[br]dann dauert es sehr lange, weil er dann 0:24:51.720,0:24:54.980 irgendwie durch unsere Datenbank geht und[br]für 15 000 Entities oder so den Namen 0:24:54.980,0:24:59.149 raussucht. Deswegen werde ich das jetzt[br]erst einmal nicht machen. Ich werde das 0:24:59.149,0:25:04.879 erstmal ein bisschen einschränken. Und[br]jetzt gibt's hier schon eine interessante 0:25:04.879,0:25:10.970 Sache. Und zwar steht hier, stehen zwei[br]Dinge: "parent" und "nuts". Und "nuts" ist 0:25:10.970,0:25:22.070 eine interessante Sache. Das ist ja ein[br]Standard für eindeutige... ein Standard 0:25:22.070,0:25:28.009 dafür, regionale Einheiten zu beschreiben.[br]Das heißt, wenn man in der EU verschiedene 0:25:28.009,0:25:31.679 Städte miteinander vergleichen will, dann[br]gibt's halt so einige Begriffe wie 0:25:31.679,0:25:35.399 Großstadt, Landkreis. Ne, keine Ahnung.[br]In Frankreich gibt es keine Landkreise. 0:25:35.399,0:25:38.379 Aber wenn man Dinge miteinander[br]vergleichen will, dann gibt es dafür eben 0:25:38.379,0:25:42.160 einen Standard. Und da gibt's den NUTS-[br]Standard und da gibt's verschiedene NUTS- 0:25:42.160,0:25:51.190 Levels. Und wenn wir jetzt alle größeren[br]Städte und Landkreise sehen wollen, dann 0:25:51.190,0:25:58.529 ist es z.B. der NUTS-Level 3 in[br]Deutschland. Ich schreib hier "nuts: 3" 0:25:58.529,0:26:04.090 und drücke auf Start. Und dann sehen wir,[br]wir kriegen hier irgendwie alle Städte und 0:26:04.090,0:26:09.009 Landkreise in Deutschland. Ja, Starnberg,[br]schön, Ravensburg, Biberach. Also man 0:26:09.009,0:26:14.491 sieht, die sind auch irgendwie so ein[br]bisschen sortiert da drin. Wenn ich jetzt 0:26:14.491,0:26:19.070 quasi nur alle Städte und Landkreise in[br]einem Bundesland sehen will, dann kann ich 0:26:19.070,0:26:22.649 das auch weiter spezifizieren. Und zwar[br]kann ich immer eine höhere Einheit 0:26:22.649,0:26:30.020 spezifizieren in dieser API. Und das heißt[br]"parent" in der API. Das heißt, ich will 0:26:30.020,0:26:35.960 alles unterhalb von einem Parent. Und ich[br]zeige es jetzt mal anhand vom Saarland. 0:26:35.960,0:26:39.789 Saarland ist mein Lieblings-Bundesland,[br]wenn man mit so statistischen Daten 0:26:39.789,0:26:43.239 arbeitet. Saarland ist immer schön[br]übersichtlich. Gab's nicht so viele 0:26:43.239,0:26:48.989 Gemeindereformen, gibt auch nicht so viele[br]Landkreise. Es ist super, ja, 1a 0:26:48.989,0:26:54.809 Bundesland. So und jetzt sehen wir hier[br]quasi eine Einschränkung: Das sind alle 0:26:54.809,0:26:59.121 Städte und Landkreise im Saarland. Und[br]jetzt können wir uns mal noch so ein 0:26:59.121,0:27:05.100 bisschen andere Dinge angucken. Jetzt gebe[br]ich mal hier... wir haben eine ID für jede 0:27:05.100,0:27:12.039 Einheit und die ID, das sehen wir, die[br]fängt auch immer mit 10 an, genau wie das 0:27:12.039,0:27:15.809 Bundesland. Das ist keine ID, die wir uns[br]überlegt haben, sondern das ist der 0:27:15.809,0:27:20.889 sogenannte Gemeindeschlüssel, den wir in[br]Deutschland haben. Es ist quasi ein 0:27:20.889,0:27:25.460 eindeutiger Bezeichner für jede Stadt,[br]jede Gemeinde, jeden Landkreis. Die haben 0:27:25.460,0:27:31.659 alle solche Nummern. Und anhand von diesen[br]kann man hier sehr gut arbeiten. Also ich 0:27:31.659,0:27:35.399 könnte jetzt auch eine Region anhand von[br]Ihrer ID raussuchen. Mache ich jetzt 0:27:35.399,0:27:38.920 erstmal nicht. Können wir nachher noch[br]machen. Ich will jetzt auch ein paar 0:27:38.920,0:27:45.630 statistische Daten sehen. Und dann habe[br]ich hier in diesem Beispiel, sieht man 0:27:45.630,0:27:51.313 hier: Das wird dann ein bisschen[br]kryptisch. Und da verwenden... haben wir 0:27:51.313,0:27:54.340 uns auch nicht selber etwas ausgedacht.[br]Das heißt, wir haben versucht, uns das 0:27:54.340,0:27:57.580 selber auszudenken in der ersten Version[br]von unserer API und haben dann eben 0:27:57.580,0:28:01.500 festgestellt, dass es sehr viel erstens[br]redaktioneller Aufwand ist und es geht 0:28:01.500,0:28:05.140 dann auch irgendwann ganz schnell kaputt,[br]weil wir uns vielleicht auch nicht so gut 0:28:05.140,0:28:09.559 auskennen wie die Leute, die die amtliche[br]Statistik machen. Weil, naja, wenn es 0:28:09.559,0:28:15.149 einfach wäre, dann hätte man, hätten die[br]es auch einfacher gemacht wahrscheinlich. 0:28:15.149,0:28:18.990 Und deswegen verwenden jetzt in der[br]aktuellen Version von unserer API, an der 0:28:18.990,0:28:22.510 wir jetzt arbeiten, quasi direkt die[br]Identifier, die auch die Statistischen 0:28:22.510,0:28:29.889 Ämter verwenden. Dadurch wird es[br]einfacher, diese Sachen nachzuvollziehen. 0:28:29.889,0:28:33.369 Und auch wenn ihr quasi einen[br]tatsächlichen Datensatz habt, irgendwie in 0:28:33.369,0:28:37.460 regionalstatistik.de, den dann hinterher[br]bei uns rauszusuchen. Das heißt aber auch, 0:28:37.460,0:28:42.159 Ihr müsst irgendwie wissen, wofür diese[br]Codes stehen. Und hier gibt's eine super 0:28:42.159,0:28:48.950 Vorschlagsuche, quasi. Wenn ich hier[br]anfange, irgendetwas zu tippen, dann sehe 0:28:48.950,0:28:54.520 ich hier verschiedene Vorschläge und hier[br]unten sehe ich dann auch eine Erklärung, 0:28:54.520,0:28:58.740 was das ist. Das heißt, wir haben uns[br]schon ein bisschen Mühe gegeben, dass man 0:28:58.740,0:29:02.640 sich das so ein bisschen erschließen kann,[br]was da drin ist. Und ich glaube, das war 0:29:02.640,0:29:08.019 jetzt BEVMK, das sind von Scheidungen[br]betroffene Kinder. Und wenn ich jetzt hier 0:29:08.019,0:29:12.090 draufklicke, dann kriege ich hier auch so[br]eine Doku. Das ist jetzt bei diesem 0:29:12.090,0:29:17.389 Datensatz sehr einfach. Da sehen wir[br]einfach, aus welcher Statistik der kommt. 0:29:17.389,0:29:22.740 Das ist die "Statistik rechtskräftiger[br]Urteile in Ehesachen", Nummer 12631. Das 0:29:22.740,0:29:25.499 heißt, anhand davon könnt ihr die[br]wahrscheinlich dann auch in 0:29:25.499,0:29:29.529 regionalstatistik.de raussuchen. Oder wenn[br]ihr beim Statistischen Bundesamt anrufen 0:29:29.529,0:29:33.539 müsst, dann wissen die auch, worum es[br]geht. Aber wir wollen ja eigentlich, dass 0:29:33.539,0:29:38.870 ihr da nicht anrufen müsst. Deswegen geben[br]wir die jetzt einfach mal so aus. Sehen 0:29:38.870,0:29:45.519 wir, das ist hier rot markiert. Und dann[br]sagt er: Ich hab irgendwas vergessen. Wie 0:29:45.519,0:29:52.440 hieß es? Drei. Und jetzt sehen wir, das[br]ist immer noch rot. Dann sagt er: Das muss 0:29:52.440,0:29:56.679 eine Unterauswahl haben. Also mache ich[br]mal eine Unterauswahl. Und wir sehen schon 0:29:56.679,0:30:02.470 hier auf der von euch aus gesehen linken[br]Seite, dass... von euch aus gesehen 0:30:02.470,0:30:07.240 rechten Seite... ist die gleiche Seite wie[br]bei mir auch am Bildschirm, eigentlich 0:30:07.240,0:30:11.280 easy. Auf der rechten Seite seht ihr, was[br]man da so machen kann und da sehen wir, 0:30:11.280,0:30:15.619 wir können Jahr und einen Wert abrufen und[br]auch die Quelle. Ich mache das jetzt 0:30:15.619,0:30:22.650 einfach mal, geb hier mal Value ein. Drück[br]auf Play und dann sehen wir, wir kriegen 0:30:22.650,0:30:27.001 hier irgendwie so eine Liste, da sind[br]Werte drin. Irgendwie für jede einzelne 0:30:27.001,0:30:30.979 Stadt, jeden einzelnen Landkreis. Da macht[br]es noch nicht so viel Sinn, weil das sind 0:30:30.979,0:30:36.700 halt Werte für ein Jahr. Deswegen geben[br]wir uns zusätzlich noch das Jahr aus und 0:30:36.700,0:30:41.809 dann sehen wir hier quasi einen Datensatz[br]für jedes Jahr. Den könnte man jetzt 0:30:41.809,0:30:46.804 wahrscheinlich auch noch so ein bisschen[br]sortieren und so... Das sind alles jetzt 0:30:46.804,0:30:50.619 nur so API Design Sachen, an denen wir[br]arbeiten. Aber grundsätzlich seht ihr, wie 0:30:50.619,0:30:55.900 das funktioniert. Und genauso könnt ihr[br]eben anhand von diesem Schlüssel, den wir 0:30:55.900,0:31:00.980 hier haben, auch Daten für einen[br]einzelnen, für eine einzelne Stadt 0:31:00.980,0:31:05.419 abrufen. Das heißt, das hier ist mehr so[br]eine Bulkabfrage, wo wir quasi sehr viele 0:31:05.419,0:31:11.240 Daten kriegen über alle Städte und[br]Landkreise in einem Bundesland. Aber wir 0:31:11.240,0:31:18.539 können jetzt auch sehr detailliert nach[br]einem einzelnen Wert fragen. Zum Beispiel 0:31:18.539,0:31:22.120 kann ich hier jetzt das Ganze für[br]Saarbrücken machen. Also wir sehen, 0:31:22.120,0:31:37.039 Saarbrücken hat die ID 10041 und dann kann[br]ich hier eingeben: ID. Whoa. Also ist alles 0:31:37.039,0:31:43.380 auch noch ein bisschen Alpha, ne... 10041[br]und wir geben jetzt einfach mal 0:31:43.380,0:31:47.580 spaßeshalber die gleichen Werte aus. Und[br]dann sehen wir, wir kriegen jetzt eine 0:31:47.580,0:31:51.780 Antwort, quasi eine JSON Datei und die[br]enthält jetzt nur die Werte für 0:31:51.780,0:31:55.529 Saarbrücken. Und wenn wir jetzt ein[br]genaues Jahr wollen, sagen wir, wir 0:31:55.529,0:32:04.009 wollen 2014, dann kann ich das hier auch[br]weiter nach dem Jahr filtern. Ja, und 0:32:04.009,0:32:10.369 jetzt kriegen wir einfach nur den Wert[br]zurück für 2014. Und so kann man eben 0:32:10.369,0:32:14.320 beliebige andere Statistiken auch[br]abfragen. Es ist sehr einfach für 0:32:14.320,0:32:18.539 Datensätze, die sehr einfach sind, so wie[br]der. Es gibt in der Praxis auch sta– äh, 0:32:18.539,0:32:22.539 statistische Datensätze, die sind[br]irgendwie hoch verschachtelt. Wir haben ja 0:32:22.539,0:32:27.970 vorhin auch so eine Tabelle gesehen, wo[br]sie dann versucht haben, diese Tabelle 0:32:27.970,0:32:31.461 quasi, also diese verschachtelten Daten[br]irgendwie zweidimensional in einer Tabelle 0:32:31.461,0:32:34.730 darzustellen. Und dann kommt irgendwas[br]raus, was man nicht mehr... also was man 0:32:34.730,0:32:38.261 nicht mehr mit einem Computer verarbeiten[br]kann, sondern nur noch auf A4 ausdrucken. 0:32:38.261,0:32:43.119 Und für diese komplexeren Sachen muss man[br]sich das dann ein bisschen genauer 0:32:43.119,0:32:47.029 angucken, wie die Dinge halt ineinander[br]verschachtelt sind. Aber grundsätzlich 0:32:47.029,0:32:52.000 sollte man das alles irgendwie hier aus[br]der API rauskriegen. Also wenn wir hier 0:32:52.000,0:33:00.330 diese BEVMK-Sache suchen. Also ich habe[br]gerade gesehen, da sind jetzt nicht so 0:33:00.330,0:33:04.340 viele Dinge drin, aber wenn wir uns[br]irgendwas anderes raussuchen, dann sehen 0:33:04.340,0:33:08.480 wir, hier gibt's z.B. nen komplexeren[br]Datensatz. Da kann man jetzt noch 0:33:08.480,0:33:13.750 irgendwelche Auswahl treffen. Nur[br]Kinder, die im Januar geboren wurden oder 0:33:13.750,0:33:19.309 nur Kinder, die im Februar geboren wurden[br]und so.. Ja, also ich denke, ihr versteht, 0:33:19.309,0:33:26.360 worum es geht. Wir haben jetzt ein[br]bisschen Zeit. Ich würde das jetzt hier 0:33:26.360,0:33:31.739 für Fragen öffnen und wenn ihr ganz[br]konkrete Fragen habt oder Ideen habt 0:33:31.739,0:33:37.789 dafür, was man damit machen kann - oder[br]wenn ihr vielleicht Interesse habt, an so 0:33:37.789,0:33:42.799 einem Open-Source-Projekt mitzuarbeiten,[br]dann können wir ja gerne nachher ein 0:33:42.799,0:33:47.389 bisschen quatschen. Also da gibt's viele[br]Dinge, die man machen kann oder die wir 0:33:47.389,0:33:54.559 für das nächste Jahr geplant haben. Also[br]wir haben einen fröhlichen Haufen Python- 0:33:54.559,0:34:00.360 und JavaScript-Code und wir haben auch[br]redaktionelle Aufgaben. Also ich sag mal 0:34:00.360,0:34:03.230 so, Fragestellungen, wo man sich mal so[br]ein bisschen Statistik angucken kann oder 0:34:03.230,0:34:06.909 so ein bisschen mit uns überlegen, wie man[br]jetzt irgendwas besonders gut darstellen 0:34:06.909,0:34:10.700 kann oder wie man irgendwas besonders gut[br]erklären kann - das ist dann eher 0:34:10.700,0:34:16.179 Patricias Thema und wir haben für nächstes[br]Jahr geplant, dass wir einen größeren 0:34:16.179,0:34:20.379 Hackathon organisieren. Vermutlich in[br]Berlin und vermutlich irgendwann noch vor 0:34:20.379,0:34:25.230 der Europawahl, eventuell auch mit einem[br]Schwerpunkt auf Daten aus der Europawahl. 0:34:25.230,0:34:29.369 Weil hier drin sind eben auch sehr viele[br]historische Wahlergebnisse und auch so 0:34:29.369,0:34:32.892 Sachen wie Wahlbeteiligung. Und die sind[br]schon aufgelöst nach Gemeinden und 0:34:32.892,0:34:36.091 Städten, d.h. da kann man sehr[br]interessante Dinge damit machen, weil man 0:34:36.091,0:34:42.258 die eben dann sehr gut.... keine Ahnung,[br]Arbeitsmarktstatistik mit Wahlergebnissen 0:34:42.258,0:34:45.447 oder so vergleichen kann. Das macht[br]vielleicht nicht so wahnsinnig viel Sinn, 0:34:45.447,0:34:49.549 aber da kann man sich sicher sinnigere[br]Dinge überlegen. Ihr findet uns auf 0:34:49.549,0:34:54.619 Twitter und auf GitHub unter @datenguide[br]und ihr findet die Slides für diesen 0:34:54.619,0:35:00.160 Vortrag unter dieser URL:[br]downloads.datengui.de/35c3. Ich werde es 0:35:00.160,0:35:05.380 nachher nochmal irgendwie vertwittern oder[br]sonstwie posten und ansonsten - 0:35:05.380,0:35:08.916 Fragen von euch! 0:35:08.916,0:35:16.390 Applaus 0:35:16.390,0:35:20.220 Q: Ja, hört man mich? Vielen Dank erst[br]einmal für den Vortrag. Ich habe gesehen, 0:35:20.220,0:35:24.640 das ist eine Python-Flask-App, wenn ich[br]richtig gesehen habe. Also erst einmal 0:35:24.640,0:35:30.580 Gratulation dafür - eine sehr gute Wahl![br]Mich würde noch interessieren, man hat ja 0:35:30.580,0:35:33.968 einige Daten gesehen, einige[br]Beispieldaten. Wir hatten z.B. das Jahr, 0:35:33.968,0:35:37.700 das war aber ein String. Verarbeitet ihr[br]die Sachen irgendwie noch weiter oder ist 0:35:37.700,0:35:41.878 das einfach nur dadurch, dass es aus einer[br]CSV kommt, erst einmal als String einfach 0:35:41.878,0:35:45.951 reingepastet?[br]Simon: Ja, also es ist so durch ein paar 0:35:45.951,0:35:49.120 Iterationen gegangen und das, was wir[br]jetzt gesehen haben, das wird tatsächlich 0:35:49.120,0:35:54.360 automatisch generiert auf Basis von den[br]Daten, die da rauskommen. Und ja, es ist 0:35:54.360,0:35:57.470 im Moment noch so ein bisschen[br]inkonsistent. Also man hat auch, wenn man 0:35:57.470,0:36:02.660 noch genauer aufgepasst hat, gesehen, dass[br]dieser NUTS-Level z.B. war ein Integer, 0:36:02.660,0:36:07.640 aber andere Sachen sind halt Zahlen. Ob[br]jetzt ein Jahr eine Zahl ist oder ein 0:36:07.640,0:36:13.599 String... Ja, ich denke, wir sind dabei,[br]das noch auszuknobeln. Wir haben jetzt im 0:36:13.599,0:36:17.799 Moment den Ansatz gewählt, möglichst wenig[br]der Daten irgendwie weiter zu verarbeiten 0:36:17.799,0:36:24.238 und das möglichst direkt abzubilden in[br]einer API, was auch zur Folge hat, dass im 0:36:24.238,0:36:28.370 Moment komplexere Queries auch teilweise[br]sehr umständlich zu schreiben sind. Und 0:36:28.370,0:36:33.180 das ist einfach ein Thema, an dem wir im[br]Moment noch arbeiten. Wir... was man noch 0:36:33.180,0:36:36.799 dazu sagen kann: Wenn jemand von euch sich[br]schon intensiver mit dem Thema 0:36:36.799,0:36:41.760 auseinandergesetzt hat, es gibt ein[br]anderes Projekt, das heißt ReGenesis. Das 0:36:41.760,0:36:47.359 hat Friedrich Lindenberg mal gemacht vor[br]ein paar Jahren. Das ist quasi auch eine 0:36:47.359,0:36:50.800 Webanwendung, die eine Rest-API zur[br]Verfügung stellt für diese Daten. Das 0:36:50.800,0:36:54.130 Projekt ist schon so ein bisschen sehr in[br]die Jahre gekommen und wird auch nicht 0:36:54.130,0:36:58.300 mehr weiter gepflegt. Und wir setzen aber[br]darauf auf. Das heißt, der Code, mit dem 0:36:58.300,0:37:03.950 wir die Daten herunterladen aus diesen[br]offiziellen Portalen, das ist quasi der 0:37:03.950,0:37:09.170 ReGenesis-Code, den wir auch verwenden.[br]Das ist eben auch eine Python-Anwendung. 0:37:09.170,0:37:12.960 Okay, weitere Fragen?[br]P3nny: Ja, und wir müssen halt nochmal 0:37:12.960,0:37:17.019 gucken, weil die Idee ist, welche Schritte[br]man sich vornimmt. Man könnte das relativ 0:37:17.019,0:37:20.630 umfangreich machen, dass man halt jeden[br]einzelnen Datensatz durchgehen muss. Man 0:37:20.630,0:37:23.870 könnte dann definitiv eine bessere[br]Erklärung dazu schreiben, muss das aber 0:37:23.870,0:37:28.719 halt mal recherchieren. Man müsste dann[br]halt quasi diese Untervalues auch 0:37:28.719,0:37:31.973 nochmal... also man könnte versuchen,[br]jeden einzelnen dieser Datensätze besser 0:37:31.973,0:37:35.927 zu machen. Das ist vielleicht ein bisschen[br]viel gewollt, sodass wir jetzt erst gesagt 0:37:35.927,0:37:38.820 haben: Okay, wir gehen den Schritt zurück[br]und machen halt diesen Pain, den ich 0:37:38.820,0:37:43.530 beschrieben habe, weniger schlimm. Also[br]erstmal den ersten Schritt und dann das 0:37:43.530,0:37:46.560 andere auch in Kooperation mit den[br]jeweiligen Ämtern und so, weil man dann 0:37:46.560,0:37:49.190 immer nochmal jemanden fragen muss, der[br]diese Statistik erstellt hat. Weil wenn 0:37:49.190,0:37:52.230 ich dann eine einfachere Beschreibung hin[br]schreibe, schlägt er nachher die Hände 0:37:52.230,0:37:56.760 über dem Kopf zusammen und sagt: Ja, so[br]kann man das aber nicht genau sagen. 0:37:56.760,0:38:00.950 Deswegen - da dazwischen, in diesem[br]Spannungsfeld bewegen wir uns und machen 0:38:00.950,0:38:06.720 jetzt erstmal den ersten Schritt.[br]Q: Ja, wie sieht denn generell euer 0:38:06.720,0:38:10.610 Technologie Stack aus? Python und Flask[br]haben wir jetzt schon gehört. Was ist noch 0:38:10.610,0:38:16.320 im Spiel bei euch?[br]Simon: Also wir benutzen ja wie gesagt 0:38:16.320,0:38:21.630 Python und Flask für die Webanwendungen.[br]Wir benutzen Elastic Search für die... 0:38:21.630,0:38:25.570 quasi als Such-Backend, aber wir arbeiten[br]im Moment mit Elastic Search auch so, dass 0:38:25.570,0:38:31.170 wir einfach diesen kompletten Datensatz,[br]den wir runterladen, einfach reinpumpen, 0:38:31.170,0:38:35.029 damit man auch darüber suchen kann. Ich[br]bin mir auch noch nicht sicher, ob das der 0:38:35.029,0:38:38.400 perfekte Weg ist, aber im Moment[br]funktioniert das für uns ganz gut. Das 0:38:38.400,0:38:42.240 heißt, wir haben keine Postgres-Datenbank[br]oder so, wo das drin ist, sondern wir 0:38:42.240,0:38:50.210 haben einfach nur diesen Postgres... äh,[br]diesen Elastic Search Datenhaufen und 0:38:50.210,0:38:53.321 suchen das dann darin. Das heißt, die[br]Flask-App ist im Moment auch eine sehr 0:38:53.321,0:38:57.950 sehr einfache Flask-App, die einfach nur[br]ein - ich sage jetzt mal so - ein Frontend 0:38:57.950,0:39:01.680 darüber zur Verfügung stellt - also quasi[br]ein technisches Frontend. Die 0:39:01.680,0:39:06.620 Benutzeroberfläche, die ihr sehen könnt,[br]also das grafische Frontend, das 0:39:06.620,0:39:12.870 entwickeln wir mit React und ein bisschen[br]Datenvisualisierungs-Bibliotheken, 0:39:12.870,0:39:19.310 VictoryJS wäre so ein Stichwort. Das ist[br]eine quasi ein React Wrapper um D3. Also 0:39:19.310,0:39:23.640 D3 ist so eine Datenvisualisierungs-[br]Bibliothek, VictoryJS sind quasi 0:39:23.640,0:39:32.600 Datenvisualisierungs-Komponenten, die man[br]in React verwenden kann auf Basis von D3. 0:39:32.600,0:39:39.540 Eine interessante technische Sache, was[br]Patricia gerade angesprochen hat, ist: Es 0:39:39.540,0:39:44.285 gibt so eine Bewegung in der JavaScript-[br]Welt, nicht mehr super komplexe JavaScript 0:39:44.285,0:39:47.790 Anwendungen zu bauen, die nur auf dem[br]Client laufen, sondern Sachen halt 0:39:47.790,0:39:51.980 irgendwie wieder wie früher auf dem Server[br]zu rendern oder idealerweise schon quasi 0:39:51.980,0:39:57.549 zu einem... ich sage mal zum Build-[br]Zeitpunkt wieder als HTML auszugeben. Und 0:39:57.549,0:40:03.390 da gibt es ein fancy Wort dafür, das heißt[br]JAMstack. Was es bedeutet: Das heißt 0:40:03.390,0:40:08.000 einfach nur, man baut eine Anwendung mit[br]JavaScript, in unserem Fall mit React. Die 0:40:08.000,0:40:12.549 baut auf einer API auf. Die API kann auch[br]für andere Dinge wiederverwendet werden 0:40:12.549,0:40:17.609 und wir bauen halt so einen JavaScript[br]Client dafür. Und aus diesem JavaScript 0:40:17.609,0:40:24.200 Client generieren wir dann aber ganz viele[br]HTML-Seiten, damit man quasi eine HTML- 0:40:24.200,0:40:28.059 Seite hat für jede Stadt. Und wenn du die[br]dann... wenn du dann auf diese Seite 0:40:28.059,0:40:32.060 gehst, dann lädtst du die HTML-Seite[br]runter und die kannst du direkt sehen, 0:40:32.060,0:40:36.309 weil es ist halt einfach nur HTML. Aber im[br]Hintergrund wird halt dieser ganze 0:40:36.309,0:40:40.549 JavaScript-Kram initialisiert. Und das[br]klingt jetzt sehr kompliziert, aber da 0:40:40.549,0:40:44.390 gibt es ein Framework, mit dem man sowas[br]machen kann und das heißt Gatsby.js. Und 0:40:44.390,0:40:47.559 das benutzen wir hier und es funktioniert[br]für uns auch sehr gut. Wenn euch... wenn 0:40:47.559,0:40:50.930 ihr da genaueres wissen wollt, ich hänge[br]hier nachher noch ein bisschen rum, da 0:40:50.930,0:40:54.940 kann ich euch auch zeigen, wie das[br]funktioniert. Haben wir noch Zeit für eine 0:40:54.940,0:40:58.440 Frage?[br]Q: Halt, eine noch! Also noch einmal ein 0:40:58.440,0:41:05.740 Lob. Ich fand Konzept, Präsentation und[br]eure Prototypen sehr gut aussehend. Eine 0:41:05.740,0:41:10.619 konzeptionelle Frage: Ihr habt jetzt einen[br]hohen Fokus auf regionale Sachen gelegt. 0:41:10.619,0:41:14.640 Geht ja auch eine Ebene höher. Also[br]Bundesländer und der Bund vielleicht. Ich 0:41:14.640,0:41:18.250 sehe nämlich mittel- bis langfristig auf[br]jeden Fall irgendwie das Potenzial, 0:41:18.250,0:41:22.980 Statista... oder einen starken[br]Konkurrenten zu Statista aufzubauen, wo 0:41:22.980,0:41:28.309 mir einfach gerade ein bisschen Open[br]Source mäßig etwas fehlt. 0:41:28.309,0:41:36.730 Simon: Ja, also der Punkt kommt sehr oft.[br]Also der Punkt kommt sehr oft. Ja, also 0:41:36.730,0:41:41.230 ich finde auch, Statista finde ich extrem[br]schwierig. Vor allem finde ich es 0:41:41.230,0:41:44.982 schwierig, dass man, wenn man jetzt[br]irgendeinen Datensatz googlet, dann findet 0:41:44.982,0:41:48.810 man meistens Statista und es vermittelt[br]einem irgendwie, dass man jetzt bezahlen 0:41:48.810,0:41:53.000 muss, um diesen Datensatz herunterzuladen.[br]Und wenn wir über diese amtliche Statistik 0:41:53.000,0:41:59.140 reden, dann sind das halt freie Daten. Und[br]diese Idee, die ich vorhin beschrieben 0:41:59.140,0:42:02.660 habe, dass wir einzelne HTML-Seiten[br]generieren für jeden Ort und jeden 0:42:02.660,0:42:07.880 Datensatz, der kommt auch daher, dass wir[br]eigentlich so den Long Tail nutzen wollen 0:42:07.880,0:42:11.910 in den Suchmaschinen und eigentlich[br]idealerweise dann irgendwann höher gerankt 0:42:11.910,0:42:16.220 werden als Statista. Zu dem anderen Teil[br]deiner Frage, andere Datensätze da 0:42:16.220,0:42:23.109 reinzunehmen. Die statistischen Ämter[br]benutzen dieses System Genesis, um diese 0:42:23.109,0:42:26.270 Daten zu veröffentlichen.[br]regionalstatistik.de ist quasi eine 0:42:26.270,0:42:30.390 Genesis-Instanz, wo die Daten der[br]Statistischen Landesämter drin sind. Aber 0:42:30.390,0:42:34.010 es gibt eben andere Genesis-Instanzen und[br]mit unserer Technologie kann man 0:42:34.010,0:42:39.054 grundsätzlich auch andere Genesis-[br]Instanzen - die Daten aus anderen Genesis- 0:42:39.054,0:42:43.040 Instanzen laden und zur Verfügung stellen,[br]weil das alles genau gleich funktioniert. 0:42:43.040,0:42:48.069 Das hat halt mit unserem föderalen System,[br]was wir in Deutschland haben, zu tun. 0:42:48.069,0:42:51.849 Wobei das nicht heißt, dass die Software[br]ein föderiertes System ist. Also es ist 0:42:51.849,0:42:57.799 nicht Mastodon-föderiert, dass ich quasi[br]über eine Instanz von dieser Software alle 0:42:57.799,0:43:02.130 Daten abfragen kann, sondern die haben[br]halt einfach einzelne Instanzen, weil halt 0:43:02.130,0:43:06.500 andere Leute zuständig sind für andere[br]Datensätze. Aber perspektivisch wäre es 0:43:06.500,0:43:10.920 schon mein Ziel, mit diesem Konzept auch[br]andere Datensätze, idealerweise halt 0:43:10.920,0:43:14.502 alles, was irgendwie über Genesis[br]veröffentlicht wird, zur Verfügung zu 0:43:14.502,0:43:17.859 stellen. Wir haben uns jetzt eben als[br]einfachen Use Case die 0:43:17.859,0:43:22.440 regionalstatistik.de ausgesucht. Also ich[br]muss dazu sagen, wir arbeiten da schon 0:43:22.440,0:43:28.349 seit einem Jahr dran. Und wir haben am[br]Anfang sehr viel ausprobiert und wir haben 0:43:28.349,0:43:33.680 auch über die Zeit unseren Scope verändert[br]und die Tatsache, dass wir jetzt eben 0:43:33.680,0:43:37.970 diese konkrete, dieses konkrete Produkt[br]entwickeln und uns auf die 0:43:37.970,0:43:41.880 regionalstatistik konzentrieren, das ist[br]eigentlich eine neuere Sache. Aber das ist 0:43:41.880,0:43:45.451 einfach etwas, was wir jetzt machen[br]müssen, damit wir mit irgendetwas mal 0:43:45.451,0:43:50.069 vorankommen. Wir sind auch nur zu dritt[br]und vielleicht so vier, je nachdem, wie 0:43:50.069,0:43:57.210 man das zählt. Und lange zu zweit. Genau[br]deswegen, ja. Wir sind halt auch nicht 0:43:57.210,0:44:02.610 Statista. Aber Open Source Schreibtisch-[br]Hooligan Statista finde ich super. Also 0:44:02.610,0:44:06.230 wenn noch ein paar Leute von euch Lust[br]haben, dann können wir uns sehr gerne 0:44:06.230,0:44:09.919 drüber unterhalten.[br]Herald: Also wir haben auch noch viel Zeit 0:44:09.919,0:44:13.857 übrig, denke ich. Noch eine Viertelstunde[br]oder so. Wenn es noch mehr Fragen gibt, 0:44:13.857,0:44:19.810 supergeil. Ja, gerne weiter.[br]Q: Wie organisiert ihr euch als Projekt 0:44:19.810,0:44:26.990 und wie finanziert ihr euch?[br]Simon: Ja, also vielleicht... genau. 0:44:26.990,0:44:32.839 Patricia geht mal hier zurück, weit[br]zurück. Also wir organisieren uns im 0:44:32.839,0:44:42.750 Moment so ein bisschen über GitHub Issues.[br]Wir haben nen Slack-Channel im OKF-Slack. 0:44:42.750,0:44:47.270 Das ist halt irgendwie das Einfachste für[br]uns, wir sind auch ein verteiltes Team. 0:44:47.270,0:44:52.180 Also ich sage mal, wir arbeiten zeitlich[br]und räumlich verteilt. Patricia ist in 0:44:52.180,0:44:56.540 Köln. Ich bin in Berlin. Mein anderer[br]Kollege Simon Wörpel, der ganz viel an der 0:44:56.540,0:45:01.250 API arbeitet, der ist zwar auch in Berlin,[br]aber Berlin ist eine große Stadt. Wir 0:45:01.250,0:45:07.120 sehen uns jetzt auch nicht jeden Tag.[br]Deswegen halt sehr viel über Slack. Wir 0:45:07.120,0:45:10.720 haben uns jetzt in der Vergangenheit immer[br]mal getroffen. Ich glaube, wir uns zwei 0:45:10.720,0:45:19.240 Mal getroffen, seit wir an dem Projekt[br]arbeiten. Und... also dreimal mit jetzt. 0:45:19.240,0:45:24.671 Nächstes Jahr wollen wir, also wie gesagt,[br]so eine Art Hackathon machen. Da wollen 0:45:24.671,0:45:30.470 wir auch ein bisschen mehr Community[br]zusammenbringen und dann halt in dem 0:45:30.470,0:45:34.151 Zusammenhang auch irgendwie gucken, wie[br]man das Projekt als Open Source Projekt 0:45:34.151,0:45:37.319 weiterentwickeln kann und was für[br]Kommunikationskanäle man dann auch 0:45:37.319,0:45:43.890 braucht. Zur Förderung. Also ich hab ja[br]vorhin gesagt, wir hatten am Anfang eine 0:45:43.890,0:45:50.470 Förderung vom Prototype Fund. Das ist ein[br]sehr gutes Förderprogramm für Open Source 0:45:50.470,0:45:54.910 Projekte, die halt irgendwie eine[br]gesellschaftliche Relevanz haben. Das war 0:45:54.910,0:45:58.406 auch in der in der Bewerbung, in der[br]Durchführung super. Also kann ich nur 0:45:58.406,0:46:01.560 jedem empfehlen. Ich habe tatsächlich[br]inzwischen auch schon ein zweites 0:46:01.560,0:46:06.921 Prototype Fund Projekt hinter mir. Alle da[br]bewerben. Ich muss dazu sagen, ich habe 0:46:06.921,0:46:10.219 mich auch mit viel mehr Kram beworben, der[br]wurde nicht genommen. Gibt wahrscheinlich 0:46:10.219,0:46:16.674 auch viele Bewerber. Aber ich kann auf[br]jeden Fall jedem raten, es auszuprobieren 0:46:16.674,0:46:20.069 und euch am besten vorher mal mit den[br]Leuten vom Prototype Fund zu unterhalten. 0:46:20.069,0:46:22.920 Die sind auch hier irgendwie unterwegs.[br]Wenn ihr die hier anpingt, dann habt ihr 0:46:22.920,0:46:26.470 sicher die Möglichkeit, da noch eine[br]Audienz zu kriegen. Das ist auch ein 0:46:26.470,0:46:30.319 laufendes Programm. Also Prototype Fund[br]könnt ihr euch glaub ich noch das nächste 0:46:30.319,0:46:36.990 Jahr oder so auf ein paar weitere[br]Förderrunden noch bewerben. Unsere 0:46:36.990,0:46:44.039 aktuelle Förderung setzt sich zusammen aus[br]Geld, das wir vom Medien 0:46:44.039,0:46:49.109 Innovationszentrum Babelsberg bekommen[br]haben und so einem Stipendium, das ich 0:46:49.109,0:46:56.020 habe, im Moment. Das Medien[br]Innovationszentrum ist so ein Konstrukt, 0:46:56.020,0:47:01.400 da werden quasi Rundfunkgebühren[br]umverteilt an Innovationsprojekte und die 0:47:01.400,0:47:06.520 haben auch ein großes Interesse dran, so[br]Open Source Projekte zu fördern. Kann man 0:47:06.520,0:47:12.180 sich auch bewerben, ist ein bisschen[br]aufwendiger, so in der Durchführung und 0:47:12.180,0:47:17.653 was den administrativen Aufwand angeht und[br]ist nicht so viel Geld wie der Prototype 0:47:17.653,0:47:21.360 Fund. Deswegen immer erst einmal beim[br]Prototype Fund bewerben und wenn ihr dann 0:47:21.360,0:47:24.920 noch mehr Geld braucht, beim MIZ bewerben.[br]Das wäre so meine Strategie. 0:47:24.920,0:47:28.660 P3nny: Genau. Was wir aber im Rahmen[br]dieses MIZ-Dingens machen, weil der Fokus 0:47:28.660,0:47:32.680 da auf Journalisten und journalistische[br]Produktentwicklung liegt, ist, mit 0:47:32.680,0:47:37.160 Redaktionen zusammenzuarbeiten. Also es[br]gab neulich einen dpa Hack Day, wo schon 0:47:37.160,0:47:43.170 die ersten Journalistinnen mit einem Team[br]die API genutzt haben, um so eine Art 0:47:43.170,0:47:46.649 Newslettersystem... also ich kann mich[br]als Lokalredakteur für meine Stadt 0:47:46.649,0:47:50.560 Flensburg oder so da anmelden und kriege[br]dann halt immer nen Alert, wenn Daten... 0:47:50.560,0:47:55.710 also wenn Flensburg irgendwo top oder low[br]gerankt ist. Sowas kann man sich ja auch 0:47:55.710,0:47:59.490 vorstellen, dass man das als Service[br]anbietet. Und ich selber bin freie 0:47:59.490,0:48:03.130 Mitarbeiterin beim WDR. Geplant ist, dass[br]wir ein Daten-Projekt vielleicht rund um 0:48:03.130,0:48:07.599 die Europageschichte oder so mit dem WDR[br]und so machen. Also um das, was wir da 0:48:07.599,0:48:11.090 tun, auch reinzutragen in etablierte[br]journalistische Unternehmen. 0:48:11.090,0:48:17.299 Simon: Ja also ich vermute mal, dass deine[br]Frage auch mehr so auf Businessmodell 0:48:17.299,0:48:23.150 abgezielt hat dafür. Und das haben wir[br]tatsächlich im Moment nicht. Man muss mal 0:48:23.150,0:48:28.600 gucken. Also jetzt im Moment ist es ja[br]sehr... also es ist sehr billig, das zu 0:48:28.600,0:48:31.910 betreiben für uns im Moment. Die Website[br]wird wahrscheinlich auch relativ 0:48:31.910,0:48:35.510 unproblematisch sein, weil die ist erstmal[br]nur ein Haufen HTML. Das kann man im 0:48:35.510,0:48:39.290 Zweifelsfall umsonst bei Netlify oder so[br]betreiben oder auf GitHub. Interessanter 0:48:39.290,0:48:45.060 ist halt die Sache mit der API. Also ich[br]glaube, wenn wir... also so ein großer 0:48:45.060,0:48:50.400 Elastic Search Cluster kostet richtig[br]Geld. Ich denke mal, wenn wir Power User 0:48:50.400,0:48:55.210 haben, die dafür halt irgendwas... also[br]diese API für irgendetwas benutzen, was 0:48:55.210,0:48:58.439 vielleicht für die auch eine kommerzielle[br]Relevanz hat, dann kann ich mir schon 0:48:58.439,0:49:04.350 vorstellen, dass man da irgendein Modell[br]findet, wo man quasi dafür bezahlt, wenn 0:49:04.350,0:49:08.200 man einen sehr hohen, sehr hohes[br]Datenaufkommen verursacht oder so. Aber 0:49:08.200,0:49:12.859 das ist so ein Problem, mit dem wir uns im[br]Moment noch nicht befassen. Grundsätzlich 0:49:12.859,0:49:18.439 hab ich... Genau. Es gibt ja alle[br]möglichen Ideen, was man da drum machen 0:49:18.439,0:49:21.670 kann. Ich kann mir gut vorstellen, dass[br]man perspektivisch vielleicht etwas über 0:49:21.670,0:49:25.720 Sponsoring macht, also dass man sagt, dass[br]Medienorganisationen, die unsere Daten 0:49:25.720,0:49:31.720 verwenden... keine Ahnung, uns irgendwie[br]fördern oder so. Patrica hat gerade 0:49:31.720,0:49:35.512 gesagt, wir haben auch schon so überlegt,[br]ob man halt ne Brücke baut zu anderen 0:49:35.512,0:49:39.290 Tools, wo man dann vielleicht irgendwas[br]Kommerzielles macht, was nicht der Kern, 0:49:39.290,0:49:43.220 das Kernprojekt ist. Also dass man sagt,[br]es gibt ein Datenvisualisierungstool, das 0:49:43.220,0:49:46.319 heißt Data Wrapper. Naja, dass man sagt,[br]wenn Data Wrapper irgendwie unsere Daten 0:49:46.319,0:49:49.450 benutzen will, dann stellen wir das denen[br]halt in irgendeiner Form zur Verfügung und 0:49:49.450,0:49:54.150 man überlegt sich dann da halt ein Modell[br]dazu. Aber ich will eigentlich nicht so... 0:49:54.150,0:49:56.450 ich sehe mich jetzt nicht als[br]Medienunternehmer und ich will jetzt auch 0:49:56.450,0:50:01.920 nicht den nächsten Statista Datenbroker[br]gründen, gerade hier auf dem Kongress. 0:50:01.920,0:50:07.655 Also idealerweise würde dieses Angebot[br]auch irgendwann sich selber abschaffen, 0:50:07.655,0:50:11.020 weil die statistischen Ämter sehen, wie[br]sie die Daten eigentlich aufbereiten 0:50:11.020,0:50:13.960 müssen, damit Bürger die nutzen und dann[br]machen sie selber ein ähnliches Angebot. 0:50:13.960,0:50:18.330 Das ist jetzt vielleicht sehr utopisch[br]gedacht, aber es gibt durchaus Leute bei 0:50:18.330,0:50:22.339 den statistischen Ämtern, die ein[br]Interesse daran haben, sich breiter zu 0:50:22.339,0:50:26.451 öffnen. Und die sehen auch, dass sie etwas[br]machen müssen. Weil die sind dem 0:50:26.451,0:50:32.109 Innenministerium unterstellt und die sind[br]nicht unbedingt die größte Priorität vom 0:50:32.109,0:50:35.990 Innenministerium gerade. Das heißt, die[br]haben durchaus auch ein Interesse daran, 0:50:35.990,0:50:39.890 mehr Aufmerksamkeit für ihre Arbeit und[br]ihre Daten zu kriegen. Und wir stehen auch 0:50:39.890,0:50:51.190 auf jeden Fall im engen Austausch mit den[br]statistischen Ämtern. 0:50:51.190,0:50:57.060 Q: Ja hi, eine Frage, wie ihr die Daten[br]gewinnt. Ihr habt gesagt, Genesis wäre ein 0:50:57.060,0:51:00.210 Austauschformat? Also ich stelle mir das[br]sehr mühsam vor, wenn ich jetzt überlege, 0:51:00.210,0:51:03.450 wie ich diese ganzen Daten von diesen[br]Seiten aggregieren müsste, das wäre - ich 0:51:03.450,0:51:06.710 würde jetzt schon aufhören. Und es scheint[br]da nen Standard zu geben. Könnt ihr 0:51:06.710,0:51:09.640 darüber was sagen oder wie diese Daten zu[br]euch kommen? 0:51:09.640,0:51:13.760 Simon: Ja, genau. Also ich habe vorhin ja[br]erwähnt, wir sind da schon durch so ein 0:51:13.760,0:51:18.980 paar Iterationen gegangen. Am Anfang haben[br]wir tatsächlich die Daten mehr oder 0:51:18.980,0:51:23.849 weniger gescrapet, was auch nicht so[br]einfach ist, weil eigentlich werden die 0:51:23.849,0:51:29.299 Daten da halt für jeden Abruf generiert,[br]aber da gibt's halt so ein paar... das ist 0:51:29.299,0:51:34.596 alles, ja, also alles so ein bisschen[br]kompliziert. Aber es gibt halt die 0:51:34.596,0:51:37.837 Möglichkeit, da auch statische Daten[br]runterzuladen einfach und das haben wir eine 0:51:37.837,0:51:41.809 Weile gemacht und haben uns dann so ein[br]Schema-System überlegt, mit dem man quasi 0:51:41.809,0:51:47.350 automatisiert diese einzelnen Datensätze[br]aufräumen kann. Da musste man aber immer 0:51:47.350,0:51:52.960 noch für jeden von den 450 Datensätze[br]irgendein Schema beschreiben. Wir sind 0:51:52.960,0:51:57.710 dann im Austausch mit den statistischen[br]Ämtern so weit gekommen, dass es 0:51:57.710,0:52:01.970 tatsächlich eine Daten-Schnittstelle gibt,[br]die ist für regionalstatistik.de nicht 0:52:01.970,0:52:09.654 dokumentiert. Aber sie existiert. Alle[br]Genesis-Instanzen, die betrieben werden, 0:52:09.654,0:52:14.119 die haben eine Daten-Schnittstelle. Die[br]kostet manchmal Geld, manchmal nicht. Bei 0:52:14.119,0:52:18.829 dem offiziellen Angebot von Destatis zum[br]Beispiel, da kostet die ein Haufen Geld 0:52:18.829,0:52:22.859 und ist dokumentiert. Bei[br]regionalstatistik.de kostet die nichts, 0:52:22.859,0:52:27.109 dafür ist auch nirgendwo im Web was drüber[br]geschrieben. Wir benutzen jetzt aber diese 0:52:27.109,0:52:30.800 Datenschnittstelle, das ist eine SOAP-[br]Schnittstelle, wenn des hier jemand was 0:52:30.800,0:52:34.700 sagt. Also es ist mehr so Enterprise[br]Level. Das benutzen halt Banken und 0:52:34.700,0:52:38.710 Versicherungen. Vielleicht heute auch[br]nicht mehr, wenn sie heute nochmal damit 0:52:38.710,0:52:44.300 anfangen würden. Aber es ist halt eine[br]SOAP-Schnittstelle und ist quasi eine 0:52:44.300,0:52:49.540 SOAP-Schnittstelle auf nen OLAP Data Cube.[br]Also das ganze ist ein Datenquader, also 0:52:49.540,0:52:54.204 irgendwie so eine Terabyte große[br]Datenstruktur, die irgendwo steht. Die 0:52:54.204,0:52:57.580 könnte man sich auch komplett runterladen[br]und dann direkt auf diesem OLAP Cube 0:52:57.580,0:53:03.460 operieren. Aber im Moment benutzen wir[br]ReGenesis, das ist eben dieses Open Source 0:53:03.460,0:53:08.670 Tool, was ich vorhin beschrieben habe. Und[br]mit ReGenesis kann man eben diese SOAP API 0:53:08.670,0:53:13.970 relativ einfach aus Python ansprechen.[br]Aber die Idee ist halt, dass wir ein Layer 0:53:13.970,0:53:18.160 drüber ziehen, der einfacher ist. Aber wir[br]räumen jetzt, also Stand jetzt, räumen wir 0:53:18.160,0:53:22.540 nicht mehr manuell Daten auf, die wir[br]gescrapet haben. So viel kann ich sagen. 0:53:22.540,0:53:27.579 Q: So eine Follow up Frage hätte ich dazu[br]noch aus dem Operations-Bereich: Skaliert 0:53:27.579,0:53:31.540 das? Also wenn ihr weitere Datenquellen[br]anbinden wollt, wie Bundes-, whatever? 0:53:31.540,0:53:34.190 Keine Ahnung, wie viel manuelle Arbeit[br]steckt da drin? 0:53:34.190,0:53:37.620 Simon: Naja, also jetzt kann man[br]tatsächlich halt... also es gibt dieses 0:53:37.620,0:53:42.189 Open Source Projekt, kannst du dir[br]angucken, kann man mit mehr oder weniger, 0:53:42.189,0:53:46.830 naja, ich glaube so in 20 bis 30 Minuten[br]kann man sich dieses Backend-Projekt 0:53:46.830,0:53:50.540 aufsetzen und dann auch Daten da rein[br]laden. Also es ist schon alles irgendwie 0:53:50.540,0:53:54.890 so automatisiert, dass man das machen kann[br]jetzt für uns. Naja, inwieweit es skaliert 0:53:54.890,0:53:58.448 Also skalieren hat hier verschiedene[br]Dimensionen. Also einmal pumpen wir die 0:53:58.448,0:54:02.460 Daten halt alle in Elastic Search. Keine[br]Ahnung, ob das skaliert, wird sich noch 0:54:02.460,0:54:09.230 rausstellen. Funktioniert jetzt mit dem[br]Datensatz, den wir haben. Die andere Sache 0:54:09.230,0:54:14.210 ist halt der Download der Daten und das[br]ist im Moment relativ einfach aufgesetzt. 0:54:14.210,0:54:17.569 Also ich hatte vorgestern hier einen[br]technischeren Talk drüben in der Chaos 0:54:17.569,0:54:21.700 Zone und hab darüber geredet, wie das[br]technisch funktioniert. Und dann kam 0:54:21.700,0:54:28.720 gestern jemand zu mir und hat mir erklärt,[br]er hat jetzt einen Docker-Container 0:54:28.720,0:54:32.770 gebaut, der unser Backend enthält mit[br]allem Zeug. Also das heißt, irgendjemand 0:54:32.770,0:54:35.680 hat sich dann hingesetzt und das gemacht.[br]Das ging offensichtlich relativ einfach. 0:54:35.680,0:54:43.090 Ich weiß nicht ob die Person da ist. Nein,[br]auch gut, aber ja. Also mit dem Text-Hack 0:54:43.090,0:54:46.153 zu arbeiten ist relativ einfach, wie es[br]perspektivisch skaliert, ist glaube ich 0:54:46.153,0:54:52.099 eher ein Problem der Datenhaltung. Und ich[br]glaube, wenn man richtig viel damit machen 0:54:52.099,0:54:56.039 wollte, müsste man eigentlich sich mit[br]diesem OLAP Cube befassen. Das sagen auch 0:54:56.039,0:54:59.710 die Leute von den statistischen Ämtern.[br]Also wenn man denen mit einem besonderen 0:54:59.710,0:55:03.430 Problem kommt, dann sagen die: Ja, da[br]müssen sie halt den Datenquader 0:55:03.430,0:55:09.700 runterladen. Also, das heißt Datenquader[br]bei denen. Aber ja, das machen tatsächlich 0:55:09.700,0:55:13.580 auch Leute. Also Statista lädt[br]wahrscheinlich diesen OLAP Cube runter, 0:55:13.580,0:55:16.930 wahrscheinlich irgendwie jede Nacht oder[br]so. Das wäre jetzt so meine Vermutung. Und 0:55:16.930,0:55:20.750 dann haben die halt irgendwelche Prozesse[br]hinten dran, was das in ihre Systeme 0:55:20.750,0:55:23.700 übersetzt. Aber das ist halt so ein[br]Bereich, in dem wir jetzt 0:55:23.700,0:55:28.289 nicht operieren. Also das ist dann[br]auch ein anderes Projekt, glaube ich. 0:55:31.199,0:55:37.279 Q: Gibt es, gibt es irgendwo eine[br]Übersicht von diesen amtlichen 0:55:37.279,0:55:40.359 Kennzeichen, von den Variablen oder den[br]Definitionen dahinter? 0:55:40.359,0:55:45.440 Simon: Ja. Willst du darüber was sagen?[br]P3nny: Also auf regionalstatistik.de 0:55:45.440,0:55:53.349 gibt's einen Daten-Katalog und in dem sind[br]die quasi nach Feldern aufgeschlüsselt. 0:55:53.349,0:56:00.150 Also Wirtschaft, Umwelt, Bevölkerung oder[br]so grob. Und da drunter findest du dann 0:56:00.150,0:56:03.450 die einzelnen Dateien. Wobei so richtig[br]gut zum Durchsteigen ist das nicht. Aber 0:56:03.450,0:56:06.700 wenn man sich damit beschäftigt, dann[br]versteht man das schon. Und dann findet 0:56:06.700,0:56:10.410 man diese Kennziffer und diese Kennziffer[br]kann man ja dann auch wieder in die API 0:56:10.410,0:56:13.040 reinschmeißen. 0:56:13.040,0:56:18.870 Hier vorne noch?[br]Da hinten? 0:56:18.870,0:56:22.040 Simon: Also eine Sache dazu ist auch, dass 0:56:22.040,0:56:30.390 wir auch... also wir haben so ein GitHub[br]Issue offen, diese Übersicht auch da 0:56:30.390,0:56:36.450 rauszuziehen und quasi mit in unsere in[br]unsere Web-Oberfläche einzubinden. Also 0:56:36.450,0:56:42.250 ich habe gerade schon gezeigt, dass wir so[br]eine riesenlange Liste haben von jeder 0:56:42.250,0:56:46.319 Stadt und jeder Gemeinde. Und genauso[br]wollen wir halt auch eine riesenlange 0:56:46.319,0:56:50.796 Liste von jedem Merkmal, das man[br]durchsuchen kann. Das heißt, das ist quasi 0:56:50.796,0:56:55.970 eine Aufgabe, an der wir arbeiten werden[br]in den nächsten Wochen. 0:56:55.970,0:57:01.760 Q: Okay, von mir... okay sorry. Nochmal[br]eine Folgefrage quasi: Habt ihr 0:57:01.760,0:57:06.160 mittelfristig vor, auch manuelle[br]Dateneingabe zu ermöglichen? Weil es gibt 0:57:06.160,0:57:10.080 ja relativ viele Reports von[br]Unternehmensberatungen etc pp, wo 0:57:10.080,0:57:13.850 superspannende Daten drinstehen, was aber[br]glaube ich schwierig zu automatisieren 0:57:13.850,0:57:16.490 ist. Ob ihr da so vorhabt, einen[br]Communityapproach zu fahren, 0:57:16.490,0:57:18.720 dass irgendjemand das einträgt und [br]irgendjemand reviewt das 0:57:18.720,0:57:21.150 und dann passt das schon oder[br]irgendwas in die Richtung? 0:57:21.150,0:57:23.010 Simon: Also ja, das haben wir im Moment 0:57:23.010,0:57:29.660 nicht vor. Also im Moment ist unser Weg[br]der einfache Weg und das ist, quasi Dinge 0:57:29.660,0:57:33.740 verwenden, die irgendwie einheitlich[br]erfasst werden, wo klar definiert ist, wo 0:57:33.740,0:57:36.950 sie herkommen, wo auch die Lizenz-[br]Situation klar ist und die dann halt 0:57:36.950,0:57:40.860 wieder zu veröffentlichen. Also ich hab[br]die Frage auch schon öfter bekommen bei so 0:57:40.860,0:57:44.930 Präsentationen und es ist im Moment,[br]glaube ich, irgendwie komplett out of 0:57:44.930,0:57:48.510 scope für uns, weil es halt dann so viele[br]Fragen aufwirft, mit denen wir uns dann 0:57:48.510,0:57:52.980 befassen müssten. Das ist halt einfach...[br]da haben wir gerade andere Probleme, die 0:57:52.980,0:57:56.420 wir einfacher lösen könnten, so. Aber[br]interessant wäre es auf jeden Fall und das 0:57:56.420,0:58:01.710 wäre dann quasi so ein Gecrowdsourcestes,[br]selber gemachtes Open Data Statista. Also 0:58:01.710,0:58:04.359 ich fände es super interessant, aber das[br]ist glaube ich ein anderes Projekt 0:58:04.359,0:58:07.418 einfach. 0:58:07.418,0:58:12.729 Herald: Ich glaube, wir haben noch Zeit[br]für eine letzte Frage. Gibt's noch eine? 0:58:12.729,0:58:21.390 Simon: Ja, keine Fragen. Ist doch super. [br]Ja, ich bin hier links um die Ecke 0:58:21.390,0:58:24.240 noch ne Weile, wenn ihr irgendwie [br]konkretere Fragen habt 0:58:24.240,0:58:27.339 oder euch nochmal was angucken[br]wollt oder mir noch von eurer Idee 0:58:27.339,0:58:30.990 erzählen wollt, dann kommt gern vorbei und[br]quatscht mich an. Vielen Dank. 0:58:30.990,0:58:32.140 Applaus 0:58:32.140,0:58:33.839 Musik 0:58:33.839,0:58:56.822 Untertitel erstellt von c3subtitles.de[br]im Jahr 2021. Mach mit und hilf uns!