1
00:00:00,000 --> 00:00:16,785
Wikipaka Intro Musik
2
00:00:16,785 --> 00:00:22,310
Herald: Es ist 12 Uhr. Willkommen zum
Wikipaka Television und Fernstreamen. Wir
3
00:00:22,310 --> 00:00:27,110
leben im Informationszeitalter. Wir leben
im Zeitalter der Digitalisierung. Doch wo
4
00:00:27,110 --> 00:00:32,120
sind sie, die Informationen und wo ist das
Digitalisierte? Oder kurz: Wo sind die
5
00:00:32,120 --> 00:00:37,010
Daten? Das weiß unser Korrespondent Simon
Jockers. Der arbeitet nämlich an der
6
00:00:37,010 --> 00:00:40,910
Schnittstelle zwischen Softwareentwicklung
und Journalismus, entwickelt verschiedene
7
00:00:40,910 --> 00:00:45,950
Tools, die allen Menschen, vor allem
JournalistInnen, dabei helfen, mit Daten
8
00:00:45,950 --> 00:00:52,310
sinnvoll arbeiten zu können, z.B. mit den
Daten der statistischen Ämter. Im Projekt
9
00:00:52,310 --> 00:00:58,760
Datenguide ist er besonders aktiv. Das ist
ein Tool, als freie Software, und genau
10
00:00:58,760 --> 00:01:06,140
das wird er jetzt vorstellen. Bitteschön.
Simon: Hi, ich heiße Simon Jokers und ich
11
00:01:06,140 --> 00:01:10,130
bin einer der Köpfe hinter Datenguide.
Datenguide - das ist eine Open Data
12
00:01:10,130 --> 00:01:13,580
Initiative, mit der wir amtlichen
Statistiken zugänglicher für alle machen
13
00:01:13,580 --> 00:01:20,540
wollen. Und bei Datenguide, da entwickeln
wir Open Source Software, die dabei hilft,
14
00:01:20,540 --> 00:01:25,700
mit amtlichen Statistiken zu arbeiten und
wir veranstalten Workshops und Hackdays
15
00:01:25,700 --> 00:01:30,140
und andere Veranstaltungen zu diesem
Thema. Und dieser Vortrag heute, der hat
16
00:01:30,140 --> 00:01:34,190
zwei große Teile. Im ersten Teil gebe ich
so einen allgemeinen Überblick über
17
00:01:34,190 --> 00:01:37,820
amtliche Statistik und im zweiten Teil
erkläre ich, was genau wir mit Datenguide
18
00:01:37,820 --> 00:01:43,520
machen. Aber zum Einstieg Was ist
eigentlich amtliche Statistik? Einfach
19
00:01:43,520 --> 00:01:47,180
gesagt sind das alle Statistiken zu
Gesellschaft, Umwelt und Wirtschaft, die
20
00:01:47,180 --> 00:01:52,400
von den Statistischen Ämtern erstellt
werden. Und bei Datenguide konzentrieren
21
00:01:52,400 --> 00:01:56,180
wir uns auf einen bestimmten Bereich der
amtlichen Statistik, und zwar auf die
22
00:01:56,180 --> 00:02:01,220
Regionalstatistik, d.h. Statistiken zu
Regionen wie z.B. Bundesländern,
23
00:02:01,220 --> 00:02:07,700
Landkreisen und Gemeinden. Und wenn man
sich jetzt die Selbstdarstellungen der
24
00:02:07,700 --> 00:02:13,790
Statistischen Ämter anschaut, dann sagen
die, dass die Statistiken, die sie
25
00:02:13,790 --> 00:02:18,410
produzieren, objektiv, unabhängig und
qualitativ hochwertig sind und da gehe ich
26
00:02:18,410 --> 00:02:23,990
auf jeden Fall mit. Und weiter sagen sie
dann, dass Sie das machen für Politik,
27
00:02:23,990 --> 00:02:28,490
Verwaltung, Wirtschaft sowie für
Bürgerinnen und Bürger. Und bei Datenguide
28
00:02:28,490 --> 00:02:31,970
sind wir der Meinung, dass dieser letzte
Teil, Bürgerinnen und Bürger, dass man den
29
00:02:31,970 --> 00:02:39,530
durchaus noch besser machen kann. Um ein
bisschen plastischer zu machen, was so
30
00:02:39,530 --> 00:02:42,200
drinsteckt in der amtlichen Statistik, hab
ich hier mal ein paar Beispiele gesammelt.
31
00:02:42,200 --> 00:02:46,880
Bei amtlicher Statistik, da denkt man
meistens erst einmal an demografische
32
00:02:46,880 --> 00:02:50,480
Daten und das ist auf jeden Fall richtig.
Also es gibt in der amtlichen Statistik
33
00:02:50,480 --> 00:02:55,490
Zahlen zur Bevölkerung, zur
Altersstruktur, zu Wanderungsbewegungen,
34
00:02:55,490 --> 00:03:02,390
also zum Hinzug und Wegzug aus bestimmten
Regionen. Und es gibt beispielsweise auch
35
00:03:02,390 --> 00:03:06,980
Daten zur Migration, also z.B. zu
Schutzsuchenden in Deutschland oder zur
36
00:03:06,980 --> 00:03:12,410
Einbürgerung. Und für dieses Beispiel hier
hab ich mir mal die Frage gestellt: Wo
37
00:03:12,410 --> 00:03:17,000
gibt's in Deutschland denn die meisten
RentnerInnen? Und dann habe ich mir die
38
00:03:17,000 --> 00:03:20,585
Daten aus der amtlichen Statistik
runtergeladen und habe sie mit einem
39
00:03:20,585 --> 00:03:25,340
Datenvisualisierungs-Tool auf eine Karte
gepackt. Und hier sehen wir, dass die
40
00:03:25,340 --> 00:03:32,300
Rentnermetropolen Deutschlands die Städte
Baden-Baden und Dessau-Roßlau sind. Und in
41
00:03:32,300 --> 00:03:39,200
beiden Städten kommen auf 100 Personen im
typischen Erwerbsalter fast 50 Menschen,
42
00:03:39,200 --> 00:03:46,280
die schon im Rentenalter sind. Aber es
gibt eben nicht nur demografische Daten,
43
00:03:46,280 --> 00:03:51,980
sondern ganz allgemein auch Daten zu den
Bereichen Wirtschaft und Umwelt. Also z.B.
44
00:03:51,980 --> 00:03:56,870
Daten zu Industrie und Gewerbe oder Daten
zum Tourismus oder Daten zur
45
00:03:56,870 --> 00:04:01,670
Abfallentsorgung oder Daten zur
Landwirtschaft. In diesem Beispiel hier,
46
00:04:01,670 --> 00:04:06,650
da hab ich mir mal angeschaut, wo es in
Deutschland die meisten Schweine gibt. Und
47
00:04:06,650 --> 00:04:11,390
da gibt's einen ganz klaren Cluster in
Niedersachsen und in Teilen von Nordrhein-
48
00:04:11,390 --> 00:04:20,000
Westfalen. Und es gibt Zahlen zu Wahlen.
Also z.B. gültige Stimmen, Wahlbeteiligung
49
00:04:20,000 --> 00:04:25,160
oder Wahlberechtigte bei Landtagswahlen,
bei Bundestagswahlen und bei Europawahlen.
50
00:04:25,160 --> 00:04:29,870
Und für die letzte Europawahl hab ich mir
in dieser Grafik mal angeschaut, wo die
51
00:04:29,870 --> 00:04:35,420
Leute denn tendenziell eher grün wählen
und wo die Leute eher AfD wählen. Und dann
52
00:04:35,420 --> 00:04:39,440
sehen wir hier erst mal, dass es da eine
ganz klare Trennung gibt. Also die Grünen
53
00:04:39,440 --> 00:04:43,370
sind eher eine Partei der Westdeutschen
und die AfD ist scheinbar eher eine Partei
54
00:04:43,370 --> 00:04:48,950
der Ostdeutschen. Und am einen Ende des
Spektrums sehen wir dass in Freiburg im
55
00:04:48,950 --> 00:04:56,480
Breisgau 39 prozent grün gewählt haben,
während am anderen Ende des Spektrums in
56
00:04:56,480 --> 00:05:03,170
der Sächsischen Schweiz, Ost-Erzgebirge,
dort haben 33 Prozent die AfD gewählt. Und
57
00:05:03,170 --> 00:05:06,860
das ist jetzt auch nur ein ganz einfaches
Beispiel. Aber es gibt eben eine ganze
58
00:05:06,860 --> 00:05:15,950
Reihe von Daten aus dem Bereich der
Wahlen, mit denen ihr arbeiten könnt. Und,
59
00:05:15,950 --> 00:05:21,440
ein ganz wichtiger Aspekt ist, dass die
Statistiken der amtlichen Statistik in der
60
00:05:21,440 --> 00:05:24,710
Regel Zeitreihen sind. Das heißt, die
Beispiele, die ich gerade gezeigt habe,
61
00:05:24,710 --> 00:05:29,720
die haben immer den Zustand zu einem
bestimmten Zeitpunkt gezeigt. Aber die
62
00:05:29,720 --> 00:05:32,600
Daten gibt's eigentlich immer über die
Zeit, weil so eine Statistik, die wird
63
00:05:32,600 --> 00:05:38,270
immer wieder durchgeführt. Und dann haltet
ihr eine Zeitreihe, mit der ihr Verläufe
64
00:05:38,270 --> 00:05:42,500
zeigen könnt, wie ich das hier gemacht
habe, z.B. mit Immobilienpreisen für die
65
00:05:42,500 --> 00:05:50,435
Städte Hamburg, Berlin und Leipzig. Und
auf Basis dieser vier Beispiele, die ich
66
00:05:50,435 --> 00:05:53,330
jetzt gerade gezeigt habe, könnt ihr euch
wahrscheinlich ganz gut vorstellen, dass
67
00:05:53,330 --> 00:05:57,020
es eine Reihe von, ich sag mal,
zivilgesellschaftlichen Anwendungen für
68
00:05:57,020 --> 00:06:01,190
diese Daten gibt. Das ist einmal der
Bereich Journalismus. Also amtliche
69
00:06:01,190 --> 00:06:05,030
Statistiken sind ein super wertvolles
Werkzeug, z.B. für Datenjournalismus oder
70
00:06:05,030 --> 00:06:10,550
für Fact Checking. Und amtliche
Statistiken sind auch sehr wichtig, z.B.
71
00:06:10,550 --> 00:06:16,040
für die Sozialwissenschaften. Aber auch
für zivilgesellschaftliche Initiativen
72
00:06:16,040 --> 00:06:23,690
können Daten echter Mehrwert sein, z.B.
wenn eine Initiative Daten-gestützt für
73
00:06:23,690 --> 00:06:30,410
die gute Sache kämpfen will. Wenn man
jetzt anfängt mit amtlichen Statistiken
74
00:06:30,410 --> 00:06:35,330
zu arbeiten, dann ist es immer ganz
wichtig, sich einmal in den Hinterkopf zu
75
00:06:35,330 --> 00:06:39,290
rufen, wie diese Daten entstehen. Und dazu
erzähle ich immer ganz gerne diese
76
00:06:39,290 --> 00:06:42,350
Geschichte, die habt ihr in den letzten
Tagen vielleicht auch schon mal gehört.
77
00:06:42,350 --> 00:06:47,420
Und zwar war es so, dass etwa vor 2 000
Jahren Kaiser Augustus, der Kaiser des
78
00:06:47,420 --> 00:06:53,630
Römischen Reiches, einen Zensus angesetzt
hat, weil er bessere Daten über die
79
00:06:53,630 --> 00:07:01,550
Bevölkerung seines Reichs brauchte. Und im
Rahmen von diesem Zensus, da mussten Maria
80
00:07:01,550 --> 00:07:12,230
und Josef zusammen nach Bethlehem reisen,
um sich zählen zu lassen. Und das passiert
81
00:07:12,230 --> 00:07:19,070
auch heute noch. Also in allen
Industrienationen gibt es irgendeine Form
82
00:07:19,070 --> 00:07:23,930
von Zensus, der so ungefähr alle zehn
Jahre durchgeführt wird. Entweder in Form
83
00:07:23,930 --> 00:07:28,460
von einer klassischen Volkszählung, wo
wirklich Menschen von Tür zu Tür gehen und
84
00:07:28,460 --> 00:07:33,890
von der Bevölkerung Daten über jeden
einzelnen Haushalt erfassen oder, das ist
85
00:07:33,890 --> 00:07:38,630
der andere Ansatz, indem man Daten aus
Registern, die ohnehin vorliegen,
86
00:07:38,630 --> 00:07:44,780
zusammenfasst. Der Zensus in Deutschland,
der zum letzten Mal 2011 stattgefunden hat
87
00:07:44,780 --> 00:07:49,970
und zum nächsten Mal 2022 stattfindet, der
ist in erster Linie ein Register-Zensus.
88
00:07:49,970 --> 00:07:53,870
Das heißt, es werden Daten aus dem
Bevölkerungsregistern und anderen
89
00:07:53,870 --> 00:07:57,920
amtlichen Registern zusammengetragen und
dann wird eben mit statistischen Methoden
90
00:07:57,920 --> 00:08:05,030
berechnet, z.B. wie viele Menschen in
einer Stadt leben. Und zusätzlich gibt es
91
00:08:05,030 --> 00:08:10,160
dann ein eine kleinere Anzahl von
Menschen, die befragt wird, um das
92
00:08:10,160 --> 00:08:17,840
gegenzuchecken. Es gibt auch eben diese
andere Art, ein Zensus durchzuführen, die
93
00:08:17,840 --> 00:08:22,340
man Mikrozensus nennt. Und das ist eben
einfach ein Sample. Das heißt, man befragt
94
00:08:22,340 --> 00:08:26,420
einen bestimmten Teil der Gesellschaft und
dann nimmt man diese Daten und rechnet die
95
00:08:26,420 --> 00:08:32,480
hoch auf das ganze Land. Und es gibt den
Bereich der Sekundärstatistik, da werden
96
00:08:32,480 --> 00:08:37,880
z.B. Daten, die an anderer Stelle erfasst
werden, z.B. von der Agentur für Arbeit,
97
00:08:37,880 --> 00:08:42,110
die werden dann hinterher weitergegeben an
die Statistischen Ämter und die
98
00:08:42,110 --> 00:08:46,310
Statistischen Ämter, die bereiten dann
eine Statistik auf und veröffentlichen
99
00:08:46,310 --> 00:08:52,850
die. Und bei allen Verfahren ist es ganz
wichtig zu verstehen, dass die Daten eben
100
00:08:52,850 --> 00:08:59,150
nicht ein perfektes Abbild der Welt sind.
Es sind immer Daten, die nach einer
101
00:08:59,150 --> 00:09:03,860
bestimmten Methodik erhoben wurden und
weiterverarbeitet. Und die sind in der
102
00:09:03,860 --> 00:09:09,120
Regel nicht perfekt. Aber trotzdem ist die
amtliche Statistik normalerweise das
103
00:09:09,120 --> 00:09:12,180
Beste, was wir haben. Also die amtliche
Statistik ist in den meisten Fällen so
104
00:09:12,180 --> 00:09:21,090
etwas wie der Goldstandard der Daten. Ja,
und wichtig in diesem Zusammenhang ist
105
00:09:21,090 --> 00:09:24,990
auch – wir haben in Deutschland ein ganz
strenges Statistikgeheimnis, d. h. dass
106
00:09:24,990 --> 00:09:29,820
die Daten, die so gesammelt werden, werden
immer anonymisiert. Es werden nur
107
00:09:29,820 --> 00:09:33,750
aggregierte Zahlen veröffentlicht und
grundsätzlich dürfen Menschen oder
108
00:09:33,750 --> 00:09:40,320
Unternehmen nie nachträglich
identifizierbar sein. Und trotzdem oder
109
00:09:40,320 --> 00:09:46,920
auch deswegen ist in Deutschland der
Zensus immer hochumstritten, also in den
110
00:09:46,920 --> 00:09:54,060
80er Jahren, da gab es sehr große Proteste
und auch Verfassungsbeschwerden gegen den
111
00:09:54,060 --> 00:09:59,640
Zensus. Und das ist auch der Grund, warum
wir heute in Deutschland überhaupt dieses
112
00:09:59,640 --> 00:10:04,530
Konzept eines Rechts auf informationelle
Selbstbestimmung in dieser Form haben. Das
113
00:10:04,530 --> 00:10:09,180
heißt, die Proteste, die es immer wieder
gibt gegen den Zensus, die sind sehr
114
00:10:09,180 --> 00:10:12,900
wichtig für den Datenschutz in
Deutschland. Aber ich will das jetzt gar
115
00:10:12,900 --> 00:10:17,220
nicht so thematisieren. In diesem Vortrag
soll es eher darum gehen, dass diese Daten
116
00:10:17,220 --> 00:10:21,510
jetzt da sind und dass wir euch in die
Position versetzen wollen, mit diesen
117
00:10:21,510 --> 00:10:29,100
Daten auch wirklich zu arbeiten. Wenn ihr
jetzt euch überlegt habt: Okay, ich
118
00:10:29,100 --> 00:10:32,070
brauche Statistiken zu einem bestimmten
Thema und die finde ich vielleicht in der
119
00:10:32,070 --> 00:10:38,370
amtlichen Statistik und ihr sucht mal im
Web, dann seid ihr höchstwahrscheinlich
120
00:10:38,370 --> 00:10:42,000
erst einmal ziemlich erschlagen, weil es
wirklich sehr, sehr viele Angebote im Web
121
00:10:42,000 --> 00:10:46,950
gibt, die amtliche Statistiken zur
Verfügung stellen. Und die sind leider
122
00:10:46,950 --> 00:10:52,140
auch von sehr unterschiedlicher Qualität.
Der Grund dafür ist, einfach gesagt,
123
00:10:52,140 --> 00:10:56,130
Föderalismus. Also wir haben in
Deutschland eben das Statistische
124
00:10:56,130 --> 00:11:01,920
Bundesamt und das wird auch Destatis
genannt. Und wir haben 14 statistische
125
00:11:01,920 --> 00:11:05,850
Landesämter. Außerdem haben wir noch den
Bereich der Kommunalstatistik oder
126
00:11:05,850 --> 00:11:08,700
städtisch statistische Ämter, wo
eigentlich in jeder Kommune in Deutschland
127
00:11:08,700 --> 00:11:13,170
auch irgendwie Daten erfasst werden. Und
all diese Daten werden dann auch in
128
00:11:13,170 --> 00:11:20,400
irgendeiner Form im Web veröffentlicht.
Und da haben wir sehr, ich sag mal, coole
129
00:11:20,400 --> 00:11:24,900
oder moderne Angebote wie das hier. Das
ist ganz neu - das Dashboard Deutschland
130
00:11:24,900 --> 00:11:29,880
vom Statistischen Bundesamt. Und hier
könnt ihr euch so eine Sammlung von
131
00:11:29,880 --> 00:11:35,190
aktuellen Statistiken angucken. Die sind
dann auch dargestellt in so ziemlich
132
00:11:35,190 --> 00:11:40,260
coolen Grafiken. Aber ihr habt halt keine
Möglichkeit, jetzt nach einem bestimmten
133
00:11:40,260 --> 00:11:45,630
Thema zu suchen oder die Daten hinterher
runterzuladen und in euren eigenen
134
00:11:45,630 --> 00:11:50,670
Analysen oder Grafiken
weiterzuverarbeiten. Das heißt, wenn ihr
135
00:11:50,670 --> 00:11:54,210
damit eigene Sachen machen wollt mit
diesen Daten, dann sind solche
136
00:11:54,210 --> 00:12:01,440
Veröffentlichungen relativ nutzlos. Und
noch viel schlimmer ist dieses Beispiel:
137
00:12:01,440 --> 00:12:07,200
Das gibt es leider immer noch, dass Daten
einfach in ein PDF gepackt werden in Form
138
00:12:07,200 --> 00:12:12,480
von einer Tabelle oder einer Grafik. Und
hinterher ist es dann sehr schwer für
139
00:12:12,480 --> 00:12:20,340
euch, diese Daten wieder rauszuholen aus
diesem PDF. Und damit ihr jetzt diese
140
00:12:20,340 --> 00:12:26,310
Recherche nicht selber machen müsst, hab
ich mal für euch zusammengefasst, was die
141
00:12:26,310 --> 00:12:29,940
richtig guten Portale sind, wo ihr
höchstwahrscheinlich oder hoffentlich auch
142
00:12:29,940 --> 00:12:37,800
die Daten findet, die ihr braucht. Der
erste Startpunkt ist... oder sollte
143
00:12:37,800 --> 00:12:43,020
normalerweise GENESIS Online sein. GENESIS
Online ist so die zentrale Datenbank oder
144
00:12:43,020 --> 00:12:47,190
das zentrale Datenportal des Statistischen
Bundesamts. Hier habt ihr jetzt gleich so
145
00:12:47,190 --> 00:12:50,250
ein großes Suchfeld, da könnt ihr ein
Thema eingeben und dann findet ihr
146
00:12:50,250 --> 00:12:55,470
hoffentlich Daten, die euch interessieren,
könnt die dann als Tabelle anzeigen und
147
00:12:55,470 --> 00:13:01,050
runterladen. Aber damit es nicht zu
einfach ist, gibt es nicht nur dieses
148
00:13:01,050 --> 00:13:06,330
blaue Daten-Portal, sondern es gibt das
ganze auch nochmal in Rot. Und das hier
149
00:13:06,330 --> 00:13:10,200
ist die Regional-Datenbank Deutschland und
das ist die gemeinsame Plattform der
150
00:13:10,200 --> 00:13:14,010
Statistischen Ämter in Deutschland. Und
hier findet ihr eben Daten
151
00:13:14,010 --> 00:13:18,090
heruntergebrochen auf die verschiedenen
Regionen. Das heißt, wenn ihr Daten sucht
152
00:13:18,090 --> 00:13:22,170
über eure Stadt oder euren Landkreis und
die vielleicht sogar mit anderen Regionen
153
00:13:22,170 --> 00:13:25,980
vergleichen wollt, dann findet ihr diese
Daten hier in der Regionaldatenbank
154
00:13:25,980 --> 00:13:32,080
Deutschland. Jetzt ist es so, dass diese
Daten leider oft nicht sehr aktuell sind
155
00:13:32,080 --> 00:13:37,300
und auch oft nicht so detailliert, wie man
sie vielleicht braucht. Und wenn ihr da...
156
00:13:37,300 --> 00:13:40,510
ich sage mal, noch genauere oder
aktuellere Daten braucht, dann hilft es
157
00:13:40,510 --> 00:13:45,760
immer, sich auch die Portale der
Statistischen Landesämter anzuschauen.
158
00:13:45,760 --> 00:13:50,740
Also jedes Statistische Landesamt hat auch
so ein Daten-Portal und das funktioniert
159
00:13:50,740 --> 00:13:54,370
letzten Endes auch wie
regionalstatistik.de oder GENESIS Online.
160
00:13:54,370 --> 00:14:00,700
Und der Grund, warum diese Portale alle
sehr ähnlich aussehen, ist, dass die
161
00:14:00,700 --> 00:14:02,680
meisten dieser Portale auf der gleichen
Softwarelösung basieren. Diese Software-
162
00:14:02,680 --> 00:14:09,460
Lösung heißt Genesis. Und das ist halt so
eine Eigenentwicklung der Statistischen
163
00:14:09,460 --> 00:14:16,960
Ämter, die die dann benutzen, um ihre
eigenen Daten-Portale aufzusetzen. Und in
164
00:14:16,960 --> 00:14:24,370
diesen GENESIS-Anwendungen, da könnt ihr
einfach gesagt nach einem Thema suchen
165
00:14:24,370 --> 00:14:29,830
oder nach einer Statistik suchen, die ihr
braucht. Und wenn ihr eine gefunden habt,
166
00:14:29,830 --> 00:14:33,490
dann klickt ihr euch durch so ein Menü und
dann könnt ihr euch eben eine Tabelle
167
00:14:33,490 --> 00:14:41,410
anzeigen. Und diese Tabelle könnt ihr dann
entweder in eine einfache Grafik
168
00:14:41,410 --> 00:14:50,530
verarbeiten direkt auf diesem Portal. Oder
ihr könnt sie exportieren in einer Excel-
169
00:14:50,530 --> 00:14:54,820
Tabelle oder eine CSV-Datei. Jetzt ist es
leider so, dass dieses
170
00:14:54,820 --> 00:14:58,780
Datenvisualisierungstool leider nur sehr
rudimentär ist. Und ich hab's ehrlich
171
00:14:58,780 --> 00:15:04,450
gesagt noch nie geschafft, damit irgendwas
sinnvoll Verwendbares zu generieren. Und
172
00:15:04,450 --> 00:15:11,320
dieser Daten Export für Excel und CSV, der
ist auch nicht maschinenlesbar. Das heißt,
173
00:15:11,320 --> 00:15:15,070
es sind verschachtelte Daten, die können
nur schwer mit anderen Tools
174
00:15:15,070 --> 00:15:20,512
weiterverarbeitet werden, ohne sie vorher
händisch aufzurollen. Erwähnenswert ist
175
00:15:20,512 --> 00:15:25,563
noch, dass es einen Webservice gibt, also
eine Daten-Schnittstelle, mit der er
176
00:15:25,563 --> 00:15:30,682
direkt auf Datensätze zugreifen könnt. Die
verwendete bisher Soap, also Soap ist
177
00:15:30,682 --> 00:15:36,489
quasi ein Standard für Datenschnittstellen
- der ist eher so aus dem letzten
178
00:15:36,489 --> 00:15:41,875
Jahrhundert und wird heute eher so im
Enterprise Segment eingesetzt. Soap ist
179
00:15:41,875 --> 00:15:46,844
eher nicht so das Werkzeug, mit dem ich
normalerweise jeden Tag arbeite, aber -
180
00:15:46,844 --> 00:15:50,965
und das ist ganz neu, es gibt jetzt auch
eine REST-Schnittstelle, also eine
181
00:15:50,965 --> 00:15:55,368
modernere Datenschnittstelle, die euch
JSON zurückgibt. Und es gibt die
182
00:15:55,368 --> 00:16:00,934
Möglichkeit, ein neues Datenformat zu
exportieren. Das nennen die Statistischen
183
00:16:00,934 --> 00:16:05,030
Ämter Flat CSV und ein Flat CSV ist
einfach ein normale CSV-Datei, die nicht
184
00:16:05,030 --> 00:16:11,252
verschachtelt ist und deswegen einfacher
zu verarbeiten. Also hier sehen wir so ein
185
00:16:11,252 --> 00:16:17,885
Beispiel. Wenn ihr jetzt auf
regionalstatistik.de z.B. eine Tabelle
186
00:16:17,885 --> 00:16:23,225
gefunden habt, dann könnt ihr euch die
anzeigen lassen, das sieht dann so aus.
187
00:16:23,225 --> 00:16:26,663
Das ist so eine verschachtelte Tabellen
Darstellung und da könnt ihr jetzt den
188
00:16:26,663 --> 00:16:30,626
Wert raussuchen oder die Zahl raussuchen,
die ihr braucht. Oder ihr könnt euch das
189
00:16:30,626 --> 00:16:37,977
Ganze eben als Excel oder CSV-Datei
exportieren oder ihr könnt die in so einer
190
00:16:37,977 --> 00:16:46,500
einfachen Grafik aufbereiten. Ganz
wichtig: Diese Daten sind Open Data. Sie
191
00:16:46,500 --> 00:16:51,795
erscheinen unter der Datenlizenz
Deutschland. Die erfordert eine
192
00:16:51,795 --> 00:16:56,188
Namensnennung, einen Verweis auf die
Lizenz und einen Verweis auf den
193
00:16:56,188 --> 00:17:01,228
Datensatz, den ihr verwendet. Also auf den
Ort, von dem er diesen Datensatz
194
00:17:01,228 --> 00:17:06,922
heruntergeladen habt. Und das ist sehr
ähnlich wie eine CC-BY Lizenz. Das ist
195
00:17:06,922 --> 00:17:12,427
jetzt nicht die perfekte Lizenz für Open
Data, also z.B. CC0 wäre irgendwie
196
00:17:12,427 --> 00:17:17,021
einfacher zu verwenden, aber es ist jetzt
auch nicht das Schlechteste. Grundsätzlich
197
00:17:17,021 --> 00:17:21,080
könnt ihr diese Daten also weiter
verwenden. Vor einem Jahr, da wäre jetzt
198
00:17:21,080 --> 00:17:26,858
an dieser Stelle des Vortrags ein großer
Rant gekommen darüber, wie schlimm diese
199
00:17:26,858 --> 00:17:31,657
GENESIS-Software ist. Aber ich muss sagen,
dass GENESIS in den letzten Monaten
200
00:17:31,657 --> 00:17:36,911
wirklich deutlich verbessert wurde. Das
heißt, die Plattform ist jetzt auf jeden
201
00:17:36,911 --> 00:17:41,650
Fall nutzerfreundlicher. Aber trotzdem
gibt's immer noch eine Reihe von
202
00:17:41,650 --> 00:17:45,265
Problemen. Das größte Problem aus meiner
Sicht ist, dass es keine stabilen URLs
203
00:17:45,265 --> 00:17:49,613
gibt. Das heißt, es gibt eine
sessionbasierte Navigation. Und wenn ihr
204
00:17:49,613 --> 00:17:55,307
in eine Tabelle gefunden habt, die ihr
benutzen wollt und ihr kopiert in der
205
00:17:55,307 --> 00:17:59,780
Browserleiste die URL dazu, dann könnt ihr
die nicht jemand anderem schicken, weil
206
00:17:59,780 --> 00:18:03,485
sie dann nicht mehr funktionieren wird.
Deshalb werdet ihr auch die Browser vor
207
00:18:03,485 --> 00:18:08,281
und zurück Navigation nur eingeschränkt
nutzen können und die Seite wird eben
208
00:18:08,281 --> 00:18:13,190
nicht von Suchmaschinen indiziert. Das
heißt, wenn ihr auf DuckDuckGo oder auf
209
00:18:13,190 --> 00:18:18,656
Google nach einer Statistik sucht, dann
werdet ihr kein Ergebnis von der GENESIS-
210
00:18:18,656 --> 00:18:24,285
Datenbank finden. Das nächste Problem ist,
dass der Datenabruf je nach Plattform und
211
00:18:24,285 --> 00:18:28,289
je nachdem, wie viele Daten ihr
herunterladen wollt, eine Anmeldung
212
00:18:28,289 --> 00:18:32,920
erfordert. Das heißt, ihr sucht euch eine
Tabelle aus, die ihr benutzen wollt und
213
00:18:32,920 --> 00:18:36,865
dann könnt ihr die eben nicht direkt
runterladen, sondern ihr müsst euch erst
214
00:18:36,865 --> 00:18:40,742
ein Login anlegen und mit diesem Login
könnt ihr die Daten dann bestellen und
215
00:18:40,742 --> 00:18:44,934
danach in so einer Art digitalem Postfach
abrufen. Hier wäre es natürlich schöner,
216
00:18:44,934 --> 00:18:50,328
wenn man einfach direkt auf den Datensatz
zugreifen könnte. Wenn ihr die Daten
217
00:18:50,328 --> 00:18:55,835
weiterverarbeiten wollt, dann steht ihr
vor dem Problem, dass dieser Datenexport,
218
00:18:55,835 --> 00:19:00,733
der ein CSV generiert, sehr speziell ist.
Das heißt, die Daten sind verschachtelt.
219
00:19:00,733 --> 00:19:08,126
Sie verwenden ein deutsches Zahlenformat,
also Komma als Dezimaltrennzeichen und sie
220
00:19:08,126 --> 00:19:14,766
verwenden nicht etwa Unicode oder UTF 8
als Zeichenkodierung wie die meisten
221
00:19:14,766 --> 00:19:20,354
modernen Tools, sondern Windows 1252. Und
meine Vermutung ist, dass dieses ein
222
00:19:20,354 --> 00:19:26,157
bisschen schräge Format gewählt wurde, um
maximale Kompatibilität mit Microsoft
223
00:19:26,157 --> 00:19:31,071
Office sicherzustellen. Das heißt, die
Tabellen sind dafür gemacht, dass man sie
224
00:19:31,071 --> 00:19:34,912
in Excel öffnet und dann auf DIN-A4
ausdruckt. Nicht unbedingt dafür, sie
225
00:19:34,912 --> 00:19:38,828
einfach direkt in einem
Datenvisualisierungstool weiterverarbeiten
226
00:19:38,828 --> 00:19:42,135
zu können. Und jetzt könnte man denken:
Okay, aber es gibt eine
227
00:19:42,135 --> 00:19:45,570
Datenschnittstelle, wo ich die Daten
herunterladen kann. Und hier ist es so,
228
00:19:45,570 --> 00:19:51,133
dass diese Datenschnittstellen leider eine
sehr hohe Lernschwelle haben. Z.B. diese
229
00:19:51,133 --> 00:19:56,200
neue Rest-API, die kommt mit einem 200
seitigen Handbuch und ich denke da kann
230
00:19:56,200 --> 00:20:00,085
man schon ganz gut sehen, dass sie nicht
gedacht ist für, ich sage mal so, casual
231
00:20:00,085 --> 00:20:04,490
Datennutzer, die einfach nur schnell eine
Tabelle herunterladen möchten. Und das ist
232
00:20:04,490 --> 00:20:10,700
der Punkt, wo jetzt Datenguide zum Einsatz
kommt. Was wir bei Datenguide machen, ist:
233
00:20:10,700 --> 00:20:14,629
Wir nehmen uns die Daten aus
regionalstatistik.de und laden die Daten
234
00:20:14,629 --> 00:20:20,540
einfach einmal alle runter. Also wir
nehmen diese regionalen Statistiken und
235
00:20:20,540 --> 00:20:25,167
machen einen riesen Datenimport. Den
machen wir jede Nacht, damit wir eine
236
00:20:25,167 --> 00:20:29,315
Spiegelung haben, die aktuell ist. Und die
Daten stellen wir dann eben über unsere
237
00:20:29,315 --> 00:20:33,400
eigenen Datenschnittstelle in unserem
eigenen Format zur Verfügung und
238
00:20:33,400 --> 00:20:38,518
entwickeln dann eine Webanwendung auf
Basis dieser Daten, mit denen ihr die
239
00:20:38,518 --> 00:20:44,732
Daten durchsuchen und herunterladen könnt.
Das sieht dann ungefähr so aus. Wir nennen
240
00:20:44,732 --> 00:20:51,679
es das Datenguide Datenportal und das ist
ein experimentelles Tool, mit dem ihr eine
241
00:20:51,679 --> 00:20:56,903
Region oder mehrere Regionen auswählen
könnt und dann eine Statistik für diese
242
00:20:56,903 --> 00:21:01,371
Region. Und dann könnt ihr noch ein paar
Einstellungen machen und z.B. innerhalb
243
00:21:01,371 --> 00:21:05,903
der Statistik weiter einschränken, was ihr
braucht. Und dann könnt ihr die Daten
244
00:21:05,903 --> 00:21:09,631
herunterladen. Und die sind dann
idealerweise schon in einem Format, was
245
00:21:09,631 --> 00:21:12,766
ihr genau so einfach in einem
Datenvisualisierungstool oder
246
00:21:12,766 --> 00:21:18,265
Datenanalyse-Tool weiterverwenden könnt,
ohne dass ihr die Daten erstmal von Hand
247
00:21:18,265 --> 00:21:23,511
aufräumen musst. Und wir haben eben nicht
nur dieses Datenportal, sondern wir
248
00:21:23,511 --> 00:21:27,710
verwenden die Daten auch, um auf der
Datenguide Website die Statistiken zu
249
00:21:27,710 --> 00:21:33,080
erklären. Wir haben eben festgestellt,
dass die Nutzbarmachung von statistischen
250
00:21:33,080 --> 00:21:38,735
Daten eben nicht nur ein rein technisches
Problem ist, sondern auch ein Problem mit
251
00:21:38,735 --> 00:21:42,840
Data Literacy. Das heißt, Menschen müssen
einfach wissen, wie sie mit diesen Daten
252
00:21:42,840 --> 00:21:45,896
umgehen, damit sie mit diesen Daten
umgehen können. Und deswegen haben wir ja
253
00:21:45,896 --> 00:21:51,522
jetzt so verschiedene Erklärstücke
veröffentlicht auf der Datenguide-Website.
254
00:21:51,522 --> 00:21:56,857
Und diese Daten, die wir zur Verfügung
stellen, die wollen wir eben nicht nur zur
255
00:21:56,857 --> 00:22:01,012
Verfügung stellen für unser eigenes Tool,
sondern wir haben ganz bewusst eine offene
256
00:22:01,012 --> 00:22:07,389
API, die Dritte verwenden können, um dann
ihre eigenen Anwendungen auf Basis dieser
257
00:22:07,389 --> 00:22:11,654
Daten zu entwickeln. Es gibt zwei
Datenschnittstellen, also zwei
258
00:22:11,654 --> 00:22:16,025
verschiedene Datenschnittstellen, die wir
zur Verfügung stellen. Die erste ist ein
259
00:22:16,025 --> 00:22:20,705
einfacher Tabellendownload über http und
der ist einfach dafür gedacht, dass ihr
260
00:22:20,705 --> 00:22:25,928
z.B. direkt im Browser einfach über die
URLleiste einen Link eingebt und dann
261
00:22:25,928 --> 00:22:31,247
kriegt ihr eine Tabelle zurück. Und das
ist dieser Tabellen Download, den man eben
262
00:22:31,247 --> 00:22:35,997
auch mit dem Datenguide Datenportal
zusammenbauen kann. Und diese Tabellen
263
00:22:35,997 --> 00:22:41,370
könnt ihr dann entweder in verschiedenen
CSV Formaten - je nachdem was ihr braucht
264
00:22:41,370 --> 00:22:47,928
- runterladen oder als JSON, um sie z.B.
mit JavaScript weiter zu verarbeiten. Und
265
00:22:47,928 --> 00:22:54,242
wenn ihr eine komplexere Anwendungen plant
auf Basis von statistischen Daten, dann
266
00:22:54,242 --> 00:22:59,546
könnt ihr diese andere Datenschnittstelle
verwenden, die wir zur Verfügung stellen,
267
00:22:59,546 --> 00:23:04,613
die verwendet GraphQL. GraphQL ist, ich
sage mal einfach gesagt, ein moderner
268
00:23:04,613 --> 00:23:10,212
Standard für Datenschnittstellen, um
komplexere Anwendungen zu realisieren.
269
00:23:10,212 --> 00:23:15,004
Beide Datenschnittstellen sind
experimentell in dem Sinne, dass es da
270
00:23:15,004 --> 00:23:18,647
durchaus noch Probleme gibt und auch
Fehler, von denen wir zum Teil schon
271
00:23:18,647 --> 00:23:22,579
wissen und zum Teil wahrscheinlich noch
nicht. Und dass die sich auch in ihrer
272
00:23:22,579 --> 00:23:29,570
Spezifikation noch ändern. Das heißt, es
gibt keine finale Spezifikation für unsere
273
00:23:29,570 --> 00:23:36,432
Datenschnittstellen. Wenn ihr jetzt diesen
Tabellen Download nutzen wollt, dann
274
00:23:36,432 --> 00:23:41,034
funktioniert das im einfachsten Fall so,
dass ihr auf die Datenguide Website geht.
275
00:23:41,034 --> 00:23:45,319
Dort benutzt ihr dieses Datenportal, um
eine Region oder eine Reihe von Regionen
276
00:23:45,319 --> 00:23:50,803
auszuwählen, eine Statistik auszuwählen
und dann klickt ihr eben auf Datendownload
277
00:23:50,803 --> 00:23:56,618
oder ihr kopiert einfach die CSV Daten in
die Zwischenablage und dann fügt ihr die
278
00:23:56,618 --> 00:24:01,106
Daten in einem Datenvisualisierungstool
eurer Wahl ein. Ich habe das zum
279
00:24:01,106 --> 00:24:05,178
Beispiel... also diese Grafiken, die ich
eingangs gezeigt habe, die habe ich mit
280
00:24:05,178 --> 00:24:09,065
Data Wrapper gemacht. Das ist ein
einfaches Datenvisualisierungstool. Da
281
00:24:09,065 --> 00:24:13,545
könnt ihr quasi so eine CSV-Datei rein
laden und dann könnt ihr quasi eine Karte
282
00:24:13,545 --> 00:24:18,977
davon erstellen oder ein Liniendiagramm.
Und - Full Disclosure - ich arbeite auch
283
00:24:18,977 --> 00:24:24,054
an Data Wrapper, aber nach dem gleichen
Prinzip könnt ihr die Daten mit einem
284
00:24:24,054 --> 00:24:33,190
beliebigen Datenvisualisierungstool oder
Analysetool eurer Wahl verwenden. Das ist
285
00:24:33,190 --> 00:24:41,389
ein Beispiel für die Verwendung von dieser
fortgeschrittenen GraphQL Schnittstelle.
286
00:24:41,389 --> 00:24:47,328
Das ist ein einfaches Quiz zu amtlichen
Statistiken, was bei einem Hack-Day
287
00:24:47,328 --> 00:24:54,105
entstanden ist, und hier könnt ihr quasi
euer Wissen über eure Region testen, auf
288
00:24:54,105 --> 00:24:59,964
Basis von amtlichen Statistiken. Und ein
bisschen praktischeres Beispiel für die
289
00:24:59,964 --> 00:25:04,018
Nutzung von dieser GraphQL-Schnittstelle
ist Datenguide Python. Datenguide Python
290
00:25:04,018 --> 00:25:09,873
ist eine Python Bibliothek, mit der ihr
eben direkt aus Python heraus, z.B. aus
291
00:25:09,873 --> 00:25:15,672
einem Jupyter Notebook, auf amtliche
Statistiken zugreifen könnt, ohne dass ihr
292
00:25:15,672 --> 00:25:20,109
euch selber mit http requests oder so
auseinandersetzen müsst. Das ist ein
293
00:25:20,109 --> 00:25:28,389
Projekt, das wird von einer befreundeten
Organisation betreut, Correlate, und die haben
294
00:25:28,389 --> 00:25:33,868
auf Basis der Datenschnittstelle diese
Bibliothek entwickelt, um es einfacher zu
295
00:25:33,868 --> 00:25:41,013
machen, mit Python auf amtliche
Statistiken zuzugreifen. Das war
296
00:25:41,013 --> 00:25:46,307
eigentlich schon alles, was ich hatte.
Datenguide ist jetzt an einem Punkt, wo
297
00:25:46,307 --> 00:25:52,275
wir uns überlegen: Wie geht es weiter?
Also wir machen das jetzt seit drei Jahren
298
00:25:52,275 --> 00:25:56,595
und wir sind ursprünglich unter der Maxime
gestartet, dass wir gesagt haben, wir
299
00:25:56,595 --> 00:26:01,466
machen Datenguide, um es irgendwann wieder
abschalten zu können, weil idealerweise
300
00:26:01,466 --> 00:26:07,183
wir nur eine eine Demo oder ein Proof of
Concept entwickeln. Und auf dieser Basis
301
00:26:07,183 --> 00:26:12,247
erkennen dann die Statistischen Ämter, wie
sie ihre Arbeit besser machen können, um,
302
00:26:12,247 --> 00:26:17,017
ich sag mal, normale Leute zu erreichen.
Jetzt ist es so, dass GENESIS online in
303
00:26:17,017 --> 00:26:22,548
den letzten Jahren oder in den letzten
Monaten deutlich besser geworden ist. Aber
304
00:26:22,548 --> 00:26:27,556
trotzdem ist es noch nicht so weit, dass
wir Datenguide jetzt irgendwie nächstes
305
00:26:27,556 --> 00:26:32,009
Jahr abschalten werden. Das heißt, wir
überlegen uns weiterhin: Was können wir
306
00:26:32,009 --> 00:26:37,041
tun, um amtliche Statistiken besser
aufzubereiten, damit sie für alle nutzbar
307
00:26:37,041 --> 00:26:42,833
und auch nützlich sind? Und in diesem
Zusammenhang müssen wir eben auch unsere
308
00:26:42,833 --> 00:26:46,737
Webanwendungen und die
Datenschnittstellen, die wir zur Verfügung
309
00:26:46,737 --> 00:26:51,857
stellen noch einfacher und vor allem auch
stabiler machen. Und in dem Zusammenhang
310
00:26:51,857 --> 00:26:58,342
ist auch relevant, dass es jetzt eben
diese neuen Schnittstellen gibt in GENESIS
311
00:26:58,342 --> 00:27:01,935
Online. Also ich hab ja vorhin von dieser
neuen Rest Schnittstelle gesprochen und
312
00:27:01,935 --> 00:27:06,450
ich könnte mir gut vorstellen, dass man
die benutzen kann, um unsere
313
00:27:06,450 --> 00:27:13,891
Dateninfrastruktur bei Datenguide noch
einfacher zu machen. Das heißt, wir sind
314
00:27:13,891 --> 00:27:18,936
jetzt an dem Punkt, wo wir so ein bisschen
an der Orientierung feilen, aber auch eben
315
00:27:18,936 --> 00:27:26,123
weiter aktiv an den Tools arbeiten, die
wir schon haben. Und dazu auch nochmal die
316
00:27:26,123 --> 00:27:29,762
Ansage, dass das eben ein Open-Source-
Projekt ist. Das heißt, wir sind im Moment
317
00:27:29,762 --> 00:27:34,050
eine kleine Gruppe von Leuten, die daran
arbeitet. Und wenn ihr euch auch beruflich
318
00:27:34,050 --> 00:27:38,745
mit amtlichen Statistiken auseinandersetzt
oder Interesse habt, an so einem Projekt
319
00:27:38,745 --> 00:27:48,247
beizutragen, dann kontaktiert uns gerne.
Ihr findet uns oder ihr erreicht uns über
320
00:27:48,247 --> 00:27:53,971
community@datengui.de. Oder ihr findet uns
auf Twitter, auf Mastodon oder eben auf
321
00:27:53,971 --> 00:28:00,682
GitHub. Und jetzt haben wir noch Zeit für
ein paar Fragen. Vielen Dank.
322
00:28:00,682 --> 00:28:04,250
Herald: "Kontaktiert uns sehr gerne und
findet uns." Das gilt natürlich vor allem
323
00:28:04,250 --> 00:28:08,589
für so eine langfristige Perspektive.
Kurzfristig können wir hier direkt Simon
324
00:28:08,589 --> 00:28:14,285
Fragen stellen. Das heißt, ihr könnt alle
Fragen stellen. Wir können Fragen stellen,
325
00:28:14,285 --> 00:28:21,097
indem ihr z.B. im IRC - okay, ich sollte
das vielleicht noch ein bisschen muten.
326
00:28:21,097 --> 00:28:30,025
Hört man das? Wahrscheinlich. Ah, Profi
Version. Gut. Wo war ich? Genau, wie kommt
327
00:28:30,025 --> 00:28:35,599
ihr ins IRC? Wo könnte ihr die Fragen
stellen? Ihr könnt einfach, wenn ihr auf
328
00:28:35,599 --> 00:28:40,987
media.ccc.de wahrscheinlich seid, da gibt
es einen kleinen Button, wo Chat steht. Da
329
00:28:40,987 --> 00:28:45,058
könnt ihr draufklicken und dann öffnet
sich direkt im Browser ein Chatfenster. Da
330
00:28:45,058 --> 00:28:49,980
könnt ihr reinkommen und könnt dort eure
Fragen stellen. Genauso geht es aber auch
331
00:28:49,980 --> 00:28:54,881
auf Mastodon und auf Twitter. Das hab ich
auch alles im Blick. Ihr müsste dazu dann
332
00:28:54,881 --> 00:29:00,940
den Hashtag #rC3Wikipaka ergänzen, dass
wir das dann auch rechtzeitig sehen. So,
333
00:29:00,940 --> 00:29:10,419
wir haben auch schon die ersten Fragen.
Vielleicht als allererstes: Amtliche
334
00:29:10,419 --> 00:29:14,986
Statistiken - wenn man darüber nachdenkt,
dann geht es auch immer darum, dass es
335
00:29:14,986 --> 00:29:19,883
eben um einzelne kommunale
Verwaltungsgebiete geht. Postleitzahlen,
336
00:29:19,883 --> 00:29:25,338
Kreise, was auch immer, die verändern sich
aber über die Zeit. Das heißt, es gibt
337
00:29:25,338 --> 00:29:29,882
sowas wie Gebietsreformen. Und dann ist
die Frage: Wie geht man damit um? Wo
338
00:29:29,882 --> 00:29:36,317
gibt's Informationen, wann sich was wie
ändert?
339
00:29:36,317 --> 00:29:39,890
Simon: Ja, das ist eine sehr gute Frage,
tatsächlich, und auch Probleme, die man in
340
00:29:39,890 --> 00:29:44,342
der Praxis immer wieder zu tun hat. Wir
haben es bei Datenguide bisher ausgespart,
341
00:29:44,342 --> 00:29:49,041
uns mit dem Problem auseinanderzusetzen,
einfach weil wir andere Probleme haben,
342
00:29:49,041 --> 00:29:56,675
auf die wir uns konzentrieren. Aber es
gibt auf jeden Fall Verfahren, wie man das
343
00:29:56,675 --> 00:30:00,630
umrechnen kann, sage ich mal einfach. Also
wenn man... normalerweise hat man einen
344
00:30:00,630 --> 00:30:04,912
Datensatz und die Region verschwindet oder
es gibt... die Region geht in zwei neuen
345
00:30:04,912 --> 00:30:08,386
Regionen auf oder zwei Regionen werden zu
einer zusammengefasst. Nur um so zu
346
00:30:08,386 --> 00:30:15,067
erklären, was das Datenproblem bei einer
Gebietsreform ist. Und es gibt eine Liste
347
00:30:15,067 --> 00:30:18,252
der Gemeinden, die wird von den
statistischen Ämtern veröffentlicht jedes
348
00:30:18,252 --> 00:30:26,060
Jahr und da sieht man dann halt
Änderungen. Und es gibt das BBSR. Das ist
349
00:30:26,060 --> 00:30:32,345
das Bundesamt für - das muss ich jetzt mal
nachgucken - das Bundesamt für Bauwesen
350
00:30:32,345 --> 00:30:38,953
und Raumordnung und die haben auch Infos
zu dem Thema. Und ich weiß auch, dass
351
00:30:38,953 --> 00:30:45,351
Datenjournalistenkollegen von mir dann
auch schon direkt beim BBSR angefragt
352
00:30:45,351 --> 00:30:51,507
haben, wenn es darum ging, konkret ein
Problem aufzulösen oder quasi eine
353
00:30:51,507 --> 00:30:57,206
Änderung, die stattgefunden hat, irgendwie
auf die Daten zu übertragen. Das heißt, da
354
00:30:57,206 --> 00:31:00,611
gibt's durchaus Verfahren, aber man muss
sich damit ein bisschen auseinandersetzen.
355
00:31:00,611 --> 00:31:04,998
Und es ist nichts von dem, das wir jetzt
einfach automatisiert durch Datenguide
356
00:31:04,998 --> 00:31:10,662
lösen können. Also ich glaube, das
Stichwort wäre: Liste der Gemeinden bei
357
00:31:10,662 --> 00:31:18,898
Destatis und im Zweifelsfall das BBSR
kontaktieren bzw. schauen, ob die Infos
358
00:31:18,898 --> 00:31:25,878
auf ihrer Website parat halten. Ich höre
dich leider nicht, Julia.
359
00:31:25,878 --> 00:31:30,660
Herald: Vielen Dank dafür. Die nächste
Frage wäre: Muss man sich denn
360
00:31:30,660 --> 00:31:35,239
identifizieren, um Daten zu bekommen oder
kann man sie anonym bekommen?
361
00:31:35,239 --> 00:31:39,650
Simon: Also man kann die Daten anonym
bekommen. Sowohl bei uns, als auch bei den
362
00:31:39,650 --> 00:31:45,620
statistischen Ämtern, wenn man einfach nur
Daten runterladen will. Also ich hab ja im
363
00:31:45,620 --> 00:31:52,130
Talk erwähnt, dass man teilweise für diese
GENESIS-Datenbanken einen Login braucht
364
00:31:52,130 --> 00:31:57,752
und da kann man sich meinem Verständnis
nach einfach anmelden. Ich hab das jetzt
365
00:31:57,752 --> 00:32:02,206
schon eine Weile nicht mehr gemacht, aber
man kann sich glaub ich einfach anmelden,
366
00:32:02,206 --> 00:32:05,724
ohne dass man Daten angeben muss. Man
braucht, soweit ich das in Erinnerung
367
00:32:05,724 --> 00:32:10,239
habe, nur eine E-Mail-Adresse und dann
bekommt man quasi einen generierten
368
00:32:10,239 --> 00:32:15,407
Nutzernamen. Ich glaube, anders ist es,
wenn man Daten wirklich anfragen will von
369
00:32:15,407 --> 00:32:19,677
den statistischen Ämtern, also genauso,
wie wenn man bei anderen öffentlichen
370
00:32:19,677 --> 00:32:23,805
Stellen irgendwie eine Anfrage macht. Da
gibt es bestimmte Verfahren, auch bei den
371
00:32:23,805 --> 00:32:27,646
statistischen Ämtern. Und ich gehe mal
davon aus, dass man sich dann in
372
00:32:27,646 --> 00:32:33,720
irgendeiner Form identifizieren muss und
sei es nur aus sozialen Gründen, weil man
373
00:32:33,720 --> 00:32:38,855
halt mit Menschen dort zu tun hat. Aber
grundsätzlich, wenn es darum geht, Daten
374
00:32:38,855 --> 00:32:42,519
abzufragen aus regionalstatistik.de oder
über Datenguide: Das ist Open Data, das
375
00:32:42,519 --> 00:32:48,413
einfach im Web zur Verfügung steht.
Einfach gesagt.
376
00:32:48,413 --> 00:32:52,407
Herald: Okay, dann ist natürlich die
Frage: Du hast gesagt, dass das ultimative
377
00:32:52,407 --> 00:32:57,218
Ziel ist, den Service irgendwann
abzuschalten, wenn die Statistik Ämter
378
00:32:57,218 --> 00:33:02,416
selbst mal auf einem gewissen Stand
angekommen sind. Wie realistisch ist das
379
00:33:02,416 --> 00:33:05,073
denn?
Simon: Ja, ich glaube, das kommt dann
380
00:33:05,073 --> 00:33:10,780
darauf an, wie man diesen Wissensstand
definiert. Also ich glaube, es hat auf
381
00:33:10,780 --> 00:33:16,217
jeden Fall eine... das Mindset ändert sich
bei den statistischen Ämtern und die haben
382
00:33:16,217 --> 00:33:19,173
festgestellt, dass der Bereich
Datenjournalismus und auch vielleicht
383
00:33:19,173 --> 00:33:24,200
andere zivilgesellschaftliche Initiativen
durchaus wichtige Multiplikatoren für ihre
384
00:33:24,200 --> 00:33:29,084
Veröffentlichungen sind und dass es auch
in ihrem Interesse ist, in der
385
00:33:29,084 --> 00:33:35,701
Öffentlichkeit gut dazustehen. Und
dementsprechend hat da eine Änderung des
386
00:33:35,701 --> 00:33:41,830
Mindsets stattgefunden. Ich glaube, die
Software verändert sich nur sehr langsam
387
00:33:41,830 --> 00:33:45,102
und deswegen würde ich sagen, es ist
unwahrscheinlich, dass wir irgendwann im
388
00:33:45,102 --> 00:33:50,004
nächsten oder übernächsten Jahr wirklich
die Arbeit, die wir bei Datenguide machen,
389
00:33:50,004 --> 00:33:53,742
einstellen. Aber es ist nicht völlig
unrealistisch.
390
00:33:53,742 --> 00:33:58,850
Herald: Dazu auch direkt die Frage: Wie
ist das mit den Daten der Statistischen
391
00:33:58,850 --> 00:34:02,789
Landesämter? Weil nämlich hier jemand
versucht hat, anzufragen, wie es zum
392
00:34:02,789 --> 00:34:06,890
Beispiel in Baden-Württemberg ist, wo erst
einmal niemand wusste, was Open Data ist.
393
00:34:06,890 --> 00:34:11,077
Und jetzt möchte diese Person wissen, wie
ist das eigentlich mit der föderalen
394
00:34:11,077 --> 00:34:15,070
Struktur und bekommt man die Daten der
Statistischen Landesämter?
395
00:34:15,070 --> 00:34:19,508
Simon: Also auf regionalstatistik.de, da
sind ja grundsätzlich mal die Daten der
396
00:34:19,508 --> 00:34:24,951
Statistischen Landesämter gesammelt. Also
regionalstatistik.de ist so der kleinste
397
00:34:24,951 --> 00:34:30,665
gemeinsame Nenner, wo die Statistischen
Ämter gewisse Daten zusammentragen. Und
398
00:34:30,665 --> 00:34:35,593
dann gibt's eben zusätzlich noch Daten,
die halt auf regionaler Ebene, also nur
399
00:34:35,593 --> 00:34:41,075
auf Ebene der Bundesländer zur Verfügung
stehen. Also spezielle Datensätze, zum
400
00:34:41,075 --> 00:34:45,065
Beispiel, die dann nur für Brandenburg
oder nur für Baden-Württemberg oder so zur
401
00:34:45,065 --> 00:34:50,464
Verfügung stehen oder die vielleicht nicht
vergleichbar sind zwischen verschiedenen
402
00:34:50,464 --> 00:34:56,080
Ländern. Und es gibt eigentlich immer
irgendeine Form von Datenportal. Ich bin
403
00:34:56,080 --> 00:34:59,884
mir jetzt... tatsächlich bin ich nicht so
firm, was Baden-Württemberg angeht, weil
404
00:34:59,884 --> 00:35:04,378
ich damit persönlich noch nie etwas zu tun
hatte. Aber ich würde eigentlich erwarten,
405
00:35:04,378 --> 00:35:09,146
dass es auch ein Datenportal des
Statistischen Landesamts Baden-Württemberg
406
00:35:09,146 --> 00:35:14,056
gibt. Es ist nicht notwendigerweise auch
eine GENESIS-Instanz, also es gibt auch
407
00:35:14,056 --> 00:35:17,301
Datenplattformen, die eben nicht auf
Genesis basieren. Aber es gibt
408
00:35:17,301 --> 00:35:21,499
normalerweise irgendeine Form von
zentraler Veröffentlichung jedes einzelnen
409
00:35:21,499 --> 00:35:25,226
Statistischen Landesamtes.
Herald: Ich meine, Baden-Württemberg ist
410
00:35:25,226 --> 00:35:28,159
ein bisschen verrückt. Ich hatte mal
versucht, da drauf zu klicken und dann
411
00:35:28,159 --> 00:35:30,475
kommt man wieder auf die gleiche Seite,
ohne irgendwie tiefer zu kommen. Also wer
412
00:35:30,475 --> 00:35:33,680
da mehr weiß, gerne mehr Informationen.
Simon: Ja, also ich kann mir das gerne
413
00:35:33,680 --> 00:35:37,063
nochmal genauer angucken und vielleicht
noch etwas dazu posten.
414
00:35:37,063 --> 00:35:41,625
Herald: Da helfen sich nämlich schon sehr
viele Menschen auch untereinander mit den
415
00:35:41,625 --> 00:35:46,366
verschiedensten Links. Vielleicht nochmal
zurück zur Weiterentwicklung: Wie geht es
416
00:35:46,366 --> 00:35:50,383
weiter bei euch, plant ihr denn auch
Visualisierungstools direkt auf eurer
417
00:35:50,383 --> 00:35:55,242
Website zu integrieren?
Simon: Ja, also das ist ein schwieriges
418
00:35:55,242 --> 00:36:01,531
Thema, tatsächlich. Also wir haben es vor.
Wir haben... also wenn jemand schon
419
00:36:01,531 --> 00:36:05,948
frühere Versionen dieses Vortrags gesehen
hat, weil es war ja so ein bisschen best-
420
00:36:05,948 --> 00:36:09,346
of Zusammenfassung aus den letzten drei
Jahren. Wenn ihr eine frühere Version
421
00:36:09,346 --> 00:36:12,900
dieses Talks gesehen habt oder irgendwann
in der Vergangenheit mal auf der
422
00:36:12,900 --> 00:36:16,269
Datenguide-Website wart, dann gab's da
durchaus auch so einfache
423
00:36:16,269 --> 00:36:20,656
Visualisierungen. Wir haben festgestellt,
dass es sehr schwierig ist, die halt so
424
00:36:20,656 --> 00:36:24,568
generisch zu bauen, dass sie immer
funktionieren, weil die Daten, also die
425
00:36:24,568 --> 00:36:29,591
Datensätze sind sehr unterschiedlich. Es
gibt so einen Plan, so eine "kleinste
426
00:36:29,591 --> 00:36:35,667
gemeinsame Nenner Visualisierung" zu haben
für jeden Datensatz. So ähnlich wie die
427
00:36:35,667 --> 00:36:40,678
Statistischen Ämter das machen auf
regionalstatistik.de oder auf GENESIS
428
00:36:40,678 --> 00:36:45,959
Online. Aber nur halt ein bisschen
moderner und besser zu benutzen. Aber
429
00:36:45,959 --> 00:36:51,697
bisher gibt's das nicht. Wenn jemand
Interesse hat, an sowas zu arbeiten, mit
430
00:36:51,697 --> 00:36:56,621
mir zusammen oder mit jemand von uns
zusammen, dann bin ich gerne bereit, mich
431
00:36:56,621 --> 00:37:00,690
darüber zu unterhalten, wie man das
konkret im Detail macht. Weil es ist halt
432
00:37:00,690 --> 00:37:04,245
ein Open-Source-Projekt. Es ist definitiv
nichts, an dem jemand jetzt gerade aktuell
433
00:37:04,245 --> 00:37:08,734
arbeitet. Aber es steht auf unserer Liste.
Herald: Thema Open-Source-Projekt, dazu
434
00:37:08,734 --> 00:37:13,922
noch ein kleiner Einwurf: Wie ist das mit
GENESIS? Die Vermutung ist, dass es
435
00:37:13,922 --> 00:37:18,343
wahrscheinlich proprietär ist. Gibt's da
irgendwelche Bestrebungen? Wenn das
436
00:37:18,343 --> 00:37:23,131
proprietär ist, ob man das vielleicht auch
OpenSource stellen möchte?
437
00:37:23,131 --> 00:37:29,262
Simon: Ist mir nicht... also nicht, dass
ich wüsste. Ja, ich bin mir auch nicht
438
00:37:29,262 --> 00:37:33,240
sicher... GENESIS ist halt ein riesen
Monster, meinem Verständnis nach. Ich hab
439
00:37:33,240 --> 00:37:37,420
noch nie Code gesehen, aber es ist meinem
Verständnis nach eine Java-Anwendung, die
440
00:37:37,420 --> 00:37:41,951
es dann Ende der 90er ins Web geschafft
hat. Und das ist auch der Grund dafür,
441
00:37:41,951 --> 00:37:47,757
warum es eben diese ganze sessionbasierte
Navigation gibt, weil es glaube ich
442
00:37:47,757 --> 00:37:52,646
ursprünglich... das ist nicht aus der
heutigen Webanwendungen
443
00:37:52,646 --> 00:37:58,920
Entwicklungsperspektive gestartet worden,
dieses Projekt. Aber ich habe keine, ich
444
00:37:58,920 --> 00:38:05,075
kann keine geheime Background-Infos zur
Entwicklung von GENESIS Online geben, aber
445
00:38:05,075 --> 00:38:10,867
ich kann mir, ehrlich gesagt, nicht
vorstellen, dass es in der... dass es als
446
00:38:10,867 --> 00:38:16,934
Open Source irgendwann in der
Öffentlichkeit landet. Also, wen es im
447
00:38:16,934 --> 00:38:23,955
Detail interessiert, GENESIS online ist
eine Eigenentwicklung und das wird von
448
00:38:23,955 --> 00:38:31,803
ITNRW entwickelt. ITNRW ist so eine
Kombination aus regionalem IT-
449
00:38:31,803 --> 00:38:36,405
Dienstleister für das Land Nordrhein-
Westfalen und dem Statistischen Landesamt
450
00:38:36,405 --> 00:38:44,597
Nordrhein-Westfalen. Das ist beides quasi
unter diesem Dach. Und die betreiben
451
00:38:44,597 --> 00:38:50,380
regionalstatistik.de. Und die Software
hinter GENESIS online wird zum Teil auch
452
00:38:50,380 --> 00:38:54,441
in Wiesbaden beim Statistischen Bundesamt
entwickelt. Es gibt Leute, die im
453
00:38:54,441 --> 00:39:01,793
öffentlichen Dienst sind und an dieser
Software arbeiten.
454
00:39:01,793 --> 00:39:06,215
Herald: Okay, sehr gut. Jetzt hab ich noch
sehr viele Fragen von Dateninteressierten,
455
00:39:06,215 --> 00:39:11,589
die vielleicht ein bisschen über das, was
ihr jetzt als Datenguide anbietet,
456
00:39:11,589 --> 00:39:16,068
hinausgehen, trotzdem: Hast du eine
Empfehlung für eine Datenquelle für
457
00:39:16,068 --> 00:39:21,901
internationale Daten?
Simon: Das ist eine gute Frage. Es kommt
458
00:39:21,901 --> 00:39:25,752
es darauf an, worum es geht. Also es gibt
halt, genauso wie die Statistischen
459
00:39:25,752 --> 00:39:29,738
Landesämter in Deutschland alle
zusammenarbeiten und dann eine gemeinsame
460
00:39:29,738 --> 00:39:34,462
Datenveröffentlichung machen, gibt's auf
europäischer Ebene auch gemeinsame
461
00:39:34,462 --> 00:39:42,564
Datenveröffentlichungen. Also es gibt ein
europäisches Open Data Portal, wo die EU-
462
00:39:42,564 --> 00:39:49,667
Mitgliedsländer Daten hin liefern. Es gibt
auch ein zweites Open Data Portal, wo die,
463
00:39:49,667 --> 00:39:54,475
wo es eben alle möglichen Arten von Open
Data von der EU gibt. Und es gibt auch
464
00:39:54,475 --> 00:40:00,947
eine gemeinsame Plattform von Eurostat,
also Eurostat ist quasi sowas wie die
465
00:40:00,947 --> 00:40:05,927
gemeinsame Arbeitsgemeinschaft der
statistischen Ämter in den einzelnen
466
00:40:05,927 --> 00:40:11,342
Mitgliedsländern der EU. Das heißt, es
geht immer so nach oben. Auf europäischer,
467
00:40:11,342 --> 00:40:17,976
auf internationaler Ebene - also die
Weltbank hat statistische Informationen,
468
00:40:17,976 --> 00:40:24,455
quasi über alle Länder. Da findet man
Dinge. Und es gibt halt so verschiedene,
469
00:40:24,455 --> 00:40:30,513
ich sage mal unabhängige Plattformen, z.B.
Our World in Data ist sehr gut. Muss kurz
470
00:40:30,513 --> 00:40:39,093
nachgucken, ob ich das richtig sage.
Genau, das ist ourworldindata.org. Und die
471
00:40:39,093 --> 00:40:48,009
sammeln quasi Daten zu allen möglichen
Themen, die halt weltweit zur Verfügung
472
00:40:48,009 --> 00:40:55,007
stehen. Das ist von der Oxford University
und da findet man sehr viele Datensätze,
473
00:40:55,007 --> 00:41:01,277
wenn man so internationale Vergleiche
machen möchte, oder ja, Daten zu
474
00:41:01,277 --> 00:41:06,250
verschiedenen Themen braucht, die wirklich
für verschiedene Länder irgendwie
475
00:41:06,250 --> 00:41:12,556
vergleichbar zur Verfügung stehen, dann
ist das auch ein guter Startpunkt.
476
00:41:12,556 --> 00:41:17,343
Herald: Okay, genau so eine ähnliche Frage
wäre: Was ist eigentlich mit
477
00:41:17,343 --> 00:41:22,121
teilöffentlichen Daten, zum Beispiel von
der Deutschen Bahn? Findet man die bei
478
00:41:22,121 --> 00:41:27,390
euch auch oder weißt du, wo man die
vielleicht finden könnte, z.B. Wie viele
479
00:41:27,390 --> 00:41:33,870
Güterzüge fahren nach Hamburg?
Simon: Da bin ich jetzt tatsächlich
480
00:41:33,870 --> 00:41:41,778
überfragt. Also ich weiß, dass die Bahn...
also es gibt ja eine OpenData-Initiative
481
00:41:41,778 --> 00:41:45,509
innerhalb der Bahn. Ich könnte mir
vorstellen, dass es da vielleicht
482
00:41:45,509 --> 00:41:50,980
Veröffentlichungen zu diesem Thema gibt.
Aber sicher bin ich mir da nicht. Ich hab
483
00:41:50,980 --> 00:41:57,108
mich mit dem Thema noch nicht befasst, ich
würde jetzt nicht völlig ausschließen,
484
00:41:57,108 --> 00:42:02,760
dass es von den Statistischen Bundesämtern
so im Kontext Verkehr irgendwie Daten zu
485
00:42:02,760 --> 00:42:08,902
diesem Thema gibt. Aber ich hatte bisher
nie was damit zu tun. Müsste ich jetzt
486
00:42:08,902 --> 00:42:14,195
auch mal auf den Seiten der Statistischen
Ämter nachgucken. Ansonsten ... es gibt
487
00:42:14,195 --> 00:42:19,113
ja, heißt es opendata.bahn.de?
Herald: Ich weiß nicht gerade aus dem Kopf
488
00:42:19,113 --> 00:42:23,288
genau, wie es heißt, aber die Bahn hat
selber auch offene Daten.. Also das ist
489
00:42:23,288 --> 00:42:28,477
nicht bei euch jetzt direkt mit dabei?
Simon: Nee.
490
00:42:28,477 --> 00:42:34,389
Herald: Okay, eine andere, sehr konkrete
Frage zu Daten wäre: Gibt's z.B. sowas wie
491
00:42:34,389 --> 00:42:39,832
die Energieverbrauchsdaten der
Bundesländer für einzelne Gemeinden oder
492
00:42:39,832 --> 00:42:42,533
auf Bundesebene? Findet man sowas bei
euch?
493
00:42:42,533 --> 00:42:45,187
Simon: Das ist auch eine sehr spezielle
Frage.
494
00:42:45,187 --> 00:42:49,193
Herald: Genau das ist richtig. Vielleicht
weißt du es, und sonst kannst du
495
00:42:49,193 --> 00:42:54,952
vielleicht erklären, wie man dran kommt?
Simon: Also man kann quasi auf... man
496
00:42:54,952 --> 00:43:02,761
könnte jetzt auf regionalstatistik.de z.B.
mal nach dem Thema Energie suchen. Oder
497
00:43:02,761 --> 00:43:09,963
Stromversorgung. Und dann schauen, ob es
da Ergebnisse gibt oder eben auf
498
00:43:09,963 --> 00:43:18,545
Datenguide. Auch dieses Datenguide
Datenportal. Wenn ihr auf Datenportal
499
00:43:18,545 --> 00:43:25,665
klickt auf der Datenguidewebsite und dann
gibt's da so ein Interface, wo ihr ein
500
00:43:25,665 --> 00:43:31,452
Suchbegriff eingeben könnt unter Statistik
und da mal mit dem Suchbegriff Strom oder
501
00:43:31,452 --> 00:43:37,431
Energie. Ansonsten wäre ich mir relativ
sicher, dass es - es gibt ja Europäische
502
00:43:37,431 --> 00:43:42,963
Energie-Agenturen - dass es irgendwie
Stellen gibt, die Daten dazu
503
00:43:42,963 --> 00:43:51,678
veröffentlichen. Müsste ich aber auch
recherchieren.
504
00:43:51,678 --> 00:43:55,473
Herald: Vielen Dank für deine Antworten zu
den sehr spezifischen Fragen. Ich habe
505
00:43:55,473 --> 00:44:00,412
außerdem noch eine sehr spezifische Frage,
die uns über Twitter erreicht hat, und
506
00:44:00,412 --> 00:44:05,560
zwar: Es geht um die Verwendung der Daten
der USGS, die aktuell nur noch als PDF
507
00:44:05,560 --> 00:44:10,140
vorliegen. Ich weiß leider selbst nicht,
was die USGS ist. Weißt du das? Ich habe
508
00:44:10,140 --> 00:44:15,060
auch nochmal nachgefragt und bisher noch
keine Antwort bekommen.
509
00:44:15,060 --> 00:44:22,402
Simon: Also das sind Geodaten aus den USA,
glaub ich, aber ich kann dazu nichts
510
00:44:22,402 --> 00:44:28,342
sagen, leider. Ich weiß, dass es in den
USA ja auch diese... gab es in den letzten
511
00:44:28,342 --> 00:44:32,653
4 Jahren ja so eine umgekehrte
Entwicklung, wo verschiedene Daten, die
512
00:44:32,653 --> 00:44:36,540
quasi in der Public Domain oder als Open
Data zur Verfügung standen, jetzt eben
513
00:44:36,540 --> 00:44:41,010
nicht mehr als Open Data zur Verfügung
stehen, weil es einfach so ist, dass...
514
00:44:41,010 --> 00:44:46,605
die Obama-Regierung hat sehr viel geöffnet
im Sinne von Open Data und die Trump-
515
00:44:46,605 --> 00:44:52,658
Regierung hat dann einfach sehr viel
wieder zugemacht und teilweise auch
516
00:44:52,658 --> 00:44:58,264
Organisationen oder Organisationsformen,
die es gab und die gemeinsam Daten
517
00:44:58,264 --> 00:45:01,919
veröffentlich haben, in der Form
aufgelöst. Aber jetzt zu dieser konkreten
518
00:45:01,919 --> 00:45:05,634
Frage kann ich nichts sagen.
Herald: Sind ja auch alles sehr
519
00:45:05,634 --> 00:45:09,802
spezifische Fragen, die auch schon
eigentlich über euer Angebot so ein
520
00:45:09,802 --> 00:45:14,548
bisschen hinausgehen, wo man dann merkt:
Okay, hier sitzen die Datennerds, die auch
521
00:45:14,548 --> 00:45:18,622
bis ins Letzte alles ausschöpfen wollen.
Jetzt ist natürlich so ein bisschen die
522
00:45:18,622 --> 00:45:22,248
Frage: Was ist denn vielleicht, wenn ich
noch nicht so viel Erfahrung habe, mich
523
00:45:22,248 --> 00:45:25,631
aber ganz gerne mal mit den Daten bei euch
beschäftigen möchte. Wie kann ich denn
524
00:45:25,631 --> 00:45:30,569
mitmachen? Wie kann ich einsteigen, wie
kann ich anfangen? Simon: Also der... wenn ich
525
00:45:30,569 --> 00:45:35,832
jetzt da mit dem Thema anfangen würde,
würde mir glaube ich... also normalerweise
526
00:45:35,832 --> 00:45:39,292
hat man ja ein Thema, mit dem man sich
auseinandersetzen will, also ein
527
00:45:39,292 --> 00:45:43,861
inhaltliches Thema, zu dem man Daten
sucht. Dann würde ich mal gucken, was
528
00:45:43,861 --> 00:45:49,106
gibt's bei den statistischen Ämtern, was
gibt's auf Datenguide zu dem Thema? Und
529
00:45:49,106 --> 00:45:54,387
dann würde ich mal ein bisschen anfangen,
mit diesen Daten zu arbeiten. Mit... also
530
00:45:54,387 --> 00:46:00,793
mal die Daten sich genauer angucken, Daten
runterladen und dann mit einem Tool deiner
531
00:46:00,793 --> 00:46:07,192
Wahl diese Daten zu visualisieren oder zu
gucken, was man da rausziehen kann. Es
532
00:46:07,192 --> 00:46:13,269
kann so einfach wie Excel sein oder mit
Python oder R oder auch mit einfachen
533
00:46:13,269 --> 00:46:18,703
Datenvisualisierungstools wie Data Wrapper
oder Flourish Studio. Das sind beides
534
00:46:18,703 --> 00:46:22,290
Tools, die kann man umsonst im Web
benutzen, da mal die Daten hochladen und
535
00:46:22,290 --> 00:46:26,550
dann gucken, was man daraus machen kann.
Einfach, um mal so ein Gefühl dafür zu
536
00:46:26,550 --> 00:46:30,963
kriegen. Und wenn ihr ganz konkret an
Datenguide mitarbeiten wollt, dann ist
537
00:46:30,963 --> 00:46:36,272
Datenguide natürlich in erster Linie mal
eine Software-Projekt. Das heißt, wir
538
00:46:36,272 --> 00:46:42,455
haben, wir hätten Tickets, an denen man
arbeiten könnte. Am einfachsten im Moment
539
00:46:42,455 --> 00:46:47,034
ist, wenn man uns direkt kontaktiert über
die Kanäle, die ich vorhin angezeigt habe
540
00:46:47,034 --> 00:46:51,484
oder einfach über Datenguide auf Twitter
z.B., mal Kontakt mit uns aufnimmt und
541
00:46:51,484 --> 00:46:57,317
dann können wir darüber reden. Wir haben
sehr viele Tickets, also ein sehr langes
542
00:46:57,317 --> 00:47:02,092
Backlog. Es ist glaub ich nicht, es ist
unterschiedlich schwierig, da
543
00:47:02,092 --> 00:47:07,250
einzusteigen. Aber zusammen würden wir,
glaube ich, auch einfache Tickets, um
544
00:47:07,250 --> 00:47:14,281
einzusteigen, finden. Und die andere Sache
ist eben, dass wir auch ein Interesse dran
545
00:47:14,281 --> 00:47:20,780
haben, mehr Arbeit rund um Data Literacy
zu machen. Das heißt, auch wenn ihr nicht
546
00:47:20,780 --> 00:47:26,127
aus dem Bereich Softwareentwicklung kommt,
aber euch halt für Daten interessiert,
547
00:47:26,127 --> 00:47:30,908
oder als Nutzer von Daten irgendwie
Erfahrung habt, dann gäbe es auch die
548
00:47:30,908 --> 00:47:34,876
Möglichkeit, z.B. Workshops zu machen zum
Thema Datenguide und amtlicher Statistik.
549
00:47:34,876 --> 00:47:39,153
Da haben wir auch schon so ein paar
Materialien. Aber da könnte man eben
550
00:47:39,153 --> 00:47:44,612
weitere Dinge aufschreiben oder einfach
Workshops halten. Und da ist auch, glaube
551
00:47:44,612 --> 00:47:49,107
ich, die einfachste Möglichkeit, mal mit
uns Kontakt aufzunehmen. Über die
552
00:47:49,107 --> 00:47:53,868
genannten Kanäle.
Herald: Okay, dann sehe ich jetzt erstmal
553
00:47:53,868 --> 00:47:59,720
keine weiteren Fragen mehr. Hast du noch
irgendetwas, was du ergänzen möchtest, was
554
00:47:59,720 --> 00:48:05,642
dir jetzt vielleicht noch aufgefallen ist?
Simon: Also ich würde mich gerne bedanken.
555
00:48:05,642 --> 00:48:12,270
Also danke an das Wikipaka-Team, dass sie
das alles auf die Beine gestellt haben.
556
00:48:12,270 --> 00:48:16,905
Und ich freue mich, wenn ihr uns
kontaktiert im Nachgang von diesem Talk.
557
00:48:16,905 --> 00:48:21,890
Herald: Genau, das wird jetzt auch noch
gehen. Wir haben noch ein kleines Q&A, das
558
00:48:21,890 --> 00:48:25,280
wird in einem BigBlueButton Raum
stattfinden. Den Link dafür findet ihr
559
00:48:25,280 --> 00:48:30,470
auch dann gleich im IRC, also wieder auf
media.ccc.de gehen, wo ihr wahrscheinlich
560
00:48:30,470 --> 00:48:35,630
seid, wenn ihr diesen Stream schaut, auf
Chat klicken und dann kommt ihr direkt in
561
00:48:35,630 --> 00:48:38,660
den richtigen Channel rein. Und dort
gibt's dann den Link zum
562
00:48:38,660 --> 00:48:44,300
Q&A-BigBlueButton-Raum. Da wird dann Simon
noch ein paar Fragen beantworten. Ich
563
00:48:44,300 --> 00:48:49,190
bedanke mich ganz herzlich für die
Antworten auf diese ganzen Fragen, für die
564
00:48:49,190 --> 00:48:52,280
Vorstellung eures Projekts und nicht
zuletzt dafür, dass ihr das überhaupt
565
00:48:52,280 --> 00:48:59,470
macht. Danke und großen virtuellen
Applaus. Und damit beenden wir jetzt
566
00:48:59,470 --> 00:49:03,212
diesen wunderbaren Talk zu Datenguide.
Dankeschön.
567
00:49:03,212 --> 00:49:04,759
Simon: Danke.
568
00:49:04,759 --> 00:49:10,209
rC3 Wikipaka Outro Musik
569
00:49:10,209 --> 00:49:15,000
Untertitel erstellt von c3subtitles.de
im Jahr 2021. Mach mit und hilf uns!