1
00:00:00,000 --> 00:00:18,871
36C3 Vorspannmusik
2
00:00:18,871 --> 00:00:22,752
Herald 1: Ok. Spaß beiseite! Der nun
folgende Zug is schon ganz schön lange
3
00:00:22,752 --> 00:00:27,420
unterwegs. Beim 33C3, da fuhr er mit Xerox
ab.
4
00:00:27,420 --> 00:00:33,250
Herald 2: Beim 33C3 hat er dann SPIEGEL
einmal gedataminet und hat geguckt. Was ist denn
5
00:00:33,250 --> 00:00:37,620
dort? SpiegelOnline! Und hat uns wirklich
eine total perfekte Datenanalyse zu dem
6
00:00:37,620 --> 00:00:41,629
Thema gemacht?
Herald 1: Und beim 36C3 geht's mit dieser
7
00:00:41,629 --> 00:00:45,590
Zugfahrt weiter. Bitte begrüßt mit 'nem
ries'n Applaus David Kriesel.
8
00:00:45,590 --> 00:00:49,699
Applaus
Herald 2: Applaus! Applaus! Applaus!
9
00:00:49,699 --> 00:00:53,120
Applaus
Herald 1: Viel Spaß!
10
00:00:53,120 --> 00:00:57,229
Applaus
11
00:00:57,229 --> 00:01:02,940
David Kriesel: Also ich glaub: So geil bin
ich noch nie niemals eingeleitet worden.
12
00:01:02,940 --> 00:01:06,850
Lachen
D: Hm! Herzlich willkommen euch allen
13
00:01:06,850 --> 00:01:12,610
hier! Auch Herzlich willkommen an die
Leute im Stream - an die Aluhüte im
14
00:01:12,610 --> 00:01:18,060
Besonderen. Die Aluhüte glühen aber leider
noch nicht. Vielleicht kriegen wir das im
15
00:01:18,060 --> 00:01:22,330
Verlaufe dieses Vortrages noch hin. Mein
Name ist David Kriesel. Ich bin
16
00:01:22,330 --> 00:01:26,600
Informatiker aus der Nähe von Bonn. Im
richtigen Leben ist es mein Beruf
17
00:01:26,600 --> 00:01:33,149
interessante Sachen in größeren
Datenmengen zu finden. Neudeutsch heißt
18
00:01:33,149 --> 00:01:37,670
das Data Scientist. Und zusätzlich zum
Beruf habe ich verschiedene Projekte und
19
00:01:37,670 --> 00:01:43,039
manchmal nehme ich mir eines davon raus
und halte hier einen Vortrag. Ich bin
20
00:01:43,039 --> 00:01:47,509
Rheinländer und bei uns sagt man Ab
zweimal ist es Tradition und beim dritten
21
00:01:47,509 --> 00:01:51,670
Mal ist es Brauchtum. Ich bin jetzt das
dritte Mal hier. Das ist schon voll
22
00:01:51,670 --> 00:01:57,789
Brauchtum und ich freue mich, dass es so
oft geklappt hat. Unsere Geschichte heute
23
00:01:57,789 --> 00:02:06,340
beginnt im Jahr 2018. Am Ende des Jahres
2018 hat nämlich die Bahn gesagt, rund 75
24
00:02:06,340 --> 00:02:11,990
Prozent ihrer Fernzüge seien pünktlich
gewesen. Dafür muss man erst mal wissen:
25
00:02:11,990 --> 00:02:17,490
Was ist denn pünktlich? Die Bahn errechnet
das folgendermaßen: Die sagen: Wenn ein
26
00:02:17,490 --> 00:02:24,120
Zug bei einem Stopp weniger als sechs
Minuten zu spät ankommt, dann ist er
27
00:02:24,120 --> 00:02:27,670
pünktlich. Das ist wirklich die
Definition, und wir übernehmen das
28
00:02:27,670 --> 00:02:33,370
einfach. Da müssen wir dann nicht handeln.
Und dann errechnen Sie den Prozentsatz
29
00:02:33,370 --> 00:02:39,290
aller Stopps, bei denen das der Fall ist.
Und das wären bei knapp 75 Prozent in 2018
30
00:02:39,290 --> 00:02:43,690
so der Fall gewesen. Und das hat mich in
meiner persönlichen Erfahrung irgendwie
31
00:02:43,690 --> 00:02:53,079
gestört. In den letzten Jahren bin ich
quer durch Deutschland gereist, davon
32
00:02:53,079 --> 00:02:57,849
relativ häufig mit der Bahn. Und dann habe
ich meine Mailbox geguckt, und für mehr
33
00:02:57,849 --> 00:03:03,470
als die Hälfte meiner Fahrten habe ich
diese E-Mail von verspätungsalarm@bahn.de.
34
00:03:03,470 --> 00:03:09,720
Und da dachte ich Ich bin wohl dieser eine
Typ - ja - der aufpassen muss, nicht vom
35
00:03:09,720 --> 00:03:16,750
Blitz getroffen zu werden, während er den
Sechser im Lotto abholt. Ja? Ich wollte
36
00:03:16,750 --> 00:03:20,610
das dann genauer wissen. Also habe ich mal
in die Statistiken geguckt, die auf der
37
00:03:20,610 --> 00:03:25,319
Webseite der Bahn sind. Dann habe ich
gesehen: Das sind kaum welche. Die Bahn
38
00:03:25,319 --> 00:03:31,333
bietet auf ihrer Webseite nur die Prozent
der pünktlichen Stopps pro Monat an. Fürs
39
00:03:31,333 --> 00:03:36,719
Gesamtnetz, bundesweit nochmal getrennt im
Nah und Fernverkehr und das ist
40
00:03:36,719 --> 00:03:39,439
zusammengefasst. Damit kann man nichts
anfangen. Man kann dann nicht nach
41
00:03:39,439 --> 00:03:43,189
bestimmten Verbindungen filtern. Man kann
aber nicht gucken, bei welchen Bahnhöfen
42
00:03:43,189 --> 00:03:46,719
die Performance besonders schlecht ist
oder gut ist und alles, was interessant
43
00:03:46,719 --> 00:03:50,790
ist oder was ich interessant fand, das
geht nicht. Also habe ich am 8. Januar
44
00:03:50,790 --> 00:03:54,400
begonnen, die Deutsche Bahn zu
vorratsdatenspeichern.
45
00:03:54,400 --> 00:04:08,799
Lachen & Applaus
In diesem Datensatz gucken wir heute rein
46
00:04:08,799 --> 00:04:11,640
und wir werten das auch nicht nur aus,
sondern ich werde auch ein bisschen Zeit
47
00:04:11,640 --> 00:04:15,010
darauf verwenden, euch grob zu erklären,
wie man so ein Datenprojekt angeht und
48
00:04:15,010 --> 00:04:18,841
worauf man achten muss und wie man vor
allem merkt, ob man Vertrauen in die Daten
49
00:04:18,841 --> 00:04:23,770
haben kann. Das muss ja nicht sein, dass
alles stimmt, was man so herunterlädt, und
50
00:04:23,770 --> 00:04:27,370
über den ganzen Vortrag hinweg geb ich
euch immer so ein paar... - Wie nenne ich
51
00:04:27,370 --> 00:04:32,221
das? - Praxistipps, die ihr mit nach Hause
nehmen und an die ihr denken könnt, wenn
52
00:04:32,221 --> 00:04:37,080
ihr eine Bahnfahrt bucht. Disclaimer
Vorweg: Ich habe mit der Bahn nicht über
53
00:04:37,080 --> 00:04:40,680
die Auswertungen gesprochen. Behaltet im
Hinterkopf: Am Ende ist das ein kleines
54
00:04:40,680 --> 00:04:44,690
Hauptprojekt, und es kann durchaus sein,
dass ich Fehler gemacht habe. Aber da wir
55
00:04:44,690 --> 00:04:47,841
auch noch über die Vertrauenswürdigkeit
der Daten reden, könnt ihr selbst
56
00:04:47,841 --> 00:04:51,920
entscheiden, ob ihr meinen Daten vertraut
oder nicht. Wir kucken uns jetzt endlich
57
00:04:51,920 --> 00:04:57,030
mal an, wie die Daten aussehen. Hier sehen
wir eine fiktive Fahrt eines ICE. Ich gebe
58
00:04:57,030 --> 00:05:03,600
euch mal kurz fünf Sekunden für den ersten
Überblick und danach erkläre ich die. Drei
59
00:05:03,600 --> 00:05:11,380
Sekunden reichen auch. So! Der ICE fährt
in München los und jede weitere Zeile ist
60
00:05:11,380 --> 00:05:17,370
ein Stopp und irgendwann ist er am Ziel
angekommen. Hier: Bergen auf Rügen. Eine
61
00:05:17,370 --> 00:05:21,920
Fahrt ist die Sequenz aller Stopps, die
der Zug von Anfang bis Ende macht. Danach
62
00:05:21,920 --> 00:05:25,870
ist das eine neue Fahrt. Hier sind die
Verspätungen pro Stopp. Der Zug ist mit
63
00:05:25,870 --> 00:05:30,120
sechs Minuten Verspätung abgefahren und
nach der Messmethode der Bahn wäre der
64
00:05:30,120 --> 00:05:34,340
gerade als verspätet zu werten - an diesem
Stopp. Und dann schwanken die
65
00:05:34,340 --> 00:05:39,639
Verspätungen. In Erfurt sind wir auch mal
sechs Minuten zu früh dran gewesen. Die
66
00:05:39,639 --> 00:05:44,050
Verspätung ist negativ. Das passiert. In
der Regel heißt das übrigens, dass der Zug
67
00:05:44,050 --> 00:05:48,039
dann einfach länger bleibt und nicht zu
früh wieder abfährt. Am Berliner
68
00:05:48,039 --> 00:05:53,979
Flughafen; der Stopp fällt aus. In 20
Jahren werde ich diese Witze immer noch
69
00:05:53,979 --> 00:06:01,580
machen können.
Lachen & Applaus
70
00:06:01,580 --> 00:06:07,510
Und diese Stopps aller Fahrten sind die
Grundlage unserer Daten, meine Tabelle hat
71
00:06:07,510 --> 00:06:13,009
25 Millionen Zeilen. Das sind 25 Millionen
Stopps von irgendwelchen Zügen. Das sind
72
00:06:13,009 --> 00:06:17,830
alle Stopps im Fernverkehr vom 8. Januar
bis jetzt. Und auch der Nahverkehr, aber
73
00:06:17,830 --> 00:06:21,819
der nur an den Fernbahnhöfen. Komme ich gleich
noch zu. Und die Tabelle hat auch
74
00:06:21,819 --> 00:06:26,690
verschiedenste Spalten - die, die ich hier
vorführe und noch einige mehr. Wir können
75
00:06:26,690 --> 00:06:30,009
in einzelne Orte reingucken, in einzelne
Fahrten reingucken, in Zeiträume
76
00:06:30,009 --> 00:06:33,250
reingucken. Wir können auch kompliziertere
Auswertungen fahren. Machen wir auch heute
77
00:06:33,250 --> 00:06:37,039
noch. Zum Anfang, machen wir mal ein paar
ganz einfache Sachen mit den Daten. Das
78
00:06:37,039 --> 00:06:40,690
ist nicht, um euch zu langweilen, aber wir
müssen ja erst mal reinkommen, den
79
00:06:40,690 --> 00:06:44,450
Datensatz kennenlernen und so weiter. Wir
sortieren jetzt die ganze Tabelle von
80
00:06:44,450 --> 00:06:48,190
Stopps, 25 Millionen Stück, mal nach
Bahnhöfen und dann ermitteln wir die
81
00:06:48,190 --> 00:06:55,099
Anzahl der Stopps für jeden Bahnhof über
das ganze Jahr hinweg. Jeder Bubble hier
82
00:06:55,099 --> 00:06:59,790
ist ein Bahnhof mit Fernverkehr und davon
haben wir um die 350 Stück. Das sind die
83
00:06:59,790 --> 00:07:03,889
wichtigen. Und die Größe der Bubble gibt
die Anzahl der erfassten Halte für den
84
00:07:03,889 --> 00:07:07,770
Bahnhof wieder, und zwar für alles, was da
fährt: Fern- und Nahverkehr. Und der
85
00:07:07,770 --> 00:07:13,000
Größte, was das angeht, ist Köln
Hauptbahnhof mit im Moment 380 000 Stopps
86
00:07:13,000 --> 00:07:18,070
in der Datenbank. Ich habe die Top 6 mal
in der Karte beschriftet. Warum genau die
87
00:07:18,070 --> 00:07:22,569
Top 6? Weil der sechste Bahnhof genau
Hamburg Dammtor ist und das wollte ich
88
00:07:22,569 --> 00:07:26,721
euch nicht vorenthalten. Das war unser
letzter Congress-Bahnhof. Der Bahnhof
89
00:07:26,721 --> 00:07:30,849
Leipzig Messe ist übrigens deutlich,
deutlich kleiner. Inklusive Nahverkehr
90
00:07:30,849 --> 00:07:34,479
haben wir hier so 60.000 Stopps im Jahr
und überhaupt nur ein paar hundert
91
00:07:34,479 --> 00:07:38,180
Fernverkehr. Wo wir schon dabei sind,
machen wir jetzt was aus Kundensicht
92
00:07:38,180 --> 00:07:44,699
Interessantes und färben mal die Bahnhöfe
ein. Und zwar nach der Pünktlichkeit, nach
93
00:07:44,699 --> 00:07:49,530
dem Prozentsatz der Pünktlichkeit, der
dortigen Stopps im Fernverkehr. Das ist
94
00:07:49,530 --> 00:07:56,400
die Pünktlichkeit. Knallrot ist 60
Prozent, knallblau ist 90 Prozent und
95
00:07:56,400 --> 00:08:00,751
dazwischen farblos. Das ist ungefähr der
Durchschnitt bei 75. Als erstes sieht man
96
00:08:00,751 --> 00:08:11,119
In Ostdeutschland ist quasi alles blau.
Applaus
97
00:08:11,119 --> 00:08:15,599
Ich bin sicher, das sind diese blühenden
Landschaften, von denen Altkanzler Kohl
98
00:08:15,599 --> 00:08:21,740
immer sprach. In Nordrhein-Westfalen ist
so ziemlich alles rot. Köln hat nur so 66
99
00:08:21,740 --> 00:08:27,150
Prozent Pünktlichkeit. Bonn ist wirklich
eines der Schlusslichter mit 59 Prozent.
100
00:08:27,150 --> 00:08:30,039
Das sind die beiden Bahnhöfe, über die ich oft
fahre.
101
00:08:30,039 --> 00:08:33,810
Lachen
Generell. Der ganze dicht besiedelte Raum
102
00:08:33,810 --> 00:08:37,530
in Nordrhein-Westfalen ist ziemlich
schlimm dran. Und ich habe euch ja gesagt,
103
00:08:37,530 --> 00:08:41,070
dass ich das ganze Projekt überhaupt erst
gestartet habe, weil ich dachte, die
104
00:08:41,070 --> 00:08:44,960
Statistik der Bahn wäre falsch, weil meine
Züge so häufig unpünktlich sind. Die
105
00:08:44,960 --> 00:08:52,190
simple Wahrheit ist, ich wohne nur
schlecht. Hamburg, oben, ist auch schlimm.
106
00:08:52,190 --> 00:08:58,130
Das finde ich auch gerecht. Warum soll ich
der Einzige sein? Irgendwo bei 60 Prozent,
107
00:08:58,130 --> 00:09:01,170
je nachdem, welchen Bahnhof man erwischt.
Das sieht da jetzt röter aus, als es ist,
108
00:09:01,170 --> 00:09:04,920
weil die Dinger transparent sind. Und was
die Pünktlichkeit angeht, haben wir uns
109
00:09:04,920 --> 00:09:09,950
mit Leipzig Messe definitiv verbessert.
Wir sind hier so bei 80 Prozent oder etwas
110
00:09:09,950 --> 00:09:14,570
mehr. Ganz wichtig: Ich zeige ab jetzt
jetzt überall, wo es nicht anders dran
111
00:09:14,570 --> 00:09:18,140
steht, nur noch den Fernverkehr an.
Überhaupt wird der ganze Vortrag primär
112
00:09:18,140 --> 00:09:24,880
über den Fernverkehr gehen, weil über das
wird meistens berichtet in den Medien und
113
00:09:24,880 --> 00:09:27,450
auch darüber gemeckert. Und der
Fernverkehr ist das, worüber alle reden.
114
00:09:27,450 --> 00:09:31,420
Aber wenn ich sage, dass ich hier primär
über den Fernverkehr heute rede, dann muss
115
00:09:31,420 --> 00:09:37,000
ich auch fair sein und das Folgende sagen:
Der Nahverkehr, den wir jetzt auslassen,
116
00:09:37,000 --> 00:09:40,860
erreicht fast flächendeckend
Pünktlichkeitswerte von besser als 90
117
00:09:40,860 --> 00:09:44,423
Prozent. Behaltet das bitte über den Rest
des Vortrages im Hinterkopf. Die Bahn hat
118
00:09:44,423 --> 00:09:48,650
auch gute Seiten und bringt gerade im
Nahverkehr eine ziemliche Menge Leute
119
00:09:48,650 --> 00:09:53,000
jeden Tag zu ihrem Job. Da geht sicher
auch mal was schief, aber deutlich weniger
120
00:09:53,000 --> 00:09:55,820
als im Fernverkehr.
Applaus
121
00:09:55,820 --> 00:10:02,970
Ich hoffe, die Leute von der Bahn hören zu
und hören das jetzt gerade. Wir ändern
122
00:10:02,970 --> 00:10:06,310
jetz nochmal die Ansicht, die
Pünktlichkeit pro Bahnhof waren ja
123
00:10:06,310 --> 00:10:10,320
interessant für den Kunden. Aber wenn man
ein bisschen analytisch was machen will
124
00:10:10,320 --> 00:10:14,510
und bei der Bahn arbeitet, dann ist da das
Interessante. Welche Bahnhöfe richtig viel
125
00:10:14,510 --> 00:10:20,060
Verspätung generieren, also dem Netz
hinzufügen, und das ist die Ansicht. Ganz
126
00:10:20,060 --> 00:10:24,529
schlimm sind große Bahnhöfe mit vielen
Stopps, die gleichzeitig jedem Zug, der da
127
00:10:24,529 --> 00:10:28,829
anhält noch so ein bisschen Verspätung mit
auf den Weg geben. Die fünf schlimmsten
128
00:10:28,829 --> 00:10:36,630
sind Hamburg, Köln, Frankfurt Flughafen,
Mannheim. Die sind alle mit mehr als
129
00:10:36,630 --> 00:10:42,491
50.000 hinzugefügten Verspätungsminuten im
Messzeitraum. Spitzenreiter ist Frankfurt
130
00:10:42,491 --> 00:10:47,090
Hauptbahnhof mit 93.000 generierten
Verspätungsminuten. Ich höre, wir haben
131
00:10:47,090 --> 00:10:50,250
eine Frankfurtfraktion, wie seid ihr
hergekommen? Lachen
132
00:10:50,250 --> 00:10:52,550
Publikumseinrufe: Zu spät! Auto!
133
00:10:52,550 --> 00:10:56,570
D: Die sind heute erst angekommen. Ich hoffe
134
00:10:56,570 --> 00:11:03,120
ihr habt euch nicht gehetzt! Zweiter Tag
abends. Es gibt aber auch Bahnhöfe
135
00:11:03,120 --> 00:11:07,399
funktionieren so gut, dass sie insgesamt
Verspätungen aus dem Netz rausnehmen. Die
136
00:11:07,399 --> 00:11:11,450
Top drei sind Bremen, Berlin Hauptbahnhof
und Berlin Spandau.
137
00:11:11,450 --> 00:11:18,970
Applaus
Das hat mich sehr kalt erwischt. das mir
138
00:11:18,970 --> 00:11:25,480
völlig unverhofft ein Nachweis dieser
Größenordnung gelungen ist: Es gibt
139
00:11:25,480 --> 00:11:30,420
tatsächlich etwas an Berlin, das
funktioniert. Lachen
140
00:11:30,420 --> 00:11:36,900
Wir machen weiter - sonst artet das aus. Hier seht ihr im
141
00:11:36,900 --> 00:11:39,839
Vergleich, wie viele Fahrten es im
Nahverkehr, Fernverkehr und von
142
00:11:39,839 --> 00:11:43,670
Drittanbietern gibt. Wir ihr seht, ist das
weitaus meiste der Nahverkehr - hier
143
00:11:43,670 --> 00:11:47,940
orange. Hier sind mehr als fünf Millionen
Fahrten im Datensatz. Dagegen gibt es nur
144
00:11:47,940 --> 00:11:51,760
circa eine Viertelmillion Fahrten im
Fernverkehr - der ist hier blau - und es
145
00:11:51,760 --> 00:11:56,320
gibt noch ziemlich viele Fahrten von
Drittanbietern. Wir dröseln das mal in
146
00:11:56,320 --> 00:11:59,660
einzelne Zugfahrten auf, einfach, damit
wir sehen, was es gibt, bevor wir richtig
147
00:11:59,660 --> 00:12:04,110
einsteigen. Wir sehen jetzt, dass sich der
Nahverkehr aufspaltet, in die drei
148
00:12:04,110 --> 00:12:10,180
dicksten Bubble: Regionalbahnen
Regionalexpress, S-Bahn. Und der
149
00:12:10,180 --> 00:12:16,061
Fernverkehr in ICE, Intercity, das ist IC
und Eurocity, EC. Die Abkürzungen verwende
150
00:12:16,061 --> 00:12:20,190
ich auch im Folgenden. Diese
vergleichsweise kleinen blauen Punkte, das
151
00:12:20,190 --> 00:12:23,589
sind die eigentlich interessanten Zugarten
für heute. Das sind nämlich die Züge, die
152
00:12:23,589 --> 00:12:27,709
quer durch Deutschland fahren. Da kann man
richtig was sehen. Jetzt gehen wir einen
153
00:12:27,709 --> 00:12:32,350
Schritt weiter. Wir nehmen diese für uns
relevanten Zugarten her - also ICE,
154
00:12:32,350 --> 00:12:37,550
Intercity, Eurocity - und dann schauen wir
einfach mal, welche Zugart generell am
155
00:12:37,550 --> 00:12:43,780
spätesten dran ist, damit man gleich weiß,
wo man ausweichen muss. Ich wiederhole
156
00:12:43,780 --> 00:12:46,730
nochmals, wie die Bahn das misst.
Prozentzahl der Stopps, die maximal sechs
157
00:12:46,730 --> 00:12:51,940
Minuten zu spät sind, sind pünktlich. Im
Fernverkehr am pünktlichsten sind die
158
00:12:51,940 --> 00:12:57,880
Intercity, mit gut 76 Prozent. Dicht
danach folgen die ICE. Deutlich dahinter
159
00:12:57,880 --> 00:13:02,336
die Eurocity. Davon sind nicht mal 70
Prozent nach der Bahn-Definition
160
00:13:02,336 --> 00:13:06,120
pünktlich. Da muss ich sagen, das kann ich
in der Tat aus persönlicher Erfahrung
161
00:13:06,120 --> 00:13:10,379
bestätigen. Nach meinem Eindruck ist die
Qualität von den Teilen einfach schlechter
162
00:13:10,379 --> 00:13:14,560
- in jeder Hinsicht. Die Züge sehen, auch
wenn ich damit fahre, immer relativ alt
163
00:13:14,560 --> 00:13:19,180
aus. Aber man muss auch fair sein. Die
fahren internationaler als der Rest der
164
00:13:19,180 --> 00:13:22,801
Züge und wenn die direkt von außen
Verspätungen mitbringen, kann die Bahn da
165
00:13:22,801 --> 00:13:26,360
nichts für und solche Fälle gibt es. Und
es fehlt noch eine Größe, die wir messen
166
00:13:26,360 --> 00:13:30,540
können und die wir messen werden. Und über
die schweigt sich die Bahn auf ihren
167
00:13:30,540 --> 00:13:34,730
Webseiten aus. Und wenn man sich so
konsequent ausschweigt, hat das natürlich
168
00:13:34,730 --> 00:13:40,950
zur Folge, dass man sich für eine Analyse
bewirbt. Das ist der Prozentsatz der
169
00:13:40,950 --> 00:13:46,889
Ausfälle. Hier ist er. Und das war für
mich überraschend. ICEs sind ja das
170
00:13:46,889 --> 00:13:50,800
Flaggschiff der Bahn und anscheinend
fallen die mit weitem Abstand am
171
00:13:50,800 --> 00:13:58,240
häufigsten aus. Eurocity gut zwei Prozent,
Intercity gut drei Prozent und ICE über
172
00:13:58,240 --> 00:14:03,649
fünf Prozent. Also wenn ihr einen ICE
bucht, dann taucht er in einem von 20 Mal
173
00:14:03,649 --> 00:14:09,860
einfach nicht auf. Das fand ich ganz schön
stramm. Mich hat das überrascht. Mein
174
00:14:09,860 --> 00:14:16,110
Praxistipp an euch lautet also: Vorsicht
mit den ICEs! Ich weise fairerweise
175
00:14:16,110 --> 00:14:20,050
nochmals darauf hin, dass das eine
Auswertung von außen ist. Es besteht die
176
00:14:20,050 --> 00:14:24,260
Möglichkeit, dass das nicht stimmt oder da
ewig viele Extrafahrten dann für die
177
00:14:24,260 --> 00:14:28,519
Ausfälle gefahren werden, die gar nicht im
Plan standen, aber alle diese Stopps
178
00:14:28,519 --> 00:14:31,529
standen in deren Daten explizit als
ausgefallen drin. Die Daten sehen
179
00:14:31,529 --> 00:14:34,829
insgesamt realistisch aus, und im SPIEGEL
hatten Sie auch neulich eine Auswertung,
180
00:14:34,829 --> 00:14:38,529
wo Sie auf ähnliche Werte kamen. Also
schlage ich vor, wir betrachten das mal
181
00:14:38,529 --> 00:14:45,201
als gegeben, bis die Bahn widerspricht.
Übrigens einer der fettesten, nicht
182
00:14:45,201 --> 00:14:49,750
ausgefallenen Verspätungen in meinem
Datensatz, war der ICE 576 von Stuttgart
183
00:14:49,750 --> 00:14:57,320
nach Hamburg, und zwar am 17. Oktober
2019. Der hatte 456 Minuten Verspätung.
184
00:14:57,320 --> 00:15:03,771
Das sind mehr als siebeneinhalb Stunden
und der war nicht ausgefallen. Und um
185
00:15:03,771 --> 00:15:08,550
unseren Überblick zu vollenden, gucken wir
uns jetzt das Ganze noch einmal über die
186
00:15:08,550 --> 00:15:12,889
Zeit an. Hier sehen wir die Fahrten über
die Zeit, die ich für den Fernverkehr in
187
00:15:12,889 --> 00:15:17,380
der Datenbank habe. Die können wir uns mal
angucken, wie das funktioniert. Wir sehen,
188
00:15:17,380 --> 00:15:21,050
dass wir so um die 800 Fahrten am Tag
haben im Fernverkehr. Die niedersten
189
00:15:21,050 --> 00:15:25,251
Zacken sind immer Samstage, die hohen
Zacken immer Freitage, das ist der
190
00:15:25,251 --> 00:15:28,410
Berufsverkehr. Hier sind Ostern und
Pfingsten. Weihnachten habe ich nicht mehr
191
00:15:28,410 --> 00:15:33,100
hingekriegt. Und was sieht man noch? Man
sieht zum Beispiel, dass ich zwischendurch
192
00:15:33,100 --> 00:15:39,040
Mist gebaut habe und ein paar Tage Daten
verloren habe. Wer meinen letzten Vortrag
193
00:15:39,040 --> 00:15:43,480
hier gesehen hat, dem wird das bekannt
vorkommen. Ich mache das jeden Vortrag.
194
00:15:43,480 --> 00:15:47,481
Aber ich war besser. Diesmal war ich so
klug - ja - und dann hab ich mir ein
195
00:15:47,481 --> 00:15:52,320
vernünftiges Download Monitoring gebaut.
Und dann dachte ich, ich wäre cool. Und
196
00:15:52,320 --> 00:15:56,339
dann habe ich es irgendwie geschafft, den
Debian Server, auf dem das Ganze läuft,
197
00:15:56,339 --> 00:15:59,959
komplett zu crashen - also der hat gar
nicht mehr geantwortet. Ich musste die
198
00:15:59,959 --> 00:16:05,160
Kiste hart booten, und ich war da gerade
in Urlaub und habe das nicht gemerkt. Also
199
00:16:05,160 --> 00:16:09,570
diesmal Technischer Tipp für euch. Baut
nicht nur ein Download Monitoring, sondern
200
00:16:09,570 --> 00:16:13,347
lasst das auch noch auf einem anderen
Server laufen als den Download selbst.
201
00:16:13,347 --> 00:16:22,839
Applaus
Und weil wir heute ja auf Bahnbewerbungen
202
00:16:22,839 --> 00:16:27,170
hin die Ausfälle besonders genau machen
wollen: Hier sind die Ausfälle über die
203
00:16:27,170 --> 00:16:32,370
Zeit, das sind die Prozent der Stops pro
Tag, die einfach ausgefallen sind und man
204
00:16:32,370 --> 00:16:38,740
sieht sofort zwei fette Spikes. Hier ist
der Orkan Eberhard. Dieser Orkan ist am
205
00:16:38,740 --> 00:16:43,110
10. März über uns hereingebrochen, und am
Nachmittag war der der Meinung, es würde
206
00:16:43,110 --> 00:16:48,290
jetzt mal reichen mit Bahnverkehr. Und den
gucken wir uns auch noch genauer an, und
207
00:16:48,290 --> 00:16:51,850
hier ist der heißeste Tag des Jahres mit
der Hitzewelle dieses Jahr. Und generell
208
00:16:51,850 --> 00:16:55,899
sieht man, wenn ihr hier so ein bisschen
genauer guckt, dass es im Hochsommer eine
209
00:16:55,899 --> 00:16:59,300
stark erhöhte Ausfallrate gibt. Wie kommt
das?
210
00:16:59,300 --> 00:17:04,430
Publikumseinruf: Klimaanlage
D: Klimaanlage höre ich da. Die Ausfälle
211
00:17:04,430 --> 00:17:09,579
nach Zeit zerlegen wir jetzt nochmal in
die relevanten Zugarten - bevor der alles
212
00:17:09,579 --> 00:17:15,610
vorwegnehmt nimmt - und das machen wir jetzt
nicht mehr auf der Basis von Tagen,
213
00:17:15,610 --> 00:17:18,701
sondern von Wochen, das ist einfach etwas
glatter. Und die gelbliche Linie sind die
214
00:17:18,701 --> 00:17:24,470
ICEs und da sieht man erst mal, was für
ein fettes Problem die mit den ICEs im
215
00:17:24,470 --> 00:17:28,850
Sommer haben. Und ihr seht wie die
Ausfälle der ICEs im Sommer im Vergleich
216
00:17:28,850 --> 00:17:34,510
zu den anderen Zugarten richtig stark nach
oben ausbrechen. Das sind so um die 8
217
00:17:34,510 --> 00:17:39,681
Prozent Ausfallquote - fast an jedem
zwölften Stop taucht so ein ICE in der
218
00:17:39,681 --> 00:17:46,100
warmen Zeit dann einfach nicht auf. Und in
der Woche vom 22. Juli sind in der ganzen
219
00:17:46,100 --> 00:17:52,390
Woche sind mehr als 10 Prozent aller ICE
Stopps ausgefallen. Also ich weiß nicht,
220
00:17:52,390 --> 00:17:56,200
wie euch das geht, aber das geht bei mir
über die Fehlertoleranz. Also wenn das
221
00:17:56,200 --> 00:18:00,640
jeden Sommer so ist, wäre mein nächster
Praxis Tipp für euch: Vorsicht mit ICEs im
222
00:18:00,640 --> 00:18:08,750
Sommer. Und jetzt, wo es kälter wird,
fängt das auch wieder so an, aber wenn man
223
00:18:08,750 --> 00:18:11,710
das so anguckt - wir müssen noch ein
bisschen abwarten. Es ist noch nicht raus,
224
00:18:11,710 --> 00:18:15,820
ob das wirklich so wird. In zwei, drei
Monaten wissen wir mehr, wenn es richtig
225
00:18:15,820 --> 00:18:21,500
kalt war. Wir machen jetzt noch zwei
kleine Sachen und danach reden wir mal
226
00:18:21,500 --> 00:18:25,090
darüber, wie man so ein Projekt überhaupt
aufbaut und was die Grundregeln sind. Hier
227
00:18:25,090 --> 00:18:30,740
ist etwas Offensichtliches. Ich habe hier
die Stops mal aller Fahrten sortiert nach
228
00:18:30,740 --> 00:18:35,840
der Zeit, die die Zugfahrt bereits vor
diesem Stop gedauert hat. Von links nach
229
00:18:35,840 --> 00:18:39,000
rechts steigt die bereits gefahrene
Laufzeit vor dem Stopp an, hier von null
230
00:18:39,000 --> 00:18:44,260
bis 500 Minuten. Und was sieht man? Früher
in der Fahrt ist der Prozentsatz der
231
00:18:44,260 --> 00:18:48,420
pünktlichen Züge höher. Später in der
Fahrt sinkt die prozentuale Pünktlichkeit
232
00:18:48,420 --> 00:18:54,040
krass ab. Bei 500 Minuten sind unter 60
Prozent pünktlich. Das habt ihr euch
233
00:18:54,040 --> 00:18:57,010
wahrscheinlich jetzt alle schon selbst
gedacht. Warum sage ich das also? Weil ich
234
00:18:57,010 --> 00:18:59,880
die Bahn ein bisschen in Schutz nehmen
möchte. Man sieht nämlich häufiger in den
235
00:18:59,880 --> 00:19:04,110
Medien irgendwelche Untersuchungen von
Fahrten zwischen weit entfernteren
236
00:19:04,110 --> 00:19:08,130
Metropolen und da werden dann unglaublich
schlechte Pünktlichkeiten gemessen. Und
237
00:19:08,130 --> 00:19:11,700
wenn ihr sowas seht, lasst mich euch
sagen, die machen die Bahn schlimmer, als
238
00:19:11,700 --> 00:19:15,260
sie ist, weil sie durch weiter entfernen
eben nur den Datenteil mit der hohen
239
00:19:15,260 --> 00:19:19,630
Verspätung auswählen. Und ganz ehrlich -
die häufigen Probleme mit den japanischen
240
00:19:19,630 --> 00:19:25,270
Hochgeschwindigkeitszügen sind aus meiner
Sicht auch einfach Stuss. Die verbinden in
241
00:19:25,270 --> 00:19:28,700
Japan nur die absolut riesigen Metropolen.
Die haben ein komplettes Schienennetz für
242
00:19:28,700 --> 00:19:32,540
sich alleine. Der Fernverkehr der Bahn
muss sich das Netz mit Güter- und
243
00:19:32,540 --> 00:19:37,061
Nahverkehr teilen und bindet auch noch die
Mittelzentren mit an. Das ist nicht
244
00:19:37,061 --> 00:19:41,800
vergleichbar. So fair müssen wir schon
sein. Trotzdem hier wieder mein Praxistipp
245
00:19:41,800 --> 00:19:45,331
für euch: Vorsicht mit Zügen, die bereits
lange unterwegs sind. Ihr könnt ja, wenn
246
00:19:45,331 --> 00:19:49,080
ihr bucht sehen, was das für eine Zug
Linie ist und woher die kommt, könnt ihr
247
00:19:49,080 --> 00:19:54,630
also mit einbeziehen. Als nächstes habe
ich mich gefragt Ab welcher Verspätung
248
00:19:54,630 --> 00:20:00,580
wird es nicht mehr besser? Und dafür habe
ich für alle Stops aller Fahrten geguckt.
249
00:20:00,580 --> 00:20:04,800
Wie sehr ist der gerade schon verspätet,
und das hier ist von links nach rechts
250
00:20:04,800 --> 00:20:11,570
aufgetragen. Links stehen die wenig
verspäteten Stops, rechts die, die mit
251
00:20:11,570 --> 00:20:17,100
mehr Verspätung. Und dann habe ich geguckt
Wieviel Prozent bauen auf dem Rest ihrer
252
00:20:17,100 --> 00:20:21,970
Fahrt fünf Prozent der Verspätung ab und
existieren noch also sind nicht
253
00:20:21,970 --> 00:20:26,870
ausgefallen. Ja? Hört sich jetzt
kompliziert an, aber kurz: wieviel Prozent
254
00:20:26,870 --> 00:20:33,620
werden nochmal spürbar besser oder war es
das jetzt? Und was man sieht ist, dass bei
255
00:20:33,620 --> 00:20:37,440
Verspätungen unter 40 Minuten noch mehr
als die Hälfte der Züge am Ende der Fahrt
256
00:20:37,440 --> 00:20:42,690
besser dastehen als jetzt gerade und ab 40
Minuten Verspätung - da ist eine gut
257
00:20:42,690 --> 00:20:46,520
sichtbare Stufe in den Daten, die einzige
- da scheint die Bahn die Dinger irgendwie
258
00:20:46,520 --> 00:20:53,080
aufzugeben. Ab da wird es in der Mehrzahl
der Fälle bis zum Fahrtende nicht mehr
259
00:20:53,080 --> 00:20:56,880
besser. Woran das liegen könnte, darauf
kommen wir gleich auch noch. Praxistipp für
260
00:20:56,880 --> 00:21:05,810
euch: Ab einer Verspätung von 40 Minuten
erwägt ein anderes Transportmittel! So,
261
00:21:05,810 --> 00:21:09,600
das war ein Höllenritt. Jetzt haben wir
schon diverse Praxistipps abgestaubt. Ich
262
00:21:09,600 --> 00:21:12,560
schlage vor, wir machen jetzt einen
Einschub, und ich versuche, euch ein paar
263
00:21:12,560 --> 00:21:15,910
Anhaltspunkte zu geben, was ihr beachten
sollte, wenn ihr Datenprojekte selber
264
00:21:15,910 --> 00:21:19,700
hochzieht. Und ich werde das kurz halten,
so dass wir wieder in die Daten eintauchen
265
00:21:19,700 --> 00:21:25,960
können bald. Punkt 1: organisiert den
Download gut. Die Bahn hat einige
266
00:21:25,960 --> 00:21:29,650
öffentliche Schnittstellen. Es gab hier
auch schon einen schönen Vortrag zu
267
00:21:29,650 --> 00:21:33,600
ebendiesen Schnittstellen. Ich bin froh,
dass jemand ermessen kann, wieviel
268
00:21:33,600 --> 00:21:40,260
Schmerzen ich gehabt habe. Über zwei davon
kann man Fahrpläne und Veränderungen
269
00:21:40,260 --> 00:21:44,190
abrufen. Wenn ihr in eurem Smartphone mit
der Bahn App oder Öffi Bahnverbindung
270
00:21:44,190 --> 00:21:49,650
nachguckt, dann macht euer Handy genau
das. In den Fahrplänen steht, wann welcher
271
00:21:49,650 --> 00:21:54,820
Zug ankommen soll und in den Änderungen
steht, was sich dem gegenüber verändert.
272
00:21:54,820 --> 00:22:00,210
Ausfälle, Verspätungen und so weiter. Das
ist ein bisschen anstrengend, denn leider
273
00:22:00,210 --> 00:22:04,490
müsst ihr beides in getrennten Abfragen
abrufen. Und wenn ihr die Schnittstellen
274
00:22:04,490 --> 00:22:09,180
abruft, erhaltet ihr nur zeitlich begrenzt
Daten - paar Stündchen vor und zurück.
275
00:22:09,180 --> 00:22:14,900
Leider müsst ihr beides für jeden Bahnhof
einzeln abrufen. Das bedeutet, wir können
276
00:22:14,900 --> 00:22:18,060
uns nicht am Schluss einfach ein Jahr
Daten ziehen, sondern wir müssen wirklich
277
00:22:18,060 --> 00:22:21,520
über das ganze Jahr hinweg mit ein
bisschen Infrastruktur sehr häufig Daten
278
00:22:21,520 --> 00:22:27,240
abrufen, die sich überlappen. Solche
Szenarios findet man relativ häufig. Das
279
00:22:27,240 --> 00:22:29,130
funktioniert dann so, dass man die
Downloads einfach erst einmal weg
280
00:22:29,130 --> 00:22:34,500
speichert und konkrete Werte auslesen und
Duplikate raus sortieren - das passiert
281
00:22:34,500 --> 00:22:38,280
dann einfach alles später. Und jetzt
machen wir mal eine Nebenrechnung auf. Wir
282
00:22:38,280 --> 00:22:42,740
haben sechseinhalbtausend Bahnhöfe in
Deutschland. Für jeden müssen wir einzeln
283
00:22:42,740 --> 00:22:47,680
beides abrufen, also mal zwei. Und jetzt
sagen wir mal, wir machen das alle zehn
284
00:22:47,680 --> 00:22:55,480
Minuten für Fahrplan und Änderungen. Das
macht dann 6600 mal 2 mal 144. Das sind
285
00:22:55,480 --> 00:23:00,970
knapp zwei Millionen Abrufe am Tag. So ein
Abruf hat im Durchschnitt 22 KB bei den
286
00:23:00,970 --> 00:23:05,520
Veränderungsdaten, ein bisschen weniger
bei den Plandaten und wir würden dann so
287
00:23:05,520 --> 00:23:12,211
bei 40 Gigabyte XML landen, am Tag. Für
das ganze Jahr - ja das parst sich dann
288
00:23:12,211 --> 00:23:22,360
auch nicht mehr von alleine. Für das ganze
Jahr wären das dann 14 TB in 700 Millionen
289
00:23:22,360 --> 00:23:29,200
Requests. Diesen Moment kriegen die Admins
der Bahn vermutlich einen Herzanfall. Wenn
290
00:23:29,200 --> 00:23:33,650
sie damit fertig sind, dann werden sie in
ihre Logs schauen welche Abrufe von mir
291
00:23:33,650 --> 00:23:38,340
sind, und dann werden Sie Ihren Anwalt
anrufen, um mir eine riesige Rechnung zu
292
00:23:38,340 --> 00:23:42,700
schicken. Aber die enttäuschen wir jetzt.
Natürlich habe ich das nicht so gemacht.
293
00:23:42,700 --> 00:23:46,960
Erstmal hätte ich das speichern und
verarbeiten müssen, das viel zu aufwendig.
294
00:23:46,960 --> 00:23:50,310
Und zweitens ist eine Sache ganz wichtig,
wenn ihr so etwas macht. Ihr müsst den
295
00:23:50,310 --> 00:23:55,300
Traffic minimieren, und zwar aus zwei
Gründen. Das sind die Punkte 2 und 3.
296
00:23:55,300 --> 00:24:01,110
Punkt 2: Handelt verantwortungsvoll. Das
bedeutet, dass Ihr bitte nicht so viel
297
00:24:01,110 --> 00:24:05,700
Traffic erzeugt, dass ihr die
Infrastruktur des Ziels abwürgt oder
298
00:24:05,700 --> 00:24:09,340
irgendwie unnötige Kosten verursacht. Das
ist jetzt realistischer, als es sich
299
00:24:09,340 --> 00:24:13,720
anhört,vielleicht nicht bei der Bahn, aber
beispielsweise bei den Justizportalen in
300
00:24:13,720 --> 00:24:18,401
Deutschland müsst ihr aufpassen. Die sind
erstaunlich schwach auf der Brust...
301
00:24:18,401 --> 00:24:26,980
Hab ich gehört. Gelächter und Applaus
302
00:24:26,980 --> 00:24:35,260
Meine Lösung dafür: Ich rufe
maximal stündlich ab und auch nur die ca.
303
00:24:35,260 --> 00:24:39,550
350 Fernbahnhöfe, das sind dann statt der
zwei Millionen sofort nur noch 16 000
304
00:24:39,550 --> 00:24:43,180
Requests am Tag. In der Regel ist das
nochmal deutlich geringer, weil man das
305
00:24:43,180 --> 00:24:49,060
adaptiv machen kann. Und in diesem Moment
kriegen die Admins zwar keinen Herzanfall
306
00:24:49,060 --> 00:24:52,740
mehr, aber die sind trotzdem enttäuscht,
weil sich dafür keine Rechnung mehr lohnt.
307
00:24:52,740 --> 00:25:01,930
Punkt 3: Fliegt unter dem Radar. Sowas soll
ja eine Weihnachtsüberraschung bleiben. Da
308
00:25:01,930 --> 00:25:05,830
wäre es natürlich schlecht gewesen, wenn
die Millionen Abrufe vom Server D. Kriesel
309
00:25:05,830 --> 00:25:09,340
kommend irgendwie in ihren Logs stehen
haben. Das fällt nämlich irgendwann auf.
310
00:25:09,340 --> 00:25:13,220
Und die Lösung hierfür ist Ihr schickt
die Abfragen über Tausende
311
00:25:13,220 --> 00:25:16,670
Zwischenstationen in der ganzen Welt. In
der Fachsprache heißen die "anonyme
312
00:25:16,670 --> 00:25:24,630
Proxys". Mit anderen Worten: Wenn ich
Massen von Daten runterlade, dann sieht
313
00:25:24,630 --> 00:25:28,980
das für das Ziel aus wie so ein
Grundrauschen von winzigen Abfragen, die
314
00:25:28,980 --> 00:25:32,150
von der ganzen Welt kommen. Viele von
euch werden das auch so machen. Niemand
315
00:25:32,150 --> 00:25:35,220
sieht mich, aber in Wirklichkeit laufen
die Daten dann einfach im Hintergrund auf
316
00:25:35,220 --> 00:25:41,500
meinem Server wieder zusammen - sofern ich
sie nicht crashe. An dieser Stelle
317
00:25:41,500 --> 00:25:45,360
hören, die Admins der Bahn vermutlich auf
meine Abfrage in ihren Logs zu suchen.
318
00:25:45,360 --> 00:25:50,240
Und ich freue mich, dass sie jetzt wieder
voll beim Vortrag dabei sind. Damit ich
319
00:25:50,240 --> 00:25:53,070
euch nicht abschrecke, so einen Aufwand
müsst ihr nicht bei jedem Datenprojekt
320
00:25:53,070 --> 00:25:56,740
treiben. Das war vielleicht ein bisschen
Overkill, weil ich das mal ausprobieren
321
00:25:56,740 --> 00:26:02,920
wollte mit den Proxys. Punkt 4: Es kann
passieren, dass ihr nicht sicher seid,
322
00:26:02,920 --> 00:26:08,330
was ihr rechtlich dürft ohne dranzukommen.
Die meisten unter uns sind keine Juristen,
323
00:26:08,330 --> 00:26:11,080
und manche AGB sind auch einfach mies
formuliert. Und wenn ihr nicht sicher
324
00:26:11,080 --> 00:26:15,830
seid, was ihr dürft, dann fragt einen
Anwalt, der für euch die AGB liest. Es
325
00:26:15,830 --> 00:26:19,820
gibt im Internet Portale, wo ihr für
schmales Geld Anwälten Fragen stellen
326
00:26:19,820 --> 00:26:24,010
könnt, und danach kriegt ihr eine
rechtsverbindliche Antwort. Wenn das
327
00:26:24,010 --> 00:26:30,230
nicht stimmt, haftet der. Bei mir kam dann
leider raus, dass ich bei der Bahn lieber
328
00:26:30,230 --> 00:26:33,730
eine schriftliche Genehmigung erfragen
sollte. Und das war so ein Moment, wo ich
329
00:26:33,730 --> 00:26:37,370
kurz dachte, dass das Projekt vielleicht
auf der Kippe steht. Und das wäre schade
330
00:26:37,370 --> 00:26:40,470
gewesen, weil ich mir vorab schon ein
bisschen Arbeit gemacht hatte. Also lest
331
00:26:40,470 --> 00:26:46,980
zuerst die AGB. Und Punkt 5: Habt trotz
Hindernissen den Mut, es einfach zu tun.
332
00:26:46,980 --> 00:26:52,150
Ich hab dann gepokert und wirklich bei
der Bahn nachgefragt, ob ich automatisiert
333
00:26:52,150 --> 00:26:56,663
Daten runterladen und darüber zum Beispiel
einen kleinen Communityvortrag halten darf.
334
00:26:56,663 --> 00:26:57,510
Lachen
335
00:26:57,510 --> 00:27:08,350
Applaus
Und sie haben es mir genehmigt. Ohne
336
00:27:08,350 --> 00:27:12,860
weitere Auflagen. Ohne Auflagen und ob sie
wirklich so offen sind oder einfach
337
00:27:12,860 --> 00:27:17,770
vergessen haben zu googlen, weiß ich
nicht. Aber ganz ehrlich: Das könnte
338
00:27:17,770 --> 00:27:20,050
jetzt mal einen Applaus für die Bahn wert
sein. Das ist sportlich.
339
00:27:20,050 --> 00:27:31,119
Applaus
Nicht schlecht. Ich hoffe, die hören zu.
340
00:27:31,119 --> 00:27:36,430
Und Punkt 6: Seid fair bei der Auswertung,
wenn ihr Daten für ein Jahr habt, zum
341
00:27:36,430 --> 00:27:38,990
Beispiel, dann sucht ihr nicht die 4
Monate heraus, wo die Bahn besonders
342
00:27:38,990 --> 00:27:43,930
unpünktlich war, damit ihr fiesere Dinge
behaupten könnt. Gängiges Mittel. Und das
343
00:27:43,930 --> 00:27:49,280
Wichtigste zuletzt - Punkt 7: Guckt, ob
ihr euren eigenen Daten vertrauen könnt.
344
00:27:49,280 --> 00:27:51,920
Und das ist gar nicht so einfach. Und ich
führe das jetzt mal vor. Und dann könnt
345
00:27:51,920 --> 00:27:54,731
ihr entscheiden, ob wir meinen Daten
vertraut. Und außerdem ist das jetzt
346
00:27:54,731 --> 00:27:58,620
unsere Ausrede, dass wir diesen Einschub
verlassen und endlich wieder in die Daten
347
00:27:58,620 --> 00:28:02,860
reingucken. Am besten schafft Ihr
Vertrauen in einen Datensatz, indem ihr
348
00:28:02,860 --> 00:28:07,590
eine Analyse komplett nachbaut, die
Quelle des Datensatzes, also hier die
349
00:28:07,590 --> 00:28:13,060
Bahn, schon mal gemacht hat. Die Bahn gibt
auf ihrer Webseite ja pro Monat die
350
00:28:13,060 --> 00:28:17,870
Prozentzahl der pünktlichen Stopps an. Und
in Ihren Dokumenten steht auch, wie sie
351
00:28:17,870 --> 00:28:22,120
das exakt ausrechnen. Und die hab ich
einfach genau so nachgebaut und siehe
352
00:28:22,120 --> 00:28:27,711
da: Das sieht wirklich fast genauso aus.
Die zwei größten Abweichungen sind die
353
00:28:27,711 --> 00:28:33,400
folgenden: Im Januar messe ich die Bahn
einen halben Prozentpunkt schlechter, als
354
00:28:33,400 --> 00:28:37,050
sie ist. Das liegt vermutlich daran, dass
ich erst am 8. Januar angefangen habe,
355
00:28:37,050 --> 00:28:42,720
Daten aufzunehmen. Und im September 0,8
Prozentpunkte. Das ist da, wo mir ein paar
356
00:28:42,720 --> 00:28:47,200
Tage fehlen. Ansonsten scheint bei mir
die Bahn sogar generell minimal besser
357
00:28:47,200 --> 00:28:51,860
wegzukommen. Exakt die gleichen Werte
werdet ihr nie kriegen. Die meisten
358
00:28:51,860 --> 00:28:55,850
Abweichungen sind hier um 0,1
Prozentpunkte, aber für eine Messung von
359
00:28:55,850 --> 00:29:01,150
außen ist das verdammt akkurat. Wenn eure
Werte mit denen des Ziels so
360
00:29:01,150 --> 00:29:05,080
übereinstimmen, dann seid ihr auf einem
guten Weg. Das heißt externe
361
00:29:05,080 --> 00:29:08,410
Verifikation, weil wir etwas Externes zum
Vergleichen hatten. Jetzt kommt die
362
00:29:08,410 --> 00:29:12,570
interne, das bedeutet, ihr guckt in den
Datensatz rein, ob da alles realistisch
363
00:29:12,570 --> 00:29:18,020
aussieht - zum Beispiel anhand der
Tageszeiten. Jeder Punkt hier ist wieder
364
00:29:18,020 --> 00:29:22,770
ein Fernverkehrsbahnhof. Das ist der
Tagesbeginn um 0 Uhr vom 9. März diesen
365
00:29:22,770 --> 00:29:26,860
Jahres. Ich gehe jetzt die Zeit Stunde
für Stunde durch, und dann sehen wir, wie
366
00:29:26,860 --> 00:29:31,080
so ein Tag für die Bahn aussieht. Die
Bahnhofspunkte schwellen an, wenn in der
367
00:29:31,080 --> 00:29:34,950
Stunde mehr Stopps stattgefunden haben.
Und die Farbe markiert die Ausfälle: Blau
368
00:29:34,950 --> 00:29:38,640
ist wenig, Rot ist viel, dunkelrot
entspricht 50 Prozent oder mehr
369
00:29:38,640 --> 00:29:45,660
Ausfällen. Und es ist jetzt null Uhr, und
man sieht, dass noch einige wenige Züge
370
00:29:45,660 --> 00:29:52,200
des Vortages sozusagen unterwegs sind. Die
Lumpensammler sozusagen. Und das wird
371
00:29:52,200 --> 00:29:56,730
jetzt immer weniger werden, und die
Nachtruhe kehrt ein. Die Zeit vergeht.
372
00:29:56,730 --> 00:30:04,150
Nachtruhe. Und hier erwacht ein neuer Tag.
Jetzt ist so langsam Vollbetrieb, es ist
373
00:30:04,150 --> 00:30:10,141
8 Uhr. Wir sehen hier ein paar punktuelle
Ereignisse, die für Ausfälle sorgen. Das
374
00:30:10,141 --> 00:30:15,980
sind die roten Flecken, da ist Unwetter
oder so passiert. Keine Notizen. Es ist
375
00:30:15,980 --> 00:30:27,330
Mittag. Jetzt wird es wieder weniger. Der
Tag geht seinem Ende entgegen. Die letzte
376
00:30:27,330 --> 00:30:31,210
Stunde des Tages. Ein neuer Tag beginnt:
Das ist der zehnte März. Wir sehen wieder
377
00:30:31,210 --> 00:30:37,570
die letzten Züge bevor die Nachtruhe
beginnt. Alles schläft. Der Tag wird
378
00:30:37,570 --> 00:30:42,720
älter, es ist 6 Uhr. Man sieht schon ein
bisschen Traffic. Es ist 9 Uhr, wir sind
379
00:30:42,720 --> 00:30:47,630
wieder im Vollbetrieb. Es ist Mittag am
10. März, und wir erinnern uns: An dem
380
00:30:47,630 --> 00:31:01,040
Tag war ja was. Und hier zeigt der Orkan
Eberhard erste Auswirkungen. Hier hat er
381
00:31:01,040 --> 00:31:04,610
dann in fast ganz Deutschland den
Fernverkehr flachgelegt. Ich musste die
382
00:31:04,610 --> 00:31:11,130
Farbskala erweitern, weil man 50 Prozent
Ausfälle normal nicht hat. Wir lassen
383
00:31:11,130 --> 00:31:15,920
diesen sehr schlechten Tag für die Bahn
nun ausklingen. Und hier ist wieder
384
00:31:15,920 --> 00:31:20,390
Mitternacht, die Grenze zum Folgetag. Eine
Störung in der Größenordnung zieht
385
00:31:20,390 --> 00:31:24,240
natürlich noch einige Tage messbarer
Verspätungen und Ausfälle nach sich. Wenn
386
00:31:24,240 --> 00:31:27,900
man das aufblühte, sieht man das mehrere
Tage runtergehen. Die spielen wir jetzt
387
00:31:27,900 --> 00:31:32,270
aber nicht alle durch. Aber wir sehen:
Nicht immer Ist die Bahn schuld. Wenn ihr
388
00:31:32,270 --> 00:31:38,130
die Daten so auf Plausibilität checkt, da
nutzt unbedingt gute Visualisierungen,
389
00:31:38,130 --> 00:31:42,470
die am besten gleich mehrere Dimensionen
abdecken. Hier hatten wir Ausfälle und
390
00:31:42,470 --> 00:31:47,050
Ort, das sind zwei Dimensionen und die
Anzahl der Stopps und die Zeit nach
391
00:31:47,050 --> 00:31:52,090
Stunden. Der beste Apparat zu
Mustererkennung, den wir zurzeit haben,
392
00:31:52,090 --> 00:31:56,340
das ist nun mal das Gehirn. Und da gibt's
nur eine Breitbandleitung hin, und das
393
00:31:56,340 --> 00:32:02,370
sind die Augen. Wir werden jetzt noch ein
paar größere Auswertungen machen, und als
394
00:32:02,370 --> 00:32:07,370
erstes bitte ich euch dafür, in Gedanken
die Seiten zu wechseln. Stellt euch vor,
395
00:32:07,370 --> 00:32:13,510
ihr gebt keine Analysen raus, sondern ihr
lest welche. Und wenn ihr Analysen lest,
396
00:32:13,510 --> 00:32:18,230
die andere euch geben, dann ist es immer
sehr wichtig zu riechen, worüber die
397
00:32:18,230 --> 00:32:23,470
anderen mit euch nicht reden möchten. Und
bei Firmen findet man das heraus, indem
398
00:32:23,470 --> 00:32:29,580
man deren Kennzahlen genau anguckt. Die
Bahn hat zum Beispiel gesagt, sie wollte
399
00:32:29,580 --> 00:32:33,530
dieses Jahr 76,5% pünktliche Stopps
haben. Daran wollen sie sich messen.
400
00:32:33,530 --> 00:32:39,740
Dieser Bericht ist aus dem Januar 2019,
und Anfang Dezember 2019 haben sie das
401
00:32:39,740 --> 00:32:46,390
Ziel dann kassiert. Es werden nur unter
75% pünktlicher Stopps im Fernverkehr. In
402
00:32:46,390 --> 00:32:50,940
meinen Daten sind es im Moment noch
knapp über 75%. Aber trotzdem:
403
00:32:50,940 --> 00:32:56,000
eigentliches Ziel wird verfehlt. Aber was
insgesamt auffällt, ist, dass sich die
404
00:32:56,000 --> 00:33:01,650
Bahn zu Ausfällen - ich sagte das schon -
ganz komisch ausschweigt. Und jetzt bitte
405
00:33:01,650 --> 00:33:05,840
ich mal um Handzeichnungen von Euch.
Stellt euch vor, ihr steht am Bahnsteig,
406
00:33:05,840 --> 00:33:11,860
und der Zug fällt einfach aus. Ihr steht
da mit leerem Blick und der kommt einfach
407
00:33:11,860 --> 00:33:15,860
nicht. Und ihr dürft jetzt entscheiden:
Ist der pünktlich oder unpünktlich? Wer
408
00:33:15,860 --> 00:33:22,240
von euch würde sagen, der ist eher
pünktlich? Ich sehe zwei Hände... drei im
409
00:33:22,240 --> 00:33:29,370
Saal von 5000 Mann... Okay, ist messbar.
Und wer würde sagen, der Zug ist eher
410
00:33:29,370 --> 00:33:39,000
unpünktlich? Uiuiui, das sind so ziemlich
alle. Und so sehe ich das eigentlich auch.
411
00:33:39,000 --> 00:33:42,170
Und jetzt schauen wir mal in die
Unterlagen der Bahn dazu. Ihr müsst das
412
00:33:42,170 --> 00:33:46,020
nicht lesen, ich lese euch das vor.
"Komplettausfälle oder Teilausfälle
413
00:33:46,020 --> 00:33:49,210
werden - wie übrigens bei den anderen
europäischen Bahnen auch - nicht in
414
00:33:49,210 --> 00:33:52,790
Statistiken eingerechnet. Zum einen ist es
schwierig, dafür ein sinnvolles
415
00:33:52,790 --> 00:33:59,000
mathematisches Modell zu hinterlegen."
What? "Welche Pünktlichkeit ordnet man
416
00:33:59,000 --> 00:34:02,590
einem Zug zu, wenn er an einer bestimmten
Stelle seiner Fahrt ausfällt?" Wir können
417
00:34:02,590 --> 00:34:05,981
binär messen, ob drei von acht Stopps
pünktlich oder nicht pünktlich sind, aber
418
00:34:05,981 --> 00:34:11,210
mit ausgefallen nicht ausgefallen - das
geht nicht. Und "zum anderen liegt die
419
00:34:11,210 --> 00:34:16,609
sogenannte Erfüllungsquote aller täglich
verkehrenden DB-Personenzüge über 99
420
00:34:16,609 --> 00:34:22,300
Prozent im Jahresschnitt sowohl für Fern-
als auch für Nahverkehr." Also Punkt 1: Da
421
00:34:22,300 --> 00:34:26,490
möchte ich als erstes Mal anmerken, dass
ich das in der Sache nicht nachvollziehen
422
00:34:26,490 --> 00:34:30,210
kann, weil wir schon gesehen hatten, dass
alleine der Fernverkehr eine Ausfallquote
423
00:34:30,210 --> 00:34:35,070
von mehr als vier Prozent hat und nicht
ein Prozent. Das heißt, wir haben
424
00:34:35,070 --> 00:34:45,120
insgesamt 103% Fernverkehr. Aber
vielleicht ist die Erfüllungsquote auch
425
00:34:45,120 --> 00:34:48,170
etwas anderes, was ich hier nicht
verstehe. Keine Ahnung. Aber vor allem:
426
00:34:48,170 --> 00:34:52,600
So ein ausgefallener Zug ist, der ist
nicht unpünktlich, der fällt einfach
427
00:34:52,600 --> 00:34:57,371
komplett aus der Wertung. Die Ausfälle
werden statistisch verdeckt, weil man sie
428
00:34:57,371 --> 00:35:02,780
angeblich nicht statistisch einbauen
kann. Also, liebe Leute, ich mache solche
429
00:35:02,780 --> 00:35:07,060
Auswertungen ja auch beruflich, und da
habe ich echt schon manche Ausrede zu
430
00:35:07,060 --> 00:35:11,620
hören gekriegt. Aber das ist schon krass.
Ich nenne sowas den "finalen
431
00:35:11,620 --> 00:35:15,700
Rettungsstuss".
Lachen
432
00:35:15,700 --> 00:35:23,960
Applaus
Wenn ihr so etwas erzählt kriegt, dann
433
00:35:23,960 --> 00:35:29,970
wisst ihr ganz genau: Ihr habt es
gefunden, hier müsst ihr gucken und nicht
434
00:35:29,970 --> 00:35:35,010
woanders. Also helfen wir jetzt mit, und
wir entwickeln jetzt eine Idee, wie man
435
00:35:35,010 --> 00:35:39,220
die Ausfälle doch sinnvoll in die
Statistik reinkriegt. Hier sehen wir eine
436
00:35:39,220 --> 00:35:44,010
Zugfahrt mit vier Stopps. Die beiden
weißen links sind pünktlich, der hellblaue
437
00:35:44,010 --> 00:35:51,080
ist unpünktlich, > 6 Minuten, und der
rechte in rot ist ganz ausgefallen. Im
438
00:35:51,080 --> 00:35:55,190
Moment zählt die Bahn einfach alle Stopps,
die nicht ausgefallen sind, und misst
439
00:35:55,190 --> 00:35:58,900
davon den Prozentsatz der Pünktlichkeit.
Das wären hier zwei von drei - 66
440
00:35:58,900 --> 00:36:03,660
Prozent. Und ich schlage stattdessen vor:
Wir zählen alle Stopps, die geplant
441
00:36:03,660 --> 00:36:08,940
waren, und messen davon den Prozentsatz,
der angekommen ist und pünktlich war. Das
442
00:36:08,940 --> 00:36:14,370
wären hier 50%. Nehmt das nicht auf die
leichte Schulter - das ist jetzt wirklich
443
00:36:14,370 --> 00:36:17,559
große Mathematik.
Lachen
444
00:36:17,559 --> 00:36:26,120
Bahnbrechend sozusagen.
Lachen und Applaus
445
00:36:26,120 --> 00:36:32,291
Applaus
Und wenn man mit den Ausfällen ehrlich
446
00:36:32,291 --> 00:36:38,080
umgeht, dann liegt die Bahn nicht bei den
76,5% Pünktlichkeit, das waren die
447
00:36:38,080 --> 00:36:44,910
angekündigten, und auch nicht bei 75%, das
ist der aktuelle Wert, sondern bei 72,5%.
448
00:36:44,910 --> 00:36:49,062
Und mit jedem Prozent weniger wird es
sehr viel unwahrscheinlicher, dass Leute
449
00:36:49,062 --> 00:36:52,560
ihre Anschlüsse kriegen. Also
unterschätzt das nicht, wenn das nochmal
450
00:36:52,560 --> 00:36:56,890
zwei Prozent weniger sind, als sie
behaupten oder drei. Das ist knackig. Beim
451
00:36:56,890 --> 00:37:01,910
Fernverkehr liegt bei denen einiges im
Argen. Damit möchte ich zum wichtigen
452
00:37:01,910 --> 00:37:06,910
Thema kommen: Erfolgskriterien in
Unternehmen. Wenn ihr als Unternehmen eure
453
00:37:06,910 --> 00:37:11,420
Erfolgskriterien schlecht setzt, dann
schafft ihr Anreize, die das Unternehmen
454
00:37:11,420 --> 00:37:17,550
in eine unerwartete Richtung lenken. Hier
haben wir ein Paradebeispiel dafür. Wenn
455
00:37:17,550 --> 00:37:23,250
die Bahn einen unpünktlichen Zug einfach
spontan ausfallen lässt, dann steht die
456
00:37:23,250 --> 00:37:27,720
nach ihrer eigenen Messmethode danach
besser da und nicht schlechter, weil die
457
00:37:27,720 --> 00:37:32,100
Ausfälle einfach komplett aus der
Statistik fliegen. Also müssen wir uns die
458
00:37:32,100 --> 00:37:36,920
Frage stellen: Wo genau lohnt es sich für
die Bahn am meisten, ein paar Ausfälle zu
459
00:37:36,920 --> 00:37:40,080
erzeugen, um damit die
Pünktlichkeitsstatistik zu pushen?
460
00:37:40,080 --> 00:37:42,460
Lachen
Applaus
461
00:37:42,460 --> 00:37:49,700
Ihr klatscht ja schon vorher. So kann ich
nicht arbeiten.
462
00:37:49,700 --> 00:37:54,430
Lachen
Die Lösung ist am Ende und am Anfang von
463
00:37:54,430 --> 00:37:59,270
Fahrten. Züge fahren nämlich häufig
dieselbe Strecke hin und her und der hier
464
00:37:59,270 --> 00:38:04,830
fährt los. Bis hier ist alles gut
gegangen. Hier hat er dann satt Verspätung
465
00:38:04,830 --> 00:38:09,270
angesammelt. Das passiert. An diesem Punkt
ist zu erwarten, dass die letzten beiden
466
00:38:09,270 --> 00:38:14,200
Halte auch verspätet sein werden. Und auch
die ersten beiden halte der Rückfahrt
467
00:38:14,200 --> 00:38:18,000
natürlich, also schlecht für die
Statistik. Also lassen wir sie doch
468
00:38:18,000 --> 00:38:22,260
einfach ausfallen. Blasen wir ab, der Zug
schmeißt die Fahrgäste raus, dreht an Ort
469
00:38:22,260 --> 00:38:25,240
und Stelle um und ist wieder pünktlich.
Und wer an den roten Stopps einsteigen
470
00:38:25,240 --> 00:38:33,488
und aussteigen will, der steht halt mit
leerem Blick am Gleis. Aber die
471
00:38:33,488 --> 00:38:37,450
Verspätungsstatistik verbessert sich, denn
die Ausfälle fallen ja einfach unter den
472
00:38:37,450 --> 00:38:43,090
Tisch. Aber wie könnte man so etwas
messen? Ganz einfach.
473
00:38:43,090 --> 00:38:46,290
Publikumseinruf: Hamburg.
D: Hackburg?
474
00:38:46,290 --> 00:38:51,810
Publikumseinruf: Hamburg.
D: Oh ja. Also, ganz einfach: Hier ist
475
00:38:51,810 --> 00:38:57,230
wieder eine Zugfahrt mit all ihren Stopps,
die unterteilen wir jetzt einfach in drei
476
00:38:57,230 --> 00:39:00,270
Klassen - frühe, mittlere und späte
Stopps. Die frühen und späten Stopps sind
477
00:39:00,270 --> 00:39:05,870
die ersten und letzten drei, hier grau und
die mittleren sind der Rest. Und für
478
00:39:05,870 --> 00:39:11,520
diese drei Arten Stopps machen wir
getrennte Auswertung. Wenn Ausfälle
479
00:39:11,520 --> 00:39:17,720
aufgrund technischen Betriebes entstehen,
würde man ja erwarten, dass es am Start
480
00:39:17,720 --> 00:39:21,560
an einer Fahrt statistisch weniger
Ausfälle gibt. Und dann werden das so
481
00:39:21,560 --> 00:39:27,140
über die Zeit mehr. Und beim IC ist das
auch genaus. Die Ausfälle steigen nach
482
00:39:27,140 --> 00:39:33,910
hinten an. Und beim ICE dagegen, fallen
die ersten und letzten Stopps häufiger
483
00:39:33,910 --> 00:39:38,490
aus. Das passt alles genau. Die scheinen
die Dinger einfach hart zu wenden. Ich
484
00:39:38,490 --> 00:39:42,290
habe dieses Verhalten auch von zwei
unabhängigen Quellen bestätigt bekommen,
485
00:39:42,290 --> 00:39:46,162
und das war vor einiger Zeit schon mal
irgendwo klein in der Presse. Also ich
486
00:39:46,162 --> 00:39:49,320
verrate hier auch keine
Staatsgeheimnisse. Und je nachdem, wen man
487
00:39:49,320 --> 00:39:53,600
fragt, heißt dieses Vorgehen entweder
nach unserem Verkehrsminister die Scheuer-
488
00:39:53,600 --> 00:39:59,261
Wende oder aber nach dem Bahnvorstand,
die Pofalla-Wende. Das müssen wir jetzt
489
00:39:59,261 --> 00:40:03,640
heute Abend beim Bier entscheiden, was
ihr jetzt besser findet. Jedenfalls ein
490
00:40:03,640 --> 00:40:08,740
weiterer Praxistipp Vorsicht am Anfang
und am Ende eines ICE-Zuglaufs. Die fallen
491
00:40:08,740 --> 00:40:14,291
gerne mal aus. Bucht die nach Möglichkeit
nicht. Aus Gründen der Neutralität, muss
492
00:40:14,291 --> 00:40:18,680
ich dazusagen: Die Bahn hat natürlich ein
Interesse daran, dass das ganze Netz
493
00:40:18,680 --> 00:40:22,560
ungefähr im Plan ist. Also werden die
sich denken, dass bei so einem Manöver
494
00:40:22,560 --> 00:40:27,020
nicht so viele Passagiere von den
Ausfällen betroffen sind, dafür aber im
495
00:40:27,020 --> 00:40:30,410
weiteren Verlauf deutlich mehr Passagiere
einen pünktlichen Zug kriegen ist. Das ist
496
00:40:30,410 --> 00:40:35,680
eben deren Geschäftsentscheidung. Es liegt
mir fern, da jetzt von der Seitenlinie
497
00:40:35,680 --> 00:40:40,090
ohne tieferes Wissen altkluge Ratschläge
zu erteilen. Wir sind hier nicht auf
498
00:40:40,090 --> 00:40:44,810
Twitter. Was ich hier kritisiere...
Lachen
499
00:40:44,810 --> 00:40:48,840
Applaus
Und was ich hier kritisieren möchte, ist
500
00:40:48,840 --> 00:40:53,880
aber, dass ausschließlich die positive
Seite des Manövers danach in der Statistik
501
00:40:53,880 --> 00:40:59,060
auftaucht und die negative einfach
verschwindet. Das stört. Wir wollen gar
502
00:40:59,060 --> 00:41:02,120
nicht wissen, wie viele Leute im
Verkehrsministerium denen das abgekauft
503
00:41:02,120 --> 00:41:06,840
haben. Wir hatten jetzt schon ein
bisschen Praxistipps gesehen, die euch zu
504
00:41:06,840 --> 00:41:09,780
Hause beim Buchen vielleicht ein
bisschen was bringen. Vorsicht mit
505
00:41:09,780 --> 00:41:15,430
bestimmten Bahnhöfen; Vorsicht mit ICEs
im Allgemeinen; Vorsicht mit ICEs im
506
00:41:15,430 --> 00:41:19,610
Sommer im Speziellen; Vorsicht, wenn
Züge schon lange unterwegs waren;
507
00:41:19,610 --> 00:41:23,380
Vorsicht, wenn sie 40 Minuten oder mehr
verspätet sind und jetzt gerade Vorsicht
508
00:41:23,380 --> 00:41:30,090
mit ICEs am Anfang und am Ende der Fahrt
wegen der Scheuer-Wenden. Ich könnte
509
00:41:30,090 --> 00:41:32,693
jetzt mit euch noch jede Menge
Standardkram machen, der sich irgendwie
510
00:41:32,693 --> 00:41:36,370
aus den Daten ergibt: Top Ten Bahnhöfe
oder Zuglinien nach Verspätungen,
511
00:41:36,370 --> 00:41:41,230
Ausfällen und so weiter. Aber das hilft
doch nur wenigen, ganz ehrlich. Also
512
00:41:41,230 --> 00:41:45,550
machen wir jetzt noch zwei Sachen: Erstens
machen wir unsere letzte große Sache mit
513
00:41:45,550 --> 00:41:50,230
den Bahndaten, und ich hoffe, dass ihr
davon zumindest für ein paar Monate ganz
514
00:41:50,230 --> 00:41:55,260
konkret was habt. Danach würde ich mit
euch gerne kurz über das ausklingende
515
00:41:55,260 --> 00:42:00,300
Jahrzehnt nachdenken. Zuerst die
Datensache. Wenn ihr ein Bahnticket kauft,
516
00:42:00,300 --> 00:42:04,800
könnt ihr wählen. Mit Spartickets seid
ihr an exakt die Züge, die ihr gebucht
517
00:42:04,800 --> 00:42:09,390
habt, gebunden. Oder ihr nehmt ein
Flexticket, das ist deutlich teurer, aber
518
00:42:09,390 --> 00:42:14,910
dafür habt ihr keine Zugbindung.
Interessant ist nun folgende Regel: auf
519
00:42:14,910 --> 00:42:19,130
den Spartickets, wenn Sie durch
Verschulden der DB ihren Anschlusszug
520
00:42:19,130 --> 00:42:22,850
nicht erwischen oder allgemein eine
Verspätung von mehr als 20 Minuten
521
00:42:22,850 --> 00:42:27,720
erwartet werden muss, wird die Zugbindung
automatisch aufgehoben. Ich verstehe das
522
00:42:27,720 --> 00:42:33,210
so, dass ihr dann eigentlich ein Flex
Ticket habt plötzlich. Und dann gucken
523
00:42:33,210 --> 00:42:37,570
wir mal auf den Prozentsatz der Stopps,
die entweder mehr als 20 Minuten zu spät
524
00:42:37,570 --> 00:42:43,730
waren oder aber ausgefallen sind und
insgesamt sind das immerhin 12,4%. Und
525
00:42:43,730 --> 00:42:47,800
wenn man jetzt diese Stopps erwischt,
dann verwandeln die einem vielleicht schon
526
00:42:47,800 --> 00:42:51,730
vor Abfahrt ein preiswertes Sparticket in
ein Flexticket. Und das wäre doch total
527
00:42:51,730 --> 00:42:56,260
cool, wenn man die vorher wissen könnte.
Lachen
528
00:42:56,260 --> 00:43:04,361
Applaus
Bin ich so vorhersehbar? Und komplett
529
00:43:04,361 --> 00:43:08,700
vorhersehen geht natürlich nicht. Aber es
gibt Züge, bei denen sowas häufiger
530
00:43:08,700 --> 00:43:11,460
auftritt und Bahnhöfe, bei denen sowas
häufiger auftritt und es gibt auch
531
00:43:11,460 --> 00:43:14,580
Wochentage, bei denen sowas häufiger
auftritt.
532
00:43:14,580 --> 00:43:23,030
Lachen
Und hier ist ein Beispiel. Lest mal mit.
533
00:43:23,030 --> 00:43:28,990
Das bedeutet beim Intercity 2221 ist an
allen Halten bei Mainz Hauptbahnhof an
534
00:43:28,990 --> 00:43:33,690
allen Mittwochen dieses Jahr mit 53%
Wahrscheinlichkeit die Zugbindung
535
00:43:33,690 --> 00:43:39,230
aufgehoben. Also von allen Stopps, die ich
dazu erfasst habe, waren 53% entweder mehr
536
00:43:39,230 --> 00:43:44,000
als 20 Minuten zu spät oder sind ganz
ausgefallen. Und am Freitag das Ganze mit
537
00:43:44,000 --> 00:43:49,580
50 Prozent. Ich muss die Schreibweise so
kurz machen und euch das so beibringen,
538
00:43:49,580 --> 00:43:54,340
das Lesen, damit ich jetzt gleich
platzsparend arbeiten kann. Euch schwant
539
00:43:54,340 --> 00:43:58,080
vermutlich schon, was ich jetzt mache.
Also, ich habe für euch mal die
540
00:43:58,080 --> 00:44:01,860
Kombination aus allen Wochentagen, allen
Bahnhöfen und allen Fernzügen durchsucht
541
00:44:01,860 --> 00:44:05,880
und habe dann nur die Kombinationen
genommen, wo ich mindestens 10 Datenpunkte
542
00:44:05,880 --> 00:44:09,960
hatte, damit das einigermaßen fundiert
ist. Und für die habe ich gemessen, bei
543
00:44:09,960 --> 00:44:13,320
wie viel Prozent die Zugbindung dieses
Zuges an diesem Wochentag, an diesem
544
00:44:13,320 --> 00:44:16,780
Bahnhof gekillt wurde. Und dann habe ich
gesagt: Ich will nur die ganz Fiesen
545
00:44:16,780 --> 00:44:21,400
haben, wo das mit mindestens 50 Prozent
der Fälle der Fall war. Herausgekommen
546
00:44:21,400 --> 00:44:27,200
sind fast 500 Kombinationen aus
Wochentagen, Bahnhöfen und Zügen.
547
00:44:27,200 --> 00:44:32,660
Hier sind sie.
Applaus
548
00:44:32,660 --> 00:44:38,670
Also ich würde kein Flexticket für teuer
Geld kaufen, wenn ich an einem dieser
549
00:44:38,670 --> 00:44:43,370
Bahnhöfe einsteige, aussteigen oder
umsteige an dem Wochentag mit diesem Zug.
550
00:44:43,370 --> 00:44:46,560
Kauft ein Sparticket. Und für alle, die
das jetzt nicht lesen können, ich stelle
551
00:44:46,560 --> 00:44:50,630
den Foliensatz wieder irgendwie bei mir
auf die Seite, morgen oder so. Beachtet
552
00:44:50,630 --> 00:44:55,250
auch, dass die Daten irgendwann ungültig
werden. Ihr behaltet den Zug bitte am
553
00:44:55,250 --> 00:45:00,350
Fahrtag im Auge. Ich bin nicht schuld,
wenn ihr unverhofft doch pünktlich zum Zug
554
00:45:00,350 --> 00:45:01,870
eintreten müsst.
Lachen
555
00:45:01,870 --> 00:45:07,370
Weil die Kiste halt pünktlich ist. Also
bitte, bitte behandelt diese Daten, als
556
00:45:07,370 --> 00:45:16,370
wären sie mit Xerox-Geräten gescannt.
Lachen und Applaus
557
00:45:16,370 --> 00:45:21,650
Wenn ihr doch pünktlich da sein müsst,
dann ist das ja auch ein gutes Zeichen,
558
00:45:21,650 --> 00:45:25,390
weil es nichts anderes bedeutet, als dass
die Bahn was verbessert. Verbesserungen
559
00:45:25,390 --> 00:45:31,331
passieren nämlich durchaus. Dieses Jahr
wurde zum Beispiel die ICE-Trasse zwischen
560
00:45:31,331 --> 00:45:34,680
München und Berlin ausgebaut. Da kann man
jetzt unter vier Stunden zwischen beiden
561
00:45:34,680 --> 00:45:39,150
Städten hin und her fahren, ohne den Zug
zu wechseln. Und wenn das rund läuft, ist
562
00:45:39,150 --> 00:45:43,651
das echt mal eine Alternative zum Flug. Es
ist also nicht alles schlecht. Ich hoffe
563
00:45:43,651 --> 00:45:48,840
auch, ich bin bei aller Kritik fair mit
der Bahn umgegangen heute. Ich bin
564
00:45:48,840 --> 00:45:53,250
jedenfalls, obwohl ich das alles gesehen
habe, mit der Bahn zum Congress gefahren
565
00:45:53,250 --> 00:45:58,910
und werde das auch auf dem Rückweg machen.
Und für heute möchte ich damit die Bahn-
566
00:45:58,910 --> 00:46:03,690
Betrachtung abschließen mit den Worten:
Seid nett zur Bahn mit ihren Fehlern. Wir
567
00:46:03,690 --> 00:46:08,840
haben nur diese eine.
Lachen und vereinzelter Applaus
568
00:46:08,840 --> 00:46:12,320
Und was bleibt?
Applaus
569
00:46:12,320 --> 00:46:23,940
Einen habe ich noch. Da kam er [Herald Engel]
schon gelaufen. Das hier ist der letzte
570
00:46:23,940 --> 00:46:27,390
Vortrag, den ich in diesem Jahrzehnt
halten werde. Ich lasse euch jetzt mal ein
571
00:46:27,390 --> 00:46:32,700
paar Sekunden in Ruhe und wünsche mir,
dass jeder kurz darüber nachdenkt, was für
572
00:46:32,700 --> 00:46:37,710
ihn in diesem Jahrzehnt die maßgebliche
gesellschaftliche Entwicklung war.
573
00:46:37,710 --> 00:46:47,003
Ruhepause zum Nachdenken
574
00:46:47,003 --> 00:46:51,530
Glaube hat jeder was. Für mich ist es der
575
00:46:51,530 --> 00:46:57,670
Aufstieg der Empörten und damit meine ich
ausdrücklich jede politische Richtung. Ich
576
00:46:57,670 --> 00:47:02,250
habe in diesem Jahrzehnt tausend Mal an
jeder Ecke gehört, wie wichtig heutzutage
577
00:47:02,250 --> 00:47:06,680
technische, naturwissenschaftliche und
analytische Skills seien angeblich, mit
578
00:47:06,680 --> 00:47:11,760
anderen Worten: Rationalität. Und auf der
anderen Seite aber reicht das heute im
579
00:47:11,760 --> 00:47:16,090
öffentlichen Diskurs als
Totschlagsargument, wenn jemand empört
580
00:47:16,090 --> 00:47:20,480
ist. Und ich finde das paradox. Das ist
das Gegenteil von Rationalität. Man kann
581
00:47:20,480 --> 00:47:25,440
nicht beides gleichzeitig propagieren. Und
ich möchte anregen, dass wir für das jetzt
582
00:47:25,440 --> 00:47:31,820
kommende Jahrzehnt zu einer Kultur finden,
in der es ungern gesehen wird, einfach nur
583
00:47:31,820 --> 00:47:36,060
alles Mögliche anzuprangern, und in der es
ganz umgekehrt bewundert wird, wenn man
584
00:47:36,060 --> 00:47:41,060
sich die Datenlage anguckt und sie sich
gegenseitig präsentiert mit seinem
585
00:47:41,060 --> 00:47:48,420
Kontrahenten und sich dann zusammensetzt.
Und wer soll das starten, wenn nicht wir
586
00:47:48,420 --> 00:47:53,570
hier. Verlassen wir uns nicht auf die
Medien, denn die leben vom Aufruhr. Auch
587
00:47:53,570 --> 00:47:58,400
wenn es positive Gegenbeispiele gibt.
Verlassen wir uns nicht auf irgendwelche
588
00:47:58,400 --> 00:48:03,450
Stars, die leben von Likes und die kriegt
man am besten durch Zuspitzung. In der
589
00:48:03,450 --> 00:48:07,641
Regel sind die Teil des Problems.
Verlassen wir uns nicht auf Politiker, die
590
00:48:07,641 --> 00:48:11,510
achten wegen der Shitstorm-Kultur nur noch
darauf, bis zur nächsten Wahl nicht
591
00:48:11,510 --> 00:48:15,640
anzuecken. Und zu viele von denen haben
ohnehin niemals außerhalb der Politik
592
00:48:15,640 --> 00:48:21,780
gearbeitet. Was soll da schon kommen? Und
das ist der Grund, warum ich das hier
593
00:48:21,780 --> 00:48:26,010
mache. Ich versuche, euch zu inspirieren,
eure eigenen Analysen zu strittigen Themen
594
00:48:26,010 --> 00:48:31,320
anzustellen. Und in meinen letzten
Vorträgen, meinen beiden hier, habt ihr
595
00:48:31,320 --> 00:48:34,680
ein paar Instinkte davon bekommen, wie das
geht, und ich hoffe, ich habe euch
596
00:48:34,680 --> 00:48:37,540
bewiesen, dass das absolut keine
Raketenwissenschaft ist.
597
00:48:37,540 --> 00:48:41,360
Vereinzelter Applaus
Und ich frage nochmal: Wer soll das
598
00:48:41,360 --> 00:48:45,280
machen, wenn nicht wir hier? Wenn wir es
gemeinsam schaffen, dass wenigstens
599
00:48:45,280 --> 00:48:51,590
manche, die heute echt nichts Besseres zu
tun haben, als sich im Internet zu empören
600
00:48:51,590 --> 00:48:55,220
im nächsten Jahrzehnt zur engagierten
Analyse übergehen und dabei auch
601
00:48:55,220 --> 00:48:59,530
anerkennen, wenn was herauskommt, dass sie
vorher nicht gedacht hätten, dann haben
602
00:48:59,530 --> 00:49:02,810
wir gesellschaftlich unglaublich viel
gewonnen. Und heute Abend stehe ich hier
603
00:49:02,810 --> 00:49:07,390
in einem Saal mit 5000 Leuten, voll
belegt. Da sitzen Sie noch neben der
604
00:49:07,390 --> 00:49:12,860
Tribüne, die sich mit 5000 Leuten, die
sich am Samstagabend zwischen Weihnachten
605
00:49:12,860 --> 00:49:16,700
und Silvester hier hinsetzen. Also da, wo
die allermeisten Menschen einfach gar
606
00:49:16,700 --> 00:49:19,810
nichts tun und sich die Flasche Wein an
den Hals anschließen.
607
00:49:19,810 --> 00:49:24,730
Lachen
Und warum tun die 5000 Leute das? Um einen
608
00:49:24,730 --> 00:49:27,790
Statistik Vortrag zu hören.
Lachen
609
00:49:27,790 --> 00:49:32,850
Das gibt mir Hoffnung. Ich werde glücklich
heimfahren. Da kann die Bahn mit mir
610
00:49:32,850 --> 00:49:36,650
machen, was sie will. Und ich bedanke
mich, dass ihr hier wart, und wünsche euch
611
00:49:36,650 --> 00:49:39,780
ein schönes neues Jahrzehnt.
612
00:49:39,780 --> 00:49:52,909
Großer, tosender Applaus
613
00:49:52,909 --> 00:50:02,840
Standing Ovation
614
00:50:02,840 --> 00:50:10,134
Applaus
615
00:50:10,134 --> 00:50:13,390
Jetzt stehen sie wieder auf...
616
00:50:13,390 --> 00:50:16,424
Applaus
617
00:50:16,424 --> 00:50:18,097
Danke schön.
618
00:50:18,097 --> 00:50:26,910
Applaus
619
00:50:26,910 --> 00:50:30,408
Vielen lieben Dank.
620
00:50:30,408 --> 00:50:36,760
Herald 1: Wow. Auch von mir nochmal
herzlichen Dank. Super Vortrag wie immer,
621
00:50:36,760 --> 00:50:40,850
super lustig. Dankeschön David, dass du
das immer wieder machst, echt schön. Wir
622
00:50:40,850 --> 00:50:45,920
haben noch ein bisschen Zeit für Fragen.
Bitte an die Mikrofone. Es gibt 4, 5
623
00:50:45,920 --> 00:50:49,630
Stück, glaube ich, hier im Saal, wenn ihr
Fragen habt. Wir fangen mal mit Mikrofon 1
624
00:50:49,630 --> 00:50:53,381
an.
Frage: Du hast ja damit angefangen, dass
625
00:50:53,381 --> 00:50:57,150
du der Fairness halber die
Pünktlichkeitsdefinition der Bahn von 6
626
00:50:57,150 --> 00:51:02,000
Minuten, höchstens, gesetzt hast. Hast du
aus purer Neugier mal Sachen
627
00:51:02,000 --> 00:51:05,010
durchgerechnet mit
Pünktlichkeitsdefinitionen, die irgendwie
628
00:51:05,010 --> 00:51:09,119
sinnvoller anfühlen? Müssen ja nicht
gleich die 30 Sekunden aus Japan sein.
629
00:51:09,119 --> 00:51:12,800
D: Ja, da kann man sich streiten, welchen
Wert man setzt.
630
00:51:12,800 --> 00:51:17,970
F: Hast du und welche?
D: Ja, habe ich. Das sieht dann so aus,
631
00:51:17,970 --> 00:51:22,060
als wenn man das eng zieht, am Schluss
natürlich alle Züge verspätet sind. Jeder
632
00:51:22,060 --> 00:51:28,880
hat mal irgendwie eine Minute. Was ich
gemacht habe, war: Ich habe mal eine
633
00:51:28,880 --> 00:51:32,330
Reibungslos-Metrik gesetzt. Reibungslos,
habe ich gesagt, das ist alles, was
634
00:51:32,330 --> 00:51:38,171
maximal 3 Minuten zu spät ist, nicht
ausgefallen und keinen Gleiswechsel, weil
635
00:51:38,171 --> 00:51:40,840
das geht mir immer unglaublich auf die
Nerven, wenn ich dann mit Koffer einmal
636
00:51:40,840 --> 00:51:44,730
hoch und runter... Und das waren dann
irgendwie 60%. Aber nagele mich jetzt
637
00:51:44,730 --> 00:51:50,170
darauf nicht fest. Ich habe es jetzt
nicht im Kopf, aber es waren deutlich
638
00:51:50,170 --> 00:51:52,780
weniger. Ich glaube, es war bei 60% oder
so, diese Pünktlichkeit.
639
00:51:52,780 --> 00:51:55,800
F: Danke.
Herald 1: Ich weiß jetzt nicht, welches
640
00:51:55,800 --> 00:51:58,410
Mikro Erster war. Wir fragen mal den
Signal Angel, der hat eine Frage.
641
00:51:58,410 --> 00:52:01,837
Signal Angel: Also der Stream schließt
sich den Standing Ovations an.
642
00:52:01,837 --> 00:52:04,619
D: Danke schön!
Signal: Und es gab viele Leute, die darauf
643
00:52:04,619 --> 00:52:07,670
hingewiesen haben, dass für ausgefallene
Züge oft Ersatzfahrten bereitgestellt
644
00:52:07,670 --> 00:52:08,670
werden.
D: Ja.
645
00:52:08,670 --> 00:52:10,320
Signal: Die das dann teilweise
kompensieren. Wie taucht das bei dir in
646
00:52:10,320 --> 00:52:12,070
der Statistik auf?
D: Das taucht bei mir gar nicht auf.
647
00:52:12,070 --> 00:52:15,430
Deswegen war ich mir auch nicht komplett
sicher. Deswegen habe ich das auch gesagt.
648
00:52:15,430 --> 00:52:20,000
Wenn die komplett neue Fahrt haben die
irgendwie gar nicht im Plan aufgetaucht
649
00:52:20,000 --> 00:52:25,980
waren, dann werde ich die vermutlich nicht
drin haben. Wenn die Fahrten in
650
00:52:25,980 --> 00:52:28,350
irgendeiner Form in den Plandaten drinnen
waren, habe ich die aber drin. Deswegen
651
00:52:28,350 --> 00:52:32,400
kann ich es nicht genau sagen. Ich weiß
jedenfalls, dass die Kollegen beim SPIEGEL
652
00:52:32,400 --> 00:52:36,420
eine ähnliche Analyse neulich hatten auf
einem kleineren Datensatz. Und da war das
653
00:52:36,420 --> 00:52:43,020
auch jenseits der 4% Ausfallquote. Wenn es
falsch ist, stimmt das zumindest überein.
654
00:52:43,020 --> 00:52:45,190
Es kann sein, dass sie drin sind. Ich bin
mir nicht völlig sicher.
655
00:52:45,190 --> 00:52:50,860
Herald 1: Danke, Mikrofon 5 bitte mit
einer Frage.
656
00:52:50,860 --> 00:52:54,520
F: Vielen dank für diesen sehr
interessanten Vortrag. Es war bestimmt
657
00:52:54,520 --> 00:52:58,180
auch super viel Aufwand, das alles zu
analysieren und nach den Standing Ovations
658
00:52:58,180 --> 00:53:02,590
traue ich mich ja auch fast gar nicht,
eine kritische Frage zu stellen.
659
00:53:02,590 --> 00:53:06,330
D: Bitte!
F: Aber Sie hatten ja ziemlich an den
660
00:53:06,330 --> 00:53:12,640
Anfangsslides bei den Bahnhöfen, die den
Zügen Verspätungen hinzufügen oder wo die
661
00:53:12,640 --> 00:53:18,080
Züge vielleicht Verspätung aufholen. Aber
ist es nicht viel eher so, dass die
662
00:53:18,080 --> 00:53:22,000
Strecken zwischen den Bahnhöfen dazu
führen, dass die Züge Verspätung bekommen
663
00:53:22,000 --> 00:53:25,730
und nicht die Bahnhöfe selber? Und wäre
das dann nicht auch für die Bahn
664
00:53:25,730 --> 00:53:29,890
interessant zu schauen, zwischen welchen
Bahnhöfen kriegen die Züge am meisten
665
00:53:29,890 --> 00:53:32,670
Verspätung?
D: Also das ist eine exakt sehr geile
666
00:53:32,670 --> 00:53:37,260
Frage. Weil diese Auswertung war in der
Tat ein bisschen tricky, genau aus dem
667
00:53:37,260 --> 00:53:40,780
Grund. Vielleicht ist der Bahnhof
Frankfurt die Verspätung gar nicht schuld,
668
00:53:40,780 --> 00:53:44,791
sondern die Gleise beim Rein- und
Rausfahren zum Beispiel. Deswegen messe
669
00:53:44,791 --> 00:53:50,500
ich die Verspätungsänderung von dem
Streckensegment vor dem Bahnhof und dem
670
00:53:50,500 --> 00:53:54,280
Streckensegment nach dem Bahnhof. Und der
jeweilige Bahnhof kriegt man den
671
00:53:54,280 --> 00:53:58,800
Durchschnitt, damit ich genau von diesem
Effekt geheilt werde. Dann habe ich einen
672
00:53:58,800 --> 00:54:03,910
sehr guten Durchschnittswert. Und wer halt
immer was dazufügt im Schnitt, der wird
673
00:54:03,910 --> 00:54:07,880
auch selber was dazu beitragen. Oder beide
Streckenstreckensegmente dahin sind
674
00:54:07,880 --> 00:54:14,631
schlecht, also immer. Dann ist das auch
für mich ein Bahnhofsproblem. Also genau
675
00:54:14,631 --> 00:54:18,180
genommen, was ich hier analysiere ist dann
des Problem des Bahnhofs und der näheren
676
00:54:18,180 --> 00:54:21,420
Umgebung darum herum. Danke für diese
Frage.
677
00:54:21,420 --> 00:54:25,540
F: Vielen Dank für die Antwort.
Applaus
678
00:54:25,540 --> 00:54:33,450
D: Da hab ich mir nämlich lange Gedanken
gemacht, ob ich da jetzt einfach immer nur
679
00:54:33,450 --> 00:54:36,540
die Änderung der Verspätung nehme, aber
das hätte ich mir selbst als Statistik
680
00:54:36,540 --> 00:54:41,280
zerrissen, wenn ich da einen bei erwischt
hätte. Aber deswegen perfekt, dass es
681
00:54:41,280 --> 00:54:45,460
aufgefallen ist. Sehr gut.
Herald 1: Wir haben nur gute Menschen
682
00:54:45,460 --> 00:54:49,350
hier, sehr schön. lacht Wir nehmen
Mikrofon 3, wechseln mal die Seite bitte.
683
00:54:49,350 --> 00:54:53,020
D: Ich muss immer ein bisschen suchen.
Bitte entschuldigt, wenn ich euch nicht
684
00:54:53,020 --> 00:54:57,869
sehe. Da hinten ist er.
F: Du hattest am Anfang angeprangert oder
685
00:54:57,869 --> 00:55:05,190
in der Mitte angeprangert, dass die
Ausfälle nicht zu Verspätungen zählen. Und
686
00:55:05,190 --> 00:55:11,520
hattest aber am Anfang diese Slide, wo der
Berliner Flughafen immer ausfällt. Und es
687
00:55:11,520 --> 00:55:15,790
gibt ja vielleicht auch andere Bahnhöfe,
die umgebaut werden oder wo eben in
688
00:55:15,790 --> 00:55:21,731
Anführungszeichen planmäßig ausfallen.
Hast du die irgendwie
689
00:55:21,731 --> 00:55:23,441
rausgerechnet oder wie läuft das?
D: Nach meiner Information sind die Stopps
690
00:55:23,441 --> 00:55:25,820
dann gar nicht im Plan.
F: Ah, okay.
691
00:55:25,820 --> 00:55:29,430
D: Das sieht so aus: Ihr habt die
Plandaten mit den Stopps und dann habt ihr
692
00:55:29,430 --> 00:55:34,119
die Änderungen. Und da ist dann, wenn da
was ausfällt, dann ist da eine Cancelation
693
00:55:34,119 --> 00:55:37,880
Time drin, nämlich der Zeitpunkt des
Ausfalls. Da kann man auch noch schöne
694
00:55:37,880 --> 00:55:41,910
Auswertungen mit machen. Ausfälle mit
kurzer Vorlaufzeit und so weiter. Das
695
00:55:41,910 --> 00:55:47,910
würde dann in den Daten nach meiner
Kenntnis anders aussehen, wobei ich das
696
00:55:47,910 --> 00:55:51,800
auch nur reverse engineere. Die
dokumentieren nicht alles. Ich weiß nicht,
697
00:55:51,800 --> 00:55:56,250
wer von euch vorhin in dem Bahn-API-
Vortrag drin war. Aber man muss sehr viel
698
00:55:56,250 --> 00:56:01,230
reverse engineeren, wenn man das macht.
Also auch das mit einem Körnchen Salz.
699
00:56:01,230 --> 00:56:07,510
Herald: Danke, wir nehmen Mikrofon 2.
F: Ich bin auch Bahnfahrer, aber nach
700
00:56:07,510 --> 00:56:12,630
meiner Erfahrung ist der Regionalverkehr
viel häufiger verspätet als der
701
00:56:12,630 --> 00:56:17,181
Fernverkehr und deshalb die Frage: Wann
gibt's die Analyse für den Nahverkehr?
702
00:56:17,181 --> 00:56:23,130
D: Wo kommst du denn her?
F: Ich lebe südlich von Stuttgart.
703
00:56:23,130 --> 00:56:28,310
D: Südlich von Stuttgart. Also ich hab die
Nahverkehrsbahnhöfe nicht runtergeladen.
704
00:56:28,310 --> 00:56:34,369
Was ich aber hab (einfach weil sonst die
Requests wären explodiert), aber was ich
705
00:56:34,369 --> 00:56:39,530
hab, ist natürlich sämtlicher Nahverkehr,
der über alle Fernbahnhöfe gefahren ist,
706
00:56:39,530 --> 00:56:44,030
und die sind strategisch gut verteilt,
sodass sich da in der Tat auch für den
707
00:56:44,030 --> 00:56:48,430
Nahverkehr was sehen kann. Vielleicht
mache ich mal eine Pünktlichkeit von dem
708
00:56:48,430 --> 00:56:52,030
nahen Verkehr, der in den Fernverkehrs
Bahnhöfen vorbeigefahren ist. Weil das
709
00:56:52,030 --> 00:56:55,557
habe ich; dann muss ich mal als Tabelle
auf meine Webseite stellen. Oder so
710
00:56:55,557 --> 00:57:03,780
einfach. Dann kannst du gucken.
Applaus
711
00:57:03,780 --> 00:57:05,800
Herald 1: Wir haben noch ein kleines
bisschen Zeit, Mikrofon 6 nochmal, die
712
00:57:05,800 --> 00:57:09,060
andere Seite.
F: Vielen Dank nochmal für den Vortrag.
713
00:57:09,060 --> 00:57:15,440
Aus München kommend haben wir eine
chronisch schlechte S-Bahn, und ich habe
714
00:57:15,440 --> 00:57:19,100
mich auch gefragt: Ist den der
Regionalverkehr noch einmal
715
00:57:19,100 --> 00:57:22,160
unterschiedlich zum Nahverkehr? Oder ist
einfach die Münchner S-Bahn dauernd zu
716
00:57:22,160 --> 00:57:26,090
spät und im Rest von Deutschland ist gut?
D: Die fährt ja über eure großen Bahnhöfe,
717
00:57:26,090 --> 00:57:30,430
habt ja zwei oder drei richtig dicke, ne?
München Ost, München und noch
718
00:57:30,430 --> 00:57:31,859
irgendeinen.
F: Ja.
719
00:57:31,859 --> 00:57:36,500
D: Dann hab ich die drinnen. Kann ich mal
gucken. Würde dann auch in der Frage
720
00:57:36,500 --> 00:57:45,911
auftauchen, ob die da über 90%; Diese über
90% Pünktlichkeit im Regionalverkehr sind
721
00:57:45,911 --> 00:57:49,480
für Bahn und Subunternehmen vermutlich.
Ich muss mal gucken, aber die anderen hab
722
00:57:49,480 --> 00:57:54,300
ich ja drin. Zur Not als Dirttunternehmen.
Vielleicht beziehe ich die einfach mal mit
723
00:57:54,300 --> 00:57:58,390
ein in die regionale Analyse. Das könnte
interessant sein, wenn ich dafür
724
00:57:58,390 --> 00:58:00,880
irgendwann Zeit habe. Erwartet das jetzt
nicht morgen früh.
725
00:58:00,880 --> 00:58:04,410
F: Danke.
Harald 1: Super, wir nehmen euch beide
726
00:58:04,410 --> 00:58:09,500
hier, Mikrofon 4 zuerst.
F: Auf den Slides 80 und 84 war
727
00:58:09,500 --> 00:58:15,764
dargestellt, wie die Bahn die Teilausfälle
rausrechnet, aus der Statistik. Aber
728
00:58:15,764 --> 00:58:19,650
müssten nicht die gesamten Züge
herausgerechnet werden aus der Statistik?
729
00:58:19,650 --> 00:58:22,190
D: Ähm.
F: Die Verspätung akkumuliert sich ja
730
00:58:22,190 --> 00:58:27,120
natürlich und dann wäre die Statistik ja
dementsprechend besser.
731
00:58:27,120 --> 00:58:29,547
D: Jetzt hab ich mein PowerPoint
abgeschossen.
732
00:58:29,547 --> 00:58:34,820
Leises lachen
Nö, wieso müsstest du die ganze Züge
733
00:58:34,820 --> 00:58:38,590
herausrechnen? Das verstehe ich nicht. Es
kommt ja. Es ist ja schön granular für
734
00:58:38,590 --> 00:58:43,830
Stopps zu rechnen. Angenommen, das ganze
System würde so funktionieren, dass alle
735
00:58:43,830 --> 00:58:47,360
Züge auf der Hälfte Ihrer Stopps pünktlich
sind, und auf der anderen Hälfte
736
00:58:47,360 --> 00:58:50,830
unpünktlich. Dann wäre das doch halb
pünktlich. Ich sehe nicht, warum. Wir
737
00:58:50,830 --> 00:58:54,290
arbeiten ja feiner als auf Granularität
von Zügen. Das ist doch besser?
738
00:58:54,290 --> 00:58:59,150
F: Aber es werden ja Teilausfälle auch
rausgerechnet. Ist es dann wirklich nur
739
00:58:59,150 --> 00:59:01,610
der ausgefallene Stopp?
D: Nee, soweit ich weiß, ist da wirklich
740
00:59:01,610 --> 00:59:04,094
nur der ausgefallene Stopp, ja.
F: Ok, gut. Danke.
741
00:59:04,094 --> 00:59:09,540
Harald 1: So, dann noch Mikrophon 1.
F: Vielen Dank nochmal für den Talk. Meine
742
00:59:09,540 --> 00:59:14,119
Frage geht in die Richtung: "Perverse
incentive", sprich die Kennzahlen, an
743
00:59:14,119 --> 00:59:18,670
denen sich die Bahn messen lässt. Hat sie
sehr darauf hingewiesen, dass die
744
00:59:18,670 --> 00:59:24,180
Ausfallrate da vielleicht nicht so; Also
gut sein könnte wenn..,
745
00:59:24,180 --> 00:59:29,275
D: Ja, wäre schön, wenn sie drin wäre.
F: Ja, genau, wenn sie mit drin wäre. Eine
746
00:59:29,275 --> 00:59:38,070
andere Sache die da reinspielt: Wie hoch
die Ziele sind, die sich die Bahn setzt.
747
00:59:38,070 --> 00:59:42,630
Hast du in deinen Daten welche?
D: Das geht durch die Presse.
748
00:59:42,630 --> 00:59:47,440
F: Ich meine Ziele im Sinne von: Wie
schnell denn eine Strecke zu befahren ist?
749
00:59:47,440 --> 00:59:51,430
Man könnte ja die Züge pünktlicher machen
dadurch, dass man nach jedem Zug eine
750
00:59:51,430 --> 00:59:53,320
Stunde mehr Zeit gibt, dieselbe Strecke zu
fahren.
751
00:59:53,320 --> 00:59:54,619
D: Du meinst die Taktung?
F: Ja.
752
00:59:54,619 --> 00:59:58,990
D: Nee, die habe ich nicht. Die ist aber
bei der Bahn relativ eng, im Vergleich zu
753
00:59:58,990 --> 01:00:03,080
Flugzeugen - habe ich mir sagen lassen von
kundigen Personen - weswegen die Flugzeuge
754
01:00:03,080 --> 01:00:07,530
auch häufiger pünktlich sind; oder
ungefähr pünktlich. Aber bei der Bahn ist
755
01:00:07,530 --> 01:00:11,450
alles sehr eng getaktet, und vor allem
sind die Sachen interdependent. Wenn einer
756
01:00:11,450 --> 01:00:16,430
auf der Strecke liegen bleibt, halten alle
dahinter halt auch ein Problem. Das beides
757
01:00:16,430 --> 01:00:19,340
in Kombination sorgt für die Fragilität,
die wir sehen.
758
01:00:19,340 --> 01:00:26,320
F: Hast du vor, die Analyse in weiteren
Jahren fortzuführen, um dann da vielleicht
759
01:00:26,320 --> 01:00:32,450
die Richtung etwas zu sehen?
D: Ich bin mir nicht sicher. Zum einen
760
01:00:32,450 --> 01:00:37,730
habe ich wie alle anderen auch, Arbeit und
Familie, und zweitens ist die
761
01:00:37,730 --> 01:00:40,900
infrastrukturell sehr aufwendig. Ein
bisschen mache ich das sicher noch weiter,
762
01:00:40,900 --> 01:00:43,290
und dann gucke ich, habe ich noch
rauskriege. Aber ich kann nichts
763
01:00:43,290 --> 01:00:47,570
versprechen.
F: Letzter Nachschub: sind deine Daten
764
01:00:47,570 --> 01:00:52,470
von... also kriegt man die von dir?
D: Denke ich nicht, weil ich das nicht
765
01:00:52,470 --> 01:00:53,470
darf.
F: Ah.
766
01:00:53,470 --> 01:00:56,780
D: Am Ende hat die Bahn dafür das
Copyright. Viel mehr Copyright-Verstoß
767
01:00:56,780 --> 01:01:00,660
ginge gar nicht, als wenn ich das ganze
Ding nehme und euch einfach rauskopiere.
768
01:01:00,660 --> 01:01:08,950
Aber: sucht bei der Bahn die Timetable
API. Und dann ladet ihr das einfach
769
01:01:08,950 --> 01:01:13,900
runter. Es geht, das ist keine
Raketenwissenschaft.
770
01:01:13,900 --> 01:01:15,609
F: Danke.
D: Gut.
771
01:01:15,609 --> 01:01:20,088
Harald 1: Super. Nochmal einen riesengroßen
Applaus, an David. Herzlichen Dank.
772
01:01:20,088 --> 01:01:22,586
Applaus
773
01:01:22,586 --> 01:01:46,107
Abspannmusk