-
36C3 Vorspannmusik
-
Herald 1: Ok. Spaß beiseite! Der nun
folgende Zug is schon ganz schön lange
-
unterwegs. Beim 33C3, da fuhr er mit Xerox
ab.
-
Herald 2: Beim 33C3 hat er dann SPIEGEL
einmal gedataminet und hat geguckt. Was ist denn
-
dort? SpiegelOnline! Und hat uns wirklich
eine total perfekte Datenanalyse zu dem
-
Thema gemacht?
Herald 1: Und beim 36C3 geht's mit dieser
-
Zugfahrt weiter. Bitte begrüßt mit 'nem
ries'n Applaus David Kriesel.
-
Applaus
Herald 2: Applaus! Applaus! Applaus!
-
Applaus
Herald 1: Viel Spaß!
-
Applaus
-
David Kriesel: Also ich glaub: So geil bin
ich noch nie niemals eingeleitet worden.
-
Lachen
D: Hm! Herzlich willkommen euch allen
-
hier! Auch Herzlich willkommen an die
Leute im Stream - an die Aluhüte im
-
Besonderen. Die Aluhüte glühen aber leider
noch nicht. Vielleicht kriegen wir das im
-
Verlaufe dieses Vortrages noch hin. Mein
Name ist David Kriesel. Ich bin
-
Informatiker aus der Nähe von Bonn. Im
richtigen Leben ist es mein Beruf
-
interessante Sachen in größeren
Datenmengen zu finden. Neudeutsch heißt
-
das Data Scientist. Und zusätzlich zum
Beruf habe ich verschiedene Projekte und
-
manchmal nehme ich mir eines davon raus
und halte hier einen Vortrag. Ich bin
-
Rheinländer und bei uns sagt man Ab
zweimal ist es Tradition und beim dritten
-
Mal ist es Brauchtum. Ich bin jetzt das
dritte Mal hier. Das ist schon voll
-
Brauchtum und ich freue mich, dass es so
oft geklappt hat. Unsere Geschichte heute
-
beginnt im Jahr 2018. Am Ende des Jahres
2018 hat nämlich die Bahn gesagt, rund 75
-
Prozent ihrer Fernzüge seien pünktlich
gewesen. Dafür muss man erst mal wissen:
-
Was ist denn pünktlich? Die Bahn errechnet
das folgendermaßen: Die sagen: Wenn ein
-
Zug bei einem Stopp weniger als sechs
Minuten zu spät ankommt, dann ist er
-
pünktlich. Das ist wirklich die
Definition, und wir übernehmen das
-
einfach. Da müssen wir dann nicht handeln.
Und dann errechnen Sie den Prozentsatz
-
aller Stopps, bei denen das der Fall ist.
Und das wären bei knapp 75 Prozent in 2018
-
so der Fall gewesen. Und das hat mich in
meiner persönlichen Erfahrung irgendwie
-
gestört. In den letzten Jahren bin ich
quer durch Deutschland gereist, davon
-
relativ häufig mit der Bahn. Und dann habe
ich meine Mailbox geguckt, und für mehr
-
als die Hälfte meiner Fahrten habe ich
diese E-Mail von verspätungsalarm@bahn.de.
-
Und da dachte ich Ich bin wohl dieser eine
Typ - ja - der aufpassen muss, nicht vom
-
Blitz getroffen zu werden, während er den
Sechser im Lotto abholt. Ja? Ich wollte
-
das dann genauer wissen. Also habe ich mal
in die Statistiken geguckt, die auf der
-
Webseite der Bahn sind. Dann habe ich
gesehen: Das sind kaum welche. Die Bahn
-
bietet auf ihrer Webseite nur die Prozent
der pünktlichen Stopps pro Monat an. Fürs
-
Gesamtnetz, bundesweit nochmal getrennt im
Nah und Fernverkehr und das ist
-
zusammengefasst. Damit kann man nichts
anfangen. Man kann dann nicht nach
-
bestimmten Verbindungen filtern. Man kann
aber nicht gucken, bei welchen Bahnhöfen
-
die Performance besonders schlecht ist
oder gut ist und alles, was interessant
-
ist oder was ich interessant fand, das
geht nicht. Also habe ich am 8. Januar
-
begonnen, die Deutsche Bahn zu
vorratsdatenspeichern.
-
Lachen & Applaus
In diesem Datensatz gucken wir heute rein
-
und wir werten das auch nicht nur aus,
sondern ich werde auch ein bisschen Zeit
-
darauf verwenden, euch grob zu erklären,
wie man so ein Datenprojekt angeht und
-
worauf man achten muss und wie man vor
allem merkt, ob man Vertrauen in die Daten
-
haben kann. Das muss ja nicht sein, dass
alles stimmt, was man so herunterlädt, und
-
über den ganzen Vortrag hinweg geb ich
euch immer so ein paar... - Wie nenne ich
-
das? - Praxistipps, die ihr mit nach Hause
nehmen und an die ihr denken könnt, wenn
-
ihr eine Bahnfahrt bucht. Disclaimer
Vorweg: Ich habe mit der Bahn nicht über
-
die Auswertungen gesprochen. Behaltet im
Hinterkopf: Am Ende ist das ein kleines
-
Hauptprojekt, und es kann durchaus sein,
dass ich Fehler gemacht habe. Aber da wir
-
auch noch über die Vertrauenswürdigkeit
der Daten reden, könnt ihr selbst
-
entscheiden, ob ihr meinen Daten vertraut
oder nicht. Wir kucken uns jetzt endlich
-
mal an, wie die Daten aussehen. Hier sehen
wir eine fiktive Fahrt eines ICE. Ich gebe
-
euch mal kurz fünf Sekunden für den ersten
Überblick und danach erkläre ich die. Drei
-
Sekunden reichen auch. So! Der ICE fährt
in München los und jede weitere Zeile ist
-
ein Stopp und irgendwann ist er am Ziel
angekommen. Hier: Bergen auf Rügen. Eine
-
Fahrt ist die Sequenz aller Stopps, die
der Zug von Anfang bis Ende macht. Danach
-
ist das eine neue Fahrt. Hier sind die
Verspätungen pro Stopp. Der Zug ist mit
-
sechs Minuten Verspätung abgefahren und
nach der Messmethode der Bahn wäre der
-
gerade als verspätet zu werten - an diesem
Stopp. Und dann schwanken die
-
Verspätungen. In Erfurt sind wir auch mal
sechs Minuten zu früh dran gewesen. Die
-
Verspätung ist negativ. Das passiert. In
der Regel heißt das übrigens, dass der Zug
-
dann einfach länger bleibt und nicht zu
früh wieder abfährt. Am Berliner
-
Flughafen; der Stopp fällt aus. In 20
Jahren werde ich diese Witze immer noch
-
machen können.
Lachen & Applaus
-
Und diese Stopps aller Fahrten sind die
Grundlage unserer Daten, meine Tabelle hat
-
25 Millionen Zeilen. Das sind 25 Millionen
Stopps von irgendwelchen Zügen. Das sind
-
alle Stopps im Fernverkehr vom 8. Januar
bis jetzt. Und auch der Nahverkehr, aber
-
der nur an den Fernbahnhöfen. Komme ich gleich
noch zu. Und die Tabelle hat auch
-
verschiedenste Spalten - die, die ich hier
vorführe und noch einige mehr. Wir können
-
in einzelne Orte reingucken, in einzelne
Fahrten reingucken, in Zeiträume
-
reingucken. Wir können auch kompliziertere
Auswertungen fahren. Machen wir auch heute
-
noch. Zum Anfang, machen wir mal ein paar
ganz einfache Sachen mit den Daten. Das
-
ist nicht, um euch zu langweilen, aber wir
müssen ja erst mal reinkommen, den
-
Datensatz kennenlernen und so weiter. Wir
sortieren jetzt die ganze Tabelle von
-
Stopps, 25 Millionen Stück, mal nach
Bahnhöfen und dann ermitteln wir die
-
Anzahl der Stopps für jeden Bahnhof über
das ganze Jahr hinweg. Jeder Bubble hier
-
ist ein Bahnhof mit Fernverkehr und davon
haben wir um die 350 Stück. Das sind die
-
wichtigen. Und die Größe der Bubble gibt
die Anzahl der erfassten Halte für den
-
Bahnhof wieder, und zwar für alles, was da
fährt: Fern- und Nahverkehr. Und der
-
Größte, was das angeht, ist Köln
Hauptbahnhof mit im Moment 380 000 Stopps
-
in der Datenbank. Ich habe die Top 6 mal
in der Karte beschriftet. Warum genau die
-
Top 6? Weil der sechste Bahnhof genau
Hamburg Dammtor ist und das wollte ich
-
euch nicht vorenthalten. Das war unser
letzter Congress-Bahnhof. Der Bahnhof
-
Leipzig Messe ist übrigens deutlich,
deutlich kleiner. Inklusive Nahverkehr
-
haben wir hier so 60.000 Stopps im Jahr
und überhaupt nur ein paar hundert
-
Fernverkehr. Wo wir schon dabei sind,
machen wir jetzt was aus Kundensicht
-
Interessantes und färben mal die Bahnhöfe
ein. Und zwar nach der Pünktlichkeit, nach
-
dem Prozentsatz der Pünktlichkeit, der
dortigen Stopps im Fernverkehr. Das ist
-
die Pünktlichkeit. Knallrot ist 60
Prozent, knallblau ist 90 Prozent und
-
dazwischen farblos. Das ist ungefähr der
Durchschnitt bei 75. Als erstes sieht man
-
In Ostdeutschland ist quasi alles blau.
Applaus
-
Ich bin sicher, das sind diese blühenden
Landschaften, von denen Altkanzler Kohl
-
immer sprach. In Nordrhein-Westfalen ist
so ziemlich alles rot. Köln hat nur so 66
-
Prozent Pünktlichkeit. Bonn ist wirklich
eines der Schlusslichter mit 59 Prozent.
-
Das sind die beiden Bahnhöfe, über die ich oft
fahre.
-
Lachen
Generell. Der ganze dicht besiedelte Raum
-
in Nordrhein-Westfalen ist ziemlich
schlimm dran. Und ich habe euch ja gesagt,
-
dass ich das ganze Projekt überhaupt erst
gestartet habe, weil ich dachte, die
-
Statistik der Bahn wäre falsch, weil meine
Züge so häufig unpünktlich sind. Die
-
simple Wahrheit ist, ich wohne nur
schlecht. Hamburg, oben, ist auch schlimm.
-
Das finde ich auch gerecht. Warum soll ich
der Einzige sein? Irgendwo bei 60 Prozent,
-
je nachdem, welchen Bahnhof man erwischt.
Das sieht da jetzt röter aus, als es ist,
-
weil die Dinger transparent sind. Und was
die Pünktlichkeit angeht, haben wir uns
-
mit Leipzig Messe definitiv verbessert.
Wir sind hier so bei 80 Prozent oder etwas
-
mehr. Ganz wichtig: Ich zeige ab jetzt
jetzt überall, wo es nicht anders dran
-
steht, nur noch den Fernverkehr an.
Überhaupt wird der ganze Vortrag primär
-
über den Fernverkehr gehen, weil über das
wird meistens berichtet in den Medien und
-
auch darüber gemeckert. Und der
Fernverkehr ist das, worüber alle reden.
-
Aber wenn ich sage, dass ich hier primär
über den Fernverkehr heute rede, dann muss
-
ich auch fair sein und das Folgende sagen:
Der Nahverkehr, den wir jetzt auslassen,
-
erreicht fast flächendeckend
Pünktlichkeitswerte von besser als 90
-
Prozent. Behaltet das bitte über den Rest
des Vortrages im Hinterkopf. Die Bahn hat
-
auch gute Seiten und bringt gerade im
Nahverkehr eine ziemliche Menge Leute
-
jeden Tag zu ihrem Job. Da geht sicher
auch mal was schief, aber deutlich weniger
-
als im Fernverkehr.
Applaus
-
Ich hoffe, die Leute von der Bahn hören zu
und hören das jetzt gerade. Wir ändern
-
jetz nochmal die Ansicht, die
Pünktlichkeit pro Bahnhof waren ja
-
interessant für den Kunden. Aber wenn man
ein bisschen analytisch was machen will
-
und bei der Bahn arbeitet, dann ist da das
Interessante. Welche Bahnhöfe richtig viel
-
Verspätung generieren, also dem Netz
hinzufügen, und das ist die Ansicht. Ganz
-
schlimm sind große Bahnhöfe mit vielen
Stopps, die gleichzeitig jedem Zug, der da
-
anhält noch so ein bisschen Verspätung mit
auf den Weg geben. Die fünf schlimmsten
-
sind Hamburg, Köln, Frankfurt Flughafen,
Mannheim. Die sind alle mit mehr als
-
50.000 hinzugefügten Verspätungsminuten im
Messzeitraum. Spitzenreiter ist Frankfurt
-
Hauptbahnhof mit 93.000 generierten
Verspätungsminuten. Ich höre, wir haben
-
eine Frankfurtfraktion, wie seid ihr
hergekommen? Lachen
-
Publikumseinrufe: Zu spät! Auto!
-
D: Die sind heute erst angekommen. Ich hoffe
-
ihr habt euch nicht gehetzt! Zweiter Tag
abends. Es gibt aber auch Bahnhöfe
-
funktionieren so gut, dass sie insgesamt
Verspätungen aus dem Netz rausnehmen. Die
-
Top drei sind Bremen, Berlin Hauptbahnhof
und Berlin Spandau.
-
Applaus
Das hat mich sehr kalt erwischt. das mir
-
völlig unverhofft ein Nachweis dieser
Größenordnung gelungen ist: Es gibt
-
tatsächlich etwas an Berlin, das
funktioniert. Lachen
-
Wir machen weiter - sonst artet das aus. Hier seht ihr im
-
Vergleich, wie viele Fahrten es im
Nahverkehr, Fernverkehr und von
-
Drittanbietern gibt. Wir ihr seht, ist das
weitaus meiste der Nahverkehr - hier
-
orange. Hier sind mehr als fünf Millionen
Fahrten im Datensatz. Dagegen gibt es nur
-
circa eine Viertelmillion Fahrten im
Fernverkehr - der ist hier blau - und es
-
gibt noch ziemlich viele Fahrten von
Drittanbietern. Wir dröseln das mal in
-
einzelne Zugfahrten auf, einfach, damit
wir sehen, was es gibt, bevor wir richtig
-
einsteigen. Wir sehen jetzt, dass sich der
Nahverkehr aufspaltet, in die drei
-
dicksten Bubble: Regionalbahnen
Regionalexpress, S-Bahn. Und der
-
Fernverkehr in ICE, Intercity, das ist IC
und Eurocity, EC. Die Abkürzungen verwende
-
ich auch im Folgenden. Diese
vergleichsweise kleinen blauen Punkte, das
-
sind die eigentlich interessanten Zugarten
für heute. Das sind nämlich die Züge, die
-
quer durch Deutschland fahren. Da kann man
richtig was sehen. Jetzt gehen wir einen
-
Schritt weiter. Wir nehmen diese für uns
relevanten Zugarten her - also ICE,
-
Intercity, Eurocity - und dann schauen wir
einfach mal, welche Zugart generell am
-
spätesten dran ist, damit man gleich weiß,
wo man ausweichen muss. Ich wiederhole
-
nochmals, wie die Bahn das misst.
Prozentzahl der Stopps, die maximal sechs
-
Minuten zu spät sind, sind pünktlich. Im
Fernverkehr am pünktlichsten sind die
-
Intercity, mit gut 76 Prozent. Dicht
danach folgen die ICE. Deutlich dahinter
-
die Eurocity. Davon sind nicht mal 70
Prozent nach der Bahn-Definition
-
pünktlich. Da muss ich sagen, das kann ich
in der Tat aus persönlicher Erfahrung
-
bestätigen. Nach meinem Eindruck ist die
Qualität von den Teilen einfach schlechter
-
- in jeder Hinsicht. Die Züge sehen, auch
wenn ich damit fahre, immer relativ alt
-
aus. Aber man muss auch fair sein. Die
fahren internationaler als der Rest der
-
Züge und wenn die direkt von außen
Verspätungen mitbringen, kann die Bahn da
-
nichts für und solche Fälle gibt es. Und
es fehlt noch eine Größe, die wir messen
-
können und die wir messen werden. Und über
die schweigt sich die Bahn auf ihren
-
Webseiten aus. Und wenn man sich so
konsequent ausschweigt, hat das natürlich
-
zur Folge, dass man sich für eine Analyse
bewirbt. Das ist der Prozentsatz der
-
Ausfälle. Hier ist er. Und das war für
mich überraschend. ICEs sind ja das
-
Flaggschiff der Bahn und anscheinend
fallen die mit weitem Abstand am
-
häufigsten aus. Eurocity gut zwei Prozent,
Intercity gut drei Prozent und ICE über
-
fünf Prozent. Also wenn ihr einen ICE
bucht, dann taucht er in einem von 20 Mal
-
einfach nicht auf. Das fand ich ganz schön
stramm. Mich hat das überrascht. Mein
-
Praxistipp an euch lautet also: Vorsicht
mit den ICEs! Ich weise fairerweise
-
nochmals darauf hin, dass das eine
Auswertung von außen ist. Es besteht die
-
Möglichkeit, dass das nicht stimmt oder da
ewig viele Extrafahrten dann für die
-
Ausfälle gefahren werden, die gar nicht im
Plan standen, aber alle diese Stopps
-
standen in deren Daten explizit als
ausgefallen drin. Die Daten sehen
-
insgesamt realistisch aus, und im SPIEGEL
hatten Sie auch neulich eine Auswertung,
-
wo Sie auf ähnliche Werte kamen. Also
schlage ich vor, wir betrachten das mal
-
als gegeben, bis die Bahn widerspricht.
Übrigens einer der fettesten, nicht
-
ausgefallenen Verspätungen in meinem
Datensatz, war der ICE 576 von Stuttgart
-
nach Hamburg, und zwar am 17. Oktober
2019. Der hatte 456 Minuten Verspätung.
-
Das sind mehr als siebeneinhalb Stunden
und der war nicht ausgefallen. Und um
-
unseren Überblick zu vollenden, gucken wir
uns jetzt das Ganze noch einmal über die
-
Zeit an. Hier sehen wir die Fahrten über
die Zeit, die ich für den Fernverkehr in
-
der Datenbank habe. Die können wir uns mal
angucken, wie das funktioniert. Wir sehen,
-
dass wir so um die 800 Fahrten am Tag
haben im Fernverkehr. Die niedersten
-
Zacken sind immer Samstage, die hohen
Zacken immer Freitage, das ist der
-
Berufsverkehr. Hier sind Ostern und
Pfingsten. Weihnachten habe ich nicht mehr
-
hingekriegt. Und was sieht man noch? Man
sieht zum Beispiel, dass ich zwischendurch
-
Mist gebaut habe und ein paar Tage Daten
verloren habe. Wer meinen letzten Vortrag
-
hier gesehen hat, dem wird das bekannt
vorkommen. Ich mache das jeden Vortrag.
-
Aber ich war besser. Diesmal war ich so
klug - ja - und dann hab ich mir ein
-
vernünftiges Download Monitoring gebaut.
Und dann dachte ich, ich wäre cool. Und
-
dann habe ich es irgendwie geschafft, den
Debian Server, auf dem das Ganze läuft,
-
komplett zu crashen - also der hat gar
nicht mehr geantwortet. Ich musste die
-
Kiste hart booten, und ich war da gerade
in Urlaub und habe das nicht gemerkt. Also
-
diesmal Technischer Tipp für euch. Baut
nicht nur ein Download Monitoring, sondern
-
lasst das auch noch auf einem anderen
Server laufen als den Download selbst.
-
Applaus
Und weil wir heute ja auf Bahnbewerbungen
-
hin die Ausfälle besonders genau machen
wollen: Hier sind die Ausfälle über die
-
Zeit, das sind die Prozent der Stops pro
Tag, die einfach ausgefallen sind und man
-
sieht sofort zwei fette Spikes. Hier ist
der Orkan Eberhard. Dieser Orkan ist am
-
10. März über uns hereingebrochen, und am
Nachmittag war der der Meinung, es würde
-
jetzt mal reichen mit Bahnverkehr. Und den
gucken wir uns auch noch genauer an, und
-
hier ist der heißeste Tag des Jahres mit
der Hitzewelle dieses Jahr. Und generell
-
sieht man, wenn ihr hier so ein bisschen
genauer guckt, dass es im Hochsommer eine
-
stark erhöhte Ausfallrate gibt. Wie kommt
das?
-
Publikumseinruf: Klimaanlage
D: Klimaanlage höre ich da. Die Ausfälle
-
nach Zeit zerlegen wir jetzt nochmal in
die relevanten Zugarten - bevor der alles
-
vorwegnehmt nimmt - und das machen wir jetzt
nicht mehr auf der Basis von Tagen,
-
sondern von Wochen, das ist einfach etwas
glatter. Und die gelbliche Linie sind die
-
ICEs und da sieht man erst mal, was für
ein fettes Problem die mit den ICEs im
-
Sommer haben. Und ihr seht wie die
Ausfälle der ICEs im Sommer im Vergleich
-
zu den anderen Zugarten richtig stark nach
oben ausbrechen. Das sind so um die 8
-
Prozent Ausfallquote - fast an jedem
zwölften Stop taucht so ein ICE in der
-
warmen Zeit dann einfach nicht auf. Und in
der Woche vom 22. Juli sind in der ganzen
-
Woche sind mehr als 10 Prozent aller ICE
Stopps ausgefallen. Also ich weiß nicht,
-
wie euch das geht, aber das geht bei mir
über die Fehlertoleranz. Also wenn das
-
jeden Sommer so ist, wäre mein nächster
Praxis Tipp für euch: Vorsicht mit ICEs im
-
Sommer. Und jetzt, wo es kälter wird,
fängt das auch wieder so an, aber wenn man
-
das so anguckt - wir müssen noch ein
bisschen abwarten. Es ist noch nicht raus,
-
ob das wirklich so wird. In zwei, drei
Monaten wissen wir mehr, wenn es richtig
-
kalt war. Wir machen jetzt noch zwei
kleine Sachen und danach reden wir mal
-
darüber, wie man so ein Projekt überhaupt
aufbaut und was die Grundregeln sind. Hier
-
ist etwas Offensichtliches. Ich habe hier
die Stops mal aller Fahrten sortiert nach
-
der Zeit, die die Zugfahrt bereits vor
diesem Stop gedauert hat. Von links nach
-
rechts steigt die bereits gefahrene
Laufzeit vor dem Stopp an, hier von null
-
bis 500 Minuten. Und was sieht man? Früher
in der Fahrt ist der Prozentsatz der
-
pünktlichen Züge höher. Später in der
Fahrt sinkt die prozentuale Pünktlichkeit
-
krass ab. Bei 500 Minuten sind unter 60
Prozent pünktlich. Das habt ihr euch
-
wahrscheinlich jetzt alle schon selbst
gedacht. Warum sage ich das also? Weil ich
-
die Bahn ein bisschen in Schutz nehmen
möchte. Man sieht nämlich häufiger in den
-
Medien irgendwelche Untersuchungen von
Fahrten zwischen weit entfernteren
-
Metropolen und da werden dann unglaublich
schlechte Pünktlichkeiten gemessen. Und
-
wenn ihr sowas seht, lasst mich euch
sagen, die machen die Bahn schlimmer, als
-
sie ist, weil sie durch weiter entfernen
eben nur den Datenteil mit der hohen
-
Verspätung auswählen. Und ganz ehrlich -
die häufigen Probleme mit den japanischen
-
Hochgeschwindigkeitszügen sind aus meiner
Sicht auch einfach Stuss. Die verbinden in
-
Japan nur die absolut riesigen Metropolen.
Die haben ein komplettes Schienennetz für
-
sich alleine. Der Fernverkehr der Bahn
muss sich das Netz mit Güter- und
-
Nahverkehr teilen und bindet auch noch die
Mittelzentren mit an. Das ist nicht
-
vergleichbar. So fair müssen wir schon
sein. Trotzdem hier wieder mein Praxistipp
-
für euch: Vorsicht mit Zügen, die bereits
lange unterwegs sind. Ihr könnt ja, wenn
-
ihr bucht sehen, was das für eine Zug
Linie ist und woher die kommt, könnt ihr
-
also mit einbeziehen. Als nächstes habe
ich mich gefragt Ab welcher Verspätung
-
wird es nicht mehr besser? Und dafür habe
ich für alle Stops aller Fahrten geguckt.
-
Wie sehr ist der gerade schon verspätet,
und das hier ist von links nach rechts
-
aufgetragen. Links stehen die wenig
verspäteten Stops, rechts die, die mit
-
mehr Verspätung. Und dann habe ich geguckt
Wieviel Prozent bauen auf dem Rest ihrer
-
Fahrt fünf Prozent der Verspätung ab und
existieren noch also sind nicht
-
ausgefallen. Ja? Hört sich jetzt
kompliziert an, aber kurz: wieviel Prozent
-
werden nochmal spürbar besser oder war es
das jetzt? Und was man sieht ist, dass bei
-
Verspätungen unter 40 Minuten noch mehr
als die Hälfte der Züge am Ende der Fahrt
-
besser dastehen als jetzt gerade und ab 40
Minuten Verspätung - da ist eine gut
-
sichtbare Stufe in den Daten, die einzige
- da scheint die Bahn die Dinger irgendwie
-
aufzugeben. Ab da wird es in der Mehrzahl
der Fälle bis zum Fahrtende nicht mehr
-
besser. Woran das liegen könnte, darauf
kommen wir gleich auch noch. Praxistipp für
-
euch: Ab einer Verspätung von 40 Minuten
erwägt ein anderes Transportmittel! So,
-
das war ein Höllenritt. Jetzt haben wir
schon diverse Praxistipps abgestaubt. Ich
-
schlage vor, wir machen jetzt einen
Einschub, und ich versuche, euch ein paar
-
Anhaltspunkte zu geben, was ihr beachten
sollte, wenn ihr Datenprojekte selber
-
hochzieht. Und ich werde das kurz halten,
so dass wir wieder in die Daten eintauchen
-
können bald. Punkt 1: organisiert den
Download gut. Die Bahn hat einige
-
öffentliche Schnittstellen. Es gab hier
auch schon einen schönen Vortrag zu
-
ebendiesen Schnittstellen. Ich bin froh,
dass jemand ermessen kann, wieviel
-
Schmerzen ich gehabt habe. Über zwei davon
kann man Fahrpläne und Veränderungen
-
abrufen. Wenn ihr in eurem Smartphone mit
der Bahn App oder Öffi Bahnverbindung
-
nachguckt, dann macht euer Handy genau
das. In den Fahrplänen steht, wann welcher
-
Zug ankommen soll und in den Änderungen
steht, was sich dem gegenüber verändert.
-
Ausfälle, Verspätungen und so weiter. Das
ist ein bisschen anstrengend, denn leider
-
müsst ihr beides in getrennten Abfragen
abrufen. Und wenn ihr die Schnittstellen
-
abruft, erhaltet ihr nur zeitlich begrenzt
Daten - paar Stündchen vor und zurück.
-
Leider müsst ihr beides für jeden Bahnhof
einzeln abrufen. Das bedeutet, wir können
-
uns nicht am Schluss einfach ein Jahr
Daten ziehen, sondern wir müssen wirklich
-
über das ganze Jahr hinweg mit ein
bisschen Infrastruktur sehr häufig Daten
-
abrufen, die sich überlappen. Solche
Szenarios findet man relativ häufig. Das
-
funktioniert dann so, dass man die
Downloads einfach erst einmal weg
-
speichert und konkrete Werte auslesen und
Duplikate raus sortieren - das passiert
-
dann einfach alles später. Und jetzt
machen wir mal eine Nebenrechnung auf. Wir
-
haben sechseinhalbtausend Bahnhöfe in
Deutschland. Für jeden müssen wir einzeln
-
beides abrufen, also mal zwei. Und jetzt
sagen wir mal, wir machen das alle zehn
-
Minuten für Fahrplan und Änderungen. Das
macht dann 6600 mal 2 mal 144. Das sind
-
knapp zwei Millionen Abrufe am Tag. So ein
Abruf hat im Durchschnitt 22 KB bei den
-
Veränderungsdaten, ein bisschen weniger
bei den Plandaten und wir würden dann so
-
bei 40 Gigabyte XML landen, am Tag. Für
das ganze Jahr - ja das parst sich dann
-
auch nicht mehr von alleine. Für das ganze
Jahr wären das dann 14 TB in 700 Millionen
-
Requests. Diesen Moment kriegen die Admins
der Bahn vermutlich einen Herzanfall. Wenn
-
sie damit fertig sind, dann werden sie in
ihre Logs schauen welche Abrufe von mir
-
sind, und dann werden Sie Ihren Anwalt
anrufen, um mir eine riesige Rechnung zu
-
schicken. Aber die enttäuschen wir jetzt.
Natürlich habe ich das nicht so gemacht.
-
Erstmal hätte ich das speichern und
verarbeiten müssen, das viel zu aufwendig.
-
Und zweitens ist eine Sache ganz wichtig,
wenn ihr so etwas macht. Ihr müsst den
-
Traffic minimieren, und zwar aus zwei
Gründen. Das sind die Punkte 2 und 3.
-
Punkt 2: Handelt verantwortungsvoll. Das
bedeutet, dass Ihr bitte nicht so viel
-
Traffic erzeugt, dass ihr die
Infrastruktur des Ziels abwürgt oder
-
irgendwie unnötige Kosten verursacht. Das
ist jetzt realistischer, als es sich
-
anhört,vielleicht nicht bei der Bahn, aber
beispielsweise bei den Justizportalen in
-
Deutschland müsst ihr aufpassen. Die sind
erstaunlich schwach auf der Brust...
-
Hab ich gehört. Gelächter und Applaus
-
Meine Lösung dafür: Ich rufe
maximal stündlich ab und auch nur die ca.
-
350 Fernbahnhöfe, das sind dann statt der
zwei Millionen sofort nur noch 16 000
-
Requests am Tag. In der Regel ist das
nochmal deutlich geringer, weil man das
-
adaptiv machen kann. Und in diesem Moment
kriegen die Admins zwar keinen Herzanfall
-
mehr, aber die sind trotzdem enttäuscht,
weil sich dafür keine Rechnung mehr lohnt.
-
Punkt 3: Fliegt unter dem Radar. Sowas soll
ja eine Weihnachtsüberraschung bleiben. Da
-
wäre es natürlich schlecht gewesen, wenn
die Millionen Abrufe vom Server D. Kriesel
-
kommend irgendwie in ihren Logs stehen
haben. Das fällt nämlich irgendwann auf.
-
Und die Lösung hierfür ist Ihr schickt
die Abfragen über Tausende
-
Zwischenstationen in der ganzen Welt. In
der Fachsprache heißen die "anonyme
-
Proxys". Mit anderen Worten: Wenn ich
Massen von Daten runterlade, dann sieht
-
das für das Ziel aus wie so ein
Grundrauschen von winzigen Abfragen, die
-
von der ganzen Welt kommen. Viele von
euch werden das auch so machen. Niemand
-
sieht mich, aber in Wirklichkeit laufen
die Daten dann einfach im Hintergrund auf
-
meinem Server wieder zusammen - sofern ich
sie nicht crashe. An dieser Stelle
-
hören, die Admins der Bahn vermutlich auf
meine Abfrage in ihren Logs zu suchen.
-
Und ich freue mich, dass sie jetzt wieder
voll beim Vortrag dabei sind. Damit ich
-
euch nicht abschrecke, so einen Aufwand
müsst ihr nicht bei jedem Datenprojekt
-
treiben. Das war vielleicht ein bisschen
Overkill, weil ich das mal ausprobieren
-
wollte mit den Proxys. Punkt 4: Es kann
passieren, dass ihr nicht sicher seid,
-
was ihr rechtlich dürft ohne dranzukommen.
Die meisten unter uns sind keine Juristen,
-
und manche AGB sind auch einfach mies
formuliert. Und wenn ihr nicht sicher
-
seid, was ihr dürft, dann fragt einen
Anwalt, der für euch die AGB liest. Es
-
gibt im Internet Portale, wo ihr für
schmales Geld Anwälten Fragen stellen
-
könnt, und danach kriegt ihr eine
rechtsverbindliche Antwort. Wenn das
-
nicht stimmt, haftet der. Bei mir kam dann
leider raus, dass ich bei der Bahn lieber
-
eine schriftliche Genehmigung erfragen
sollte. Und das war so ein Moment, wo ich
-
kurz dachte, dass das Projekt vielleicht
auf der Kippe steht. Und das wäre schade
-
gewesen, weil ich mir vorab schon ein
bisschen Arbeit gemacht hatte. Also lest
-
zuerst die AGB. Und Punkt 5: Habt trotz
Hindernissen den Mut, es einfach zu tun.
-
Ich hab dann gepokert und wirklich bei
der Bahn nachgefragt, ob ich automatisiert
-
Daten runterladen und darüber zum Beispiel
einen kleinen Communityvortrag halten darf.
-
Lachen
-
Applaus
Und sie haben es mir genehmigt. Ohne
-
weitere Auflagen. Ohne Auflagen und ob sie
wirklich so offen sind oder einfach
-
vergessen haben zu googlen, weiß ich
nicht. Aber ganz ehrlich: Das könnte
-
jetzt mal einen Applaus für die Bahn wert
sein. Das ist sportlich.
-
Applaus
Nicht schlecht. Ich hoffe, die hören zu.
-
Und Punkt 6: Seid fair bei der Auswertung,
wenn ihr Daten für ein Jahr habt, zum
-
Beispiel, dann sucht ihr nicht die 4
Monate heraus, wo die Bahn besonders
-
unpünktlich war, damit ihr fiesere Dinge
behaupten könnt. Gängiges Mittel. Und das
-
Wichtigste zuletzt - Punkt 7: Guckt, ob
ihr euren eigenen Daten vertrauen könnt.
-
Und das ist gar nicht so einfach. Und ich
führe das jetzt mal vor. Und dann könnt
-
ihr entscheiden, ob wir meinen Daten
vertraut. Und außerdem ist das jetzt
-
unsere Ausrede, dass wir diesen Einschub
verlassen und endlich wieder in die Daten
-
reingucken. Am besten schafft Ihr
Vertrauen in einen Datensatz, indem ihr
-
eine Analyse komplett nachbaut, die
Quelle des Datensatzes, also hier die
-
Bahn, schon mal gemacht hat. Die Bahn gibt
auf ihrer Webseite ja pro Monat die
-
Prozentzahl der pünktlichen Stopps an. Und
in Ihren Dokumenten steht auch, wie sie
-
das exakt ausrechnen. Und die hab ich
einfach genau so nachgebaut und siehe
-
da: Das sieht wirklich fast genauso aus.
Die zwei größten Abweichungen sind die
-
folgenden: Im Januar messe ich die Bahn
einen halben Prozentpunkt schlechter, als
-
sie ist. Das liegt vermutlich daran, dass
ich erst am 8. Januar angefangen habe,
-
Daten aufzunehmen. Und im September 0,8
Prozentpunkte. Das ist da, wo mir ein paar
-
Tage fehlen. Ansonsten scheint bei mir
die Bahn sogar generell minimal besser
-
wegzukommen. Exakt die gleichen Werte
werdet ihr nie kriegen. Die meisten
-
Abweichungen sind hier um 0,1
Prozentpunkte, aber für eine Messung von
-
außen ist das verdammt akkurat. Wenn eure
Werte mit denen des Ziels so
-
übereinstimmen, dann seid ihr auf einem
guten Weg. Das heißt externe
-
Verifikation, weil wir etwas Externes zum
Vergleichen hatten. Jetzt kommt die
-
interne, das bedeutet, ihr guckt in den
Datensatz rein, ob da alles realistisch
-
aussieht - zum Beispiel anhand der
Tageszeiten. Jeder Punkt hier ist wieder
-
ein Fernverkehrsbahnhof. Das ist der
Tagesbeginn um 0 Uhr vom 9. März diesen
-
Jahres. Ich gehe jetzt die Zeit Stunde
für Stunde durch, und dann sehen wir, wie
-
so ein Tag für die Bahn aussieht. Die
Bahnhofspunkte schwellen an, wenn in der
-
Stunde mehr Stopps stattgefunden haben.
Und die Farbe markiert die Ausfälle: Blau
-
ist wenig, Rot ist viel, dunkelrot
entspricht 50 Prozent oder mehr
-
Ausfällen. Und es ist jetzt null Uhr, und
man sieht, dass noch einige wenige Züge
-
des Vortages sozusagen unterwegs sind. Die
Lumpensammler sozusagen. Und das wird
-
jetzt immer weniger werden, und die
Nachtruhe kehrt ein. Die Zeit vergeht.
-
Nachtruhe. Und hier erwacht ein neuer Tag.
Jetzt ist so langsam Vollbetrieb, es ist
-
8 Uhr. Wir sehen hier ein paar punktuelle
Ereignisse, die für Ausfälle sorgen. Das
-
sind die roten Flecken, da ist Unwetter
oder so passiert. Keine Notizen. Es ist
-
Mittag. Jetzt wird es wieder weniger. Der
Tag geht seinem Ende entgegen. Die letzte
-
Stunde des Tages. Ein neuer Tag beginnt:
Das ist der zehnte März. Wir sehen wieder
-
die letzten Züge bevor die Nachtruhe
beginnt. Alles schläft. Der Tag wird
-
älter, es ist 6 Uhr. Man sieht schon ein
bisschen Traffic. Es ist 9 Uhr, wir sind
-
wieder im Vollbetrieb. Es ist Mittag am
10. März, und wir erinnern uns: An dem
-
Tag war ja was. Und hier zeigt der Orkan
Eberhard erste Auswirkungen. Hier hat er
-
dann in fast ganz Deutschland den
Fernverkehr flachgelegt. Ich musste die
-
Farbskala erweitern, weil man 50 Prozent
Ausfälle normal nicht hat. Wir lassen
-
diesen sehr schlechten Tag für die Bahn
nun ausklingen. Und hier ist wieder
-
Mitternacht, die Grenze zum Folgetag. Eine
Störung in der Größenordnung zieht
-
natürlich noch einige Tage messbarer
Verspätungen und Ausfälle nach sich. Wenn
-
man das aufblühte, sieht man das mehrere
Tage runtergehen. Die spielen wir jetzt
-
aber nicht alle durch. Aber wir sehen:
Nicht immer Ist die Bahn schuld. Wenn ihr
-
die Daten so auf Plausibilität checkt, da
nutzt unbedingt gute Visualisierungen,
-
die am besten gleich mehrere Dimensionen
abdecken. Hier hatten wir Ausfälle und
-
Ort, das sind zwei Dimensionen und die
Anzahl der Stopps und die Zeit nach
-
Stunden. Der beste Apparat zu
Mustererkennung, den wir zurzeit haben,
-
das ist nun mal das Gehirn. Und da gibt's
nur eine Breitbandleitung hin, und das
-
sind die Augen. Wir werden jetzt noch ein
paar größere Auswertungen machen, und als
-
erstes bitte ich euch dafür, in Gedanken
die Seiten zu wechseln. Stellt euch vor,
-
ihr gebt keine Analysen raus, sondern ihr
lest welche. Und wenn ihr Analysen lest,
-
die andere euch geben, dann ist es immer
sehr wichtig zu riechen, worüber die
-
anderen mit euch nicht reden möchten. Und
bei Firmen findet man das heraus, indem
-
man deren Kennzahlen genau anguckt. Die
Bahn hat zum Beispiel gesagt, sie wollte
-
dieses Jahr 76,5% pünktliche Stopps
haben. Daran wollen sie sich messen.
-
Dieser Bericht ist aus dem Januar 2019,
und Anfang Dezember 2019 haben sie das
-
Ziel dann kassiert. Es werden nur unter
75% pünktlicher Stopps im Fernverkehr. In
-
meinen Daten sind es im Moment noch
knapp über 75%. Aber trotzdem:
-
eigentliches Ziel wird verfehlt. Aber was
insgesamt auffällt, ist, dass sich die
-
Bahn zu Ausfällen - ich sagte das schon -
ganz komisch ausschweigt. Und jetzt bitte
-
ich mal um Handzeichnungen von Euch.
Stellt euch vor, ihr steht am Bahnsteig,
-
und der Zug fällt einfach aus. Ihr steht
da mit leerem Blick und der kommt einfach
-
nicht. Und ihr dürft jetzt entscheiden:
Ist der pünktlich oder unpünktlich? Wer
-
von euch würde sagen, der ist eher
pünktlich? Ich sehe zwei Hände... drei im
-
Saal von 5000 Mann... Okay, ist messbar.
Und wer würde sagen, der Zug ist eher
-
unpünktlich? Uiuiui, das sind so ziemlich
alle. Und so sehe ich das eigentlich auch.
-
Und jetzt schauen wir mal in die
Unterlagen der Bahn dazu. Ihr müsst das
-
nicht lesen, ich lese euch das vor.
"Komplettausfälle oder Teilausfälle
-
werden - wie übrigens bei den anderen
europäischen Bahnen auch - nicht in
-
Statistiken eingerechnet. Zum einen ist es
schwierig, dafür ein sinnvolles
-
mathematisches Modell zu hinterlegen."
What? "Welche Pünktlichkeit ordnet man
-
einem Zug zu, wenn er an einer bestimmten
Stelle seiner Fahrt ausfällt?" Wir können
-
binär messen, ob drei von acht Stopps
pünktlich oder nicht pünktlich sind, aber
-
mit ausgefallen nicht ausgefallen - das
geht nicht. Und "zum anderen liegt die
-
sogenannte Erfüllungsquote aller täglich
verkehrenden DB-Personenzüge über 99
-
Prozent im Jahresschnitt sowohl für Fern-
als auch für Nahverkehr." Also Punkt 1: Da
-
möchte ich als erstes Mal anmerken, dass
ich das in der Sache nicht nachvollziehen
-
kann, weil wir schon gesehen hatten, dass
alleine der Fernverkehr eine Ausfallquote
-
von mehr als vier Prozent hat und nicht
ein Prozent. Das heißt, wir haben
-
insgesamt 103% Fernverkehr. Aber
vielleicht ist die Erfüllungsquote auch
-
etwas anderes, was ich hier nicht
verstehe. Keine Ahnung. Aber vor allem:
-
So ein ausgefallener Zug ist, der ist
nicht unpünktlich, der fällt einfach
-
komplett aus der Wertung. Die Ausfälle
werden statistisch verdeckt, weil man sie
-
angeblich nicht statistisch einbauen
kann. Also, liebe Leute, ich mache solche
-
Auswertungen ja auch beruflich, und da
habe ich echt schon manche Ausrede zu
-
hören gekriegt. Aber das ist schon krass.
Ich nenne sowas den "finalen
-
Rettungsstuss".
Lachen
-
Applaus
Wenn ihr so etwas erzählt kriegt, dann
-
wisst ihr ganz genau: Ihr habt es
gefunden, hier müsst ihr gucken und nicht
-
woanders. Also helfen wir jetzt mit, und
wir entwickeln jetzt eine Idee, wie man
-
die Ausfälle doch sinnvoll in die
Statistik reinkriegt. Hier sehen wir eine
-
Zugfahrt mit vier Stopps. Die beiden
weißen links sind pünktlich, der hellblaue
-
ist unpünktlich, > 6 Minuten, und der
rechte in rot ist ganz ausgefallen. Im
-
Moment zählt die Bahn einfach alle Stopps,
die nicht ausgefallen sind, und misst
-
davon den Prozentsatz der Pünktlichkeit.
Das wären hier zwei von drei - 66
-
Prozent. Und ich schlage stattdessen vor:
Wir zählen alle Stopps, die geplant
-
waren, und messen davon den Prozentsatz,
der angekommen ist und pünktlich war. Das
-
wären hier 50%. Nehmt das nicht auf die
leichte Schulter - das ist jetzt wirklich
-
große Mathematik.
Lachen
-
Bahnbrechend sozusagen.
Lachen und Applaus
-
Applaus
Und wenn man mit den Ausfällen ehrlich
-
umgeht, dann liegt die Bahn nicht bei den
76,5% Pünktlichkeit, das waren die
-
angekündigten, und auch nicht bei 75%, das
ist der aktuelle Wert, sondern bei 72,5%.
-
Und mit jedem Prozent weniger wird es
sehr viel unwahrscheinlicher, dass Leute
-
ihre Anschlüsse kriegen. Also
unterschätzt das nicht, wenn das nochmal
-
zwei Prozent weniger sind, als sie
behaupten oder drei. Das ist knackig. Beim
-
Fernverkehr liegt bei denen einiges im
Argen. Damit möchte ich zum wichtigen
-
Thema kommen: Erfolgskriterien in
Unternehmen. Wenn ihr als Unternehmen eure
-
Erfolgskriterien schlecht setzt, dann
schafft ihr Anreize, die das Unternehmen
-
in eine unerwartete Richtung lenken. Hier
haben wir ein Paradebeispiel dafür. Wenn
-
die Bahn einen unpünktlichen Zug einfach
spontan ausfallen lässt, dann steht die
-
nach ihrer eigenen Messmethode danach
besser da und nicht schlechter, weil die
-
Ausfälle einfach komplett aus der
Statistik fliegen. Also müssen wir uns die
-
Frage stellen: Wo genau lohnt es sich für
die Bahn am meisten, ein paar Ausfälle zu
-
erzeugen, um damit die
Pünktlichkeitsstatistik zu pushen?
-
Lachen
Applaus
-
Ihr klatscht ja schon vorher. So kann ich
nicht arbeiten.
-
Lachen
Die Lösung ist am Ende und am Anfang von
-
Fahrten. Züge fahren nämlich häufig
dieselbe Strecke hin und her und der hier
-
fährt los. Bis hier ist alles gut
gegangen. Hier hat er dann satt Verspätung
-
angesammelt. Das passiert. An diesem Punkt
ist zu erwarten, dass die letzten beiden
-
Halte auch verspätet sein werden. Und auch
die ersten beiden halte der Rückfahrt
-
natürlich, also schlecht für die
Statistik. Also lassen wir sie doch
-
einfach ausfallen. Blasen wir ab, der Zug
schmeißt die Fahrgäste raus, dreht an Ort
-
und Stelle um und ist wieder pünktlich.
Und wer an den roten Stopps einsteigen
-
und aussteigen will, der steht halt mit
leerem Blick am Gleis. Aber die
-
Verspätungsstatistik verbessert sich, denn
die Ausfälle fallen ja einfach unter den
-
Tisch. Aber wie könnte man so etwas
messen? Ganz einfach.
-
Publikumseinruf: Hamburg.
D: Hackburg?
-
Publikumseinruf: Hamburg.
D: Oh ja. Also, ganz einfach: Hier ist
-
wieder eine Zugfahrt mit all ihren Stopps,
die unterteilen wir jetzt einfach in drei
-
Klassen - frühe, mittlere und späte
Stopps. Die frühen und späten Stopps sind
-
die ersten und letzten drei, hier grau und
die mittleren sind der Rest. Und für
-
diese drei Arten Stopps machen wir
getrennte Auswertung. Wenn Ausfälle
-
aufgrund technischen Betriebes entstehen,
würde man ja erwarten, dass es am Start
-
an einer Fahrt statistisch weniger
Ausfälle gibt. Und dann werden das so
-
über die Zeit mehr. Und beim IC ist das
auch genaus. Die Ausfälle steigen nach
-
hinten an. Und beim ICE dagegen, fallen
die ersten und letzten Stopps häufiger
-
aus. Das passt alles genau. Die scheinen
die Dinger einfach hart zu wenden. Ich
-
habe dieses Verhalten auch von zwei
unabhängigen Quellen bestätigt bekommen,
-
und das war vor einiger Zeit schon mal
irgendwo klein in der Presse. Also ich
-
verrate hier auch keine
Staatsgeheimnisse. Und je nachdem, wen man
-
fragt, heißt dieses Vorgehen entweder
nach unserem Verkehrsminister die Scheuer-
-
Wende oder aber nach dem Bahnvorstand,
die Pofalla-Wende. Das müssen wir jetzt
-
heute Abend beim Bier entscheiden, was
ihr jetzt besser findet. Jedenfalls ein
-
weiterer Praxistipp Vorsicht am Anfang
und am Ende eines ICE-Zuglaufs. Die fallen
-
gerne mal aus. Bucht die nach Möglichkeit
nicht. Aus Gründen der Neutralität, muss
-
ich dazusagen: Die Bahn hat natürlich ein
Interesse daran, dass das ganze Netz
-
ungefähr im Plan ist. Also werden die
sich denken, dass bei so einem Manöver
-
nicht so viele Passagiere von den
Ausfällen betroffen sind, dafür aber im
-
weiteren Verlauf deutlich mehr Passagiere
einen pünktlichen Zug kriegen ist. Das ist
-
eben deren Geschäftsentscheidung. Es liegt
mir fern, da jetzt von der Seitenlinie
-
ohne tieferes Wissen altkluge Ratschläge
zu erteilen. Wir sind hier nicht auf
-
Twitter. Was ich hier kritisiere...
Lachen
-
Applaus
Und was ich hier kritisieren möchte, ist
-
aber, dass ausschließlich die positive
Seite des Manövers danach in der Statistik
-
auftaucht und die negative einfach
verschwindet. Das stört. Wir wollen gar
-
nicht wissen, wie viele Leute im
Verkehrsministerium denen das abgekauft
-
haben. Wir hatten jetzt schon ein
bisschen Praxistipps gesehen, die euch zu
-
Hause beim Buchen vielleicht ein
bisschen was bringen. Vorsicht mit
-
bestimmten Bahnhöfen; Vorsicht mit ICEs
im Allgemeinen; Vorsicht mit ICEs im
-
Sommer im Speziellen; Vorsicht, wenn
Züge schon lange unterwegs waren;
-
Vorsicht, wenn sie 40 Minuten oder mehr
verspätet sind und jetzt gerade Vorsicht
-
mit ICEs am Anfang und am Ende der Fahrt
wegen der Scheuer-Wenden. Ich könnte
-
jetzt mit euch noch jede Menge
Standardkram machen, der sich irgendwie
-
aus den Daten ergibt: Top Ten Bahnhöfe
oder Zuglinien nach Verspätungen,
-
Ausfällen und so weiter. Aber das hilft
doch nur wenigen, ganz ehrlich. Also
-
machen wir jetzt noch zwei Sachen: Erstens
machen wir unsere letzte große Sache mit
-
den Bahndaten, und ich hoffe, dass ihr
davon zumindest für ein paar Monate ganz
-
konkret was habt. Danach würde ich mit
euch gerne kurz über das ausklingende
-
Jahrzehnt nachdenken. Zuerst die
Datensache. Wenn ihr ein Bahnticket kauft,
-
könnt ihr wählen. Mit Spartickets seid
ihr an exakt die Züge, die ihr gebucht
-
habt, gebunden. Oder ihr nehmt ein
Flexticket, das ist deutlich teurer, aber
-
dafür habt ihr keine Zugbindung.
Interessant ist nun folgende Regel: auf
-
den Spartickets, wenn Sie durch
Verschulden der DB ihren Anschlusszug
-
nicht erwischen oder allgemein eine
Verspätung von mehr als 20 Minuten
-
erwartet werden muss, wird die Zugbindung
automatisch aufgehoben. Ich verstehe das
-
so, dass ihr dann eigentlich ein Flex
Ticket habt plötzlich. Und dann gucken
-
wir mal auf den Prozentsatz der Stopps,
die entweder mehr als 20 Minuten zu spät
-
waren oder aber ausgefallen sind und
insgesamt sind das immerhin 12,4%. Und
-
wenn man jetzt diese Stopps erwischt,
dann verwandeln die einem vielleicht schon
-
vor Abfahrt ein preiswertes Sparticket in
ein Flexticket. Und das wäre doch total
-
cool, wenn man die vorher wissen könnte.
Lachen
-
Applaus
Bin ich so vorhersehbar? Und komplett
-
vorhersehen geht natürlich nicht. Aber es
gibt Züge, bei denen sowas häufiger
-
auftritt und Bahnhöfe, bei denen sowas
häufiger auftritt und es gibt auch
-
Wochentage, bei denen sowas häufiger
auftritt.
-
Lachen
Und hier ist ein Beispiel. Lest mal mit.
-
Das bedeutet beim Intercity 2221 ist an
allen Halten bei Mainz Hauptbahnhof an
-
allen Mittwochen dieses Jahr mit 53%
Wahrscheinlichkeit die Zugbindung
-
aufgehoben. Also von allen Stopps, die ich
dazu erfasst habe, waren 53% entweder mehr
-
als 20 Minuten zu spät oder sind ganz
ausgefallen. Und am Freitag das Ganze mit
-
50 Prozent. Ich muss die Schreibweise so
kurz machen und euch das so beibringen,
-
das Lesen, damit ich jetzt gleich
platzsparend arbeiten kann. Euch schwant
-
vermutlich schon, was ich jetzt mache.
Also, ich habe für euch mal die
-
Kombination aus allen Wochentagen, allen
Bahnhöfen und allen Fernzügen durchsucht
-
und habe dann nur die Kombinationen
genommen, wo ich mindestens 10 Datenpunkte
-
hatte, damit das einigermaßen fundiert
ist. Und für die habe ich gemessen, bei
-
wie viel Prozent die Zugbindung dieses
Zuges an diesem Wochentag, an diesem
-
Bahnhof gekillt wurde. Und dann habe ich
gesagt: Ich will nur die ganz Fiesen
-
haben, wo das mit mindestens 50 Prozent
der Fälle der Fall war. Herausgekommen
-
sind fast 500 Kombinationen aus
Wochentagen, Bahnhöfen und Zügen.
-
Hier sind sie.
Applaus
-
Also ich würde kein Flexticket für teuer
Geld kaufen, wenn ich an einem dieser
-
Bahnhöfe einsteige, aussteigen oder
umsteige an dem Wochentag mit diesem Zug.
-
Kauft ein Sparticket. Und für alle, die
das jetzt nicht lesen können, ich stelle
-
den Foliensatz wieder irgendwie bei mir
auf die Seite, morgen oder so. Beachtet
-
auch, dass die Daten irgendwann ungültig
werden. Ihr behaltet den Zug bitte am
-
Fahrtag im Auge. Ich bin nicht schuld,
wenn ihr unverhofft doch pünktlich zum Zug
-
eintreten müsst.
Lachen
-
Weil die Kiste halt pünktlich ist. Also
bitte, bitte behandelt diese Daten, als
-
wären sie mit Xerox-Geräten gescannt.
Lachen und Applaus
-
Wenn ihr doch pünktlich da sein müsst,
dann ist das ja auch ein gutes Zeichen,
-
weil es nichts anderes bedeutet, als dass
die Bahn was verbessert. Verbesserungen
-
passieren nämlich durchaus. Dieses Jahr
wurde zum Beispiel die ICE-Trasse zwischen
-
München und Berlin ausgebaut. Da kann man
jetzt unter vier Stunden zwischen beiden
-
Städten hin und her fahren, ohne den Zug
zu wechseln. Und wenn das rund läuft, ist
-
das echt mal eine Alternative zum Flug. Es
ist also nicht alles schlecht. Ich hoffe
-
auch, ich bin bei aller Kritik fair mit
der Bahn umgegangen heute. Ich bin
-
jedenfalls, obwohl ich das alles gesehen
habe, mit der Bahn zum Congress gefahren
-
und werde das auch auf dem Rückweg machen.
Und für heute möchte ich damit die Bahn-
-
Betrachtung abschließen mit den Worten:
Seid nett zur Bahn mit ihren Fehlern. Wir
-
haben nur diese eine.
Lachen und vereinzelter Applaus
-
Und was bleibt?
Applaus
-
Einen habe ich noch. Da kam er [Herald Engel]
schon gelaufen. Das hier ist der letzte
-
Vortrag, den ich in diesem Jahrzehnt
halten werde. Ich lasse euch jetzt mal ein
-
paar Sekunden in Ruhe und wünsche mir,
dass jeder kurz darüber nachdenkt, was für
-
ihn in diesem Jahrzehnt die maßgebliche
gesellschaftliche Entwicklung war.
-
Ruhepause zum Nachdenken
-
Glaube hat jeder was. Für mich ist es der
-
Aufstieg der Empörten und damit meine ich
ausdrücklich jede politische Richtung. Ich
-
habe in diesem Jahrzehnt tausend Mal an
jeder Ecke gehört, wie wichtig heutzutage
-
technische, naturwissenschaftliche und
analytische Skills seien angeblich, mit
-
anderen Worten: Rationalität. Und auf der
anderen Seite aber reicht das heute im
-
öffentlichen Diskurs als
Totschlagsargument, wenn jemand empört
-
ist. Und ich finde das paradox. Das ist
das Gegenteil von Rationalität. Man kann
-
nicht beides gleichzeitig propagieren. Und
ich möchte anregen, dass wir für das jetzt
-
kommende Jahrzehnt zu einer Kultur finden,
in der es ungern gesehen wird, einfach nur
-
alles Mögliche anzuprangern, und in der es
ganz umgekehrt bewundert wird, wenn man
-
sich die Datenlage anguckt und sie sich
gegenseitig präsentiert mit seinem
-
Kontrahenten und sich dann zusammensetzt.
Und wer soll das starten, wenn nicht wir
-
hier. Verlassen wir uns nicht auf die
Medien, denn die leben vom Aufruhr. Auch
-
wenn es positive Gegenbeispiele gibt.
Verlassen wir uns nicht auf irgendwelche
-
Stars, die leben von Likes und die kriegt
man am besten durch Zuspitzung. In der
-
Regel sind die Teil des Problems.
Verlassen wir uns nicht auf Politiker, die
-
achten wegen der Shitstorm-Kultur nur noch
darauf, bis zur nächsten Wahl nicht
-
anzuecken. Und zu viele von denen haben
ohnehin niemals außerhalb der Politik
-
gearbeitet. Was soll da schon kommen? Und
das ist der Grund, warum ich das hier
-
mache. Ich versuche, euch zu inspirieren,
eure eigenen Analysen zu strittigen Themen
-
anzustellen. Und in meinen letzten
Vorträgen, meinen beiden hier, habt ihr
-
ein paar Instinkte davon bekommen, wie das
geht, und ich hoffe, ich habe euch
-
bewiesen, dass das absolut keine
Raketenwissenschaft ist.
-
Vereinzelter Applaus
Und ich frage nochmal: Wer soll das
-
machen, wenn nicht wir hier? Wenn wir es
gemeinsam schaffen, dass wenigstens
-
manche, die heute echt nichts Besseres zu
tun haben, als sich im Internet zu empören
-
im nächsten Jahrzehnt zur engagierten
Analyse übergehen und dabei auch
-
anerkennen, wenn was herauskommt, dass sie
vorher nicht gedacht hätten, dann haben
-
wir gesellschaftlich unglaublich viel
gewonnen. Und heute Abend stehe ich hier
-
in einem Saal mit 5000 Leuten, voll
belegt. Da sitzen Sie noch neben der
-
Tribüne, die sich mit 5000 Leuten, die
sich am Samstagabend zwischen Weihnachten
-
und Silvester hier hinsetzen. Also da, wo
die allermeisten Menschen einfach gar
-
nichts tun und sich die Flasche Wein an
den Hals anschließen.
-
Lachen
Und warum tun die 5000 Leute das? Um einen
-
Statistik Vortrag zu hören.
Lachen
-
Das gibt mir Hoffnung. Ich werde glücklich
heimfahren. Da kann die Bahn mit mir
-
machen, was sie will. Und ich bedanke
mich, dass ihr hier wart, und wünsche euch
-
ein schönes neues Jahrzehnt.
-
Großer, tosender Applaus
-
Standing Ovation
-
Applaus
-
Jetzt stehen sie wieder auf...
-
Applaus
-
Danke schön.
-
Applaus
-
Vielen lieben Dank.
-
Herald 1: Wow. Auch von mir nochmal
herzlichen Dank. Super Vortrag wie immer,
-
super lustig. Dankeschön David, dass du
das immer wieder machst, echt schön. Wir
-
haben noch ein bisschen Zeit für Fragen.
Bitte an die Mikrofone. Es gibt 4, 5
-
Stück, glaube ich, hier im Saal, wenn ihr
Fragen habt. Wir fangen mal mit Mikrofon 1
-
an.
Frage: Du hast ja damit angefangen, dass
-
du der Fairness halber die
Pünktlichkeitsdefinition der Bahn von 6
-
Minuten, höchstens, gesetzt hast. Hast du
aus purer Neugier mal Sachen
-
durchgerechnet mit
Pünktlichkeitsdefinitionen, die irgendwie
-
sinnvoller anfühlen? Müssen ja nicht
gleich die 30 Sekunden aus Japan sein.
-
D: Ja, da kann man sich streiten, welchen
Wert man setzt.
-
F: Hast du und welche?
D: Ja, habe ich. Das sieht dann so aus,
-
als wenn man das eng zieht, am Schluss
natürlich alle Züge verspätet sind. Jeder
-
hat mal irgendwie eine Minute. Was ich
gemacht habe, war: Ich habe mal eine
-
Reibungslos-Metrik gesetzt. Reibungslos,
habe ich gesagt, das ist alles, was
-
maximal 3 Minuten zu spät ist, nicht
ausgefallen und keinen Gleiswechsel, weil
-
das geht mir immer unglaublich auf die
Nerven, wenn ich dann mit Koffer einmal
-
hoch und runter... Und das waren dann
irgendwie 60%. Aber nagele mich jetzt
-
darauf nicht fest. Ich habe es jetzt
nicht im Kopf, aber es waren deutlich
-
weniger. Ich glaube, es war bei 60% oder
so, diese Pünktlichkeit.
-
F: Danke.
Herald 1: Ich weiß jetzt nicht, welches
-
Mikro Erster war. Wir fragen mal den
Signal Angel, der hat eine Frage.
-
Signal Angel: Also der Stream schließt
sich den Standing Ovations an.
-
D: Danke schön!
Signal: Und es gab viele Leute, die darauf
-
hingewiesen haben, dass für ausgefallene
Züge oft Ersatzfahrten bereitgestellt
-
werden.
D: Ja.
-
Signal: Die das dann teilweise
kompensieren. Wie taucht das bei dir in
-
der Statistik auf?
D: Das taucht bei mir gar nicht auf.
-
Deswegen war ich mir auch nicht komplett
sicher. Deswegen habe ich das auch gesagt.
-
Wenn die komplett neue Fahrt haben die
irgendwie gar nicht im Plan aufgetaucht
-
waren, dann werde ich die vermutlich nicht
drin haben. Wenn die Fahrten in
-
irgendeiner Form in den Plandaten drinnen
waren, habe ich die aber drin. Deswegen
-
kann ich es nicht genau sagen. Ich weiß
jedenfalls, dass die Kollegen beim SPIEGEL
-
eine ähnliche Analyse neulich hatten auf
einem kleineren Datensatz. Und da war das
-
auch jenseits der 4% Ausfallquote. Wenn es
falsch ist, stimmt das zumindest überein.
-
Es kann sein, dass sie drin sind. Ich bin
mir nicht völlig sicher.
-
Herald 1: Danke, Mikrofon 5 bitte mit
einer Frage.
-
F: Vielen dank für diesen sehr
interessanten Vortrag. Es war bestimmt
-
auch super viel Aufwand, das alles zu
analysieren und nach den Standing Ovations
-
traue ich mich ja auch fast gar nicht,
eine kritische Frage zu stellen.
-
D: Bitte!
F: Aber Sie hatten ja ziemlich an den
-
Anfangsslides bei den Bahnhöfen, die den
Zügen Verspätungen hinzufügen oder wo die
-
Züge vielleicht Verspätung aufholen. Aber
ist es nicht viel eher so, dass die
-
Strecken zwischen den Bahnhöfen dazu
führen, dass die Züge Verspätung bekommen
-
und nicht die Bahnhöfe selber? Und wäre
das dann nicht auch für die Bahn
-
interessant zu schauen, zwischen welchen
Bahnhöfen kriegen die Züge am meisten
-
Verspätung?
D: Also das ist eine exakt sehr geile
-
Frage. Weil diese Auswertung war in der
Tat ein bisschen tricky, genau aus dem
-
Grund. Vielleicht ist der Bahnhof
Frankfurt die Verspätung gar nicht schuld,
-
sondern die Gleise beim Rein- und
Rausfahren zum Beispiel. Deswegen messe
-
ich die Verspätungsänderung von dem
Streckensegment vor dem Bahnhof und dem
-
Streckensegment nach dem Bahnhof. Und der
jeweilige Bahnhof kriegt man den
-
Durchschnitt, damit ich genau von diesem
Effekt geheilt werde. Dann habe ich einen
-
sehr guten Durchschnittswert. Und wer halt
immer was dazufügt im Schnitt, der wird
-
auch selber was dazu beitragen. Oder beide
Streckenstreckensegmente dahin sind
-
schlecht, also immer. Dann ist das auch
für mich ein Bahnhofsproblem. Also genau
-
genommen, was ich hier analysiere ist dann
des Problem des Bahnhofs und der näheren
-
Umgebung darum herum. Danke für diese
Frage.
-
F: Vielen Dank für die Antwort.
Applaus
-
D: Da hab ich mir nämlich lange Gedanken
gemacht, ob ich da jetzt einfach immer nur
-
die Änderung der Verspätung nehme, aber
das hätte ich mir selbst als Statistik
-
zerrissen, wenn ich da einen bei erwischt
hätte. Aber deswegen perfekt, dass es
-
aufgefallen ist. Sehr gut.
Herald 1: Wir haben nur gute Menschen
-
hier, sehr schön. lacht Wir nehmen
Mikrofon 3, wechseln mal die Seite bitte.
-
D: Ich muss immer ein bisschen suchen.
Bitte entschuldigt, wenn ich euch nicht
-
sehe. Da hinten ist er.
F: Du hattest am Anfang angeprangert oder
-
in der Mitte angeprangert, dass die
Ausfälle nicht zu Verspätungen zählen. Und
-
hattest aber am Anfang diese Slide, wo der
Berliner Flughafen immer ausfällt. Und es
-
gibt ja vielleicht auch andere Bahnhöfe,
die umgebaut werden oder wo eben in
-
Anführungszeichen planmäßig ausfallen.
Hast du die irgendwie
-
rausgerechnet oder wie läuft das?
D: Nach meiner Information sind die Stopps
-
dann gar nicht im Plan.
F: Ah, okay.
-
D: Das sieht so aus: Ihr habt die
Plandaten mit den Stopps und dann habt ihr
-
die Änderungen. Und da ist dann, wenn da
was ausfällt, dann ist da eine Cancelation
-
Time drin, nämlich der Zeitpunkt des
Ausfalls. Da kann man auch noch schöne
-
Auswertungen mit machen. Ausfälle mit
kurzer Vorlaufzeit und so weiter. Das
-
würde dann in den Daten nach meiner
Kenntnis anders aussehen, wobei ich das
-
auch nur reverse engineere. Die
dokumentieren nicht alles. Ich weiß nicht,
-
wer von euch vorhin in dem Bahn-API-
Vortrag drin war. Aber man muss sehr viel
-
reverse engineeren, wenn man das macht.
Also auch das mit einem Körnchen Salz.
-
Herald: Danke, wir nehmen Mikrofon 2.
F: Ich bin auch Bahnfahrer, aber nach
-
meiner Erfahrung ist der Regionalverkehr
viel häufiger verspätet als der
-
Fernverkehr und deshalb die Frage: Wann
gibt's die Analyse für den Nahverkehr?
-
D: Wo kommst du denn her?
F: Ich lebe südlich von Stuttgart.
-
D: Südlich von Stuttgart. Also ich hab die
Nahverkehrsbahnhöfe nicht runtergeladen.
-
Was ich aber hab (einfach weil sonst die
Requests wären explodiert), aber was ich
-
hab, ist natürlich sämtlicher Nahverkehr,
der über alle Fernbahnhöfe gefahren ist,
-
und die sind strategisch gut verteilt,
sodass sich da in der Tat auch für den
-
Nahverkehr was sehen kann. Vielleicht
mache ich mal eine Pünktlichkeit von dem
-
nahen Verkehr, der in den Fernverkehrs
Bahnhöfen vorbeigefahren ist. Weil das
-
habe ich; dann muss ich mal als Tabelle
auf meine Webseite stellen. Oder so
-
einfach. Dann kannst du gucken.
Applaus
-
Herald 1: Wir haben noch ein kleines
bisschen Zeit, Mikrofon 6 nochmal, die
-
andere Seite.
F: Vielen Dank nochmal für den Vortrag.
-
Aus München kommend haben wir eine
chronisch schlechte S-Bahn, und ich habe
-
mich auch gefragt: Ist den der
Regionalverkehr noch einmal
-
unterschiedlich zum Nahverkehr? Oder ist
einfach die Münchner S-Bahn dauernd zu
-
spät und im Rest von Deutschland ist gut?
D: Die fährt ja über eure großen Bahnhöfe,
-
habt ja zwei oder drei richtig dicke, ne?
München Ost, München und noch
-
irgendeinen.
F: Ja.
-
D: Dann hab ich die drinnen. Kann ich mal
gucken. Würde dann auch in der Frage
-
auftauchen, ob die da über 90%; Diese über
90% Pünktlichkeit im Regionalverkehr sind
-
für Bahn und Subunternehmen vermutlich.
Ich muss mal gucken, aber die anderen hab
-
ich ja drin. Zur Not als Dirttunternehmen.
Vielleicht beziehe ich die einfach mal mit
-
ein in die regionale Analyse. Das könnte
interessant sein, wenn ich dafür
-
irgendwann Zeit habe. Erwartet das jetzt
nicht morgen früh.
-
F: Danke.
Harald 1: Super, wir nehmen euch beide
-
hier, Mikrofon 4 zuerst.
F: Auf den Slides 80 und 84 war
-
dargestellt, wie die Bahn die Teilausfälle
rausrechnet, aus der Statistik. Aber
-
müssten nicht die gesamten Züge
herausgerechnet werden aus der Statistik?
-
D: Ähm.
F: Die Verspätung akkumuliert sich ja
-
natürlich und dann wäre die Statistik ja
dementsprechend besser.
-
D: Jetzt hab ich mein PowerPoint
abgeschossen.
-
Leises lachen
Nö, wieso müsstest du die ganze Züge
-
herausrechnen? Das verstehe ich nicht. Es
kommt ja. Es ist ja schön granular für
-
Stopps zu rechnen. Angenommen, das ganze
System würde so funktionieren, dass alle
-
Züge auf der Hälfte Ihrer Stopps pünktlich
sind, und auf der anderen Hälfte
-
unpünktlich. Dann wäre das doch halb
pünktlich. Ich sehe nicht, warum. Wir
-
arbeiten ja feiner als auf Granularität
von Zügen. Das ist doch besser?
-
F: Aber es werden ja Teilausfälle auch
rausgerechnet. Ist es dann wirklich nur
-
der ausgefallene Stopp?
D: Nee, soweit ich weiß, ist da wirklich
-
nur der ausgefallene Stopp, ja.
F: Ok, gut. Danke.
-
Harald 1: So, dann noch Mikrophon 1.
F: Vielen Dank nochmal für den Talk. Meine
-
Frage geht in die Richtung: "Perverse
incentive", sprich die Kennzahlen, an
-
denen sich die Bahn messen lässt. Hat sie
sehr darauf hingewiesen, dass die
-
Ausfallrate da vielleicht nicht so; Also
gut sein könnte wenn..,
-
D: Ja, wäre schön, wenn sie drin wäre.
F: Ja, genau, wenn sie mit drin wäre. Eine
-
andere Sache die da reinspielt: Wie hoch
die Ziele sind, die sich die Bahn setzt.
-
Hast du in deinen Daten welche?
D: Das geht durch die Presse.
-
F: Ich meine Ziele im Sinne von: Wie
schnell denn eine Strecke zu befahren ist?
-
Man könnte ja die Züge pünktlicher machen
dadurch, dass man nach jedem Zug eine
-
Stunde mehr Zeit gibt, dieselbe Strecke zu
fahren.
-
D: Du meinst die Taktung?
F: Ja.
-
D: Nee, die habe ich nicht. Die ist aber
bei der Bahn relativ eng, im Vergleich zu
-
Flugzeugen - habe ich mir sagen lassen von
kundigen Personen - weswegen die Flugzeuge
-
auch häufiger pünktlich sind; oder
ungefähr pünktlich. Aber bei der Bahn ist
-
alles sehr eng getaktet, und vor allem
sind die Sachen interdependent. Wenn einer
-
auf der Strecke liegen bleibt, halten alle
dahinter halt auch ein Problem. Das beides
-
in Kombination sorgt für die Fragilität,
die wir sehen.
-
F: Hast du vor, die Analyse in weiteren
Jahren fortzuführen, um dann da vielleicht
-
die Richtung etwas zu sehen?
D: Ich bin mir nicht sicher. Zum einen
-
habe ich wie alle anderen auch, Arbeit und
Familie, und zweitens ist die
-
infrastrukturell sehr aufwendig. Ein
bisschen mache ich das sicher noch weiter,
-
und dann gucke ich, habe ich noch
rauskriege. Aber ich kann nichts
-
versprechen.
F: Letzter Nachschub: sind deine Daten
-
von... also kriegt man die von dir?
D: Denke ich nicht, weil ich das nicht
-
darf.
F: Ah.
-
D: Am Ende hat die Bahn dafür das
Copyright. Viel mehr Copyright-Verstoß
-
ginge gar nicht, als wenn ich das ganze
Ding nehme und euch einfach rauskopiere.
-
Aber: sucht bei der Bahn die Timetable
API. Und dann ladet ihr das einfach
-
runter. Es geht, das ist keine
Raketenwissenschaft.
-
F: Danke.
D: Gut.
-
Harald 1: Super. Nochmal einen riesengroßen
Applaus, an David. Herzlichen Dank.
-
Applaus
-
Abspannmusk