36C3 Vorspannmusik
Herald 1: Ok. Spaß beiseite! Der nun
folgende Zug is schon ganz schön lange
unterwegs. Beim 33C3, da fuhr er mit Xerox
ab.
Herald 2: Beim 33C3 hat er dann SPIEGEL
einmal gedataminet und hat geguckt. Was ist denn
dort? SpiegelOnline! Und hat uns wirklich
eine total perfekte Datenanalyse zu dem
Thema gemacht?
Herald 1: Und beim 36C3 geht's mit dieser
Zugfahrt weiter. Bitte begrüßt mit 'nem
ries'n Applaus David Kriesel.
Applaus
Herald 2: Applaus! Applaus! Applaus!
Applaus
Herald 1: Viel Spaß!
Applaus
David Kriesel: Also ich glaub: So geil bin
ich noch nie niemals eingeleitet worden.
Lachen
D: Hm! Herzlich willkommen euch allen
hier! Auch Herzlich willkommen an die
Leute im Stream - an die Aluhüte im
Besonderen. Die Aluhüte glühen aber leider
noch nicht. Vielleicht kriegen wir das im
Verlaufe dieses Vortrages noch hin. Mein
Name ist David Kriesel. Ich bin
Informatiker aus der Nähe von Bonn. Im
richtigen Leben ist es mein Beruf
interessante Sachen in größeren
Datenmengen zu finden. Neudeutsch heißt
das Data Scientist. Und zusätzlich zum
Beruf habe ich verschiedene Projekte und
manchmal nehme ich mir eines davon raus
und halte hier einen Vortrag. Ich bin
Rheinländer und bei uns sagt man Ab
zweimal ist es Tradition und beim dritten
Mal ist es Brauchtum. Ich bin jetzt das
dritte Mal hier. Das ist schon voll
Brauchtum und ich freue mich, dass es so
oft geklappt hat. Unsere Geschichte heute
beginnt im Jahr 2018. Am Ende des Jahres
2018 hat nämlich die Bahn gesagt, rund 75
Prozent ihrer Fernzüge seien pünktlich
gewesen. Dafür muss man erst mal wissen:
Was ist denn pünktlich? Die Bahn errechnet
das folgendermaßen: Die sagen: Wenn ein
Zug bei einem Stopp weniger als sechs
Minuten zu spät ankommt, dann ist er
pünktlich. Das ist wirklich die
Definition, und wir übernehmen das
einfach. Da müssen wir dann nicht handeln.
Und dann errechnen Sie den Prozentsatz
aller Stopps, bei denen das der Fall ist.
Und das wären bei knapp 75 Prozent in 2018
so der Fall gewesen. Und das hat mich in
meiner persönlichen Erfahrung irgendwie
gestört. In den letzten Jahren bin ich
quer durch Deutschland gereist, davon
relativ häufig mit der Bahn. Und dann habe
ich meine Mailbox geguckt, und für mehr
als die Hälfte meiner Fahrten habe ich
diese E-Mail von verspätungsalarm@bahn.de.
Und da dachte ich Ich bin wohl dieser eine
Typ - ja - der aufpassen muss, nicht vom
Blitz getroffen zu werden, während er den
Sechser im Lotto abholt. Ja? Ich wollte
das dann genauer wissen. Also habe ich mal
in die Statistiken geguckt, die auf der
Webseite der Bahn sind. Dann habe ich
gesehen: Das sind kaum welche. Die Bahn
bietet auf ihrer Webseite nur die Prozent
der pünktlichen Stopps pro Monat an. Fürs
Gesamtnetz, bundesweit nochmal getrennt im
Nah und Fernverkehr und das ist
zusammengefasst. Damit kann man nichts
anfangen. Man kann dann nicht nach
bestimmten Verbindungen filtern. Man kann
aber nicht gucken, bei welchen Bahnhöfen
die Performance besonders schlecht ist
oder gut ist und alles, was interessant
ist oder was ich interessant fand, das
geht nicht. Also habe ich am 8. Januar
begonnen, die Deutsche Bahn zu
vorratsdatenspeichern.
Lachen & Applaus
In diesem Datensatz gucken wir heute rein
und wir werten das auch nicht nur aus,
sondern ich werde auch ein bisschen Zeit
darauf verwenden, euch grob zu erklären,
wie man so ein Datenprojekt angeht und
worauf man achten muss und wie man vor
allem merkt, ob man Vertrauen in die Daten
haben kann. Das muss ja nicht sein, dass
alles stimmt, was man so herunterlädt, und
über den ganzen Vortrag hinweg geb ich
euch immer so ein paar... - Wie nenne ich
das? - Praxistipps, die ihr mit nach Hause
nehmen und an die ihr denken könnt, wenn
ihr eine Bahnfahrt bucht. Disclaimer
Vorweg: Ich habe mit der Bahn nicht über
die Auswertungen gesprochen. Behaltet im
Hinterkopf: Am Ende ist das ein kleines
Hauptprojekt, und es kann durchaus sein,
dass ich Fehler gemacht habe. Aber da wir
auch noch über die Vertrauenswürdigkeit
der Daten reden, könnt ihr selbst
entscheiden, ob ihr meinen Daten vertraut
oder nicht. Wir kucken uns jetzt endlich
mal an, wie die Daten aussehen. Hier sehen
wir eine fiktive Fahrt eines ICE. Ich gebe
euch mal kurz fünf Sekunden für den ersten
Überblick und danach erkläre ich die. Drei
Sekunden reichen auch. So! Der ICE fährt
in München los und jede weitere Zeile ist
ein Stopp und irgendwann ist er am Ziel
angekommen. Hier: Bergen auf Rügen. Eine
Fahrt ist die Sequenz aller Stopps, die
der Zug von Anfang bis Ende macht. Danach
ist das eine neue Fahrt. Hier sind die
Verspätungen pro Stopp. Der Zug ist mit
sechs Minuten Verspätung abgefahren und
nach der Messmethode der Bahn wäre der
gerade als verspätet zu werten - an diesem
Stopp. Und dann schwanken die
Verspätungen. In Erfurt sind wir auch mal
sechs Minuten zu früh dran gewesen. Die
Verspätung ist negativ. Das passiert. In
der Regel heißt das übrigens, dass der Zug
dann einfach länger bleibt und nicht zu
früh wieder abfährt. Am Berliner
Flughafen; der Stopp fällt aus. In 20
Jahren werde ich diese Witze immer noch
machen können.
Lachen & Applaus
Und diese Stopps aller Fahrten sind die
Grundlage unserer Daten, meine Tabelle hat
25 Millionen Zeilen. Das sind 25 Millionen
Stopps von irgendwelchen Zügen. Das sind
alle Stopps im Fernverkehr vom 8. Januar
bis jetzt. Und auch der Nahverkehr, aber
der nur an den Fernbahnhöfen. Komme ich gleich
noch zu. Und die Tabelle hat auch
verschiedenste Spalten - die, die ich hier
vorführe und noch einige mehr. Wir können
in einzelne Orte reingucken, in einzelne
Fahrten reingucken, in Zeiträume
reingucken. Wir können auch kompliziertere
Auswertungen fahren. Machen wir auch heute
noch. Zum Anfang, machen wir mal ein paar
ganz einfache Sachen mit den Daten. Das
ist nicht, um euch zu langweilen, aber wir
müssen ja erst mal reinkommen, den
Datensatz kennenlernen und so weiter. Wir
sortieren jetzt die ganze Tabelle von
Stopps, 25 Millionen Stück, mal nach
Bahnhöfen und dann ermitteln wir die
Anzahl der Stopps für jeden Bahnhof über
das ganze Jahr hinweg. Jeder Bubble hier
ist ein Bahnhof mit Fernverkehr und davon
haben wir um die 350 Stück. Das sind die
wichtigen. Und die Größe der Bubble gibt
die Anzahl der erfassten Halte für den
Bahnhof wieder, und zwar für alles, was da
fährt: Fern- und Nahverkehr. Und der
Größte, was das angeht, ist Köln
Hauptbahnhof mit im Moment 380 000 Stopps
in der Datenbank. Ich habe die Top 6 mal
in der Karte beschriftet. Warum genau die
Top 6? Weil der sechste Bahnhof genau
Hamburg Dammtor ist und das wollte ich
euch nicht vorenthalten. Das war unser
letzter Congress-Bahnhof. Der Bahnhof
Leipzig Messe ist übrigens deutlich,
deutlich kleiner. Inklusive Nahverkehr
haben wir hier so 60.000 Stopps im Jahr
und überhaupt nur ein paar hundert
Fernverkehr. Wo wir schon dabei sind,
machen wir jetzt was aus Kundensicht
Interessantes und färben mal die Bahnhöfe
ein. Und zwar nach der Pünktlichkeit, nach
dem Prozentsatz der Pünktlichkeit, der
dortigen Stopps im Fernverkehr. Das ist
die Pünktlichkeit. Knallrot ist 60
Prozent, knallblau ist 90 Prozent und
dazwischen farblos. Das ist ungefähr der
Durchschnitt bei 75. Als erstes sieht man
In Ostdeutschland ist quasi alles blau.
Applaus
Ich bin sicher, das sind diese blühenden
Landschaften, von denen Altkanzler Kohl
immer sprach. In Nordrhein-Westfalen ist
so ziemlich alles rot. Köln hat nur so 66
Prozent Pünktlichkeit. Bonn ist wirklich
eines der Schlusslichter mit 59 Prozent.
Das sind die beiden Bahnhöfe, über die ich oft
fahre.
Lachen
Generell. Der ganze dicht besiedelte Raum
in Nordrhein-Westfalen ist ziemlich
schlimm dran. Und ich habe euch ja gesagt,
dass ich das ganze Projekt überhaupt erst
gestartet habe, weil ich dachte, die
Statistik der Bahn wäre falsch, weil meine
Züge so häufig unpünktlich sind. Die
simple Wahrheit ist, ich wohne nur
schlecht. Hamburg, oben, ist auch schlimm.
Das finde ich auch gerecht. Warum soll ich
der Einzige sein? Irgendwo bei 60 Prozent,
je nachdem, welchen Bahnhof man erwischt.
Das sieht da jetzt röter aus, als es ist,
weil die Dinger transparent sind. Und was
die Pünktlichkeit angeht, haben wir uns
mit Leipzig Messe definitiv verbessert.
Wir sind hier so bei 80 Prozent oder etwas
mehr. Ganz wichtig: Ich zeige ab jetzt
jetzt überall, wo es nicht anders dran
steht, nur noch den Fernverkehr an.
Überhaupt wird der ganze Vortrag primär
über den Fernverkehr gehen, weil über das
wird meistens berichtet in den Medien und
auch darüber gemeckert. Und der
Fernverkehr ist das, worüber alle reden.
Aber wenn ich sage, dass ich hier primär
über den Fernverkehr heute rede, dann muss
ich auch fair sein und das Folgende sagen:
Der Nahverkehr, den wir jetzt auslassen,
erreicht fast flächendeckend
Pünktlichkeitswerte von besser als 90
Prozent. Behaltet das bitte über den Rest
des Vortrages im Hinterkopf. Die Bahn hat
auch gute Seiten und bringt gerade im
Nahverkehr eine ziemliche Menge Leute
jeden Tag zu ihrem Job. Da geht sicher
auch mal was schief, aber deutlich weniger
als im Fernverkehr.
Applaus
Ich hoffe, die Leute von der Bahn hören zu
und hören das jetzt gerade. Wir ändern
jetz nochmal die Ansicht, die
Pünktlichkeit pro Bahnhof waren ja
interessant für den Kunden. Aber wenn man
ein bisschen analytisch was machen will
und bei der Bahn arbeitet, dann ist da das
Interessante. Welche Bahnhöfe richtig viel
Verspätung generieren, also dem Netz
hinzufügen, und das ist die Ansicht. Ganz
schlimm sind große Bahnhöfe mit vielen
Stopps, die gleichzeitig jedem Zug, der da
anhält noch so ein bisschen Verspätung mit
auf den Weg geben. Die fünf schlimmsten
sind Hamburg, Köln, Frankfurt Flughafen,
Mannheim. Die sind alle mit mehr als
50.000 hinzugefügten Verspätungsminuten im
Messzeitraum. Spitzenreiter ist Frankfurt
Hauptbahnhof mit 93.000 generierten
Verspätungsminuten. Ich höre, wir haben
eine Frankfurtfraktion, wie seid ihr
hergekommen? Lachen
Publikumseinrufe: Zu spät! Auto!
D: Die sind heute erst angekommen. Ich hoffe
ihr habt euch nicht gehetzt! Zweiter Tag
abends. Es gibt aber auch Bahnhöfe
funktionieren so gut, dass sie insgesamt
Verspätungen aus dem Netz rausnehmen. Die
Top drei sind Bremen, Berlin Hauptbahnhof
und Berlin Spandau.
Applaus
Das hat mich sehr kalt erwischt. das mir
völlig unverhofft ein Nachweis dieser
Größenordnung gelungen ist: Es gibt
tatsächlich etwas an Berlin, das
funktioniert. Lachen
Wir machen weiter - sonst artet das aus. Hier seht ihr im
Vergleich, wie viele Fahrten es im
Nahverkehr, Fernverkehr und von
Drittanbietern gibt. Wir ihr seht, ist das
weitaus meiste der Nahverkehr - hier
orange. Hier sind mehr als fünf Millionen
Fahrten im Datensatz. Dagegen gibt es nur
circa eine Viertelmillion Fahrten im
Fernverkehr - der ist hier blau - und es
gibt noch ziemlich viele Fahrten von
Drittanbietern. Wir dröseln das mal in
einzelne Zugfahrten auf, einfach, damit
wir sehen, was es gibt, bevor wir richtig
einsteigen. Wir sehen jetzt, dass sich der
Nahverkehr aufspaltet, in die drei
dicksten Bubble: Regionalbahnen
Regionalexpress, S-Bahn. Und der
Fernverkehr in ICE, Intercity, das ist IC
und Eurocity, EC. Die Abkürzungen verwende
ich auch im Folgenden. Diese
vergleichsweise kleinen blauen Punkte, das
sind die eigentlich interessanten Zugarten
für heute. Das sind nämlich die Züge, die
quer durch Deutschland fahren. Da kann man
richtig was sehen. Jetzt gehen wir einen
Schritt weiter. Wir nehmen diese für uns
relevanten Zugarten her - also ICE,
Intercity, Eurocity - und dann schauen wir
einfach mal, welche Zugart generell am
spätesten dran ist, damit man gleich weiß,
wo man ausweichen muss. Ich wiederhole
nochmals, wie die Bahn das misst.
Prozentzahl der Stopps, die maximal sechs
Minuten zu spät sind, sind pünktlich. Im
Fernverkehr am pünktlichsten sind die
Intercity, mit gut 76 Prozent. Dicht
danach folgen die ICE. Deutlich dahinter
die Eurocity. Davon sind nicht mal 70
Prozent nach der Bahn-Definition
pünktlich. Da muss ich sagen, das kann ich
in der Tat aus persönlicher Erfahrung
bestätigen. Nach meinem Eindruck ist die
Qualität von den Teilen einfach schlechter
- in jeder Hinsicht. Die Züge sehen, auch
wenn ich damit fahre, immer relativ alt
aus. Aber man muss auch fair sein. Die
fahren internationaler als der Rest der
Züge und wenn die direkt von außen
Verspätungen mitbringen, kann die Bahn da
nichts für und solche Fälle gibt es. Und
es fehlt noch eine Größe, die wir messen
können und die wir messen werden. Und über
die schweigt sich die Bahn auf ihren
Webseiten aus. Und wenn man sich so
konsequent ausschweigt, hat das natürlich
zur Folge, dass man sich für eine Analyse
bewirbt. Das ist der Prozentsatz der
Ausfälle. Hier ist er. Und das war für
mich überraschend. ICEs sind ja das
Flaggschiff der Bahn und anscheinend
fallen die mit weitem Abstand am
häufigsten aus. Eurocity gut zwei Prozent,
Intercity gut drei Prozent und ICE über
fünf Prozent. Also wenn ihr einen ICE
bucht, dann taucht er in einem von 20 Mal
einfach nicht auf. Das fand ich ganz schön
stramm. Mich hat das überrascht. Mein
Praxistipp an euch lautet also: Vorsicht
mit den ICEs! Ich weise fairerweise
nochmals darauf hin, dass das eine
Auswertung von außen ist. Es besteht die
Möglichkeit, dass das nicht stimmt oder da
ewig viele Extrafahrten dann für die
Ausfälle gefahren werden, die gar nicht im
Plan standen, aber alle diese Stopps
standen in deren Daten explizit als
ausgefallen drin. Die Daten sehen
insgesamt realistisch aus, und im SPIEGEL
hatten Sie auch neulich eine Auswertung,
wo Sie auf ähnliche Werte kamen. Also
schlage ich vor, wir betrachten das mal
als gegeben, bis die Bahn widerspricht.
Übrigens einer der fettesten, nicht
ausgefallenen Verspätungen in meinem
Datensatz, war der ICE 576 von Stuttgart
nach Hamburg, und zwar am 17. Oktober
2019. Der hatte 456 Minuten Verspätung.
Das sind mehr als siebeneinhalb Stunden
und der war nicht ausgefallen. Und um
unseren Überblick zu vollenden, gucken wir
uns jetzt das Ganze noch einmal über die
Zeit an. Hier sehen wir die Fahrten über
die Zeit, die ich für den Fernverkehr in
der Datenbank habe. Die können wir uns mal
angucken, wie das funktioniert. Wir sehen,
dass wir so um die 800 Fahrten am Tag
haben im Fernverkehr. Die niedersten
Zacken sind immer Samstage, die hohen
Zacken immer Freitage, das ist der
Berufsverkehr. Hier sind Ostern und
Pfingsten. Weihnachten habe ich nicht mehr
hingekriegt. Und was sieht man noch? Man
sieht zum Beispiel, dass ich zwischendurch
Mist gebaut habe und ein paar Tage Daten
verloren habe. Wer meinen letzten Vortrag
hier gesehen hat, dem wird das bekannt
vorkommen. Ich mache das jeden Vortrag.
Aber ich war besser. Diesmal war ich so
klug - ja - und dann hab ich mir ein
vernünftiges Download Monitoring gebaut.
Und dann dachte ich, ich wäre cool. Und
dann habe ich es irgendwie geschafft, den
Debian Server, auf dem das Ganze läuft,
komplett zu crashen - also der hat gar
nicht mehr geantwortet. Ich musste die
Kiste hart booten, und ich war da gerade
in Urlaub und habe das nicht gemerkt. Also
diesmal Technischer Tipp für euch. Baut
nicht nur ein Download Monitoring, sondern
lasst das auch noch auf einem anderen
Server laufen als den Download selbst.
Applaus
Und weil wir heute ja auf Bahnbewerbungen
hin die Ausfälle besonders genau machen
wollen: Hier sind die Ausfälle über die
Zeit, das sind die Prozent der Stops pro
Tag, die einfach ausgefallen sind und man
sieht sofort zwei fette Spikes. Hier ist
der Orkan Eberhard. Dieser Orkan ist am
10. März über uns hereingebrochen, und am
Nachmittag war der der Meinung, es würde
jetzt mal reichen mit Bahnverkehr. Und den
gucken wir uns auch noch genauer an, und
hier ist der heißeste Tag des Jahres mit
der Hitzewelle dieses Jahr. Und generell
sieht man, wenn ihr hier so ein bisschen
genauer guckt, dass es im Hochsommer eine
stark erhöhte Ausfallrate gibt. Wie kommt
das?
Publikumseinruf: Klimaanlage
D: Klimaanlage höre ich da. Die Ausfälle
nach Zeit zerlegen wir jetzt nochmal in
die relevanten Zugarten - bevor der alles
vorwegnehmt nimmt - und das machen wir jetzt
nicht mehr auf der Basis von Tagen,
sondern von Wochen, das ist einfach etwas
glatter. Und die gelbliche Linie sind die
ICEs und da sieht man erst mal, was für
ein fettes Problem die mit den ICEs im
Sommer haben. Und ihr seht wie die
Ausfälle der ICEs im Sommer im Vergleich
zu den anderen Zugarten richtig stark nach
oben ausbrechen. Das sind so um die 8
Prozent Ausfallquote - fast an jedem
zwölften Stop taucht so ein ICE in der
warmen Zeit dann einfach nicht auf. Und in
der Woche vom 22. Juli sind in der ganzen
Woche sind mehr als 10 Prozent aller ICE
Stopps ausgefallen. Also ich weiß nicht,
wie euch das geht, aber das geht bei mir
über die Fehlertoleranz. Also wenn das
jeden Sommer so ist, wäre mein nächster
Praxis Tipp für euch: Vorsicht mit ICEs im
Sommer. Und jetzt, wo es kälter wird,
fängt das auch wieder so an, aber wenn man
das so anguckt - wir müssen noch ein
bisschen abwarten. Es ist noch nicht raus,
ob das wirklich so wird. In zwei, drei
Monaten wissen wir mehr, wenn es richtig
kalt war. Wir machen jetzt noch zwei
kleine Sachen und danach reden wir mal
darüber, wie man so ein Projekt überhaupt
aufbaut und was die Grundregeln sind. Hier
ist etwas Offensichtliches. Ich habe hier
die Stops mal aller Fahrten sortiert nach
der Zeit, die die Zugfahrt bereits vor
diesem Stop gedauert hat. Von links nach
rechts steigt die bereits gefahrene
Laufzeit vor dem Stopp an, hier von null
bis 500 Minuten. Und was sieht man? Früher
in der Fahrt ist der Prozentsatz der
pünktlichen Züge höher. Später in der
Fahrt sinkt die prozentuale Pünktlichkeit
krass ab. Bei 500 Minuten sind unter 60
Prozent pünktlich. Das habt ihr euch
wahrscheinlich jetzt alle schon selbst
gedacht. Warum sage ich das also? Weil ich
die Bahn ein bisschen in Schutz nehmen
möchte. Man sieht nämlich häufiger in den
Medien irgendwelche Untersuchungen von
Fahrten zwischen weit entfernteren
Metropolen und da werden dann unglaublich
schlechte Pünktlichkeiten gemessen. Und
wenn ihr sowas seht, lasst mich euch
sagen, die machen die Bahn schlimmer, als
sie ist, weil sie durch weiter entfernen
eben nur den Datenteil mit der hohen
Verspätung auswählen. Und ganz ehrlich -
die häufigen Probleme mit den japanischen
Hochgeschwindigkeitszügen sind aus meiner
Sicht auch einfach Stuss. Die verbinden in
Japan nur die absolut riesigen Metropolen.
Die haben ein komplettes Schienennetz für
sich alleine. Der Fernverkehr der Bahn
muss sich das Netz mit Güter- und
Nahverkehr teilen und bindet auch noch die
Mittelzentren mit an. Das ist nicht
vergleichbar. So fair müssen wir schon
sein. Trotzdem hier wieder mein Praxistipp
für euch: Vorsicht mit Zügen, die bereits
lange unterwegs sind. Ihr könnt ja, wenn
ihr bucht sehen, was das für eine Zug
Linie ist und woher die kommt, könnt ihr
also mit einbeziehen. Als nächstes habe
ich mich gefragt Ab welcher Verspätung
wird es nicht mehr besser? Und dafür habe
ich für alle Stops aller Fahrten geguckt.
Wie sehr ist der gerade schon verspätet,
und das hier ist von links nach rechts
aufgetragen. Links stehen die wenig
verspäteten Stops, rechts die, die mit
mehr Verspätung. Und dann habe ich geguckt
Wieviel Prozent bauen auf dem Rest ihrer
Fahrt fünf Prozent der Verspätung ab und
existieren noch also sind nicht
ausgefallen. Ja? Hört sich jetzt
kompliziert an, aber kurz: wieviel Prozent
werden nochmal spürbar besser oder war es
das jetzt? Und was man sieht ist, dass bei
Verspätungen unter 40 Minuten noch mehr
als die Hälfte der Züge am Ende der Fahrt
besser dastehen als jetzt gerade und ab 40
Minuten Verspätung - da ist eine gut
sichtbare Stufe in den Daten, die einzige
- da scheint die Bahn die Dinger irgendwie
aufzugeben. Ab da wird es in der Mehrzahl
der Fälle bis zum Fahrtende nicht mehr
besser. Woran das liegen könnte, darauf
kommen wir gleich auch noch. Praxistipp für
euch: Ab einer Verspätung von 40 Minuten
erwägt ein anderes Transportmittel! So,
das war ein Höllenritt. Jetzt haben wir
schon diverse Praxistipps abgestaubt. Ich
schlage vor, wir machen jetzt einen
Einschub, und ich versuche, euch ein paar
Anhaltspunkte zu geben, was ihr beachten
sollte, wenn ihr Datenprojekte selber
hochzieht. Und ich werde das kurz halten,
so dass wir wieder in die Daten eintauchen
können bald. Punkt 1: organisiert den
Download gut. Die Bahn hat einige
öffentliche Schnittstellen. Es gab hier
auch schon einen schönen Vortrag zu
ebendiesen Schnittstellen. Ich bin froh,
dass jemand ermessen kann, wieviel
Schmerzen ich gehabt habe. Über zwei davon
kann man Fahrpläne und Veränderungen
abrufen. Wenn ihr in eurem Smartphone mit
der Bahn App oder Öffi Bahnverbindung
nachguckt, dann macht euer Handy genau
das. In den Fahrplänen steht, wann welcher
Zug ankommen soll und in den Änderungen
steht, was sich dem gegenüber verändert.
Ausfälle, Verspätungen und so weiter. Das
ist ein bisschen anstrengend, denn leider
müsst ihr beides in getrennten Abfragen
abrufen. Und wenn ihr die Schnittstellen
abruft, erhaltet ihr nur zeitlich begrenzt
Daten - paar Stündchen vor und zurück.
Leider müsst ihr beides für jeden Bahnhof
einzeln abrufen. Das bedeutet, wir können
uns nicht am Schluss einfach ein Jahr
Daten ziehen, sondern wir müssen wirklich
über das ganze Jahr hinweg mit ein
bisschen Infrastruktur sehr häufig Daten
abrufen, die sich überlappen. Solche
Szenarios findet man relativ häufig. Das
funktioniert dann so, dass man die
Downloads einfach erst einmal weg
speichert und konkrete Werte auslesen und
Duplikate raus sortieren - das passiert
dann einfach alles später. Und jetzt
machen wir mal eine Nebenrechnung auf. Wir
haben sechseinhalbtausend Bahnhöfe in
Deutschland. Für jeden müssen wir einzeln
beides abrufen, also mal zwei. Und jetzt
sagen wir mal, wir machen das alle zehn
Minuten für Fahrplan und Änderungen. Das
macht dann 6600 mal 2 mal 144. Das sind
knapp zwei Millionen Abrufe am Tag. So ein
Abruf hat im Durchschnitt 22 KB bei den
Veränderungsdaten, ein bisschen weniger
bei den Plandaten und wir würden dann so
bei 40 Gigabyte XML landen, am Tag. Für
das ganze Jahr - ja das parst sich dann
auch nicht mehr von alleine. Für das ganze
Jahr wären das dann 14 TB in 700 Millionen
Requests. Diesen Moment kriegen die Admins
der Bahn vermutlich einen Herzanfall. Wenn
sie damit fertig sind, dann werden sie in
ihre Logs schauen welche Abrufe von mir
sind, und dann werden Sie Ihren Anwalt
anrufen, um mir eine riesige Rechnung zu
schicken. Aber die enttäuschen wir jetzt.
Natürlich habe ich das nicht so gemacht.
Erstmal hätte ich das speichern und
verarbeiten müssen, das viel zu aufwendig.
Und zweitens ist eine Sache ganz wichtig,
wenn ihr so etwas macht. Ihr müsst den
Traffic minimieren, und zwar aus zwei
Gründen. Das sind die Punkte 2 und 3.
Punkt 2: Handelt verantwortungsvoll. Das
bedeutet, dass Ihr bitte nicht so viel
Traffic erzeugt, dass ihr die
Infrastruktur des Ziels abwürgt oder
irgendwie unnötige Kosten verursacht. Das
ist jetzt realistischer, als es sich
anhört,vielleicht nicht bei der Bahn, aber
beispielsweise bei den Justizportalen in
Deutschland müsst ihr aufpassen. Die sind
erstaunlich schwach auf der Brust...
Hab ich gehört. Gelächter und Applaus
Meine Lösung dafür: Ich rufe
maximal stündlich ab und auch nur die ca.
350 Fernbahnhöfe, das sind dann statt der
zwei Millionen sofort nur noch 16 000
Requests am Tag. In der Regel ist das
nochmal deutlich geringer, weil man das
adaptiv machen kann. Und in diesem Moment
kriegen die Admins zwar keinen Herzanfall
mehr, aber die sind trotzdem enttäuscht,
weil sich dafür keine Rechnung mehr lohnt.
Punkt 3: Fliegt unter dem Radar. Sowas soll
ja eine Weihnachtsüberraschung bleiben. Da
wäre es natürlich schlecht gewesen, wenn
die Millionen Abrufe vom Server D. Kriesel
kommend irgendwie in ihren Logs stehen
haben. Das fällt nämlich irgendwann auf.
Und die Lösung hierfür ist Ihr schickt
die Abfragen über Tausende
Zwischenstationen in der ganzen Welt. In
der Fachsprache heißen die "anonyme
Proxys". Mit anderen Worten: Wenn ich
Massen von Daten runterlade, dann sieht
das für das Ziel aus wie so ein
Grundrauschen von winzigen Abfragen, die
von der ganzen Welt kommen. Viele von
euch werden das auch so machen. Niemand
sieht mich, aber in Wirklichkeit laufen
die Daten dann einfach im Hintergrund auf
meinem Server wieder zusammen - sofern ich
sie nicht crashe. An dieser Stelle
hören, die Admins der Bahn vermutlich auf
meine Abfrage in ihren Logs zu suchen.
Und ich freue mich, dass sie jetzt wieder
voll beim Vortrag dabei sind. Damit ich
euch nicht abschrecke, so einen Aufwand
müsst ihr nicht bei jedem Datenprojekt
treiben. Das war vielleicht ein bisschen
Overkill, weil ich das mal ausprobieren
wollte mit den Proxys. Punkt 4: Es kann
passieren, dass ihr nicht sicher seid,
was ihr rechtlich dürft ohne dranzukommen.
Die meisten unter uns sind keine Juristen,
und manche AGB sind auch einfach mies
formuliert. Und wenn ihr nicht sicher
seid, was ihr dürft, dann fragt einen
Anwalt, der für euch die AGB liest. Es
gibt im Internet Portale, wo ihr für
schmales Geld Anwälten Fragen stellen
könnt, und danach kriegt ihr eine
rechtsverbindliche Antwort. Wenn das
nicht stimmt, haftet der. Bei mir kam dann
leider raus, dass ich bei der Bahn lieber
eine schriftliche Genehmigung erfragen
sollte. Und das war so ein Moment, wo ich
kurz dachte, dass das Projekt vielleicht
auf der Kippe steht. Und das wäre schade
gewesen, weil ich mir vorab schon ein
bisschen Arbeit gemacht hatte. Also lest
zuerst die AGB. Und Punkt 5: Habt trotz
Hindernissen den Mut, es einfach zu tun.
Ich hab dann gepokert und wirklich bei
der Bahn nachgefragt, ob ich automatisiert
Daten runterladen und darüber zum Beispiel
einen kleinen Communityvortrag halten darf.
Lachen
Applaus
Und sie haben es mir genehmigt. Ohne
weitere Auflagen. Ohne Auflagen und ob sie
wirklich so offen sind oder einfach
vergessen haben zu googlen, weiß ich
nicht. Aber ganz ehrlich: Das könnte
jetzt mal einen Applaus für die Bahn wert
sein. Das ist sportlich.
Applaus
Nicht schlecht. Ich hoffe, die hören zu.
Und Punkt 6: Seid fair bei der Auswertung,
wenn ihr Daten für ein Jahr habt, zum
Beispiel, dann sucht ihr nicht die 4
Monate heraus, wo die Bahn besonders
unpünktlich war, damit ihr fiesere Dinge
behaupten könnt. Gängiges Mittel. Und das
Wichtigste zuletzt - Punkt 7: Guckt, ob
ihr euren eigenen Daten vertrauen könnt.
Und das ist gar nicht so einfach. Und ich
führe das jetzt mal vor. Und dann könnt
ihr entscheiden, ob wir meinen Daten
vertraut. Und außerdem ist das jetzt
unsere Ausrede, dass wir diesen Einschub
verlassen und endlich wieder in die Daten
reingucken. Am besten schafft Ihr
Vertrauen in einen Datensatz, indem ihr
eine Analyse komplett nachbaut, die
Quelle des Datensatzes, also hier die
Bahn, schon mal gemacht hat. Die Bahn gibt
auf ihrer Webseite ja pro Monat die
Prozentzahl der pünktlichen Stopps an. Und
in Ihren Dokumenten steht auch, wie sie
das exakt ausrechnen. Und die hab ich
einfach genau so nachgebaut und siehe
da: Das sieht wirklich fast genauso aus.
Die zwei größten Abweichungen sind die
folgenden: Im Januar messe ich die Bahn
einen halben Prozentpunkt schlechter, als
sie ist. Das liegt vermutlich daran, dass
ich erst am 8. Januar angefangen habe,
Daten aufzunehmen. Und im September 0,8
Prozentpunkte. Das ist da, wo mir ein paar
Tage fehlen. Ansonsten scheint bei mir
die Bahn sogar generell minimal besser
wegzukommen. Exakt die gleichen Werte
werdet ihr nie kriegen. Die meisten
Abweichungen sind hier um 0,1
Prozentpunkte, aber für eine Messung von
außen ist das verdammt akkurat. Wenn eure
Werte mit denen des Ziels so
übereinstimmen, dann seid ihr auf einem
guten Weg. Das heißt externe
Verifikation, weil wir etwas Externes zum
Vergleichen hatten. Jetzt kommt die
interne, das bedeutet, ihr guckt in den
Datensatz rein, ob da alles realistisch
aussieht - zum Beispiel anhand der
Tageszeiten. Jeder Punkt hier ist wieder
ein Fernverkehrsbahnhof. Das ist der
Tagesbeginn um 0 Uhr vom 9. März diesen
Jahres. Ich gehe jetzt die Zeit Stunde
für Stunde durch, und dann sehen wir, wie
so ein Tag für die Bahn aussieht. Die
Bahnhofspunkte schwellen an, wenn in der
Stunde mehr Stopps stattgefunden haben.
Und die Farbe markiert die Ausfälle: Blau
ist wenig, Rot ist viel, dunkelrot
entspricht 50 Prozent oder mehr
Ausfällen. Und es ist jetzt null Uhr, und
man sieht, dass noch einige wenige Züge
des Vortages sozusagen unterwegs sind. Die
Lumpensammler sozusagen. Und das wird
jetzt immer weniger werden, und die
Nachtruhe kehrt ein. Die Zeit vergeht.
Nachtruhe. Und hier erwacht ein neuer Tag.
Jetzt ist so langsam Vollbetrieb, es ist
8 Uhr. Wir sehen hier ein paar punktuelle
Ereignisse, die für Ausfälle sorgen. Das
sind die roten Flecken, da ist Unwetter
oder so passiert. Keine Notizen. Es ist
Mittag. Jetzt wird es wieder weniger. Der
Tag geht seinem Ende entgegen. Die letzte
Stunde des Tages. Ein neuer Tag beginnt:
Das ist der zehnte März. Wir sehen wieder
die letzten Züge bevor die Nachtruhe
beginnt. Alles schläft. Der Tag wird
älter, es ist 6 Uhr. Man sieht schon ein
bisschen Traffic. Es ist 9 Uhr, wir sind
wieder im Vollbetrieb. Es ist Mittag am
10. März, und wir erinnern uns: An dem
Tag war ja was. Und hier zeigt der Orkan
Eberhard erste Auswirkungen. Hier hat er
dann in fast ganz Deutschland den
Fernverkehr flachgelegt. Ich musste die
Farbskala erweitern, weil man 50 Prozent
Ausfälle normal nicht hat. Wir lassen
diesen sehr schlechten Tag für die Bahn
nun ausklingen. Und hier ist wieder
Mitternacht, die Grenze zum Folgetag. Eine
Störung in der Größenordnung zieht
natürlich noch einige Tage messbarer
Verspätungen und Ausfälle nach sich. Wenn
man das aufblühte, sieht man das mehrere
Tage runtergehen. Die spielen wir jetzt
aber nicht alle durch. Aber wir sehen:
Nicht immer Ist die Bahn schuld. Wenn ihr
die Daten so auf Plausibilität checkt, da
nutzt unbedingt gute Visualisierungen,
die am besten gleich mehrere Dimensionen
abdecken. Hier hatten wir Ausfälle und
Ort, das sind zwei Dimensionen und die
Anzahl der Stopps und die Zeit nach
Stunden. Der beste Apparat zu
Mustererkennung, den wir zurzeit haben,
das ist nun mal das Gehirn. Und da gibt's
nur eine Breitbandleitung hin, und das
sind die Augen. Wir werden jetzt noch ein
paar größere Auswertungen machen, und als
erstes bitte ich euch dafür, in Gedanken
die Seiten zu wechseln. Stellt euch vor,
ihr gebt keine Analysen raus, sondern ihr
lest welche. Und wenn ihr Analysen lest,
die andere euch geben, dann ist es immer
sehr wichtig zu riechen, worüber die
anderen mit euch nicht reden möchten. Und
bei Firmen findet man das heraus, indem
man deren Kennzahlen genau anguckt. Die
Bahn hat zum Beispiel gesagt, sie wollte
dieses Jahr 76,5% pünktliche Stopps
haben. Daran wollen sie sich messen.
Dieser Bericht ist aus dem Januar 2019,
und Anfang Dezember 2019 haben sie das
Ziel dann kassiert. Es werden nur unter
75% pünktlicher Stopps im Fernverkehr. In
meinen Daten sind es im Moment noch
knapp über 75%. Aber trotzdem:
eigentliches Ziel wird verfehlt. Aber was
insgesamt auffällt, ist, dass sich die
Bahn zu Ausfällen - ich sagte das schon -
ganz komisch ausschweigt. Und jetzt bitte
ich mal um Handzeichnungen von Euch.
Stellt euch vor, ihr steht am Bahnsteig,
und der Zug fällt einfach aus. Ihr steht
da mit leerem Blick und der kommt einfach
nicht. Und ihr dürft jetzt entscheiden:
Ist der pünktlich oder unpünktlich? Wer
von euch würde sagen, der ist eher
pünktlich? Ich sehe zwei Hände... drei im
Saal von 5000 Mann... Okay, ist messbar.
Und wer würde sagen, der Zug ist eher
unpünktlich? Uiuiui, das sind so ziemlich
alle. Und so sehe ich das eigentlich auch.
Und jetzt schauen wir mal in die
Unterlagen der Bahn dazu. Ihr müsst das
nicht lesen, ich lese euch das vor.
"Komplettausfälle oder Teilausfälle
werden - wie übrigens bei den anderen
europäischen Bahnen auch - nicht in
Statistiken eingerechnet. Zum einen ist es
schwierig, dafür ein sinnvolles
mathematisches Modell zu hinterlegen."
What? "Welche Pünktlichkeit ordnet man
einem Zug zu, wenn er an einer bestimmten
Stelle seiner Fahrt ausfällt?" Wir können
binär messen, ob drei von acht Stopps
pünktlich oder nicht pünktlich sind, aber
mit ausgefallen nicht ausgefallen - das
geht nicht. Und "zum anderen liegt die
sogenannte Erfüllungsquote aller täglich
verkehrenden DB-Personenzüge über 99
Prozent im Jahresschnitt sowohl für Fern-
als auch für Nahverkehr." Also Punkt 1: Da
möchte ich als erstes Mal anmerken, dass
ich das in der Sache nicht nachvollziehen
kann, weil wir schon gesehen hatten, dass
alleine der Fernverkehr eine Ausfallquote
von mehr als vier Prozent hat und nicht
ein Prozent. Das heißt, wir haben
insgesamt 103% Fernverkehr. Aber
vielleicht ist die Erfüllungsquote auch
etwas anderes, was ich hier nicht
verstehe. Keine Ahnung. Aber vor allem:
So ein ausgefallener Zug ist, der ist
nicht unpünktlich, der fällt einfach
komplett aus der Wertung. Die Ausfälle
werden statistisch verdeckt, weil man sie
angeblich nicht statistisch einbauen
kann. Also, liebe Leute, ich mache solche
Auswertungen ja auch beruflich, und da
habe ich echt schon manche Ausrede zu
hören gekriegt. Aber das ist schon krass.
Ich nenne sowas den "finalen
Rettungsstuss".
Lachen
Applaus
Wenn ihr so etwas erzählt kriegt, dann
wisst ihr ganz genau: Ihr habt es
gefunden, hier müsst ihr gucken und nicht
woanders. Also helfen wir jetzt mit, und
wir entwickeln jetzt eine Idee, wie man
die Ausfälle doch sinnvoll in die
Statistik reinkriegt. Hier sehen wir eine
Zugfahrt mit vier Stopps. Die beiden
weißen links sind pünktlich, der hellblaue
ist unpünktlich, > 6 Minuten, und der
rechte in rot ist ganz ausgefallen. Im
Moment zählt die Bahn einfach alle Stopps,
die nicht ausgefallen sind, und misst
davon den Prozentsatz der Pünktlichkeit.
Das wären hier zwei von drei - 66
Prozent. Und ich schlage stattdessen vor:
Wir zählen alle Stopps, die geplant
waren, und messen davon den Prozentsatz,
der angekommen ist und pünktlich war. Das
wären hier 50%. Nehmt das nicht auf die
leichte Schulter - das ist jetzt wirklich
große Mathematik.
Lachen
Bahnbrechend sozusagen.
Lachen und Applaus
Applaus
Und wenn man mit den Ausfällen ehrlich
umgeht, dann liegt die Bahn nicht bei den
76,5% Pünktlichkeit, das waren die
angekündigten, und auch nicht bei 75%, das
ist der aktuelle Wert, sondern bei 72,5%.
Und mit jedem Prozent weniger wird es
sehr viel unwahrscheinlicher, dass Leute
ihre Anschlüsse kriegen. Also
unterschätzt das nicht, wenn das nochmal
zwei Prozent weniger sind, als sie
behaupten oder drei. Das ist knackig. Beim
Fernverkehr liegt bei denen einiges im
Argen. Damit möchte ich zum wichtigen
Thema kommen: Erfolgskriterien in
Unternehmen. Wenn ihr als Unternehmen eure
Erfolgskriterien schlecht setzt, dann
schafft ihr Anreize, die das Unternehmen
in eine unerwartete Richtung lenken. Hier
haben wir ein Paradebeispiel dafür. Wenn
die Bahn einen unpünktlichen Zug einfach
spontan ausfallen lässt, dann steht die
nach ihrer eigenen Messmethode danach
besser da und nicht schlechter, weil die
Ausfälle einfach komplett aus der
Statistik fliegen. Also müssen wir uns die
Frage stellen: Wo genau lohnt es sich für
die Bahn am meisten, ein paar Ausfälle zu
erzeugen, um damit die
Pünktlichkeitsstatistik zu pushen?
Lachen
Applaus
Ihr klatscht ja schon vorher. So kann ich
nicht arbeiten.
Lachen
Die Lösung ist am Ende und am Anfang von
Fahrten. Züge fahren nämlich häufig
dieselbe Strecke hin und her und der hier
fährt los. Bis hier ist alles gut
gegangen. Hier hat er dann satt Verspätung
angesammelt. Das passiert. An diesem Punkt
ist zu erwarten, dass die letzten beiden
Halte auch verspätet sein werden. Und auch
die ersten beiden halte der Rückfahrt
natürlich, also schlecht für die
Statistik. Also lassen wir sie doch
einfach ausfallen. Blasen wir ab, der Zug
schmeißt die Fahrgäste raus, dreht an Ort
und Stelle um und ist wieder pünktlich.
Und wer an den roten Stopps einsteigen
und aussteigen will, der steht halt mit
leerem Blick am Gleis. Aber die
Verspätungsstatistik verbessert sich, denn
die Ausfälle fallen ja einfach unter den
Tisch. Aber wie könnte man so etwas
messen? Ganz einfach.
Publikumseinruf: Hamburg.
D: Hackburg?
Publikumseinruf: Hamburg.
D: Oh ja. Also, ganz einfach: Hier ist
wieder eine Zugfahrt mit all ihren Stopps,
die unterteilen wir jetzt einfach in drei
Klassen - frühe, mittlere und späte
Stopps. Die frühen und späten Stopps sind
die ersten und letzten drei, hier grau und
die mittleren sind der Rest. Und für
diese drei Arten Stopps machen wir
getrennte Auswertung. Wenn Ausfälle
aufgrund technischen Betriebes entstehen,
würde man ja erwarten, dass es am Start
an einer Fahrt statistisch weniger
Ausfälle gibt. Und dann werden das so
über die Zeit mehr. Und beim IC ist das
auch genaus. Die Ausfälle steigen nach
hinten an. Und beim ICE dagegen, fallen
die ersten und letzten Stopps häufiger
aus. Das passt alles genau. Die scheinen
die Dinger einfach hart zu wenden. Ich
habe dieses Verhalten auch von zwei
unabhängigen Quellen bestätigt bekommen,
und das war vor einiger Zeit schon mal
irgendwo klein in der Presse. Also ich
verrate hier auch keine
Staatsgeheimnisse. Und je nachdem, wen man
fragt, heißt dieses Vorgehen entweder
nach unserem Verkehrsminister die Scheuer-
Wende oder aber nach dem Bahnvorstand,
die Pofalla-Wende. Das müssen wir jetzt
heute Abend beim Bier entscheiden, was
ihr jetzt besser findet. Jedenfalls ein
weiterer Praxistipp Vorsicht am Anfang
und am Ende eines ICE-Zuglaufs. Die fallen
gerne mal aus. Bucht die nach Möglichkeit
nicht. Aus Gründen der Neutralität, muss
ich dazusagen: Die Bahn hat natürlich ein
Interesse daran, dass das ganze Netz
ungefähr im Plan ist. Also werden die
sich denken, dass bei so einem Manöver
nicht so viele Passagiere von den
Ausfällen betroffen sind, dafür aber im
weiteren Verlauf deutlich mehr Passagiere
einen pünktlichen Zug kriegen ist. Das ist
eben deren Geschäftsentscheidung. Es liegt
mir fern, da jetzt von der Seitenlinie
ohne tieferes Wissen altkluge Ratschläge
zu erteilen. Wir sind hier nicht auf
Twitter. Was ich hier kritisiere...
Lachen
Applaus
Und was ich hier kritisieren möchte, ist
aber, dass ausschließlich die positive
Seite des Manövers danach in der Statistik
auftaucht und die negative einfach
verschwindet. Das stört. Wir wollen gar
nicht wissen, wie viele Leute im
Verkehrsministerium denen das abgekauft
haben. Wir hatten jetzt schon ein
bisschen Praxistipps gesehen, die euch zu
Hause beim Buchen vielleicht ein
bisschen was bringen. Vorsicht mit
bestimmten Bahnhöfen; Vorsicht mit ICEs
im Allgemeinen; Vorsicht mit ICEs im
Sommer im Speziellen; Vorsicht, wenn
Züge schon lange unterwegs waren;
Vorsicht, wenn sie 40 Minuten oder mehr
verspätet sind und jetzt gerade Vorsicht
mit ICEs am Anfang und am Ende der Fahrt
wegen der Scheuer-Wenden. Ich könnte
jetzt mit euch noch jede Menge
Standardkram machen, der sich irgendwie
aus den Daten ergibt: Top Ten Bahnhöfe
oder Zuglinien nach Verspätungen,
Ausfällen und so weiter. Aber das hilft
doch nur wenigen, ganz ehrlich. Also
machen wir jetzt noch zwei Sachen: Erstens
machen wir unsere letzte große Sache mit
den Bahndaten, und ich hoffe, dass ihr
davon zumindest für ein paar Monate ganz
konkret was habt. Danach würde ich mit
euch gerne kurz über das ausklingende
Jahrzehnt nachdenken. Zuerst die
Datensache. Wenn ihr ein Bahnticket kauft,
könnt ihr wählen. Mit Spartickets seid
ihr an exakt die Züge, die ihr gebucht
habt, gebunden. Oder ihr nehmt ein
Flexticket, das ist deutlich teurer, aber
dafür habt ihr keine Zugbindung.
Interessant ist nun folgende Regel: auf
den Spartickets, wenn Sie durch
Verschulden der DB ihren Anschlusszug
nicht erwischen oder allgemein eine
Verspätung von mehr als 20 Minuten
erwartet werden muss, wird die Zugbindung
automatisch aufgehoben. Ich verstehe das
so, dass ihr dann eigentlich ein Flex
Ticket habt plötzlich. Und dann gucken
wir mal auf den Prozentsatz der Stopps,
die entweder mehr als 20 Minuten zu spät
waren oder aber ausgefallen sind und
insgesamt sind das immerhin 12,4%. Und
wenn man jetzt diese Stopps erwischt,
dann verwandeln die einem vielleicht schon
vor Abfahrt ein preiswertes Sparticket in
ein Flexticket. Und das wäre doch total
cool, wenn man die vorher wissen könnte.
Lachen
Applaus
Bin ich so vorhersehbar? Und komplett
vorhersehen geht natürlich nicht. Aber es
gibt Züge, bei denen sowas häufiger
auftritt und Bahnhöfe, bei denen sowas
häufiger auftritt und es gibt auch
Wochentage, bei denen sowas häufiger
auftritt.
Lachen
Und hier ist ein Beispiel. Lest mal mit.
Das bedeutet beim Intercity 2221 ist an
allen Halten bei Mainz Hauptbahnhof an
allen Mittwochen dieses Jahr mit 53%
Wahrscheinlichkeit die Zugbindung
aufgehoben. Also von allen Stopps, die ich
dazu erfasst habe, waren 53% entweder mehr
als 20 Minuten zu spät oder sind ganz
ausgefallen. Und am Freitag das Ganze mit
50 Prozent. Ich muss die Schreibweise so
kurz machen und euch das so beibringen,
das Lesen, damit ich jetzt gleich
platzsparend arbeiten kann. Euch schwant
vermutlich schon, was ich jetzt mache.
Also, ich habe für euch mal die
Kombination aus allen Wochentagen, allen
Bahnhöfen und allen Fernzügen durchsucht
und habe dann nur die Kombinationen
genommen, wo ich mindestens 10 Datenpunkte
hatte, damit das einigermaßen fundiert
ist. Und für die habe ich gemessen, bei
wie viel Prozent die Zugbindung dieses
Zuges an diesem Wochentag, an diesem
Bahnhof gekillt wurde. Und dann habe ich
gesagt: Ich will nur die ganz Fiesen
haben, wo das mit mindestens 50 Prozent
der Fälle der Fall war. Herausgekommen
sind fast 500 Kombinationen aus
Wochentagen, Bahnhöfen und Zügen.
Hier sind sie.
Applaus
Also ich würde kein Flexticket für teuer
Geld kaufen, wenn ich an einem dieser
Bahnhöfe einsteige, aussteigen oder
umsteige an dem Wochentag mit diesem Zug.
Kauft ein Sparticket. Und für alle, die
das jetzt nicht lesen können, ich stelle
den Foliensatz wieder irgendwie bei mir
auf die Seite, morgen oder so. Beachtet
auch, dass die Daten irgendwann ungültig
werden. Ihr behaltet den Zug bitte am
Fahrtag im Auge. Ich bin nicht schuld,
wenn ihr unverhofft doch pünktlich zum Zug
eintreten müsst.
Lachen
Weil die Kiste halt pünktlich ist. Also
bitte, bitte behandelt diese Daten, als
wären sie mit Xerox-Geräten gescannt.
Lachen und Applaus
Wenn ihr doch pünktlich da sein müsst,
dann ist das ja auch ein gutes Zeichen,
weil es nichts anderes bedeutet, als dass
die Bahn was verbessert. Verbesserungen
passieren nämlich durchaus. Dieses Jahr
wurde zum Beispiel die ICE-Trasse zwischen
München und Berlin ausgebaut. Da kann man
jetzt unter vier Stunden zwischen beiden
Städten hin und her fahren, ohne den Zug
zu wechseln. Und wenn das rund läuft, ist
das echt mal eine Alternative zum Flug. Es
ist also nicht alles schlecht. Ich hoffe
auch, ich bin bei aller Kritik fair mit
der Bahn umgegangen heute. Ich bin
jedenfalls, obwohl ich das alles gesehen
habe, mit der Bahn zum Congress gefahren
und werde das auch auf dem Rückweg machen.
Und für heute möchte ich damit die Bahn-
Betrachtung abschließen mit den Worten:
Seid nett zur Bahn mit ihren Fehlern. Wir
haben nur diese eine.
Lachen und vereinzelter Applaus
Und was bleibt?
Applaus
Einen habe ich noch. Da kam er [Herald Engel]
schon gelaufen. Das hier ist der letzte
Vortrag, den ich in diesem Jahrzehnt
halten werde. Ich lasse euch jetzt mal ein
paar Sekunden in Ruhe und wünsche mir,
dass jeder kurz darüber nachdenkt, was für
ihn in diesem Jahrzehnt die maßgebliche
gesellschaftliche Entwicklung war.
Ruhepause zum Nachdenken
Glaube hat jeder was. Für mich ist es der
Aufstieg der Empörten und damit meine ich
ausdrücklich jede politische Richtung. Ich
habe in diesem Jahrzehnt tausend Mal an
jeder Ecke gehört, wie wichtig heutzutage
technische, naturwissenschaftliche und
analytische Skills seien angeblich, mit
anderen Worten: Rationalität. Und auf der
anderen Seite aber reicht das heute im
öffentlichen Diskurs als
Totschlagsargument, wenn jemand empört
ist. Und ich finde das paradox. Das ist
das Gegenteil von Rationalität. Man kann
nicht beides gleichzeitig propagieren. Und
ich möchte anregen, dass wir für das jetzt
kommende Jahrzehnt zu einer Kultur finden,
in der es ungern gesehen wird, einfach nur
alles Mögliche anzuprangern, und in der es
ganz umgekehrt bewundert wird, wenn man
sich die Datenlage anguckt und sie sich
gegenseitig präsentiert mit seinem
Kontrahenten und sich dann zusammensetzt.
Und wer soll das starten, wenn nicht wir
hier. Verlassen wir uns nicht auf die
Medien, denn die leben vom Aufruhr. Auch
wenn es positive Gegenbeispiele gibt.
Verlassen wir uns nicht auf irgendwelche
Stars, die leben von Likes und die kriegt
man am besten durch Zuspitzung. In der
Regel sind die Teil des Problems.
Verlassen wir uns nicht auf Politiker, die
achten wegen der Shitstorm-Kultur nur noch
darauf, bis zur nächsten Wahl nicht
anzuecken. Und zu viele von denen haben
ohnehin niemals außerhalb der Politik
gearbeitet. Was soll da schon kommen? Und
das ist der Grund, warum ich das hier
mache. Ich versuche, euch zu inspirieren,
eure eigenen Analysen zu strittigen Themen
anzustellen. Und in meinen letzten
Vorträgen, meinen beiden hier, habt ihr
ein paar Instinkte davon bekommen, wie das
geht, und ich hoffe, ich habe euch
bewiesen, dass das absolut keine
Raketenwissenschaft ist.
Vereinzelter Applaus
Und ich frage nochmal: Wer soll das
machen, wenn nicht wir hier? Wenn wir es
gemeinsam schaffen, dass wenigstens
manche, die heute echt nichts Besseres zu
tun haben, als sich im Internet zu empören
im nächsten Jahrzehnt zur engagierten
Analyse übergehen und dabei auch
anerkennen, wenn was herauskommt, dass sie
vorher nicht gedacht hätten, dann haben
wir gesellschaftlich unglaublich viel
gewonnen. Und heute Abend stehe ich hier
in einem Saal mit 5000 Leuten, voll
belegt. Da sitzen Sie noch neben der
Tribüne, die sich mit 5000 Leuten, die
sich am Samstagabend zwischen Weihnachten
und Silvester hier hinsetzen. Also da, wo
die allermeisten Menschen einfach gar
nichts tun und sich die Flasche Wein an
den Hals anschließen.
Lachen
Und warum tun die 5000 Leute das? Um einen
Statistik Vortrag zu hören.
Lachen
Das gibt mir Hoffnung. Ich werde glücklich
heimfahren. Da kann die Bahn mit mir
machen, was sie will. Und ich bedanke
mich, dass ihr hier wart, und wünsche euch
ein schönes neues Jahrzehnt.
Großer, tosender Applaus
Standing Ovation
Applaus
Jetzt stehen sie wieder auf...
Applaus
Danke schön.
Applaus
Vielen lieben Dank.
Herald 1: Wow. Auch von mir nochmal
herzlichen Dank. Super Vortrag wie immer,
super lustig. Dankeschön David, dass du
das immer wieder machst, echt schön. Wir
haben noch ein bisschen Zeit für Fragen.
Bitte an die Mikrofone. Es gibt 4, 5
Stück, glaube ich, hier im Saal, wenn ihr
Fragen habt. Wir fangen mal mit Mikrofon 1
an.
Frage: Du hast ja damit angefangen, dass
du der Fairness halber die
Pünktlichkeitsdefinition der Bahn von 6
Minuten, höchstens, gesetzt hast. Hast du
aus purer Neugier mal Sachen
durchgerechnet mit
Pünktlichkeitsdefinitionen, die irgendwie
sinnvoller anfühlen? Müssen ja nicht
gleich die 30 Sekunden aus Japan sein.
D: Ja, da kann man sich streiten, welchen
Wert man setzt.
F: Hast du und welche?
D: Ja, habe ich. Das sieht dann so aus,
als wenn man das eng zieht, am Schluss
natürlich alle Züge verspätet sind. Jeder
hat mal irgendwie eine Minute. Was ich
gemacht habe, war: Ich habe mal eine
Reibungslos-Metrik gesetzt. Reibungslos,
habe ich gesagt, das ist alles, was
maximal 3 Minuten zu spät ist, nicht
ausgefallen und keinen Gleiswechsel, weil
das geht mir immer unglaublich auf die
Nerven, wenn ich dann mit Koffer einmal
hoch und runter... Und das waren dann
irgendwie 60%. Aber nagele mich jetzt
darauf nicht fest. Ich habe es jetzt
nicht im Kopf, aber es waren deutlich
weniger. Ich glaube, es war bei 60% oder
so, diese Pünktlichkeit.
F: Danke.
Herald 1: Ich weiß jetzt nicht, welches
Mikro Erster war. Wir fragen mal den
Signal Angel, der hat eine Frage.
Signal Angel: Also der Stream schließt
sich den Standing Ovations an.
D: Danke schön!
Signal: Und es gab viele Leute, die darauf
hingewiesen haben, dass für ausgefallene
Züge oft Ersatzfahrten bereitgestellt
werden.
D: Ja.
Signal: Die das dann teilweise
kompensieren. Wie taucht das bei dir in
der Statistik auf?
D: Das taucht bei mir gar nicht auf.
Deswegen war ich mir auch nicht komplett
sicher. Deswegen habe ich das auch gesagt.
Wenn die komplett neue Fahrt haben die
irgendwie gar nicht im Plan aufgetaucht
waren, dann werde ich die vermutlich nicht
drin haben. Wenn die Fahrten in
irgendeiner Form in den Plandaten drinnen
waren, habe ich die aber drin. Deswegen
kann ich es nicht genau sagen. Ich weiß
jedenfalls, dass die Kollegen beim SPIEGEL
eine ähnliche Analyse neulich hatten auf
einem kleineren Datensatz. Und da war das
auch jenseits der 4% Ausfallquote. Wenn es
falsch ist, stimmt das zumindest überein.
Es kann sein, dass sie drin sind. Ich bin
mir nicht völlig sicher.
Herald 1: Danke, Mikrofon 5 bitte mit
einer Frage.
F: Vielen dank für diesen sehr
interessanten Vortrag. Es war bestimmt
auch super viel Aufwand, das alles zu
analysieren und nach den Standing Ovations
traue ich mich ja auch fast gar nicht,
eine kritische Frage zu stellen.
D: Bitte!
F: Aber Sie hatten ja ziemlich an den
Anfangsslides bei den Bahnhöfen, die den
Zügen Verspätungen hinzufügen oder wo die
Züge vielleicht Verspätung aufholen. Aber
ist es nicht viel eher so, dass die
Strecken zwischen den Bahnhöfen dazu
führen, dass die Züge Verspätung bekommen
und nicht die Bahnhöfe selber? Und wäre
das dann nicht auch für die Bahn
interessant zu schauen, zwischen welchen
Bahnhöfen kriegen die Züge am meisten
Verspätung?
D: Also das ist eine exakt sehr geile
Frage. Weil diese Auswertung war in der
Tat ein bisschen tricky, genau aus dem
Grund. Vielleicht ist der Bahnhof
Frankfurt die Verspätung gar nicht schuld,
sondern die Gleise beim Rein- und
Rausfahren zum Beispiel. Deswegen messe
ich die Verspätungsänderung von dem
Streckensegment vor dem Bahnhof und dem
Streckensegment nach dem Bahnhof. Und der
jeweilige Bahnhof kriegt man den
Durchschnitt, damit ich genau von diesem
Effekt geheilt werde. Dann habe ich einen
sehr guten Durchschnittswert. Und wer halt
immer was dazufügt im Schnitt, der wird
auch selber was dazu beitragen. Oder beide
Streckenstreckensegmente dahin sind
schlecht, also immer. Dann ist das auch
für mich ein Bahnhofsproblem. Also genau
genommen, was ich hier analysiere ist dann
des Problem des Bahnhofs und der näheren
Umgebung darum herum. Danke für diese
Frage.
F: Vielen Dank für die Antwort.
Applaus
D: Da hab ich mir nämlich lange Gedanken
gemacht, ob ich da jetzt einfach immer nur
die Änderung der Verspätung nehme, aber
das hätte ich mir selbst als Statistik
zerrissen, wenn ich da einen bei erwischt
hätte. Aber deswegen perfekt, dass es
aufgefallen ist. Sehr gut.
Herald 1: Wir haben nur gute Menschen
hier, sehr schön. lacht Wir nehmen
Mikrofon 3, wechseln mal die Seite bitte.
D: Ich muss immer ein bisschen suchen.
Bitte entschuldigt, wenn ich euch nicht
sehe. Da hinten ist er.
F: Du hattest am Anfang angeprangert oder
in der Mitte angeprangert, dass die
Ausfälle nicht zu Verspätungen zählen. Und
hattest aber am Anfang diese Slide, wo der
Berliner Flughafen immer ausfällt. Und es
gibt ja vielleicht auch andere Bahnhöfe,
die umgebaut werden oder wo eben in
Anführungszeichen planmäßig ausfallen.
Hast du die irgendwie
rausgerechnet oder wie läuft das?
D: Nach meiner Information sind die Stopps
dann gar nicht im Plan.
F: Ah, okay.
D: Das sieht so aus: Ihr habt die
Plandaten mit den Stopps und dann habt ihr
die Änderungen. Und da ist dann, wenn da
was ausfällt, dann ist da eine Cancelation
Time drin, nämlich der Zeitpunkt des
Ausfalls. Da kann man auch noch schöne
Auswertungen mit machen. Ausfälle mit
kurzer Vorlaufzeit und so weiter. Das
würde dann in den Daten nach meiner
Kenntnis anders aussehen, wobei ich das
auch nur reverse engineere. Die
dokumentieren nicht alles. Ich weiß nicht,
wer von euch vorhin in dem Bahn-API-
Vortrag drin war. Aber man muss sehr viel
reverse engineeren, wenn man das macht.
Also auch das mit einem Körnchen Salz.
Herald: Danke, wir nehmen Mikrofon 2.
F: Ich bin auch Bahnfahrer, aber nach
meiner Erfahrung ist der Regionalverkehr
viel häufiger verspätet als der
Fernverkehr und deshalb die Frage: Wann
gibt's die Analyse für den Nahverkehr?
D: Wo kommst du denn her?
F: Ich lebe südlich von Stuttgart.
D: Südlich von Stuttgart. Also ich hab die
Nahverkehrsbahnhöfe nicht runtergeladen.
Was ich aber hab (einfach weil sonst die
Requests wären explodiert), aber was ich
hab, ist natürlich sämtlicher Nahverkehr,
der über alle Fernbahnhöfe gefahren ist,
und die sind strategisch gut verteilt,
sodass sich da in der Tat auch für den
Nahverkehr was sehen kann. Vielleicht
mache ich mal eine Pünktlichkeit von dem
nahen Verkehr, der in den Fernverkehrs
Bahnhöfen vorbeigefahren ist. Weil das
habe ich; dann muss ich mal als Tabelle
auf meine Webseite stellen. Oder so
einfach. Dann kannst du gucken.
Applaus
Herald 1: Wir haben noch ein kleines
bisschen Zeit, Mikrofon 6 nochmal, die
andere Seite.
F: Vielen Dank nochmal für den Vortrag.
Aus München kommend haben wir eine
chronisch schlechte S-Bahn, und ich habe
mich auch gefragt: Ist den der
Regionalverkehr noch einmal
unterschiedlich zum Nahverkehr? Oder ist
einfach die Münchner S-Bahn dauernd zu
spät und im Rest von Deutschland ist gut?
D: Die fährt ja über eure großen Bahnhöfe,
habt ja zwei oder drei richtig dicke, ne?
München Ost, München und noch
irgendeinen.
F: Ja.
D: Dann hab ich die drinnen. Kann ich mal
gucken. Würde dann auch in der Frage
auftauchen, ob die da über 90%; Diese über
90% Pünktlichkeit im Regionalverkehr sind
für Bahn und Subunternehmen vermutlich.
Ich muss mal gucken, aber die anderen hab
ich ja drin. Zur Not als Dirttunternehmen.
Vielleicht beziehe ich die einfach mal mit
ein in die regionale Analyse. Das könnte
interessant sein, wenn ich dafür
irgendwann Zeit habe. Erwartet das jetzt
nicht morgen früh.
F: Danke.
Harald 1: Super, wir nehmen euch beide
hier, Mikrofon 4 zuerst.
F: Auf den Slides 80 und 84 war
dargestellt, wie die Bahn die Teilausfälle
rausrechnet, aus der Statistik. Aber
müssten nicht die gesamten Züge
herausgerechnet werden aus der Statistik?
D: Ähm.
F: Die Verspätung akkumuliert sich ja
natürlich und dann wäre die Statistik ja
dementsprechend besser.
D: Jetzt hab ich mein PowerPoint
abgeschossen.
Leises lachen
Nö, wieso müsstest du die ganze Züge
herausrechnen? Das verstehe ich nicht. Es
kommt ja. Es ist ja schön granular für
Stopps zu rechnen. Angenommen, das ganze
System würde so funktionieren, dass alle
Züge auf der Hälfte Ihrer Stopps pünktlich
sind, und auf der anderen Hälfte
unpünktlich. Dann wäre das doch halb
pünktlich. Ich sehe nicht, warum. Wir
arbeiten ja feiner als auf Granularität
von Zügen. Das ist doch besser?
F: Aber es werden ja Teilausfälle auch
rausgerechnet. Ist es dann wirklich nur
der ausgefallene Stopp?
D: Nee, soweit ich weiß, ist da wirklich
nur der ausgefallene Stopp, ja.
F: Ok, gut. Danke.
Harald 1: So, dann noch Mikrophon 1.
F: Vielen Dank nochmal für den Talk. Meine
Frage geht in die Richtung: "Perverse
incentive", sprich die Kennzahlen, an
denen sich die Bahn messen lässt. Hat sie
sehr darauf hingewiesen, dass die
Ausfallrate da vielleicht nicht so; Also
gut sein könnte wenn..,
D: Ja, wäre schön, wenn sie drin wäre.
F: Ja, genau, wenn sie mit drin wäre. Eine
andere Sache die da reinspielt: Wie hoch
die Ziele sind, die sich die Bahn setzt.
Hast du in deinen Daten welche?
D: Das geht durch die Presse.
F: Ich meine Ziele im Sinne von: Wie
schnell denn eine Strecke zu befahren ist?
Man könnte ja die Züge pünktlicher machen
dadurch, dass man nach jedem Zug eine
Stunde mehr Zeit gibt, dieselbe Strecke zu
fahren.
D: Du meinst die Taktung?
F: Ja.
D: Nee, die habe ich nicht. Die ist aber
bei der Bahn relativ eng, im Vergleich zu
Flugzeugen - habe ich mir sagen lassen von
kundigen Personen - weswegen die Flugzeuge
auch häufiger pünktlich sind; oder
ungefähr pünktlich. Aber bei der Bahn ist
alles sehr eng getaktet, und vor allem
sind die Sachen interdependent. Wenn einer
auf der Strecke liegen bleibt, halten alle
dahinter halt auch ein Problem. Das beides
in Kombination sorgt für die Fragilität,
die wir sehen.
F: Hast du vor, die Analyse in weiteren
Jahren fortzuführen, um dann da vielleicht
die Richtung etwas zu sehen?
D: Ich bin mir nicht sicher. Zum einen
habe ich wie alle anderen auch, Arbeit und
Familie, und zweitens ist die
infrastrukturell sehr aufwendig. Ein
bisschen mache ich das sicher noch weiter,
und dann gucke ich, habe ich noch
rauskriege. Aber ich kann nichts
versprechen.
F: Letzter Nachschub: sind deine Daten
von... also kriegt man die von dir?
D: Denke ich nicht, weil ich das nicht
darf.
F: Ah.
D: Am Ende hat die Bahn dafür das
Copyright. Viel mehr Copyright-Verstoß
ginge gar nicht, als wenn ich das ganze
Ding nehme und euch einfach rauskopiere.
Aber: sucht bei der Bahn die Timetable
API. Und dann ladet ihr das einfach
runter. Es geht, das ist keine
Raketenwissenschaft.
F: Danke.
D: Gut.
Harald 1: Super. Nochmal einen riesengroßen
Applaus, an David. Herzlichen Dank.
Applaus
Abspannmusk