36C3 Vorspannmusik Herald 1: Ok. Spaß beiseite! Der nun folgende Zug is schon ganz schön lange unterwegs. Beim 33C3, da fuhr er mit Xerox ab. Herald 2: Beim 33C3 hat er dann SPIEGEL einmal gedataminet und hat geguckt. Was ist denn dort? SpiegelOnline! Und hat uns wirklich eine total perfekte Datenanalyse zu dem Thema gemacht? Herald 1: Und beim 36C3 geht's mit dieser Zugfahrt weiter. Bitte begrüßt mit 'nem ries'n Applaus David Kriesel. Applaus Herald 2: Applaus! Applaus! Applaus! Applaus Herald 1: Viel Spaß! Applaus David Kriesel: Also ich glaub: So geil bin ich noch nie niemals eingeleitet worden. Lachen D: Hm! Herzlich willkommen euch allen hier! Auch Herzlich willkommen an die Leute im Stream - an die Aluhüte im Besonderen. Die Aluhüte glühen aber leider noch nicht. Vielleicht kriegen wir das im Verlaufe dieses Vortrages noch hin. Mein Name ist David Kriesel. Ich bin Informatiker aus der Nähe von Bonn. Im richtigen Leben ist es mein Beruf interessante Sachen in größeren Datenmengen zu finden. Neudeutsch heißt das Data Scientist. Und zusätzlich zum Beruf habe ich verschiedene Projekte und manchmal nehme ich mir eines davon raus und halte hier einen Vortrag. Ich bin Rheinländer und bei uns sagt man Ab zweimal ist es Tradition und beim dritten Mal ist es Brauchtum. Ich bin jetzt das dritte Mal hier. Das ist schon voll Brauchtum und ich freue mich, dass es so oft geklappt hat. Unsere Geschichte heute beginnt im Jahr 2018. Am Ende des Jahres 2018 hat nämlich die Bahn gesagt, rund 75 Prozent ihrer Fernzüge seien pünktlich gewesen. Dafür muss man erst mal wissen: Was ist denn pünktlich? Die Bahn errechnet das folgendermaßen: Die sagen: Wenn ein Zug bei einem Stopp weniger als sechs Minuten zu spät ankommt, dann ist er pünktlich. Das ist wirklich die Definition, und wir übernehmen das einfach. Da müssen wir dann nicht handeln. Und dann errechnen Sie den Prozentsatz aller Stopps, bei denen das der Fall ist. Und das wären bei knapp 75 Prozent in 2018 so der Fall gewesen. Und das hat mich in meiner persönlichen Erfahrung irgendwie gestört. In den letzten Jahren bin ich quer durch Deutschland gereist, davon relativ häufig mit der Bahn. Und dann habe ich meine Mailbox geguckt, und für mehr als die Hälfte meiner Fahrten habe ich diese E-Mail von verspätungsalarm@bahn.de. Und da dachte ich Ich bin wohl dieser eine Typ - ja - der aufpassen muss, nicht vom Blitz getroffen zu werden, während er den Sechser im Lotto abholt. Ja? Ich wollte das dann genauer wissen. Also habe ich mal in die Statistiken geguckt, die auf der Webseite der Bahn sind. Dann habe ich gesehen: Das sind kaum welche. Die Bahn bietet auf ihrer Webseite nur die Prozent der pünktlichen Stopps pro Monat an. Fürs Gesamtnetz, bundesweit nochmal getrennt im Nah und Fernverkehr und das ist zusammengefasst. Damit kann man nichts anfangen. Man kann dann nicht nach bestimmten Verbindungen filtern. Man kann aber nicht gucken, bei welchen Bahnhöfen die Performance besonders schlecht ist oder gut ist und alles, was interessant ist oder was ich interessant fand, das geht nicht. Also habe ich am 8. Januar begonnen, die Deutsche Bahn zu vorratsdatenspeichern. Lachen & Applaus In diesem Datensatz gucken wir heute rein und wir werten das auch nicht nur aus, sondern ich werde auch ein bisschen Zeit darauf verwenden, euch grob zu erklären, wie man so ein Datenprojekt angeht und worauf man achten muss und wie man vor allem merkt, ob man Vertrauen in die Daten haben kann. Das muss ja nicht sein, dass alles stimmt, was man so herunterlädt, und über den ganzen Vortrag hinweg geb ich euch immer so ein paar... - Wie nenne ich das? - Praxistipps, die ihr mit nach Hause nehmen und an die ihr denken könnt, wenn ihr eine Bahnfahrt bucht. Disclaimer Vorweg: Ich habe mit der Bahn nicht über die Auswertungen gesprochen. Behaltet im Hinterkopf: Am Ende ist das ein kleines Hauptprojekt, und es kann durchaus sein, dass ich Fehler gemacht habe. Aber da wir auch noch über die Vertrauenswürdigkeit der Daten reden, könnt ihr selbst entscheiden, ob ihr meinen Daten vertraut oder nicht. Wir kucken uns jetzt endlich mal an, wie die Daten aussehen. Hier sehen wir eine fiktive Fahrt eines ICE. Ich gebe euch mal kurz fünf Sekunden für den ersten Überblick und danach erkläre ich die. Drei Sekunden reichen auch. So! Der ICE fährt in München los und jede weitere Zeile ist ein Stopp und irgendwann ist er am Ziel angekommen. Hier: Bergen auf Rügen. Eine Fahrt ist die Sequenz aller Stopps, die der Zug von Anfang bis Ende macht. Danach ist das eine neue Fahrt. Hier sind die Verspätungen pro Stopp. Der Zug ist mit sechs Minuten Verspätung abgefahren und nach der Messmethode der Bahn wäre der gerade als verspätet zu werten - an diesem Stopp. Und dann schwanken die Verspätungen. In Erfurt sind wir auch mal sechs Minuten zu früh dran gewesen. Die Verspätung ist negativ. Das passiert. In der Regel heißt das übrigens, dass der Zug dann einfach länger bleibt und nicht zu früh wieder abfährt. Am Berliner Flughafen; der Stopp fällt aus. In 20 Jahren werde ich diese Witze immer noch machen können. Lachen & Applaus Und diese Stopps aller Fahrten sind die Grundlage unserer Daten, meine Tabelle hat 25 Millionen Zeilen. Das sind 25 Millionen Stopps von irgendwelchen Zügen. Das sind alle Stopps im Fernverkehr vom 8. Januar bis jetzt. Und auch der Nahverkehr, aber der nur an den Fernbahnhöfen. Komme ich gleich noch zu. Und die Tabelle hat auch verschiedenste Spalten - die, die ich hier vorführe und noch einige mehr. Wir können in einzelne Orte reingucken, in einzelne Fahrten reingucken, in Zeiträume reingucken. Wir können auch kompliziertere Auswertungen fahren. Machen wir auch heute noch. Zum Anfang, machen wir mal ein paar ganz einfache Sachen mit den Daten. Das ist nicht, um euch zu langweilen, aber wir müssen ja erst mal reinkommen, den Datensatz kennenlernen und so weiter. Wir sortieren jetzt die ganze Tabelle von Stopps, 25 Millionen Stück, mal nach Bahnhöfen und dann ermitteln wir die Anzahl der Stopps für jeden Bahnhof über das ganze Jahr hinweg. Jeder Bubble hier ist ein Bahnhof mit Fernverkehr und davon haben wir um die 350 Stück. Das sind die wichtigen. Und die Größe der Bubble gibt die Anzahl der erfassten Halte für den Bahnhof wieder, und zwar für alles, was da fährt: Fern- und Nahverkehr. Und der Größte, was das angeht, ist Köln Hauptbahnhof mit im Moment 380 000 Stopps in der Datenbank. Ich habe die Top 6 mal in der Karte beschriftet. Warum genau die Top 6? Weil der sechste Bahnhof genau Hamburg Dammtor ist und das wollte ich euch nicht vorenthalten. Das war unser letzter Congress-Bahnhof. Der Bahnhof Leipzig Messe ist übrigens deutlich, deutlich kleiner. Inklusive Nahverkehr haben wir hier so 60.000 Stopps im Jahr und überhaupt nur ein paar hundert Fernverkehr. Wo wir schon dabei sind, machen wir jetzt was aus Kundensicht Interessantes und färben mal die Bahnhöfe ein. Und zwar nach der Pünktlichkeit, nach dem Prozentsatz der Pünktlichkeit, der dortigen Stopps im Fernverkehr. Das ist die Pünktlichkeit. Knallrot ist 60 Prozent, knallblau ist 90 Prozent und dazwischen farblos. Das ist ungefähr der Durchschnitt bei 75. Als erstes sieht man In Ostdeutschland ist quasi alles blau. Applaus Ich bin sicher, das sind diese blühenden Landschaften, von denen Altkanzler Kohl immer sprach. In Nordrhein-Westfalen ist so ziemlich alles rot. Köln hat nur so 66 Prozent Pünktlichkeit. Bonn ist wirklich eines der Schlusslichter mit 59 Prozent. Das sind die beiden Bahnhöfe, über die ich oft fahre. Lachen Generell. Der ganze dicht besiedelte Raum in Nordrhein-Westfalen ist ziemlich schlimm dran. Und ich habe euch ja gesagt, dass ich das ganze Projekt überhaupt erst gestartet habe, weil ich dachte, die Statistik der Bahn wäre falsch, weil meine Züge so häufig unpünktlich sind. Die simple Wahrheit ist, ich wohne nur schlecht. Hamburg, oben, ist auch schlimm. Das finde ich auch gerecht. Warum soll ich der Einzige sein? Irgendwo bei 60 Prozent, je nachdem, welchen Bahnhof man erwischt. Das sieht da jetzt röter aus, als es ist, weil die Dinger transparent sind. Und was die Pünktlichkeit angeht, haben wir uns mit Leipzig Messe definitiv verbessert. Wir sind hier so bei 80 Prozent oder etwas mehr. Ganz wichtig: Ich zeige ab jetzt jetzt überall, wo es nicht anders dran steht, nur noch den Fernverkehr an. Überhaupt wird der ganze Vortrag primär über den Fernverkehr gehen, weil über das wird meistens berichtet in den Medien und auch darüber gemeckert. Und der Fernverkehr ist das, worüber alle reden. Aber wenn ich sage, dass ich hier primär über den Fernverkehr heute rede, dann muss ich auch fair sein und das Folgende sagen: Der Nahverkehr, den wir jetzt auslassen, erreicht fast flächendeckend Pünktlichkeitswerte von besser als 90 Prozent. Behaltet das bitte über den Rest des Vortrages im Hinterkopf. Die Bahn hat auch gute Seiten und bringt gerade im Nahverkehr eine ziemliche Menge Leute jeden Tag zu ihrem Job. Da geht sicher auch mal was schief, aber deutlich weniger als im Fernverkehr. Applaus Ich hoffe, die Leute von der Bahn hören zu und hören das jetzt gerade. Wir ändern jetz nochmal die Ansicht, die Pünktlichkeit pro Bahnhof waren ja interessant für den Kunden. Aber wenn man ein bisschen analytisch was machen will und bei der Bahn arbeitet, dann ist da das Interessante. Welche Bahnhöfe richtig viel Verspätung generieren, also dem Netz hinzufügen, und das ist die Ansicht. Ganz schlimm sind große Bahnhöfe mit vielen Stopps, die gleichzeitig jedem Zug, der da anhält noch so ein bisschen Verspätung mit auf den Weg geben. Die fünf schlimmsten sind Hamburg, Köln, Frankfurt Flughafen, Mannheim. Die sind alle mit mehr als 50.000 hinzugefügten Verspätungsminuten im Messzeitraum. Spitzenreiter ist Frankfurt Hauptbahnhof mit 93.000 generierten Verspätungsminuten. Ich höre, wir haben eine Frankfurtfraktion, wie seid ihr hergekommen? Lachen Publikumseinrufe: Zu spät! Auto! D: Die sind heute erst angekommen. Ich hoffe ihr habt euch nicht gehetzt! Zweiter Tag abends. Es gibt aber auch Bahnhöfe funktionieren so gut, dass sie insgesamt Verspätungen aus dem Netz rausnehmen. Die Top drei sind Bremen, Berlin Hauptbahnhof und Berlin Spandau. Applaus Das hat mich sehr kalt erwischt. das mir völlig unverhofft ein Nachweis dieser Größenordnung gelungen ist: Es gibt tatsächlich etwas an Berlin, das funktioniert. Lachen Wir machen weiter - sonst artet das aus. Hier seht ihr im Vergleich, wie viele Fahrten es im Nahverkehr, Fernverkehr und von Drittanbietern gibt. Wir ihr seht, ist das weitaus meiste der Nahverkehr - hier orange. Hier sind mehr als fünf Millionen Fahrten im Datensatz. Dagegen gibt es nur circa eine Viertelmillion Fahrten im Fernverkehr - der ist hier blau - und es gibt noch ziemlich viele Fahrten von Drittanbietern. Wir dröseln das mal in einzelne Zugfahrten auf, einfach, damit wir sehen, was es gibt, bevor wir richtig einsteigen. Wir sehen jetzt, dass sich der Nahverkehr aufspaltet, in die drei dicksten Bubble: Regionalbahnen Regionalexpress, S-Bahn. Und der Fernverkehr in ICE, Intercity, das ist IC und Eurocity, EC. Die Abkürzungen verwende ich auch im Folgenden. Diese vergleichsweise kleinen blauen Punkte, das sind die eigentlich interessanten Zugarten für heute. Das sind nämlich die Züge, die quer durch Deutschland fahren. Da kann man richtig was sehen. Jetzt gehen wir einen Schritt weiter. Wir nehmen diese für uns relevanten Zugarten her - also ICE, Intercity, Eurocity - und dann schauen wir einfach mal, welche Zugart generell am spätesten dran ist, damit man gleich weiß, wo man ausweichen muss. Ich wiederhole nochmals, wie die Bahn das misst. Prozentzahl der Stopps, die maximal sechs Minuten zu spät sind, sind pünktlich. Im Fernverkehr am pünktlichsten sind die Intercity, mit gut 76 Prozent. Dicht danach folgen die ICE. Deutlich dahinter die Eurocity. Davon sind nicht mal 70 Prozent nach der Bahn-Definition pünktlich. Da muss ich sagen, das kann ich in der Tat aus persönlicher Erfahrung bestätigen. Nach meinem Eindruck ist die Qualität von den Teilen einfach schlechter - in jeder Hinsicht. Die Züge sehen, auch wenn ich damit fahre, immer relativ alt aus. Aber man muss auch fair sein. Die fahren internationaler als der Rest der Züge und wenn die direkt von außen Verspätungen mitbringen, kann die Bahn da nichts für und solche Fälle gibt es. Und es fehlt noch eine Größe, die wir messen können und die wir messen werden. Und über die schweigt sich die Bahn auf ihren Webseiten aus. Und wenn man sich so konsequent ausschweigt, hat das natürlich zur Folge, dass man sich für eine Analyse bewirbt. Das ist der Prozentsatz der Ausfälle. Hier ist er. Und das war für mich überraschend. ICEs sind ja das Flaggschiff der Bahn und anscheinend fallen die mit weitem Abstand am häufigsten aus. Eurocity gut zwei Prozent, Intercity gut drei Prozent und ICE über fünf Prozent. Also wenn ihr einen ICE bucht, dann taucht er in einem von 20 Mal einfach nicht auf. Das fand ich ganz schön stramm. Mich hat das überrascht. Mein Praxistipp an euch lautet also: Vorsicht mit den ICEs! Ich weise fairerweise nochmals darauf hin, dass das eine Auswertung von außen ist. Es besteht die Möglichkeit, dass das nicht stimmt oder da ewig viele Extrafahrten dann für die Ausfälle gefahren werden, die gar nicht im Plan standen, aber alle diese Stopps standen in deren Daten explizit als ausgefallen drin. Die Daten sehen insgesamt realistisch aus, und im SPIEGEL hatten Sie auch neulich eine Auswertung, wo Sie auf ähnliche Werte kamen. Also schlage ich vor, wir betrachten das mal als gegeben, bis die Bahn widerspricht. Übrigens einer der fettesten, nicht ausgefallenen Verspätungen in meinem Datensatz, war der ICE 576 von Stuttgart nach Hamburg, und zwar am 17. Oktober 2019. Der hatte 456 Minuten Verspätung. Das sind mehr als siebeneinhalb Stunden und der war nicht ausgefallen. Und um unseren Überblick zu vollenden, gucken wir uns jetzt das Ganze noch einmal über die Zeit an. Hier sehen wir die Fahrten über die Zeit, die ich für den Fernverkehr in der Datenbank habe. Die können wir uns mal angucken, wie das funktioniert. Wir sehen, dass wir so um die 800 Fahrten am Tag haben im Fernverkehr. Die niedersten Zacken sind immer Samstage, die hohen Zacken immer Freitage, das ist der Berufsverkehr. Hier sind Ostern und Pfingsten. Weihnachten habe ich nicht mehr hingekriegt. Und was sieht man noch? Man sieht zum Beispiel, dass ich zwischendurch Mist gebaut habe und ein paar Tage Daten verloren habe. Wer meinen letzten Vortrag hier gesehen hat, dem wird das bekannt vorkommen. Ich mache das jeden Vortrag. Aber ich war besser. Diesmal war ich so klug - ja - und dann hab ich mir ein vernünftiges Download Monitoring gebaut. Und dann dachte ich, ich wäre cool. Und dann habe ich es irgendwie geschafft, den Debian Server, auf dem das Ganze läuft, komplett zu crashen - also der hat gar nicht mehr geantwortet. Ich musste die Kiste hart booten, und ich war da gerade in Urlaub und habe das nicht gemerkt. Also diesmal Technischer Tipp für euch. Baut nicht nur ein Download Monitoring, sondern lasst das auch noch auf einem anderen Server laufen als den Download selbst. Applaus Und weil wir heute ja auf Bahnbewerbungen hin die Ausfälle besonders genau machen wollen: Hier sind die Ausfälle über die Zeit, das sind die Prozent der Stops pro Tag, die einfach ausgefallen sind und man sieht sofort zwei fette Spikes. Hier ist der Orkan Eberhard. Dieser Orkan ist am 10. März über uns hereingebrochen, und am Nachmittag war der der Meinung, es würde jetzt mal reichen mit Bahnverkehr. Und den gucken wir uns auch noch genauer an, und hier ist der heißeste Tag des Jahres mit der Hitzewelle dieses Jahr. Und generell sieht man, wenn ihr hier so ein bisschen genauer guckt, dass es im Hochsommer eine stark erhöhte Ausfallrate gibt. Wie kommt das? Publikumseinruf: Klimaanlage D: Klimaanlage höre ich da. Die Ausfälle nach Zeit zerlegen wir jetzt nochmal in die relevanten Zugarten - bevor der alles vorwegnehmt nimmt - und das machen wir jetzt nicht mehr auf der Basis von Tagen, sondern von Wochen, das ist einfach etwas glatter. Und die gelbliche Linie sind die ICEs und da sieht man erst mal, was für ein fettes Problem die mit den ICEs im Sommer haben. Und ihr seht wie die Ausfälle der ICEs im Sommer im Vergleich zu den anderen Zugarten richtig stark nach oben ausbrechen. Das sind so um die 8 Prozent Ausfallquote - fast an jedem zwölften Stop taucht so ein ICE in der warmen Zeit dann einfach nicht auf. Und in der Woche vom 22. Juli sind in der ganzen Woche sind mehr als 10 Prozent aller ICE Stopps ausgefallen. Also ich weiß nicht, wie euch das geht, aber das geht bei mir über die Fehlertoleranz. Also wenn das jeden Sommer so ist, wäre mein nächster Praxis Tipp für euch: Vorsicht mit ICEs im Sommer. Und jetzt, wo es kälter wird, fängt das auch wieder so an, aber wenn man das so anguckt - wir müssen noch ein bisschen abwarten. Es ist noch nicht raus, ob das wirklich so wird. In zwei, drei Monaten wissen wir mehr, wenn es richtig kalt war. Wir machen jetzt noch zwei kleine Sachen und danach reden wir mal darüber, wie man so ein Projekt überhaupt aufbaut und was die Grundregeln sind. Hier ist etwas Offensichtliches. Ich habe hier die Stops mal aller Fahrten sortiert nach der Zeit, die die Zugfahrt bereits vor diesem Stop gedauert hat. Von links nach rechts steigt die bereits gefahrene Laufzeit vor dem Stopp an, hier von null bis 500 Minuten. Und was sieht man? Früher in der Fahrt ist der Prozentsatz der pünktlichen Züge höher. Später in der Fahrt sinkt die prozentuale Pünktlichkeit krass ab. Bei 500 Minuten sind unter 60 Prozent pünktlich. Das habt ihr euch wahrscheinlich jetzt alle schon selbst gedacht. Warum sage ich das also? Weil ich die Bahn ein bisschen in Schutz nehmen möchte. Man sieht nämlich häufiger in den Medien irgendwelche Untersuchungen von Fahrten zwischen weit entfernteren Metropolen und da werden dann unglaublich schlechte Pünktlichkeiten gemessen. Und wenn ihr sowas seht, lasst mich euch sagen, die machen die Bahn schlimmer, als sie ist, weil sie durch weiter entfernen eben nur den Datenteil mit der hohen Verspätung auswählen. Und ganz ehrlich - die häufigen Probleme mit den japanischen Hochgeschwindigkeitszügen sind aus meiner Sicht auch einfach Stuss. Die verbinden in Japan nur die absolut riesigen Metropolen. Die haben ein komplettes Schienennetz für sich alleine. Der Fernverkehr der Bahn muss sich das Netz mit Güter- und Nahverkehr teilen und bindet auch noch die Mittelzentren mit an. Das ist nicht vergleichbar. So fair müssen wir schon sein. Trotzdem hier wieder mein Praxistipp für euch: Vorsicht mit Zügen, die bereits lange unterwegs sind. Ihr könnt ja, wenn ihr bucht sehen, was das für eine Zug Linie ist und woher die kommt, könnt ihr also mit einbeziehen. Als nächstes habe ich mich gefragt Ab welcher Verspätung wird es nicht mehr besser? Und dafür habe ich für alle Stops aller Fahrten geguckt. Wie sehr ist der gerade schon verspätet, und das hier ist von links nach rechts aufgetragen. Links stehen die wenig verspäteten Stops, rechts die, die mit mehr Verspätung. Und dann habe ich geguckt Wieviel Prozent bauen auf dem Rest ihrer Fahrt fünf Prozent der Verspätung ab und existieren noch also sind nicht ausgefallen. Ja? Hört sich jetzt kompliziert an, aber kurz: wieviel Prozent werden nochmal spürbar besser oder war es das jetzt? Und was man sieht ist, dass bei Verspätungen unter 40 Minuten noch mehr als die Hälfte der Züge am Ende der Fahrt besser dastehen als jetzt gerade und ab 40 Minuten Verspätung - da ist eine gut sichtbare Stufe in den Daten, die einzige - da scheint die Bahn die Dinger irgendwie aufzugeben. Ab da wird es in der Mehrzahl der Fälle bis zum Fahrtende nicht mehr besser. Woran das liegen könnte, darauf kommen wir gleich auch noch. Praxistipp für euch: Ab einer Verspätung von 40 Minuten erwägt ein anderes Transportmittel! So, das war ein Höllenritt. Jetzt haben wir schon diverse Praxistipps abgestaubt. Ich schlage vor, wir machen jetzt einen Einschub, und ich versuche, euch ein paar Anhaltspunkte zu geben, was ihr beachten sollte, wenn ihr Datenprojekte selber hochzieht. Und ich werde das kurz halten, so dass wir wieder in die Daten eintauchen können bald. Punkt 1: organisiert den Download gut. Die Bahn hat einige öffentliche Schnittstellen. Es gab hier auch schon einen schönen Vortrag zu ebendiesen Schnittstellen. Ich bin froh, dass jemand ermessen kann, wieviel Schmerzen ich gehabt habe. Über zwei davon kann man Fahrpläne und Veränderungen abrufen. Wenn ihr in eurem Smartphone mit der Bahn App oder Öffi Bahnverbindung nachguckt, dann macht euer Handy genau das. In den Fahrplänen steht, wann welcher Zug ankommen soll und in den Änderungen steht, was sich dem gegenüber verändert. Ausfälle, Verspätungen und so weiter. Das ist ein bisschen anstrengend, denn leider müsst ihr beides in getrennten Abfragen abrufen. Und wenn ihr die Schnittstellen abruft, erhaltet ihr nur zeitlich begrenzt Daten - paar Stündchen vor und zurück. Leider müsst ihr beides für jeden Bahnhof einzeln abrufen. Das bedeutet, wir können uns nicht am Schluss einfach ein Jahr Daten ziehen, sondern wir müssen wirklich über das ganze Jahr hinweg mit ein bisschen Infrastruktur sehr häufig Daten abrufen, die sich überlappen. Solche Szenarios findet man relativ häufig. Das funktioniert dann so, dass man die Downloads einfach erst einmal weg speichert und konkrete Werte auslesen und Duplikate raus sortieren - das passiert dann einfach alles später. Und jetzt machen wir mal eine Nebenrechnung auf. Wir haben sechseinhalbtausend Bahnhöfe in Deutschland. Für jeden müssen wir einzeln beides abrufen, also mal zwei. Und jetzt sagen wir mal, wir machen das alle zehn Minuten für Fahrplan und Änderungen. Das macht dann 6600 mal 2 mal 144. Das sind knapp zwei Millionen Abrufe am Tag. So ein Abruf hat im Durchschnitt 22 KB bei den Veränderungsdaten, ein bisschen weniger bei den Plandaten und wir würden dann so bei 40 Gigabyte XML landen, am Tag. Für das ganze Jahr - ja das parst sich dann auch nicht mehr von alleine. Für das ganze Jahr wären das dann 14 TB in 700 Millionen Requests. Diesen Moment kriegen die Admins der Bahn vermutlich einen Herzanfall. Wenn sie damit fertig sind, dann werden sie in ihre Logs schauen welche Abrufe von mir sind, und dann werden Sie Ihren Anwalt anrufen, um mir eine riesige Rechnung zu schicken. Aber die enttäuschen wir jetzt. Natürlich habe ich das nicht so gemacht. Erstmal hätte ich das speichern und verarbeiten müssen, das viel zu aufwendig. Und zweitens ist eine Sache ganz wichtig, wenn ihr so etwas macht. Ihr müsst den Traffic minimieren, und zwar aus zwei Gründen. Das sind die Punkte 2 und 3. Punkt 2: Handelt verantwortungsvoll. Das bedeutet, dass Ihr bitte nicht so viel Traffic erzeugt, dass ihr die Infrastruktur des Ziels abwürgt oder irgendwie unnötige Kosten verursacht. Das ist jetzt realistischer, als es sich anhört,vielleicht nicht bei der Bahn, aber beispielsweise bei den Justizportalen in Deutschland müsst ihr aufpassen. Die sind erstaunlich schwach auf der Brust... Hab ich gehört. Gelächter und Applaus Meine Lösung dafür: Ich rufe maximal stündlich ab und auch nur die ca. 350 Fernbahnhöfe, das sind dann statt der zwei Millionen sofort nur noch 16 000 Requests am Tag. In der Regel ist das nochmal deutlich geringer, weil man das adaptiv machen kann. Und in diesem Moment kriegen die Admins zwar keinen Herzanfall mehr, aber die sind trotzdem enttäuscht, weil sich dafür keine Rechnung mehr lohnt. Punkt 3: Fliegt unter dem Radar. Sowas soll ja eine Weihnachtsüberraschung bleiben. Da wäre es natürlich schlecht gewesen, wenn die Millionen Abrufe vom Server D. Kriesel kommend irgendwie in ihren Logs stehen haben. Das fällt nämlich irgendwann auf. Und die Lösung hierfür ist Ihr schickt die Abfragen über Tausende Zwischenstationen in der ganzen Welt. In der Fachsprache heißen die "anonyme Proxys". Mit anderen Worten: Wenn ich Massen von Daten runterlade, dann sieht das für das Ziel aus wie so ein Grundrauschen von winzigen Abfragen, die von der ganzen Welt kommen. Viele von euch werden das auch so machen. Niemand sieht mich, aber in Wirklichkeit laufen die Daten dann einfach im Hintergrund auf meinem Server wieder zusammen - sofern ich sie nicht crashe. An dieser Stelle hören, die Admins der Bahn vermutlich auf meine Abfrage in ihren Logs zu suchen. Und ich freue mich, dass sie jetzt wieder voll beim Vortrag dabei sind. Damit ich euch nicht abschrecke, so einen Aufwand müsst ihr nicht bei jedem Datenprojekt treiben. Das war vielleicht ein bisschen Overkill, weil ich das mal ausprobieren wollte mit den Proxys. Punkt 4: Es kann passieren, dass ihr nicht sicher seid, was ihr rechtlich dürft ohne dranzukommen. Die meisten unter uns sind keine Juristen, und manche AGB sind auch einfach mies formuliert. Und wenn ihr nicht sicher seid, was ihr dürft, dann fragt einen Anwalt, der für euch die AGB liest. Es gibt im Internet Portale, wo ihr für schmales Geld Anwälten Fragen stellen könnt, und danach kriegt ihr eine rechtsverbindliche Antwort. Wenn das nicht stimmt, haftet der. Bei mir kam dann leider raus, dass ich bei der Bahn lieber eine schriftliche Genehmigung erfragen sollte. Und das war so ein Moment, wo ich kurz dachte, dass das Projekt vielleicht auf der Kippe steht. Und das wäre schade gewesen, weil ich mir vorab schon ein bisschen Arbeit gemacht hatte. Also lest zuerst die AGB. Und Punkt 5: Habt trotz Hindernissen den Mut, es einfach zu tun. Ich hab dann gepokert und wirklich bei der Bahn nachgefragt, ob ich automatisiert Daten runterladen und darüber zum Beispiel einen kleinen Communityvortrag halten darf. Lachen Applaus Und sie haben es mir genehmigt. Ohne weitere Auflagen. Ohne Auflagen und ob sie wirklich so offen sind oder einfach vergessen haben zu googlen, weiß ich nicht. Aber ganz ehrlich: Das könnte jetzt mal einen Applaus für die Bahn wert sein. Das ist sportlich. Applaus Nicht schlecht. Ich hoffe, die hören zu. Und Punkt 6: Seid fair bei der Auswertung, wenn ihr Daten für ein Jahr habt, zum Beispiel, dann sucht ihr nicht die 4 Monate heraus, wo die Bahn besonders unpünktlich war, damit ihr fiesere Dinge behaupten könnt. Gängiges Mittel. Und das Wichtigste zuletzt - Punkt 7: Guckt, ob ihr euren eigenen Daten vertrauen könnt. Und das ist gar nicht so einfach. Und ich führe das jetzt mal vor. Und dann könnt ihr entscheiden, ob wir meinen Daten vertraut. Und außerdem ist das jetzt unsere Ausrede, dass wir diesen Einschub verlassen und endlich wieder in die Daten reingucken. Am besten schafft Ihr Vertrauen in einen Datensatz, indem ihr eine Analyse komplett nachbaut, die Quelle des Datensatzes, also hier die Bahn, schon mal gemacht hat. Die Bahn gibt auf ihrer Webseite ja pro Monat die Prozentzahl der pünktlichen Stopps an. Und in Ihren Dokumenten steht auch, wie sie das exakt ausrechnen. Und die hab ich einfach genau so nachgebaut und siehe da: Das sieht wirklich fast genauso aus. Die zwei größten Abweichungen sind die folgenden: Im Januar messe ich die Bahn einen halben Prozentpunkt schlechter, als sie ist. Das liegt vermutlich daran, dass ich erst am 8. Januar angefangen habe, Daten aufzunehmen. Und im September 0,8 Prozentpunkte. Das ist da, wo mir ein paar Tage fehlen. Ansonsten scheint bei mir die Bahn sogar generell minimal besser wegzukommen. Exakt die gleichen Werte werdet ihr nie kriegen. Die meisten Abweichungen sind hier um 0,1 Prozentpunkte, aber für eine Messung von außen ist das verdammt akkurat. Wenn eure Werte mit denen des Ziels so übereinstimmen, dann seid ihr auf einem guten Weg. Das heißt externe Verifikation, weil wir etwas Externes zum Vergleichen hatten. Jetzt kommt die interne, das bedeutet, ihr guckt in den Datensatz rein, ob da alles realistisch aussieht - zum Beispiel anhand der Tageszeiten. Jeder Punkt hier ist wieder ein Fernverkehrsbahnhof. Das ist der Tagesbeginn um 0 Uhr vom 9. März diesen Jahres. Ich gehe jetzt die Zeit Stunde für Stunde durch, und dann sehen wir, wie so ein Tag für die Bahn aussieht. Die Bahnhofspunkte schwellen an, wenn in der Stunde mehr Stopps stattgefunden haben. Und die Farbe markiert die Ausfälle: Blau ist wenig, Rot ist viel, dunkelrot entspricht 50 Prozent oder mehr Ausfällen. Und es ist jetzt null Uhr, und man sieht, dass noch einige wenige Züge des Vortages sozusagen unterwegs sind. Die Lumpensammler sozusagen. Und das wird jetzt immer weniger werden, und die Nachtruhe kehrt ein. Die Zeit vergeht. Nachtruhe. Und hier erwacht ein neuer Tag. Jetzt ist so langsam Vollbetrieb, es ist 8 Uhr. Wir sehen hier ein paar punktuelle Ereignisse, die für Ausfälle sorgen. Das sind die roten Flecken, da ist Unwetter oder so passiert. Keine Notizen. Es ist Mittag. Jetzt wird es wieder weniger. Der Tag geht seinem Ende entgegen. Die letzte Stunde des Tages. Ein neuer Tag beginnt: Das ist der zehnte März. Wir sehen wieder die letzten Züge bevor die Nachtruhe beginnt. Alles schläft. Der Tag wird älter, es ist 6 Uhr. Man sieht schon ein bisschen Traffic. Es ist 9 Uhr, wir sind wieder im Vollbetrieb. Es ist Mittag am 10. März, und wir erinnern uns: An dem Tag war ja was. Und hier zeigt der Orkan Eberhard erste Auswirkungen. Hier hat er dann in fast ganz Deutschland den Fernverkehr flachgelegt. Ich musste die Farbskala erweitern, weil man 50 Prozent Ausfälle normal nicht hat. Wir lassen diesen sehr schlechten Tag für die Bahn nun ausklingen. Und hier ist wieder Mitternacht, die Grenze zum Folgetag. Eine Störung in der Größenordnung zieht natürlich noch einige Tage messbarer Verspätungen und Ausfälle nach sich. Wenn man das aufblühte, sieht man das mehrere Tage runtergehen. Die spielen wir jetzt aber nicht alle durch. Aber wir sehen: Nicht immer Ist die Bahn schuld. Wenn ihr die Daten so auf Plausibilität checkt, da nutzt unbedingt gute Visualisierungen, die am besten gleich mehrere Dimensionen abdecken. Hier hatten wir Ausfälle und Ort, das sind zwei Dimensionen und die Anzahl der Stopps und die Zeit nach Stunden. Der beste Apparat zu Mustererkennung, den wir zurzeit haben, das ist nun mal das Gehirn. Und da gibt's nur eine Breitbandleitung hin, und das sind die Augen. Wir werden jetzt noch ein paar größere Auswertungen machen, und als erstes bitte ich euch dafür, in Gedanken die Seiten zu wechseln. Stellt euch vor, ihr gebt keine Analysen raus, sondern ihr lest welche. Und wenn ihr Analysen lest, die andere euch geben, dann ist es immer sehr wichtig zu riechen, worüber die anderen mit euch nicht reden möchten. Und bei Firmen findet man das heraus, indem man deren Kennzahlen genau anguckt. Die Bahn hat zum Beispiel gesagt, sie wollte dieses Jahr 76,5% pünktliche Stopps haben. Daran wollen sie sich messen. Dieser Bericht ist aus dem Januar 2019, und Anfang Dezember 2019 haben sie das Ziel dann kassiert. Es werden nur unter 75% pünktlicher Stopps im Fernverkehr. In meinen Daten sind es im Moment noch knapp über 75%. Aber trotzdem: eigentliches Ziel wird verfehlt. Aber was insgesamt auffällt, ist, dass sich die Bahn zu Ausfällen - ich sagte das schon - ganz komisch ausschweigt. Und jetzt bitte ich mal um Handzeichnungen von Euch. Stellt euch vor, ihr steht am Bahnsteig, und der Zug fällt einfach aus. Ihr steht da mit leerem Blick und der kommt einfach nicht. Und ihr dürft jetzt entscheiden: Ist der pünktlich oder unpünktlich? Wer von euch würde sagen, der ist eher pünktlich? Ich sehe zwei Hände... drei im Saal von 5000 Mann... Okay, ist messbar. Und wer würde sagen, der Zug ist eher unpünktlich? Uiuiui, das sind so ziemlich alle. Und so sehe ich das eigentlich auch. Und jetzt schauen wir mal in die Unterlagen der Bahn dazu. Ihr müsst das nicht lesen, ich lese euch das vor. "Komplettausfälle oder Teilausfälle werden - wie übrigens bei den anderen europäischen Bahnen auch - nicht in Statistiken eingerechnet. Zum einen ist es schwierig, dafür ein sinnvolles mathematisches Modell zu hinterlegen." What? "Welche Pünktlichkeit ordnet man einem Zug zu, wenn er an einer bestimmten Stelle seiner Fahrt ausfällt?" Wir können binär messen, ob drei von acht Stopps pünktlich oder nicht pünktlich sind, aber mit ausgefallen nicht ausgefallen - das geht nicht. Und "zum anderen liegt die sogenannte Erfüllungsquote aller täglich verkehrenden DB-Personenzüge über 99 Prozent im Jahresschnitt sowohl für Fern- als auch für Nahverkehr." Also Punkt 1: Da möchte ich als erstes Mal anmerken, dass ich das in der Sache nicht nachvollziehen kann, weil wir schon gesehen hatten, dass alleine der Fernverkehr eine Ausfallquote von mehr als vier Prozent hat und nicht ein Prozent. Das heißt, wir haben insgesamt 103% Fernverkehr. Aber vielleicht ist die Erfüllungsquote auch etwas anderes, was ich hier nicht verstehe. Keine Ahnung. Aber vor allem: So ein ausgefallener Zug ist, der ist nicht unpünktlich, der fällt einfach komplett aus der Wertung. Die Ausfälle werden statistisch verdeckt, weil man sie angeblich nicht statistisch einbauen kann. Also, liebe Leute, ich mache solche Auswertungen ja auch beruflich, und da habe ich echt schon manche Ausrede zu hören gekriegt. Aber das ist schon krass. Ich nenne sowas den "finalen Rettungsstuss". Lachen Applaus Wenn ihr so etwas erzählt kriegt, dann wisst ihr ganz genau: Ihr habt es gefunden, hier müsst ihr gucken und nicht woanders. Also helfen wir jetzt mit, und wir entwickeln jetzt eine Idee, wie man die Ausfälle doch sinnvoll in die Statistik reinkriegt. Hier sehen wir eine Zugfahrt mit vier Stopps. Die beiden weißen links sind pünktlich, der hellblaue ist unpünktlich, > 6 Minuten, und der rechte in rot ist ganz ausgefallen. Im Moment zählt die Bahn einfach alle Stopps, die nicht ausgefallen sind, und misst davon den Prozentsatz der Pünktlichkeit. Das wären hier zwei von drei - 66 Prozent. Und ich schlage stattdessen vor: Wir zählen alle Stopps, die geplant waren, und messen davon den Prozentsatz, der angekommen ist und pünktlich war. Das wären hier 50%. Nehmt das nicht auf die leichte Schulter - das ist jetzt wirklich große Mathematik. Lachen Bahnbrechend sozusagen. Lachen und Applaus Applaus Und wenn man mit den Ausfällen ehrlich umgeht, dann liegt die Bahn nicht bei den 76,5% Pünktlichkeit, das waren die angekündigten, und auch nicht bei 75%, das ist der aktuelle Wert, sondern bei 72,5%. Und mit jedem Prozent weniger wird es sehr viel unwahrscheinlicher, dass Leute ihre Anschlüsse kriegen. Also unterschätzt das nicht, wenn das nochmal zwei Prozent weniger sind, als sie behaupten oder drei. Das ist knackig. Beim Fernverkehr liegt bei denen einiges im Argen. Damit möchte ich zum wichtigen Thema kommen: Erfolgskriterien in Unternehmen. Wenn ihr als Unternehmen eure Erfolgskriterien schlecht setzt, dann schafft ihr Anreize, die das Unternehmen in eine unerwartete Richtung lenken. Hier haben wir ein Paradebeispiel dafür. Wenn die Bahn einen unpünktlichen Zug einfach spontan ausfallen lässt, dann steht die nach ihrer eigenen Messmethode danach besser da und nicht schlechter, weil die Ausfälle einfach komplett aus der Statistik fliegen. Also müssen wir uns die Frage stellen: Wo genau lohnt es sich für die Bahn am meisten, ein paar Ausfälle zu erzeugen, um damit die Pünktlichkeitsstatistik zu pushen? Lachen Applaus Ihr klatscht ja schon vorher. So kann ich nicht arbeiten. Lachen Die Lösung ist am Ende und am Anfang von Fahrten. Züge fahren nämlich häufig dieselbe Strecke hin und her und der hier fährt los. Bis hier ist alles gut gegangen. Hier hat er dann satt Verspätung angesammelt. Das passiert. An diesem Punkt ist zu erwarten, dass die letzten beiden Halte auch verspätet sein werden. Und auch die ersten beiden halte der Rückfahrt natürlich, also schlecht für die Statistik. Also lassen wir sie doch einfach ausfallen. Blasen wir ab, der Zug schmeißt die Fahrgäste raus, dreht an Ort und Stelle um und ist wieder pünktlich. Und wer an den roten Stopps einsteigen und aussteigen will, der steht halt mit leerem Blick am Gleis. Aber die Verspätungsstatistik verbessert sich, denn die Ausfälle fallen ja einfach unter den Tisch. Aber wie könnte man so etwas messen? Ganz einfach. Publikumseinruf: Hamburg. D: Hackburg? Publikumseinruf: Hamburg. D: Oh ja. Also, ganz einfach: Hier ist wieder eine Zugfahrt mit all ihren Stopps, die unterteilen wir jetzt einfach in drei Klassen - frühe, mittlere und späte Stopps. Die frühen und späten Stopps sind die ersten und letzten drei, hier grau und die mittleren sind der Rest. Und für diese drei Arten Stopps machen wir getrennte Auswertung. Wenn Ausfälle aufgrund technischen Betriebes entstehen, würde man ja erwarten, dass es am Start an einer Fahrt statistisch weniger Ausfälle gibt. Und dann werden das so über die Zeit mehr. Und beim IC ist das auch genaus. Die Ausfälle steigen nach hinten an. Und beim ICE dagegen, fallen die ersten und letzten Stopps häufiger aus. Das passt alles genau. Die scheinen die Dinger einfach hart zu wenden. Ich habe dieses Verhalten auch von zwei unabhängigen Quellen bestätigt bekommen, und das war vor einiger Zeit schon mal irgendwo klein in der Presse. Also ich verrate hier auch keine Staatsgeheimnisse. Und je nachdem, wen man fragt, heißt dieses Vorgehen entweder nach unserem Verkehrsminister die Scheuer- Wende oder aber nach dem Bahnvorstand, die Pofalla-Wende. Das müssen wir jetzt heute Abend beim Bier entscheiden, was ihr jetzt besser findet. Jedenfalls ein weiterer Praxistipp Vorsicht am Anfang und am Ende eines ICE-Zuglaufs. Die fallen gerne mal aus. Bucht die nach Möglichkeit nicht. Aus Gründen der Neutralität, muss ich dazusagen: Die Bahn hat natürlich ein Interesse daran, dass das ganze Netz ungefähr im Plan ist. Also werden die sich denken, dass bei so einem Manöver nicht so viele Passagiere von den Ausfällen betroffen sind, dafür aber im weiteren Verlauf deutlich mehr Passagiere einen pünktlichen Zug kriegen ist. Das ist eben deren Geschäftsentscheidung. Es liegt mir fern, da jetzt von der Seitenlinie ohne tieferes Wissen altkluge Ratschläge zu erteilen. Wir sind hier nicht auf Twitter. Was ich hier kritisiere... Lachen Applaus Und was ich hier kritisieren möchte, ist aber, dass ausschließlich die positive Seite des Manövers danach in der Statistik auftaucht und die negative einfach verschwindet. Das stört. Wir wollen gar nicht wissen, wie viele Leute im Verkehrsministerium denen das abgekauft haben. Wir hatten jetzt schon ein bisschen Praxistipps gesehen, die euch zu Hause beim Buchen vielleicht ein bisschen was bringen. Vorsicht mit bestimmten Bahnhöfen; Vorsicht mit ICEs im Allgemeinen; Vorsicht mit ICEs im Sommer im Speziellen; Vorsicht, wenn Züge schon lange unterwegs waren; Vorsicht, wenn sie 40 Minuten oder mehr verspätet sind und jetzt gerade Vorsicht mit ICEs am Anfang und am Ende der Fahrt wegen der Scheuer-Wenden. Ich könnte jetzt mit euch noch jede Menge Standardkram machen, der sich irgendwie aus den Daten ergibt: Top Ten Bahnhöfe oder Zuglinien nach Verspätungen, Ausfällen und so weiter. Aber das hilft doch nur wenigen, ganz ehrlich. Also machen wir jetzt noch zwei Sachen: Erstens machen wir unsere letzte große Sache mit den Bahndaten, und ich hoffe, dass ihr davon zumindest für ein paar Monate ganz konkret was habt. Danach würde ich mit euch gerne kurz über das ausklingende Jahrzehnt nachdenken. Zuerst die Datensache. Wenn ihr ein Bahnticket kauft, könnt ihr wählen. Mit Spartickets seid ihr an exakt die Züge, die ihr gebucht habt, gebunden. Oder ihr nehmt ein Flexticket, das ist deutlich teurer, aber dafür habt ihr keine Zugbindung. Interessant ist nun folgende Regel: auf den Spartickets, wenn Sie durch Verschulden der DB ihren Anschlusszug nicht erwischen oder allgemein eine Verspätung von mehr als 20 Minuten erwartet werden muss, wird die Zugbindung automatisch aufgehoben. Ich verstehe das so, dass ihr dann eigentlich ein Flex Ticket habt plötzlich. Und dann gucken wir mal auf den Prozentsatz der Stopps, die entweder mehr als 20 Minuten zu spät waren oder aber ausgefallen sind und insgesamt sind das immerhin 12,4%. Und wenn man jetzt diese Stopps erwischt, dann verwandeln die einem vielleicht schon vor Abfahrt ein preiswertes Sparticket in ein Flexticket. Und das wäre doch total cool, wenn man die vorher wissen könnte. Lachen Applaus Bin ich so vorhersehbar? Und komplett vorhersehen geht natürlich nicht. Aber es gibt Züge, bei denen sowas häufiger auftritt und Bahnhöfe, bei denen sowas häufiger auftritt und es gibt auch Wochentage, bei denen sowas häufiger auftritt. Lachen Und hier ist ein Beispiel. Lest mal mit. Das bedeutet beim Intercity 2221 ist an allen Halten bei Mainz Hauptbahnhof an allen Mittwochen dieses Jahr mit 53% Wahrscheinlichkeit die Zugbindung aufgehoben. Also von allen Stopps, die ich dazu erfasst habe, waren 53% entweder mehr als 20 Minuten zu spät oder sind ganz ausgefallen. Und am Freitag das Ganze mit 50 Prozent. Ich muss die Schreibweise so kurz machen und euch das so beibringen, das Lesen, damit ich jetzt gleich platzsparend arbeiten kann. Euch schwant vermutlich schon, was ich jetzt mache. Also, ich habe für euch mal die Kombination aus allen Wochentagen, allen Bahnhöfen und allen Fernzügen durchsucht und habe dann nur die Kombinationen genommen, wo ich mindestens 10 Datenpunkte hatte, damit das einigermaßen fundiert ist. Und für die habe ich gemessen, bei wie viel Prozent die Zugbindung dieses Zuges an diesem Wochentag, an diesem Bahnhof gekillt wurde. Und dann habe ich gesagt: Ich will nur die ganz Fiesen haben, wo das mit mindestens 50 Prozent der Fälle der Fall war. Herausgekommen sind fast 500 Kombinationen aus Wochentagen, Bahnhöfen und Zügen. Hier sind sie. Applaus Also ich würde kein Flexticket für teuer Geld kaufen, wenn ich an einem dieser Bahnhöfe einsteige, aussteigen oder umsteige an dem Wochentag mit diesem Zug. Kauft ein Sparticket. Und für alle, die das jetzt nicht lesen können, ich stelle den Foliensatz wieder irgendwie bei mir auf die Seite, morgen oder so. Beachtet auch, dass die Daten irgendwann ungültig werden. Ihr behaltet den Zug bitte am Fahrtag im Auge. Ich bin nicht schuld, wenn ihr unverhofft doch pünktlich zum Zug eintreten müsst. Lachen Weil die Kiste halt pünktlich ist. Also bitte, bitte behandelt diese Daten, als wären sie mit Xerox-Geräten gescannt. Lachen und Applaus Wenn ihr doch pünktlich da sein müsst, dann ist das ja auch ein gutes Zeichen, weil es nichts anderes bedeutet, als dass die Bahn was verbessert. Verbesserungen passieren nämlich durchaus. Dieses Jahr wurde zum Beispiel die ICE-Trasse zwischen München und Berlin ausgebaut. Da kann man jetzt unter vier Stunden zwischen beiden Städten hin und her fahren, ohne den Zug zu wechseln. Und wenn das rund läuft, ist das echt mal eine Alternative zum Flug. Es ist also nicht alles schlecht. Ich hoffe auch, ich bin bei aller Kritik fair mit der Bahn umgegangen heute. Ich bin jedenfalls, obwohl ich das alles gesehen habe, mit der Bahn zum Congress gefahren und werde das auch auf dem Rückweg machen. Und für heute möchte ich damit die Bahn- Betrachtung abschließen mit den Worten: Seid nett zur Bahn mit ihren Fehlern. Wir haben nur diese eine. Lachen und vereinzelter Applaus Und was bleibt? Applaus Einen habe ich noch. Da kam er [Herald Engel] schon gelaufen. Das hier ist der letzte Vortrag, den ich in diesem Jahrzehnt halten werde. Ich lasse euch jetzt mal ein paar Sekunden in Ruhe und wünsche mir, dass jeder kurz darüber nachdenkt, was für ihn in diesem Jahrzehnt die maßgebliche gesellschaftliche Entwicklung war. Ruhepause zum Nachdenken Glaube hat jeder was. Für mich ist es der Aufstieg der Empörten und damit meine ich ausdrücklich jede politische Richtung. Ich habe in diesem Jahrzehnt tausend Mal an jeder Ecke gehört, wie wichtig heutzutage technische, naturwissenschaftliche und analytische Skills seien angeblich, mit anderen Worten: Rationalität. Und auf der anderen Seite aber reicht das heute im öffentlichen Diskurs als Totschlagsargument, wenn jemand empört ist. Und ich finde das paradox. Das ist das Gegenteil von Rationalität. Man kann nicht beides gleichzeitig propagieren. Und ich möchte anregen, dass wir für das jetzt kommende Jahrzehnt zu einer Kultur finden, in der es ungern gesehen wird, einfach nur alles Mögliche anzuprangern, und in der es ganz umgekehrt bewundert wird, wenn man sich die Datenlage anguckt und sie sich gegenseitig präsentiert mit seinem Kontrahenten und sich dann zusammensetzt. Und wer soll das starten, wenn nicht wir hier. Verlassen wir uns nicht auf die Medien, denn die leben vom Aufruhr. Auch wenn es positive Gegenbeispiele gibt. Verlassen wir uns nicht auf irgendwelche Stars, die leben von Likes und die kriegt man am besten durch Zuspitzung. In der Regel sind die Teil des Problems. Verlassen wir uns nicht auf Politiker, die achten wegen der Shitstorm-Kultur nur noch darauf, bis zur nächsten Wahl nicht anzuecken. Und zu viele von denen haben ohnehin niemals außerhalb der Politik gearbeitet. Was soll da schon kommen? Und das ist der Grund, warum ich das hier mache. Ich versuche, euch zu inspirieren, eure eigenen Analysen zu strittigen Themen anzustellen. Und in meinen letzten Vorträgen, meinen beiden hier, habt ihr ein paar Instinkte davon bekommen, wie das geht, und ich hoffe, ich habe euch bewiesen, dass das absolut keine Raketenwissenschaft ist. Vereinzelter Applaus Und ich frage nochmal: Wer soll das machen, wenn nicht wir hier? Wenn wir es gemeinsam schaffen, dass wenigstens manche, die heute echt nichts Besseres zu tun haben, als sich im Internet zu empören im nächsten Jahrzehnt zur engagierten Analyse übergehen und dabei auch anerkennen, wenn was herauskommt, dass sie vorher nicht gedacht hätten, dann haben wir gesellschaftlich unglaublich viel gewonnen. Und heute Abend stehe ich hier in einem Saal mit 5000 Leuten, voll belegt. Da sitzen Sie noch neben der Tribüne, die sich mit 5000 Leuten, die sich am Samstagabend zwischen Weihnachten und Silvester hier hinsetzen. Also da, wo die allermeisten Menschen einfach gar nichts tun und sich die Flasche Wein an den Hals anschließen. Lachen Und warum tun die 5000 Leute das? Um einen Statistik Vortrag zu hören. Lachen Das gibt mir Hoffnung. Ich werde glücklich heimfahren. Da kann die Bahn mit mir machen, was sie will. Und ich bedanke mich, dass ihr hier wart, und wünsche euch ein schönes neues Jahrzehnt. Großer, tosender Applaus Standing Ovation Applaus Jetzt stehen sie wieder auf... Applaus Danke schön. Applaus Vielen lieben Dank. Herald 1: Wow. Auch von mir nochmal herzlichen Dank. Super Vortrag wie immer, super lustig. Dankeschön David, dass du das immer wieder machst, echt schön. Wir haben noch ein bisschen Zeit für Fragen. Bitte an die Mikrofone. Es gibt 4, 5 Stück, glaube ich, hier im Saal, wenn ihr Fragen habt. Wir fangen mal mit Mikrofon 1 an. Frage: Du hast ja damit angefangen, dass du der Fairness halber die Pünktlichkeitsdefinition der Bahn von 6 Minuten, höchstens, gesetzt hast. Hast du aus purer Neugier mal Sachen durchgerechnet mit Pünktlichkeitsdefinitionen, die irgendwie sinnvoller anfühlen? Müssen ja nicht gleich die 30 Sekunden aus Japan sein. D: Ja, da kann man sich streiten, welchen Wert man setzt. F: Hast du und welche? D: Ja, habe ich. Das sieht dann so aus, als wenn man das eng zieht, am Schluss natürlich alle Züge verspätet sind. Jeder hat mal irgendwie eine Minute. Was ich gemacht habe, war: Ich habe mal eine Reibungslos-Metrik gesetzt. Reibungslos, habe ich gesagt, das ist alles, was maximal 3 Minuten zu spät ist, nicht ausgefallen und keinen Gleiswechsel, weil das geht mir immer unglaublich auf die Nerven, wenn ich dann mit Koffer einmal hoch und runter... Und das waren dann irgendwie 60%. Aber nagele mich jetzt darauf nicht fest. Ich habe es jetzt nicht im Kopf, aber es waren deutlich weniger. Ich glaube, es war bei 60% oder so, diese Pünktlichkeit. F: Danke. Herald 1: Ich weiß jetzt nicht, welches Mikro Erster war. Wir fragen mal den Signal Angel, der hat eine Frage. Signal Angel: Also der Stream schließt sich den Standing Ovations an. D: Danke schön! Signal: Und es gab viele Leute, die darauf hingewiesen haben, dass für ausgefallene Züge oft Ersatzfahrten bereitgestellt werden. D: Ja. Signal: Die das dann teilweise kompensieren. Wie taucht das bei dir in der Statistik auf? D: Das taucht bei mir gar nicht auf. Deswegen war ich mir auch nicht komplett sicher. Deswegen habe ich das auch gesagt. Wenn die komplett neue Fahrt haben die irgendwie gar nicht im Plan aufgetaucht waren, dann werde ich die vermutlich nicht drin haben. Wenn die Fahrten in irgendeiner Form in den Plandaten drinnen waren, habe ich die aber drin. Deswegen kann ich es nicht genau sagen. Ich weiß jedenfalls, dass die Kollegen beim SPIEGEL eine ähnliche Analyse neulich hatten auf einem kleineren Datensatz. Und da war das auch jenseits der 4% Ausfallquote. Wenn es falsch ist, stimmt das zumindest überein. Es kann sein, dass sie drin sind. Ich bin mir nicht völlig sicher. Herald 1: Danke, Mikrofon 5 bitte mit einer Frage. F: Vielen dank für diesen sehr interessanten Vortrag. Es war bestimmt auch super viel Aufwand, das alles zu analysieren und nach den Standing Ovations traue ich mich ja auch fast gar nicht, eine kritische Frage zu stellen. D: Bitte! F: Aber Sie hatten ja ziemlich an den Anfangsslides bei den Bahnhöfen, die den Zügen Verspätungen hinzufügen oder wo die Züge vielleicht Verspätung aufholen. Aber ist es nicht viel eher so, dass die Strecken zwischen den Bahnhöfen dazu führen, dass die Züge Verspätung bekommen und nicht die Bahnhöfe selber? Und wäre das dann nicht auch für die Bahn interessant zu schauen, zwischen welchen Bahnhöfen kriegen die Züge am meisten Verspätung? D: Also das ist eine exakt sehr geile Frage. Weil diese Auswertung war in der Tat ein bisschen tricky, genau aus dem Grund. Vielleicht ist der Bahnhof Frankfurt die Verspätung gar nicht schuld, sondern die Gleise beim Rein- und Rausfahren zum Beispiel. Deswegen messe ich die Verspätungsänderung von dem Streckensegment vor dem Bahnhof und dem Streckensegment nach dem Bahnhof. Und der jeweilige Bahnhof kriegt man den Durchschnitt, damit ich genau von diesem Effekt geheilt werde. Dann habe ich einen sehr guten Durchschnittswert. Und wer halt immer was dazufügt im Schnitt, der wird auch selber was dazu beitragen. Oder beide Streckenstreckensegmente dahin sind schlecht, also immer. Dann ist das auch für mich ein Bahnhofsproblem. Also genau genommen, was ich hier analysiere ist dann des Problem des Bahnhofs und der näheren Umgebung darum herum. Danke für diese Frage. F: Vielen Dank für die Antwort. Applaus D: Da hab ich mir nämlich lange Gedanken gemacht, ob ich da jetzt einfach immer nur die Änderung der Verspätung nehme, aber das hätte ich mir selbst als Statistik zerrissen, wenn ich da einen bei erwischt hätte. Aber deswegen perfekt, dass es aufgefallen ist. Sehr gut. Herald 1: Wir haben nur gute Menschen hier, sehr schön. lacht Wir nehmen Mikrofon 3, wechseln mal die Seite bitte. D: Ich muss immer ein bisschen suchen. Bitte entschuldigt, wenn ich euch nicht sehe. Da hinten ist er. F: Du hattest am Anfang angeprangert oder in der Mitte angeprangert, dass die Ausfälle nicht zu Verspätungen zählen. Und hattest aber am Anfang diese Slide, wo der Berliner Flughafen immer ausfällt. Und es gibt ja vielleicht auch andere Bahnhöfe, die umgebaut werden oder wo eben in Anführungszeichen planmäßig ausfallen. Hast du die irgendwie rausgerechnet oder wie läuft das? D: Nach meiner Information sind die Stopps dann gar nicht im Plan. F: Ah, okay. D: Das sieht so aus: Ihr habt die Plandaten mit den Stopps und dann habt ihr die Änderungen. Und da ist dann, wenn da was ausfällt, dann ist da eine Cancelation Time drin, nämlich der Zeitpunkt des Ausfalls. Da kann man auch noch schöne Auswertungen mit machen. Ausfälle mit kurzer Vorlaufzeit und so weiter. Das würde dann in den Daten nach meiner Kenntnis anders aussehen, wobei ich das auch nur reverse engineere. Die dokumentieren nicht alles. Ich weiß nicht, wer von euch vorhin in dem Bahn-API- Vortrag drin war. Aber man muss sehr viel reverse engineeren, wenn man das macht. Also auch das mit einem Körnchen Salz. Herald: Danke, wir nehmen Mikrofon 2. F: Ich bin auch Bahnfahrer, aber nach meiner Erfahrung ist der Regionalverkehr viel häufiger verspätet als der Fernverkehr und deshalb die Frage: Wann gibt's die Analyse für den Nahverkehr? D: Wo kommst du denn her? F: Ich lebe südlich von Stuttgart. D: Südlich von Stuttgart. Also ich hab die Nahverkehrsbahnhöfe nicht runtergeladen. Was ich aber hab (einfach weil sonst die Requests wären explodiert), aber was ich hab, ist natürlich sämtlicher Nahverkehr, der über alle Fernbahnhöfe gefahren ist, und die sind strategisch gut verteilt, sodass sich da in der Tat auch für den Nahverkehr was sehen kann. Vielleicht mache ich mal eine Pünktlichkeit von dem nahen Verkehr, der in den Fernverkehrs Bahnhöfen vorbeigefahren ist. Weil das habe ich; dann muss ich mal als Tabelle auf meine Webseite stellen. Oder so einfach. Dann kannst du gucken. Applaus Herald 1: Wir haben noch ein kleines bisschen Zeit, Mikrofon 6 nochmal, die andere Seite. F: Vielen Dank nochmal für den Vortrag. Aus München kommend haben wir eine chronisch schlechte S-Bahn, und ich habe mich auch gefragt: Ist den der Regionalverkehr noch einmal unterschiedlich zum Nahverkehr? Oder ist einfach die Münchner S-Bahn dauernd zu spät und im Rest von Deutschland ist gut? D: Die fährt ja über eure großen Bahnhöfe, habt ja zwei oder drei richtig dicke, ne? München Ost, München und noch irgendeinen. F: Ja. D: Dann hab ich die drinnen. Kann ich mal gucken. Würde dann auch in der Frage auftauchen, ob die da über 90%; Diese über 90% Pünktlichkeit im Regionalverkehr sind für Bahn und Subunternehmen vermutlich. Ich muss mal gucken, aber die anderen hab ich ja drin. Zur Not als Dirttunternehmen. Vielleicht beziehe ich die einfach mal mit ein in die regionale Analyse. Das könnte interessant sein, wenn ich dafür irgendwann Zeit habe. Erwartet das jetzt nicht morgen früh. F: Danke. Harald 1: Super, wir nehmen euch beide hier, Mikrofon 4 zuerst. F: Auf den Slides 80 und 84 war dargestellt, wie die Bahn die Teilausfälle rausrechnet, aus der Statistik. Aber müssten nicht die gesamten Züge herausgerechnet werden aus der Statistik? D: Ähm. F: Die Verspätung akkumuliert sich ja natürlich und dann wäre die Statistik ja dementsprechend besser. D: Jetzt hab ich mein PowerPoint abgeschossen. Leises lachen Nö, wieso müsstest du die ganze Züge herausrechnen? Das verstehe ich nicht. Es kommt ja. Es ist ja schön granular für Stopps zu rechnen. Angenommen, das ganze System würde so funktionieren, dass alle Züge auf der Hälfte Ihrer Stopps pünktlich sind, und auf der anderen Hälfte unpünktlich. Dann wäre das doch halb pünktlich. Ich sehe nicht, warum. Wir arbeiten ja feiner als auf Granularität von Zügen. Das ist doch besser? F: Aber es werden ja Teilausfälle auch rausgerechnet. Ist es dann wirklich nur der ausgefallene Stopp? D: Nee, soweit ich weiß, ist da wirklich nur der ausgefallene Stopp, ja. F: Ok, gut. Danke. Harald 1: So, dann noch Mikrophon 1. F: Vielen Dank nochmal für den Talk. Meine Frage geht in die Richtung: "Perverse incentive", sprich die Kennzahlen, an denen sich die Bahn messen lässt. Hat sie sehr darauf hingewiesen, dass die Ausfallrate da vielleicht nicht so; Also gut sein könnte wenn.., D: Ja, wäre schön, wenn sie drin wäre. F: Ja, genau, wenn sie mit drin wäre. Eine andere Sache die da reinspielt: Wie hoch die Ziele sind, die sich die Bahn setzt. Hast du in deinen Daten welche? D: Das geht durch die Presse. F: Ich meine Ziele im Sinne von: Wie schnell denn eine Strecke zu befahren ist? Man könnte ja die Züge pünktlicher machen dadurch, dass man nach jedem Zug eine Stunde mehr Zeit gibt, dieselbe Strecke zu fahren. D: Du meinst die Taktung? F: Ja. D: Nee, die habe ich nicht. Die ist aber bei der Bahn relativ eng, im Vergleich zu Flugzeugen - habe ich mir sagen lassen von kundigen Personen - weswegen die Flugzeuge auch häufiger pünktlich sind; oder ungefähr pünktlich. Aber bei der Bahn ist alles sehr eng getaktet, und vor allem sind die Sachen interdependent. Wenn einer auf der Strecke liegen bleibt, halten alle dahinter halt auch ein Problem. Das beides in Kombination sorgt für die Fragilität, die wir sehen. F: Hast du vor, die Analyse in weiteren Jahren fortzuführen, um dann da vielleicht die Richtung etwas zu sehen? D: Ich bin mir nicht sicher. Zum einen habe ich wie alle anderen auch, Arbeit und Familie, und zweitens ist die infrastrukturell sehr aufwendig. Ein bisschen mache ich das sicher noch weiter, und dann gucke ich, habe ich noch rauskriege. Aber ich kann nichts versprechen. F: Letzter Nachschub: sind deine Daten von... also kriegt man die von dir? D: Denke ich nicht, weil ich das nicht darf. F: Ah. D: Am Ende hat die Bahn dafür das Copyright. Viel mehr Copyright-Verstoß ginge gar nicht, als wenn ich das ganze Ding nehme und euch einfach rauskopiere. Aber: sucht bei der Bahn die Timetable API. Und dann ladet ihr das einfach runter. Es geht, das ist keine Raketenwissenschaft. F: Danke. D: Gut. Harald 1: Super. Nochmal einen riesengroßen Applaus, an David. Herzlichen Dank. Applaus Abspannmusk