< Return to Video

36C3 - BahnMining - Pünktlichkeit ist eine Zier

  • 0:00 - 0:19
    36C3 Vorspannmusik
  • 0:19 - 0:23
    Herald 1: Ok. Spaß beiseite! Der nun
    folgende Zug is schon ganz schön lange
  • 0:23 - 0:27
    unterwegs. Beim 33C3, da fuhr er mit Xerox
    ab.
  • 0:27 - 0:33
    Herald 2: Beim 33C3 hat er dann SPIEGEL
    einmal gedataminet und hat geguckt. Was ist denn
  • 0:33 - 0:38
    dort? SpiegelOnline! Und hat uns wirklich
    eine total perfekte Datenanalyse zu dem
  • 0:38 - 0:42
    Thema gemacht?
    Herald 1: Und beim 36C3 geht's mit dieser
  • 0:42 - 0:46
    Zugfahrt weiter. Bitte begrüßt mit 'nem
    ries'n Applaus David Kriesel.
  • 0:46 - 0:50
    Applaus
    Herald 2: Applaus! Applaus! Applaus!
  • 0:50 - 0:53
    Applaus
    Herald 1: Viel Spaß!
  • 0:53 - 0:57
    Applaus
  • 0:57 - 1:03
    David Kriesel: Also ich glaub: So geil bin
    ich noch nie niemals eingeleitet worden.
  • 1:03 - 1:07
    Lachen
    D: Hm! Herzlich willkommen euch allen
  • 1:07 - 1:13
    hier! Auch Herzlich willkommen an die
    Leute im Stream - an die Aluhüte im
  • 1:13 - 1:18
    Besonderen. Die Aluhüte glühen aber leider
    noch nicht. Vielleicht kriegen wir das im
  • 1:18 - 1:22
    Verlaufe dieses Vortrages noch hin. Mein
    Name ist David Kriesel. Ich bin
  • 1:22 - 1:27
    Informatiker aus der Nähe von Bonn. Im
    richtigen Leben ist es mein Beruf
  • 1:27 - 1:33
    interessante Sachen in größeren
    Datenmengen zu finden. Neudeutsch heißt
  • 1:33 - 1:38
    das Data Scientist. Und zusätzlich zum
    Beruf habe ich verschiedene Projekte und
  • 1:38 - 1:43
    manchmal nehme ich mir eines davon raus
    und halte hier einen Vortrag. Ich bin
  • 1:43 - 1:48
    Rheinländer und bei uns sagt man Ab
    zweimal ist es Tradition und beim dritten
  • 1:48 - 1:52
    Mal ist es Brauchtum. Ich bin jetzt das
    dritte Mal hier. Das ist schon voll
  • 1:52 - 1:58
    Brauchtum und ich freue mich, dass es so
    oft geklappt hat. Unsere Geschichte heute
  • 1:58 - 2:06
    beginnt im Jahr 2018. Am Ende des Jahres
    2018 hat nämlich die Bahn gesagt, rund 75
  • 2:06 - 2:12
    Prozent ihrer Fernzüge seien pünktlich
    gewesen. Dafür muss man erst mal wissen:
  • 2:12 - 2:17
    Was ist denn pünktlich? Die Bahn errechnet
    das folgendermaßen: Die sagen: Wenn ein
  • 2:17 - 2:24
    Zug bei einem Stopp weniger als sechs
    Minuten zu spät ankommt, dann ist er
  • 2:24 - 2:28
    pünktlich. Das ist wirklich die
    Definition, und wir übernehmen das
  • 2:28 - 2:33
    einfach. Da müssen wir dann nicht handeln.
    Und dann errechnen Sie den Prozentsatz
  • 2:33 - 2:39
    aller Stopps, bei denen das der Fall ist.
    Und das wären bei knapp 75 Prozent in 2018
  • 2:39 - 2:44
    so der Fall gewesen. Und das hat mich in
    meiner persönlichen Erfahrung irgendwie
  • 2:44 - 2:53
    gestört. In den letzten Jahren bin ich
    quer durch Deutschland gereist, davon
  • 2:53 - 2:58
    relativ häufig mit der Bahn. Und dann habe
    ich meine Mailbox geguckt, und für mehr
  • 2:58 - 3:03
    als die Hälfte meiner Fahrten habe ich
    diese E-Mail von verspätungsalarm@bahn.de.
  • 3:03 - 3:10
    Und da dachte ich Ich bin wohl dieser eine
    Typ - ja - der aufpassen muss, nicht vom
  • 3:10 - 3:17
    Blitz getroffen zu werden, während er den
    Sechser im Lotto abholt. Ja? Ich wollte
  • 3:17 - 3:21
    das dann genauer wissen. Also habe ich mal
    in die Statistiken geguckt, die auf der
  • 3:21 - 3:25
    Webseite der Bahn sind. Dann habe ich
    gesehen: Das sind kaum welche. Die Bahn
  • 3:25 - 3:31
    bietet auf ihrer Webseite nur die Prozent
    der pünktlichen Stopps pro Monat an. Fürs
  • 3:31 - 3:37
    Gesamtnetz, bundesweit nochmal getrennt im
    Nah und Fernverkehr und das ist
  • 3:37 - 3:39
    zusammengefasst. Damit kann man nichts
    anfangen. Man kann dann nicht nach
  • 3:39 - 3:43
    bestimmten Verbindungen filtern. Man kann
    aber nicht gucken, bei welchen Bahnhöfen
  • 3:43 - 3:47
    die Performance besonders schlecht ist
    oder gut ist und alles, was interessant
  • 3:47 - 3:51
    ist oder was ich interessant fand, das
    geht nicht. Also habe ich am 8. Januar
  • 3:51 - 3:54
    begonnen, die Deutsche Bahn zu
    vorratsdatenspeichern.
  • 3:54 - 4:09
    Lachen & Applaus
    In diesem Datensatz gucken wir heute rein
  • 4:09 - 4:12
    und wir werten das auch nicht nur aus,
    sondern ich werde auch ein bisschen Zeit
  • 4:12 - 4:15
    darauf verwenden, euch grob zu erklären,
    wie man so ein Datenprojekt angeht und
  • 4:15 - 4:19
    worauf man achten muss und wie man vor
    allem merkt, ob man Vertrauen in die Daten
  • 4:19 - 4:24
    haben kann. Das muss ja nicht sein, dass
    alles stimmt, was man so herunterlädt, und
  • 4:24 - 4:27
    über den ganzen Vortrag hinweg geb ich
    euch immer so ein paar... - Wie nenne ich
  • 4:27 - 4:32
    das? - Praxistipps, die ihr mit nach Hause
    nehmen und an die ihr denken könnt, wenn
  • 4:32 - 4:37
    ihr eine Bahnfahrt bucht. Disclaimer
    Vorweg: Ich habe mit der Bahn nicht über
  • 4:37 - 4:41
    die Auswertungen gesprochen. Behaltet im
    Hinterkopf: Am Ende ist das ein kleines
  • 4:41 - 4:45
    Hauptprojekt, und es kann durchaus sein,
    dass ich Fehler gemacht habe. Aber da wir
  • 4:45 - 4:48
    auch noch über die Vertrauenswürdigkeit
    der Daten reden, könnt ihr selbst
  • 4:48 - 4:52
    entscheiden, ob ihr meinen Daten vertraut
    oder nicht. Wir kucken uns jetzt endlich
  • 4:52 - 4:57
    mal an, wie die Daten aussehen. Hier sehen
    wir eine fiktive Fahrt eines ICE. Ich gebe
  • 4:57 - 5:04
    euch mal kurz fünf Sekunden für den ersten
    Überblick und danach erkläre ich die. Drei
  • 5:04 - 5:11
    Sekunden reichen auch. So! Der ICE fährt
    in München los und jede weitere Zeile ist
  • 5:11 - 5:17
    ein Stopp und irgendwann ist er am Ziel
    angekommen. Hier: Bergen auf Rügen. Eine
  • 5:17 - 5:22
    Fahrt ist die Sequenz aller Stopps, die
    der Zug von Anfang bis Ende macht. Danach
  • 5:22 - 5:26
    ist das eine neue Fahrt. Hier sind die
    Verspätungen pro Stopp. Der Zug ist mit
  • 5:26 - 5:30
    sechs Minuten Verspätung abgefahren und
    nach der Messmethode der Bahn wäre der
  • 5:30 - 5:34
    gerade als verspätet zu werten - an diesem
    Stopp. Und dann schwanken die
  • 5:34 - 5:40
    Verspätungen. In Erfurt sind wir auch mal
    sechs Minuten zu früh dran gewesen. Die
  • 5:40 - 5:44
    Verspätung ist negativ. Das passiert. In
    der Regel heißt das übrigens, dass der Zug
  • 5:44 - 5:48
    dann einfach länger bleibt und nicht zu
    früh wieder abfährt. Am Berliner
  • 5:48 - 5:54
    Flughafen; der Stopp fällt aus. In 20
    Jahren werde ich diese Witze immer noch
  • 5:54 - 6:02
    machen können.
    Lachen & Applaus
  • 6:02 - 6:08
    Und diese Stopps aller Fahrten sind die
    Grundlage unserer Daten, meine Tabelle hat
  • 6:08 - 6:13
    25 Millionen Zeilen. Das sind 25 Millionen
    Stopps von irgendwelchen Zügen. Das sind
  • 6:13 - 6:18
    alle Stopps im Fernverkehr vom 8. Januar
    bis jetzt. Und auch der Nahverkehr, aber
  • 6:18 - 6:22
    der nur an den Fernbahnhöfen. Komme ich gleich
    noch zu. Und die Tabelle hat auch
  • 6:22 - 6:27
    verschiedenste Spalten - die, die ich hier
    vorführe und noch einige mehr. Wir können
  • 6:27 - 6:30
    in einzelne Orte reingucken, in einzelne
    Fahrten reingucken, in Zeiträume
  • 6:30 - 6:33
    reingucken. Wir können auch kompliziertere
    Auswertungen fahren. Machen wir auch heute
  • 6:33 - 6:37
    noch. Zum Anfang, machen wir mal ein paar
    ganz einfache Sachen mit den Daten. Das
  • 6:37 - 6:41
    ist nicht, um euch zu langweilen, aber wir
    müssen ja erst mal reinkommen, den
  • 6:41 - 6:44
    Datensatz kennenlernen und so weiter. Wir
    sortieren jetzt die ganze Tabelle von
  • 6:44 - 6:48
    Stopps, 25 Millionen Stück, mal nach
    Bahnhöfen und dann ermitteln wir die
  • 6:48 - 6:55
    Anzahl der Stopps für jeden Bahnhof über
    das ganze Jahr hinweg. Jeder Bubble hier
  • 6:55 - 7:00
    ist ein Bahnhof mit Fernverkehr und davon
    haben wir um die 350 Stück. Das sind die
  • 7:00 - 7:04
    wichtigen. Und die Größe der Bubble gibt
    die Anzahl der erfassten Halte für den
  • 7:04 - 7:08
    Bahnhof wieder, und zwar für alles, was da
    fährt: Fern- und Nahverkehr. Und der
  • 7:08 - 7:13
    Größte, was das angeht, ist Köln
    Hauptbahnhof mit im Moment 380 000 Stopps
  • 7:13 - 7:18
    in der Datenbank. Ich habe die Top 6 mal
    in der Karte beschriftet. Warum genau die
  • 7:18 - 7:23
    Top 6? Weil der sechste Bahnhof genau
    Hamburg Dammtor ist und das wollte ich
  • 7:23 - 7:27
    euch nicht vorenthalten. Das war unser
    letzter Congress-Bahnhof. Der Bahnhof
  • 7:27 - 7:31
    Leipzig Messe ist übrigens deutlich,
    deutlich kleiner. Inklusive Nahverkehr
  • 7:31 - 7:34
    haben wir hier so 60.000 Stopps im Jahr
    und überhaupt nur ein paar hundert
  • 7:34 - 7:38
    Fernverkehr. Wo wir schon dabei sind,
    machen wir jetzt was aus Kundensicht
  • 7:38 - 7:45
    Interessantes und färben mal die Bahnhöfe
    ein. Und zwar nach der Pünktlichkeit, nach
  • 7:45 - 7:50
    dem Prozentsatz der Pünktlichkeit, der
    dortigen Stopps im Fernverkehr. Das ist
  • 7:50 - 7:56
    die Pünktlichkeit. Knallrot ist 60
    Prozent, knallblau ist 90 Prozent und
  • 7:56 - 8:01
    dazwischen farblos. Das ist ungefähr der
    Durchschnitt bei 75. Als erstes sieht man
  • 8:01 - 8:11
    In Ostdeutschland ist quasi alles blau.
    Applaus
  • 8:11 - 8:16
    Ich bin sicher, das sind diese blühenden
    Landschaften, von denen Altkanzler Kohl
  • 8:16 - 8:22
    immer sprach. In Nordrhein-Westfalen ist
    so ziemlich alles rot. Köln hat nur so 66
  • 8:22 - 8:27
    Prozent Pünktlichkeit. Bonn ist wirklich
    eines der Schlusslichter mit 59 Prozent.
  • 8:27 - 8:30
    Das sind die beiden Bahnhöfe, über die ich oft
    fahre.
  • 8:30 - 8:34
    Lachen
    Generell. Der ganze dicht besiedelte Raum
  • 8:34 - 8:38
    in Nordrhein-Westfalen ist ziemlich
    schlimm dran. Und ich habe euch ja gesagt,
  • 8:38 - 8:41
    dass ich das ganze Projekt überhaupt erst
    gestartet habe, weil ich dachte, die
  • 8:41 - 8:45
    Statistik der Bahn wäre falsch, weil meine
    Züge so häufig unpünktlich sind. Die
  • 8:45 - 8:52
    simple Wahrheit ist, ich wohne nur
    schlecht. Hamburg, oben, ist auch schlimm.
  • 8:52 - 8:58
    Das finde ich auch gerecht. Warum soll ich
    der Einzige sein? Irgendwo bei 60 Prozent,
  • 8:58 - 9:01
    je nachdem, welchen Bahnhof man erwischt.
    Das sieht da jetzt röter aus, als es ist,
  • 9:01 - 9:05
    weil die Dinger transparent sind. Und was
    die Pünktlichkeit angeht, haben wir uns
  • 9:05 - 9:10
    mit Leipzig Messe definitiv verbessert.
    Wir sind hier so bei 80 Prozent oder etwas
  • 9:10 - 9:15
    mehr. Ganz wichtig: Ich zeige ab jetzt
    jetzt überall, wo es nicht anders dran
  • 9:15 - 9:18
    steht, nur noch den Fernverkehr an.
    Überhaupt wird der ganze Vortrag primär
  • 9:18 - 9:25
    über den Fernverkehr gehen, weil über das
    wird meistens berichtet in den Medien und
  • 9:25 - 9:27
    auch darüber gemeckert. Und der
    Fernverkehr ist das, worüber alle reden.
  • 9:27 - 9:31
    Aber wenn ich sage, dass ich hier primär
    über den Fernverkehr heute rede, dann muss
  • 9:31 - 9:37
    ich auch fair sein und das Folgende sagen:
    Der Nahverkehr, den wir jetzt auslassen,
  • 9:37 - 9:41
    erreicht fast flächendeckend
    Pünktlichkeitswerte von besser als 90
  • 9:41 - 9:44
    Prozent. Behaltet das bitte über den Rest
    des Vortrages im Hinterkopf. Die Bahn hat
  • 9:44 - 9:49
    auch gute Seiten und bringt gerade im
    Nahverkehr eine ziemliche Menge Leute
  • 9:49 - 9:53
    jeden Tag zu ihrem Job. Da geht sicher
    auch mal was schief, aber deutlich weniger
  • 9:53 - 9:56
    als im Fernverkehr.
    Applaus
  • 9:56 - 10:03
    Ich hoffe, die Leute von der Bahn hören zu
    und hören das jetzt gerade. Wir ändern
  • 10:03 - 10:06
    jetz nochmal die Ansicht, die
    Pünktlichkeit pro Bahnhof waren ja
  • 10:06 - 10:10
    interessant für den Kunden. Aber wenn man
    ein bisschen analytisch was machen will
  • 10:10 - 10:15
    und bei der Bahn arbeitet, dann ist da das
    Interessante. Welche Bahnhöfe richtig viel
  • 10:15 - 10:20
    Verspätung generieren, also dem Netz
    hinzufügen, und das ist die Ansicht. Ganz
  • 10:20 - 10:25
    schlimm sind große Bahnhöfe mit vielen
    Stopps, die gleichzeitig jedem Zug, der da
  • 10:25 - 10:29
    anhält noch so ein bisschen Verspätung mit
    auf den Weg geben. Die fünf schlimmsten
  • 10:29 - 10:37
    sind Hamburg, Köln, Frankfurt Flughafen,
    Mannheim. Die sind alle mit mehr als
  • 10:37 - 10:42
    50.000 hinzugefügten Verspätungsminuten im
    Messzeitraum. Spitzenreiter ist Frankfurt
  • 10:42 - 10:47
    Hauptbahnhof mit 93.000 generierten
    Verspätungsminuten. Ich höre, wir haben
  • 10:47 - 10:50
    eine Frankfurtfraktion, wie seid ihr
    hergekommen? Lachen
  • 10:50 - 10:53
    Publikumseinrufe: Zu spät! Auto!
  • 10:53 - 10:57
    D: Die sind heute erst angekommen. Ich hoffe
  • 10:57 - 11:03
    ihr habt euch nicht gehetzt! Zweiter Tag
    abends. Es gibt aber auch Bahnhöfe
  • 11:03 - 11:07
    funktionieren so gut, dass sie insgesamt
    Verspätungen aus dem Netz rausnehmen. Die
  • 11:07 - 11:11
    Top drei sind Bremen, Berlin Hauptbahnhof
    und Berlin Spandau.
  • 11:11 - 11:19
    Applaus
    Das hat mich sehr kalt erwischt. das mir
  • 11:19 - 11:25
    völlig unverhofft ein Nachweis dieser
    Größenordnung gelungen ist: Es gibt
  • 11:25 - 11:30
    tatsächlich etwas an Berlin, das
    funktioniert. Lachen
  • 11:30 - 11:37
    Wir machen weiter - sonst artet das aus. Hier seht ihr im
  • 11:37 - 11:40
    Vergleich, wie viele Fahrten es im
    Nahverkehr, Fernverkehr und von
  • 11:40 - 11:44
    Drittanbietern gibt. Wir ihr seht, ist das
    weitaus meiste der Nahverkehr - hier
  • 11:44 - 11:48
    orange. Hier sind mehr als fünf Millionen
    Fahrten im Datensatz. Dagegen gibt es nur
  • 11:48 - 11:52
    circa eine Viertelmillion Fahrten im
    Fernverkehr - der ist hier blau - und es
  • 11:52 - 11:56
    gibt noch ziemlich viele Fahrten von
    Drittanbietern. Wir dröseln das mal in
  • 11:56 - 12:00
    einzelne Zugfahrten auf, einfach, damit
    wir sehen, was es gibt, bevor wir richtig
  • 12:00 - 12:04
    einsteigen. Wir sehen jetzt, dass sich der
    Nahverkehr aufspaltet, in die drei
  • 12:04 - 12:10
    dicksten Bubble: Regionalbahnen
    Regionalexpress, S-Bahn. Und der
  • 12:10 - 12:16
    Fernverkehr in ICE, Intercity, das ist IC
    und Eurocity, EC. Die Abkürzungen verwende
  • 12:16 - 12:20
    ich auch im Folgenden. Diese
    vergleichsweise kleinen blauen Punkte, das
  • 12:20 - 12:24
    sind die eigentlich interessanten Zugarten
    für heute. Das sind nämlich die Züge, die
  • 12:24 - 12:28
    quer durch Deutschland fahren. Da kann man
    richtig was sehen. Jetzt gehen wir einen
  • 12:28 - 12:32
    Schritt weiter. Wir nehmen diese für uns
    relevanten Zugarten her - also ICE,
  • 12:32 - 12:38
    Intercity, Eurocity - und dann schauen wir
    einfach mal, welche Zugart generell am
  • 12:38 - 12:44
    spätesten dran ist, damit man gleich weiß,
    wo man ausweichen muss. Ich wiederhole
  • 12:44 - 12:47
    nochmals, wie die Bahn das misst.
    Prozentzahl der Stopps, die maximal sechs
  • 12:47 - 12:52
    Minuten zu spät sind, sind pünktlich. Im
    Fernverkehr am pünktlichsten sind die
  • 12:52 - 12:58
    Intercity, mit gut 76 Prozent. Dicht
    danach folgen die ICE. Deutlich dahinter
  • 12:58 - 13:02
    die Eurocity. Davon sind nicht mal 70
    Prozent nach der Bahn-Definition
  • 13:02 - 13:06
    pünktlich. Da muss ich sagen, das kann ich
    in der Tat aus persönlicher Erfahrung
  • 13:06 - 13:10
    bestätigen. Nach meinem Eindruck ist die
    Qualität von den Teilen einfach schlechter
  • 13:10 - 13:15
    - in jeder Hinsicht. Die Züge sehen, auch
    wenn ich damit fahre, immer relativ alt
  • 13:15 - 13:19
    aus. Aber man muss auch fair sein. Die
    fahren internationaler als der Rest der
  • 13:19 - 13:23
    Züge und wenn die direkt von außen
    Verspätungen mitbringen, kann die Bahn da
  • 13:23 - 13:26
    nichts für und solche Fälle gibt es. Und
    es fehlt noch eine Größe, die wir messen
  • 13:26 - 13:31
    können und die wir messen werden. Und über
    die schweigt sich die Bahn auf ihren
  • 13:31 - 13:35
    Webseiten aus. Und wenn man sich so
    konsequent ausschweigt, hat das natürlich
  • 13:35 - 13:41
    zur Folge, dass man sich für eine Analyse
    bewirbt. Das ist der Prozentsatz der
  • 13:41 - 13:47
    Ausfälle. Hier ist er. Und das war für
    mich überraschend. ICEs sind ja das
  • 13:47 - 13:51
    Flaggschiff der Bahn und anscheinend
    fallen die mit weitem Abstand am
  • 13:51 - 13:58
    häufigsten aus. Eurocity gut zwei Prozent,
    Intercity gut drei Prozent und ICE über
  • 13:58 - 14:04
    fünf Prozent. Also wenn ihr einen ICE
    bucht, dann taucht er in einem von 20 Mal
  • 14:04 - 14:10
    einfach nicht auf. Das fand ich ganz schön
    stramm. Mich hat das überrascht. Mein
  • 14:10 - 14:16
    Praxistipp an euch lautet also: Vorsicht
    mit den ICEs! Ich weise fairerweise
  • 14:16 - 14:20
    nochmals darauf hin, dass das eine
    Auswertung von außen ist. Es besteht die
  • 14:20 - 14:24
    Möglichkeit, dass das nicht stimmt oder da
    ewig viele Extrafahrten dann für die
  • 14:24 - 14:29
    Ausfälle gefahren werden, die gar nicht im
    Plan standen, aber alle diese Stopps
  • 14:29 - 14:32
    standen in deren Daten explizit als
    ausgefallen drin. Die Daten sehen
  • 14:32 - 14:35
    insgesamt realistisch aus, und im SPIEGEL
    hatten Sie auch neulich eine Auswertung,
  • 14:35 - 14:39
    wo Sie auf ähnliche Werte kamen. Also
    schlage ich vor, wir betrachten das mal
  • 14:39 - 14:45
    als gegeben, bis die Bahn widerspricht.
    Übrigens einer der fettesten, nicht
  • 14:45 - 14:50
    ausgefallenen Verspätungen in meinem
    Datensatz, war der ICE 576 von Stuttgart
  • 14:50 - 14:57
    nach Hamburg, und zwar am 17. Oktober
    2019. Der hatte 456 Minuten Verspätung.
  • 14:57 - 15:04
    Das sind mehr als siebeneinhalb Stunden
    und der war nicht ausgefallen. Und um
  • 15:04 - 15:09
    unseren Überblick zu vollenden, gucken wir
    uns jetzt das Ganze noch einmal über die
  • 15:09 - 15:13
    Zeit an. Hier sehen wir die Fahrten über
    die Zeit, die ich für den Fernverkehr in
  • 15:13 - 15:17
    der Datenbank habe. Die können wir uns mal
    angucken, wie das funktioniert. Wir sehen,
  • 15:17 - 15:21
    dass wir so um die 800 Fahrten am Tag
    haben im Fernverkehr. Die niedersten
  • 15:21 - 15:25
    Zacken sind immer Samstage, die hohen
    Zacken immer Freitage, das ist der
  • 15:25 - 15:28
    Berufsverkehr. Hier sind Ostern und
    Pfingsten. Weihnachten habe ich nicht mehr
  • 15:28 - 15:33
    hingekriegt. Und was sieht man noch? Man
    sieht zum Beispiel, dass ich zwischendurch
  • 15:33 - 15:39
    Mist gebaut habe und ein paar Tage Daten
    verloren habe. Wer meinen letzten Vortrag
  • 15:39 - 15:43
    hier gesehen hat, dem wird das bekannt
    vorkommen. Ich mache das jeden Vortrag.
  • 15:43 - 15:47
    Aber ich war besser. Diesmal war ich so
    klug - ja - und dann hab ich mir ein
  • 15:47 - 15:52
    vernünftiges Download Monitoring gebaut.
    Und dann dachte ich, ich wäre cool. Und
  • 15:52 - 15:56
    dann habe ich es irgendwie geschafft, den
    Debian Server, auf dem das Ganze läuft,
  • 15:56 - 16:00
    komplett zu crashen - also der hat gar
    nicht mehr geantwortet. Ich musste die
  • 16:00 - 16:05
    Kiste hart booten, und ich war da gerade
    in Urlaub und habe das nicht gemerkt. Also
  • 16:05 - 16:10
    diesmal Technischer Tipp für euch. Baut
    nicht nur ein Download Monitoring, sondern
  • 16:10 - 16:13
    lasst das auch noch auf einem anderen
    Server laufen als den Download selbst.
  • 16:13 - 16:23
    Applaus
    Und weil wir heute ja auf Bahnbewerbungen
  • 16:23 - 16:27
    hin die Ausfälle besonders genau machen
    wollen: Hier sind die Ausfälle über die
  • 16:27 - 16:32
    Zeit, das sind die Prozent der Stops pro
    Tag, die einfach ausgefallen sind und man
  • 16:32 - 16:39
    sieht sofort zwei fette Spikes. Hier ist
    der Orkan Eberhard. Dieser Orkan ist am
  • 16:39 - 16:43
    10. März über uns hereingebrochen, und am
    Nachmittag war der der Meinung, es würde
  • 16:43 - 16:48
    jetzt mal reichen mit Bahnverkehr. Und den
    gucken wir uns auch noch genauer an, und
  • 16:48 - 16:52
    hier ist der heißeste Tag des Jahres mit
    der Hitzewelle dieses Jahr. Und generell
  • 16:52 - 16:56
    sieht man, wenn ihr hier so ein bisschen
    genauer guckt, dass es im Hochsommer eine
  • 16:56 - 16:59
    stark erhöhte Ausfallrate gibt. Wie kommt
    das?
  • 16:59 - 17:04
    Publikumseinruf: Klimaanlage
    D: Klimaanlage höre ich da. Die Ausfälle
  • 17:04 - 17:10
    nach Zeit zerlegen wir jetzt nochmal in
    die relevanten Zugarten - bevor der alles
  • 17:10 - 17:16
    vorwegnehmt nimmt - und das machen wir jetzt
    nicht mehr auf der Basis von Tagen,
  • 17:16 - 17:19
    sondern von Wochen, das ist einfach etwas
    glatter. Und die gelbliche Linie sind die
  • 17:19 - 17:24
    ICEs und da sieht man erst mal, was für
    ein fettes Problem die mit den ICEs im
  • 17:24 - 17:29
    Sommer haben. Und ihr seht wie die
    Ausfälle der ICEs im Sommer im Vergleich
  • 17:29 - 17:35
    zu den anderen Zugarten richtig stark nach
    oben ausbrechen. Das sind so um die 8
  • 17:35 - 17:40
    Prozent Ausfallquote - fast an jedem
    zwölften Stop taucht so ein ICE in der
  • 17:40 - 17:46
    warmen Zeit dann einfach nicht auf. Und in
    der Woche vom 22. Juli sind in der ganzen
  • 17:46 - 17:52
    Woche sind mehr als 10 Prozent aller ICE
    Stopps ausgefallen. Also ich weiß nicht,
  • 17:52 - 17:56
    wie euch das geht, aber das geht bei mir
    über die Fehlertoleranz. Also wenn das
  • 17:56 - 18:01
    jeden Sommer so ist, wäre mein nächster
    Praxis Tipp für euch: Vorsicht mit ICEs im
  • 18:01 - 18:09
    Sommer. Und jetzt, wo es kälter wird,
    fängt das auch wieder so an, aber wenn man
  • 18:09 - 18:12
    das so anguckt - wir müssen noch ein
    bisschen abwarten. Es ist noch nicht raus,
  • 18:12 - 18:16
    ob das wirklich so wird. In zwei, drei
    Monaten wissen wir mehr, wenn es richtig
  • 18:16 - 18:22
    kalt war. Wir machen jetzt noch zwei
    kleine Sachen und danach reden wir mal
  • 18:22 - 18:25
    darüber, wie man so ein Projekt überhaupt
    aufbaut und was die Grundregeln sind. Hier
  • 18:25 - 18:31
    ist etwas Offensichtliches. Ich habe hier
    die Stops mal aller Fahrten sortiert nach
  • 18:31 - 18:36
    der Zeit, die die Zugfahrt bereits vor
    diesem Stop gedauert hat. Von links nach
  • 18:36 - 18:39
    rechts steigt die bereits gefahrene
    Laufzeit vor dem Stopp an, hier von null
  • 18:39 - 18:44
    bis 500 Minuten. Und was sieht man? Früher
    in der Fahrt ist der Prozentsatz der
  • 18:44 - 18:48
    pünktlichen Züge höher. Später in der
    Fahrt sinkt die prozentuale Pünktlichkeit
  • 18:48 - 18:54
    krass ab. Bei 500 Minuten sind unter 60
    Prozent pünktlich. Das habt ihr euch
  • 18:54 - 18:57
    wahrscheinlich jetzt alle schon selbst
    gedacht. Warum sage ich das also? Weil ich
  • 18:57 - 19:00
    die Bahn ein bisschen in Schutz nehmen
    möchte. Man sieht nämlich häufiger in den
  • 19:00 - 19:04
    Medien irgendwelche Untersuchungen von
    Fahrten zwischen weit entfernteren
  • 19:04 - 19:08
    Metropolen und da werden dann unglaublich
    schlechte Pünktlichkeiten gemessen. Und
  • 19:08 - 19:12
    wenn ihr sowas seht, lasst mich euch
    sagen, die machen die Bahn schlimmer, als
  • 19:12 - 19:15
    sie ist, weil sie durch weiter entfernen
    eben nur den Datenteil mit der hohen
  • 19:15 - 19:20
    Verspätung auswählen. Und ganz ehrlich -
    die häufigen Probleme mit den japanischen
  • 19:20 - 19:25
    Hochgeschwindigkeitszügen sind aus meiner
    Sicht auch einfach Stuss. Die verbinden in
  • 19:25 - 19:29
    Japan nur die absolut riesigen Metropolen.
    Die haben ein komplettes Schienennetz für
  • 19:29 - 19:33
    sich alleine. Der Fernverkehr der Bahn
    muss sich das Netz mit Güter- und
  • 19:33 - 19:37
    Nahverkehr teilen und bindet auch noch die
    Mittelzentren mit an. Das ist nicht
  • 19:37 - 19:42
    vergleichbar. So fair müssen wir schon
    sein. Trotzdem hier wieder mein Praxistipp
  • 19:42 - 19:45
    für euch: Vorsicht mit Zügen, die bereits
    lange unterwegs sind. Ihr könnt ja, wenn
  • 19:45 - 19:49
    ihr bucht sehen, was das für eine Zug
    Linie ist und woher die kommt, könnt ihr
  • 19:49 - 19:55
    also mit einbeziehen. Als nächstes habe
    ich mich gefragt Ab welcher Verspätung
  • 19:55 - 20:01
    wird es nicht mehr besser? Und dafür habe
    ich für alle Stops aller Fahrten geguckt.
  • 20:01 - 20:05
    Wie sehr ist der gerade schon verspätet,
    und das hier ist von links nach rechts
  • 20:05 - 20:12
    aufgetragen. Links stehen die wenig
    verspäteten Stops, rechts die, die mit
  • 20:12 - 20:17
    mehr Verspätung. Und dann habe ich geguckt
    Wieviel Prozent bauen auf dem Rest ihrer
  • 20:17 - 20:22
    Fahrt fünf Prozent der Verspätung ab und
    existieren noch also sind nicht
  • 20:22 - 20:27
    ausgefallen. Ja? Hört sich jetzt
    kompliziert an, aber kurz: wieviel Prozent
  • 20:27 - 20:34
    werden nochmal spürbar besser oder war es
    das jetzt? Und was man sieht ist, dass bei
  • 20:34 - 20:37
    Verspätungen unter 40 Minuten noch mehr
    als die Hälfte der Züge am Ende der Fahrt
  • 20:37 - 20:43
    besser dastehen als jetzt gerade und ab 40
    Minuten Verspätung - da ist eine gut
  • 20:43 - 20:47
    sichtbare Stufe in den Daten, die einzige
    - da scheint die Bahn die Dinger irgendwie
  • 20:47 - 20:53
    aufzugeben. Ab da wird es in der Mehrzahl
    der Fälle bis zum Fahrtende nicht mehr
  • 20:53 - 20:57
    besser. Woran das liegen könnte, darauf
    kommen wir gleich auch noch. Praxistipp für
  • 20:57 - 21:06
    euch: Ab einer Verspätung von 40 Minuten
    erwägt ein anderes Transportmittel! So,
  • 21:06 - 21:10
    das war ein Höllenritt. Jetzt haben wir
    schon diverse Praxistipps abgestaubt. Ich
  • 21:10 - 21:13
    schlage vor, wir machen jetzt einen
    Einschub, und ich versuche, euch ein paar
  • 21:13 - 21:16
    Anhaltspunkte zu geben, was ihr beachten
    sollte, wenn ihr Datenprojekte selber
  • 21:16 - 21:20
    hochzieht. Und ich werde das kurz halten,
    so dass wir wieder in die Daten eintauchen
  • 21:20 - 21:26
    können bald. Punkt 1: organisiert den
    Download gut. Die Bahn hat einige
  • 21:26 - 21:30
    öffentliche Schnittstellen. Es gab hier
    auch schon einen schönen Vortrag zu
  • 21:30 - 21:34
    ebendiesen Schnittstellen. Ich bin froh,
    dass jemand ermessen kann, wieviel
  • 21:34 - 21:40
    Schmerzen ich gehabt habe. Über zwei davon
    kann man Fahrpläne und Veränderungen
  • 21:40 - 21:44
    abrufen. Wenn ihr in eurem Smartphone mit
    der Bahn App oder Öffi Bahnverbindung
  • 21:44 - 21:50
    nachguckt, dann macht euer Handy genau
    das. In den Fahrplänen steht, wann welcher
  • 21:50 - 21:55
    Zug ankommen soll und in den Änderungen
    steht, was sich dem gegenüber verändert.
  • 21:55 - 22:00
    Ausfälle, Verspätungen und so weiter. Das
    ist ein bisschen anstrengend, denn leider
  • 22:00 - 22:04
    müsst ihr beides in getrennten Abfragen
    abrufen. Und wenn ihr die Schnittstellen
  • 22:04 - 22:09
    abruft, erhaltet ihr nur zeitlich begrenzt
    Daten - paar Stündchen vor und zurück.
  • 22:09 - 22:15
    Leider müsst ihr beides für jeden Bahnhof
    einzeln abrufen. Das bedeutet, wir können
  • 22:15 - 22:18
    uns nicht am Schluss einfach ein Jahr
    Daten ziehen, sondern wir müssen wirklich
  • 22:18 - 22:22
    über das ganze Jahr hinweg mit ein
    bisschen Infrastruktur sehr häufig Daten
  • 22:22 - 22:27
    abrufen, die sich überlappen. Solche
    Szenarios findet man relativ häufig. Das
  • 22:27 - 22:29
    funktioniert dann so, dass man die
    Downloads einfach erst einmal weg
  • 22:29 - 22:34
    speichert und konkrete Werte auslesen und
    Duplikate raus sortieren - das passiert
  • 22:34 - 22:38
    dann einfach alles später. Und jetzt
    machen wir mal eine Nebenrechnung auf. Wir
  • 22:38 - 22:43
    haben sechseinhalbtausend Bahnhöfe in
    Deutschland. Für jeden müssen wir einzeln
  • 22:43 - 22:48
    beides abrufen, also mal zwei. Und jetzt
    sagen wir mal, wir machen das alle zehn
  • 22:48 - 22:55
    Minuten für Fahrplan und Änderungen. Das
    macht dann 6600 mal 2 mal 144. Das sind
  • 22:55 - 23:01
    knapp zwei Millionen Abrufe am Tag. So ein
    Abruf hat im Durchschnitt 22 KB bei den
  • 23:01 - 23:06
    Veränderungsdaten, ein bisschen weniger
    bei den Plandaten und wir würden dann so
  • 23:06 - 23:12
    bei 40 Gigabyte XML landen, am Tag. Für
    das ganze Jahr - ja das parst sich dann
  • 23:12 - 23:22
    auch nicht mehr von alleine. Für das ganze
    Jahr wären das dann 14 TB in 700 Millionen
  • 23:22 - 23:29
    Requests. Diesen Moment kriegen die Admins
    der Bahn vermutlich einen Herzanfall. Wenn
  • 23:29 - 23:34
    sie damit fertig sind, dann werden sie in
    ihre Logs schauen welche Abrufe von mir
  • 23:34 - 23:38
    sind, und dann werden Sie Ihren Anwalt
    anrufen, um mir eine riesige Rechnung zu
  • 23:38 - 23:43
    schicken. Aber die enttäuschen wir jetzt.
    Natürlich habe ich das nicht so gemacht.
  • 23:43 - 23:47
    Erstmal hätte ich das speichern und
    verarbeiten müssen, das viel zu aufwendig.
  • 23:47 - 23:50
    Und zweitens ist eine Sache ganz wichtig,
    wenn ihr so etwas macht. Ihr müsst den
  • 23:50 - 23:55
    Traffic minimieren, und zwar aus zwei
    Gründen. Das sind die Punkte 2 und 3.
  • 23:55 - 24:01
    Punkt 2: Handelt verantwortungsvoll. Das
    bedeutet, dass Ihr bitte nicht so viel
  • 24:01 - 24:06
    Traffic erzeugt, dass ihr die
    Infrastruktur des Ziels abwürgt oder
  • 24:06 - 24:09
    irgendwie unnötige Kosten verursacht. Das
    ist jetzt realistischer, als es sich
  • 24:09 - 24:14
    anhört,vielleicht nicht bei der Bahn, aber
    beispielsweise bei den Justizportalen in
  • 24:14 - 24:18
    Deutschland müsst ihr aufpassen. Die sind
    erstaunlich schwach auf der Brust...
  • 24:18 - 24:27
    Hab ich gehört. Gelächter und Applaus
  • 24:27 - 24:35
    Meine Lösung dafür: Ich rufe
    maximal stündlich ab und auch nur die ca.
  • 24:35 - 24:40
    350 Fernbahnhöfe, das sind dann statt der
    zwei Millionen sofort nur noch 16 000
  • 24:40 - 24:43
    Requests am Tag. In der Regel ist das
    nochmal deutlich geringer, weil man das
  • 24:43 - 24:49
    adaptiv machen kann. Und in diesem Moment
    kriegen die Admins zwar keinen Herzanfall
  • 24:49 - 24:53
    mehr, aber die sind trotzdem enttäuscht,
    weil sich dafür keine Rechnung mehr lohnt.
  • 24:53 - 25:02
    Punkt 3: Fliegt unter dem Radar. Sowas soll
    ja eine Weihnachtsüberraschung bleiben. Da
  • 25:02 - 25:06
    wäre es natürlich schlecht gewesen, wenn
    die Millionen Abrufe vom Server D. Kriesel
  • 25:06 - 25:09
    kommend irgendwie in ihren Logs stehen
    haben. Das fällt nämlich irgendwann auf.
  • 25:09 - 25:13
    Und die Lösung hierfür ist Ihr schickt
    die Abfragen über Tausende
  • 25:13 - 25:17
    Zwischenstationen in der ganzen Welt. In
    der Fachsprache heißen die "anonyme
  • 25:17 - 25:25
    Proxys". Mit anderen Worten: Wenn ich
    Massen von Daten runterlade, dann sieht
  • 25:25 - 25:29
    das für das Ziel aus wie so ein
    Grundrauschen von winzigen Abfragen, die
  • 25:29 - 25:32
    von der ganzen Welt kommen. Viele von
    euch werden das auch so machen. Niemand
  • 25:32 - 25:35
    sieht mich, aber in Wirklichkeit laufen
    die Daten dann einfach im Hintergrund auf
  • 25:35 - 25:42
    meinem Server wieder zusammen - sofern ich
    sie nicht crashe. An dieser Stelle
  • 25:42 - 25:45
    hören, die Admins der Bahn vermutlich auf
    meine Abfrage in ihren Logs zu suchen.
  • 25:45 - 25:50
    Und ich freue mich, dass sie jetzt wieder
    voll beim Vortrag dabei sind. Damit ich
  • 25:50 - 25:53
    euch nicht abschrecke, so einen Aufwand
    müsst ihr nicht bei jedem Datenprojekt
  • 25:53 - 25:57
    treiben. Das war vielleicht ein bisschen
    Overkill, weil ich das mal ausprobieren
  • 25:57 - 26:03
    wollte mit den Proxys. Punkt 4: Es kann
    passieren, dass ihr nicht sicher seid,
  • 26:03 - 26:08
    was ihr rechtlich dürft ohne dranzukommen.
    Die meisten unter uns sind keine Juristen,
  • 26:08 - 26:11
    und manche AGB sind auch einfach mies
    formuliert. Und wenn ihr nicht sicher
  • 26:11 - 26:16
    seid, was ihr dürft, dann fragt einen
    Anwalt, der für euch die AGB liest. Es
  • 26:16 - 26:20
    gibt im Internet Portale, wo ihr für
    schmales Geld Anwälten Fragen stellen
  • 26:20 - 26:24
    könnt, und danach kriegt ihr eine
    rechtsverbindliche Antwort. Wenn das
  • 26:24 - 26:30
    nicht stimmt, haftet der. Bei mir kam dann
    leider raus, dass ich bei der Bahn lieber
  • 26:30 - 26:34
    eine schriftliche Genehmigung erfragen
    sollte. Und das war so ein Moment, wo ich
  • 26:34 - 26:37
    kurz dachte, dass das Projekt vielleicht
    auf der Kippe steht. Und das wäre schade
  • 26:37 - 26:40
    gewesen, weil ich mir vorab schon ein
    bisschen Arbeit gemacht hatte. Also lest
  • 26:40 - 26:47
    zuerst die AGB. Und Punkt 5: Habt trotz
    Hindernissen den Mut, es einfach zu tun.
  • 26:47 - 26:52
    Ich hab dann gepokert und wirklich bei
    der Bahn nachgefragt, ob ich automatisiert
  • 26:52 - 26:57
    Daten runterladen und darüber zum Beispiel
    einen kleinen Communityvortrag halten darf.
  • 26:57 - 26:58
    Lachen
  • 26:58 - 27:08
    Applaus
    Und sie haben es mir genehmigt. Ohne
  • 27:08 - 27:13
    weitere Auflagen. Ohne Auflagen und ob sie
    wirklich so offen sind oder einfach
  • 27:13 - 27:18
    vergessen haben zu googlen, weiß ich
    nicht. Aber ganz ehrlich: Das könnte
  • 27:18 - 27:20
    jetzt mal einen Applaus für die Bahn wert
    sein. Das ist sportlich.
  • 27:20 - 27:31
    Applaus
    Nicht schlecht. Ich hoffe, die hören zu.
  • 27:31 - 27:36
    Und Punkt 6: Seid fair bei der Auswertung,
    wenn ihr Daten für ein Jahr habt, zum
  • 27:36 - 27:39
    Beispiel, dann sucht ihr nicht die 4
    Monate heraus, wo die Bahn besonders
  • 27:39 - 27:44
    unpünktlich war, damit ihr fiesere Dinge
    behaupten könnt. Gängiges Mittel. Und das
  • 27:44 - 27:49
    Wichtigste zuletzt - Punkt 7: Guckt, ob
    ihr euren eigenen Daten vertrauen könnt.
  • 27:49 - 27:52
    Und das ist gar nicht so einfach. Und ich
    führe das jetzt mal vor. Und dann könnt
  • 27:52 - 27:55
    ihr entscheiden, ob wir meinen Daten
    vertraut. Und außerdem ist das jetzt
  • 27:55 - 27:59
    unsere Ausrede, dass wir diesen Einschub
    verlassen und endlich wieder in die Daten
  • 27:59 - 28:03
    reingucken. Am besten schafft Ihr
    Vertrauen in einen Datensatz, indem ihr
  • 28:03 - 28:08
    eine Analyse komplett nachbaut, die
    Quelle des Datensatzes, also hier die
  • 28:08 - 28:13
    Bahn, schon mal gemacht hat. Die Bahn gibt
    auf ihrer Webseite ja pro Monat die
  • 28:13 - 28:18
    Prozentzahl der pünktlichen Stopps an. Und
    in Ihren Dokumenten steht auch, wie sie
  • 28:18 - 28:22
    das exakt ausrechnen. Und die hab ich
    einfach genau so nachgebaut und siehe
  • 28:22 - 28:28
    da: Das sieht wirklich fast genauso aus.
    Die zwei größten Abweichungen sind die
  • 28:28 - 28:33
    folgenden: Im Januar messe ich die Bahn
    einen halben Prozentpunkt schlechter, als
  • 28:33 - 28:37
    sie ist. Das liegt vermutlich daran, dass
    ich erst am 8. Januar angefangen habe,
  • 28:37 - 28:43
    Daten aufzunehmen. Und im September 0,8
    Prozentpunkte. Das ist da, wo mir ein paar
  • 28:43 - 28:47
    Tage fehlen. Ansonsten scheint bei mir
    die Bahn sogar generell minimal besser
  • 28:47 - 28:52
    wegzukommen. Exakt die gleichen Werte
    werdet ihr nie kriegen. Die meisten
  • 28:52 - 28:56
    Abweichungen sind hier um 0,1
    Prozentpunkte, aber für eine Messung von
  • 28:56 - 29:01
    außen ist das verdammt akkurat. Wenn eure
    Werte mit denen des Ziels so
  • 29:01 - 29:05
    übereinstimmen, dann seid ihr auf einem
    guten Weg. Das heißt externe
  • 29:05 - 29:08
    Verifikation, weil wir etwas Externes zum
    Vergleichen hatten. Jetzt kommt die
  • 29:08 - 29:13
    interne, das bedeutet, ihr guckt in den
    Datensatz rein, ob da alles realistisch
  • 29:13 - 29:18
    aussieht - zum Beispiel anhand der
    Tageszeiten. Jeder Punkt hier ist wieder
  • 29:18 - 29:23
    ein Fernverkehrsbahnhof. Das ist der
    Tagesbeginn um 0 Uhr vom 9. März diesen
  • 29:23 - 29:27
    Jahres. Ich gehe jetzt die Zeit Stunde
    für Stunde durch, und dann sehen wir, wie
  • 29:27 - 29:31
    so ein Tag für die Bahn aussieht. Die
    Bahnhofspunkte schwellen an, wenn in der
  • 29:31 - 29:35
    Stunde mehr Stopps stattgefunden haben.
    Und die Farbe markiert die Ausfälle: Blau
  • 29:35 - 29:39
    ist wenig, Rot ist viel, dunkelrot
    entspricht 50 Prozent oder mehr
  • 29:39 - 29:46
    Ausfällen. Und es ist jetzt null Uhr, und
    man sieht, dass noch einige wenige Züge
  • 29:46 - 29:52
    des Vortages sozusagen unterwegs sind. Die
    Lumpensammler sozusagen. Und das wird
  • 29:52 - 29:57
    jetzt immer weniger werden, und die
    Nachtruhe kehrt ein. Die Zeit vergeht.
  • 29:57 - 30:04
    Nachtruhe. Und hier erwacht ein neuer Tag.
    Jetzt ist so langsam Vollbetrieb, es ist
  • 30:04 - 30:10
    8 Uhr. Wir sehen hier ein paar punktuelle
    Ereignisse, die für Ausfälle sorgen. Das
  • 30:10 - 30:16
    sind die roten Flecken, da ist Unwetter
    oder so passiert. Keine Notizen. Es ist
  • 30:16 - 30:27
    Mittag. Jetzt wird es wieder weniger. Der
    Tag geht seinem Ende entgegen. Die letzte
  • 30:27 - 30:31
    Stunde des Tages. Ein neuer Tag beginnt:
    Das ist der zehnte März. Wir sehen wieder
  • 30:31 - 30:38
    die letzten Züge bevor die Nachtruhe
    beginnt. Alles schläft. Der Tag wird
  • 30:38 - 30:43
    älter, es ist 6 Uhr. Man sieht schon ein
    bisschen Traffic. Es ist 9 Uhr, wir sind
  • 30:43 - 30:48
    wieder im Vollbetrieb. Es ist Mittag am
    10. März, und wir erinnern uns: An dem
  • 30:48 - 31:01
    Tag war ja was. Und hier zeigt der Orkan
    Eberhard erste Auswirkungen. Hier hat er
  • 31:01 - 31:05
    dann in fast ganz Deutschland den
    Fernverkehr flachgelegt. Ich musste die
  • 31:05 - 31:11
    Farbskala erweitern, weil man 50 Prozent
    Ausfälle normal nicht hat. Wir lassen
  • 31:11 - 31:16
    diesen sehr schlechten Tag für die Bahn
    nun ausklingen. Und hier ist wieder
  • 31:16 - 31:20
    Mitternacht, die Grenze zum Folgetag. Eine
    Störung in der Größenordnung zieht
  • 31:20 - 31:24
    natürlich noch einige Tage messbarer
    Verspätungen und Ausfälle nach sich. Wenn
  • 31:24 - 31:28
    man das aufblühte, sieht man das mehrere
    Tage runtergehen. Die spielen wir jetzt
  • 31:28 - 31:32
    aber nicht alle durch. Aber wir sehen:
    Nicht immer Ist die Bahn schuld. Wenn ihr
  • 31:32 - 31:38
    die Daten so auf Plausibilität checkt, da
    nutzt unbedingt gute Visualisierungen,
  • 31:38 - 31:42
    die am besten gleich mehrere Dimensionen
    abdecken. Hier hatten wir Ausfälle und
  • 31:42 - 31:47
    Ort, das sind zwei Dimensionen und die
    Anzahl der Stopps und die Zeit nach
  • 31:47 - 31:52
    Stunden. Der beste Apparat zu
    Mustererkennung, den wir zurzeit haben,
  • 31:52 - 31:56
    das ist nun mal das Gehirn. Und da gibt's
    nur eine Breitbandleitung hin, und das
  • 31:56 - 32:02
    sind die Augen. Wir werden jetzt noch ein
    paar größere Auswertungen machen, und als
  • 32:02 - 32:07
    erstes bitte ich euch dafür, in Gedanken
    die Seiten zu wechseln. Stellt euch vor,
  • 32:07 - 32:14
    ihr gebt keine Analysen raus, sondern ihr
    lest welche. Und wenn ihr Analysen lest,
  • 32:14 - 32:18
    die andere euch geben, dann ist es immer
    sehr wichtig zu riechen, worüber die
  • 32:18 - 32:23
    anderen mit euch nicht reden möchten. Und
    bei Firmen findet man das heraus, indem
  • 32:23 - 32:30
    man deren Kennzahlen genau anguckt. Die
    Bahn hat zum Beispiel gesagt, sie wollte
  • 32:30 - 32:34
    dieses Jahr 76,5% pünktliche Stopps
    haben. Daran wollen sie sich messen.
  • 32:34 - 32:40
    Dieser Bericht ist aus dem Januar 2019,
    und Anfang Dezember 2019 haben sie das
  • 32:40 - 32:46
    Ziel dann kassiert. Es werden nur unter
    75% pünktlicher Stopps im Fernverkehr. In
  • 32:46 - 32:51
    meinen Daten sind es im Moment noch
    knapp über 75%. Aber trotzdem:
  • 32:51 - 32:56
    eigentliches Ziel wird verfehlt. Aber was
    insgesamt auffällt, ist, dass sich die
  • 32:56 - 33:02
    Bahn zu Ausfällen - ich sagte das schon -
    ganz komisch ausschweigt. Und jetzt bitte
  • 33:02 - 33:06
    ich mal um Handzeichnungen von Euch.
    Stellt euch vor, ihr steht am Bahnsteig,
  • 33:06 - 33:12
    und der Zug fällt einfach aus. Ihr steht
    da mit leerem Blick und der kommt einfach
  • 33:12 - 33:16
    nicht. Und ihr dürft jetzt entscheiden:
    Ist der pünktlich oder unpünktlich? Wer
  • 33:16 - 33:22
    von euch würde sagen, der ist eher
    pünktlich? Ich sehe zwei Hände... drei im
  • 33:22 - 33:29
    Saal von 5000 Mann... Okay, ist messbar.
    Und wer würde sagen, der Zug ist eher
  • 33:29 - 33:39
    unpünktlich? Uiuiui, das sind so ziemlich
    alle. Und so sehe ich das eigentlich auch.
  • 33:39 - 33:42
    Und jetzt schauen wir mal in die
    Unterlagen der Bahn dazu. Ihr müsst das
  • 33:42 - 33:46
    nicht lesen, ich lese euch das vor.
    "Komplettausfälle oder Teilausfälle
  • 33:46 - 33:49
    werden - wie übrigens bei den anderen
    europäischen Bahnen auch - nicht in
  • 33:49 - 33:53
    Statistiken eingerechnet. Zum einen ist es
    schwierig, dafür ein sinnvolles
  • 33:53 - 33:59
    mathematisches Modell zu hinterlegen."
    What? "Welche Pünktlichkeit ordnet man
  • 33:59 - 34:03
    einem Zug zu, wenn er an einer bestimmten
    Stelle seiner Fahrt ausfällt?" Wir können
  • 34:03 - 34:06
    binär messen, ob drei von acht Stopps
    pünktlich oder nicht pünktlich sind, aber
  • 34:06 - 34:11
    mit ausgefallen nicht ausgefallen - das
    geht nicht. Und "zum anderen liegt die
  • 34:11 - 34:17
    sogenannte Erfüllungsquote aller täglich
    verkehrenden DB-Personenzüge über 99
  • 34:17 - 34:22
    Prozent im Jahresschnitt sowohl für Fern-
    als auch für Nahverkehr." Also Punkt 1: Da
  • 34:22 - 34:26
    möchte ich als erstes Mal anmerken, dass
    ich das in der Sache nicht nachvollziehen
  • 34:26 - 34:30
    kann, weil wir schon gesehen hatten, dass
    alleine der Fernverkehr eine Ausfallquote
  • 34:30 - 34:35
    von mehr als vier Prozent hat und nicht
    ein Prozent. Das heißt, wir haben
  • 34:35 - 34:45
    insgesamt 103% Fernverkehr. Aber
    vielleicht ist die Erfüllungsquote auch
  • 34:45 - 34:48
    etwas anderes, was ich hier nicht
    verstehe. Keine Ahnung. Aber vor allem:
  • 34:48 - 34:53
    So ein ausgefallener Zug ist, der ist
    nicht unpünktlich, der fällt einfach
  • 34:53 - 34:57
    komplett aus der Wertung. Die Ausfälle
    werden statistisch verdeckt, weil man sie
  • 34:57 - 35:03
    angeblich nicht statistisch einbauen
    kann. Also, liebe Leute, ich mache solche
  • 35:03 - 35:07
    Auswertungen ja auch beruflich, und da
    habe ich echt schon manche Ausrede zu
  • 35:07 - 35:12
    hören gekriegt. Aber das ist schon krass.
    Ich nenne sowas den "finalen
  • 35:12 - 35:16
    Rettungsstuss".
    Lachen
  • 35:16 - 35:24
    Applaus
    Wenn ihr so etwas erzählt kriegt, dann
  • 35:24 - 35:30
    wisst ihr ganz genau: Ihr habt es
    gefunden, hier müsst ihr gucken und nicht
  • 35:30 - 35:35
    woanders. Also helfen wir jetzt mit, und
    wir entwickeln jetzt eine Idee, wie man
  • 35:35 - 35:39
    die Ausfälle doch sinnvoll in die
    Statistik reinkriegt. Hier sehen wir eine
  • 35:39 - 35:44
    Zugfahrt mit vier Stopps. Die beiden
    weißen links sind pünktlich, der hellblaue
  • 35:44 - 35:51
    ist unpünktlich, > 6 Minuten, und der
    rechte in rot ist ganz ausgefallen. Im
  • 35:51 - 35:55
    Moment zählt die Bahn einfach alle Stopps,
    die nicht ausgefallen sind, und misst
  • 35:55 - 35:59
    davon den Prozentsatz der Pünktlichkeit.
    Das wären hier zwei von drei - 66
  • 35:59 - 36:04
    Prozent. Und ich schlage stattdessen vor:
    Wir zählen alle Stopps, die geplant
  • 36:04 - 36:09
    waren, und messen davon den Prozentsatz,
    der angekommen ist und pünktlich war. Das
  • 36:09 - 36:14
    wären hier 50%. Nehmt das nicht auf die
    leichte Schulter - das ist jetzt wirklich
  • 36:14 - 36:18
    große Mathematik.
    Lachen
  • 36:18 - 36:26
    Bahnbrechend sozusagen.
    Lachen und Applaus
  • 36:26 - 36:32
    Applaus
    Und wenn man mit den Ausfällen ehrlich
  • 36:32 - 36:38
    umgeht, dann liegt die Bahn nicht bei den
    76,5% Pünktlichkeit, das waren die
  • 36:38 - 36:45
    angekündigten, und auch nicht bei 75%, das
    ist der aktuelle Wert, sondern bei 72,5%.
  • 36:45 - 36:49
    Und mit jedem Prozent weniger wird es
    sehr viel unwahrscheinlicher, dass Leute
  • 36:49 - 36:53
    ihre Anschlüsse kriegen. Also
    unterschätzt das nicht, wenn das nochmal
  • 36:53 - 36:57
    zwei Prozent weniger sind, als sie
    behaupten oder drei. Das ist knackig. Beim
  • 36:57 - 37:02
    Fernverkehr liegt bei denen einiges im
    Argen. Damit möchte ich zum wichtigen
  • 37:02 - 37:07
    Thema kommen: Erfolgskriterien in
    Unternehmen. Wenn ihr als Unternehmen eure
  • 37:07 - 37:11
    Erfolgskriterien schlecht setzt, dann
    schafft ihr Anreize, die das Unternehmen
  • 37:11 - 37:18
    in eine unerwartete Richtung lenken. Hier
    haben wir ein Paradebeispiel dafür. Wenn
  • 37:18 - 37:23
    die Bahn einen unpünktlichen Zug einfach
    spontan ausfallen lässt, dann steht die
  • 37:23 - 37:28
    nach ihrer eigenen Messmethode danach
    besser da und nicht schlechter, weil die
  • 37:28 - 37:32
    Ausfälle einfach komplett aus der
    Statistik fliegen. Also müssen wir uns die
  • 37:32 - 37:37
    Frage stellen: Wo genau lohnt es sich für
    die Bahn am meisten, ein paar Ausfälle zu
  • 37:37 - 37:40
    erzeugen, um damit die
    Pünktlichkeitsstatistik zu pushen?
  • 37:40 - 37:42
    Lachen
    Applaus
  • 37:42 - 37:50
    Ihr klatscht ja schon vorher. So kann ich
    nicht arbeiten.
  • 37:50 - 37:54
    Lachen
    Die Lösung ist am Ende und am Anfang von
  • 37:54 - 37:59
    Fahrten. Züge fahren nämlich häufig
    dieselbe Strecke hin und her und der hier
  • 37:59 - 38:05
    fährt los. Bis hier ist alles gut
    gegangen. Hier hat er dann satt Verspätung
  • 38:05 - 38:09
    angesammelt. Das passiert. An diesem Punkt
    ist zu erwarten, dass die letzten beiden
  • 38:09 - 38:14
    Halte auch verspätet sein werden. Und auch
    die ersten beiden halte der Rückfahrt
  • 38:14 - 38:18
    natürlich, also schlecht für die
    Statistik. Also lassen wir sie doch
  • 38:18 - 38:22
    einfach ausfallen. Blasen wir ab, der Zug
    schmeißt die Fahrgäste raus, dreht an Ort
  • 38:22 - 38:25
    und Stelle um und ist wieder pünktlich.
    Und wer an den roten Stopps einsteigen
  • 38:25 - 38:33
    und aussteigen will, der steht halt mit
    leerem Blick am Gleis. Aber die
  • 38:33 - 38:37
    Verspätungsstatistik verbessert sich, denn
    die Ausfälle fallen ja einfach unter den
  • 38:37 - 38:43
    Tisch. Aber wie könnte man so etwas
    messen? Ganz einfach.
  • 38:43 - 38:46
    Publikumseinruf: Hamburg.
    D: Hackburg?
  • 38:46 - 38:52
    Publikumseinruf: Hamburg.
    D: Oh ja. Also, ganz einfach: Hier ist
  • 38:52 - 38:57
    wieder eine Zugfahrt mit all ihren Stopps,
    die unterteilen wir jetzt einfach in drei
  • 38:57 - 39:00
    Klassen - frühe, mittlere und späte
    Stopps. Die frühen und späten Stopps sind
  • 39:00 - 39:06
    die ersten und letzten drei, hier grau und
    die mittleren sind der Rest. Und für
  • 39:06 - 39:12
    diese drei Arten Stopps machen wir
    getrennte Auswertung. Wenn Ausfälle
  • 39:12 - 39:18
    aufgrund technischen Betriebes entstehen,
    würde man ja erwarten, dass es am Start
  • 39:18 - 39:22
    an einer Fahrt statistisch weniger
    Ausfälle gibt. Und dann werden das so
  • 39:22 - 39:27
    über die Zeit mehr. Und beim IC ist das
    auch genaus. Die Ausfälle steigen nach
  • 39:27 - 39:34
    hinten an. Und beim ICE dagegen, fallen
    die ersten und letzten Stopps häufiger
  • 39:34 - 39:38
    aus. Das passt alles genau. Die scheinen
    die Dinger einfach hart zu wenden. Ich
  • 39:38 - 39:42
    habe dieses Verhalten auch von zwei
    unabhängigen Quellen bestätigt bekommen,
  • 39:42 - 39:46
    und das war vor einiger Zeit schon mal
    irgendwo klein in der Presse. Also ich
  • 39:46 - 39:49
    verrate hier auch keine
    Staatsgeheimnisse. Und je nachdem, wen man
  • 39:49 - 39:54
    fragt, heißt dieses Vorgehen entweder
    nach unserem Verkehrsminister die Scheuer-
  • 39:54 - 39:59
    Wende oder aber nach dem Bahnvorstand,
    die Pofalla-Wende. Das müssen wir jetzt
  • 39:59 - 40:04
    heute Abend beim Bier entscheiden, was
    ihr jetzt besser findet. Jedenfalls ein
  • 40:04 - 40:09
    weiterer Praxistipp Vorsicht am Anfang
    und am Ende eines ICE-Zuglaufs. Die fallen
  • 40:09 - 40:14
    gerne mal aus. Bucht die nach Möglichkeit
    nicht. Aus Gründen der Neutralität, muss
  • 40:14 - 40:19
    ich dazusagen: Die Bahn hat natürlich ein
    Interesse daran, dass das ganze Netz
  • 40:19 - 40:23
    ungefähr im Plan ist. Also werden die
    sich denken, dass bei so einem Manöver
  • 40:23 - 40:27
    nicht so viele Passagiere von den
    Ausfällen betroffen sind, dafür aber im
  • 40:27 - 40:30
    weiteren Verlauf deutlich mehr Passagiere
    einen pünktlichen Zug kriegen ist. Das ist
  • 40:30 - 40:36
    eben deren Geschäftsentscheidung. Es liegt
    mir fern, da jetzt von der Seitenlinie
  • 40:36 - 40:40
    ohne tieferes Wissen altkluge Ratschläge
    zu erteilen. Wir sind hier nicht auf
  • 40:40 - 40:45
    Twitter. Was ich hier kritisiere...
    Lachen
  • 40:45 - 40:49
    Applaus
    Und was ich hier kritisieren möchte, ist
  • 40:49 - 40:54
    aber, dass ausschließlich die positive
    Seite des Manövers danach in der Statistik
  • 40:54 - 40:59
    auftaucht und die negative einfach
    verschwindet. Das stört. Wir wollen gar
  • 40:59 - 41:02
    nicht wissen, wie viele Leute im
    Verkehrsministerium denen das abgekauft
  • 41:02 - 41:07
    haben. Wir hatten jetzt schon ein
    bisschen Praxistipps gesehen, die euch zu
  • 41:07 - 41:10
    Hause beim Buchen vielleicht ein
    bisschen was bringen. Vorsicht mit
  • 41:10 - 41:15
    bestimmten Bahnhöfen; Vorsicht mit ICEs
    im Allgemeinen; Vorsicht mit ICEs im
  • 41:15 - 41:20
    Sommer im Speziellen; Vorsicht, wenn
    Züge schon lange unterwegs waren;
  • 41:20 - 41:23
    Vorsicht, wenn sie 40 Minuten oder mehr
    verspätet sind und jetzt gerade Vorsicht
  • 41:23 - 41:30
    mit ICEs am Anfang und am Ende der Fahrt
    wegen der Scheuer-Wenden. Ich könnte
  • 41:30 - 41:33
    jetzt mit euch noch jede Menge
    Standardkram machen, der sich irgendwie
  • 41:33 - 41:36
    aus den Daten ergibt: Top Ten Bahnhöfe
    oder Zuglinien nach Verspätungen,
  • 41:36 - 41:41
    Ausfällen und so weiter. Aber das hilft
    doch nur wenigen, ganz ehrlich. Also
  • 41:41 - 41:46
    machen wir jetzt noch zwei Sachen: Erstens
    machen wir unsere letzte große Sache mit
  • 41:46 - 41:50
    den Bahndaten, und ich hoffe, dass ihr
    davon zumindest für ein paar Monate ganz
  • 41:50 - 41:55
    konkret was habt. Danach würde ich mit
    euch gerne kurz über das ausklingende
  • 41:55 - 42:00
    Jahrzehnt nachdenken. Zuerst die
    Datensache. Wenn ihr ein Bahnticket kauft,
  • 42:00 - 42:05
    könnt ihr wählen. Mit Spartickets seid
    ihr an exakt die Züge, die ihr gebucht
  • 42:05 - 42:09
    habt, gebunden. Oder ihr nehmt ein
    Flexticket, das ist deutlich teurer, aber
  • 42:09 - 42:15
    dafür habt ihr keine Zugbindung.
    Interessant ist nun folgende Regel: auf
  • 42:15 - 42:19
    den Spartickets, wenn Sie durch
    Verschulden der DB ihren Anschlusszug
  • 42:19 - 42:23
    nicht erwischen oder allgemein eine
    Verspätung von mehr als 20 Minuten
  • 42:23 - 42:28
    erwartet werden muss, wird die Zugbindung
    automatisch aufgehoben. Ich verstehe das
  • 42:28 - 42:33
    so, dass ihr dann eigentlich ein Flex
    Ticket habt plötzlich. Und dann gucken
  • 42:33 - 42:38
    wir mal auf den Prozentsatz der Stopps,
    die entweder mehr als 20 Minuten zu spät
  • 42:38 - 42:44
    waren oder aber ausgefallen sind und
    insgesamt sind das immerhin 12,4%. Und
  • 42:44 - 42:48
    wenn man jetzt diese Stopps erwischt,
    dann verwandeln die einem vielleicht schon
  • 42:48 - 42:52
    vor Abfahrt ein preiswertes Sparticket in
    ein Flexticket. Und das wäre doch total
  • 42:52 - 42:56
    cool, wenn man die vorher wissen könnte.
    Lachen
  • 42:56 - 43:04
    Applaus
    Bin ich so vorhersehbar? Und komplett
  • 43:04 - 43:09
    vorhersehen geht natürlich nicht. Aber es
    gibt Züge, bei denen sowas häufiger
  • 43:09 - 43:11
    auftritt und Bahnhöfe, bei denen sowas
    häufiger auftritt und es gibt auch
  • 43:11 - 43:15
    Wochentage, bei denen sowas häufiger
    auftritt.
  • 43:15 - 43:23
    Lachen
    Und hier ist ein Beispiel. Lest mal mit.
  • 43:23 - 43:29
    Das bedeutet beim Intercity 2221 ist an
    allen Halten bei Mainz Hauptbahnhof an
  • 43:29 - 43:34
    allen Mittwochen dieses Jahr mit 53%
    Wahrscheinlichkeit die Zugbindung
  • 43:34 - 43:39
    aufgehoben. Also von allen Stopps, die ich
    dazu erfasst habe, waren 53% entweder mehr
  • 43:39 - 43:44
    als 20 Minuten zu spät oder sind ganz
    ausgefallen. Und am Freitag das Ganze mit
  • 43:44 - 43:50
    50 Prozent. Ich muss die Schreibweise so
    kurz machen und euch das so beibringen,
  • 43:50 - 43:54
    das Lesen, damit ich jetzt gleich
    platzsparend arbeiten kann. Euch schwant
  • 43:54 - 43:58
    vermutlich schon, was ich jetzt mache.
    Also, ich habe für euch mal die
  • 43:58 - 44:02
    Kombination aus allen Wochentagen, allen
    Bahnhöfen und allen Fernzügen durchsucht
  • 44:02 - 44:06
    und habe dann nur die Kombinationen
    genommen, wo ich mindestens 10 Datenpunkte
  • 44:06 - 44:10
    hatte, damit das einigermaßen fundiert
    ist. Und für die habe ich gemessen, bei
  • 44:10 - 44:13
    wie viel Prozent die Zugbindung dieses
    Zuges an diesem Wochentag, an diesem
  • 44:13 - 44:17
    Bahnhof gekillt wurde. Und dann habe ich
    gesagt: Ich will nur die ganz Fiesen
  • 44:17 - 44:21
    haben, wo das mit mindestens 50 Prozent
    der Fälle der Fall war. Herausgekommen
  • 44:21 - 44:27
    sind fast 500 Kombinationen aus
    Wochentagen, Bahnhöfen und Zügen.
  • 44:27 - 44:33
    Hier sind sie.
    Applaus
  • 44:33 - 44:39
    Also ich würde kein Flexticket für teuer
    Geld kaufen, wenn ich an einem dieser
  • 44:39 - 44:43
    Bahnhöfe einsteige, aussteigen oder
    umsteige an dem Wochentag mit diesem Zug.
  • 44:43 - 44:47
    Kauft ein Sparticket. Und für alle, die
    das jetzt nicht lesen können, ich stelle
  • 44:47 - 44:51
    den Foliensatz wieder irgendwie bei mir
    auf die Seite, morgen oder so. Beachtet
  • 44:51 - 44:55
    auch, dass die Daten irgendwann ungültig
    werden. Ihr behaltet den Zug bitte am
  • 44:55 - 45:00
    Fahrtag im Auge. Ich bin nicht schuld,
    wenn ihr unverhofft doch pünktlich zum Zug
  • 45:00 - 45:02
    eintreten müsst.
    Lachen
  • 45:02 - 45:07
    Weil die Kiste halt pünktlich ist. Also
    bitte, bitte behandelt diese Daten, als
  • 45:07 - 45:16
    wären sie mit Xerox-Geräten gescannt.
    Lachen und Applaus
  • 45:16 - 45:22
    Wenn ihr doch pünktlich da sein müsst,
    dann ist das ja auch ein gutes Zeichen,
  • 45:22 - 45:25
    weil es nichts anderes bedeutet, als dass
    die Bahn was verbessert. Verbesserungen
  • 45:25 - 45:31
    passieren nämlich durchaus. Dieses Jahr
    wurde zum Beispiel die ICE-Trasse zwischen
  • 45:31 - 45:35
    München und Berlin ausgebaut. Da kann man
    jetzt unter vier Stunden zwischen beiden
  • 45:35 - 45:39
    Städten hin und her fahren, ohne den Zug
    zu wechseln. Und wenn das rund läuft, ist
  • 45:39 - 45:44
    das echt mal eine Alternative zum Flug. Es
    ist also nicht alles schlecht. Ich hoffe
  • 45:44 - 45:49
    auch, ich bin bei aller Kritik fair mit
    der Bahn umgegangen heute. Ich bin
  • 45:49 - 45:53
    jedenfalls, obwohl ich das alles gesehen
    habe, mit der Bahn zum Congress gefahren
  • 45:53 - 45:59
    und werde das auch auf dem Rückweg machen.
    Und für heute möchte ich damit die Bahn-
  • 45:59 - 46:04
    Betrachtung abschließen mit den Worten:
    Seid nett zur Bahn mit ihren Fehlern. Wir
  • 46:04 - 46:09
    haben nur diese eine.
    Lachen und vereinzelter Applaus
  • 46:09 - 46:12
    Und was bleibt?
    Applaus
  • 46:12 - 46:24
    Einen habe ich noch. Da kam er [Herald Engel]
    schon gelaufen. Das hier ist der letzte
  • 46:24 - 46:27
    Vortrag, den ich in diesem Jahrzehnt
    halten werde. Ich lasse euch jetzt mal ein
  • 46:27 - 46:33
    paar Sekunden in Ruhe und wünsche mir,
    dass jeder kurz darüber nachdenkt, was für
  • 46:33 - 46:38
    ihn in diesem Jahrzehnt die maßgebliche
    gesellschaftliche Entwicklung war.
  • 46:38 - 46:47
    Ruhepause zum Nachdenken
  • 46:47 - 46:52
    Glaube hat jeder was. Für mich ist es der
  • 46:52 - 46:58
    Aufstieg der Empörten und damit meine ich
    ausdrücklich jede politische Richtung. Ich
  • 46:58 - 47:02
    habe in diesem Jahrzehnt tausend Mal an
    jeder Ecke gehört, wie wichtig heutzutage
  • 47:02 - 47:07
    technische, naturwissenschaftliche und
    analytische Skills seien angeblich, mit
  • 47:07 - 47:12
    anderen Worten: Rationalität. Und auf der
    anderen Seite aber reicht das heute im
  • 47:12 - 47:16
    öffentlichen Diskurs als
    Totschlagsargument, wenn jemand empört
  • 47:16 - 47:20
    ist. Und ich finde das paradox. Das ist
    das Gegenteil von Rationalität. Man kann
  • 47:20 - 47:25
    nicht beides gleichzeitig propagieren. Und
    ich möchte anregen, dass wir für das jetzt
  • 47:25 - 47:32
    kommende Jahrzehnt zu einer Kultur finden,
    in der es ungern gesehen wird, einfach nur
  • 47:32 - 47:36
    alles Mögliche anzuprangern, und in der es
    ganz umgekehrt bewundert wird, wenn man
  • 47:36 - 47:41
    sich die Datenlage anguckt und sie sich
    gegenseitig präsentiert mit seinem
  • 47:41 - 47:48
    Kontrahenten und sich dann zusammensetzt.
    Und wer soll das starten, wenn nicht wir
  • 47:48 - 47:54
    hier. Verlassen wir uns nicht auf die
    Medien, denn die leben vom Aufruhr. Auch
  • 47:54 - 47:58
    wenn es positive Gegenbeispiele gibt.
    Verlassen wir uns nicht auf irgendwelche
  • 47:58 - 48:03
    Stars, die leben von Likes und die kriegt
    man am besten durch Zuspitzung. In der
  • 48:03 - 48:08
    Regel sind die Teil des Problems.
    Verlassen wir uns nicht auf Politiker, die
  • 48:08 - 48:12
    achten wegen der Shitstorm-Kultur nur noch
    darauf, bis zur nächsten Wahl nicht
  • 48:12 - 48:16
    anzuecken. Und zu viele von denen haben
    ohnehin niemals außerhalb der Politik
  • 48:16 - 48:22
    gearbeitet. Was soll da schon kommen? Und
    das ist der Grund, warum ich das hier
  • 48:22 - 48:26
    mache. Ich versuche, euch zu inspirieren,
    eure eigenen Analysen zu strittigen Themen
  • 48:26 - 48:31
    anzustellen. Und in meinen letzten
    Vorträgen, meinen beiden hier, habt ihr
  • 48:31 - 48:35
    ein paar Instinkte davon bekommen, wie das
    geht, und ich hoffe, ich habe euch
  • 48:35 - 48:38
    bewiesen, dass das absolut keine
    Raketenwissenschaft ist.
  • 48:38 - 48:41
    Vereinzelter Applaus
    Und ich frage nochmal: Wer soll das
  • 48:41 - 48:45
    machen, wenn nicht wir hier? Wenn wir es
    gemeinsam schaffen, dass wenigstens
  • 48:45 - 48:52
    manche, die heute echt nichts Besseres zu
    tun haben, als sich im Internet zu empören
  • 48:52 - 48:55
    im nächsten Jahrzehnt zur engagierten
    Analyse übergehen und dabei auch
  • 48:55 - 49:00
    anerkennen, wenn was herauskommt, dass sie
    vorher nicht gedacht hätten, dann haben
  • 49:00 - 49:03
    wir gesellschaftlich unglaublich viel
    gewonnen. Und heute Abend stehe ich hier
  • 49:03 - 49:07
    in einem Saal mit 5000 Leuten, voll
    belegt. Da sitzen Sie noch neben der
  • 49:07 - 49:13
    Tribüne, die sich mit 5000 Leuten, die
    sich am Samstagabend zwischen Weihnachten
  • 49:13 - 49:17
    und Silvester hier hinsetzen. Also da, wo
    die allermeisten Menschen einfach gar
  • 49:17 - 49:20
    nichts tun und sich die Flasche Wein an
    den Hals anschließen.
  • 49:20 - 49:25
    Lachen
    Und warum tun die 5000 Leute das? Um einen
  • 49:25 - 49:28
    Statistik Vortrag zu hören.
    Lachen
  • 49:28 - 49:33
    Das gibt mir Hoffnung. Ich werde glücklich
    heimfahren. Da kann die Bahn mit mir
  • 49:33 - 49:37
    machen, was sie will. Und ich bedanke
    mich, dass ihr hier wart, und wünsche euch
  • 49:37 - 49:40
    ein schönes neues Jahrzehnt.
  • 49:40 - 49:53
    Großer, tosender Applaus
  • 49:53 - 50:03
    Standing Ovation
  • 50:03 - 50:10
    Applaus
  • 50:10 - 50:13
    Jetzt stehen sie wieder auf...
  • 50:13 - 50:16
    Applaus
  • 50:16 - 50:18
    Danke schön.
  • 50:18 - 50:27
    Applaus
  • 50:27 - 50:30
    Vielen lieben Dank.
  • 50:30 - 50:37
    Herald 1: Wow. Auch von mir nochmal
    herzlichen Dank. Super Vortrag wie immer,
  • 50:37 - 50:41
    super lustig. Dankeschön David, dass du
    das immer wieder machst, echt schön. Wir
  • 50:41 - 50:46
    haben noch ein bisschen Zeit für Fragen.
    Bitte an die Mikrofone. Es gibt 4, 5
  • 50:46 - 50:50
    Stück, glaube ich, hier im Saal, wenn ihr
    Fragen habt. Wir fangen mal mit Mikrofon 1
  • 50:50 - 50:53
    an.
    Frage: Du hast ja damit angefangen, dass
  • 50:53 - 50:57
    du der Fairness halber die
    Pünktlichkeitsdefinition der Bahn von 6
  • 50:57 - 51:02
    Minuten, höchstens, gesetzt hast. Hast du
    aus purer Neugier mal Sachen
  • 51:02 - 51:05
    durchgerechnet mit
    Pünktlichkeitsdefinitionen, die irgendwie
  • 51:05 - 51:09
    sinnvoller anfühlen? Müssen ja nicht
    gleich die 30 Sekunden aus Japan sein.
  • 51:09 - 51:13
    D: Ja, da kann man sich streiten, welchen
    Wert man setzt.
  • 51:13 - 51:18
    F: Hast du und welche?
    D: Ja, habe ich. Das sieht dann so aus,
  • 51:18 - 51:22
    als wenn man das eng zieht, am Schluss
    natürlich alle Züge verspätet sind. Jeder
  • 51:22 - 51:29
    hat mal irgendwie eine Minute. Was ich
    gemacht habe, war: Ich habe mal eine
  • 51:29 - 51:32
    Reibungslos-Metrik gesetzt. Reibungslos,
    habe ich gesagt, das ist alles, was
  • 51:32 - 51:38
    maximal 3 Minuten zu spät ist, nicht
    ausgefallen und keinen Gleiswechsel, weil
  • 51:38 - 51:41
    das geht mir immer unglaublich auf die
    Nerven, wenn ich dann mit Koffer einmal
  • 51:41 - 51:45
    hoch und runter... Und das waren dann
    irgendwie 60%. Aber nagele mich jetzt
  • 51:45 - 51:50
    darauf nicht fest. Ich habe es jetzt
    nicht im Kopf, aber es waren deutlich
  • 51:50 - 51:53
    weniger. Ich glaube, es war bei 60% oder
    so, diese Pünktlichkeit.
  • 51:53 - 51:56
    F: Danke.
    Herald 1: Ich weiß jetzt nicht, welches
  • 51:56 - 51:58
    Mikro Erster war. Wir fragen mal den
    Signal Angel, der hat eine Frage.
  • 51:58 - 52:02
    Signal Angel: Also der Stream schließt
    sich den Standing Ovations an.
  • 52:02 - 52:05
    D: Danke schön!
    Signal: Und es gab viele Leute, die darauf
  • 52:05 - 52:08
    hingewiesen haben, dass für ausgefallene
    Züge oft Ersatzfahrten bereitgestellt
  • 52:08 - 52:09
    werden.
    D: Ja.
  • 52:09 - 52:10
    Signal: Die das dann teilweise
    kompensieren. Wie taucht das bei dir in
  • 52:10 - 52:12
    der Statistik auf?
    D: Das taucht bei mir gar nicht auf.
  • 52:12 - 52:15
    Deswegen war ich mir auch nicht komplett
    sicher. Deswegen habe ich das auch gesagt.
  • 52:15 - 52:20
    Wenn die komplett neue Fahrt haben die
    irgendwie gar nicht im Plan aufgetaucht
  • 52:20 - 52:26
    waren, dann werde ich die vermutlich nicht
    drin haben. Wenn die Fahrten in
  • 52:26 - 52:28
    irgendeiner Form in den Plandaten drinnen
    waren, habe ich die aber drin. Deswegen
  • 52:28 - 52:32
    kann ich es nicht genau sagen. Ich weiß
    jedenfalls, dass die Kollegen beim SPIEGEL
  • 52:32 - 52:36
    eine ähnliche Analyse neulich hatten auf
    einem kleineren Datensatz. Und da war das
  • 52:36 - 52:43
    auch jenseits der 4% Ausfallquote. Wenn es
    falsch ist, stimmt das zumindest überein.
  • 52:43 - 52:45
    Es kann sein, dass sie drin sind. Ich bin
    mir nicht völlig sicher.
  • 52:45 - 52:51
    Herald 1: Danke, Mikrofon 5 bitte mit
    einer Frage.
  • 52:51 - 52:55
    F: Vielen dank für diesen sehr
    interessanten Vortrag. Es war bestimmt
  • 52:55 - 52:58
    auch super viel Aufwand, das alles zu
    analysieren und nach den Standing Ovations
  • 52:58 - 53:03
    traue ich mich ja auch fast gar nicht,
    eine kritische Frage zu stellen.
  • 53:03 - 53:06
    D: Bitte!
    F: Aber Sie hatten ja ziemlich an den
  • 53:06 - 53:13
    Anfangsslides bei den Bahnhöfen, die den
    Zügen Verspätungen hinzufügen oder wo die
  • 53:13 - 53:18
    Züge vielleicht Verspätung aufholen. Aber
    ist es nicht viel eher so, dass die
  • 53:18 - 53:22
    Strecken zwischen den Bahnhöfen dazu
    führen, dass die Züge Verspätung bekommen
  • 53:22 - 53:26
    und nicht die Bahnhöfe selber? Und wäre
    das dann nicht auch für die Bahn
  • 53:26 - 53:30
    interessant zu schauen, zwischen welchen
    Bahnhöfen kriegen die Züge am meisten
  • 53:30 - 53:33
    Verspätung?
    D: Also das ist eine exakt sehr geile
  • 53:33 - 53:37
    Frage. Weil diese Auswertung war in der
    Tat ein bisschen tricky, genau aus dem
  • 53:37 - 53:41
    Grund. Vielleicht ist der Bahnhof
    Frankfurt die Verspätung gar nicht schuld,
  • 53:41 - 53:45
    sondern die Gleise beim Rein- und
    Rausfahren zum Beispiel. Deswegen messe
  • 53:45 - 53:50
    ich die Verspätungsänderung von dem
    Streckensegment vor dem Bahnhof und dem
  • 53:50 - 53:54
    Streckensegment nach dem Bahnhof. Und der
    jeweilige Bahnhof kriegt man den
  • 53:54 - 53:59
    Durchschnitt, damit ich genau von diesem
    Effekt geheilt werde. Dann habe ich einen
  • 53:59 - 54:04
    sehr guten Durchschnittswert. Und wer halt
    immer was dazufügt im Schnitt, der wird
  • 54:04 - 54:08
    auch selber was dazu beitragen. Oder beide
    Streckenstreckensegmente dahin sind
  • 54:08 - 54:15
    schlecht, also immer. Dann ist das auch
    für mich ein Bahnhofsproblem. Also genau
  • 54:15 - 54:18
    genommen, was ich hier analysiere ist dann
    des Problem des Bahnhofs und der näheren
  • 54:18 - 54:21
    Umgebung darum herum. Danke für diese
    Frage.
  • 54:21 - 54:26
    F: Vielen Dank für die Antwort.
    Applaus
  • 54:26 - 54:33
    D: Da hab ich mir nämlich lange Gedanken
    gemacht, ob ich da jetzt einfach immer nur
  • 54:33 - 54:37
    die Änderung der Verspätung nehme, aber
    das hätte ich mir selbst als Statistik
  • 54:37 - 54:41
    zerrissen, wenn ich da einen bei erwischt
    hätte. Aber deswegen perfekt, dass es
  • 54:41 - 54:45
    aufgefallen ist. Sehr gut.
    Herald 1: Wir haben nur gute Menschen
  • 54:45 - 54:49
    hier, sehr schön. lacht Wir nehmen
    Mikrofon 3, wechseln mal die Seite bitte.
  • 54:49 - 54:53
    D: Ich muss immer ein bisschen suchen.
    Bitte entschuldigt, wenn ich euch nicht
  • 54:53 - 54:58
    sehe. Da hinten ist er.
    F: Du hattest am Anfang angeprangert oder
  • 54:58 - 55:05
    in der Mitte angeprangert, dass die
    Ausfälle nicht zu Verspätungen zählen. Und
  • 55:05 - 55:12
    hattest aber am Anfang diese Slide, wo der
    Berliner Flughafen immer ausfällt. Und es
  • 55:12 - 55:16
    gibt ja vielleicht auch andere Bahnhöfe,
    die umgebaut werden oder wo eben in
  • 55:16 - 55:22
    Anführungszeichen planmäßig ausfallen.
    Hast du die irgendwie
  • 55:22 - 55:23
    rausgerechnet oder wie läuft das?
    D: Nach meiner Information sind die Stopps
  • 55:23 - 55:26
    dann gar nicht im Plan.
    F: Ah, okay.
  • 55:26 - 55:29
    D: Das sieht so aus: Ihr habt die
    Plandaten mit den Stopps und dann habt ihr
  • 55:29 - 55:34
    die Änderungen. Und da ist dann, wenn da
    was ausfällt, dann ist da eine Cancelation
  • 55:34 - 55:38
    Time drin, nämlich der Zeitpunkt des
    Ausfalls. Da kann man auch noch schöne
  • 55:38 - 55:42
    Auswertungen mit machen. Ausfälle mit
    kurzer Vorlaufzeit und so weiter. Das
  • 55:42 - 55:48
    würde dann in den Daten nach meiner
    Kenntnis anders aussehen, wobei ich das
  • 55:48 - 55:52
    auch nur reverse engineere. Die
    dokumentieren nicht alles. Ich weiß nicht,
  • 55:52 - 55:56
    wer von euch vorhin in dem Bahn-API-
    Vortrag drin war. Aber man muss sehr viel
  • 55:56 - 56:01
    reverse engineeren, wenn man das macht.
    Also auch das mit einem Körnchen Salz.
  • 56:01 - 56:08
    Herald: Danke, wir nehmen Mikrofon 2.
    F: Ich bin auch Bahnfahrer, aber nach
  • 56:08 - 56:13
    meiner Erfahrung ist der Regionalverkehr
    viel häufiger verspätet als der
  • 56:13 - 56:17
    Fernverkehr und deshalb die Frage: Wann
    gibt's die Analyse für den Nahverkehr?
  • 56:17 - 56:23
    D: Wo kommst du denn her?
    F: Ich lebe südlich von Stuttgart.
  • 56:23 - 56:28
    D: Südlich von Stuttgart. Also ich hab die
    Nahverkehrsbahnhöfe nicht runtergeladen.
  • 56:28 - 56:34
    Was ich aber hab (einfach weil sonst die
    Requests wären explodiert), aber was ich
  • 56:34 - 56:40
    hab, ist natürlich sämtlicher Nahverkehr,
    der über alle Fernbahnhöfe gefahren ist,
  • 56:40 - 56:44
    und die sind strategisch gut verteilt,
    sodass sich da in der Tat auch für den
  • 56:44 - 56:48
    Nahverkehr was sehen kann. Vielleicht
    mache ich mal eine Pünktlichkeit von dem
  • 56:48 - 56:52
    nahen Verkehr, der in den Fernverkehrs
    Bahnhöfen vorbeigefahren ist. Weil das
  • 56:52 - 56:56
    habe ich; dann muss ich mal als Tabelle
    auf meine Webseite stellen. Oder so
  • 56:56 - 57:04
    einfach. Dann kannst du gucken.
    Applaus
  • 57:04 - 57:06
    Herald 1: Wir haben noch ein kleines
    bisschen Zeit, Mikrofon 6 nochmal, die
  • 57:06 - 57:09
    andere Seite.
    F: Vielen Dank nochmal für den Vortrag.
  • 57:09 - 57:15
    Aus München kommend haben wir eine
    chronisch schlechte S-Bahn, und ich habe
  • 57:15 - 57:19
    mich auch gefragt: Ist den der
    Regionalverkehr noch einmal
  • 57:19 - 57:22
    unterschiedlich zum Nahverkehr? Oder ist
    einfach die Münchner S-Bahn dauernd zu
  • 57:22 - 57:26
    spät und im Rest von Deutschland ist gut?
    D: Die fährt ja über eure großen Bahnhöfe,
  • 57:26 - 57:30
    habt ja zwei oder drei richtig dicke, ne?
    München Ost, München und noch
  • 57:30 - 57:32
    irgendeinen.
    F: Ja.
  • 57:32 - 57:36
    D: Dann hab ich die drinnen. Kann ich mal
    gucken. Würde dann auch in der Frage
  • 57:36 - 57:46
    auftauchen, ob die da über 90%; Diese über
    90% Pünktlichkeit im Regionalverkehr sind
  • 57:46 - 57:49
    für Bahn und Subunternehmen vermutlich.
    Ich muss mal gucken, aber die anderen hab
  • 57:49 - 57:54
    ich ja drin. Zur Not als Dirttunternehmen.
    Vielleicht beziehe ich die einfach mal mit
  • 57:54 - 57:58
    ein in die regionale Analyse. Das könnte
    interessant sein, wenn ich dafür
  • 57:58 - 58:01
    irgendwann Zeit habe. Erwartet das jetzt
    nicht morgen früh.
  • 58:01 - 58:04
    F: Danke.
    Harald 1: Super, wir nehmen euch beide
  • 58:04 - 58:10
    hier, Mikrofon 4 zuerst.
    F: Auf den Slides 80 und 84 war
  • 58:10 - 58:16
    dargestellt, wie die Bahn die Teilausfälle
    rausrechnet, aus der Statistik. Aber
  • 58:16 - 58:20
    müssten nicht die gesamten Züge
    herausgerechnet werden aus der Statistik?
  • 58:20 - 58:22
    D: Ähm.
    F: Die Verspätung akkumuliert sich ja
  • 58:22 - 58:27
    natürlich und dann wäre die Statistik ja
    dementsprechend besser.
  • 58:27 - 58:30
    D: Jetzt hab ich mein PowerPoint
    abgeschossen.
  • 58:30 - 58:35
    Leises lachen
    Nö, wieso müsstest du die ganze Züge
  • 58:35 - 58:39
    herausrechnen? Das verstehe ich nicht. Es
    kommt ja. Es ist ja schön granular für
  • 58:39 - 58:44
    Stopps zu rechnen. Angenommen, das ganze
    System würde so funktionieren, dass alle
  • 58:44 - 58:47
    Züge auf der Hälfte Ihrer Stopps pünktlich
    sind, und auf der anderen Hälfte
  • 58:47 - 58:51
    unpünktlich. Dann wäre das doch halb
    pünktlich. Ich sehe nicht, warum. Wir
  • 58:51 - 58:54
    arbeiten ja feiner als auf Granularität
    von Zügen. Das ist doch besser?
  • 58:54 - 58:59
    F: Aber es werden ja Teilausfälle auch
    rausgerechnet. Ist es dann wirklich nur
  • 58:59 - 59:02
    der ausgefallene Stopp?
    D: Nee, soweit ich weiß, ist da wirklich
  • 59:02 - 59:04
    nur der ausgefallene Stopp, ja.
    F: Ok, gut. Danke.
  • 59:04 - 59:10
    Harald 1: So, dann noch Mikrophon 1.
    F: Vielen Dank nochmal für den Talk. Meine
  • 59:10 - 59:14
    Frage geht in die Richtung: "Perverse
    incentive", sprich die Kennzahlen, an
  • 59:14 - 59:19
    denen sich die Bahn messen lässt. Hat sie
    sehr darauf hingewiesen, dass die
  • 59:19 - 59:24
    Ausfallrate da vielleicht nicht so; Also
    gut sein könnte wenn..,
  • 59:24 - 59:29
    D: Ja, wäre schön, wenn sie drin wäre.
    F: Ja, genau, wenn sie mit drin wäre. Eine
  • 59:29 - 59:38
    andere Sache die da reinspielt: Wie hoch
    die Ziele sind, die sich die Bahn setzt.
  • 59:38 - 59:43
    Hast du in deinen Daten welche?
    D: Das geht durch die Presse.
  • 59:43 - 59:47
    F: Ich meine Ziele im Sinne von: Wie
    schnell denn eine Strecke zu befahren ist?
  • 59:47 - 59:51
    Man könnte ja die Züge pünktlicher machen
    dadurch, dass man nach jedem Zug eine
  • 59:51 - 59:53
    Stunde mehr Zeit gibt, dieselbe Strecke zu
    fahren.
  • 59:53 - 59:55
    D: Du meinst die Taktung?
    F: Ja.
  • 59:55 - 59:59
    D: Nee, die habe ich nicht. Die ist aber
    bei der Bahn relativ eng, im Vergleich zu
  • 59:59 - 60:03
    Flugzeugen - habe ich mir sagen lassen von
    kundigen Personen - weswegen die Flugzeuge
  • 60:03 - 60:08
    auch häufiger pünktlich sind; oder
    ungefähr pünktlich. Aber bei der Bahn ist
  • 60:08 - 60:11
    alles sehr eng getaktet, und vor allem
    sind die Sachen interdependent. Wenn einer
  • 60:11 - 60:16
    auf der Strecke liegen bleibt, halten alle
    dahinter halt auch ein Problem. Das beides
  • 60:16 - 60:19
    in Kombination sorgt für die Fragilität,
    die wir sehen.
  • 60:19 - 60:26
    F: Hast du vor, die Analyse in weiteren
    Jahren fortzuführen, um dann da vielleicht
  • 60:26 - 60:32
    die Richtung etwas zu sehen?
    D: Ich bin mir nicht sicher. Zum einen
  • 60:32 - 60:38
    habe ich wie alle anderen auch, Arbeit und
    Familie, und zweitens ist die
  • 60:38 - 60:41
    infrastrukturell sehr aufwendig. Ein
    bisschen mache ich das sicher noch weiter,
  • 60:41 - 60:43
    und dann gucke ich, habe ich noch
    rauskriege. Aber ich kann nichts
  • 60:43 - 60:48
    versprechen.
    F: Letzter Nachschub: sind deine Daten
  • 60:48 - 60:52
    von... also kriegt man die von dir?
    D: Denke ich nicht, weil ich das nicht
  • 60:52 - 60:53
    darf.
    F: Ah.
  • 60:53 - 60:57
    D: Am Ende hat die Bahn dafür das
    Copyright. Viel mehr Copyright-Verstoß
  • 60:57 - 61:01
    ginge gar nicht, als wenn ich das ganze
    Ding nehme und euch einfach rauskopiere.
  • 61:01 - 61:09
    Aber: sucht bei der Bahn die Timetable
    API. Und dann ladet ihr das einfach
  • 61:09 - 61:14
    runter. Es geht, das ist keine
    Raketenwissenschaft.
  • 61:14 - 61:16
    F: Danke.
    D: Gut.
  • 61:16 - 61:20
    Harald 1: Super. Nochmal einen riesengroßen
    Applaus, an David. Herzlichen Dank.
  • 61:20 - 61:23
    Applaus
  • 61:23 - 61:46
    Abspannmusk
Title:
36C3 - BahnMining - Pünktlichkeit ist eine Zier
Description:

more » « less
Video Language:
German
Duration:
01:01:50

German subtitles

Revisions