< Return to Video

Was wir von 5 Millionen Büchern gelernt haben

  • 0:00 - 0:02
    Erez Lieberman Aiden: Jeder weiß,
  • 0:02 - 0:05
    dass ein Bild mehr als tausend Worte sagt.
  • 0:07 - 0:09
    Aber wir in Harvard
  • 0:09 - 0:12
    haben uns gefragt, ob das wirklich stimmt.
  • 0:12 - 0:14
    (Gelächter)
  • 0:14 - 0:18
    Also haben wir ein Team von Experten versammelt
  • 0:18 - 0:20
    aus Harvard, dem MIT,
  • 0:20 - 0:23
    vom American Heritage Dictionary, der Encyclopedia Britannica
  • 0:23 - 0:25
    und sogar unserem stolzen Sponsor,
  • 0:25 - 0:28
    dem Google.
  • 0:28 - 0:30
    Darüber haben wir
  • 0:30 - 0:32
    ungefähr vier Jahre lang gegrübelt.
  • 0:32 - 0:37
    Und wir sind zu einem überraschenden Ergebnis gekommen.
  • 0:37 - 0:40
    Meine Damen und Herren, ein Bild sagt nicht mehr als tausend Worte.
  • 0:40 - 0:42
    In Wahrheit haben wir Bilder gefunden,
  • 0:42 - 0:47
    die mehr als 500 Milliarden Worte sagen.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Wie sind wir zu diesem Ergebnis gekommen?
  • 0:49 - 0:51
    Erez und ich haben uns Wege überlegt
  • 0:51 - 0:53
    wie wir ein Gesamtbild der menschlichen Kultur
  • 0:53 - 0:56
    und Geschichte erzeugen können: Veränderung im Lauf der Zeit.
  • 0:56 - 0:58
    Über die Jahre wurden so viele Bücher geschrieben.
  • 0:58 - 1:00
    Also haben wir uns gedacht, der beste Weg von ihnen zu lernen,
  • 1:00 - 1:02
    sei all diese Millionen Bücher zu lesen.
  • 1:02 - 1:05
    Wenn es ein Maß dafür gäbe wie toll das ist,
  • 1:05 - 1:08
    wäre dieses sehr, sehr hoch.
  • 1:08 - 1:10
    Das Problem dabei ist, es gibt auch eine X-Achse,
  • 1:10 - 1:12
    die praktische Achse.
  • 1:12 - 1:14
    Die wäre sehr, sehr niedrig.
  • 1:14 - 1:17
    (Applaus)
  • 1:17 - 1:20
    Eine Alternative wäre stattdessen
  • 1:20 - 1:22
    nur ein paar Quellen zu nehmen und diese sehr genau zu lesen.
  • 1:22 - 1:24
    Das ist extrem praktisch, aber weniger toll.
  • 1:24 - 1:27
    Was man wirklich machen will,
  • 1:27 - 1:30
    ist das Tolle und das Praktische zu verbinden.
  • 1:30 - 1:33
    Es stellte sich heraus, dass es auf der anderen Seite des Flusses eine Firma gab, Google,
  • 1:33 - 1:35
    die vor ein paar Jahren ein Digitalisierungsprojekt startete,
  • 1:35 - 1:37
    das genau diese Herangehensweise ermöglichen könnte.
  • 1:37 - 1:39
    Sie haben Millionen Bücher digitalisiert.
  • 1:39 - 1:42
    Das bedeutet, dass man am Computer
  • 1:42 - 1:44
    diese ganzen Bücher auf Knopfdruck lesen kann.
  • 1:44 - 1:47
    Das ist sehr praktisch und extrem toll.
  • 1:48 - 1:50
    ELA: Lasst mich also ein bisschen über den Ursprung von Büchern erzählen.
  • 1:50 - 1:53
    Seit Urzeiten gibt es Autoren.
  • 1:53 - 1:56
    Sie strebten danach Bücher zu schreiben.
  • 1:56 - 1:58
    Dies wurde mit der Erfindung
  • 1:58 - 2:00
    der Druckerpresse vor einigen Jahrhunderten deutlich einfacher.
  • 2:00 - 2:03
    Seither haben Autoren es
  • 2:03 - 2:05
    129 Millionen Mal geschafft Bücher
  • 2:05 - 2:07
    zu veröffentlichen.
  • 2:07 - 2:09
    Wenn diese Bücher nicht im Laufe der Geschichte
  • 2:09 - 2:11
    verloren gegangen sind, stehen sie
  • 2:11 - 2:14
    in irgendeiner Bibliothek, und viele dieser Bücher wurden von Google
  • 2:14 - 2:16
    erfasst und digitalisiert,
  • 2:16 - 2:18
    die bis heute 15 Millionen Bücher gescannt haben.
  • 2:18 - 2:21
    Wenn Google ein Buch digitalisiert, bringen sie es in ein sehr schönes Format.
  • 2:21 - 2:23
    Nun haben wir die Daten, und außerdem Metadaten.
  • 2:23 - 2:26
    Wir haben Informationen wie wo es verlegt wurde,
  • 2:26 - 2:28
    wer der Autor war und wann es veröffentlicht wurde.
  • 2:28 - 2:31
    Wir gehen dann durch all diese Daten
  • 2:31 - 2:35
    und schließen alles aus was nicht von höchster Qualität ist.
  • 2:35 - 2:37
    Was übrig bleibt
  • 2:37 - 2:40
    sind 5 Millionen Bücher,
  • 2:40 - 2:43
    500 Milliarden Wörter,
  • 2:43 - 2:45
    eine Reihe von Buchstaben eintausendmal so lang
  • 2:45 - 2:48
    wie das menschliche Genom --
  • 2:48 - 2:50
    wenn man ihn ausschreiben würde,
  • 2:50 - 2:52
    reichte dieser Text zehn Mal bis zum Mond
  • 2:52 - 2:54
    und zurück --
  • 2:54 - 2:58
    ein beachtlicher Teil unseres kulturellen Genoms.
  • 2:58 - 3:00
    Natürlich haben wir,
  • 3:00 - 3:03
    konfrontiert mit einer solch unverschämten Übertreibung ...
  • 3:03 - 3:05
    (Gelächter)
  • 3:05 - 3:08
    das getan, was jeder anständige Forscher
  • 3:08 - 3:11
    getan hätte.
  • 3:11 - 3:13
    Wir haben uns etwas bei dem Online-Comic XKDC abgeschaut
  • 3:13 - 3:15
    und gesagt: „Vorsicht!
  • 3:15 - 3:17
    Wir versuchen es mit Wissenschaft.“
  • 3:17 - 3:19
    (Gelächter)
  • 3:19 - 3:21
    JM: Zuerst haben wir uns selbstverständlich gedacht,
  • 3:21 - 3:23
    veröffentlichen wir einfach die Daten,
  • 3:23 - 3:25
    so dass Wissenschaft damit betrieben werden kann.
  • 3:25 - 3:27
    Jetzt fragen wir uns aber, welche Daten können wir veröffentlichen?
  • 3:27 - 3:29
    Natürlich will man alle 5 Millionen Bücher
  • 3:29 - 3:31
    im Volltext veröffentlichen.
  • 3:31 - 3:33
    Google allerdings, und vor allem Jon Orwant,
  • 3:33 - 3:35
    haben uns eine kleine Gleichung vermittelt.
  • 3:35 - 3:38
    Man hat also 5 Millionen Bücher, das heißt 5 Millionen Autoren,
  • 3:38 - 3:41
    5 Millionen Kläger und einen gewaltigen Prozess.
  • 3:41 - 3:43
    Daher wäre dies, obwohl sehr, sehr toll,
  • 3:43 - 3:46
    wieder sehr, sehr unpraktisch.
  • 3:46 - 3:48
    (Gelächter)
  • 3:48 - 3:50
    Nochmal haben wir ein bisschen nachgegeben
  • 3:50 - 3:53
    und haben das Praktische gemacht, das jedoch weniger toll war.
  • 3:53 - 3:55
    Wir haben uns entschieden, dass wir statt der Volltexte
  • 3:55 - 3:57
    Statistiken über die Bücher veröffentlichen.
  • 3:57 - 3:59
    Nehmen wir zum Beispiel „A gleam of happiness“.
  • 3:59 - 4:01
    Das sind vier Wörter; das nennen wir ein Viergramm.
  • 4:01 - 4:03
    Wir sagen euch wie oft ein bestimmtes Viergramm
  • 4:03 - 4:05
    in Büchern in den Jahren 1801, 1802, 1803,
  • 4:05 - 4:07
    bis 2008 auftaucht.
  • 4:07 - 4:09
    Wir bekommen eine Zeitfolge,
  • 4:09 - 4:11
    die zeigt, wie oft dieser bestimmte Satz im Laufe der Zeit benutzt wurde.
  • 4:11 - 4:14
    Das machen wir für alle Wörter und Sätze, die in diesen Büchern auftauchen,
  • 4:14 - 4:17
    und daher haben wir eine große Tabelle mit zwei Milliarden Sätzen,
  • 4:17 - 4:19
    die uns etwas über die Veränderung der Kultur erzählen.
  • 4:19 - 4:21
    ELA: Also diese zwei Milliarden Sätze,
  • 4:21 - 4:23
    die nennen wir zwei Milliarden Ngramme.
  • 4:23 - 4:25
    Was sagen sie aus?
  • 4:25 - 4:27
    Die individuellen Ngramme messen kulturelle Trends.
  • 4:27 - 4:29
    Ich gebe euch ein Beispiel.
  • 4:29 - 4:31
    Sagen wir, dass ich Erfolg habe („thriving“),
  • 4:31 - 4:33
    und morgen will ich dir sagen wie viel Erfolg ich gehabt habe.
  • 4:33 - 4:36
    Also sage ich vielleicht: „Gestern ‚throve’ ich“.
  • 4:36 - 4:39
    Auf andere Weise könnte ich auch sagen: „Gestern ‚thrived’ ich“.
  • 4:39 - 4:42
    Welches soll ich denn jetzt benutzen?
  • 4:42 - 4:44
    Wie kann ich das wissen?
  • 4:44 - 4:46
    Bis vor ungefähr sechs Monaten
  • 4:46 - 4:48
    war der Stand der Technik in diesem Bereich,
  • 4:48 - 4:50
    dass man zum folgenden Psychologen
  • 4:50 - 4:52
    mit fantastischen Haaren geht
  • 4:52 - 4:54
    und ihn fragt:
  • 4:54 - 4:57
    „Steve, Sie sind ein Experte der unregelmäßigen Verben.
  • 4:57 - 4:59
    Was soll ich sagen?“
  • 4:59 - 5:01
    Und er würde sagen: „Naja, die meisten Leute sagen ‚thrived’,
  • 5:01 - 5:04
    aber manche Leute sagen ‚throve’“.
  • 5:04 - 5:06
    Und man wusste auch, mehr oder weniger,
  • 5:06 - 5:09
    dass wenn man 200 Jahre in die Vergangenheit reist
  • 5:09 - 5:12
    und den folgenden Staatsmann mit genauso fantastischen Haaren fragt:
  • 5:12 - 5:15
    (Gelächter)
  • 5:15 - 5:17
    „Tom, was soll ich sagen?“
  • 5:17 - 5:19
    Er würde sagen: „Naja, zu meiner Zeit sagten die meisten ‚throve’,
  • 5:19 - 5:22
    aber manche ‚thrived’“.
  • 5:22 - 5:24
    Was ich euch hier zeige sind die Rohdaten.
  • 5:24 - 5:28
    Zwei Reihen aus dieser Tabelle mit zwei Milliarden Einträgen.
  • 5:28 - 5:30
    Was ihr seht ist die jährliche Häufigkeit
  • 5:30 - 5:33
    von „thrived“ und „throve“ im Laufe der Zeit.
  • 5:34 - 5:36
    Doch dies sind nur zwei
  • 5:36 - 5:39
    von zwei Milliarden Reihen.
  • 5:39 - 5:41
    Die ganze Datenmenge
  • 5:41 - 5:44
    ist also eine Milliarde Mal so toll wie diese Folie.
  • 5:44 - 5:46
    (Gelächter)
  • 5:46 - 5:50
    (Applaus)
  • 5:50 - 5:52
    JM: Es gibt noch viele andere Bilder, die mehr als 500 Milliarden Wörter sagen.
  • 5:52 - 5:54
    Zum Beispiel dieses.
  • 5:54 - 5:56
    Wenn man „influenza“ eingibt,
  • 5:56 - 5:58
    sieht man Hochpunkte an Stellen von denen man weiß,
  • 5:58 - 6:01
    dass große Grippeepidemien Menschen in der ganzen Welt töteten.
  • 6:01 - 6:04
    ELA: Wenn du noch nicht überzeugt bist,
  • 6:04 - 6:06
    der Meeresspiegel steigt an,
  • 6:06 - 6:09
    genauso wie atmosphärisches CO2 und die globale Temperatur.
  • 6:09 - 6:12
    JM: Schauen wir uns auch dieses Ngramm an,
  • 6:12 - 6:15
    um Nietzsche sagen zu können, dass Gott doch nicht tot ist,
  • 6:15 - 6:18
    obwohl ihr vielleicht auch der Meinung seid, dass er einen besseren Publizist braucht.
  • 6:18 - 6:20
    (Gelächter)
  • 6:20 - 6:23
    ELA: Hiermit kann man ziemlich abstrakte Konzepte ableiten.
  • 6:23 - 6:25
    Lasst mich zum Beispiel die Geschichte
  • 6:25 - 6:27
    des Jahres 1950 erzählen.
  • 6:27 - 6:29
    Für den größten Teil der Geschichte
  • 6:29 - 6:31
    war 1950 allen scheißegal.
  • 6:31 - 6:33
    In den Jahren 1700, 1800, 1900,
  • 6:33 - 6:36
    war es allen egal.
  • 6:37 - 6:39
    In den 30ern und 40ern,
  • 6:39 - 6:41
    war es allen egal.
  • 6:41 - 6:43
    Plötzlich, mitten in den 40ern,
  • 6:43 - 6:45
    wurde jeder aufgeregt.
  • 6:45 - 6:47
    Es wurde erkannt, dass 1950 kommen würde und,
  • 6:47 - 6:49
    dass es etwas Großes sein könnte.
  • 6:49 - 6:52
    (Gelächter)
  • 6:52 - 6:55
    Aber nichts hat solches Interesse an 1950 erzeugt,
  • 6:55 - 6:58
    wie das Jahr 1950.
  • 6:58 - 7:01
    (Gelächter)
  • 7:01 - 7:03
    Die Leute waren besessen.
  • 7:03 - 7:05
    Sie konnten nicht aufhören
  • 7:05 - 7:08
    über all die Sachen zu reden, die sie in 1950 gemacht hatten,
  • 7:08 - 7:11
    in 1950 machen wollten,
  • 7:11 - 7:16
    die ganzen Träume, die sie in 1950 verwirklichen wollten.
  • 7:16 - 7:18
    1950 war sogar so faszinierend,
  • 7:18 - 7:20
    dass noch Jahre danach
  • 7:20 - 7:23
    über die fantastischen Sachen geredet wurde, die sich ereigneten,
  • 7:23 - 7:25
    in den Jahren ’51, ’52, ’53.
  • 7:25 - 7:27
    Endlich in 1954
  • 7:27 - 7:29
    wachte jemand auf und merkte,
  • 7:29 - 7:33
    dass 1950 nun passé sei.
  • 7:33 - 7:35
    (Gelächter)
  • 7:35 - 7:37
    Und so einfach zerplatzte die Blase.
  • 7:37 - 7:39
    (Gelächter)
  • 7:39 - 7:41
    Und die Geschichte von 1950
  • 7:41 - 7:43
    ist die Geschichte von jedem aufgezeichneten Jahr,
  • 7:43 - 7:46
    mit einer kleinen Wende, denn jetzt wir haben diese schönen Grafiken.
  • 7:46 - 7:49
    Und weil wir diese schönen Grafiken haben, können wir Dinge messen.
  • 7:49 - 7:51
    Wir können sagen: „Na, wie schnell zerplatzt denn die Blase?“
  • 7:51 - 7:54
    Und wir haben herausgefunden, dass wir das sehr genau messen können.
  • 7:54 - 7:57
    Gleichungen wurden hergeleitet, Graphen wurden erzeugt,
  • 7:57 - 7:59
    und das Endergebnis
  • 7:59 - 8:02
    zeigt uns, dass die Blasen mit jedem Jahr
  • 8:02 - 8:04
    schneller und schneller zerplatzen.
  • 8:04 - 8:09
    Wir verlieren schneller unser Interesse an der Vergangenheit.
  • 8:09 - 8:11
    JM: Ein kleiner Karrieretip.
  • 8:11 - 8:13
    Für diejenigen von euch die berühmt werden wollen,
  • 8:13 - 8:15
    können wir von den 25 berühmtesten Politikern,
  • 8:15 - 8:17
    Autoren, Schauspielern usw. lernen.
  • 8:17 - 8:20
    Also wenn du früh berühmt werden willst, solltest du Schauspieler werden,
  • 8:20 - 8:22
    weil die Berühmtheit dann gegen Ende deiner 20er kommt -
  • 8:22 - 8:24
    du bist noch jung, es ist wirklich großartig.
  • 8:24 - 8:26
    Wenn du aber ein bisschen warten kannst, solltest du Autor werden,
  • 8:26 - 8:28
    weil du dann sehr große Höhen erreichst,
  • 8:28 - 8:30
    wie zum Beispiel Mark Twain: extrem berühmt.
  • 8:30 - 8:32
    Aber wenn du den Gipfel erreichen willst,
  • 8:32 - 8:34
    solltest du deinen Erfolg verschieben
  • 8:34 - 8:36
    und natürlich Politiker werden.
  • 8:36 - 8:38
    Damit wird man gegen Ende seiner 50er berühmt,
  • 8:38 - 8:40
    und nachher sehr, sehr berühmt.
  • 8:40 - 8:43
    Wissenschaftler werden häufig auch erst berühmt wenn sie älter sind.
  • 8:43 - 8:45
    Zum Beispiel, Biologen und Physiker
  • 8:45 - 8:47
    werden oft fast so berühmt wie Schauspieler.
  • 8:47 - 8:50
    Einen Fehler den du aber vermeiden solltest, ist Mathematiker zu werden.
  • 8:50 - 8:52
    (Gelächter)
  • 8:52 - 8:54
    Wenn du das machst,
  • 8:54 - 8:57
    denkst du dir: „Genial! Ich mache meine beste Arbeit in meinen 20ern“.
  • 8:57 - 8:59
    Aber stelle dir vor, es wird sich keiner interessieren.
  • 8:59 - 9:02
    (Gelächter)
  • 9:02 - 9:04
    ELA: Es gibt auch ernüchterndere Seiten
  • 9:04 - 9:06
    der Ngramme.
  • 9:06 - 9:08
    Zum Beispiel, hier ist die Kurve von Marc Chagall,
  • 9:08 - 9:10
    ein 1887 geborener Künstler.
  • 9:10 - 9:13
    Die Kurve verläuft normal für eine berühmte Person.
  • 9:13 - 9:17
    Er wird berühmter und berühmter,
  • 9:17 - 9:19
    außer wenn man auf Deutsch sucht.
  • 9:19 - 9:21
    Wenn man im Deutschen sucht, sieht man etwas sehr Bizarres,
  • 9:21 - 9:23
    etwas was man fast nie sieht.
  • 9:23 - 9:25
    Er wird extrem berühmt
  • 9:25 - 9:27
    und stürzt dann auf einmal
  • 9:27 - 9:30
    zwischen 1933 und 1945 bis zum Tiefpunkt
  • 9:30 - 9:33
    und erholt sich nachher wieder.
  • 9:33 - 9:35
    Was wir hier natürlich sehen ist,
  • 9:35 - 9:38
    dass Marc Chagall ein jüdischer Künstler
  • 9:38 - 9:40
    in Nazi-Deutschland war.
  • 9:40 - 9:42
    Diese Zeichen
  • 9:42 - 9:44
    sind tatsächlich so stark,
  • 9:44 - 9:47
    dass wir gar nicht wissen müssen, dass jemand zensiert wurde.
  • 9:47 - 9:49
    Wir können es durch ganz elementare
  • 9:49 - 9:51
    Datenverarbeitung herausfinden.
  • 9:51 - 9:53
    Hier ist eine einfache Methode dafür.
  • 9:53 - 9:55
    Eine sinnvolle Erwartung wäre,
  • 9:55 - 9:57
    dass Berühmtheit in einer bestimmten Zeitspanne
  • 9:57 - 9:59
    ungefähr gleich dem Durchschnitt der Berühmtheit vorher
  • 9:59 - 10:01
    und dem nachher ist.
  • 10:01 - 10:03
    Das ist also mehr oder weniger was wir erwarten.
  • 10:03 - 10:06
    Und dies vergleichen wir mit der beobachtbaren Berühmtheit.
  • 10:06 - 10:08
    Und wir dividieren halt das Eine durch das Andere,
  • 10:08 - 10:10
    um einen sogenannten Unterdrückungsindex zu erzeugen.
  • 10:10 - 10:13
    Wenn dieser Unterdrückungsindex sehr, sehr, sehr klein ist,
  • 10:13 - 10:15
    dann kann es gut sein, dass du unterdrückt wirst.
  • 10:15 - 10:18
    Wenn es sehr groß ist, dann profitierst du vielleicht von Propaganda.
  • 10:19 - 10:21
    JM: Man kann sich tatsächlich
  • 10:21 - 10:24
    die Verteilung von Unterdrückungsindizes ganzer Populationen ansehen.
  • 10:24 - 10:26
    Wie hier zum Beispiel -
  • 10:26 - 10:28
    dieser Unterdrückungsindex ist für 5.000 Menschen
  • 10:28 - 10:30
    aus englischen Büchern, für die es keine bekannte Unterdrückung gibt.
  • 10:30 - 10:32
    Es sähe dann so aus, ziemlich genau eins.
  • 10:32 - 10:34
    Was man erwartet ist im Grunde das, was man beobachtet.
  • 10:34 - 10:36
    Dies ist die Verteilung in Deutschland -
  • 10:36 - 10:38
    sehr anders, nach links verschoben.
  • 10:38 - 10:41
    Darüber wurde zweimal weniger gesprochen als zu erwarten wäre.
  • 10:41 - 10:43
    Aber viel wichtiger ist, dass die Verteilung viel breiter ist.
  • 10:43 - 10:46
    Es gibt viele Leute, die am ganz linken Rand dieser Verteilung sind,
  • 10:46 - 10:49
    von denen zehnmal weniger gesprochen wurde als erwartet.
  • 10:49 - 10:51
    Aber außerdem viele ganz rechts,
  • 10:51 - 10:53
    die anscheinend von Propaganda profitiert haben.
  • 10:53 - 10:56
    Dies ist das typische Bild der Zensur in literarischen Aufzeichnungen.
  • 10:56 - 10:58
    ELA: Kulturomik
  • 10:58 - 11:00
    nennen wir diese Methode.
  • 11:00 - 11:02
    Es ist ungefähr wie Genomik.
  • 11:02 - 11:04
    Doch Genomik ist mehr oder weniger ein Blick auf Biologie
  • 11:04 - 11:07
    durch das Fenster der Sequenzen der Basen im menschlichen Genom.
  • 11:07 - 11:09
    Kulturomik ist so ähnlich.
  • 11:09 - 11:12
    Sie ist die Anwendungsanalyse einer Massendatensammlung
  • 11:12 - 11:14
    auf die Erforschung der menschlichen Kultur.
  • 11:14 - 11:16
    Hier blickt man, statt durch das Genom,
  • 11:16 - 11:19
    durch digitalisierte Stücke der historischen Aufzeichnungen.
  • 11:19 - 11:21
    Das Großartige an Kulturomik ist,
  • 11:21 - 11:23
    dass es jeder machen kann.
  • 11:23 - 11:25
    Warum kann es jeder machen?
  • 11:25 - 11:27
    Jeder kann es machen, weil drei Typen von Google,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray und Will Brockman
  • 11:30 - 11:32
    den Prototyp des Ngram Viewers sahen
  • 11:32 - 11:34
    und sagten: „Das ist so ein Spaß.
  • 11:34 - 11:37
    Dies müssen wir allen zugänglich machen.“
  • 11:37 - 11:39
    Und innerhalb von zwei Wochen - genau bevor unser Artikel erschienen ist -
  • 11:39 - 11:42
    haben sie eine öffentliche Version des Ngram Viewers programmiert.
  • 11:42 - 11:45
    Und jetzt kannst du auch irgendein interessantes Wort oder Redewendung eingeben
  • 11:45 - 11:47
    und sofort das Ngram davon sehen -
  • 11:47 - 11:49
    und auch Beispiele der ganzen verschiedenen Bücher,
  • 11:49 - 11:51
    in denen dein Ngram auftaucht, durchsuchen.
  • 11:51 - 11:53
    JM: Dies wurde am ersten Tag über eine Million Mal genutzt,
  • 11:53 - 11:55
    und das ist wirklich die beste aller Suchanfragen.
  • 11:55 - 11:58
    Leute wollen ihr Bestes geben, sich hervortun.
  • 11:58 - 12:01
    Aber es scheint, dass im 18. Jahrhundert das ziemlich egal war.
  • 12:01 - 12:04
    Damals wollten sie nicht ihr Bestes geben, sondern ihr Beftes.
  • 12:04 - 12:07
    Was hier natürlich passiert ist, ist nur ein Fehler.
  • 12:07 - 12:09
    Es ist nicht, dass sie nach Mittelmäßigkeit strebten,
  • 12:09 - 12:12
    sondern nur, dass das S früher anders geschrieben wurde, eher so wie ein F.
  • 12:12 - 12:15
    Das hat Google anfangs natürlich nicht gemerkt,
  • 12:15 - 12:18
    also haben wir das in unserem wissenschaftlichen Artikel berichtet.
  • 12:18 - 12:20
    Das soll nur als Erinnerung dienen,
  • 12:20 - 12:22
    dass man, obwohl es Spaß macht,
  • 12:22 - 12:24
    diese Graphen mit Vorsicht interpretieren muss,
  • 12:24 - 12:27
    und die Grundnormen der Wissenschaft anwendet.
  • 12:27 - 12:30
    ELA: Bisher ist es für viele lustige Zwecke genutzt worden.
  • 12:30 - 12:37
    (Gelächter)
  • 12:37 - 12:39
    Eigentlich müssen wir gar nicht reden,
  • 12:39 - 12:42
    wir zeigen euch einfach diese Folien und schweigen.
  • 12:42 - 12:45
    Diese Person hat sich für die Geschichte der Frustration interessiert.
  • 12:45 - 12:48
    Es gibt verschiedene Arten von Frustration.
  • 12:48 - 12:51
    Wenn man sich den Zeh stößt, bedeutet das ein „argh“ mit einem A.
  • 12:51 - 12:53
    Wenn die Erde von den Vogonen vernichtet wird,
  • 12:53 - 12:55
    um Platz für eine interstellare Umgehungsstraße zu machen,
  • 12:55 - 12:57
    bedeutet das ein „aaaaaaaargh“ mit acht A.
  • 12:57 - 12:59
    Diese Person beobachtet die ganzen „arghs“
  • 12:59 - 13:01
    von einem A bis acht A.
  • 13:01 - 13:03
    Und es stellte sich heraus,
  • 13:03 - 13:05
    dass die weniger häufigen „arghs“
  • 13:05 - 13:08
    selbstverständlich die sind, die sich auf frustrierendere Sachen beziehen -
  • 13:08 - 13:11
    außer, seltsamerweise, in den früheren 80ern.
  • 13:11 - 13:13
    Wir glauben, das hat vielleicht etwas mit Reagan zu tun.
  • 13:13 - 13:15
    (Gelächter)
  • 13:15 - 13:18
    JM: Es gibt viele Verwendungen dieser Daten,
  • 13:18 - 13:21
    aber im Endeffekt werden die historischen Aufzeichnungen digitalisiert.
  • 13:21 - 13:23
    Google hat angefangen 15 Millionen Bücher zu digitalisieren.
  • 13:23 - 13:25
    Das sind 12 Prozent aller Bücher, die je verlegt wurden.
  • 13:25 - 13:28
    Ein beträchtlicher Teil der menschlichen Kultur.
  • 13:28 - 13:31
    Es gibt viel mehr in der Kultur: es gibt Manuskripte, Zeitungen,
  • 13:31 - 13:33
    es gibt Sachen die nicht Text sind, wie Kunst und Gemälde.
  • 13:33 - 13:35
    All dies ist zufälligerweise auf unseren Computern,
  • 13:35 - 13:37
    auf Computern auf der ganzen Welt.
  • 13:37 - 13:40
    Und wenn das passiert, muss das unser Verständnis für unsere Vergangenheit,
  • 13:40 - 13:42
    unsere Gegenwart und die menschliche Kultur verändern.
  • 13:42 - 13:44
    Vielen Dank.
  • 13:44 - 13:47
    (Applaus)
Title:
Was wir von 5 Millionen Büchern gelernt haben
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Hast du schon mit dem Google Labs Ngram Viewer gespielt? Es ist ein süchtig machendes Tool, das dich nach Worten und Ideen in einer Datenbank von 5 Millionen Büchern suchen lässt. Erez Lieberman Aiden und Jean-Baptiste Michel zeigen uns wie es funktioniert, und auch ein paar überraschende Sachen, die wir von 500 Milliarden Worten lernen können.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Liam Burmester added a translation

German subtitles

Revisions