Was wir von 5 Millionen Büchern gelernt haben
-
0:00 - 0:02Erez Lieberman Aiden: Jeder weiß,
-
0:02 - 0:05dass ein Bild mehr als tausend Worte sagt.
-
0:07 - 0:09Aber wir in Harvard
-
0:09 - 0:12haben uns gefragt, ob das wirklich stimmt.
-
0:12 - 0:14(Gelächter)
-
0:14 - 0:18Also haben wir ein Team von Experten versammelt
-
0:18 - 0:20aus Harvard, dem MIT,
-
0:20 - 0:23vom American Heritage Dictionary, der Encyclopedia Britannica
-
0:23 - 0:25und sogar unserem stolzen Sponsor,
-
0:25 - 0:28dem Google.
-
0:28 - 0:30Darüber haben wir
-
0:30 - 0:32ungefähr vier Jahre lang gegrübelt.
-
0:32 - 0:37Und wir sind zu einem überraschenden Ergebnis gekommen.
-
0:37 - 0:40Meine Damen und Herren, ein Bild sagt nicht mehr als tausend Worte.
-
0:40 - 0:42In Wahrheit haben wir Bilder gefunden,
-
0:42 - 0:47die mehr als 500 Milliarden Worte sagen.
-
0:47 - 0:49Jean-Baptiste Michel: Wie sind wir zu diesem Ergebnis gekommen?
-
0:49 - 0:51Erez und ich haben uns Wege überlegt
-
0:51 - 0:53wie wir ein Gesamtbild der menschlichen Kultur
-
0:53 - 0:56und Geschichte erzeugen können: Veränderung im Lauf der Zeit.
-
0:56 - 0:58Über die Jahre wurden so viele Bücher geschrieben.
-
0:58 - 1:00Also haben wir uns gedacht, der beste Weg von ihnen zu lernen,
-
1:00 - 1:02sei all diese Millionen Bücher zu lesen.
-
1:02 - 1:05Wenn es ein Maß dafür gäbe wie toll das ist,
-
1:05 - 1:08wäre dieses sehr, sehr hoch.
-
1:08 - 1:10Das Problem dabei ist, es gibt auch eine X-Achse,
-
1:10 - 1:12die praktische Achse.
-
1:12 - 1:14Die wäre sehr, sehr niedrig.
-
1:14 - 1:17(Applaus)
-
1:17 - 1:20Eine Alternative wäre stattdessen
-
1:20 - 1:22nur ein paar Quellen zu nehmen und diese sehr genau zu lesen.
-
1:22 - 1:24Das ist extrem praktisch, aber weniger toll.
-
1:24 - 1:27Was man wirklich machen will,
-
1:27 - 1:30ist das Tolle und das Praktische zu verbinden.
-
1:30 - 1:33Es stellte sich heraus, dass es auf der anderen Seite des Flusses eine Firma gab, Google,
-
1:33 - 1:35die vor ein paar Jahren ein Digitalisierungsprojekt startete,
-
1:35 - 1:37das genau diese Herangehensweise ermöglichen könnte.
-
1:37 - 1:39Sie haben Millionen Bücher digitalisiert.
-
1:39 - 1:42Das bedeutet, dass man am Computer
-
1:42 - 1:44diese ganzen Bücher auf Knopfdruck lesen kann.
-
1:44 - 1:47Das ist sehr praktisch und extrem toll.
-
1:48 - 1:50ELA: Lasst mich also ein bisschen über den Ursprung von Büchern erzählen.
-
1:50 - 1:53Seit Urzeiten gibt es Autoren.
-
1:53 - 1:56Sie strebten danach Bücher zu schreiben.
-
1:56 - 1:58Dies wurde mit der Erfindung
-
1:58 - 2:00der Druckerpresse vor einigen Jahrhunderten deutlich einfacher.
-
2:00 - 2:03Seither haben Autoren es
-
2:03 - 2:05129 Millionen Mal geschafft Bücher
-
2:05 - 2:07zu veröffentlichen.
-
2:07 - 2:09Wenn diese Bücher nicht im Laufe der Geschichte
-
2:09 - 2:11verloren gegangen sind, stehen sie
-
2:11 - 2:14in irgendeiner Bibliothek, und viele dieser Bücher wurden von Google
-
2:14 - 2:16erfasst und digitalisiert,
-
2:16 - 2:18die bis heute 15 Millionen Bücher gescannt haben.
-
2:18 - 2:21Wenn Google ein Buch digitalisiert, bringen sie es in ein sehr schönes Format.
-
2:21 - 2:23Nun haben wir die Daten, und außerdem Metadaten.
-
2:23 - 2:26Wir haben Informationen wie wo es verlegt wurde,
-
2:26 - 2:28wer der Autor war und wann es veröffentlicht wurde.
-
2:28 - 2:31Wir gehen dann durch all diese Daten
-
2:31 - 2:35und schließen alles aus was nicht von höchster Qualität ist.
-
2:35 - 2:37Was übrig bleibt
-
2:37 - 2:40sind 5 Millionen Bücher,
-
2:40 - 2:43500 Milliarden Wörter,
-
2:43 - 2:45eine Reihe von Buchstaben eintausendmal so lang
-
2:45 - 2:48wie das menschliche Genom --
-
2:48 - 2:50wenn man ihn ausschreiben würde,
-
2:50 - 2:52reichte dieser Text zehn Mal bis zum Mond
-
2:52 - 2:54und zurück --
-
2:54 - 2:58ein beachtlicher Teil unseres kulturellen Genoms.
-
2:58 - 3:00Natürlich haben wir,
-
3:00 - 3:03konfrontiert mit einer solch unverschämten Übertreibung ...
-
3:03 - 3:05(Gelächter)
-
3:05 - 3:08das getan, was jeder anständige Forscher
-
3:08 - 3:11getan hätte.
-
3:11 - 3:13Wir haben uns etwas bei dem Online-Comic XKDC abgeschaut
-
3:13 - 3:15und gesagt: „Vorsicht!
-
3:15 - 3:17Wir versuchen es mit Wissenschaft.“
-
3:17 - 3:19(Gelächter)
-
3:19 - 3:21JM: Zuerst haben wir uns selbstverständlich gedacht,
-
3:21 - 3:23veröffentlichen wir einfach die Daten,
-
3:23 - 3:25so dass Wissenschaft damit betrieben werden kann.
-
3:25 - 3:27Jetzt fragen wir uns aber, welche Daten können wir veröffentlichen?
-
3:27 - 3:29Natürlich will man alle 5 Millionen Bücher
-
3:29 - 3:31im Volltext veröffentlichen.
-
3:31 - 3:33Google allerdings, und vor allem Jon Orwant,
-
3:33 - 3:35haben uns eine kleine Gleichung vermittelt.
-
3:35 - 3:38Man hat also 5 Millionen Bücher, das heißt 5 Millionen Autoren,
-
3:38 - 3:415 Millionen Kläger und einen gewaltigen Prozess.
-
3:41 - 3:43Daher wäre dies, obwohl sehr, sehr toll,
-
3:43 - 3:46wieder sehr, sehr unpraktisch.
-
3:46 - 3:48(Gelächter)
-
3:48 - 3:50Nochmal haben wir ein bisschen nachgegeben
-
3:50 - 3:53und haben das Praktische gemacht, das jedoch weniger toll war.
-
3:53 - 3:55Wir haben uns entschieden, dass wir statt der Volltexte
-
3:55 - 3:57Statistiken über die Bücher veröffentlichen.
-
3:57 - 3:59Nehmen wir zum Beispiel „A gleam of happiness“.
-
3:59 - 4:01Das sind vier Wörter; das nennen wir ein Viergramm.
-
4:01 - 4:03Wir sagen euch wie oft ein bestimmtes Viergramm
-
4:03 - 4:05in Büchern in den Jahren 1801, 1802, 1803,
-
4:05 - 4:07bis 2008 auftaucht.
-
4:07 - 4:09Wir bekommen eine Zeitfolge,
-
4:09 - 4:11die zeigt, wie oft dieser bestimmte Satz im Laufe der Zeit benutzt wurde.
-
4:11 - 4:14Das machen wir für alle Wörter und Sätze, die in diesen Büchern auftauchen,
-
4:14 - 4:17und daher haben wir eine große Tabelle mit zwei Milliarden Sätzen,
-
4:17 - 4:19die uns etwas über die Veränderung der Kultur erzählen.
-
4:19 - 4:21ELA: Also diese zwei Milliarden Sätze,
-
4:21 - 4:23die nennen wir zwei Milliarden Ngramme.
-
4:23 - 4:25Was sagen sie aus?
-
4:25 - 4:27Die individuellen Ngramme messen kulturelle Trends.
-
4:27 - 4:29Ich gebe euch ein Beispiel.
-
4:29 - 4:31Sagen wir, dass ich Erfolg habe („thriving“),
-
4:31 - 4:33und morgen will ich dir sagen wie viel Erfolg ich gehabt habe.
-
4:33 - 4:36Also sage ich vielleicht: „Gestern ‚throve’ ich“.
-
4:36 - 4:39Auf andere Weise könnte ich auch sagen: „Gestern ‚thrived’ ich“.
-
4:39 - 4:42Welches soll ich denn jetzt benutzen?
-
4:42 - 4:44Wie kann ich das wissen?
-
4:44 - 4:46Bis vor ungefähr sechs Monaten
-
4:46 - 4:48war der Stand der Technik in diesem Bereich,
-
4:48 - 4:50dass man zum folgenden Psychologen
-
4:50 - 4:52mit fantastischen Haaren geht
-
4:52 - 4:54und ihn fragt:
-
4:54 - 4:57„Steve, Sie sind ein Experte der unregelmäßigen Verben.
-
4:57 - 4:59Was soll ich sagen?“
-
4:59 - 5:01Und er würde sagen: „Naja, die meisten Leute sagen ‚thrived’,
-
5:01 - 5:04aber manche Leute sagen ‚throve’“.
-
5:04 - 5:06Und man wusste auch, mehr oder weniger,
-
5:06 - 5:09dass wenn man 200 Jahre in die Vergangenheit reist
-
5:09 - 5:12und den folgenden Staatsmann mit genauso fantastischen Haaren fragt:
-
5:12 - 5:15(Gelächter)
-
5:15 - 5:17„Tom, was soll ich sagen?“
-
5:17 - 5:19Er würde sagen: „Naja, zu meiner Zeit sagten die meisten ‚throve’,
-
5:19 - 5:22aber manche ‚thrived’“.
-
5:22 - 5:24Was ich euch hier zeige sind die Rohdaten.
-
5:24 - 5:28Zwei Reihen aus dieser Tabelle mit zwei Milliarden Einträgen.
-
5:28 - 5:30Was ihr seht ist die jährliche Häufigkeit
-
5:30 - 5:33von „thrived“ und „throve“ im Laufe der Zeit.
-
5:34 - 5:36Doch dies sind nur zwei
-
5:36 - 5:39von zwei Milliarden Reihen.
-
5:39 - 5:41Die ganze Datenmenge
-
5:41 - 5:44ist also eine Milliarde Mal so toll wie diese Folie.
-
5:44 - 5:46(Gelächter)
-
5:46 - 5:50(Applaus)
-
5:50 - 5:52JM: Es gibt noch viele andere Bilder, die mehr als 500 Milliarden Wörter sagen.
-
5:52 - 5:54Zum Beispiel dieses.
-
5:54 - 5:56Wenn man „influenza“ eingibt,
-
5:56 - 5:58sieht man Hochpunkte an Stellen von denen man weiß,
-
5:58 - 6:01dass große Grippeepidemien Menschen in der ganzen Welt töteten.
-
6:01 - 6:04ELA: Wenn du noch nicht überzeugt bist,
-
6:04 - 6:06der Meeresspiegel steigt an,
-
6:06 - 6:09genauso wie atmosphärisches CO2 und die globale Temperatur.
-
6:09 - 6:12JM: Schauen wir uns auch dieses Ngramm an,
-
6:12 - 6:15um Nietzsche sagen zu können, dass Gott doch nicht tot ist,
-
6:15 - 6:18obwohl ihr vielleicht auch der Meinung seid, dass er einen besseren Publizist braucht.
-
6:18 - 6:20(Gelächter)
-
6:20 - 6:23ELA: Hiermit kann man ziemlich abstrakte Konzepte ableiten.
-
6:23 - 6:25Lasst mich zum Beispiel die Geschichte
-
6:25 - 6:27des Jahres 1950 erzählen.
-
6:27 - 6:29Für den größten Teil der Geschichte
-
6:29 - 6:31war 1950 allen scheißegal.
-
6:31 - 6:33In den Jahren 1700, 1800, 1900,
-
6:33 - 6:36war es allen egal.
-
6:37 - 6:39In den 30ern und 40ern,
-
6:39 - 6:41war es allen egal.
-
6:41 - 6:43Plötzlich, mitten in den 40ern,
-
6:43 - 6:45wurde jeder aufgeregt.
-
6:45 - 6:47Es wurde erkannt, dass 1950 kommen würde und,
-
6:47 - 6:49dass es etwas Großes sein könnte.
-
6:49 - 6:52(Gelächter)
-
6:52 - 6:55Aber nichts hat solches Interesse an 1950 erzeugt,
-
6:55 - 6:58wie das Jahr 1950.
-
6:58 - 7:01(Gelächter)
-
7:01 - 7:03Die Leute waren besessen.
-
7:03 - 7:05Sie konnten nicht aufhören
-
7:05 - 7:08über all die Sachen zu reden, die sie in 1950 gemacht hatten,
-
7:08 - 7:11in 1950 machen wollten,
-
7:11 - 7:16die ganzen Träume, die sie in 1950 verwirklichen wollten.
-
7:16 - 7:181950 war sogar so faszinierend,
-
7:18 - 7:20dass noch Jahre danach
-
7:20 - 7:23über die fantastischen Sachen geredet wurde, die sich ereigneten,
-
7:23 - 7:25in den Jahren ’51, ’52, ’53.
-
7:25 - 7:27Endlich in 1954
-
7:27 - 7:29wachte jemand auf und merkte,
-
7:29 - 7:33dass 1950 nun passé sei.
-
7:33 - 7:35(Gelächter)
-
7:35 - 7:37Und so einfach zerplatzte die Blase.
-
7:37 - 7:39(Gelächter)
-
7:39 - 7:41Und die Geschichte von 1950
-
7:41 - 7:43ist die Geschichte von jedem aufgezeichneten Jahr,
-
7:43 - 7:46mit einer kleinen Wende, denn jetzt wir haben diese schönen Grafiken.
-
7:46 - 7:49Und weil wir diese schönen Grafiken haben, können wir Dinge messen.
-
7:49 - 7:51Wir können sagen: „Na, wie schnell zerplatzt denn die Blase?“
-
7:51 - 7:54Und wir haben herausgefunden, dass wir das sehr genau messen können.
-
7:54 - 7:57Gleichungen wurden hergeleitet, Graphen wurden erzeugt,
-
7:57 - 7:59und das Endergebnis
-
7:59 - 8:02zeigt uns, dass die Blasen mit jedem Jahr
-
8:02 - 8:04schneller und schneller zerplatzen.
-
8:04 - 8:09Wir verlieren schneller unser Interesse an der Vergangenheit.
-
8:09 - 8:11JM: Ein kleiner Karrieretip.
-
8:11 - 8:13Für diejenigen von euch die berühmt werden wollen,
-
8:13 - 8:15können wir von den 25 berühmtesten Politikern,
-
8:15 - 8:17Autoren, Schauspielern usw. lernen.
-
8:17 - 8:20Also wenn du früh berühmt werden willst, solltest du Schauspieler werden,
-
8:20 - 8:22weil die Berühmtheit dann gegen Ende deiner 20er kommt -
-
8:22 - 8:24du bist noch jung, es ist wirklich großartig.
-
8:24 - 8:26Wenn du aber ein bisschen warten kannst, solltest du Autor werden,
-
8:26 - 8:28weil du dann sehr große Höhen erreichst,
-
8:28 - 8:30wie zum Beispiel Mark Twain: extrem berühmt.
-
8:30 - 8:32Aber wenn du den Gipfel erreichen willst,
-
8:32 - 8:34solltest du deinen Erfolg verschieben
-
8:34 - 8:36und natürlich Politiker werden.
-
8:36 - 8:38Damit wird man gegen Ende seiner 50er berühmt,
-
8:38 - 8:40und nachher sehr, sehr berühmt.
-
8:40 - 8:43Wissenschaftler werden häufig auch erst berühmt wenn sie älter sind.
-
8:43 - 8:45Zum Beispiel, Biologen und Physiker
-
8:45 - 8:47werden oft fast so berühmt wie Schauspieler.
-
8:47 - 8:50Einen Fehler den du aber vermeiden solltest, ist Mathematiker zu werden.
-
8:50 - 8:52(Gelächter)
-
8:52 - 8:54Wenn du das machst,
-
8:54 - 8:57denkst du dir: „Genial! Ich mache meine beste Arbeit in meinen 20ern“.
-
8:57 - 8:59Aber stelle dir vor, es wird sich keiner interessieren.
-
8:59 - 9:02(Gelächter)
-
9:02 - 9:04ELA: Es gibt auch ernüchterndere Seiten
-
9:04 - 9:06der Ngramme.
-
9:06 - 9:08Zum Beispiel, hier ist die Kurve von Marc Chagall,
-
9:08 - 9:10ein 1887 geborener Künstler.
-
9:10 - 9:13Die Kurve verläuft normal für eine berühmte Person.
-
9:13 - 9:17Er wird berühmter und berühmter,
-
9:17 - 9:19außer wenn man auf Deutsch sucht.
-
9:19 - 9:21Wenn man im Deutschen sucht, sieht man etwas sehr Bizarres,
-
9:21 - 9:23etwas was man fast nie sieht.
-
9:23 - 9:25Er wird extrem berühmt
-
9:25 - 9:27und stürzt dann auf einmal
-
9:27 - 9:30zwischen 1933 und 1945 bis zum Tiefpunkt
-
9:30 - 9:33und erholt sich nachher wieder.
-
9:33 - 9:35Was wir hier natürlich sehen ist,
-
9:35 - 9:38dass Marc Chagall ein jüdischer Künstler
-
9:38 - 9:40in Nazi-Deutschland war.
-
9:40 - 9:42Diese Zeichen
-
9:42 - 9:44sind tatsächlich so stark,
-
9:44 - 9:47dass wir gar nicht wissen müssen, dass jemand zensiert wurde.
-
9:47 - 9:49Wir können es durch ganz elementare
-
9:49 - 9:51Datenverarbeitung herausfinden.
-
9:51 - 9:53Hier ist eine einfache Methode dafür.
-
9:53 - 9:55Eine sinnvolle Erwartung wäre,
-
9:55 - 9:57dass Berühmtheit in einer bestimmten Zeitspanne
-
9:57 - 9:59ungefähr gleich dem Durchschnitt der Berühmtheit vorher
-
9:59 - 10:01und dem nachher ist.
-
10:01 - 10:03Das ist also mehr oder weniger was wir erwarten.
-
10:03 - 10:06Und dies vergleichen wir mit der beobachtbaren Berühmtheit.
-
10:06 - 10:08Und wir dividieren halt das Eine durch das Andere,
-
10:08 - 10:10um einen sogenannten Unterdrückungsindex zu erzeugen.
-
10:10 - 10:13Wenn dieser Unterdrückungsindex sehr, sehr, sehr klein ist,
-
10:13 - 10:15dann kann es gut sein, dass du unterdrückt wirst.
-
10:15 - 10:18Wenn es sehr groß ist, dann profitierst du vielleicht von Propaganda.
-
10:19 - 10:21JM: Man kann sich tatsächlich
-
10:21 - 10:24die Verteilung von Unterdrückungsindizes ganzer Populationen ansehen.
-
10:24 - 10:26Wie hier zum Beispiel -
-
10:26 - 10:28dieser Unterdrückungsindex ist für 5.000 Menschen
-
10:28 - 10:30aus englischen Büchern, für die es keine bekannte Unterdrückung gibt.
-
10:30 - 10:32Es sähe dann so aus, ziemlich genau eins.
-
10:32 - 10:34Was man erwartet ist im Grunde das, was man beobachtet.
-
10:34 - 10:36Dies ist die Verteilung in Deutschland -
-
10:36 - 10:38sehr anders, nach links verschoben.
-
10:38 - 10:41Darüber wurde zweimal weniger gesprochen als zu erwarten wäre.
-
10:41 - 10:43Aber viel wichtiger ist, dass die Verteilung viel breiter ist.
-
10:43 - 10:46Es gibt viele Leute, die am ganz linken Rand dieser Verteilung sind,
-
10:46 - 10:49von denen zehnmal weniger gesprochen wurde als erwartet.
-
10:49 - 10:51Aber außerdem viele ganz rechts,
-
10:51 - 10:53die anscheinend von Propaganda profitiert haben.
-
10:53 - 10:56Dies ist das typische Bild der Zensur in literarischen Aufzeichnungen.
-
10:56 - 10:58ELA: Kulturomik
-
10:58 - 11:00nennen wir diese Methode.
-
11:00 - 11:02Es ist ungefähr wie Genomik.
-
11:02 - 11:04Doch Genomik ist mehr oder weniger ein Blick auf Biologie
-
11:04 - 11:07durch das Fenster der Sequenzen der Basen im menschlichen Genom.
-
11:07 - 11:09Kulturomik ist so ähnlich.
-
11:09 - 11:12Sie ist die Anwendungsanalyse einer Massendatensammlung
-
11:12 - 11:14auf die Erforschung der menschlichen Kultur.
-
11:14 - 11:16Hier blickt man, statt durch das Genom,
-
11:16 - 11:19durch digitalisierte Stücke der historischen Aufzeichnungen.
-
11:19 - 11:21Das Großartige an Kulturomik ist,
-
11:21 - 11:23dass es jeder machen kann.
-
11:23 - 11:25Warum kann es jeder machen?
-
11:25 - 11:27Jeder kann es machen, weil drei Typen von Google,
-
11:27 - 11:30Jon Orwant, Matt Gray und Will Brockman
-
11:30 - 11:32den Prototyp des Ngram Viewers sahen
-
11:32 - 11:34und sagten: „Das ist so ein Spaß.
-
11:34 - 11:37Dies müssen wir allen zugänglich machen.“
-
11:37 - 11:39Und innerhalb von zwei Wochen - genau bevor unser Artikel erschienen ist -
-
11:39 - 11:42haben sie eine öffentliche Version des Ngram Viewers programmiert.
-
11:42 - 11:45Und jetzt kannst du auch irgendein interessantes Wort oder Redewendung eingeben
-
11:45 - 11:47und sofort das Ngram davon sehen -
-
11:47 - 11:49und auch Beispiele der ganzen verschiedenen Bücher,
-
11:49 - 11:51in denen dein Ngram auftaucht, durchsuchen.
-
11:51 - 11:53JM: Dies wurde am ersten Tag über eine Million Mal genutzt,
-
11:53 - 11:55und das ist wirklich die beste aller Suchanfragen.
-
11:55 - 11:58Leute wollen ihr Bestes geben, sich hervortun.
-
11:58 - 12:01Aber es scheint, dass im 18. Jahrhundert das ziemlich egal war.
-
12:01 - 12:04Damals wollten sie nicht ihr Bestes geben, sondern ihr Beftes.
-
12:04 - 12:07Was hier natürlich passiert ist, ist nur ein Fehler.
-
12:07 - 12:09Es ist nicht, dass sie nach Mittelmäßigkeit strebten,
-
12:09 - 12:12sondern nur, dass das S früher anders geschrieben wurde, eher so wie ein F.
-
12:12 - 12:15Das hat Google anfangs natürlich nicht gemerkt,
-
12:15 - 12:18also haben wir das in unserem wissenschaftlichen Artikel berichtet.
-
12:18 - 12:20Das soll nur als Erinnerung dienen,
-
12:20 - 12:22dass man, obwohl es Spaß macht,
-
12:22 - 12:24diese Graphen mit Vorsicht interpretieren muss,
-
12:24 - 12:27und die Grundnormen der Wissenschaft anwendet.
-
12:27 - 12:30ELA: Bisher ist es für viele lustige Zwecke genutzt worden.
-
12:30 - 12:37(Gelächter)
-
12:37 - 12:39Eigentlich müssen wir gar nicht reden,
-
12:39 - 12:42wir zeigen euch einfach diese Folien und schweigen.
-
12:42 - 12:45Diese Person hat sich für die Geschichte der Frustration interessiert.
-
12:45 - 12:48Es gibt verschiedene Arten von Frustration.
-
12:48 - 12:51Wenn man sich den Zeh stößt, bedeutet das ein „argh“ mit einem A.
-
12:51 - 12:53Wenn die Erde von den Vogonen vernichtet wird,
-
12:53 - 12:55um Platz für eine interstellare Umgehungsstraße zu machen,
-
12:55 - 12:57bedeutet das ein „aaaaaaaargh“ mit acht A.
-
12:57 - 12:59Diese Person beobachtet die ganzen „arghs“
-
12:59 - 13:01von einem A bis acht A.
-
13:01 - 13:03Und es stellte sich heraus,
-
13:03 - 13:05dass die weniger häufigen „arghs“
-
13:05 - 13:08selbstverständlich die sind, die sich auf frustrierendere Sachen beziehen -
-
13:08 - 13:11außer, seltsamerweise, in den früheren 80ern.
-
13:11 - 13:13Wir glauben, das hat vielleicht etwas mit Reagan zu tun.
-
13:13 - 13:15(Gelächter)
-
13:15 - 13:18JM: Es gibt viele Verwendungen dieser Daten,
-
13:18 - 13:21aber im Endeffekt werden die historischen Aufzeichnungen digitalisiert.
-
13:21 - 13:23Google hat angefangen 15 Millionen Bücher zu digitalisieren.
-
13:23 - 13:25Das sind 12 Prozent aller Bücher, die je verlegt wurden.
-
13:25 - 13:28Ein beträchtlicher Teil der menschlichen Kultur.
-
13:28 - 13:31Es gibt viel mehr in der Kultur: es gibt Manuskripte, Zeitungen,
-
13:31 - 13:33es gibt Sachen die nicht Text sind, wie Kunst und Gemälde.
-
13:33 - 13:35All dies ist zufälligerweise auf unseren Computern,
-
13:35 - 13:37auf Computern auf der ganzen Welt.
-
13:37 - 13:40Und wenn das passiert, muss das unser Verständnis für unsere Vergangenheit,
-
13:40 - 13:42unsere Gegenwart und die menschliche Kultur verändern.
-
13:42 - 13:44Vielen Dank.
-
13:44 - 13:47(Applaus)
- Title:
- Was wir von 5 Millionen Büchern gelernt haben
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Hast du schon mit dem Google Labs Ngram Viewer gespielt? Es ist ein süchtig machendes Tool, das dich nach Worten und Ideen in einer Datenbank von 5 Millionen Büchern suchen lässt. Erez Lieberman Aiden und Jean-Baptiste Michel zeigen uns wie es funktioniert, und auch ein paar überraschende Sachen, die wir von 500 Milliarden Worten lernen können.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48