Erez Lieberman Aiden: Jeder weiß, dass ein Bild mehr als tausend Worte sagt. Aber wir in Harvard haben uns gefragt, ob das wirklich stimmt. (Gelächter) Also haben wir ein Team von Experten versammelt aus Harvard, dem MIT, vom American Heritage Dictionary, der Encyclopedia Britannica und sogar unserem stolzen Sponsor, dem Google. Darüber haben wir ungefähr vier Jahre lang gegrübelt. Und wir sind zu einem überraschenden Ergebnis gekommen. Meine Damen und Herren, ein Bild sagt nicht mehr als tausend Worte. In Wahrheit haben wir Bilder gefunden, die mehr als 500 Milliarden Worte sagen. Jean-Baptiste Michel: Wie sind wir zu diesem Ergebnis gekommen? Erez und ich haben uns Wege überlegt wie wir ein Gesamtbild der menschlichen Kultur und Geschichte erzeugen können: Veränderung im Lauf der Zeit. Über die Jahre wurden so viele Bücher geschrieben. Also haben wir uns gedacht, der beste Weg von ihnen zu lernen, sei all diese Millionen Bücher zu lesen. Wenn es ein Maß dafür gäbe wie toll das ist, wäre dieses sehr, sehr hoch. Das Problem dabei ist, es gibt auch eine X-Achse, die praktische Achse. Die wäre sehr, sehr niedrig. (Applaus) Eine Alternative wäre stattdessen nur ein paar Quellen zu nehmen und diese sehr genau zu lesen. Das ist extrem praktisch, aber weniger toll. Was man wirklich machen will, ist das Tolle und das Praktische zu verbinden. Es stellte sich heraus, dass es auf der anderen Seite des Flusses eine Firma gab, Google, die vor ein paar Jahren ein Digitalisierungsprojekt startete, das genau diese Herangehensweise ermöglichen könnte. Sie haben Millionen Bücher digitalisiert. Das bedeutet, dass man am Computer diese ganzen Bücher auf Knopfdruck lesen kann. Das ist sehr praktisch und extrem toll. ELA: Lasst mich also ein bisschen über den Ursprung von Büchern erzählen. Seit Urzeiten gibt es Autoren. Sie strebten danach Bücher zu schreiben. Dies wurde mit der Erfindung der Druckerpresse vor einigen Jahrhunderten deutlich einfacher. Seither haben Autoren es 129 Millionen Mal geschafft Bücher zu veröffentlichen. Wenn diese Bücher nicht im Laufe der Geschichte verloren gegangen sind, stehen sie in irgendeiner Bibliothek, und viele dieser Bücher wurden von Google erfasst und digitalisiert, die bis heute 15 Millionen Bücher gescannt haben. Wenn Google ein Buch digitalisiert, bringen sie es in ein sehr schönes Format. Nun haben wir die Daten, und außerdem Metadaten. Wir haben Informationen wie wo es verlegt wurde, wer der Autor war und wann es veröffentlicht wurde. Wir gehen dann durch all diese Daten und schließen alles aus was nicht von höchster Qualität ist. Was übrig bleibt sind 5 Millionen Bücher, 500 Milliarden Wörter, eine Reihe von Buchstaben eintausendmal so lang wie das menschliche Genom -- wenn man ihn ausschreiben würde, reichte dieser Text zehn Mal bis zum Mond und zurück -- ein beachtlicher Teil unseres kulturellen Genoms. Natürlich haben wir, konfrontiert mit einer solch unverschämten Übertreibung ... (Gelächter) das getan, was jeder anständige Forscher getan hätte. Wir haben uns etwas bei dem Online-Comic XKDC abgeschaut und gesagt: „Vorsicht! Wir versuchen es mit Wissenschaft.“ (Gelächter) JM: Zuerst haben wir uns selbstverständlich gedacht, veröffentlichen wir einfach die Daten, so dass Wissenschaft damit betrieben werden kann. Jetzt fragen wir uns aber, welche Daten können wir veröffentlichen? Natürlich will man alle 5 Millionen Bücher im Volltext veröffentlichen. Google allerdings, und vor allem Jon Orwant, haben uns eine kleine Gleichung vermittelt. Man hat also 5 Millionen Bücher, das heißt 5 Millionen Autoren, 5 Millionen Kläger und einen gewaltigen Prozess. Daher wäre dies, obwohl sehr, sehr toll, wieder sehr, sehr unpraktisch. (Gelächter) Nochmal haben wir ein bisschen nachgegeben und haben das Praktische gemacht, das jedoch weniger toll war. Wir haben uns entschieden, dass wir statt der Volltexte Statistiken über die Bücher veröffentlichen. Nehmen wir zum Beispiel „A gleam of happiness“. Das sind vier Wörter; das nennen wir ein Viergramm. Wir sagen euch wie oft ein bestimmtes Viergramm in Büchern in den Jahren 1801, 1802, 1803, bis 2008 auftaucht. Wir bekommen eine Zeitfolge, die zeigt, wie oft dieser bestimmte Satz im Laufe der Zeit benutzt wurde. Das machen wir für alle Wörter und Sätze, die in diesen Büchern auftauchen, und daher haben wir eine große Tabelle mit zwei Milliarden Sätzen, die uns etwas über die Veränderung der Kultur erzählen. ELA: Also diese zwei Milliarden Sätze, die nennen wir zwei Milliarden Ngramme. Was sagen sie aus? Die individuellen Ngramme messen kulturelle Trends. Ich gebe euch ein Beispiel. Sagen wir, dass ich Erfolg habe („thriving“), und morgen will ich dir sagen wie viel Erfolg ich gehabt habe. Also sage ich vielleicht: „Gestern ‚throve’ ich“. Auf andere Weise könnte ich auch sagen: „Gestern ‚thrived’ ich“. Welches soll ich denn jetzt benutzen? Wie kann ich das wissen? Bis vor ungefähr sechs Monaten war der Stand der Technik in diesem Bereich, dass man zum folgenden Psychologen mit fantastischen Haaren geht und ihn fragt: „Steve, Sie sind ein Experte der unregelmäßigen Verben. Was soll ich sagen?“ Und er würde sagen: „Naja, die meisten Leute sagen ‚thrived’, aber manche Leute sagen ‚throve’“. Und man wusste auch, mehr oder weniger, dass wenn man 200 Jahre in die Vergangenheit reist und den folgenden Staatsmann mit genauso fantastischen Haaren fragt: (Gelächter) „Tom, was soll ich sagen?“ Er würde sagen: „Naja, zu meiner Zeit sagten die meisten ‚throve’, aber manche ‚thrived’“. Was ich euch hier zeige sind die Rohdaten. Zwei Reihen aus dieser Tabelle mit zwei Milliarden Einträgen. Was ihr seht ist die jährliche Häufigkeit von „thrived“ und „throve“ im Laufe der Zeit. Doch dies sind nur zwei von zwei Milliarden Reihen. Die ganze Datenmenge ist also eine Milliarde Mal so toll wie diese Folie. (Gelächter) (Applaus) JM: Es gibt noch viele andere Bilder, die mehr als 500 Milliarden Wörter sagen. Zum Beispiel dieses. Wenn man „influenza“ eingibt, sieht man Hochpunkte an Stellen von denen man weiß, dass große Grippeepidemien Menschen in der ganzen Welt töteten. ELA: Wenn du noch nicht überzeugt bist, der Meeresspiegel steigt an, genauso wie atmosphärisches CO2 und die globale Temperatur. JM: Schauen wir uns auch dieses Ngramm an, um Nietzsche sagen zu können, dass Gott doch nicht tot ist, obwohl ihr vielleicht auch der Meinung seid, dass er einen besseren Publizist braucht. (Gelächter) ELA: Hiermit kann man ziemlich abstrakte Konzepte ableiten. Lasst mich zum Beispiel die Geschichte des Jahres 1950 erzählen. Für den größten Teil der Geschichte war 1950 allen scheißegal. In den Jahren 1700, 1800, 1900, war es allen egal. In den 30ern und 40ern, war es allen egal. Plötzlich, mitten in den 40ern, wurde jeder aufgeregt. Es wurde erkannt, dass 1950 kommen würde und, dass es etwas Großes sein könnte. (Gelächter) Aber nichts hat solches Interesse an 1950 erzeugt, wie das Jahr 1950. (Gelächter) Die Leute waren besessen. Sie konnten nicht aufhören über all die Sachen zu reden, die sie in 1950 gemacht hatten, in 1950 machen wollten, die ganzen Träume, die sie in 1950 verwirklichen wollten. 1950 war sogar so faszinierend, dass noch Jahre danach über die fantastischen Sachen geredet wurde, die sich ereigneten, in den Jahren ’51, ’52, ’53. Endlich in 1954 wachte jemand auf und merkte, dass 1950 nun passé sei. (Gelächter) Und so einfach zerplatzte die Blase. (Gelächter) Und die Geschichte von 1950 ist die Geschichte von jedem aufgezeichneten Jahr, mit einer kleinen Wende, denn jetzt wir haben diese schönen Grafiken. Und weil wir diese schönen Grafiken haben, können wir Dinge messen. Wir können sagen: „Na, wie schnell zerplatzt denn die Blase?“ Und wir haben herausgefunden, dass wir das sehr genau messen können. Gleichungen wurden hergeleitet, Graphen wurden erzeugt, und das Endergebnis zeigt uns, dass die Blasen mit jedem Jahr schneller und schneller zerplatzen. Wir verlieren schneller unser Interesse an der Vergangenheit. JM: Ein kleiner Karrieretip. Für diejenigen von euch die berühmt werden wollen, können wir von den 25 berühmtesten Politikern, Autoren, Schauspielern usw. lernen. Also wenn du früh berühmt werden willst, solltest du Schauspieler werden, weil die Berühmtheit dann gegen Ende deiner 20er kommt - du bist noch jung, es ist wirklich großartig. Wenn du aber ein bisschen warten kannst, solltest du Autor werden, weil du dann sehr große Höhen erreichst, wie zum Beispiel Mark Twain: extrem berühmt. Aber wenn du den Gipfel erreichen willst, solltest du deinen Erfolg verschieben und natürlich Politiker werden. Damit wird man gegen Ende seiner 50er berühmt, und nachher sehr, sehr berühmt. Wissenschaftler werden häufig auch erst berühmt wenn sie älter sind. Zum Beispiel, Biologen und Physiker werden oft fast so berühmt wie Schauspieler. Einen Fehler den du aber vermeiden solltest, ist Mathematiker zu werden. (Gelächter) Wenn du das machst, denkst du dir: „Genial! Ich mache meine beste Arbeit in meinen 20ern“. Aber stelle dir vor, es wird sich keiner interessieren. (Gelächter) ELA: Es gibt auch ernüchterndere Seiten der Ngramme. Zum Beispiel, hier ist die Kurve von Marc Chagall, ein 1887 geborener Künstler. Die Kurve verläuft normal für eine berühmte Person. Er wird berühmter und berühmter, außer wenn man auf Deutsch sucht. Wenn man im Deutschen sucht, sieht man etwas sehr Bizarres, etwas was man fast nie sieht. Er wird extrem berühmt und stürzt dann auf einmal zwischen 1933 und 1945 bis zum Tiefpunkt und erholt sich nachher wieder. Was wir hier natürlich sehen ist, dass Marc Chagall ein jüdischer Künstler in Nazi-Deutschland war. Diese Zeichen sind tatsächlich so stark, dass wir gar nicht wissen müssen, dass jemand zensiert wurde. Wir können es durch ganz elementare Datenverarbeitung herausfinden. Hier ist eine einfache Methode dafür. Eine sinnvolle Erwartung wäre, dass Berühmtheit in einer bestimmten Zeitspanne ungefähr gleich dem Durchschnitt der Berühmtheit vorher und dem nachher ist. Das ist also mehr oder weniger was wir erwarten. Und dies vergleichen wir mit der beobachtbaren Berühmtheit. Und wir dividieren halt das Eine durch das Andere, um einen sogenannten Unterdrückungsindex zu erzeugen. Wenn dieser Unterdrückungsindex sehr, sehr, sehr klein ist, dann kann es gut sein, dass du unterdrückt wirst. Wenn es sehr groß ist, dann profitierst du vielleicht von Propaganda. JM: Man kann sich tatsächlich die Verteilung von Unterdrückungsindizes ganzer Populationen ansehen. Wie hier zum Beispiel - dieser Unterdrückungsindex ist für 5.000 Menschen aus englischen Büchern, für die es keine bekannte Unterdrückung gibt. Es sähe dann so aus, ziemlich genau eins. Was man erwartet ist im Grunde das, was man beobachtet. Dies ist die Verteilung in Deutschland - sehr anders, nach links verschoben. Darüber wurde zweimal weniger gesprochen als zu erwarten wäre. Aber viel wichtiger ist, dass die Verteilung viel breiter ist. Es gibt viele Leute, die am ganz linken Rand dieser Verteilung sind, von denen zehnmal weniger gesprochen wurde als erwartet. Aber außerdem viele ganz rechts, die anscheinend von Propaganda profitiert haben. Dies ist das typische Bild der Zensur in literarischen Aufzeichnungen. ELA: Kulturomik nennen wir diese Methode. Es ist ungefähr wie Genomik. Doch Genomik ist mehr oder weniger ein Blick auf Biologie durch das Fenster der Sequenzen der Basen im menschlichen Genom. Kulturomik ist so ähnlich. Sie ist die Anwendungsanalyse einer Massendatensammlung auf die Erforschung der menschlichen Kultur. Hier blickt man, statt durch das Genom, durch digitalisierte Stücke der historischen Aufzeichnungen. Das Großartige an Kulturomik ist, dass es jeder machen kann. Warum kann es jeder machen? Jeder kann es machen, weil drei Typen von Google, Jon Orwant, Matt Gray und Will Brockman den Prototyp des Ngram Viewers sahen und sagten: „Das ist so ein Spaß. Dies müssen wir allen zugänglich machen.“ Und innerhalb von zwei Wochen - genau bevor unser Artikel erschienen ist - haben sie eine öffentliche Version des Ngram Viewers programmiert. Und jetzt kannst du auch irgendein interessantes Wort oder Redewendung eingeben und sofort das Ngram davon sehen - und auch Beispiele der ganzen verschiedenen Bücher, in denen dein Ngram auftaucht, durchsuchen. JM: Dies wurde am ersten Tag über eine Million Mal genutzt, und das ist wirklich die beste aller Suchanfragen. Leute wollen ihr Bestes geben, sich hervortun. Aber es scheint, dass im 18. Jahrhundert das ziemlich egal war. Damals wollten sie nicht ihr Bestes geben, sondern ihr Beftes. Was hier natürlich passiert ist, ist nur ein Fehler. Es ist nicht, dass sie nach Mittelmäßigkeit strebten, sondern nur, dass das S früher anders geschrieben wurde, eher so wie ein F. Das hat Google anfangs natürlich nicht gemerkt, also haben wir das in unserem wissenschaftlichen Artikel berichtet. Das soll nur als Erinnerung dienen, dass man, obwohl es Spaß macht, diese Graphen mit Vorsicht interpretieren muss, und die Grundnormen der Wissenschaft anwendet. ELA: Bisher ist es für viele lustige Zwecke genutzt worden. (Gelächter) Eigentlich müssen wir gar nicht reden, wir zeigen euch einfach diese Folien und schweigen. Diese Person hat sich für die Geschichte der Frustration interessiert. Es gibt verschiedene Arten von Frustration. Wenn man sich den Zeh stößt, bedeutet das ein „argh“ mit einem A. Wenn die Erde von den Vogonen vernichtet wird, um Platz für eine interstellare Umgehungsstraße zu machen, bedeutet das ein „aaaaaaaargh“ mit acht A. Diese Person beobachtet die ganzen „arghs“ von einem A bis acht A. Und es stellte sich heraus, dass die weniger häufigen „arghs“ selbstverständlich die sind, die sich auf frustrierendere Sachen beziehen - außer, seltsamerweise, in den früheren 80ern. Wir glauben, das hat vielleicht etwas mit Reagan zu tun. (Gelächter) JM: Es gibt viele Verwendungen dieser Daten, aber im Endeffekt werden die historischen Aufzeichnungen digitalisiert. Google hat angefangen 15 Millionen Bücher zu digitalisieren. Das sind 12 Prozent aller Bücher, die je verlegt wurden. Ein beträchtlicher Teil der menschlichen Kultur. Es gibt viel mehr in der Kultur: es gibt Manuskripte, Zeitungen, es gibt Sachen die nicht Text sind, wie Kunst und Gemälde. All dies ist zufälligerweise auf unseren Computern, auf Computern auf der ganzen Welt. Und wenn das passiert, muss das unser Verständnis für unsere Vergangenheit, unsere Gegenwart und die menschliche Kultur verändern. Vielen Dank. (Applaus)