Erez Lieberman Aiden: Alla vet att en bild säger mer än tusen ord. Men vi på Harvard funderade på om detta verkligen var sant. (Skratt) Så vi satte ihop ett expertteam, från Harvard, MIT, The American Heritage Dictionary, Encyclopedia Britannica, och även vår stolta sponsor Google. Så vi grubblade på detta i ungefär fyra år. Och kom fram till en uppseendeväckande slutsats. Mina damer och herrar, en bild säger inte mer än tusen ord. Vi hittade faktiskt en del bilder som säger mer än 500 miljarder ord. Jean-Baptiste Michel: Så hur kom vi fram till den slutsatsen? Erez och jag funderade på hur vi skulle få en överblick över människans kultur och historia; förändringar över tiden. Så många böcker har ju faktiskt skrivits under åren. Så vi tänkte att det bästa sättet att lära sig från dem är att läsa alla dessa miljontals böcker. Och såklart, finns det en skala för hur häftigt det är, så måste det rankas extremt, extremt högt. Problemet är att det finns en X-axel för det, vilket är den praktiska axeln. Den är väldigt, väldigt låg. (Applåder) Folk tenderar att använda en alternativ approach, att ta ett fåtal källor och läsa dem väldigt noga. Det är extremt praktiskt, men inte särskilt häftigt. Det man verkligen vill göra är att nå den häftiga men ändå praktiska delen av det här utrymmet. Och så visade det sig att det fanns ett företag på andra sidan floden; Google, som hade börjat ett digitaliseringsprojekt några år tidigare som kanske skulle fixa den approachen. De har digitaliserat miljontals böcker. Vilket innebär att man med hjälp av datorberäkningar skulle kunna läsa alla böcker med ett knapptryck. Det är väldigt praktiskt och extremt häftigt. ELA: Låt mig berätta lite om var böckerna kommer från. Sedan urminnes tider har det funnits författare. Dessa författare har strävat efter att skriva böcker. Och detta blev betydligt enklare när tryckpressen uppfanns för några hundra år sedan. Sedan dess har författarna fått, vid 129 miljoner tillfällen, böcker publicerade. Om de böckerna inte är förlorade i historien, så finns de någonstans i ett bibliotek, och många av de böckerna har tagits upp från biblioteken och digitaliserats av Google, som till dags dato har scannat 15 miljoner böcker. När Google digitaliserar en bok, gör de den i ett mycket trevligt format. Så vi har data, och vi har dessutom metadata. Vi har information om saker som var den gavs ut, vem författaren var, när den gavs ut Det vi gör är att gå genom alla inmatningar och tar bort allt som inte är data av högsta kvalitet. Det vi har kvar är en samling av fem miljoner böcker, 500 miljarder ord, en teckensträng tusen gånger längre än det mänskliga genomet -- en text som, om den skrevs ut, skulle sträcka sig härifrån till månen och tillbaka 10 gånger om -- en skärva av vårt kulturella genom. Det vi förstås gjorde när vi stod inför sådana enorma överdrifter... (Skratt) var vad alla forskare med självrespekt skulle ha gjort. Vi tog en sida från XKCD och sa "Backa, vi ska testa vetenskap". (Skratt) JM: Vi tänkte förstås att vi först skulle lägga ut data så att folk skulle kunna göra vetenskap av det. Och så tänker vi, vilket data kan vi släppa? Man vill ju förstås ta böckerna och släppa den fulla texten från dessa fem miljoner böcker. Google, och Jon Orwant i synnerhet, visade oss en liten ekvation som vi skulle lära oss. Man har alltså fem miljoner, fem miljoner författare och fem miljoner målsägande i en enorm rättsprocess. Så även om det vore riktigt, riktigt häftigt, så vore det extremt opraktiskt. (Skratt) Så vi gav oss, och tog den väldigt praktiska vägen, som var lite mindre häftig. Vi sa att okej, istället för att släppa den fulla texten så skulle vi släppa statistik om böckerna. Ta till exempel "En glimt av lycka" Det är fyra ord; vi kallar det ett fyrgram. Vi ska tala om hur många gånger ett visst fyrgram dök upp i böcker under 1801, 1802, 1803, och hela vägen till 2008. Det ger oss en tidsserie på hur frekvent den specifika meningen användes över tiden. Vi gör detta för alla ord och fraser som finns i dessa böcker, vilket ger oss en tabell med två miljarder rader som berättar för oss om hur kulturen har förändrats. ELA: De två miljarder raderna, vi kallar dem två miljarder n-gram. Vad säger de oss? De individuella n-grammen mäter kulturella trender. Låt mig ge ett exempel. Låt oss säga att jag lyckas väl (I am thriving), och i morgon vill jag säga hur bra det gått för mig. Då kanske jag säger "Yesterday, I throve" Eller så skulle jag kunna säga "Yesterday, I thrived" Så vilken form ska jag använda? Hur ska jag veta? För ungefär sex månader sedan, var läget på det här området så att du, som exempel, skulle gå fram till den där psykologen med det fantastiska håret, och säga "Steve, du är ju expert på oregelbundna verb. Vad ska jag göra?" Och han skulle säga "Ja, de flesta säger thrived, men en del säger throve". Du vet också, mer eller mindre, att om du skulle gå 200 år bakåt i tiden och fråga den här statsmannen med lika fantastiskt hår, (Skratt) "Tom, vad ska jag säga?" Så skulle han svara "På min tid sa de flesta throve, men en del sa thrived" Så det jag nu ska visa är rådata. Två rader från den här tabellen med två miljarder poster. Det ni ser är frekvensen år för år för "thrived" och "throve" över tiden. Detta är bara två av två miljarder rader. Så hela datasetet är en miljard gånger häftigare än den här bilden. (Skratt) (Applåder) JM: Det finns många andra bilder som säger mer än 500 miljarder ord. Till exempel den här. Om man tar influensa så ser man toppar vid de tider då man vet att influensaepidemier dödade folk runtom i världen. ELA: Om du inte är övertygad än, havsnivåerna stiger, likaså koldioxidhalten i atmosfären och den globala temperaturen. JM: Du vill kanske också ta en titt på det här specifika n-grammet, för att tala om för Nietzsche att Gud inte är död, även om du håller med om att han behöver en bättre publicist. (Skratt) ELA: Man kan komma åt ganska abstrakta koncept på det här viset. Låt mig berätta en historia om året 1950. Under större delen av historien brydde sig ingen om 1950. År 1700, 1800, 1900, brydde sig ingen. Under 30- och 40-talen brydde sig ingen. Men plötsligt, i mitten av 40-talet, började det snackas. Folk insåg att 1950 skulle hända, och att det kunde bli stort. (Skratt) Men inget fick folk så intresserade av 1950 som 1950 själv. (Skratt) Folk gick omkring som besatta. De kunde inte sluta prata om allt de gjorde 1950, allt de planerade att göra 1950 alla drömmar de ville förverkliga under 1950. Faktum är att 1950 var så fascinerande att under flera år efteråt fortsatte folk prata om alla fantastiska saker som hände, -51, -52, -53. Till slut, 1954, vaknade någon upp och insåg att 1950 nu var ganska passé. (Skratt) Och vips så sprack bubblan. (Skratt) Och historien om 1950 är historien om vartenda år som vi har dokumentation om, med en twist, för nu har vi ju de här fina diagrammen. Och eftersom vi har de fina diagrammen, kan vi mäta saker. Vi kan säga "Hur fort spricker bubblan?" Och det visar sig att vi kan mäta det väldigt exakt. Så ekvationer skapades, diagram producerades, och nettoresultatet är att vi ser att bubblan spricker fortare och fortare för varje år som går. Vi tappar intresset för det förgångna allt snabbare. JM: Nu lite karriärrådgivning. För er som vill bli berömda, vi kan lära från de 25 mest berömda politiska figurerna, författare, skådespelare och så vidare. Vill du bli berömd tidigt så ska du bli skådespelare, för då börjar berömmelsen stiga i slutet av 20-årsåldern -- du är fortfarande ung, det är riktigt bra. Om du kan vänta lite så ska du hellre bli författare, för då kan du stiga till enorma höjder, som t.ex. Mark Twain, och bli extremt berömd. Men om du vill nå den yttersta toppen bör du senarelägga njutningen av berömmelse och förstås bli politiker. För då blir du berömd i slutet av 50-årsåldern, och väldigt väldigt berömd efteråt. Vetenskapsmän tenderar att bli berömda när de är mycket äldre. Biologer och fysiker tenderar att bli nästan lika berömda som skådespelare. Ett misstag du inte bör göra är att bli matematiker. (Skratt) Blir du det kan du tänka "Bra, jag kommer göra mitt bästa jobb i 20-årsåldern". Men vet du vad? Ingen kommer att bry sig. (Skratt) ELA: Det finns lugnande noter bland n-grammen. Här är till exempel Marc Chagalls bana, en konstnär, född 1887. Det ser ut som en normal bana för en berömd person. Han blir mer och mer berömd, förutom om man tittar på tyska. Om man tittar på tyska så ser man något helt bisarrt, något man nästan aldrig ser, och det är att han blir extremt berömd och plötsligt dyker till en lägsta punkt mellan 1933 och 1945, innan han återhämtar sig. Det vi förstås ser här är det faktum att Marc Chagall var en judisk konstnär i nazi-Tyskland. Dessa signaler är så starka att vi inte behöver veta att någon blev censurerad. Vi kan lista ut det genom att använda grundläggande signalbehandling. Här är ett enkelt sätt att göra det på. Ett rimligt antagande är att någons berömmelse under en given tidsperiod borde vara ungefär genomsnittet av deras berömmelse innan och deras berömmelse efter. Det är ungefär det vi väntar oss. Så vi jämför det med den berömmelse vi observerar. Och delar den ena med den andra för att skapa något vi kallar förtryck-index. Om förtryck-indexet är väldigt, väldigt, väldigt litet kan det mycket väl vara så att du blir förtryckt. Om det är väldigt stort kanske du drar nytta av propaganda. JM: Man kan faktiskt titta på fördelningen av förtryck-index över hela befolkningar. Till exempel, här -- det här indexet är för 5.000 personer utvalda ur engelska böcker utan känt förtryck -- det skulle vara så här, hårt centrerat kring en. Det man förväntar sig är i princip det man observerar. Det här är fördelningen sedd i Tyskland -- väldigt annorlunda, förflyttad åt vänster. Folk talade om det hälften så lite som de borde ha gjort. Men mycket viktigare, fördelningen är mycket bredare. Det är många som hamnar långt till vänster i fördelningen som omtalas 10 gånger mindre än de borde ha omtalats. Men också många långt till höger som verkar dra nytta av propaganda. Den här bilden är stämpeln för censur i bokregistret. ELA: Så kulturomik är det vi kallar den här metoden. Det är ungefär som genomik. Förutom att genomik är en lins mot biologin genom fönstret av basernas ordningsföljd i det mänskliga genomet. Kulturomik är något liknande. Användandet av storskalig datainsamling och analys på studier av människans kultur. Och här, istället för att se det genom ett fönster mot genomet, genom ett fönster mot digitaliserade bitar av historien. Det bra med kulturomik är att alla kan göra det. Varför kan alla göra det? Alla kan göra det för att tre killar, Jon Orwant, Matt Gray och Will Brockman på Google såg prototypen av Ngram Viewer och sa "Det här är så kul. Vi måste göra detta tillgängligt för folk". Så på två veckor blankt -- de två veckorna innan vår rapport kom ut -- kodade de en version av Ngram Viewer för allmänheten. Så du kan också mata ett ord eller en fras du är intresserad av och se dess n-gram omedelbart -- och se exempel på alla möjliga böcker där ditt n-gram förekommer. JM: Det användes mer än en miljon gånger den första dagen, och detta är den bästa av alla sökningar. Folk ville vara sitt bästa, visa framfötterna. Men det visar sig att på 1700-talet brydde man sig inte om det alls. De ville inte vara sitt bästa, de ville vara sitt bäfta. Det som hände är förstås att det bara är ett misstag. De strävade inte efter att vara mediokra, det är bara det att S skrevs annorlunda, ungefär som F. Google såg inte detta direkt så vi rapporterade om det i en artikel vi skrev. Men det är bara en påminnelse om att, hur kul detta än är, så måste man vara försiktig när man tolkar diagrammen, och man måste anamma vetenskapliga standarder. ELA: Folk har använt det här för alla möjliga roliga syften. (Skratt) Vi behöver faktiskt inte ens prata, vi visar bara bilderna och håller tyst. Den här personen var intresserad av frustrationens historia. Det finns olika typer av frustration. Om du slår tån så är det ett en-A "argh" Om Jorden förintas av Vogoner för att göra plats för en interstellär motorväg så är det ett åtta-A "aaaaaaaargh" Den här personen studerade alla "arghs", från ett till åtta A. Och det visade sig att de mindre förekommande "arghs" är de som hör ihop med saker som är mer frustrerande -- förutom, märkligt nog, i början av 80-talet. Vi tror att det kan ha att göra med Reagan. (Skratt) JM: Det finns många användningsområden för dessa data, men grunden är att historien digitaliseras. Google har börjat digitalisera 15 miljoner böcker. Det är 12 procent av alla böcker som någonsin givits ut. Det är en rätt stor bit mänsklig kultur. Det finns mycket mer i kultur: manuskript, tidningar, saker som inte är text, som konst och målningar. De kommer att finnas i våra datorer, i datorer runtom i världen. Och när det händer kommer det att förändra vårt sätt att förstå vårt förflutna, vår nutid och människans kultur. Tack så mycket. (Applåder)