WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Iedereen weet 00:00:02.000 --> 00:00:05.000 dat één beeld meer zegt dan 1000 woorden. 00:00:07.000 --> 00:00:09.000 Maar wij in Harvard 00:00:09.000 --> 00:00:12.000 vroegen ons af of dit wel echt klopte. 00:00:12.000 --> 00:00:14.000 (Gelach) 00:00:14.000 --> 00:00:18.000 Dus verzamelden we een team van experts, 00:00:18.000 --> 00:00:20.000 van Harvard, MIT, 00:00:20.000 --> 00:00:23.000 The American Heritage Dictionary, The Encyclopedia Britannica 00:00:23.000 --> 00:00:25.000 en zelfs onze trotse sponsors, 00:00:25.000 --> 00:00:28.000 The Google. 00:00:28.000 --> 00:00:30.000 We overpeinsden dit 00:00:30.000 --> 00:00:32.000 gedurende vier jaar. 00:00:32.000 --> 00:00:37.000 We kwamen tot een verrassende conclusie. 00:00:37.000 --> 00:00:40.000 Dames en heren, een beeld is niet alleen meer waard dan 1000 woorden. 00:00:40.000 --> 00:00:42.000 Wij hebben beelden gevonden 00:00:42.000 --> 00:00:47.000 die 500 miljard woorden waard zijn. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Hoe kwamen we tot deze conclusie? 00:00:49.000 --> 00:00:51.000 Erez en ik dachten na hoe we een overzicht 00:00:51.000 --> 00:00:53.000 konden krijgen van onze cultuur 00:00:53.000 --> 00:00:56.000 en geschiedenis: de verandering door de tijd. 00:00:56.000 --> 00:00:58.000 Er zijn vele boeken geschreven over de jaren. 00:00:58.000 --> 00:01:00.000 Dus dachten we: de beste manier om ervan te leren 00:01:00.000 --> 00:01:02.000 is die miljoenen boeken allemaal te lezen. 00:01:02.000 --> 00:01:05.000 Op de schaal van hoe vet dat is, 00:01:05.000 --> 00:01:08.000 zou dit extreem hoog scoren. 00:01:08.000 --> 00:01:10.000 Het probleem is de X-as hiervan, 00:01:10.000 --> 00:01:12.000 hetgeen de praktische as is. 00:01:12.000 --> 00:01:14.000 Die is bijzonder laag. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Applaus) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Mensen kiezen meestal voor een alternatieve aanpak, 00:01:20.000 --> 00:01:22.000 namelijk: enkele bronnen zeer grondig lezen. 00:01:22.000 --> 00:01:24.000 Dat is zeer praktisch, maar niet zo vet. 00:01:24.000 --> 00:01:27.000 Wat je zou willen, is in het 00:01:27.000 --> 00:01:30.000 vette en toch praktische deel van dit vlak belanden. 00:01:30.000 --> 00:01:33.000 Nu zat er vlakbij een bedrijf genaamd Google 00:01:33.000 --> 00:01:35.000 dat een digitalisatieproject was begonnen 00:01:35.000 --> 00:01:37.000 dat dit wellicht mogelijk kon maken. 00:01:37.000 --> 00:01:39.000 Ze hebben miljoenen boeken gedigitaliseerd. 00:01:39.000 --> 00:01:42.000 Dit betekent dat je rekenkundige methoden kunt gebruiken 00:01:42.000 --> 00:01:44.000 om al deze boeken te lezen met één muisklik. 00:01:44.000 --> 00:01:47.000 Dat is zeer praktisch en extreem vet. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Ik zal even vertellen waar boeken vandaan komen. 00:01:50.000 --> 00:01:53.000 Sinds mensenheugenis zijn er schrijvers geweest. 00:01:53.000 --> 00:01:56.000 Deze schrijvers streefden ernaar boeken te schrijven. 00:01:56.000 --> 00:01:58.000 Dit werd aanzienlijk vergemakkelijkt 00:01:58.000 --> 00:02:00.000 door de komst van drukpers, enkele eeuwen geleden. 00:02:00.000 --> 00:02:03.000 Sindsdien is het deze schrijvers 00:02:03.000 --> 00:02:05.000 129 miljoen maal gelukt 00:02:05.000 --> 00:02:07.000 een boek te publiceren. 00:02:07.000 --> 00:02:09.000 Als deze boeken niet verloren zijn gegaan, 00:02:09.000 --> 00:02:11.000 staan ze ergens in een bibliotheek, 00:02:11.000 --> 00:02:14.000 en veel van die boeken zijn uit bibliotheken gehaald 00:02:14.000 --> 00:02:16.000 en gedigitaliseerd door Google, 00:02:16.000 --> 00:02:18.000 dat tot op heden 15 miljoen boeken heeft gescand. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Google digitaliseert boeken tot een heel mooi formaat. 00:02:21.000 --> 00:02:23.000 We hebben de data, plus meta-data. 00:02:23.000 --> 00:02:26.000 We hebben informatie over waar het gepubliceerd was, 00:02:26.000 --> 00:02:28.000 wie de auteur was, wanneer het uitkwam. 00:02:28.000 --> 00:02:31.000 Wij gaan door al die documenten heen 00:02:31.000 --> 00:02:35.000 en sluiten alles uit wat niet van de hoogste kwaliteit is. 00:02:35.000 --> 00:02:37.000 Wat we dan overhouden, 00:02:37.000 --> 00:02:40.000 is een collectie van 5 miljoen boeken, 00:02:40.000 --> 00:02:43.000 500 miljard woorden, 00:02:43.000 --> 00:02:45.000 een rij letters duizend maal langer 00:02:45.000 --> 00:02:48.000 dan het menselijk genoom -- 00:02:48.000 --> 00:02:50.000 een tekst die, uitgeschreven, 00:02:50.000 --> 00:02:52.000 10 maal tot de maan 00:02:52.000 --> 00:02:54.000 en terug zou reiken -- 00:02:54.000 --> 00:02:58.000 een waarachtige scherf van ons culturele genoom. 00:02:58.000 --> 00:03:00.000 Wat we uiteraard deden 00:03:00.000 --> 00:03:03.000 ten overstaan van zulk buitensporig hyperbool ... 00:03:03.000 --> 00:03:05.000 (Gelach) 00:03:05.000 --> 00:03:08.000 was wat ieder zichzelf respecterend onderzoeker 00:03:08.000 --> 00:03:11.000 gedaan zou hebben. 00:03:11.000 --> 00:03:13.000 We namen een pagina uit XKDC, 00:03:13.000 --> 00:03:15.000 en zeiden: "Pas op! 00:03:15.000 --> 00:03:17.000 We gaan een poging tot wetenschap doen." NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Gelach) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Natuurlijk dachten we: 00:03:21.000 --> 00:03:23.000 laten we eerst de data produceren 00:03:23.000 --> 00:03:25.000 waarop mensen wetenschap kunnen loslaten. 00:03:25.000 --> 00:03:27.000 We dachten: welke data kunnen we produceren? 00:03:27.000 --> 00:03:29.000 Natuurlijk wil je de volledige tekst 00:03:29.000 --> 00:03:31.000 van deze 5 miljoen boeken publiceren. 00:03:31.000 --> 00:03:33.000 Google, en Jon Orwant in het bijzonder, 00:03:33.000 --> 00:03:35.000 hielden ons het volgende sommetje voor. 00:03:35.000 --> 00:03:38.000 Je hebt 5 miljoen boeken; dat is 5 miljoen auteurs... 00:03:38.000 --> 00:03:41.000 ...en 5 miljoen eisers is een gigantische rechtszaak. 00:03:41.000 --> 00:03:43.000 Ook al zou dat uitermate vet zijn, 00:03:43.000 --> 00:03:46.000 het is, nogmaals, extreem onpraktisch. 00:03:46.000 --> 00:03:48.000 (Gelach) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Dus we gingen overstag, 00:03:50.000 --> 00:03:53.000 en we kozen de praktische aanpak, die iets minder vet was. 00:03:53.000 --> 00:03:55.000 We zeiden, in plaats van de hele tekst uitgeven, 00:03:55.000 --> 00:03:57.000 gaan we statistieken uitgeven over de boeken. 00:03:57.000 --> 00:03:59.000 Neem bijvoorbeeld "A gleam of happiness". 00:03:59.000 --> 00:04:01.000 Vier woorden; we noemen dat een four-gram. 00:04:01.000 --> 00:04:03.000 We gaan laten zien hoe vaak een specifiek four-gram 00:04:03.000 --> 00:04:05.000 verscheen in boeken in 1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 tot en met 2008. 00:04:07.000 --> 00:04:09.000 Dat levert een tijdverloop op 00:04:09.000 --> 00:04:11.000 van hoe frequent deze specifieke zin gebruikt werd. 00:04:11.000 --> 00:04:14.000 We doen dat met alle woorden en zinnen die in die boeken voorkomen, 00:04:14.000 --> 00:04:17.000 wat een lijst van twee miljard zinnen oplevert 00:04:17.000 --> 00:04:19.000 die laat zien hoe onze cultuur veranderd is. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Die 2 miljard zinnen 00:04:21.000 --> 00:04:23.000 noemen we 2 miljard n-grams. 00:04:23.000 --> 00:04:25.000 Wat vertellen ze ons? 00:04:25.000 --> 00:04:27.000 De individuele n-grams meten culturele trends. 00:04:27.000 --> 00:04:29.000 Ik zal een voorbeeld geven. 00:04:29.000 --> 00:04:31.000 Stel dat ik geluk ervaar, 00:04:31.000 --> 00:04:33.000 en morgen vertel ik je daarover. 00:04:33.000 --> 00:04:36.000 Dan kan ik zeggen: "Gisteren ervoer ik geluk." 00:04:36.000 --> 00:04:39.000 Of: "Gisteren ervaarde ik geluk." 00:04:39.000 --> 00:04:42.000 Wat moet ik gebruiken? 00:04:42.000 --> 00:04:44.000 Hoe kom je daar achter? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Sinds een maand of zes, 00:04:46.000 --> 00:04:48.000 is de meest vooruitstrevende manier 00:04:48.000 --> 00:04:50.000 om hier achter te komen, bijvoorbeeld, 00:04:50.000 --> 00:04:52.000 het benaderen van de volgende psycholoog met geweldig haar, 00:04:52.000 --> 00:04:54.000 en je zegt: 00:04:54.000 --> 00:04:57.000 "Steve, jij weet alles van onregelmatige werkwoorden. 00:04:57.000 --> 00:04:59.000 Wat moet ik doen?" 00:04:59.000 --> 00:05:01.000 Dan zegt hij: "Nou, de meeste mensen zeggen 'ervaarde', 00:05:01.000 --> 00:05:04.000 maar sommige mensen zeggen 'ervaarde'." 00:05:04.000 --> 00:05:06.000 Je weet ook, min of meer, 00:05:06.000 --> 00:05:09.000 dat als je 200 jaar teruggaat in de tijd 00:05:09.000 --> 00:05:12.000 en deze staatsman met even geweldig haar, vraagt: 00:05:12.000 --> 00:05:15.000 (Gelach) 00:05:15.000 --> 00:05:17.000 "Tom, wat moet ik zeggen?'" 00:05:17.000 --> 00:05:19.000 Dan zou hij zeggen: "Nou, in mijn tijd ervoeren 00:05:19.000 --> 00:05:22.000 de meeste mensen, maar sommigen ervaarden." 00:05:22.000 --> 00:05:24.000 Nu ga ik wat rauwe data laten zien. 00:05:24.000 --> 00:05:28.000 Twee kolommen uit de lijst met 2 miljard gegevens. 00:05:28.000 --> 00:05:30.000 Wat je ziet, is de jaarlijkse frequentie 00:05:30.000 --> 00:05:33.000 van 'ervoeren' en 'ervaarden' doorheen de tijd. 00:05:34.000 --> 00:05:36.000 Dit zijn slechts twee 00:05:36.000 --> 00:05:39.000 van de twee miljard kolommen. 00:05:39.000 --> 00:05:41.000 Dus de hele dataset 00:05:41.000 --> 00:05:44.000 is een miljard maal vetter dan deze dia. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Gelach) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Applaus) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Er zijn veel andere beelden die 500 miljard woorden waard zijn. 00:05:52.000 --> 00:05:54.000 Bijvoorbeeld dit beeld. 00:05:54.000 --> 00:05:56.000 Als je enkel griep neemt, 00:05:56.000 --> 00:05:58.000 zie je pieken op tijdstippen waarvan je weet dat 00:05:58.000 --> 00:06:01.000 grote griepepidemieën wereldwijd levens kostten. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Mocht je nog niet overtuigd zijn: 00:06:04.000 --> 00:06:06.000 zeewaterniveaus stijgen, 00:06:06.000 --> 00:06:09.000 evenals CO2 in de lucht, en de globale temperatuur. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Kijk ook even naar dit n-gram, 00:06:12.000 --> 00:06:15.000 dat Nietzsche vertelt dat God niet dood is, 00:06:15.000 --> 00:06:18.000 hoewel je kunt zeggen dat hij betere pr nodig heeft. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Gelach) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Je komt bij behoorlijk abstracte concepten met dit soort dingen. 00:06:23.000 --> 00:06:25.000 Ik zal je bijvoorbeeld de geschiedenis laten zien 00:06:25.000 --> 00:06:27.000 van het jaar 1950. 00:06:27.000 --> 00:06:29.000 Tijdens het grootste deel van de geschiedenis, 00:06:29.000 --> 00:06:31.000 kon 1950 niemand iets schelen. 00:06:31.000 --> 00:06:33.000 In 1700, 1800, en 1900 00:06:33.000 --> 00:06:36.000 interesseerde het niemand. 00:06:37.000 --> 00:06:39.000 In de jaren '30 en '40, 00:06:39.000 --> 00:06:41.000 interesseerde het niemand. 00:06:41.000 --> 00:06:43.000 Opeens, midden jaren '40, 00:06:43.000 --> 00:06:45.000 ontstond er rumoer. 00:06:45.000 --> 00:06:47.000 Mensen beseften dat 1950 er aan ging komen, 00:06:47.000 --> 00:06:49.000 en het zou belangrijk kunnen zijn. 00:06:49.000 --> 00:06:52.000 (Gelach) 00:06:52.000 --> 00:06:55.000 Maar niets liet mensen zo warmlopen voor 1950 00:06:55.000 --> 00:06:58.000 als het jaar 1950. 00:06:58.000 --> 00:07:01.000 (Gelach) 00:07:01.000 --> 00:07:03.000 Mensen liepen geobsedeerd rond. 00:07:03.000 --> 00:07:05.000 Ze bleven maar praten 00:07:05.000 --> 00:07:08.000 over alle dingen die ze deden in 1950, 00:07:08.000 --> 00:07:11.000 alle dingen die ze van plan waren in 1950, 00:07:11.000 --> 00:07:16.000 alle dromen die ze wilden verwezenlijken in 1950. 00:07:16.000 --> 00:07:18.000 In feite was 1950 zo fascinerend 00:07:18.000 --> 00:07:20.000 dat mensen jaren later 00:07:20.000 --> 00:07:23.000 nog steeds praatten over alle verbazingwekkends dat gebeurd was, 00:07:23.000 --> 00:07:25.000 in '51, '52, '53. 00:07:25.000 --> 00:07:27.000 Uiteindelijk in 1954, 00:07:27.000 --> 00:07:29.000 werd er iemand wakker die zich realiseerde 00:07:29.000 --> 00:07:33.000 dat 1950 nu wat achterhaald was. 00:07:33.000 --> 00:07:35.000 (Gelach) 00:07:35.000 --> 00:07:37.000 Opeens was de zeepbel gebarsten. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Gelach) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 Het verhaal van 1950 00:07:41.000 --> 00:07:43.000 is het verhaal van elk jaar dat gemeten is, 00:07:43.000 --> 00:07:46.000 met een kleine draai, want nu hebben we deze mooie grafieken. 00:07:46.000 --> 00:07:49.000 Omdat we die hebben, kunnen we dingen meten. 00:07:49.000 --> 00:07:51.000 We kunnen vragen: "Hoe snel is de zeepbel gebarsten?" 00:07:51.000 --> 00:07:54.000 Dat blijken we zeer precies te kunnen meten. 00:07:54.000 --> 00:07:57.000 Vergelijkingen en grafieken werden gemaakt, 00:07:57.000 --> 00:07:59.000 en het netto resultaat 00:07:59.000 --> 00:08:02.000 is dat we zien dat de bel steeds sneller barst 00:08:02.000 --> 00:08:04.000 naarmate de tijd vordert. 00:08:04.000 --> 00:08:09.000 We raken sneller uitgekeken op het verleden. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Nu wat carrière-advies. 00:08:11.000 --> 00:08:13.000 Diegenen van jullie die beroemd willen worden, 00:08:13.000 --> 00:08:15.000 kunnen leren van de 25 beroemdste politieke figuren, 00:08:15.000 --> 00:08:17.000 schrijvers, acteurs enzovoort. 00:08:17.000 --> 00:08:20.000 Om snel beroemd te worden, zou je acteur moeten zijn, 00:08:20.000 --> 00:08:22.000 want dan stijgt je bekendheid nog vóór je dertigste -- 00:08:22.000 --> 00:08:24.000 je bent nog jong, helemaal geweldig. 00:08:24.000 --> 00:08:26.000 Als je wat langer kunt wachten, zou je schrijver moeten zijn, 00:08:26.000 --> 00:08:28.000 want dan stijg je tot grote hoogten, 00:08:28.000 --> 00:08:30.000 zoals Mark Twain, bijvoorbeeld: extreem beroemd. 00:08:30.000 --> 00:08:32.000 Maar als je de absolute top wilt bereiken, 00:08:32.000 --> 00:08:34.000 moet je kunnen wachten, 00:08:34.000 --> 00:08:36.000 en, uiteraard, politicus worden. 00:08:36.000 --> 00:08:38.000 Hier word je beroemd vlak voor je zestigste, 00:08:38.000 --> 00:08:40.000 en daarna word je nog veel beroemder. 00:08:40.000 --> 00:08:43.000 Wetenschappers worden doorgaans ook beroemd op hogere leeftijd. 00:08:43.000 --> 00:08:45.000 Bijvoorbeeld, biologen en natuurkundigen 00:08:45.000 --> 00:08:47.000 zijn vaak bijna zo beroemd als acteurs. 00:08:47.000 --> 00:08:50.000 Een fout die je niet moet maken, is wiskundige worden. 00:08:50.000 --> 00:08:52.000 (Gelach) 00:08:52.000 --> 00:08:54.000 Als je dat doet, 00:08:54.000 --> 00:08:57.000 denk je wellicht: "Mooi, ik ga mijn beste werk doen als begin twintiger." 00:08:57.000 --> 00:08:59.000 Maar dat kan niemand wat schelen. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Gelach) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: Er zijn meer ontnuchterende aspecten 00:09:04.000 --> 00:09:06.000 aan de n-grams. 00:09:06.000 --> 00:09:08.000 Hier is bijvoorbeeld het traject van Marc Chagall, 00:09:08.000 --> 00:09:10.000 een kunstenaar geboren in 1887. 00:09:10.000 --> 00:09:13.000 Het lijkt het normale traject van een beroemd persoon. 00:09:13.000 --> 00:09:17.000 Hij wordt steeds beroemder, 00:09:17.000 --> 00:09:19.000 behalve als je in het Duits kijkt. 00:09:19.000 --> 00:09:21.000 Daar zie je iets volledig bizars, 00:09:21.000 --> 00:09:23.000 wat je bijna nooit ziet, namelijk 00:09:23.000 --> 00:09:25.000 dat hij eerst heel beroemd wordt, 00:09:25.000 --> 00:09:27.000 en dan opeens sterk daalt, 00:09:27.000 --> 00:09:30.000 met een dieptepunt tussen 1933 en 1945, 00:09:30.000 --> 00:09:33.000 voordat hij weer stijgt. 00:09:33.000 --> 00:09:35.000 Wat we hier uiteraard zien, 00:09:35.000 --> 00:09:38.000 is het feit dat Marc Chagall een Joodse kunstenaar was 00:09:38.000 --> 00:09:40.000 in Nazi-Duitsland. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Deze signalen 00:09:42.000 --> 00:09:44.000 zijn zo sterk 00:09:44.000 --> 00:09:47.000 dat we niet hoeven te weten dat iemand werd gecensureerd. 00:09:47.000 --> 00:09:49.000 We kunnen het uitvissen 00:09:49.000 --> 00:09:51.000 met wat simpele signaalverwerking. 00:09:51.000 --> 00:09:53.000 Hier is een eenvoudige methode. 00:09:53.000 --> 00:09:55.000 Een redelijke aanname is 00:09:55.000 --> 00:09:57.000 dat iemands roem in een bepaalde periode 00:09:57.000 --> 00:09:59.000 ruwweg het gemiddelde moet zijn van zijn roem 00:09:59.000 --> 00:10:01.000 ervoor en erna. 00:10:01.000 --> 00:10:03.000 Dat is wat we zouden verwachten. 00:10:03.000 --> 00:10:06.000 Dat vergelijken we met de roem die we observeren. 00:10:06.000 --> 00:10:08.000 Dan delen we het één door het ander, 00:10:08.000 --> 00:10:10.000 om iets te produceren dat we een suppressie-index noemen. 00:10:10.000 --> 00:10:13.000 Als de suppressie-index heel, heel, heel klein is, 00:10:13.000 --> 00:10:15.000 dan kon het zijn dat je tegengewerkt wordt. 00:10:15.000 --> 00:10:18.000 Als hij erg groot is, zou er propaganda in het spel kunnen zijn. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Je kunt ook kijken naar 00:10:21.000 --> 00:10:24.000 de distributie van suppressie-indexen over hele populaties. 00:10:24.000 --> 00:10:26.000 Dus bijvoorbeeld, hier: 00:10:26.000 --> 00:10:28.000 deze suppressie-index is voor 5000 mensen 00:10:28.000 --> 00:10:30.000 genomen uit Engelse boeken zonder suppressie -- 00:10:30.000 --> 00:10:32.000 dat is mooi gecentreerd rond 1. 00:10:32.000 --> 00:10:34.000 Wat je verwacht, observeer je ook. 00:10:34.000 --> 00:10:36.000 Dit is de distributie in Duitsland -- 00:10:36.000 --> 00:10:38.000 heel anders, het is verschoven naar links. 00:10:38.000 --> 00:10:41.000 Mensen praatten er tweemaal minder over dan normaal. 00:10:41.000 --> 00:10:43.000 Maar veel belangrijker: de distributie is veel breder. 00:10:43.000 --> 00:10:46.000 Er zijn veel mensen in de linkerkant van de distributie, 00:10:46.000 --> 00:10:49.000 waarover tienmaal minder gepraat wordt dan normaal. 00:10:49.000 --> 00:10:51.000 Maar ook mensen helemaal rechts, 00:10:51.000 --> 00:10:53.000 die schijnen te profiteren van propaganda. 00:10:53.000 --> 00:10:56.000 Dit beeld is het kenmerk van censuur in boeken. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: Culturomica 00:10:58.000 --> 00:11:00.000 noemen we deze methode. 00:11:00.000 --> 00:11:02.000 Het lijkt op genomica. 00:11:02.000 --> 00:11:04.000 Maar genomica is een lens op biologie 00:11:04.000 --> 00:11:07.000 door het raam van de opeenvolging van basen in het menselijk genoom. 00:11:07.000 --> 00:11:09.000 Culturomica lijkt hierop. 00:11:09.000 --> 00:11:12.000 Het is de toepassing van massale datacollectie-analyse 00:11:12.000 --> 00:11:14.000 op de studie van de menselijke cultuur. 00:11:14.000 --> 00:11:16.000 In plaats van door de lens van een genoom, 00:11:16.000 --> 00:11:19.000 hier door de lens van gedigitaliseerde stukjes historische data. 00:11:19.000 --> 00:11:21.000 Het mooie aan culturomica 00:11:21.000 --> 00:11:23.000 is dat iedereen het kan doen. 00:11:23.000 --> 00:11:25.000 Waarom kan iedereen het? 00:11:25.000 --> 00:11:27.000 Iedereen kan het omdat drie kerels, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray en Will Brockman bij Google, 00:11:30.000 --> 00:11:32.000 het prototype zagen van de Ngram Viewer, 00:11:32.000 --> 00:11:34.000 en zeiden: "Dit is zo leuk. 00:11:34.000 --> 00:11:37.000 We moeten dit beschikbaar maken voor de mensen." 00:11:37.000 --> 00:11:39.000 In de twee weken voordat onze publicatie uitkwam, 00:11:39.000 --> 00:11:42.000 codeerden ze een versie van de Ngram Viewer voor het grote publiek. 00:11:42.000 --> 00:11:45.000 Dus ook jij kunt ieder woord of iedere zin intoetsen 00:11:45.000 --> 00:11:47.000 en diens Ngram meteen zien -- 00:11:47.000 --> 00:11:49.000 en tevens voorbeelden inkijken van de boeken 00:11:49.000 --> 00:11:51.000 waarin je Ngram voorkomt. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 JM: De eerste dag is het meer dan een miljoen maal gebruikt. 00:11:53.000 --> 00:11:55.000 en het is echt de beste van alle zoekopdrachten. 00:11:55.000 --> 00:11:58.000 Mensen willen op hun best zijn, hun beste voetje voor zetten. 00:11:58.000 --> 00:12:01.000 Maar in de 18e eeuw gaven mensen daar niet om. 00:12:01.000 --> 00:12:04.000 Ze wilden niet op hun best zijn, maar op hun beft. 00:12:04.000 --> 00:12:07.000 Dit is uiteraard een vergissing. 00:12:07.000 --> 00:12:09.000 Ze streefden niet naar middelmatigheid, 00:12:09.000 --> 00:12:12.000 maar de S werd toen anders geschreven, als een F. 00:12:12.000 --> 00:12:15.000 Dit heeft Google destijds niet opgepikt, 00:12:15.000 --> 00:12:18.000 dus we gaven dit aan in het wetenschapsartikel. 00:12:18.000 --> 00:12:20.000 Maar het is dus een herinnering 00:12:20.000 --> 00:12:22.000 dat, ook al is dit allemaal erg leuk, 00:12:22.000 --> 00:12:24.000 wanneer je deze grafieken interpreteert, je erg moet oppassen, 00:12:24.000 --> 00:12:27.000 en de wetenschappelijke basisprincipes moet toepassen. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: Mensen hebben dit voor allerlei leuke dingen gebruikt. 00:12:30.000 --> 00:12:37.000 (Gelach) 00:12:37.000 --> 00:12:39.000 We hoeven eigenlijk niet te praten, 00:12:39.000 --> 00:12:42.000 we laten gewoon alle dia's zien en houden onze mond. 00:12:42.000 --> 00:12:45.000 Deze persoon was geïnteresseerd in de geschiedenis van frustratie. 00:12:45.000 --> 00:12:48.000 Er zijn verschillende soorten frustratie. 00:12:48.000 --> 00:12:51.000 Als je je teen stoot, is dat "argh" met één A. 00:12:51.000 --> 00:12:53.000 Als de Aarde wordt verwoest door Vogons 00:12:53.000 --> 00:12:55.000 om plaats te maken voor een galactische omleiding, 00:12:55.000 --> 00:12:57.000 is dat een "aaaaaaaargh" met acht A's. 00:12:57.000 --> 00:12:59.000 Deze persoon bestudeerde alle "arghs", 00:12:59.000 --> 00:13:01.000 van één tot en met acht A's. 00:13:01.000 --> 00:13:03.000 Nu blijkt 00:13:03.000 --> 00:13:05.000 dat de minder frequente "arghs" 00:13:05.000 --> 00:13:08.000 corresponderen met meer frustrerende dingen -- 00:13:08.000 --> 00:13:11.000 behalve, vreemd genoeg, begin jaren '80. 00:13:11.000 --> 00:13:13.000 We denken dat dit iets te maken heeft met Reagan. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Gelach) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Er zijn vele toepassingen voor deze data, 00:13:18.000 --> 00:13:21.000 maar het belangrijkste is dat historische data worden gedigitaliseerd. 00:13:21.000 --> 00:13:23.000 Google heeft nu 15 miljoen boeken gedigitaliseerd. 00:13:23.000 --> 00:13:25.000 Dat is 12% van alle boeken die ooit uitgegeven zijn. 00:13:25.000 --> 00:13:28.000 Dat is een behoorlijk deel van onze cultuur. 00:13:28.000 --> 00:13:31.000 Er is nog veel meer in de cultuur: er zijn manuscripten, kranten, 00:13:31.000 --> 00:13:33.000 er zijn dingen zonder tekst, zoals kunst en schilderijen. 00:13:33.000 --> 00:13:35.000 Deze staan allemaal op onze computers, 00:13:35.000 --> 00:13:37.000 op computers over de wereld. 00:13:37.000 --> 00:13:40.000 Wanneer dat gebeurt, zal het ons begrip van ons verleden, 00:13:40.000 --> 00:13:42.000 ons heden, en onze cultuur transformeren. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Dank je wel. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Applaus)