WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Alle ved 00:00:02.000 --> 00:00:05.000 at et billede siger mere end tusind ord 00:00:07.000 --> 00:00:09.000 Men på Harvard 00:00:09.000 --> 00:00:12.000 spurgte vi os selv, om det egentlig er sandt. 00:00:12.000 --> 00:00:14.000 (Latter) 00:00:14.000 --> 00:00:18.000 Så vi samlede et hold eksperter, 00:00:18.000 --> 00:00:20.000 både fra Harvard, MIT, 00:00:20.000 --> 00:00:23.000 The American Heritage Dictionary, The Encyclopedia Britannica 00:00:23.000 --> 00:00:25.000 og sågar vores stolte sponsor... 00:00:25.000 --> 00:00:28.000 The Google. 00:00:28.000 --> 00:00:30.000 Og vi har funderet over dette 00:00:30.000 --> 00:00:32.000 i cirka fire år. 00:00:32.000 --> 00:00:37.000 Og vores konklusion er overraskende. 00:00:37.000 --> 00:00:40.000 Mine damer og herrer, et billede siger ikke mere end tusind ord. 00:00:40.000 --> 00:00:42.000 Det viste sig faktisk at nogle billeder 00:00:42.000 --> 00:00:47.000 siger mere end 500 milliarder ord. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Hvordan når vi denne konklusion? 00:00:49.000 --> 00:00:51.000 Erez og jeg tænkte på, hvordan man 00:00:51.000 --> 00:00:53.000 kunne få overblik over menneskets kultur og historie - 00:00:53.000 --> 00:00:56.000 - og ændringen over tid. 00:00:56.000 --> 00:00:58.000 Der skrevet så mange bøger gennem tiderne. 00:00:58.000 --> 00:01:00.000 Så vi tænkte at man kan lære mest af alle disse bøger 00:01:00.000 --> 00:01:02.000 ved at læse dem alle sammen. 00:01:02.000 --> 00:01:05.000 Hvis der er en skala for, hvor fantastisk det er 00:01:05.000 --> 00:01:08.000 må det selvfølgelig ligge meget, meget højt (Awesome). 00:01:08.000 --> 00:01:10.000 Problemet er, at der også er en X-akse, 00:01:10.000 --> 00:01:12.000 og det aksen for, om det også er praktisk. 00:01:12.000 --> 00:01:14.000 Den er meget, meget lav. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Bifald) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Folk bruger som regel en anden tilgang, 00:01:20.000 --> 00:01:22.000 Man tager nogle få kilder og læser dem meget omhyggeligt. 00:01:22.000 --> 00:01:24.000 Dette er meget praktisk, men ikke særlig fantastisk. 00:01:24.000 --> 00:01:27.000 Det bedste må være 00:01:27.000 --> 00:01:30.000 at nå til dette fantastiske men alligevel praktiske område. 00:01:30.000 --> 00:01:33.000 Et firma på den anden side af floden - Google - 00:01:33.000 --> 00:01:35.000 startede et digitaliseringsprojekt for nogle år siden 00:01:35.000 --> 00:01:37.000 og det kan måske gøre denne tilgang mulig. 00:01:37.000 --> 00:01:39.000 De har digitaliseret millioner af bøger. 00:01:39.000 --> 00:01:42.000 Man kan således bruge computerbaserede metoder 00:01:42.000 --> 00:01:44.000 til at læse alle bøgerne med et enkelt klik. 00:01:44.000 --> 00:01:47.000 Det er meget praktisk og ekstremt fantastisk. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Nu skal I høre, hvor bøger stammer fra. 00:01:50.000 --> 00:01:53.000 Der har altid eksisteret forfattere. 00:01:53.000 --> 00:01:56.000 Disse forfattere har bestræbt sig på at skrive bøger. 00:01:56.000 --> 00:01:58.000 Og det blev væsentligt nemmere 00:01:58.000 --> 00:02:00.000 da trykpressen blev opfundet for nogle hundrede år siden. 00:02:00.000 --> 00:02:03.000 Siden da, er det lykkedes forfattere 00:02:03.000 --> 00:02:05.000 at udgive bøger 00:02:05.000 --> 00:02:07.000 129 millioner gange. 00:02:07.000 --> 00:02:09.000 Hvis disse bøger ikke er gået tabt for historien, 00:02:09.000 --> 00:02:11.000 findes de på et bibliotek et sted, 00:02:11.000 --> 00:02:14.000 og mange bøgerne er blevet taget fra hylderne 00:02:14.000 --> 00:02:16.000 og er blevet digitaliseret af Google, 00:02:16.000 --> 00:02:18.000 som til dato har scannet 15 millioner bøger. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Når Google digitaliserer en bog, får den et rigtig fint format. 00:02:21.000 --> 00:02:23.000 Nu har vi både data og metada. 00:02:23.000 --> 00:02:26.000 Vi har f.eks. oplysninger om, hvor den blev udgivet, 00:02:26.000 --> 00:02:28.000 hvem forfatteren var, og hvornår den blev udgivet. 00:02:28.000 --> 00:02:31.000 Og vi går gennem alle disse arkiver 00:02:31.000 --> 00:02:35.000 og udelukker alle data, der ikke er af højeste kvalitet. 00:02:35.000 --> 00:02:37.000 Det, der er tilbage, er en samling 00:02:37.000 --> 00:02:40.000 på fem millioner bøger, 00:02:40.000 --> 00:02:43.000 500 milliarder ord, 00:02:43.000 --> 00:02:45.000 en tegnstreng, der er tusind gange længere 00:02:45.000 --> 00:02:48.000 end menneskets arvemasse. 00:02:48.000 --> 00:02:50.000 Hvis teksten blev skrevet ud, 00:02:50.000 --> 00:02:52.000 ville den nå herfra til månen og tilbage igen 00:02:52.000 --> 00:02:54.000 10 gange! 00:02:54.000 --> 00:02:58.000 - Et sandt brudstykke af vores kulturelle arvemasse. 00:02:58.000 --> 00:03:00.000 Det vi gjorde, 00:03:00.000 --> 00:03:03.000 da vi stod over for så vanvittige sammenligninger... 00:03:03.000 --> 00:03:05.000 (Latter) 00:03:05.000 --> 00:03:08.000 var, hvad enhver forskere med respekt for sig selv 00:03:08.000 --> 00:03:11.000 ville have gjort. 00:03:11.000 --> 00:03:13.000 Vi gjorde som i tegneserien XKCD, 00:03:13.000 --> 00:03:15.000 og sagde "Gør plads! 00:03:15.000 --> 00:03:17.000 Vi prøver med videnskab". NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Latter) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Først tænkte vi selvfølgelig, 00:03:21.000 --> 00:03:23.000 "Vi gør bare data tilgængelige, 00:03:23.000 --> 00:03:25.000 så andre kan bruge videnskab på dem." 00:03:25.000 --> 00:03:27.000 Nu tænker vi "Hvilke data kan vi lægge ud?" 00:03:27.000 --> 00:03:29.000 Egentlig vil vi gerne tage bøgerne 00:03:29.000 --> 00:03:31.000 og lægge teksten fra alle fem millioner bøger ud. 00:03:31.000 --> 00:03:33.000 Men Google - og særligt Jon Orwant - 00:03:33.000 --> 00:03:35.000 fortalte om en ligning, vi skulle lære. 00:03:35.000 --> 00:03:38.000 Vi har altså fem millioner forfattere 00:03:38.000 --> 00:03:41.000 altså fem millioner, der gerne vil sagsøge os. 00:03:41.000 --> 00:03:43.000 Så selvom det ville være virkelig, virkelig fantastisk, 00:03:43.000 --> 00:03:46.000 ville det også være helt ekstremt upraktisk. 00:03:46.000 --> 00:03:48.000 (Latter) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Igen lod vi os overtale 00:03:50.000 --> 00:03:53.000 og fulgte den praktiske tilgang, der var lidt mindre fantastisk. 00:03:53.000 --> 00:03:55.000 I stedet for at lægge den fulde tekst ud ville vi 00:03:55.000 --> 00:03:57.000 gøre statistikker om bøgerne tilgængelige. 00:03:57.000 --> 00:03:59.000 Et eksempel er "A gleam of happiness" - Et glimpt af lykke 00:03:59.000 --> 00:04:01.000 Det er fire ord - det vi kalder et fire-gram 00:04:01.000 --> 00:04:03.000 Vi vil nu fortælle jer, hvor mange gange et bestemt fire-gram 00:04:03.000 --> 00:04:05.000 optrådte i bøger i 1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 og helt op til 2008 00:04:07.000 --> 00:04:09.000 Det giver os en tidsserie, der viser hvor hyppigt 00:04:09.000 --> 00:04:11.000 denne ene sætning er blevet brugt over tid. 00:04:11.000 --> 00:04:14.000 Det gør vi for alle ord og udtryk i disse bøger. 00:04:14.000 --> 00:04:17.000 Det giver os en stor tabel med to milliarder linjer 00:04:17.000 --> 00:04:19.000 som viser hvordan kulturen har ændret sig. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Disse to milliarder linjer 00:04:21.000 --> 00:04:23.000 som vi kalder to milliarder n-grammer... 00:04:23.000 --> 00:04:25.000 Hvad fortæller de os? 00:04:25.000 --> 00:04:27.000 De enkelte n-grammer måler kulturelle tendenser. 00:04:27.000 --> 00:04:29.000 Lad mig give et eksempel. 00:04:29.000 --> 00:04:31.000 Jeg vil sige, at jeg trives, 00:04:31.000 --> 00:04:33.000 i morgen siger jeg så, hvor godt jeg havde det. 00:04:33.000 --> 00:04:36.000 Jeg ville sige "I går trivedes (throve) jeg". 00:04:36.000 --> 00:04:39.000 Man kan også bruge "thrived" i stedet for "throve". 00:04:39.000 --> 00:04:42.000 Hvilket af de to ord skal jeg bruge? 00:04:42.000 --> 00:04:44.000 Hvor skulle jeg vide det fra? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Indtil for seks måneder siden 00:04:46.000 --> 00:04:48.000 var den anerkendte metode på dette område 00:04:48.000 --> 00:04:50.000 at du f.eks. kunne få fat i 00:04:50.000 --> 00:04:52.000 denne psykolog med lækkert hår 00:04:52.000 --> 00:04:54.000 og spørge ham: 00:04:54.000 --> 00:04:57.000 "Steve, du er ekspert i uregelmæssige verber. 00:04:57.000 --> 00:04:59.000 Hvad skal jeg gøre?" 00:04:59.000 --> 00:05:01.000 Og han ville sige: "De fleste mennesker bruger "thrived" 00:05:01.000 --> 00:05:04.000 men nogle siger "throve". 00:05:04.000 --> 00:05:06.000 Og du vidste også - mere eller mindre - 00:05:06.000 --> 00:05:09.000 at hvis du gik 200 år tilbage i tiden 00:05:09.000 --> 00:05:12.000 og spurgte denne statsmand med ligeså lækkert hår: 00:05:12.000 --> 00:05:15.000 (Latter) 00:05:15.000 --> 00:05:17.000 "Tom, hvad ville du sige?" 00:05:17.000 --> 00:05:19.000 Han ville sige: "På min tid brugte de fleste "throve, 00:05:19.000 --> 00:05:22.000 mens andre brugte "thrived". 00:05:22.000 --> 00:05:24.000 Så nu vil jeg bare vise jer rå data. 00:05:24.000 --> 00:05:28.000 To rækker i denne tabel ud af to millarder poster. 00:05:28.000 --> 00:05:30.000 Den viser hyppigheden pr. år 00:05:30.000 --> 00:05:33.000 af "thrived" og "throve" over tid. 00:05:34.000 --> 00:05:36.000 Det her er kun to 00:05:36.000 --> 00:05:39.000 ud af to milliarder rækker. 00:05:39.000 --> 00:05:41.000 Så hele datasættet 00:05:41.000 --> 00:05:44.000 er en milliard gange mere fantastisk end dette slide. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Latter) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Bifald) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Der er jo mange andre billeder, der siger mere end 500 milliarder ord. 00:05:52.000 --> 00:05:54.000 For eksempel dette. 00:05:54.000 --> 00:05:56.000 Hvis vi bare ser på influenza, 00:05:56.000 --> 00:05:58.000 vil I se høje udslag på de tidspunkter, hvor I vidste 00:05:58.000 --> 00:06:01.000 at der var store globale influenzaepidemier. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Hvis du ikke er overbevist, 00:06:04.000 --> 00:06:06.000 stiger vandstanden i havene - 00:06:06.000 --> 00:06:09.000 det gør CO2-indholdet i atmosfæren og den globale temperatur også. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Prøv også at kaste et blik på dette n-gram, 00:06:12.000 --> 00:06:15.000 og det fortæller Nietzsche, at Gud ikke er død, 00:06:15.000 --> 00:06:18.000 selvom du måske også synes, han har brug for en bedre ///presseagent. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Latter) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Man kan få nogle ret abstrakte begreber med disse ting. 00:06:23.000 --> 00:06:25.000 Lad mig f.eks. fortælle jer historien 00:06:25.000 --> 00:06:27.000 om året 1950. 00:06:27.000 --> 00:06:29.000 I den største del af vores historie 00:06:29.000 --> 00:06:31.000 har ingen interesseret sig en pind for 1950. 00:06:31.000 --> 00:06:33.000 I 1700 og 1800 og 1900 00:06:33.000 --> 00:06:36.000 var ingen interesseret. 00:06:37.000 --> 00:06:39.000 Op gennem 30'erne og 40'erne 00:06:39.000 --> 00:06:41.000 var ingen interesseret. 00:06:41.000 --> 00:06:43.000 Pludselig, midt i 40'erne, 00:06:43.000 --> 00:06:45.000 blev der hvisket i krogene. 00:06:45.000 --> 00:06:47.000 Folk indså at 1950 var noget, der ville ske, 00:06:47.000 --> 00:06:49.000 og det kunne være noget stort. 00:06:49.000 --> 00:06:52.000 (Latter) 00:06:52.000 --> 00:06:55.000 Men det der gjorde folk allermest interesseret i 1950 00:06:55.000 --> 00:06:58.000 var året 1950. 00:06:58.000 --> 00:07:01.000 (Latter) 00:07:01.000 --> 00:07:03.000 Folk var som besat. 00:07:03.000 --> 00:07:05.000 De kunne ikke lade være med at tale 00:07:05.000 --> 00:07:08.000 om alt det, de lavede i 1950, 00:07:08.000 --> 00:07:11.000 alt det de planlagde at skulle gøre i 1950, 00:07:11.000 --> 00:07:16.000 og alle drømmene om, hvad de ville opnå i 1950. 00:07:16.000 --> 00:07:18.000 Faktisk var 1950 så fascinerende 00:07:18.000 --> 00:07:20.000 at folk i flere år efter 00:07:20.000 --> 00:07:23.000 bare blev ved med at tale om alle de utrolige ting, der skete - 00:07:23.000 --> 00:07:25.000 i 1951, 1952 og 1953. 00:07:25.000 --> 00:07:27.000 Omsider i 1954 00:07:27.000 --> 00:07:29.000 var der en der vågnede op og indså 00:07:29.000 --> 00:07:33.000 at 1950 var blevet noget passé. 00:07:33.000 --> 00:07:35.000 (Latter) 00:07:35.000 --> 00:07:37.000 Og uden videre sprang boblen. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Latter) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 Og historien om 1950 00:07:41.000 --> 00:07:43.000 er historien om alle de år, vi har registreret, 00:07:43.000 --> 00:07:46.000 med et lille tvist, fordi vi nu har disse fine grafer. 00:07:46.000 --> 00:07:49.000 Og fordi vi har disse fine grafer, kan vi nu måle ting. 00:07:49.000 --> 00:07:51.000 Vi kan sige "Hvor hurtigt springer boblen?" 00:07:51.000 --> 00:07:54.000 Og de viser sig, at vi kan måle dette meget præcist. 00:07:54.000 --> 00:07:57.000 Der blev udledt ligninger, og der opstillet grafer, 00:07:57.000 --> 00:07:59.000 og nettoresultatet er 00:07:59.000 --> 00:08:02.000 at det viser sig, at boblen springer hurtigere og hurtigere 00:08:02.000 --> 00:08:04.000 for hvert år der går. 00:08:04.000 --> 00:08:09.000 Vi mister interessen for fortiden hurtigere. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Og nu et godt karrieretip: 00:08:11.000 --> 00:08:13.000 For de af jer, der vil være berømte, 00:08:13.000 --> 00:08:15.000 kan vi lære af de 25 mest berømte politiske personligheder, 00:08:15.000 --> 00:08:17.000 forfattere, skuespillere osv. 00:08:17.000 --> 00:08:20.000 Så hvis du vil være berømt tidligt, skal du være skuespiller, 00:08:20.000 --> 00:08:22.000 fordi berømmelsen så begynder at stige, nrå du er sidst i 20'erne – 00:08:22.000 --> 00:08:24.000 Du er stadig ung, og det er virkelig skønt. 00:08:24.000 --> 00:08:26.000 Men hvis du kan vente lidt, skal du blive forfatter, 00:08:26.000 --> 00:08:28.000 fordi så opnår meget stor berømmelse, 00:08:28.000 --> 00:08:30.000 som f.eks. Mark Twain: Ekstremt berømt. 00:08:30.000 --> 00:08:32.000 Men hvis du vil helt til toppen, 00:08:32.000 --> 00:08:34.000 skal du udskyde den tilfredsstillelse, det er 00:08:34.000 --> 00:08:36.000 at blive berømt - og selvfølgelig blive politiker. 00:08:36.000 --> 00:08:38.000 Her vil du blive berømt, når du er i slutningen af 50'erne, 00:08:38.000 --> 00:08:40.000 og blive meget, meget berømt derefter. 00:08:40.000 --> 00:08:43.000 Videnskabsfolk plejer også at blive berømte, når de er meget ældre. 00:08:43.000 --> 00:08:45.000 For eksempel biologer og fysikere 00:08:45.000 --> 00:08:47.000 bliver næsten ligeså berømte som skuespillere. 00:08:47.000 --> 00:08:50.000 En fejl, du ikke skal begå, er at blive matematiker. 00:08:50.000 --> 00:08:52.000 (Latter) 00:08:52.000 --> 00:08:54.000 Hvis du gør det, 00:08:54.000 --> 00:08:57.000 tænker du måske "Herligt! Jeg leverer mit bedste arbejde, når jeg er i 20'erne" 00:08:57.000 --> 00:08:59.000 Men tænk engang... stort set ingen lægger mærke til det. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Latter) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: Der er mere nøgterne observationer 00:09:04.000 --> 00:09:06.000 blandt n-grammerne. 00:09:06.000 --> 00:09:08.000 Her er f.eks. Marc Chagalls livsforløb, 00:09:08.000 --> 00:09:10.000 som kunster født i 1887. 00:09:10.000 --> 00:09:13.000 Og dette ligner det normale forløb for en berømt person. 00:09:13.000 --> 00:09:17.000 Han bliver mere og mere berømt, 00:09:17.000 --> 00:09:19.000 bare ikke hvis vi ser på tysk. 00:09:19.000 --> 00:09:21.000 På tysk ser vi noget ganske bizart, 00:09:21.000 --> 00:09:23.000 noget man stort set aldrig ser, 00:09:23.000 --> 00:09:25.000 og det er, at han bliver ekstremt berømt 00:09:25.000 --> 00:09:27.000 hvorefter berømmelsen falder brat 00:09:27.000 --> 00:09:30.000 og er på nulpunktet mellem 1933 og 1945, 00:09:30.000 --> 00:09:33.000 hvorefter berømmelsen vender tilbage. 00:09:33.000 --> 00:09:35.000 Og de vi selvfølgelig kan se 00:09:35.000 --> 00:09:38.000 er at Marc Chagall var jødisk kunstner 00:09:38.000 --> 00:09:40.000 i nazi-Tyskland NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Disse signaler 00:09:42.000 --> 00:09:44.000 er faktisk så stærk, 00:09:44.000 --> 00:09:47.000 at vi ikke behøver at vide, at en person er blevet censureret. 00:09:47.000 --> 00:09:49.000 Vi kan faktisk regne det ud 00:09:49.000 --> 00:09:51.000 ved hjælp af meget grundlæggende behandling af signalerne. 00:09:51.000 --> 00:09:53.000 Her er en simpel måde at gøre det på. 00:09:53.000 --> 00:09:55.000 Det er rimeligt at forvente 00:09:55.000 --> 00:09:57.000 at en persons berømmelse i en given periode 00:09:57.000 --> 00:09:59.000 vil være nogenlunde gennemsnittet af berømmelsen før 00:09:59.000 --> 00:10:01.000 og berømmelsen efter perioden. 00:10:01.000 --> 00:10:03.000 Så det er nogenlunde, det vi forventer. 00:10:03.000 --> 00:10:06.000 Og vi sammenligner med den berømmelse, vi kan aflæse. 00:10:06.000 --> 00:10:08.000 Og så dividerer vi bare den ene med den anden 00:10:08.000 --> 00:10:10.000 så vi får noget, vi kalder et undertrykkelsesindeks. 00:10:10.000 --> 00:10:13.000 Hvis undertrykkelsesindekset er meget, meget, meget lavt, 00:10:13.000 --> 00:10:15.000 er der stor sandsynlighed for at du er undertrykt. 00:10:15.000 --> 00:10:18.000 Hvis det er meget højt, får du måske hjælp af propaganda. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Nu kan man faktisk se på 00:10:21.000 --> 00:10:24.000 fordelingen af undertrykkelsesindekser over hele populationer. 00:10:24.000 --> 00:10:26.000 For eksempel her: 00:10:26.000 --> 00:10:28.000 Dette undertrykkelsesindeks er for 5.000 personer 00:10:28.000 --> 00:10:30.000 taget fra engelske bøger uden nogen kendt undertrykkelse. 00:10:30.000 --> 00:10:32.000 Det ville være på denne måde, tæt centreret om ét. 00:10:32.000 --> 00:10:34.000 Det man kan aflæse, er grundlæggende som forventet. 00:10:34.000 --> 00:10:36.000 Dette er fordelingen, som den ses i Tyskland. 00:10:36.000 --> 00:10:38.000 Meget anderledes... den er forskudt til venstre. 00:10:38.000 --> 00:10:41.000 Folk talte dobbelt så lidt om det, som de burde. 00:10:41.000 --> 00:10:43.000 Men vigtigere er, at fordelingen er meget bredere. 00:10:43.000 --> 00:10:46.000 Der er mange personer, der ender ude til venstre i fordelingen, 00:10:46.000 --> 00:10:49.000 som der bliver talt 10 gange så lidt om, som der burde. 00:10:49.000 --> 00:10:51.000 Men der er også personer ude til højre, 00:10:51.000 --> 00:10:53.000 som synes at være hjulpet af propaganda. 00:10:53.000 --> 00:10:56.000 Dette er kendetegnende for censur i bogregisteret. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: Denne metode 00:10:58.000 --> 00:11:00.000 kalder vi "culturomics". 00:11:00.000 --> 00:11:02.000 Det er lidt ligesom genforskning 00:11:02.000 --> 00:11:04.000 Genomics - genforskning - er et nærbillede af biologi 00:11:04.000 --> 00:11:07.000 hvor man ser på sekvenser af baser i arvemassen. 00:11:07.000 --> 00:11:09.000 Culturomics minder om dette. 00:11:09.000 --> 00:11:12.000 Det er en analyse af en kæmpe samling data 00:11:12.000 --> 00:11:14.000 anvendt på studiet af menneskets kultur. 00:11:14.000 --> 00:11:16.000 I stedet for at bruge arvemassen som perspektiv, 00:11:16.000 --> 00:11:19.000 bruges digitaliserede stykker af historisk materiale. 00:11:19.000 --> 00:11:21.000 Det gode ved culturomics er 00:11:21.000 --> 00:11:23.000 at alle kan gøre det. 00:11:23.000 --> 00:11:25.000 Hvorfor kan alle gøre det? 00:11:25.000 --> 00:11:27.000 Alle kan gøre det, fordi disse tre herrer, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray og Will Brockman hos Google, 00:11:30.000 --> 00:11:32.000 så prototypen af Ngram Viewer, 00:11:32.000 --> 00:11:34.000 og sagde, "Det er så sjovt, 00:11:34.000 --> 00:11:37.000 at vi må gøre det tilgængeligt for alle." 00:11:37.000 --> 00:11:39.000 På nøjagtig de to uger inden offentliggørelsen af vores rapport 00:11:39.000 --> 00:11:42.000 kodede de en version af Ngram Viewer til almen brug. 00:11:42.000 --> 00:11:45.000 Du kan så skrive et vilkårligt ord, du er interesseret i 00:11:45.000 --> 00:11:47.000 og straks se det tilhørende n-gram, 00:11:47.000 --> 00:11:49.000 og du kan gennemse eksempler på alle bøger 00:11:49.000 --> 00:11:51.000 som dit n-gram optræder i. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 Dette blev brugt over en million gang første dag, 00:11:53.000 --> 00:11:55.000 og dette er den bedste af alle søgninger. 00:11:55.000 --> 00:11:58.000 Så folk ønsker at yde deres bedste. 00:11:58.000 --> 00:12:01.000 Men i det 18. årh. var folk ligeglade med alt det. 00:12:01.000 --> 00:12:04.000 De ville ikke gøre bedste, de ville være "beft". 00:12:04.000 --> 00:12:07.000 Dette var selvfølgelig bare en fejl. 00:12:07.000 --> 00:12:09.000 Man stræbte ikke efter middelmådighed, 00:12:09.000 --> 00:12:12.000 men tidligere skrev man S anderledes, nærmest som et f. 00:12:12.000 --> 00:12:15.000 Det opdagede Google selvfølgelig ikke dengang, 00:12:15.000 --> 00:12:18.000 så vi skrev det i den videnskabelige artikel. 00:12:18.000 --> 00:12:20.000 Dette minder os om, at 00:12:20.000 --> 00:12:22.000 selvom det er rigtig sjovt, 00:12:22.000 --> 00:12:24.000 at fortolke disse grafer, skal man være forsigtig 00:12:24.000 --> 00:12:27.000 og overholde de videnskabelige standarder. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 Folk har brugt dette til mange sjove formål. 00:12:30.000 --> 00:12:37.000 (Latter) 00:12:37.000 --> 00:12:39.000 Vi behøver faktisk ikke tale, 00:12:39.000 --> 00:12:42.000 vi viser bare alle slides og tier stille. 00:12:42.000 --> 00:12:45.000 Denne person var interesseret i frustrationens historie. 00:12:45.000 --> 00:12:48.000 Der er forskellige typer frustration. 00:12:48.000 --> 00:12:51.000 Hvis slår tåen, er der ét A i "argh". 00:12:51.000 --> 00:12:53.000 Hvis Jorden udslettes af Vogonerne 00:12:53.000 --> 00:12:55.000 for at gøre plads til en intergalaktisk ekspresrute, 00:12:55.000 --> 00:12:57.000 er det et "aaaaaaaargh" med otte A'er. 00:12:57.000 --> 00:12:59.000 Personen undersøger alle udgaver af "argh" 00:12:59.000 --> 00:13:01.000 fra ét til otte A'er. 00:13:01.000 --> 00:13:03.000 Og det viser sig 00:13:03.000 --> 00:13:05.000 at de mindst hyppige "argh" vedrører 00:13:05.000 --> 00:13:08.000 vedrører ting, der er mere frustrerende 00:13:08.000 --> 00:13:11.000 men sjovt nok ikke i de tidlige 80'ere. 00:13:11.000 --> 00:13:13.000 Vi tror det kan være noget med Reagan. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Latter) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 Disse data kan bruges til mange ting, 00:13:18.000 --> 00:13:21.000 men grundlaget er, at historien bliver digitaliseret. 00:13:21.000 --> 00:13:23.000 Google er begyndt at digitalisere 15 millioner bøger. 00:13:23.000 --> 00:13:25.000 Det er 12 % af alle bøger, der er udgivet. 00:13:25.000 --> 00:13:28.000 Det er en god klump af menneskets kultur. 00:13:28.000 --> 00:13:31.000 Kultur er meget mere: manuskripter, aviser 00:13:31.000 --> 00:13:33.000 noget er ikke tekst, f.eks. kunst og malerier. 00:13:33.000 --> 00:13:35.000 Disse vil alle findes på vores computere, 00:13:35.000 --> 00:13:37.000 på computere i hele verden. 00:13:37.000 --> 00:13:40.000 Og når det sker, ændrer det den måde 00:13:40.000 --> 00:13:42.000 vi forstår vores fortid, vores nutid og menneskets kultur. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Mange tak. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Bifald)