< Return to Video

Det har vi lært af 5 millioner bøger

  • 0:00 - 0:02
    Erez Lieberman Aiden: Alle ved
  • 0:02 - 0:05
    at et billede siger mere end tusind ord
  • 0:07 - 0:09
    Men på Harvard
  • 0:09 - 0:12
    spurgte vi os selv, om det egentlig er sandt.
  • 0:12 - 0:14
    (Latter)
  • 0:14 - 0:18
    Så vi samlede et hold eksperter,
  • 0:18 - 0:20
    både fra Harvard, MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, The Encyclopedia Britannica
  • 0:23 - 0:25
    og sågar vores stolte sponsor...
  • 0:25 - 0:28
    The Google.
  • 0:28 - 0:30
    Og vi har funderet over dette
  • 0:30 - 0:32
    i cirka fire år.
  • 0:32 - 0:37
    Og vores konklusion er overraskende.
  • 0:37 - 0:40
    Mine damer og herrer, et billede siger ikke mere end tusind ord.
  • 0:40 - 0:42
    Det viste sig faktisk at nogle billeder
  • 0:42 - 0:47
    siger mere end 500 milliarder ord.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Hvordan når vi denne konklusion?
  • 0:49 - 0:51
    Erez og jeg tænkte på, hvordan man
  • 0:51 - 0:53
    kunne få overblik over menneskets kultur og historie -
  • 0:53 - 0:56
    - og ændringen over tid.
  • 0:56 - 0:58
    Der skrevet så mange bøger gennem tiderne.
  • 0:58 - 1:00
    Så vi tænkte at man kan lære mest af alle disse bøger
  • 1:00 - 1:02
    ved at læse dem alle sammen.
  • 1:02 - 1:05
    Hvis der er en skala for, hvor fantastisk det er
  • 1:05 - 1:08
    må det selvfølgelig ligge meget, meget højt (Awesome).
  • 1:08 - 1:10
    Problemet er, at der også er en X-akse,
  • 1:10 - 1:12
    og det aksen for, om det også er praktisk.
  • 1:12 - 1:14
    Den er meget, meget lav.
  • 1:14 - 1:17
    (Bifald)
  • 1:17 - 1:20
    Folk bruger som regel en anden tilgang,
  • 1:20 - 1:22
    Man tager nogle få kilder og læser dem meget omhyggeligt.
  • 1:22 - 1:24
    Dette er meget praktisk, men ikke særlig fantastisk.
  • 1:24 - 1:27
    Det bedste må være
  • 1:27 - 1:30
    at nå til dette fantastiske men alligevel praktiske område.
  • 1:30 - 1:33
    Et firma på den anden side af floden - Google -
  • 1:33 - 1:35
    startede et digitaliseringsprojekt for nogle år siden
  • 1:35 - 1:37
    og det kan måske gøre denne tilgang mulig.
  • 1:37 - 1:39
    De har digitaliseret millioner af bøger.
  • 1:39 - 1:42
    Man kan således bruge computerbaserede metoder
  • 1:42 - 1:44
    til at læse alle bøgerne med et enkelt klik.
  • 1:44 - 1:47
    Det er meget praktisk og ekstremt fantastisk.
  • 1:48 - 1:50
    ELA: Nu skal I høre, hvor bøger stammer fra.
  • 1:50 - 1:53
    Der har altid eksisteret forfattere.
  • 1:53 - 1:56
    Disse forfattere har bestræbt sig på at skrive bøger.
  • 1:56 - 1:58
    Og det blev væsentligt nemmere
  • 1:58 - 2:00
    da trykpressen blev opfundet for nogle hundrede år siden.
  • 2:00 - 2:03
    Siden da, er det lykkedes forfattere
  • 2:03 - 2:05
    at udgive bøger
  • 2:05 - 2:07
    129 millioner gange.
  • 2:07 - 2:09
    Hvis disse bøger ikke er gået tabt for historien,
  • 2:09 - 2:11
    findes de på et bibliotek et sted,
  • 2:11 - 2:14
    og mange bøgerne er blevet taget fra hylderne
  • 2:14 - 2:16
    og er blevet digitaliseret af Google,
  • 2:16 - 2:18
    som til dato har scannet 15 millioner bøger.
  • 2:18 - 2:21
    Når Google digitaliserer en bog, får den et rigtig fint format.
  • 2:21 - 2:23
    Nu har vi både data og metada.
  • 2:23 - 2:26
    Vi har f.eks. oplysninger om, hvor den blev udgivet,
  • 2:26 - 2:28
    hvem forfatteren var, og hvornår den blev udgivet.
  • 2:28 - 2:31
    Og vi går gennem alle disse arkiver
  • 2:31 - 2:35
    og udelukker alle data, der ikke er af højeste kvalitet.
  • 2:35 - 2:37
    Det, der er tilbage, er en samling
  • 2:37 - 2:40
    på fem millioner bøger,
  • 2:40 - 2:43
    500 milliarder ord,
  • 2:43 - 2:45
    en tegnstreng, der er tusind gange længere
  • 2:45 - 2:48
    end menneskets arvemasse.
  • 2:48 - 2:50
    Hvis teksten blev skrevet ud,
  • 2:50 - 2:52
    ville den nå herfra til månen og tilbage igen
  • 2:52 - 2:54
    10 gange!
  • 2:54 - 2:58
    - Et sandt brudstykke af vores kulturelle arvemasse.
  • 2:58 - 3:00
    Det vi gjorde,
  • 3:00 - 3:03
    da vi stod over for så vanvittige sammenligninger...
  • 3:03 - 3:05
    (Latter)
  • 3:05 - 3:08
    var, hvad enhver forskere med respekt for sig selv
  • 3:08 - 3:11
    ville have gjort.
  • 3:11 - 3:13
    Vi gjorde som i tegneserien XKCD,
  • 3:13 - 3:15
    og sagde "Gør plads!
  • 3:15 - 3:17
    Vi prøver med videnskab".
  • 3:17 - 3:19
    (Latter)
  • 3:19 - 3:21
    JM: Først tænkte vi selvfølgelig,
  • 3:21 - 3:23
    "Vi gør bare data tilgængelige,
  • 3:23 - 3:25
    så andre kan bruge videnskab på dem."
  • 3:25 - 3:27
    Nu tænker vi "Hvilke data kan vi lægge ud?"
  • 3:27 - 3:29
    Egentlig vil vi gerne tage bøgerne
  • 3:29 - 3:31
    og lægge teksten fra alle fem millioner bøger ud.
  • 3:31 - 3:33
    Men Google - og særligt Jon Orwant -
  • 3:33 - 3:35
    fortalte om en ligning, vi skulle lære.
  • 3:35 - 3:38
    Vi har altså fem millioner forfattere
  • 3:38 - 3:41
    altså fem millioner, der gerne vil sagsøge os.
  • 3:41 - 3:43
    Så selvom det ville være virkelig, virkelig fantastisk,
  • 3:43 - 3:46
    ville det også være helt ekstremt upraktisk.
  • 3:46 - 3:48
    (Latter)
  • 3:48 - 3:50
    Igen lod vi os overtale
  • 3:50 - 3:53
    og fulgte den praktiske tilgang, der var lidt mindre fantastisk.
  • 3:53 - 3:55
    I stedet for at lægge den fulde tekst ud ville vi
  • 3:55 - 3:57
    gøre statistikker om bøgerne tilgængelige.
  • 3:57 - 3:59
    Et eksempel er "A gleam of happiness" - Et glimpt af lykke
  • 3:59 - 4:01
    Det er fire ord - det vi kalder et fire-gram
  • 4:01 - 4:03
    Vi vil nu fortælle jer, hvor mange gange et bestemt fire-gram
  • 4:03 - 4:05
    optrådte i bøger i 1801, 1802, 1803,
  • 4:05 - 4:07
    og helt op til 2008
  • 4:07 - 4:09
    Det giver os en tidsserie, der viser hvor hyppigt
  • 4:09 - 4:11
    denne ene sætning er blevet brugt over tid.
  • 4:11 - 4:14
    Det gør vi for alle ord og udtryk i disse bøger.
  • 4:14 - 4:17
    Det giver os en stor tabel med to milliarder linjer
  • 4:17 - 4:19
    som viser hvordan kulturen har ændret sig.
  • 4:19 - 4:21
    ELA: Disse to milliarder linjer
  • 4:21 - 4:23
    som vi kalder to milliarder n-grammer...
  • 4:23 - 4:25
    Hvad fortæller de os?
  • 4:25 - 4:27
    De enkelte n-grammer måler kulturelle tendenser.
  • 4:27 - 4:29
    Lad mig give et eksempel.
  • 4:29 - 4:31
    Jeg vil sige, at jeg trives,
  • 4:31 - 4:33
    i morgen siger jeg så, hvor godt jeg havde det.
  • 4:33 - 4:36
    Jeg ville sige "I går trivedes (throve) jeg".
  • 4:36 - 4:39
    Man kan også bruge "thrived" i stedet for "throve".
  • 4:39 - 4:42
    Hvilket af de to ord skal jeg bruge?
  • 4:42 - 4:44
    Hvor skulle jeg vide det fra?
  • 4:44 - 4:46
    Indtil for seks måneder siden
  • 4:46 - 4:48
    var den anerkendte metode på dette område
  • 4:48 - 4:50
    at du f.eks. kunne få fat i
  • 4:50 - 4:52
    denne psykolog med lækkert hår
  • 4:52 - 4:54
    og spørge ham:
  • 4:54 - 4:57
    "Steve, du er ekspert i uregelmæssige verber.
  • 4:57 - 4:59
    Hvad skal jeg gøre?"
  • 4:59 - 5:01
    Og han ville sige: "De fleste mennesker bruger "thrived"
  • 5:01 - 5:04
    men nogle siger "throve".
  • 5:04 - 5:06
    Og du vidste også - mere eller mindre -
  • 5:06 - 5:09
    at hvis du gik 200 år tilbage i tiden
  • 5:09 - 5:12
    og spurgte denne statsmand med ligeså lækkert hår:
  • 5:12 - 5:15
    (Latter)
  • 5:15 - 5:17
    "Tom, hvad ville du sige?"
  • 5:17 - 5:19
    Han ville sige: "På min tid brugte de fleste "throve,
  • 5:19 - 5:22
    mens andre brugte "thrived".
  • 5:22 - 5:24
    Så nu vil jeg bare vise jer rå data.
  • 5:24 - 5:28
    To rækker i denne tabel ud af to millarder poster.
  • 5:28 - 5:30
    Den viser hyppigheden pr. år
  • 5:30 - 5:33
    af "thrived" og "throve" over tid.
  • 5:34 - 5:36
    Det her er kun to
  • 5:36 - 5:39
    ud af to milliarder rækker.
  • 5:39 - 5:41
    Så hele datasættet
  • 5:41 - 5:44
    er en milliard gange mere fantastisk end dette slide.
  • 5:44 - 5:46
    (Latter)
  • 5:46 - 5:50
    (Bifald)
  • 5:50 - 5:52
    JM: Der er jo mange andre billeder, der siger mere end 500 milliarder ord.
  • 5:52 - 5:54
    For eksempel dette.
  • 5:54 - 5:56
    Hvis vi bare ser på influenza,
  • 5:56 - 5:58
    vil I se høje udslag på de tidspunkter, hvor I vidste
  • 5:58 - 6:01
    at der var store globale influenzaepidemier.
  • 6:01 - 6:04
    ELA: Hvis du ikke er overbevist,
  • 6:04 - 6:06
    stiger vandstanden i havene -
  • 6:06 - 6:09
    det gør CO2-indholdet i atmosfæren og den globale temperatur også.
  • 6:09 - 6:12
    JM: Prøv også at kaste et blik på dette n-gram,
  • 6:12 - 6:15
    og det fortæller Nietzsche, at Gud ikke er død,
  • 6:15 - 6:18
    selvom du måske også synes, han har brug for en bedre ///presseagent.
  • 6:18 - 6:20
    (Latter)
  • 6:20 - 6:23
    ELA: Man kan få nogle ret abstrakte begreber med disse ting.
  • 6:23 - 6:25
    Lad mig f.eks. fortælle jer historien
  • 6:25 - 6:27
    om året 1950.
  • 6:27 - 6:29
    I den største del af vores historie
  • 6:29 - 6:31
    har ingen interesseret sig en pind for 1950.
  • 6:31 - 6:33
    I 1700 og 1800 og 1900
  • 6:33 - 6:36
    var ingen interesseret.
  • 6:37 - 6:39
    Op gennem 30'erne og 40'erne
  • 6:39 - 6:41
    var ingen interesseret.
  • 6:41 - 6:43
    Pludselig, midt i 40'erne,
  • 6:43 - 6:45
    blev der hvisket i krogene.
  • 6:45 - 6:47
    Folk indså at 1950 var noget, der ville ske,
  • 6:47 - 6:49
    og det kunne være noget stort.
  • 6:49 - 6:52
    (Latter)
  • 6:52 - 6:55
    Men det der gjorde folk allermest interesseret i 1950
  • 6:55 - 6:58
    var året 1950.
  • 6:58 - 7:01
    (Latter)
  • 7:01 - 7:03
    Folk var som besat.
  • 7:03 - 7:05
    De kunne ikke lade være med at tale
  • 7:05 - 7:08
    om alt det, de lavede i 1950,
  • 7:08 - 7:11
    alt det de planlagde at skulle gøre i 1950,
  • 7:11 - 7:16
    og alle drømmene om, hvad de ville opnå i 1950.
  • 7:16 - 7:18
    Faktisk var 1950 så fascinerende
  • 7:18 - 7:20
    at folk i flere år efter
  • 7:20 - 7:23
    bare blev ved med at tale om alle de utrolige ting, der skete -
  • 7:23 - 7:25
    i 1951, 1952 og 1953.
  • 7:25 - 7:27
    Omsider i 1954
  • 7:27 - 7:29
    var der en der vågnede op og indså
  • 7:29 - 7:33
    at 1950 var blevet noget passé.
  • 7:33 - 7:35
    (Latter)
  • 7:35 - 7:37
    Og uden videre sprang boblen.
  • 7:37 - 7:39
    (Latter)
  • 7:39 - 7:41
    Og historien om 1950
  • 7:41 - 7:43
    er historien om alle de år, vi har registreret,
  • 7:43 - 7:46
    med et lille tvist, fordi vi nu har disse fine grafer.
  • 7:46 - 7:49
    Og fordi vi har disse fine grafer, kan vi nu måle ting.
  • 7:49 - 7:51
    Vi kan sige "Hvor hurtigt springer boblen?"
  • 7:51 - 7:54
    Og de viser sig, at vi kan måle dette meget præcist.
  • 7:54 - 7:57
    Der blev udledt ligninger, og der opstillet grafer,
  • 7:57 - 7:59
    og nettoresultatet er
  • 7:59 - 8:02
    at det viser sig, at boblen springer hurtigere og hurtigere
  • 8:02 - 8:04
    for hvert år der går.
  • 8:04 - 8:09
    Vi mister interessen for fortiden hurtigere.
  • 8:09 - 8:11
    JM: Og nu et godt karrieretip:
  • 8:11 - 8:13
    For de af jer, der vil være berømte,
  • 8:13 - 8:15
    kan vi lære af de 25 mest berømte politiske personligheder,
  • 8:15 - 8:17
    forfattere, skuespillere osv.
  • 8:17 - 8:20
    Så hvis du vil være berømt tidligt, skal du være skuespiller,
  • 8:20 - 8:22
    fordi berømmelsen så begynder at stige, nrå du er sidst i 20'erne –
  • 8:22 - 8:24
    Du er stadig ung, og det er virkelig skønt.
  • 8:24 - 8:26
    Men hvis du kan vente lidt, skal du blive forfatter,
  • 8:26 - 8:28
    fordi så opnår meget stor berømmelse,
  • 8:28 - 8:30
    som f.eks. Mark Twain: Ekstremt berømt.
  • 8:30 - 8:32
    Men hvis du vil helt til toppen,
  • 8:32 - 8:34
    skal du udskyde den tilfredsstillelse, det er
  • 8:34 - 8:36
    at blive berømt - og selvfølgelig blive politiker.
  • 8:36 - 8:38
    Her vil du blive berømt, når du er i slutningen af 50'erne,
  • 8:38 - 8:40
    og blive meget, meget berømt derefter.
  • 8:40 - 8:43
    Videnskabsfolk plejer også at blive berømte, når de er meget ældre.
  • 8:43 - 8:45
    For eksempel biologer og fysikere
  • 8:45 - 8:47
    bliver næsten ligeså berømte som skuespillere.
  • 8:47 - 8:50
    En fejl, du ikke skal begå, er at blive matematiker.
  • 8:50 - 8:52
    (Latter)
  • 8:52 - 8:54
    Hvis du gør det,
  • 8:54 - 8:57
    tænker du måske "Herligt! Jeg leverer mit bedste arbejde, når jeg er i 20'erne"
  • 8:57 - 8:59
    Men tænk engang... stort set ingen lægger mærke til det.
  • 8:59 - 9:02
    (Latter)
  • 9:02 - 9:04
    ELA: Der er mere nøgterne observationer
  • 9:04 - 9:06
    blandt n-grammerne.
  • 9:06 - 9:08
    Her er f.eks. Marc Chagalls livsforløb,
  • 9:08 - 9:10
    som kunster født i 1887.
  • 9:10 - 9:13
    Og dette ligner det normale forløb for en berømt person.
  • 9:13 - 9:17
    Han bliver mere og mere berømt,
  • 9:17 - 9:19
    bare ikke hvis vi ser på tysk.
  • 9:19 - 9:21
    På tysk ser vi noget ganske bizart,
  • 9:21 - 9:23
    noget man stort set aldrig ser,
  • 9:23 - 9:25
    og det er, at han bliver ekstremt berømt
  • 9:25 - 9:27
    hvorefter berømmelsen falder brat
  • 9:27 - 9:30
    og er på nulpunktet mellem 1933 og 1945,
  • 9:30 - 9:33
    hvorefter berømmelsen vender tilbage.
  • 9:33 - 9:35
    Og de vi selvfølgelig kan se
  • 9:35 - 9:38
    er at Marc Chagall var jødisk kunstner
  • 9:38 - 9:40
    i nazi-Tyskland
  • 9:40 - 9:42
    Disse signaler
  • 9:42 - 9:44
    er faktisk så stærk,
  • 9:44 - 9:47
    at vi ikke behøver at vide, at en person er blevet censureret.
  • 9:47 - 9:49
    Vi kan faktisk regne det ud
  • 9:49 - 9:51
    ved hjælp af meget grundlæggende behandling af signalerne.
  • 9:51 - 9:53
    Her er en simpel måde at gøre det på.
  • 9:53 - 9:55
    Det er rimeligt at forvente
  • 9:55 - 9:57
    at en persons berømmelse i en given periode
  • 9:57 - 9:59
    vil være nogenlunde gennemsnittet af berømmelsen før
  • 9:59 - 10:01
    og berømmelsen efter perioden.
  • 10:01 - 10:03
    Så det er nogenlunde, det vi forventer.
  • 10:03 - 10:06
    Og vi sammenligner med den berømmelse, vi kan aflæse.
  • 10:06 - 10:08
    Og så dividerer vi bare den ene med den anden
  • 10:08 - 10:10
    så vi får noget, vi kalder et undertrykkelsesindeks.
  • 10:10 - 10:13
    Hvis undertrykkelsesindekset er meget, meget, meget lavt,
  • 10:13 - 10:15
    er der stor sandsynlighed for at du er undertrykt.
  • 10:15 - 10:18
    Hvis det er meget højt, får du måske hjælp af propaganda.
  • 10:19 - 10:21
    JM: Nu kan man faktisk se på
  • 10:21 - 10:24
    fordelingen af undertrykkelsesindekser over hele populationer.
  • 10:24 - 10:26
    For eksempel her:
  • 10:26 - 10:28
    Dette undertrykkelsesindeks er for 5.000 personer
  • 10:28 - 10:30
    taget fra engelske bøger uden nogen kendt undertrykkelse.
  • 10:30 - 10:32
    Det ville være på denne måde, tæt centreret om ét.
  • 10:32 - 10:34
    Det man kan aflæse, er grundlæggende som forventet.
  • 10:34 - 10:36
    Dette er fordelingen, som den ses i Tyskland.
  • 10:36 - 10:38
    Meget anderledes... den er forskudt til venstre.
  • 10:38 - 10:41
    Folk talte dobbelt så lidt om det, som de burde.
  • 10:41 - 10:43
    Men vigtigere er, at fordelingen er meget bredere.
  • 10:43 - 10:46
    Der er mange personer, der ender ude til venstre i fordelingen,
  • 10:46 - 10:49
    som der bliver talt 10 gange så lidt om, som der burde.
  • 10:49 - 10:51
    Men der er også personer ude til højre,
  • 10:51 - 10:53
    som synes at være hjulpet af propaganda.
  • 10:53 - 10:56
    Dette er kendetegnende for censur i bogregisteret.
  • 10:56 - 10:58
    ELA: Denne metode
  • 10:58 - 11:00
    kalder vi "culturomics".
  • 11:00 - 11:02
    Det er lidt ligesom genforskning
  • 11:02 - 11:04
    Genomics - genforskning - er et nærbillede af biologi
  • 11:04 - 11:07
    hvor man ser på sekvenser af baser i arvemassen.
  • 11:07 - 11:09
    Culturomics minder om dette.
  • 11:09 - 11:12
    Det er en analyse af en kæmpe samling data
  • 11:12 - 11:14
    anvendt på studiet af menneskets kultur.
  • 11:14 - 11:16
    I stedet for at bruge arvemassen som perspektiv,
  • 11:16 - 11:19
    bruges digitaliserede stykker af historisk materiale.
  • 11:19 - 11:21
    Det gode ved culturomics er
  • 11:21 - 11:23
    at alle kan gøre det.
  • 11:23 - 11:25
    Hvorfor kan alle gøre det?
  • 11:25 - 11:27
    Alle kan gøre det, fordi disse tre herrer,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray og Will Brockman hos Google,
  • 11:30 - 11:32
    så prototypen af Ngram Viewer,
  • 11:32 - 11:34
    og sagde, "Det er så sjovt,
  • 11:34 - 11:37
    at vi må gøre det tilgængeligt for alle."
  • 11:37 - 11:39
    På nøjagtig de to uger inden offentliggørelsen af vores rapport
  • 11:39 - 11:42
    kodede de en version af Ngram Viewer til almen brug.
  • 11:42 - 11:45
    Du kan så skrive et vilkårligt ord, du er interesseret i
  • 11:45 - 11:47
    og straks se det tilhørende n-gram,
  • 11:47 - 11:49
    og du kan gennemse eksempler på alle bøger
  • 11:49 - 11:51
    som dit n-gram optræder i.
  • 11:51 - 11:53
    Dette blev brugt over en million gang første dag,
  • 11:53 - 11:55
    og dette er den bedste af alle søgninger.
  • 11:55 - 11:58
    Så folk ønsker at yde deres bedste.
  • 11:58 - 12:01
    Men i det 18. årh. var folk ligeglade med alt det.
  • 12:01 - 12:04
    De ville ikke gøre bedste, de ville være "beft".
  • 12:04 - 12:07
    Dette var selvfølgelig bare en fejl.
  • 12:07 - 12:09
    Man stræbte ikke efter middelmådighed,
  • 12:09 - 12:12
    men tidligere skrev man S anderledes, nærmest som et f.
  • 12:12 - 12:15
    Det opdagede Google selvfølgelig ikke dengang,
  • 12:15 - 12:18
    så vi skrev det i den videnskabelige artikel.
  • 12:18 - 12:20
    Dette minder os om, at
  • 12:20 - 12:22
    selvom det er rigtig sjovt,
  • 12:22 - 12:24
    at fortolke disse grafer, skal man være forsigtig
  • 12:24 - 12:27
    og overholde de videnskabelige standarder.
  • 12:27 - 12:30
    Folk har brugt dette til mange sjove formål.
  • 12:30 - 12:37
    (Latter)
  • 12:37 - 12:39
    Vi behøver faktisk ikke tale,
  • 12:39 - 12:42
    vi viser bare alle slides og tier stille.
  • 12:42 - 12:45
    Denne person var interesseret i frustrationens historie.
  • 12:45 - 12:48
    Der er forskellige typer frustration.
  • 12:48 - 12:51
    Hvis slår tåen, er der ét A i "argh".
  • 12:51 - 12:53
    Hvis Jorden udslettes af Vogonerne
  • 12:53 - 12:55
    for at gøre plads til en intergalaktisk ekspresrute,
  • 12:55 - 12:57
    er det et "aaaaaaaargh" med otte A'er.
  • 12:57 - 12:59
    Personen undersøger alle udgaver af "argh"
  • 12:59 - 13:01
    fra ét til otte A'er.
  • 13:01 - 13:03
    Og det viser sig
  • 13:03 - 13:05
    at de mindst hyppige "argh" vedrører
  • 13:05 - 13:08
    vedrører ting, der er mere frustrerende
  • 13:08 - 13:11
    men sjovt nok ikke i de tidlige 80'ere.
  • 13:11 - 13:13
    Vi tror det kan være noget med Reagan.
  • 13:13 - 13:15
    (Latter)
  • 13:15 - 13:18
    Disse data kan bruges til mange ting,
  • 13:18 - 13:21
    men grundlaget er, at historien bliver digitaliseret.
  • 13:21 - 13:23
    Google er begyndt at digitalisere 15 millioner bøger.
  • 13:23 - 13:25
    Det er 12 % af alle bøger, der er udgivet.
  • 13:25 - 13:28
    Det er en god klump af menneskets kultur.
  • 13:28 - 13:31
    Kultur er meget mere: manuskripter, aviser
  • 13:31 - 13:33
    noget er ikke tekst, f.eks. kunst og malerier.
  • 13:33 - 13:35
    Disse vil alle findes på vores computere,
  • 13:35 - 13:37
    på computere i hele verden.
  • 13:37 - 13:40
    Og når det sker, ændrer det den måde
  • 13:40 - 13:42
    vi forstår vores fortid, vores nutid og menneskets kultur.
  • 13:42 - 13:44
    Mange tak.
  • 13:44 - 13:47
    (Bifald)
Title:
Det har vi lært af 5 millioner bøger
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Har du leget med Ngram Viewer i Google Labs? Dette vanedannende værktøj lader dig søge efter ord og idéer i en database med 5 millioner bøger fra flere århundreder. Erez Liebermann Aiden og Jean-Baptiste Michel viser os, hvordan det virker, og nogle af de overraskende ting, vi kan lære af 500 milliarder ord.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Bjarne Poulsen added a translation

Danish subtitles

Revisions