< Return to Video

Wat we leerden uit 5 miljoen boeken

  • 0:00 - 0:02
    Erez Lieberman Aiden: Iedereen weet
  • 0:02 - 0:05
    dat één beeld meer zegt dan 1000 woorden.
  • 0:07 - 0:09
    Maar wij in Harvard
  • 0:09 - 0:12
    vroegen ons af of dit wel echt klopte.
  • 0:12 - 0:14
    (Gelach)
  • 0:14 - 0:18
    Dus verzamelden we een team van experts,
  • 0:18 - 0:20
    van Harvard, MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, The Encyclopedia Britannica
  • 0:23 - 0:25
    en zelfs onze trotse sponsors,
  • 0:25 - 0:28
    The Google.
  • 0:28 - 0:30
    We overpeinsden dit
  • 0:30 - 0:32
    gedurende vier jaar.
  • 0:32 - 0:37
    We kwamen tot een verrassende conclusie.
  • 0:37 - 0:40
    Dames en heren, een beeld is niet alleen meer waard dan 1000 woorden.
  • 0:40 - 0:42
    Wij hebben beelden gevonden
  • 0:42 - 0:47
    die 500 miljard woorden waard zijn.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Hoe kwamen we tot deze conclusie?
  • 0:49 - 0:51
    Erez en ik dachten na hoe we een overzicht
  • 0:51 - 0:53
    konden krijgen van onze cultuur
  • 0:53 - 0:56
    en geschiedenis: de verandering door de tijd.
  • 0:56 - 0:58
    Er zijn vele boeken geschreven over de jaren.
  • 0:58 - 1:00
    Dus dachten we: de beste manier om ervan te leren
  • 1:00 - 1:02
    is die miljoenen boeken allemaal te lezen.
  • 1:02 - 1:05
    Op de schaal van hoe vet dat is,
  • 1:05 - 1:08
    zou dit extreem hoog scoren.
  • 1:08 - 1:10
    Het probleem is de X-as hiervan,
  • 1:10 - 1:12
    hetgeen de praktische as is.
  • 1:12 - 1:14
    Die is bijzonder laag.
  • 1:14 - 1:17
    (Applaus)
  • 1:17 - 1:20
    Mensen kiezen meestal voor een alternatieve aanpak,
  • 1:20 - 1:22
    namelijk: enkele bronnen zeer grondig lezen.
  • 1:22 - 1:24
    Dat is zeer praktisch, maar niet zo vet.
  • 1:24 - 1:27
    Wat je zou willen, is in het
  • 1:27 - 1:30
    vette en toch praktische deel van dit vlak belanden.
  • 1:30 - 1:33
    Nu zat er vlakbij een bedrijf genaamd Google
  • 1:33 - 1:35
    dat een digitalisatieproject was begonnen
  • 1:35 - 1:37
    dat dit wellicht mogelijk kon maken.
  • 1:37 - 1:39
    Ze hebben miljoenen boeken gedigitaliseerd.
  • 1:39 - 1:42
    Dit betekent dat je rekenkundige methoden kunt gebruiken
  • 1:42 - 1:44
    om al deze boeken te lezen met één muisklik.
  • 1:44 - 1:47
    Dat is zeer praktisch en extreem vet.
  • 1:48 - 1:50
    ELA: Ik zal even vertellen waar boeken vandaan komen.
  • 1:50 - 1:53
    Sinds mensenheugenis zijn er schrijvers geweest.
  • 1:53 - 1:56
    Deze schrijvers streefden ernaar boeken te schrijven.
  • 1:56 - 1:58
    Dit werd aanzienlijk vergemakkelijkt
  • 1:58 - 2:00
    door de komst van drukpers, enkele eeuwen geleden.
  • 2:00 - 2:03
    Sindsdien is het deze schrijvers
  • 2:03 - 2:05
    129 miljoen maal gelukt
  • 2:05 - 2:07
    een boek te publiceren.
  • 2:07 - 2:09
    Als deze boeken niet verloren zijn gegaan,
  • 2:09 - 2:11
    staan ze ergens in een bibliotheek,
  • 2:11 - 2:14
    en veel van die boeken zijn uit bibliotheken gehaald
  • 2:14 - 2:16
    en gedigitaliseerd door Google,
  • 2:16 - 2:18
    dat tot op heden 15 miljoen boeken heeft gescand.
  • 2:18 - 2:21
    Google digitaliseert boeken tot een heel mooi formaat.
  • 2:21 - 2:23
    We hebben de data, plus meta-data.
  • 2:23 - 2:26
    We hebben informatie over waar het gepubliceerd was,
  • 2:26 - 2:28
    wie de auteur was, wanneer het uitkwam.
  • 2:28 - 2:31
    Wij gaan door al die documenten heen
  • 2:31 - 2:35
    en sluiten alles uit wat niet van de hoogste kwaliteit is.
  • 2:35 - 2:37
    Wat we dan overhouden,
  • 2:37 - 2:40
    is een collectie van 5 miljoen boeken,
  • 2:40 - 2:43
    500 miljard woorden,
  • 2:43 - 2:45
    een rij letters duizend maal langer
  • 2:45 - 2:48
    dan het menselijk genoom --
  • 2:48 - 2:50
    een tekst die, uitgeschreven,
  • 2:50 - 2:52
    10 maal tot de maan
  • 2:52 - 2:54
    en terug zou reiken --
  • 2:54 - 2:58
    een waarachtige scherf van ons culturele genoom.
  • 2:58 - 3:00
    Wat we uiteraard deden
  • 3:00 - 3:03
    ten overstaan van zulk buitensporig hyperbool ...
  • 3:03 - 3:05
    (Gelach)
  • 3:05 - 3:08
    was wat ieder zichzelf respecterend onderzoeker
  • 3:08 - 3:11
    gedaan zou hebben.
  • 3:11 - 3:13
    We namen een pagina uit XKDC,
  • 3:13 - 3:15
    en zeiden: "Pas op!
  • 3:15 - 3:17
    We gaan een poging tot wetenschap doen."
  • 3:17 - 3:19
    (Gelach)
  • 3:19 - 3:21
    JM: Natuurlijk dachten we:
  • 3:21 - 3:23
    laten we eerst de data produceren
  • 3:23 - 3:25
    waarop mensen wetenschap kunnen loslaten.
  • 3:25 - 3:27
    We dachten: welke data kunnen we produceren?
  • 3:27 - 3:29
    Natuurlijk wil je de volledige tekst
  • 3:29 - 3:31
    van deze 5 miljoen boeken publiceren.
  • 3:31 - 3:33
    Google, en Jon Orwant in het bijzonder,
  • 3:33 - 3:35
    hielden ons het volgende sommetje voor.
  • 3:35 - 3:38
    Je hebt 5 miljoen boeken; dat is 5 miljoen auteurs...
  • 3:38 - 3:41
    ...en 5 miljoen eisers is een gigantische rechtszaak.
  • 3:41 - 3:43
    Ook al zou dat uitermate vet zijn,
  • 3:43 - 3:46
    het is, nogmaals, extreem onpraktisch.
  • 3:46 - 3:48
    (Gelach)
  • 3:48 - 3:50
    Dus we gingen overstag,
  • 3:50 - 3:53
    en we kozen de praktische aanpak, die iets minder vet was.
  • 3:53 - 3:55
    We zeiden, in plaats van de hele tekst uitgeven,
  • 3:55 - 3:57
    gaan we statistieken uitgeven over de boeken.
  • 3:57 - 3:59
    Neem bijvoorbeeld "A gleam of happiness".
  • 3:59 - 4:01
    Vier woorden; we noemen dat een four-gram.
  • 4:01 - 4:03
    We gaan laten zien hoe vaak een specifiek four-gram
  • 4:03 - 4:05
    verscheen in boeken in 1801, 1802, 1803,
  • 4:05 - 4:07
    tot en met 2008.
  • 4:07 - 4:09
    Dat levert een tijdverloop op
  • 4:09 - 4:11
    van hoe frequent deze specifieke zin gebruikt werd.
  • 4:11 - 4:14
    We doen dat met alle woorden en zinnen die in die boeken voorkomen,
  • 4:14 - 4:17
    wat een lijst van twee miljard zinnen oplevert
  • 4:17 - 4:19
    die laat zien hoe onze cultuur veranderd is.
  • 4:19 - 4:21
    ELA: Die 2 miljard zinnen
  • 4:21 - 4:23
    noemen we 2 miljard n-grams.
  • 4:23 - 4:25
    Wat vertellen ze ons?
  • 4:25 - 4:27
    De individuele n-grams meten culturele trends.
  • 4:27 - 4:29
    Ik zal een voorbeeld geven.
  • 4:29 - 4:31
    Stel dat ik geluk ervaar,
  • 4:31 - 4:33
    en morgen vertel ik je daarover.
  • 4:33 - 4:36
    Dan kan ik zeggen: "Gisteren ervoer ik geluk."
  • 4:36 - 4:39
    Of: "Gisteren ervaarde ik geluk."
  • 4:39 - 4:42
    Wat moet ik gebruiken?
  • 4:42 - 4:44
    Hoe kom je daar achter?
  • 4:44 - 4:46
    Sinds een maand of zes,
  • 4:46 - 4:48
    is de meest vooruitstrevende manier
  • 4:48 - 4:50
    om hier achter te komen, bijvoorbeeld,
  • 4:50 - 4:52
    het benaderen van de volgende psycholoog met geweldig haar,
  • 4:52 - 4:54
    en je zegt:
  • 4:54 - 4:57
    "Steve, jij weet alles van onregelmatige werkwoorden.
  • 4:57 - 4:59
    Wat moet ik doen?"
  • 4:59 - 5:01
    Dan zegt hij: "Nou, de meeste mensen zeggen 'ervaarde',
  • 5:01 - 5:04
    maar sommige mensen zeggen 'ervaarde'."
  • 5:04 - 5:06
    Je weet ook, min of meer,
  • 5:06 - 5:09
    dat als je 200 jaar teruggaat in de tijd
  • 5:09 - 5:12
    en deze staatsman met even geweldig haar, vraagt:
  • 5:12 - 5:15
    (Gelach)
  • 5:15 - 5:17
    "Tom, wat moet ik zeggen?'"
  • 5:17 - 5:19
    Dan zou hij zeggen: "Nou, in mijn tijd ervoeren
  • 5:19 - 5:22
    de meeste mensen, maar sommigen ervaarden."
  • 5:22 - 5:24
    Nu ga ik wat rauwe data laten zien.
  • 5:24 - 5:28
    Twee kolommen uit de lijst met 2 miljard gegevens.
  • 5:28 - 5:30
    Wat je ziet, is de jaarlijkse frequentie
  • 5:30 - 5:33
    van 'ervoeren' en 'ervaarden' doorheen de tijd.
  • 5:34 - 5:36
    Dit zijn slechts twee
  • 5:36 - 5:39
    van de twee miljard kolommen.
  • 5:39 - 5:41
    Dus de hele dataset
  • 5:41 - 5:44
    is een miljard maal vetter dan deze dia.
  • 5:44 - 5:46
    (Gelach)
  • 5:46 - 5:50
    (Applaus)
  • 5:50 - 5:52
    JM: Er zijn veel andere beelden die 500 miljard woorden waard zijn.
  • 5:52 - 5:54
    Bijvoorbeeld dit beeld.
  • 5:54 - 5:56
    Als je enkel griep neemt,
  • 5:56 - 5:58
    zie je pieken op tijdstippen waarvan je weet dat
  • 5:58 - 6:01
    grote griepepidemieën wereldwijd levens kostten.
  • 6:01 - 6:04
    ELA: Mocht je nog niet overtuigd zijn:
  • 6:04 - 6:06
    zeewaterniveaus stijgen,
  • 6:06 - 6:09
    evenals CO2 in de lucht, en de globale temperatuur.
  • 6:09 - 6:12
    JM: Kijk ook even naar dit n-gram,
  • 6:12 - 6:15
    dat Nietzsche vertelt dat God niet dood is,
  • 6:15 - 6:18
    hoewel je kunt zeggen dat hij betere pr nodig heeft.
  • 6:18 - 6:20
    (Gelach)
  • 6:20 - 6:23
    ELA: Je komt bij behoorlijk abstracte concepten met dit soort dingen.
  • 6:23 - 6:25
    Ik zal je bijvoorbeeld de geschiedenis laten zien
  • 6:25 - 6:27
    van het jaar 1950.
  • 6:27 - 6:29
    Tijdens het grootste deel van de geschiedenis,
  • 6:29 - 6:31
    kon 1950 niemand iets schelen.
  • 6:31 - 6:33
    In 1700, 1800, en 1900
  • 6:33 - 6:36
    interesseerde het niemand.
  • 6:37 - 6:39
    In de jaren '30 en '40,
  • 6:39 - 6:41
    interesseerde het niemand.
  • 6:41 - 6:43
    Opeens, midden jaren '40,
  • 6:43 - 6:45
    ontstond er rumoer.
  • 6:45 - 6:47
    Mensen beseften dat 1950 er aan ging komen,
  • 6:47 - 6:49
    en het zou belangrijk kunnen zijn.
  • 6:49 - 6:52
    (Gelach)
  • 6:52 - 6:55
    Maar niets liet mensen zo warmlopen voor 1950
  • 6:55 - 6:58
    als het jaar 1950.
  • 6:58 - 7:01
    (Gelach)
  • 7:01 - 7:03
    Mensen liepen geobsedeerd rond.
  • 7:03 - 7:05
    Ze bleven maar praten
  • 7:05 - 7:08
    over alle dingen die ze deden in 1950,
  • 7:08 - 7:11
    alle dingen die ze van plan waren in 1950,
  • 7:11 - 7:16
    alle dromen die ze wilden verwezenlijken in 1950.
  • 7:16 - 7:18
    In feite was 1950 zo fascinerend
  • 7:18 - 7:20
    dat mensen jaren later
  • 7:20 - 7:23
    nog steeds praatten over alle verbazingwekkends dat gebeurd was,
  • 7:23 - 7:25
    in '51, '52, '53.
  • 7:25 - 7:27
    Uiteindelijk in 1954,
  • 7:27 - 7:29
    werd er iemand wakker die zich realiseerde
  • 7:29 - 7:33
    dat 1950 nu wat achterhaald was.
  • 7:33 - 7:35
    (Gelach)
  • 7:35 - 7:37
    Opeens was de zeepbel gebarsten.
  • 7:37 - 7:39
    (Gelach)
  • 7:39 - 7:41
    Het verhaal van 1950
  • 7:41 - 7:43
    is het verhaal van elk jaar dat gemeten is,
  • 7:43 - 7:46
    met een kleine draai, want nu hebben we deze mooie grafieken.
  • 7:46 - 7:49
    Omdat we die hebben, kunnen we dingen meten.
  • 7:49 - 7:51
    We kunnen vragen: "Hoe snel is de zeepbel gebarsten?"
  • 7:51 - 7:54
    Dat blijken we zeer precies te kunnen meten.
  • 7:54 - 7:57
    Vergelijkingen en grafieken werden gemaakt,
  • 7:57 - 7:59
    en het netto resultaat
  • 7:59 - 8:02
    is dat we zien dat de bel steeds sneller barst
  • 8:02 - 8:04
    naarmate de tijd vordert.
  • 8:04 - 8:09
    We raken sneller uitgekeken op het verleden.
  • 8:09 - 8:11
    JM: Nu wat carrière-advies.
  • 8:11 - 8:13
    Diegenen van jullie die beroemd willen worden,
  • 8:13 - 8:15
    kunnen leren van de 25 beroemdste politieke figuren,
  • 8:15 - 8:17
    schrijvers, acteurs enzovoort.
  • 8:17 - 8:20
    Om snel beroemd te worden, zou je acteur moeten zijn,
  • 8:20 - 8:22
    want dan stijgt je bekendheid nog vóór je dertigste --
  • 8:22 - 8:24
    je bent nog jong, helemaal geweldig.
  • 8:24 - 8:26
    Als je wat langer kunt wachten, zou je schrijver moeten zijn,
  • 8:26 - 8:28
    want dan stijg je tot grote hoogten,
  • 8:28 - 8:30
    zoals Mark Twain, bijvoorbeeld: extreem beroemd.
  • 8:30 - 8:32
    Maar als je de absolute top wilt bereiken,
  • 8:32 - 8:34
    moet je kunnen wachten,
  • 8:34 - 8:36
    en, uiteraard, politicus worden.
  • 8:36 - 8:38
    Hier word je beroemd vlak voor je zestigste,
  • 8:38 - 8:40
    en daarna word je nog veel beroemder.
  • 8:40 - 8:43
    Wetenschappers worden doorgaans ook beroemd op hogere leeftijd.
  • 8:43 - 8:45
    Bijvoorbeeld, biologen en natuurkundigen
  • 8:45 - 8:47
    zijn vaak bijna zo beroemd als acteurs.
  • 8:47 - 8:50
    Een fout die je niet moet maken, is wiskundige worden.
  • 8:50 - 8:52
    (Gelach)
  • 8:52 - 8:54
    Als je dat doet,
  • 8:54 - 8:57
    denk je wellicht: "Mooi, ik ga mijn beste werk doen als begin twintiger."
  • 8:57 - 8:59
    Maar dat kan niemand wat schelen.
  • 8:59 - 9:02
    (Gelach)
  • 9:02 - 9:04
    ELA: Er zijn meer ontnuchterende aspecten
  • 9:04 - 9:06
    aan de n-grams.
  • 9:06 - 9:08
    Hier is bijvoorbeeld het traject van Marc Chagall,
  • 9:08 - 9:10
    een kunstenaar geboren in 1887.
  • 9:10 - 9:13
    Het lijkt het normale traject van een beroemd persoon.
  • 9:13 - 9:17
    Hij wordt steeds beroemder,
  • 9:17 - 9:19
    behalve als je in het Duits kijkt.
  • 9:19 - 9:21
    Daar zie je iets volledig bizars,
  • 9:21 - 9:23
    wat je bijna nooit ziet, namelijk
  • 9:23 - 9:25
    dat hij eerst heel beroemd wordt,
  • 9:25 - 9:27
    en dan opeens sterk daalt,
  • 9:27 - 9:30
    met een dieptepunt tussen 1933 en 1945,
  • 9:30 - 9:33
    voordat hij weer stijgt.
  • 9:33 - 9:35
    Wat we hier uiteraard zien,
  • 9:35 - 9:38
    is het feit dat Marc Chagall een Joodse kunstenaar was
  • 9:38 - 9:40
    in Nazi-Duitsland.
  • 9:40 - 9:42
    Deze signalen
  • 9:42 - 9:44
    zijn zo sterk
  • 9:44 - 9:47
    dat we niet hoeven te weten dat iemand werd gecensureerd.
  • 9:47 - 9:49
    We kunnen het uitvissen
  • 9:49 - 9:51
    met wat simpele signaalverwerking.
  • 9:51 - 9:53
    Hier is een eenvoudige methode.
  • 9:53 - 9:55
    Een redelijke aanname is
  • 9:55 - 9:57
    dat iemands roem in een bepaalde periode
  • 9:57 - 9:59
    ruwweg het gemiddelde moet zijn van zijn roem
  • 9:59 - 10:01
    ervoor en erna.
  • 10:01 - 10:03
    Dat is wat we zouden verwachten.
  • 10:03 - 10:06
    Dat vergelijken we met de roem die we observeren.
  • 10:06 - 10:08
    Dan delen we het één door het ander,
  • 10:08 - 10:10
    om iets te produceren dat we een suppressie-index noemen.
  • 10:10 - 10:13
    Als de suppressie-index heel, heel, heel klein is,
  • 10:13 - 10:15
    dan kon het zijn dat je tegengewerkt wordt.
  • 10:15 - 10:18
    Als hij erg groot is, zou er propaganda in het spel kunnen zijn.
  • 10:19 - 10:21
    JM: Je kunt ook kijken naar
  • 10:21 - 10:24
    de distributie van suppressie-indexen over hele populaties.
  • 10:24 - 10:26
    Dus bijvoorbeeld, hier:
  • 10:26 - 10:28
    deze suppressie-index is voor 5000 mensen
  • 10:28 - 10:30
    genomen uit Engelse boeken zonder suppressie --
  • 10:30 - 10:32
    dat is mooi gecentreerd rond 1.
  • 10:32 - 10:34
    Wat je verwacht, observeer je ook.
  • 10:34 - 10:36
    Dit is de distributie in Duitsland --
  • 10:36 - 10:38
    heel anders, het is verschoven naar links.
  • 10:38 - 10:41
    Mensen praatten er tweemaal minder over dan normaal.
  • 10:41 - 10:43
    Maar veel belangrijker: de distributie is veel breder.
  • 10:43 - 10:46
    Er zijn veel mensen in de linkerkant van de distributie,
  • 10:46 - 10:49
    waarover tienmaal minder gepraat wordt dan normaal.
  • 10:49 - 10:51
    Maar ook mensen helemaal rechts,
  • 10:51 - 10:53
    die schijnen te profiteren van propaganda.
  • 10:53 - 10:56
    Dit beeld is het kenmerk van censuur in boeken.
  • 10:56 - 10:58
    ELA: Culturomica
  • 10:58 - 11:00
    noemen we deze methode.
  • 11:00 - 11:02
    Het lijkt op genomica.
  • 11:02 - 11:04
    Maar genomica is een lens op biologie
  • 11:04 - 11:07
    door het raam van de opeenvolging van basen in het menselijk genoom.
  • 11:07 - 11:09
    Culturomica lijkt hierop.
  • 11:09 - 11:12
    Het is de toepassing van massale datacollectie-analyse
  • 11:12 - 11:14
    op de studie van de menselijke cultuur.
  • 11:14 - 11:16
    In plaats van door de lens van een genoom,
  • 11:16 - 11:19
    hier door de lens van gedigitaliseerde stukjes historische data.
  • 11:19 - 11:21
    Het mooie aan culturomica
  • 11:21 - 11:23
    is dat iedereen het kan doen.
  • 11:23 - 11:25
    Waarom kan iedereen het?
  • 11:25 - 11:27
    Iedereen kan het omdat drie kerels,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray en Will Brockman bij Google,
  • 11:30 - 11:32
    het prototype zagen van de Ngram Viewer,
  • 11:32 - 11:34
    en zeiden: "Dit is zo leuk.
  • 11:34 - 11:37
    We moeten dit beschikbaar maken voor de mensen."
  • 11:37 - 11:39
    In de twee weken voordat onze publicatie uitkwam,
  • 11:39 - 11:42
    codeerden ze een versie van de Ngram Viewer voor het grote publiek.
  • 11:42 - 11:45
    Dus ook jij kunt ieder woord of iedere zin intoetsen
  • 11:45 - 11:47
    en diens Ngram meteen zien --
  • 11:47 - 11:49
    en tevens voorbeelden inkijken van de boeken
  • 11:49 - 11:51
    waarin je Ngram voorkomt.
  • 11:51 - 11:53
    JM: De eerste dag is het meer dan een miljoen maal gebruikt.
  • 11:53 - 11:55
    en het is echt de beste van alle zoekopdrachten.
  • 11:55 - 11:58
    Mensen willen op hun best zijn, hun beste voetje voor zetten.
  • 11:58 - 12:01
    Maar in de 18e eeuw gaven mensen daar niet om.
  • 12:01 - 12:04
    Ze wilden niet op hun best zijn, maar op hun beft.
  • 12:04 - 12:07
    Dit is uiteraard een vergissing.
  • 12:07 - 12:09
    Ze streefden niet naar middelmatigheid,
  • 12:09 - 12:12
    maar de S werd toen anders geschreven, als een F.
  • 12:12 - 12:15
    Dit heeft Google destijds niet opgepikt,
  • 12:15 - 12:18
    dus we gaven dit aan in het wetenschapsartikel.
  • 12:18 - 12:20
    Maar het is dus een herinnering
  • 12:20 - 12:22
    dat, ook al is dit allemaal erg leuk,
  • 12:22 - 12:24
    wanneer je deze grafieken interpreteert, je erg moet oppassen,
  • 12:24 - 12:27
    en de wetenschappelijke basisprincipes moet toepassen.
  • 12:27 - 12:30
    ELA: Mensen hebben dit voor allerlei leuke dingen gebruikt.
  • 12:30 - 12:37
    (Gelach)
  • 12:37 - 12:39
    We hoeven eigenlijk niet te praten,
  • 12:39 - 12:42
    we laten gewoon alle dia's zien en houden onze mond.
  • 12:42 - 12:45
    Deze persoon was geïnteresseerd in de geschiedenis van frustratie.
  • 12:45 - 12:48
    Er zijn verschillende soorten frustratie.
  • 12:48 - 12:51
    Als je je teen stoot, is dat "argh" met één A.
  • 12:51 - 12:53
    Als de Aarde wordt verwoest door Vogons
  • 12:53 - 12:55
    om plaats te maken voor een galactische omleiding,
  • 12:55 - 12:57
    is dat een "aaaaaaaargh" met acht A's.
  • 12:57 - 12:59
    Deze persoon bestudeerde alle "arghs",
  • 12:59 - 13:01
    van één tot en met acht A's.
  • 13:01 - 13:03
    Nu blijkt
  • 13:03 - 13:05
    dat de minder frequente "arghs"
  • 13:05 - 13:08
    corresponderen met meer frustrerende dingen --
  • 13:08 - 13:11
    behalve, vreemd genoeg, begin jaren '80.
  • 13:11 - 13:13
    We denken dat dit iets te maken heeft met Reagan.
  • 13:13 - 13:15
    (Gelach)
  • 13:15 - 13:18
    JM: Er zijn vele toepassingen voor deze data,
  • 13:18 - 13:21
    maar het belangrijkste is dat historische data worden gedigitaliseerd.
  • 13:21 - 13:23
    Google heeft nu 15 miljoen boeken gedigitaliseerd.
  • 13:23 - 13:25
    Dat is 12% van alle boeken die ooit uitgegeven zijn.
  • 13:25 - 13:28
    Dat is een behoorlijk deel van onze cultuur.
  • 13:28 - 13:31
    Er is nog veel meer in de cultuur: er zijn manuscripten, kranten,
  • 13:31 - 13:33
    er zijn dingen zonder tekst, zoals kunst en schilderijen.
  • 13:33 - 13:35
    Deze staan allemaal op onze computers,
  • 13:35 - 13:37
    op computers over de wereld.
  • 13:37 - 13:40
    Wanneer dat gebeurt, zal het ons begrip van ons verleden,
  • 13:40 - 13:42
    ons heden, en onze cultuur transformeren.
  • 13:42 - 13:44
    Dank je wel.
  • 13:44 - 13:47
    (Applaus)
Title:
Wat we leerden uit 5 miljoen boeken
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Heb je wel eens gespeeld met Ngram Viewer van Google Labs? Het is een verslavende tool die je in staat stelt woorden en ideeën te zoeken in een databank van 5 miljoen boeken uit diverse eeuwen. Erez Lieberman Aiden en Jean-Baptiste Michel laten zien hoe het werkt, en tonen enkele verrassende dingen die we kunnen leren van 500 miljard woorden.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Axel Saffran added a translation

Dutch subtitles

Revisions