< Return to Video

Čemu jsme se naučili z 5 milionů knih

  • 0:00 - 0:02
    Erez Lieberman Aiden: Každý ví,
  • 0:02 - 0:05
    že jeden obraz vydá za tisíc slov.
  • 0:07 - 0:09
    My na Harvardu
  • 0:09 - 0:12
    jsme si to chtěli ověřit.
  • 0:12 - 0:14
    (smích)
  • 0:14 - 0:18
    A tak jsme dali dohromady tým expertů
  • 0:18 - 0:20
    z Harvardu, MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, The Encyclopedia Britannica
  • 0:23 - 0:25
    a dokonce i našeho hrdého sponzora,
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    A bádali jsme
  • 0:30 - 0:32
    4 roky.
  • 0:32 - 0:37
    A přišli jsme na překvapující závěr.
  • 0:37 - 0:40
    Dámy a pánové, jeden obraz nevydá za tisíc slov.
  • 0:40 - 0:42
    Nášli jsme obrazy, které
  • 0:42 - 0:47
    vydají i za 500 miliard slov.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Jak jsme na to přišli?
  • 0:49 - 0:51
    Erez a já jsme přemýšleli nad tím,
  • 0:51 - 0:53
    jak získat celkový obrázek lidské
  • 0:53 - 0:56
    kultury, historie a jejich vývoje v čase.
  • 0:56 - 0:58
    V historii vzniklo mnoho a mnoho knih.
  • 0:58 - 1:00
    Takže jsme si řekli, že nejlepší způsob, jak se z nich
  • 1:00 - 1:02
    poučit, je přečíst všechny ty miliony knih.
  • 1:02 - 1:05
    Takže, na škále úžasnosti je takový postup
  • 1:05 - 1:08
    opravdu, velmi vysoká..
  • 1:08 - 1:10
    Nicméně je zde i osa X,
  • 1:10 - 1:12
    a to osa praktičnosti.
  • 1:12 - 1:14
    A ta je velmi, velmi nízká.
  • 1:14 - 1:17
    (potlesk)
  • 1:17 - 1:20
    Takže lidé zkouší různé alternativní přístupy,
  • 1:20 - 1:22
    například vzít si pár zdrojů a pečlivě je pročíst.
  • 1:22 - 1:24
    Velmi praktické, ale ani trochu cool.
  • 1:24 - 1:27
    Nejraději bychom
  • 1:27 - 1:30
    získali úžasné a praktické řešení zároveň.
  • 1:30 - 1:33
    No a kousek od nás byla společnost Google, která před pár lety
  • 1:33 - 1:35
    začala projekt digitalizace
  • 1:35 - 1:37
    který toto umožnil.
  • 1:37 - 1:39
    Zdigitalizovali milióny knih.
  • 1:39 - 1:42
    To znamená, že za použití počítačů můžete
  • 1:42 - 1:44
    přečíst všechny ty knihy na jedno kliknutí.
  • 1:44 - 1:47
    To je velmi praktické a naprosto úžasné.
  • 1:48 - 1:50
    ELA: Dovolte mi říci něco o původu těchto knih.
  • 1:50 - 1:53
    Od pradávných časů jsme měli spisovatele.
  • 1:53 - 1:56
    Tito autoři toužili psát knihy.
  • 1:56 - 1:58
    Což se stalo výrazně snazším
  • 1:58 - 2:00
    s vynálezem knihtisku před pár stoletími.
  • 2:00 - 2:03
    Od té doby se autorům podařilo
  • 2:03 - 2:05
    ve 129 milionech různých případů,
  • 2:05 - 2:07
    své knihy vydat.
  • 2:07 - 2:09
    Pokud tyto knihy nezapadly v čase,
  • 2:09 - 2:11
    staly se součástí nějaké knihovny,
  • 2:11 - 2:14
    a mnoho z nich se z těchto knihoven i dostalo, a byly
  • 2:14 - 2:16
    zdigitalizovány Googlem,
  • 2:16 - 2:18
    který má dnes naskenováno asi 15 miliónů knih.
  • 2:18 - 2:21
    Když Google naskenuje knihu, převede jí do velmi pěkného formátu.
  • 2:21 - 2:23
    Takže teď máme data a k tomu metadata.
  • 2:23 - 2:26
    Máme informaci například o tom, kde byla kniha vydaná,
  • 2:26 - 2:28
    kdo byl její autor, nebo kdy byla vydaná.
  • 2:28 - 2:31
    A to, co jsme my udělali bylo, že jsme prošli
  • 2:31 - 2:35
    všechny tyto záznamy a vypustili vše co nebylo nejvyšší kvality.
  • 2:35 - 2:37
    A nakonec nám
  • 2:37 - 2:40
    zbyla sbírka 5 miliónů knih,
  • 2:40 - 2:43
    500 miliard slov,
  • 2:43 - 2:45
    řada písmen tisíckrát delší
  • 2:45 - 2:48
    než lidský genom -
  • 2:48 - 2:50
    text, který, když by byl přepsán,
  • 2:50 - 2:52
    by dosáhl odsud na Měsíc a zpátky
  • 2:52 - 2:54
    desetkrát
  • 2:54 - 2:58
    - opravdový střípek našeho kulturního genomu.
  • 2:58 - 3:00
    Samozřejmě,
  • 3:00 - 3:03
    když jsme čelili tak nehorázné hyperbole..
  • 3:03 - 3:05
    (smích)
  • 3:05 - 3:08
    udělali jsme to, co by každý výzkumník
  • 3:08 - 3:11
    s trochou sebeúcty udělal.
  • 3:11 - 3:13
    Vzali jsme stránku z XKCD,
  • 3:13 - 3:15
    a řekli: "Ustupte,
  • 3:15 - 3:17
    zkusíme vědu!"
  • 3:17 - 3:19
    (Smích)
  • 3:19 - 3:21
    JM: No a pochopitelně jsme si
  • 3:21 - 3:23
    říkali, že nejprve ty data zveřejníme,
  • 3:23 - 3:25
    aby na nich lidi mohli tu vědu dělat.
  • 3:25 - 3:27
    Takže jsme přemýšleli, jaká data můžeme zveřejnit?
  • 3:27 - 3:29
    Pochopitelně chtěli jsme vzít obsah všech
  • 3:29 - 3:31
    těch pěti miliónů knih a všechen zveřejnit.
  • 3:31 - 3:33
    Na to Google, a zejména Jon Orwant,
  • 3:33 - 3:35
    nás seznámili s jednou pěknou rovnicí.
  • 3:35 - 3:38
    Máte pět miliónů knih. To je pět miliónů autorů
  • 3:38 - 3:41
    a pět miliónů žalob je už pořádný proces.
  • 3:41 - 3:43
    Takže, i když by to bylo opravdu úžasné,
  • 3:43 - 3:46
    opět to bylo i opravdu nepraktické.
  • 3:46 - 3:48
    (Smích)
  • 3:48 - 3:50
    Takže jsme ustoupili
  • 3:50 - 3:53
    a pojali velmi praktický přístup, který byl však trochu méně úžasný.
  • 3:53 - 3:55
    Řekli jsme si, že namísto plného znění,
  • 3:55 - 3:57
    vydáme o těchto knihách statistiky.
  • 3:57 - 3:59
    Takže například: "Záblesk štěstí"
  • 3:59 - 4:01
    To jsou dvě slova; říkáme tomu dvou-gram.
  • 4:01 - 4:03
    Takže Vám můžeme říci, kolikrát se daný dvou-gram
  • 4:03 - 4:05
    objevil v knihách v roce 1801, 2, 3
  • 4:05 - 4:07
    až do roku 2008.
  • 4:07 - 4:09
    To nám dá časovou řadu
  • 4:09 - 4:11
    stopující jak často se tato věta v danné době použila.
  • 4:11 - 4:14
    Děláme to se všemi slovy a frázemi, které se v těchto knihách
  • 4:14 - 4:17
    objevují a to nám dá jednu velkou mapu
  • 4:17 - 4:19
    dvou mliard řádků zrcadlící proměny kultury.
  • 4:19 - 4:21
    ELA: Takže tyto řádky
  • 4:21 - 4:23
    nazýváme dvě milardy n-gramů.
  • 4:23 - 4:25
    Co nám umí říct?
  • 4:25 - 4:27
    Jednotlivé n-gramy měří kulturní trendy.
  • 4:27 - 4:29
    Dám Vám příklad.
  • 4:29 - 4:31
    Řekněme, že se mám fajn a
  • 4:31 - 4:33
    druhý den vám o tom chci říci. Mohl bych
  • 4:33 - 4:36
    říci: "Včera mi bylo fajn."
  • 4:36 - 4:39
    Nebo bych mohl říct: "Včera mi bylo dobře."
  • 4:39 - 4:42
    Co bych měl říct správně?
  • 4:42 - 4:44
    Jak se rozhodnout?
  • 4:44 - 4:46
    Přibližně před šesti měsíci
  • 4:46 - 4:48
    by situace v této oblasti
  • 4:48 - 4:50
    vypada asi takto - šli byste
  • 4:50 - 4:52
    za tímto psychologem s úžasným účesem
  • 4:52 - 4:54
    a řekli:
  • 4:54 - 4:57
    "Steve, ty jsi expert na nepravidelná slovesa.
  • 4:57 - 4:59
    Co bych měl říct?"
  • 4:59 - 5:01
    A on by Vám řekl: "No, většina lidí by řekla "fajn"
  • 5:01 - 5:04
    ale někteří by řekli "dobře".
  • 5:04 - 5:06
    Ale, když byste se vrátili, zhruba,
  • 5:06 - 5:09
    200 let nazpátek, a oslovili byste dalšího
  • 5:09 - 5:12
    odborníka s neméně úžasným účesem:
  • 5:12 - 5:15
    (Smích)
  • 5:15 - 5:17
    "Tome, co bych měl říci?"
  • 5:17 - 5:19
    Řekl by: "Inu, v mé době většina lidí řekne
  • 5:19 - 5:22
    "dobře", ale někteří i "fajn".
  • 5:22 - 5:24
    Takže nyní Vám ukáži původní data.
  • 5:24 - 5:28
    Tyto dvě linky vznikly také z oněch dvou
  • 5:28 - 5:30
    miliard údajů. To, co vidíte je frekvence užití
  • 5:30 - 5:33
    dvou podobných slov rok po roce.
  • 5:34 - 5:36
    A toto jsou pouze
  • 5:36 - 5:39
    dvě z dvou miliard linek.
  • 5:39 - 5:41
    Takže všechna ta data
  • 5:41 - 5:44
    jsou ještě mnohem úžasnější než tento slide.
  • 5:44 - 5:46
    (Smích)
  • 5:46 - 5:50
    (potlesk)
  • 5:50 - 5:52
    JM: Existuje mnoho dalších obrázků, které vydají za 500 miliard slov.
  • 5:52 - 5:54
    Například toto.
  • 5:54 - 5:56
    Když bychom vzali třeba
  • 5:56 - 5:58
    "chřipku", uvidíte maxima v dobách, kdy víte,
  • 5:58 - 6:01
    že velké chřipkové epidemie zabíjely po celém světě.
  • 6:01 - 6:04
    ELA: pokud ještě nejste přesvědčeni,
  • 6:04 - 6:06
    hladiny moře stoupají,
  • 6:06 - 6:09
    stejně jako obsah CO2 v atmosféře či globální teplota.
  • 6:09 - 6:12
    JM: Možná byste také stáli o to vidět tento n-gram,
  • 6:12 - 6:15
    který říká Nietzschemu, že Bůh není mrtvý,
  • 6:15 - 6:18
    i když byste mohli usoudit, že by mohl užít lepšího PR agenta..
  • 6:18 - 6:20
    (Smích)
  • 6:20 - 6:23
    ELA: S tímto se můžete dostat k pár dosti abstraktním pojmům.
  • 6:23 - 6:25
    Tak například, dovolte mi Vás seznámit
  • 6:25 - 6:27
    s historií roku 1950.
  • 6:27 - 6:29
    Po drtivou většinu celé historie
  • 6:29 - 6:31
    o samotný rok 1950 nikdo ani nezavadil.
  • 6:31 - 6:33
    V roce 1700, 188, ani 1900.
  • 6:33 - 6:36
    Ani trochu.
  • 6:37 - 6:39
    Ani v 30. nebo 40. letech
  • 6:39 - 6:41
    nikoho nezajímal.
  • 6:41 - 6:43
    Najednou, uprostřed 40. let
  • 6:43 - 6:45
    to začalo vřít.
  • 6:45 - 6:47
    Lidé si uvědomili, že přijde rok 1950 a že to
  • 6:47 - 6:49
    může být velké.
  • 6:49 - 6:52
    (Smích)
  • 6:52 - 6:55
    Ale nic lidi nezajímalo na roku 1950
  • 6:55 - 6:58
    více, než rok 1950.
  • 6:58 - 7:01
    (Smích)
  • 7:01 - 7:03
    Lidé byli celí bez sebe.
  • 7:03 - 7:05
    Nemohli přestat mluvit
  • 7:05 - 7:08
    o všem, co v tom roce dělali,
  • 7:08 - 7:11
    co plánovali do té doby dosáhnout a jaké sny
  • 7:11 - 7:16
    si chtěli splnit v roce 1950.
  • 7:16 - 7:18
    Ve skutečnosti byl rok 1950
  • 7:18 - 7:20
    tak fascinující,
  • 7:20 - 7:23
    že i v dalších letech lidé vydrželi mluvit o tom, jak úžasné věci se staly
  • 7:23 - 7:25
    i v roce 51, 2, 3..
  • 7:25 - 7:27
    Až konečně
  • 7:27 - 7:29
    v roce 1954 se lidé z ničeho nic
  • 7:29 - 7:33
    probrali a zjistili, že rok 1950 je poněkud pasé.
  • 7:33 - 7:35
    (Smích)
  • 7:35 - 7:37
    A stejně tak splaskla i ta bublina.
  • 7:37 - 7:39
    (Smích)
  • 7:39 - 7:41
    A příběh roku 1950
  • 7:41 - 7:43
    je příběh každého roku, který jsme zaznamenali
  • 7:43 - 7:46
    trochu jinak, díky těmto krásným tabulkám, co máme.
  • 7:46 - 7:49
    A protože tyto úžasné tabulky máme, můžeme věci měřit.
  • 7:49 - 7:51
    Můžeme říct: "Takže, jak rychle ta bublina splaskla?"
  • 7:51 - 7:54
    Ukázalo se, že to dokážeme změřit velmi přesně.
  • 7:54 - 7:57
    Rovnice byly odvozeny, grafy vytvořeny
  • 7:57 - 7:59
    a čistý výsledek
  • 7:59 - 8:02
    říká, že zjistíme, jak ta bublina splaskává rychleji
  • 8:02 - 8:04
    a rychleji každ rok.
  • 8:04 - 8:09
    O minulost ztrácíme zájem čím dál rychleji.
  • 8:09 - 8:11
    JM: A nyní malý kariérní tip.
  • 8:11 - 8:13
    Pro ty z Vás, kdo se chcete stát slavnými,
  • 8:13 - 8:15
    můžeme vzít inspiraci od 25 nejslavnějších politických
  • 8:15 - 8:17
    osobností, autorů a herců atd.
  • 8:17 - 8:20
    Pokud se chcete stát slavnými spíše hned, měli byste být herci,
  • 8:20 - 8:22
    neboť tehdy zazáříte pravděpodobně před 30. rokem.
  • 8:22 - 8:24
    Jste stále mladí, takže je to skvělé.
  • 8:24 - 8:26
    Pokud jste ochotni si trochu počkat, měli byste být
  • 8:26 - 8:28
    spisovatel, protože pak Vás nejvyšší pocty
  • 8:28 - 8:30
    čekají později, jako třeba úspěch Marka Twaina.
  • 8:30 - 8:32
    Ale pokud se chcete dostat opravdu
  • 8:32 - 8:34
    na vrchol, měli byste odložit
  • 8:34 - 8:36
    uspokojení ještě více a pochopitelně
  • 8:36 - 8:38
    se stát politikem. Slavným se stanete před 60tým rokem
  • 8:38 - 8:40
    a velmi slavným poté.
  • 8:40 - 8:43
    Také vědci tíhnout k slávě ve výrazně starším věku.
  • 8:43 - 8:45
    Jako například biologové a fyzici
  • 8:45 - 8:47
    tíhnou k slávě srovnatelné s herci.
  • 8:47 - 8:50
    Jediná chyba by byla, když byste se dali na dráhu matematika.
  • 8:50 - 8:52
    (Smích)
  • 8:52 - 8:54
    Pokud byste to udělali,
  • 8:54 - 8:57
    mohli byste si říct: "Oh, skvěle. To nejlepší udělám mezi 20-30 lety.
  • 8:57 - 8:59
    Jenže, ouha. Nikoho to nezaujme.
  • 8:59 - 9:02
    (Smích)
  • 9:02 - 9:04
    ELA: Mezi n-gramy najdeme ještě
  • 9:04 - 9:06
    více varování.
  • 9:06 - 9:08
    Například tady vidíme trajektorii Marc Chagalla,
  • 9:08 - 9:10
    malíře narozeného 1887.
  • 9:10 - 9:13
    Která vypadá jako běžná trajektorie slavné osobnosti.
  • 9:13 - 9:17
    Stává se slavnějším a slavnějším všude,
  • 9:17 - 9:19
    kromě Německa.
  • 9:19 - 9:21
    Pokud se podíváte na Německo, zjistíte něco velmi
  • 9:21 - 9:23
    bizardního, co se jen tak nevidí.
  • 9:23 - 9:25
    A to je to, že se stává extrémně slavným
  • 9:25 - 9:27
    a pak zničeho nic sláva opadne,
  • 9:27 - 9:30
    s nejnižším bodem v letech 1933 až 1945,
  • 9:30 - 9:33
    kdy se odrazil ode dna.
  • 9:33 - 9:35
    A pochopitelně to, co zjistíme je,
  • 9:35 - 9:38
    že Marc Chagall je židovský umělec
  • 9:38 - 9:40
    v nacistickém Německu.
  • 9:40 - 9:42
    Tyto signály jsou
  • 9:42 - 9:44
    ve skutečnosti tak silné,
  • 9:44 - 9:47
    že nepotřebujeme ani vědět, že tu byl někdo cenzorován.
  • 9:47 - 9:49
    Můžeme to zjistit
  • 9:49 - 9:51
    užitím základních metod zpracování dat.
  • 9:51 - 9:53
    Toto je jedna jednoduchá metoda.
  • 9:53 - 9:55
    A sice: rozumné očekávání
  • 9:55 - 9:57
    je, že míra slávy jednoho člověka v daném čase
  • 9:57 - 9:59
    by se měla rovnat cca průměru jeho slávy
  • 9:59 - 10:01
    před tím a potom.
  • 10:01 - 10:03
    Něco takového očekáváme.
  • 10:03 - 10:06
    A srovnáváme to se slávou, kterou pozorujeme.
  • 10:06 - 10:08
    A jen dělíme jedno druhým,
  • 10:08 - 10:10
    abychom se dostali k tzv. indexu potlačení.
  • 10:10 - 10:13
    Pokud je index potlačení velmi, ale velmi nízký,
  • 10:13 - 10:15
    pak asi se jedná o nějaký útisk, cenzuru.
  • 10:15 - 10:18
    Pokud je velmi vysoký, můze to být výsledek propagandy.
  • 10:19 - 10:21
    JM: Nyní se můžeme podívat na
  • 10:21 - 10:24
    několik příkladů rozdělení indexů potlačení napříč populací.
  • 10:24 - 10:26
    Zde je například je
  • 10:26 - 10:28
    index potlačení pro asi 5 000 lidí
  • 10:28 - 10:30
    vybraných z anglické literatury, kde nebylo žádné známé potlačení,
  • 10:30 - 10:32
    vypadá takto, v podstatě těsně vycentrované na jedné.
  • 10:32 - 10:34
    To, co očekáváte je to, co vidíte.
  • 10:34 - 10:36
    Toto je rozložení je viděno v Německu -
  • 10:36 - 10:38
    velmi odlišné - posunuté doleva.
  • 10:38 - 10:41
    Lidé o tom mluvili dvakrát méně, než by měli.
  • 10:41 - 10:43
    Ale co je ještě důležitější, rozdělení je mnohem širší.
  • 10:43 - 10:46
    Mnoho lidí se umístilo daleko vlevo na této škále a o nich
  • 10:46 - 10:49
    se mluvilo 10 krát méně, než by se mělo.
  • 10:49 - 10:51
    Mnoho lidí se ale také umístilo daleko
  • 10:51 - 10:53
    v pravo, které podporovala propaganda.
  • 10:53 - 10:56
    Tento obrázek je znak cenzury v knihách.
  • 10:56 - 10:58
    ELA: Tuto metodu
  • 10:58 - 11:00
    nazýváme kulturomikou.
  • 11:00 - 11:02
    Je to trochu jako genomika.
  • 11:02 - 11:04
    S tím rozdílem, že genomika je biologie, nahlížena
  • 11:04 - 11:07
    skrze pohled na posloupnosti bází lidského genomu.
  • 11:07 - 11:09
    Kulturomika je podobná.
  • 11:09 - 11:12
    Aplikuje analyzu masivní sbírky dat
  • 11:12 - 11:14
    ke studiu lidské kultury.
  • 11:14 - 11:16
    Zde však namísto pohledu skrze lidský genom
  • 11:16 - 11:19
    nahlížíme člověka skrze digitální kusy historických záznamů.
  • 11:19 - 11:21
    Na kulturomice je skvělé to,
  • 11:21 - 11:23
    že se jí může věnovat každý.
  • 11:23 - 11:25
    Jak to?
  • 11:25 - 11:27
    Je to možné díky třem chlapíkům,
  • 11:27 - 11:30
    Jonovi Orwantovi, Mattotvi Graymu a Willovi Brockmanovi z Googlu,
  • 11:30 - 11:32
    kteří, když viděli prototyp Ngrame Vieweru,
  • 11:32 - 11:34
    řekli, "Tohle je fakt supr,
  • 11:34 - 11:37
    tuhle věc musíme dostat k lidem."
  • 11:37 - 11:39
    Takže dva týdny před tím, než jsme vydali svou studii
  • 11:39 - 11:42
    vytvořili kódy pro verzi Ngram Vieweru, která by byla dostupná
  • 11:42 - 11:45
    všem. Takže i vy si můžete napsat jakoukoliv frázi či slovo, které vás
  • 11:45 - 11:47
    zajímá a vidět je okamžitě v n-gramu
  • 11:47 - 11:49
    a také si zabrouzdat ukázkou všech možných
  • 11:49 - 11:51
    knih, ve kterých se Váš n-gram vyskytuje.
  • 11:51 - 11:53
    JM: Během prvního dne byly užity více než
  • 11:53 - 11:55
    miliónkrát a to je nejlepší ze všech statistik.
  • 11:55 - 11:58
    Takže lidé chtějí být co nejlepší a dělat to nejlepší.
  • 11:58 - 12:01
    Ale ukazuje se, že v 18. století se o to lidé o toto nezajímali.
  • 12:01 - 12:04
    Nechtěli být co nejlepší. Chtěli být co "nejlepčí".
  • 12:04 - 12:07
    To, co jste viděli byla samozřejmě chyba.
  • 12:07 - 12:09
    Není to pokus o jakousi prostřednost.
  • 12:09 - 12:12
    Spousta slov se historicky psala s jinými písmeny. Například S jako Beta,
  • 12:12 - 12:15
    v angličtině jako F apod. Google si to samozřejmě
  • 12:15 - 12:18
    sám od sebe nepřeložil a tak jsme to popsali ve vědedckém
  • 12:18 - 12:20
    článku, který jsme vydali. Ale ukázalo se,
  • 12:20 - 12:22
    že je to připomínka, toho, že i když
  • 12:22 - 12:24
    je to celé velká zábava, když interpretujete tyto grafy,
  • 12:24 - 12:27
    musíte být velmi opatrní a použít to nejlepší co věda nabízí.
  • 12:27 - 12:30
    ELA: Lidé to využívali pro mnoho rozličných zábavných účelů.
  • 12:30 - 12:37
    (Smích)
  • 12:37 - 12:39
    Ve skutečnosti nebudeme muset ani
  • 12:39 - 12:42
    moc mluvit, jen Vám ukážeme zbylé slidy a můžeme mlčet.
  • 12:42 - 12:45
    Tato osoba se zajímala o historii frustrace.
  • 12:45 - 12:48
    Jsou různé typy frustrací.
  • 12:48 - 12:51
    Pokud se praštíte do palce, zakřičíte "argh".
  • 12:51 - 12:53
    Pokud planetu Zemi zničí Vogoni, aby
  • 12:53 - 12:55
    si udělali prostor pro mezihvězdný bypass,
  • 12:55 - 12:57
    bude to osmimístné "aaaaaaaargh."
  • 12:57 - 12:59
    Tato osoba studovala všechny "arghy."
  • 12:59 - 13:01
    od jednoho po osmimístné.
  • 13:01 - 13:03
    A ukázalo se, že
  • 13:03 - 13:05
    méně frekventovaná "argh"
  • 13:05 - 13:08
    se pochopitelně váží k více frustrujícím situacím, s jednou zvláštní výjimkou
  • 13:08 - 13:11
    v 80. letech.
  • 13:11 - 13:13
    Domníváme se, že to bude mít něco společného s Reaganem.
  • 13:13 - 13:15
    (Smích)
  • 13:15 - 13:18
    JM: Tato data mají mnohotvárné využití,
  • 13:18 - 13:21
    ale základ je vždy digitalizace historických záznamů.
  • 13:21 - 13:23
    Google začal a zdigitalizoval 15 miliónů knih.
  • 13:23 - 13:25
    To je 12 procent všech knih, které kdy byly vydané.
  • 13:25 - 13:28
    To je slušný kousek z lidské kultury.
  • 13:28 - 13:31
    Ale kultura má mnohem víc: manuskripty, noviny,
  • 13:31 - 13:33
    věci, které nejsou v textech - jako umění a obrazy.
  • 13:33 - 13:35
    Ale všechny se nalézají v nějaké podobě
  • 13:35 - 13:37
    v našich počítačech kolem světa.
  • 13:37 - 13:40
    A až budou všechny zdigitalizované, nastane změna
  • 13:40 - 13:42
    v chápání naší minulosti, současnosti a kultury lidstva.
  • 13:42 - 13:44
    Velice Vám děkuji.
  • 13:44 - 13:47
    (potlesk)
Title:
Čemu jsme se naučili z 5 milionů knih
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Zkoušeli jste někdy Google Labs´ Ngram Viewer? Je to návykový nástroj, který Vás nechá vyhledávat slova a nápady v databázi 5 miliónů knih napříč stoletími. Erez Lieberman Aiden a Jean-Baptiste Michel nám ukazuje, jak funguje, a pár pěkných vychytávek, které můžeme z 500 biliónů slov vyčíst.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Irena Svobodová added a translation

Czech subtitles

Revisions