< Return to Video

Čo sme sa naučili z 5 miliónov kníh

  • 0:00 - 0:02
    Erez Lieberman Aiden: Každý vie,
  • 0:02 - 0:05
    že obrázok je hoden tisíc slov.
  • 0:07 - 0:09
    Ale my na Harvarde
  • 0:09 - 0:12
    sme sa zamysleli, či je to naozaj pravda.
  • 0:12 - 0:14
    (Smiech)
  • 0:14 - 0:18
    Zhromaždili sme teda tím odborníkov
  • 0:18 - 0:20
    z Harvardu, MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, Encyklopédie Britannica
  • 0:23 - 0:25
    a aj od našich hrdých sponzorov
  • 0:25 - 0:28
    z Googlu.
  • 0:28 - 0:30
    A uvažovali sme o tom
  • 0:30 - 0:32
    asi štyri roky.
  • 0:32 - 0:37
    A došli sme k prekvapujúcemu záveru.
  • 0:37 - 0:40
    Dámy a páni, obrázok nie je hoden tísíc slov.
  • 0:40 - 0:42
    V skutočnosti sme našli obrázky
  • 0:42 - 0:47
    hodné 500 miliárd slov.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Takže, ako sme dospeli k tomuto záveru?
  • 0:49 - 0:51
    Erez a ja sme premýšľali o cestách
  • 0:51 - 0:53
    k získaniu celistvého obrazu o ľudskej kultúre
  • 0:53 - 0:56
    a ľudskej histórii: ich zmenách v priebehu času.
  • 0:56 - 0:58
    Tak veľa kníh bolo napísaných za všetky tie roky.
  • 0:58 - 1:00
    Takže sme si pomysleli: najlepší spôsob, ako sa z nich poučiť,
  • 1:00 - 1:02
    je prečítať všetky tieto milióny kníh.
  • 1:02 - 1:05
    Samozrejme, ak si predstavíme mieru úžasnosti niečoho takého,
  • 1:05 - 1:08
    toto musí bodovať veľmi, veľmi vysoko.
  • 1:08 - 1:10
    Problém je, že k tomu prislúcha aj X-ová os -
  • 1:10 - 1:12
    os praktičnosti.
  • 1:12 - 1:14
    Toto je veľmi, veľmi nízko.
  • 1:14 - 1:17
    (Potlesk)
  • 1:17 - 1:20
    Ľudia zvyknú používať alternatívny prístup,
  • 1:20 - 1:22
    vyberú zopár prameňov a prečítajú ich veľmi pozorne.
  • 1:22 - 1:24
    Toto je veľmi praktické, ale nie až také úžasné.
  • 1:24 - 1:27
    Čo naozaj chcete dosiahnuť,
  • 1:27 - 1:30
    je umiestniť sa do úžasnej, ešte však praktickej časti tohto priestoru.
  • 1:30 - 1:33
    Tak sa stalo, že kúsok cez rieku bola spoločnosť nazývaná Google,
  • 1:33 - 1:35
    ktorá pred pár rokmi začala digitalizačný projekt,
  • 1:35 - 1:37
    ktorý by akurát mohol umožniť takýto prístup.
  • 1:37 - 1:39
    Digitalizovali milióny kníh.
  • 1:39 - 1:42
    To znamená, že je možné použiť výpočtové metódy
  • 1:42 - 1:44
    na čítanie všetkých týchto kníh stlačením klávesy.
  • 1:44 - 1:47
    To je veľmi praktické a extrémne úžasné.
  • 1:48 - 1:50
    ELA: Dovoľte mi rozpovedať vám o tom, odkiaľ knihy prichádzajú.
  • 1:50 - 1:53
    Od nepamäti existovali spisovatelia.
  • 1:53 - 1:56
    Títo spisovatelia sa snažili písať kníhy.
  • 1:56 - 1:58
    A to sa im významne zjednodušilo
  • 1:58 - 2:00
    s rozvojom kníhtlače pred niekoľkými storočiami.
  • 2:00 - 2:03
    Odvtedy sa spisovateľom podarilo,
  • 2:03 - 2:05
    pri 129 miliónoch rôznych príležitostiach,
  • 2:05 - 2:07
    vydať knihu.
  • 2:07 - 2:09
    Ak sa tieto knihy nestratili v prúde času,
  • 2:09 - 2:11
    potom sú niekde v nejakej knižnici,
  • 2:11 - 2:14
    a mnoho z týchto kníh bolo získaných z týchto knižníc
  • 2:14 - 2:16
    a digitalizovaných v Google,
  • 2:16 - 2:18
    ktorý doteraz oskenoval 15 miliónov kníh.
  • 2:18 - 2:21
    Keď Google digitalizuje knihu, uložia ju do ozaj pekného formátu.
  • 2:21 - 2:23
    Máme dáta a navyše máme aj metadáta.
  • 2:23 - 2:26
    Máme informácie o veciach ako je miesto vydania,
  • 2:26 - 2:28
    autor, obdobie vydania.
  • 2:28 - 2:31
    A naša činnosť potom spočíva v prehliadaní týchto záznamov
  • 2:31 - 2:35
    a vylúčení všetkého, okrem dát najvyššej kvality.
  • 2:35 - 2:37
    Čo nám zostane,
  • 2:37 - 2:40
    je súbor piatich miliónov kníh,
  • 2:40 - 2:43
    500 miliárd slov,
  • 2:43 - 2:45
    reťazec znakov tisíckrát dlhší
  • 2:45 - 2:48
    než ľudský genóm --
  • 2:48 - 2:50
    text, ktorý, ak by sme ho napísali,
  • 2:50 - 2:52
    by sa tiahol odtiaľ na Mesiac a späť
  • 2:52 - 2:54
    10 krát --
  • 2:54 - 2:58
    ozajstný úlomok nášho kultúrneho genómu.
  • 2:58 - 3:00
    Samozrejme, čo sme urobili,
  • 3:00 - 3:03
    čeliac takejto hroznej hyperbole ...
  • 3:03 - 3:05
    (Smiech)
  • 3:05 - 3:08
    sme urobili to, čo
  • 3:08 - 3:11
    by býval urobil každý výskumník so štipkou sebaúcty.
  • 3:11 - 3:13
    Vybrali sme stránku z XKCD,
  • 3:13 - 3:15
    a riekli, "Ustúp.
  • 3:15 - 3:17
    Ideme vyskúšať vedu."
  • 3:17 - 3:19
    (Smiech)
  • 3:19 - 3:21
    JM: Samozrejme, uvažovali sme,
  • 3:21 - 3:23
    skúsme my len najprv zverejniť dáta,
  • 3:23 - 3:25
    pre ostatných nech si na tom robia vedu.
  • 3:25 - 3:27
    A tak uvažujeme, ktoré dáta môžeme zverejniť?
  • 3:27 - 3:29
    Samozrejme, chcete vziať knihy
  • 3:29 - 3:31
    a vydať plný text týchto piatich miliónov kníh.
  • 3:31 - 3:33
    Google a osobitne Jon Orwant,
  • 3:33 - 3:35
    nám ukázali malú rovnicu, ktorú sme sa museli naučiť.
  • 3:35 - 3:38
    Vezmite päť miliónov kníh, to znamená päť miliónov autorov
  • 3:38 - 3:41
    a päť miliónov žalobcov a máte masívny súdny proces.
  • 3:41 - 3:43
    Takže, aj keď by to bolo veľmi, veľmi úžasné,
  • 3:43 - 3:46
    opäť, extrémne, extrémne nepraktické.
  • 3:46 - 3:48
    (Smiech)
  • 3:48 - 3:50
    Opäť sme to svojim spôsobom vyriešili
  • 3:50 - 3:53
    a zvolili sme veľmi praktický prístup, ktorý bol o kúsok menej úžasný.
  • 3:53 - 3:55
    Povedali sme si, namiesto zverejnenia plného textu
  • 3:55 - 3:57
    zverejníme štatistické informácie o knihách.
  • 3:57 - 3:59
    Napríklad "A gleam of happiness" ("Záblesk šťastia").
  • 3:59 - 4:01
    To sú štyri slová: nazývame to štyr-gram.
  • 4:01 - 4:03
    Povieme vám, koľkokrát sa určitý štyr-gram
  • 4:03 - 4:05
    objavuje v knihách v rokoch 1801, 1802, 1803,
  • 4:05 - 4:07
    až do roku 2008.
  • 4:07 - 4:09
    To nám dáva časovú závislosť
  • 4:09 - 4:11
    frekvencie použitia určitej vety v priebehu času.
  • 4:11 - 4:14
    Urobíme to pre všetky slová a frázy, ktoré sa objavujú v týchto knihách
  • 4:14 - 4:17
    a to nám dáva veľkú tabuľku s dvoma miliardami riadkov,
  • 4:17 - 4:19
    ktorá nám hovorí a cestách kultúrnych zmien.
  • 4:19 - 4:21
    ELA: Teda tie dve miliardy riadkov,
  • 4:21 - 4:23
    nazývame ich dve miliardy n-gramov.
  • 4:23 - 4:25
    Čo nám hovoria?
  • 4:25 - 4:27
    Individuálne n-gramy sú mierou kultúrnych trendov.
  • 4:27 - 4:29
    Dovoľte mi uviesť vám jeden príklad.
  • 4:29 - 4:31
    Predpokladajme, že je mi skvele,
  • 4:31 - 4:33
    a potom zajtra vám chcem povedať, ako dobre mi bolo.
  • 4:33 - 4:36
    A teda by som mohol povedať "Včera som si voľkal."
  • 4:36 - 4:39
    Alternatívne by som mohol povedať "Včara som sa tešil."
  • 4:39 - 4:42
    Ktorý z nich by som mal použiť?
  • 4:42 - 4:44
    Ako sa rozhodnúť?
  • 4:44 - 4:46
    Už približne šesť mesiacov
  • 4:46 - 4:48
    špičkový prístup v tejto oblasti
  • 4:48 - 4:50
    je, že by ste, napríklad,
  • 4:50 - 4:52
    navštívili nasledujúceho psychológa s úžasným účesom,
  • 4:52 - 4:54
    a riekli by ste,
  • 4:54 - 4:57
    "Steve, vy ste expert na nepravidelné slovesá.
  • 4:57 - 4:59
    Čo by som mal robiť?"
  • 4:59 - 5:01
    A on by vám povedal, "Väčšina ľudí hovorí tešiť sa,
  • 5:01 - 5:04
    ale niektorí ľudia hovoria voľkať si."
  • 5:04 - 5:06
    A tiež ste vedeli, viac-menej,
  • 5:06 - 5:09
    že, ak by ste sa presunuli späť v čase o 200 rokov
  • 5:09 - 5:12
    a opýtali sa nasledujúceho štátnika s rovnako úžasným účesom:
  • 5:12 - 5:15
    (Smiech)
  • 5:15 - 5:17
    "Tom, čo by som mal povedať?"
  • 5:17 - 5:19
    On by odpovedal, "Za mojich čias, väčšina ľudí používala voľkať si,
  • 5:19 - 5:22
    no niektorí používali tešiť sa."
  • 5:22 - 5:24
    Takže to, čo vám teraz ukážem sú iba holé dáta.
  • 5:24 - 5:28
    Dva riadky z tabuľky s dvoma miliardami záznamov.
  • 5:28 - 5:30
    To, čo vidíte je frekvencia výskytu, rok za rokom,
  • 5:30 - 5:33
    "tešiť sa" a "voľkať si" v priebehu času.
  • 5:34 - 5:36
    Toto sú iba dva
  • 5:36 - 5:39
    z dvoch miliárd riadkov.
  • 5:39 - 5:41
    Takže, celý set dát
  • 5:41 - 5:44
    je miliardukrát úžasnejší než tento obrázok.
  • 5:44 - 5:46
    (Smiech)
  • 5:46 - 5:50
    (Potlesk)
  • 5:50 - 5:52
    JM: Je mnoho ďalších obrázkov, ktoré sú hodné 500 miliárd slov.
  • 5:52 - 5:54
    Napríklad tento.
  • 5:54 - 5:56
    Ak vezmete slovo influenza,
  • 5:56 - 5:58
    spozorujete zvýšený výskyt v časoch, o ktorých je známe,
  • 5:58 - 6:01
    že chrípkové epidémie práve zabíjali ľudí po svete.
  • 6:01 - 6:04
    ELA: Ak ešte nie ste presvedčení,
  • 6:04 - 6:06
    hladiny morí stúpajú,
  • 6:06 - 6:09
    rovnako aj atmosférický CO2 a globálna teplota.
  • 6:09 - 6:12
    JM: Mohol by vás zaujímať aj tento partikulárny n-gram,
  • 6:12 - 6:15
    ktorý Nietzschemu hovorí, že Boh nie je mŕtvy,
  • 6:15 - 6:18
    aj keď by ste mohli súhlasiť, že by sa mu hodil lepší PR manažér.
  • 6:18 - 6:20
    (Smiech)
  • 6:20 - 6:23
    ELA: S touto vecičkou môžete dospieť k pekne abstraktným konceptom.
  • 6:23 - 6:25
    Napríklad, dovoľte mi rozpovedať vám históriu
  • 6:25 - 6:27
    roku 1950.
  • 6:27 - 6:29
    Podstatnú väčšinu dejín,
  • 6:29 - 6:31
    nikto na rok 1950 ani nekýchol
  • 6:31 - 6:33
    v rokoch 1700, 1800, 1900,
  • 6:33 - 6:36
    nik sa nezaujímal.
  • 6:37 - 6:39
    V priebehu 30-tych a 40-tych,
  • 6:39 - 6:41
    sa nik nezaujímal.
  • 6:41 - 6:43
    Zrazu, v polovici 40-tych
  • 6:43 - 6:45
    nastal šum.
  • 6:45 - 6:47
    Ľudia si uvedomili, že rok 1950 prichádza
  • 6:47 - 6:49
    a mohol by byť veľkolepý.
  • 6:49 - 6:52
    (Smiech)
  • 6:52 - 6:55
    Avšak nič ľudí nezaujalo počas roku 1950,
  • 6:55 - 6:58
    tak, ako rok 1950.
  • 6:58 - 7:01
    (Smiech)
  • 7:01 - 7:03
    Ľudia chodili ako posadnutí.
  • 7:03 - 7:05
    Nemohli prestať hovoriť
  • 7:05 - 7:08
    o všetkom, čo robili počas roku 1950,
  • 7:08 - 7:11
    všetkom, čo plánovali robiť v roku 1950,
  • 7:11 - 7:16
    všetkých snoch, ktoré si chceli splniť v roku 1950.
  • 7:16 - 7:18
    Fakticky, rok 1950 bol taký fascinujúci,
  • 7:18 - 7:20
    že celé roky potom
  • 7:20 - 7:23
    ľudia jednoducho ďalej hovorili o všetkých úžasných veciach, ktoré sa udiali.
  • 7:23 - 7:25
    v rokoch 51, 52, 53.
  • 7:25 - 7:27
    Konečne, v roku 1954
  • 7:27 - 7:29
    sa ktosi prebral a nahliadol,
  • 7:29 - 7:33
    že rok 1950 je akosi passé.
  • 7:33 - 7:35
    (Smiech)
  • 7:35 - 7:37
    A takto bublina spľasla.
  • 7:37 - 7:39
    (Smiech)
  • 7:39 - 7:41
    A príbeh roku 1950,
  • 7:41 - 7:43
    je príbehom každého roku, o ktorom máme záznamy.
  • 7:43 - 7:46
    s malým háčikom, pretože teraz máme tieto pekné tabuľky.
  • 7:46 - 7:49
    A pretože máme tieto pekné tabuľky, môžeme veci merať.
  • 7:49 - 7:51
    Môžeme sa opýtať: "Hm, ako rýchlo bublina spľasne?"
  • 7:51 - 7:54
    A ukazuje sa, že to môžeme merať veľmi presne.
  • 7:54 - 7:57
    Rovnice boli odvodené, grafy vytvorené,
  • 7:57 - 7:59
    a výsledok je,
  • 7:59 - 8:02
    že bubliny spľasnú rýchlejšie a rýchlejšie
  • 8:02 - 8:04
    každým odchádzajúcim rokom.
  • 8:04 - 8:09
    Záujem o minulosť strácame rýchlejšie.
  • 8:09 - 8:11
    JM: Teraz malá rada ku kariérnemu rastu.
  • 8:11 - 8:13
    Takže pre tých z vás, ktorí chcú byť slávni,
  • 8:13 - 8:15
    sa môžeme poučiť od 25 najznámejších politikov,
  • 8:15 - 8:17
    spisovateľov, hercov a tak ďalej.
  • 8:17 - 8:20
    Takže ak sa chcete stať slávnym čo najskôr, mali by ste byť hercom,
  • 8:20 - 8:22
    pretože potom vaša sláva začne rásť ešte pred tridsiatkou --
  • 8:22 - 8:24
    ste ešte mladý, je to ozaj super.
  • 8:24 - 8:26
    Ak môžete chvíľu počkať, staňte sa spisovateľom,
  • 8:26 - 8:28
    pretože potom môžete dosiahnuť k výšinám,
  • 8:28 - 8:30
    ako Mark Twain, napríklad: extrémne slávny.
  • 8:30 - 8:32
    Ale ak chcete naozaj na vrchol,
  • 8:32 - 8:34
    mali by ste odložiť príjemnosti
  • 8:34 - 8:36
    a samozrejme, stať sa politikom.
  • 8:36 - 8:38
    Takže tu sa stávate slávnym pred vašou šesťdesiatkou,
  • 8:38 - 8:40
    a následne sa stávate veľmi, veľmi slávnym.
  • 8:40 - 8:43
    Vedci sa k sláve dostávajú ako omnoho starší.
  • 8:43 - 8:45
    Tak napríklad, biológovia a fyzici
  • 8:45 - 8:47
    sú takmer takí slávni ako herci.
  • 8:47 - 8:50
    Chyby, ktorej by ste sa mali vyvarovať je stať sa matematikom.
  • 8:50 - 8:52
    (Smiech)
  • 8:52 - 8:54
    Ak to urobíte,
  • 8:54 - 8:57
    môžete si myslieť: "Ó, skvelé, do tridsiatky urobím svoju najlepšiu prácu."
  • 8:57 - 8:59
    Ale hádajte čo? Nikoho to nebude naozaj zaujímať.
  • 8:59 - 9:02
    (Smiech)
  • 9:02 - 9:04
    ELA: N-gramy prinášajú
  • 9:04 - 9:06
    ešte viac vytriezvujúcich poznatkov.
  • 9:06 - 9:08
    Napríklad tu je trajektória Marca Chagalla,
  • 9:08 - 9:10
    umelca narodeného v roku 1887.
  • 9:10 - 9:13
    A toto vyzerá ako normálna trajektória slávnej osoby.
  • 9:13 - 9:17
    Stáva sa slávnejším a slávnejším,
  • 9:17 - 9:19
    s výnimkou, ak hľadáte v nemčine.
  • 9:19 - 9:21
    Ak hľadáte v nemčine, uvidíte niečo úplne zvláštne,
  • 9:21 - 9:23
    niečo, čo sa takmer nikdy neobjaví,
  • 9:23 - 9:25
    teda, že sa stáva extrémne slávnym
  • 9:25 - 9:27
    a potom z ničoho nič zmizne,
  • 9:27 - 9:30
    prechádzajúc úplným minimom medzi rokmi 1933 a 1945,
  • 9:30 - 9:33
    a následne opätovne narastajúc.
  • 9:33 - 9:35
    Samozrejme, to, čo vidíme,
  • 9:35 - 9:38
    je skutočnosť, že Marc Chagall bol židovským umelcom
  • 9:38 - 9:40
    v nacistickom Nemecku.
  • 9:40 - 9:42
    Tieto signály
  • 9:42 - 9:44
    sú v skutočnosti také silné,
  • 9:44 - 9:47
    že nepotrebujeme vedieť, či bol niekto cenzúrovaný.
  • 9:47 - 9:49
    Môžeme na to jednoducho prísť
  • 9:49 - 9:51
    použitím naozaj základného spracovania signálov.
  • 9:51 - 9:53
    Tu je jednoduchý spôsob, ako to urobiť.
  • 9:53 - 9:55
    Je rozumné predpokladať,
  • 9:55 - 9:57
    že sláva danej osoby počas istého časového úseku,
  • 9:57 - 9:59
    by mala byť približne priemerom jej slávy pred
  • 9:59 - 10:01
    a slávy po ňom.
  • 10:01 - 10:03
    Takže očakávame takéto niečo.
  • 10:03 - 10:06
    A porovnáme to so slávou, ktorú pozorujeme.
  • 10:06 - 10:08
    A jednoducho vydelíme jednu druhou,
  • 10:08 - 10:10
    aby sme dostali niečo, čo nazývame index supresie.
  • 10:10 - 10:13
    Ak je index supresie veľmi, veľmi, veľmi malý,
  • 10:13 - 10:15
    potom je dosť možné, že ste potláčaný.
  • 10:15 - 10:18
    Ak je veľmi veľký, je možné, že si pomáhate propagandou.
  • 10:19 - 10:21
    JM: Vskutku sa môžete pozrieť na
  • 10:21 - 10:24
    distribúciu indexov supresie cez celé populácie.
  • 10:24 - 10:26
    Napríklad, tu --
  • 10:26 - 10:28
    tento index supresie je vyrátaný pre 5000 ľudí
  • 10:28 - 10:30
    vybraných v anglických knihách. Kde nie je žiadna supresia --
  • 10:30 - 10:32
    vyzeralo by to takto, tesne centrované okolo jednotky.
  • 10:32 - 10:34
    Čo očakávate, je, v podstate, to, čo pozorujete.
  • 10:34 - 10:36
    Toto je distribúcia pozorovaná v Nemecku --
  • 10:36 - 10:38
    veľmi rozdielna, je posunutá doľava.
  • 10:38 - 10:41
    Ľudia o tom hovorili asi dvakrát menej ako by sa dalo očakávať,
  • 10:41 - 10:43
    ale čo je ešte dôležitejšie, distribúcia je oveľa širšia.
  • 10:43 - 10:46
    Je mnoho ľudí, ktorý skončia na ľavom konci tejto distribúcie,
  • 10:46 - 10:49
    o ktorých sa hovorí asi 10 ráz menej, než by sa malo.
  • 10:49 - 10:51
    Ale tiež mnoho ľudí na pravom konci,
  • 10:51 - 10:53
    ktorým, zdá sa, pomáha propaganda.
  • 10:53 - 10:56
    Tento obrázok predstavuje etalón cenzorstva v knižných záznamoch.
  • 10:56 - 10:58
    ELA: Takže kulturonómia
  • 10:58 - 11:00
    je termín, ktorý používame pre túto metódu.
  • 11:00 - 11:02
    Je podobná genomike.
  • 11:02 - 11:04
    Zatiaľ, čo genomika je objektívom biológie
  • 11:04 - 11:07
    cez okno sekvencie ľudského genómu,
  • 11:07 - 11:09
    kulturonómia je podobná.
  • 11:09 - 11:12
    Je to aplikácia analýzy dát masívneho rozsahu
  • 11:12 - 11:14
    pre štúdium ľudskej kultúry.
  • 11:14 - 11:16
    Tu je genóm nahradený
  • 11:16 - 11:19
    objektívom digitalizovaných historických záznamov.
  • 11:19 - 11:21
    Skvelé na kulturonómii
  • 11:21 - 11:23
    je, že ju môže robiť každý.
  • 11:23 - 11:25
    Prečo každý?
  • 11:25 - 11:27
    Môže ju robiť ktokoľvek, pretože traja chlapíci,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray a Will Brockman z Google
  • 11:30 - 11:32
    sa pozreli na prototyp Ngram Viewer
  • 11:32 - 11:34
    a povedali si, "Toto je taká zábava,
  • 11:34 - 11:37
    musíme ju sprístupniť ľuďom!"
  • 11:37 - 11:39
    Takže za dva týždne - dva týždne pred vydaním nášho článku -
  • 11:39 - 11:42
    naprogramovali verziu Ngram Viewer-u pre verejnosť.
  • 11:42 - 11:45
    Takže teraz môžete vpísať akékoľvek slovo alebo frázu, ktorá vás zaujíma
  • 11:45 - 11:47
    a okamžite vidieť príslušný N-gram,
  • 11:47 - 11:49
    a tiež prezerať príklady všetkých rôznych kníh,
  • 11:49 - 11:51
    v ktorých sa objavuje váš N-gram.
  • 11:51 - 11:53
    JM: Aplikácia bola použitá viac ako miliónkrát počas prvého dňa,
  • 11:53 - 11:55
    a toto je naozaj najlepší zo všetkých dotazov.
  • 11:55 - 11:58
    Takže ľudia sa snažia robiť všetko najlepšie ("their best") v službách pokroku.
  • 11:58 - 12:01
    Ale ukazuje sa, že v 18-tom storočí, sa o to nestarali vôbec.
  • 12:01 - 12:04
    Nechceli robiť "their best", robili "their beft".
  • 12:04 - 12:07
    Čo sa stalo, je, samozrejme, iba chyba.
  • 12:07 - 12:09
    Nebola to snaha po priemernosti,
  • 12:09 - 12:12
    išlo len o to, že "s" sa písalo odlišne, podobne ako "f."
  • 12:12 - 12:15
    Samozrejme, Google o tom vtedy ešte nevedel,
  • 12:15 - 12:18
    takže sme to reportovali v našom odbornom článku.
  • 12:18 - 12:20
    Ale to je iba pripomienka,
  • 12:20 - 12:22
    že aj keď je toto veľká zábava,
  • 12:22 - 12:24
    pri interpretácii grafov musíte byť veľmi opatrní
  • 12:24 - 12:27
    a používať základné vedecké pravidlá.
  • 12:27 - 12:30
    ELA: Ľudia to používajú na všetky možné srandovné účely.
  • 12:30 - 12:37
    (Smiech)
  • 12:37 - 12:39
    Vskutku, nemusíme ani rozprávať,
  • 12:39 - 12:42
    iba vám mlčky ukážeme všetky zostávajúce obrázky
  • 12:42 - 12:45
    Túto osobu zaujímala história frustrácie.
  • 12:45 - 12:48
    Existujú rôzne druhy frustrácie.
  • 12:48 - 12:51
    Ak si prepichnete prst je to "argh" (ach) s jedným "a"
  • 12:51 - 12:53
    Ak je planéta Zem anihilovaná Vogónmi
  • 12:53 - 12:55
    za účelom uvoľnenia priestoru pre vesmírnu diaľnicu,
  • 12:55 - 12:57
    je to "aaaaaaaargh" o ôsmich "a."
  • 12:57 - 12:59
    Táto osoba skúmala všetky "argh",
  • 12:59 - 13:01
    s jedným až ôsmimi "a"
  • 13:01 - 13:03
    A ukazuje sa
  • 13:03 - 13:05
    že menej frekventované "arghs"
  • 13:05 - 13:08
    sú, samozrejme, tie, ktoré zodpovedajú veciam, ktoré sú frustrujúcejšie --
  • 13:08 - 13:11
    s výnimkou, prekvapujúco, začiatku 80-tych.
  • 13:11 - 13:13
    Myslíme, že by to mohlo mať dočinenia s Reaganom.
  • 13:13 - 13:15
    (Smiech)
  • 13:15 - 13:18
    JM: Je veľa použití pre tieto dáta,
  • 13:18 - 13:21
    ale najpodstatnejšie je, že historické záznamy sú digitalizované.
  • 13:21 - 13:23
    Google začal s digitalizáciou 15 miliónov kníh.
  • 13:23 - 13:25
    To je 12 percent všetkých kníh, ktoré kedy boli vydané.
  • 13:25 - 13:28
    To predstavuje veľkú časť ľudskej kultúry.
  • 13:28 - 13:31
    Kultúra je oveľa širšia: spadajú tam rukopisy, noviny,
  • 13:31 - 13:33
    patria tam veci, ktoré nie sú textom, ako výtvarné umenie a maľby.
  • 13:33 - 13:35
    Toto všetko bude na našich počítačoch,
  • 13:35 - 13:37
    na počítačoch po celom svete.
  • 13:37 - 13:40
    Až sa toto stane, transformuje to náš prístup
  • 13:40 - 13:42
    k porozumeniu našej minulosti, prítomnosti a ľudstvu.
  • 13:42 - 13:44
    Ďakujeme veľmi pekne.
  • 13:44 - 13:47
    (Potlesk)
Title:
Čo sme sa naučili z 5 miliónov kníh
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Hrali ste sa už s Ngram Viewer od Google Labs? Je to návykový nástroj, ktorý Vám umožňuje vyhľadávať slová a idei v databáze 5 miliónov kníh z rôznych storočí. Erez LIeberman Aiden a Jean-Baptiste Michel ukazujú, ako funguje, a tiež niekoľko z prekvapujúcich vecí, ktoré sa možno naučiť z 500 miliárd slov.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Martin Savko added a translation

Slovak subtitles

Revisions