0:00:00.000,0:00:02.000 Erez Lieberman Aiden: Každý vie, 0:00:02.000,0:00:05.000 že obrázok je hoden tisíc slov. 0:00:07.000,0:00:09.000 Ale my na Harvarde 0:00:09.000,0:00:12.000 sme sa zamysleli, či je to naozaj pravda. 0:00:12.000,0:00:14.000 (Smiech) 0:00:14.000,0:00:18.000 Zhromaždili sme teda tím odborníkov 0:00:18.000,0:00:20.000 z Harvardu, MIT, 0:00:20.000,0:00:23.000 The American Heritage Dictionary, Encyklopédie Britannica 0:00:23.000,0:00:25.000 a aj od našich hrdých sponzorov 0:00:25.000,0:00:28.000 z Googlu. 0:00:28.000,0:00:30.000 A uvažovali sme o tom 0:00:30.000,0:00:32.000 asi štyri roky. 0:00:32.000,0:00:37.000 A došli sme k prekvapujúcemu záveru. 0:00:37.000,0:00:40.000 Dámy a páni, obrázok nie je hoden tísíc slov. 0:00:40.000,0:00:42.000 V skutočnosti sme našli obrázky 0:00:42.000,0:00:47.000 hodné 500 miliárd slov. 0:00:47.000,0:00:49.000 Jean-Baptiste Michel: Takže, ako sme dospeli k tomuto záveru? 0:00:49.000,0:00:51.000 Erez a ja sme premýšľali o cestách 0:00:51.000,0:00:53.000 k získaniu celistvého obrazu o ľudskej kultúre 0:00:53.000,0:00:56.000 a ľudskej histórii: ich zmenách v priebehu času. 0:00:56.000,0:00:58.000 Tak veľa kníh bolo napísaných za všetky tie roky. 0:00:58.000,0:01:00.000 Takže sme si pomysleli: najlepší spôsob, ako sa z nich poučiť, 0:01:00.000,0:01:02.000 je prečítať všetky tieto milióny kníh. 0:01:02.000,0:01:05.000 Samozrejme, ak si predstavíme mieru úžasnosti niečoho takého, 0:01:05.000,0:01:08.000 toto musí bodovať veľmi, veľmi vysoko. 0:01:08.000,0:01:10.000 Problém je, že k tomu prislúcha aj X-ová os - 0:01:10.000,0:01:12.000 os praktičnosti. 0:01:12.000,0:01:14.000 Toto je veľmi, veľmi nízko. 0:01:14.000,0:01:17.000 (Potlesk) 0:01:17.000,0:01:20.000 Ľudia zvyknú používať alternatívny prístup, 0:01:20.000,0:01:22.000 vyberú zopár prameňov a prečítajú ich veľmi pozorne. 0:01:22.000,0:01:24.000 Toto je veľmi praktické, ale nie až také úžasné. 0:01:24.000,0:01:27.000 Čo naozaj chcete dosiahnuť, 0:01:27.000,0:01:30.000 je umiestniť sa do úžasnej, ešte však praktickej časti tohto priestoru. 0:01:30.000,0:01:33.000 Tak sa stalo, že kúsok cez rieku bola spoločnosť nazývaná Google, 0:01:33.000,0:01:35.000 ktorá pred pár rokmi začala digitalizačný projekt, 0:01:35.000,0:01:37.000 ktorý by akurát mohol umožniť takýto prístup. 0:01:37.000,0:01:39.000 Digitalizovali milióny kníh. 0:01:39.000,0:01:42.000 To znamená, že je možné použiť výpočtové metódy 0:01:42.000,0:01:44.000 na čítanie všetkých týchto kníh stlačením klávesy. 0:01:44.000,0:01:47.000 To je veľmi praktické a extrémne úžasné. 0:01:48.000,0:01:50.000 ELA: Dovoľte mi rozpovedať vám o tom, odkiaľ knihy prichádzajú. 0:01:50.000,0:01:53.000 Od nepamäti existovali spisovatelia. 0:01:53.000,0:01:56.000 Títo spisovatelia sa snažili písať kníhy. 0:01:56.000,0:01:58.000 A to sa im významne zjednodušilo 0:01:58.000,0:02:00.000 s rozvojom kníhtlače pred niekoľkými storočiami. 0:02:00.000,0:02:03.000 Odvtedy sa spisovateľom podarilo, 0:02:03.000,0:02:05.000 pri 129 miliónoch rôznych príležitostiach, 0:02:05.000,0:02:07.000 vydať knihu. 0:02:07.000,0:02:09.000 Ak sa tieto knihy nestratili v prúde času, 0:02:09.000,0:02:11.000 potom sú niekde v nejakej knižnici, 0:02:11.000,0:02:14.000 a mnoho z týchto kníh bolo získaných z týchto knižníc 0:02:14.000,0:02:16.000 a digitalizovaných v Google, 0:02:16.000,0:02:18.000 ktorý doteraz oskenoval 15 miliónov kníh. 0:02:18.000,0:02:21.000 Keď Google digitalizuje knihu, uložia ju do ozaj pekného formátu. 0:02:21.000,0:02:23.000 Máme dáta a navyše máme aj metadáta. 0:02:23.000,0:02:26.000 Máme informácie o veciach ako je miesto vydania, 0:02:26.000,0:02:28.000 autor, obdobie vydania. 0:02:28.000,0:02:31.000 A naša činnosť potom spočíva v prehliadaní týchto záznamov 0:02:31.000,0:02:35.000 a vylúčení všetkého, okrem dát najvyššej kvality. 0:02:35.000,0:02:37.000 Čo nám zostane, 0:02:37.000,0:02:40.000 je súbor piatich miliónov kníh, 0:02:40.000,0:02:43.000 500 miliárd slov, 0:02:43.000,0:02:45.000 reťazec znakov tisíckrát dlhší 0:02:45.000,0:02:48.000 než ľudský genóm -- 0:02:48.000,0:02:50.000 text, ktorý, ak by sme ho napísali, 0:02:50.000,0:02:52.000 by sa tiahol odtiaľ na Mesiac a späť 0:02:52.000,0:02:54.000 10 krát -- 0:02:54.000,0:02:58.000 ozajstný úlomok nášho kultúrneho genómu. 0:02:58.000,0:03:00.000 Samozrejme, čo sme urobili, 0:03:00.000,0:03:03.000 čeliac takejto hroznej hyperbole ... 0:03:03.000,0:03:05.000 (Smiech) 0:03:05.000,0:03:08.000 sme urobili to, čo 0:03:08.000,0:03:11.000 by býval urobil každý výskumník so štipkou sebaúcty. 0:03:11.000,0:03:13.000 Vybrali sme stránku z XKCD, 0:03:13.000,0:03:15.000 a riekli, "Ustúp. 0:03:15.000,0:03:17.000 Ideme vyskúšať vedu." 0:03:17.000,0:03:19.000 (Smiech) 0:03:19.000,0:03:21.000 JM: Samozrejme, uvažovali sme, 0:03:21.000,0:03:23.000 skúsme my len najprv zverejniť dáta, 0:03:23.000,0:03:25.000 pre ostatných nech si na tom robia vedu. 0:03:25.000,0:03:27.000 A tak uvažujeme, ktoré dáta môžeme zverejniť? 0:03:27.000,0:03:29.000 Samozrejme, chcete vziať knihy 0:03:29.000,0:03:31.000 a vydať plný text týchto piatich miliónov kníh. 0:03:31.000,0:03:33.000 Google a osobitne Jon Orwant, 0:03:33.000,0:03:35.000 nám ukázali malú rovnicu, ktorú sme sa museli naučiť. 0:03:35.000,0:03:38.000 Vezmite päť miliónov kníh, to znamená päť miliónov autorov 0:03:38.000,0:03:41.000 a päť miliónov žalobcov a máte masívny súdny proces. 0:03:41.000,0:03:43.000 Takže, aj keď by to bolo veľmi, veľmi úžasné, 0:03:43.000,0:03:46.000 opäť, extrémne, extrémne nepraktické. 0:03:46.000,0:03:48.000 (Smiech) 0:03:48.000,0:03:50.000 Opäť sme to svojim spôsobom vyriešili 0:03:50.000,0:03:53.000 a zvolili sme veľmi praktický prístup, ktorý bol o kúsok menej úžasný. 0:03:53.000,0:03:55.000 Povedali sme si, namiesto zverejnenia plného textu 0:03:55.000,0:03:57.000 zverejníme štatistické informácie o knihách. 0:03:57.000,0:03:59.000 Napríklad "A gleam of happiness" ("Záblesk šťastia"). 0:03:59.000,0:04:01.000 To sú štyri slová: nazývame to štyr-gram. 0:04:01.000,0:04:03.000 Povieme vám, koľkokrát sa určitý štyr-gram 0:04:03.000,0:04:05.000 objavuje v knihách v rokoch 1801, 1802, 1803, 0:04:05.000,0:04:07.000 až do roku 2008. 0:04:07.000,0:04:09.000 To nám dáva časovú závislosť 0:04:09.000,0:04:11.000 frekvencie použitia určitej vety v priebehu času. 0:04:11.000,0:04:14.000 Urobíme to pre všetky slová a frázy, ktoré sa objavujú v týchto knihách 0:04:14.000,0:04:17.000 a to nám dáva veľkú tabuľku s dvoma miliardami riadkov, 0:04:17.000,0:04:19.000 ktorá nám hovorí a cestách kultúrnych zmien. 0:04:19.000,0:04:21.000 ELA: Teda tie dve miliardy riadkov, 0:04:21.000,0:04:23.000 nazývame ich dve miliardy n-gramov. 0:04:23.000,0:04:25.000 Čo nám hovoria? 0:04:25.000,0:04:27.000 Individuálne n-gramy sú mierou kultúrnych trendov. 0:04:27.000,0:04:29.000 Dovoľte mi uviesť vám jeden príklad. 0:04:29.000,0:04:31.000 Predpokladajme, že je mi skvele, 0:04:31.000,0:04:33.000 a potom zajtra vám chcem povedať, ako dobre mi bolo. 0:04:33.000,0:04:36.000 A teda by som mohol povedať "Včera som si voľkal." 0:04:36.000,0:04:39.000 Alternatívne by som mohol povedať "Včara som sa tešil." 0:04:39.000,0:04:42.000 Ktorý z nich by som mal použiť? 0:04:42.000,0:04:44.000 Ako sa rozhodnúť? 0:04:44.000,0:04:46.000 Už približne šesť mesiacov 0:04:46.000,0:04:48.000 špičkový prístup v tejto oblasti 0:04:48.000,0:04:50.000 je, že by ste, napríklad, 0:04:50.000,0:04:52.000 navštívili nasledujúceho psychológa s úžasným účesom, 0:04:52.000,0:04:54.000 a riekli by ste, 0:04:54.000,0:04:57.000 "Steve, vy ste expert na nepravidelné slovesá. 0:04:57.000,0:04:59.000 Čo by som mal robiť?" 0:04:59.000,0:05:01.000 A on by vám povedal, "Väčšina ľudí hovorí tešiť sa, 0:05:01.000,0:05:04.000 ale niektorí ľudia hovoria voľkať si." 0:05:04.000,0:05:06.000 A tiež ste vedeli, viac-menej, 0:05:06.000,0:05:09.000 že, ak by ste sa presunuli späť v čase o 200 rokov 0:05:09.000,0:05:12.000 a opýtali sa nasledujúceho štátnika s rovnako úžasným účesom: 0:05:12.000,0:05:15.000 (Smiech) 0:05:15.000,0:05:17.000 "Tom, čo by som mal povedať?" 0:05:17.000,0:05:19.000 On by odpovedal, "Za mojich čias, väčšina ľudí používala voľkať si, 0:05:19.000,0:05:22.000 no niektorí používali tešiť sa." 0:05:22.000,0:05:24.000 Takže to, čo vám teraz ukážem sú iba holé dáta. 0:05:24.000,0:05:28.000 Dva riadky z tabuľky s dvoma miliardami záznamov. 0:05:28.000,0:05:30.000 To, čo vidíte je frekvencia výskytu, rok za rokom, 0:05:30.000,0:05:33.000 "tešiť sa" a "voľkať si" v priebehu času. 0:05:34.000,0:05:36.000 Toto sú iba dva 0:05:36.000,0:05:39.000 z dvoch miliárd riadkov. 0:05:39.000,0:05:41.000 Takže, celý set dát 0:05:41.000,0:05:44.000 je miliardukrát úžasnejší než tento obrázok. 0:05:44.000,0:05:46.000 (Smiech) 0:05:46.000,0:05:50.000 (Potlesk) 0:05:50.000,0:05:52.000 JM: Je mnoho ďalších obrázkov, ktoré sú hodné 500 miliárd slov. 0:05:52.000,0:05:54.000 Napríklad tento. 0:05:54.000,0:05:56.000 Ak vezmete slovo influenza, 0:05:56.000,0:05:58.000 spozorujete zvýšený výskyt v časoch, o ktorých je známe, 0:05:58.000,0:06:01.000 že chrípkové epidémie práve zabíjali ľudí po svete. 0:06:01.000,0:06:04.000 ELA: Ak ešte nie ste presvedčení, 0:06:04.000,0:06:06.000 hladiny morí stúpajú, 0:06:06.000,0:06:09.000 rovnako aj atmosférický CO2 a globálna teplota. 0:06:09.000,0:06:12.000 JM: Mohol by vás zaujímať aj tento partikulárny n-gram, 0:06:12.000,0:06:15.000 ktorý Nietzschemu hovorí, že Boh nie je mŕtvy, 0:06:15.000,0:06:18.000 aj keď by ste mohli súhlasiť, že by sa mu hodil lepší PR manažér. 0:06:18.000,0:06:20.000 (Smiech) 0:06:20.000,0:06:23.000 ELA: S touto vecičkou môžete dospieť k pekne abstraktným konceptom. 0:06:23.000,0:06:25.000 Napríklad, dovoľte mi rozpovedať vám históriu 0:06:25.000,0:06:27.000 roku 1950. 0:06:27.000,0:06:29.000 Podstatnú väčšinu dejín, 0:06:29.000,0:06:31.000 nikto na rok 1950 ani nekýchol 0:06:31.000,0:06:33.000 v rokoch 1700, 1800, 1900, 0:06:33.000,0:06:36.000 nik sa nezaujímal. 0:06:37.000,0:06:39.000 V priebehu 30-tych a 40-tych, 0:06:39.000,0:06:41.000 sa nik nezaujímal. 0:06:41.000,0:06:43.000 Zrazu, v polovici 40-tych 0:06:43.000,0:06:45.000 nastal šum. 0:06:45.000,0:06:47.000 Ľudia si uvedomili, že rok 1950 prichádza 0:06:47.000,0:06:49.000 a mohol by byť veľkolepý. 0:06:49.000,0:06:52.000 (Smiech) 0:06:52.000,0:06:55.000 Avšak nič ľudí nezaujalo počas roku 1950, 0:06:55.000,0:06:58.000 tak, ako rok 1950. 0:06:58.000,0:07:01.000 (Smiech) 0:07:01.000,0:07:03.000 Ľudia chodili ako posadnutí. 0:07:03.000,0:07:05.000 Nemohli prestať hovoriť 0:07:05.000,0:07:08.000 o všetkom, čo robili počas roku 1950, 0:07:08.000,0:07:11.000 všetkom, čo plánovali robiť v roku 1950, 0:07:11.000,0:07:16.000 všetkých snoch, ktoré si chceli splniť v roku 1950. 0:07:16.000,0:07:18.000 Fakticky, rok 1950 bol taký fascinujúci, 0:07:18.000,0:07:20.000 že celé roky potom 0:07:20.000,0:07:23.000 ľudia jednoducho ďalej hovorili o všetkých úžasných veciach, ktoré sa udiali. 0:07:23.000,0:07:25.000 v rokoch 51, 52, 53. 0:07:25.000,0:07:27.000 Konečne, v roku 1954 0:07:27.000,0:07:29.000 sa ktosi prebral a nahliadol, 0:07:29.000,0:07:33.000 že rok 1950 je akosi passé. 0:07:33.000,0:07:35.000 (Smiech) 0:07:35.000,0:07:37.000 A takto bublina spľasla. 0:07:37.000,0:07:39.000 (Smiech) 0:07:39.000,0:07:41.000 A príbeh roku 1950, 0:07:41.000,0:07:43.000 je príbehom každého roku, o ktorom máme záznamy. 0:07:43.000,0:07:46.000 s malým háčikom, pretože teraz máme tieto pekné tabuľky. 0:07:46.000,0:07:49.000 A pretože máme tieto pekné tabuľky, môžeme veci merať. 0:07:49.000,0:07:51.000 Môžeme sa opýtať: "Hm, ako rýchlo bublina spľasne?" 0:07:51.000,0:07:54.000 A ukazuje sa, že to môžeme merať veľmi presne. 0:07:54.000,0:07:57.000 Rovnice boli odvodené, grafy vytvorené, 0:07:57.000,0:07:59.000 a výsledok je, 0:07:59.000,0:08:02.000 že bubliny spľasnú rýchlejšie a rýchlejšie 0:08:02.000,0:08:04.000 každým odchádzajúcim rokom. 0:08:04.000,0:08:09.000 Záujem o minulosť strácame rýchlejšie. 0:08:09.000,0:08:11.000 JM: Teraz malá rada ku kariérnemu rastu. 0:08:11.000,0:08:13.000 Takže pre tých z vás, ktorí chcú byť slávni, 0:08:13.000,0:08:15.000 sa môžeme poučiť od 25 najznámejších politikov, 0:08:15.000,0:08:17.000 spisovateľov, hercov a tak ďalej. 0:08:17.000,0:08:20.000 Takže ak sa chcete stať slávnym čo najskôr, mali by ste byť hercom, 0:08:20.000,0:08:22.000 pretože potom vaša sláva začne rásť ešte pred tridsiatkou -- 0:08:22.000,0:08:24.000 ste ešte mladý, je to ozaj super. 0:08:24.000,0:08:26.000 Ak môžete chvíľu počkať, staňte sa spisovateľom, 0:08:26.000,0:08:28.000 pretože potom môžete dosiahnuť k výšinám, 0:08:28.000,0:08:30.000 ako Mark Twain, napríklad: extrémne slávny. 0:08:30.000,0:08:32.000 Ale ak chcete naozaj na vrchol, 0:08:32.000,0:08:34.000 mali by ste odložiť príjemnosti 0:08:34.000,0:08:36.000 a samozrejme, stať sa politikom. 0:08:36.000,0:08:38.000 Takže tu sa stávate slávnym pred vašou šesťdesiatkou, 0:08:38.000,0:08:40.000 a následne sa stávate veľmi, veľmi slávnym. 0:08:40.000,0:08:43.000 Vedci sa k sláve dostávajú ako omnoho starší. 0:08:43.000,0:08:45.000 Tak napríklad, biológovia a fyzici 0:08:45.000,0:08:47.000 sú takmer takí slávni ako herci. 0:08:47.000,0:08:50.000 Chyby, ktorej by ste sa mali vyvarovať je stať sa matematikom. 0:08:50.000,0:08:52.000 (Smiech) 0:08:52.000,0:08:54.000 Ak to urobíte, 0:08:54.000,0:08:57.000 môžete si myslieť: "Ó, skvelé, do tridsiatky urobím svoju najlepšiu prácu." 0:08:57.000,0:08:59.000 Ale hádajte čo? Nikoho to nebude naozaj zaujímať. 0:08:59.000,0:09:02.000 (Smiech) 0:09:02.000,0:09:04.000 ELA: N-gramy prinášajú 0:09:04.000,0:09:06.000 ešte viac vytriezvujúcich poznatkov. 0:09:06.000,0:09:08.000 Napríklad tu je trajektória Marca Chagalla, 0:09:08.000,0:09:10.000 umelca narodeného v roku 1887. 0:09:10.000,0:09:13.000 A toto vyzerá ako normálna trajektória slávnej osoby. 0:09:13.000,0:09:17.000 Stáva sa slávnejším a slávnejším, 0:09:17.000,0:09:19.000 s výnimkou, ak hľadáte v nemčine. 0:09:19.000,0:09:21.000 Ak hľadáte v nemčine, uvidíte niečo úplne zvláštne, 0:09:21.000,0:09:23.000 niečo, čo sa takmer nikdy neobjaví, 0:09:23.000,0:09:25.000 teda, že sa stáva extrémne slávnym 0:09:25.000,0:09:27.000 a potom z ničoho nič zmizne, 0:09:27.000,0:09:30.000 prechádzajúc úplným minimom medzi rokmi 1933 a 1945, 0:09:30.000,0:09:33.000 a následne opätovne narastajúc. 0:09:33.000,0:09:35.000 Samozrejme, to, čo vidíme, 0:09:35.000,0:09:38.000 je skutočnosť, že Marc Chagall bol židovským umelcom 0:09:38.000,0:09:40.000 v nacistickom Nemecku. 0:09:40.000,0:09:42.000 Tieto signály 0:09:42.000,0:09:44.000 sú v skutočnosti také silné, 0:09:44.000,0:09:47.000 že nepotrebujeme vedieť, či bol niekto cenzúrovaný. 0:09:47.000,0:09:49.000 Môžeme na to jednoducho prísť 0:09:49.000,0:09:51.000 použitím naozaj základného spracovania signálov. 0:09:51.000,0:09:53.000 Tu je jednoduchý spôsob, ako to urobiť. 0:09:53.000,0:09:55.000 Je rozumné predpokladať, 0:09:55.000,0:09:57.000 že sláva danej osoby počas istého časového úseku, 0:09:57.000,0:09:59.000 by mala byť približne priemerom jej slávy pred 0:09:59.000,0:10:01.000 a slávy po ňom. 0:10:01.000,0:10:03.000 Takže očakávame takéto niečo. 0:10:03.000,0:10:06.000 A porovnáme to so slávou, ktorú pozorujeme. 0:10:06.000,0:10:08.000 A jednoducho vydelíme jednu druhou, 0:10:08.000,0:10:10.000 aby sme dostali niečo, čo nazývame index supresie. 0:10:10.000,0:10:13.000 Ak je index supresie veľmi, veľmi, veľmi malý, 0:10:13.000,0:10:15.000 potom je dosť možné, že ste potláčaný. 0:10:15.000,0:10:18.000 Ak je veľmi veľký, je možné, že si pomáhate propagandou. 0:10:19.000,0:10:21.000 JM: Vskutku sa môžete pozrieť na 0:10:21.000,0:10:24.000 distribúciu indexov supresie cez celé populácie. 0:10:24.000,0:10:26.000 Napríklad, tu -- 0:10:26.000,0:10:28.000 tento index supresie je vyrátaný pre 5000 ľudí 0:10:28.000,0:10:30.000 vybraných v anglických knihách. Kde nie je žiadna supresia -- 0:10:30.000,0:10:32.000 vyzeralo by to takto, tesne centrované okolo jednotky. 0:10:32.000,0:10:34.000 Čo očakávate, je, v podstate, to, čo pozorujete. 0:10:34.000,0:10:36.000 Toto je distribúcia pozorovaná v Nemecku -- 0:10:36.000,0:10:38.000 veľmi rozdielna, je posunutá doľava. 0:10:38.000,0:10:41.000 Ľudia o tom hovorili asi dvakrát menej ako by sa dalo očakávať, 0:10:41.000,0:10:43.000 ale čo je ešte dôležitejšie, distribúcia je oveľa širšia. 0:10:43.000,0:10:46.000 Je mnoho ľudí, ktorý skončia na ľavom konci tejto distribúcie, 0:10:46.000,0:10:49.000 o ktorých sa hovorí asi 10 ráz menej, než by sa malo. 0:10:49.000,0:10:51.000 Ale tiež mnoho ľudí na pravom konci, 0:10:51.000,0:10:53.000 ktorým, zdá sa, pomáha propaganda. 0:10:53.000,0:10:56.000 Tento obrázok predstavuje etalón cenzorstva v knižných záznamoch. 0:10:56.000,0:10:58.000 ELA: Takže kulturonómia 0:10:58.000,0:11:00.000 je termín, ktorý používame pre túto metódu. 0:11:00.000,0:11:02.000 Je podobná genomike. 0:11:02.000,0:11:04.000 Zatiaľ, čo genomika je objektívom biológie 0:11:04.000,0:11:07.000 cez okno sekvencie ľudského genómu, 0:11:07.000,0:11:09.000 kulturonómia je podobná. 0:11:09.000,0:11:12.000 Je to aplikácia analýzy dát masívneho rozsahu 0:11:12.000,0:11:14.000 pre štúdium ľudskej kultúry. 0:11:14.000,0:11:16.000 Tu je genóm nahradený 0:11:16.000,0:11:19.000 objektívom digitalizovaných historických záznamov. 0:11:19.000,0:11:21.000 Skvelé na kulturonómii 0:11:21.000,0:11:23.000 je, že ju môže robiť každý. 0:11:23.000,0:11:25.000 Prečo každý? 0:11:25.000,0:11:27.000 Môže ju robiť ktokoľvek, pretože traja chlapíci, 0:11:27.000,0:11:30.000 Jon Orwant, Matt Gray a Will Brockman z Google 0:11:30.000,0:11:32.000 sa pozreli na prototyp Ngram Viewer 0:11:32.000,0:11:34.000 a povedali si, "Toto je taká zábava, 0:11:34.000,0:11:37.000 musíme ju sprístupniť ľuďom!" 0:11:37.000,0:11:39.000 Takže za dva týždne - dva týždne pred vydaním nášho článku - 0:11:39.000,0:11:42.000 naprogramovali verziu Ngram Viewer-u pre verejnosť. 0:11:42.000,0:11:45.000 Takže teraz môžete vpísať akékoľvek slovo alebo frázu, ktorá vás zaujíma 0:11:45.000,0:11:47.000 a okamžite vidieť príslušný N-gram, 0:11:47.000,0:11:49.000 a tiež prezerať príklady všetkých rôznych kníh, 0:11:49.000,0:11:51.000 v ktorých sa objavuje váš N-gram. 0:11:51.000,0:11:53.000 JM: Aplikácia bola použitá viac ako miliónkrát počas prvého dňa, 0:11:53.000,0:11:55.000 a toto je naozaj najlepší zo všetkých dotazov. 0:11:55.000,0:11:58.000 Takže ľudia sa snažia robiť všetko najlepšie ("their best") v službách pokroku. 0:11:58.000,0:12:01.000 Ale ukazuje sa, že v 18-tom storočí, sa o to nestarali vôbec. 0:12:01.000,0:12:04.000 Nechceli robiť "their best", robili "their beft". 0:12:04.000,0:12:07.000 Čo sa stalo, je, samozrejme, iba chyba. 0:12:07.000,0:12:09.000 Nebola to snaha po priemernosti, 0:12:09.000,0:12:12.000 išlo len o to, že "s" sa písalo odlišne, podobne ako "f." 0:12:12.000,0:12:15.000 Samozrejme, Google o tom vtedy ešte nevedel, 0:12:15.000,0:12:18.000 takže sme to reportovali v našom odbornom článku. 0:12:18.000,0:12:20.000 Ale to je iba pripomienka, 0:12:20.000,0:12:22.000 že aj keď je toto veľká zábava, 0:12:22.000,0:12:24.000 pri interpretácii grafov musíte byť veľmi opatrní 0:12:24.000,0:12:27.000 a používať základné vedecké pravidlá. 0:12:27.000,0:12:30.000 ELA: Ľudia to používajú na všetky možné srandovné účely. 0:12:30.000,0:12:37.000 (Smiech) 0:12:37.000,0:12:39.000 Vskutku, nemusíme ani rozprávať, 0:12:39.000,0:12:42.000 iba vám mlčky ukážeme všetky zostávajúce obrázky 0:12:42.000,0:12:45.000 Túto osobu zaujímala história frustrácie. 0:12:45.000,0:12:48.000 Existujú rôzne druhy frustrácie. 0:12:48.000,0:12:51.000 Ak si prepichnete prst je to "argh" (ach) s jedným "a" 0:12:51.000,0:12:53.000 Ak je planéta Zem anihilovaná Vogónmi 0:12:53.000,0:12:55.000 za účelom uvoľnenia priestoru pre vesmírnu diaľnicu, 0:12:55.000,0:12:57.000 je to "aaaaaaaargh" o ôsmich "a." 0:12:57.000,0:12:59.000 Táto osoba skúmala všetky "argh", 0:12:59.000,0:13:01.000 s jedným až ôsmimi "a" 0:13:01.000,0:13:03.000 A ukazuje sa 0:13:03.000,0:13:05.000 že menej frekventované "arghs" 0:13:05.000,0:13:08.000 sú, samozrejme, tie, ktoré zodpovedajú veciam, ktoré sú frustrujúcejšie -- 0:13:08.000,0:13:11.000 s výnimkou, prekvapujúco, začiatku 80-tych. 0:13:11.000,0:13:13.000 Myslíme, že by to mohlo mať dočinenia s Reaganom. 0:13:13.000,0:13:15.000 (Smiech) 0:13:15.000,0:13:18.000 JM: Je veľa použití pre tieto dáta, 0:13:18.000,0:13:21.000 ale najpodstatnejšie je, že historické záznamy sú digitalizované. 0:13:21.000,0:13:23.000 Google začal s digitalizáciou 15 miliónov kníh. 0:13:23.000,0:13:25.000 To je 12 percent všetkých kníh, ktoré kedy boli vydané. 0:13:25.000,0:13:28.000 To predstavuje veľkú časť ľudskej kultúry. 0:13:28.000,0:13:31.000 Kultúra je oveľa širšia: spadajú tam rukopisy, noviny, 0:13:31.000,0:13:33.000 patria tam veci, ktoré nie sú textom, ako výtvarné umenie a maľby. 0:13:33.000,0:13:35.000 Toto všetko bude na našich počítačoch, 0:13:35.000,0:13:37.000 na počítačoch po celom svete. 0:13:37.000,0:13:40.000 Až sa toto stane, transformuje to náš prístup 0:13:40.000,0:13:42.000 k porozumeniu našej minulosti, prítomnosti a ľudstvu. 0:13:42.000,0:13:44.000 Ďakujeme veľmi pekne. 0:13:44.000,0:13:47.000 (Potlesk)