WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Každý vie, 00:00:02.000 --> 00:00:05.000 že obrázok je hoden tisíc slov. 00:00:07.000 --> 00:00:09.000 Ale my na Harvarde 00:00:09.000 --> 00:00:12.000 sme sa zamysleli, či je to naozaj pravda. 00:00:12.000 --> 00:00:14.000 (Smiech) 00:00:14.000 --> 00:00:18.000 Zhromaždili sme teda tím odborníkov 00:00:18.000 --> 00:00:20.000 z Harvardu, MIT, 00:00:20.000 --> 00:00:23.000 The American Heritage Dictionary, Encyklopédie Britannica 00:00:23.000 --> 00:00:25.000 a aj od našich hrdých sponzorov 00:00:25.000 --> 00:00:28.000 z Googlu. 00:00:28.000 --> 00:00:30.000 A uvažovali sme o tom 00:00:30.000 --> 00:00:32.000 asi štyri roky. 00:00:32.000 --> 00:00:37.000 A došli sme k prekvapujúcemu záveru. 00:00:37.000 --> 00:00:40.000 Dámy a páni, obrázok nie je hoden tísíc slov. 00:00:40.000 --> 00:00:42.000 V skutočnosti sme našli obrázky 00:00:42.000 --> 00:00:47.000 hodné 500 miliárd slov. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Takže, ako sme dospeli k tomuto záveru? 00:00:49.000 --> 00:00:51.000 Erez a ja sme premýšľali o cestách 00:00:51.000 --> 00:00:53.000 k získaniu celistvého obrazu o ľudskej kultúre 00:00:53.000 --> 00:00:56.000 a ľudskej histórii: ich zmenách v priebehu času. 00:00:56.000 --> 00:00:58.000 Tak veľa kníh bolo napísaných za všetky tie roky. 00:00:58.000 --> 00:01:00.000 Takže sme si pomysleli: najlepší spôsob, ako sa z nich poučiť, 00:01:00.000 --> 00:01:02.000 je prečítať všetky tieto milióny kníh. 00:01:02.000 --> 00:01:05.000 Samozrejme, ak si predstavíme mieru úžasnosti niečoho takého, 00:01:05.000 --> 00:01:08.000 toto musí bodovať veľmi, veľmi vysoko. 00:01:08.000 --> 00:01:10.000 Problém je, že k tomu prislúcha aj X-ová os - 00:01:10.000 --> 00:01:12.000 os praktičnosti. 00:01:12.000 --> 00:01:14.000 Toto je veľmi, veľmi nízko. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Potlesk) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Ľudia zvyknú používať alternatívny prístup, 00:01:20.000 --> 00:01:22.000 vyberú zopár prameňov a prečítajú ich veľmi pozorne. 00:01:22.000 --> 00:01:24.000 Toto je veľmi praktické, ale nie až také úžasné. 00:01:24.000 --> 00:01:27.000 Čo naozaj chcete dosiahnuť, 00:01:27.000 --> 00:01:30.000 je umiestniť sa do úžasnej, ešte však praktickej časti tohto priestoru. 00:01:30.000 --> 00:01:33.000 Tak sa stalo, že kúsok cez rieku bola spoločnosť nazývaná Google, 00:01:33.000 --> 00:01:35.000 ktorá pred pár rokmi začala digitalizačný projekt, 00:01:35.000 --> 00:01:37.000 ktorý by akurát mohol umožniť takýto prístup. 00:01:37.000 --> 00:01:39.000 Digitalizovali milióny kníh. 00:01:39.000 --> 00:01:42.000 To znamená, že je možné použiť výpočtové metódy 00:01:42.000 --> 00:01:44.000 na čítanie všetkých týchto kníh stlačením klávesy. 00:01:44.000 --> 00:01:47.000 To je veľmi praktické a extrémne úžasné. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Dovoľte mi rozpovedať vám o tom, odkiaľ knihy prichádzajú. 00:01:50.000 --> 00:01:53.000 Od nepamäti existovali spisovatelia. 00:01:53.000 --> 00:01:56.000 Títo spisovatelia sa snažili písať kníhy. 00:01:56.000 --> 00:01:58.000 A to sa im významne zjednodušilo 00:01:58.000 --> 00:02:00.000 s rozvojom kníhtlače pred niekoľkými storočiami. 00:02:00.000 --> 00:02:03.000 Odvtedy sa spisovateľom podarilo, 00:02:03.000 --> 00:02:05.000 pri 129 miliónoch rôznych príležitostiach, 00:02:05.000 --> 00:02:07.000 vydať knihu. 00:02:07.000 --> 00:02:09.000 Ak sa tieto knihy nestratili v prúde času, 00:02:09.000 --> 00:02:11.000 potom sú niekde v nejakej knižnici, 00:02:11.000 --> 00:02:14.000 a mnoho z týchto kníh bolo získaných z týchto knižníc 00:02:14.000 --> 00:02:16.000 a digitalizovaných v Google, 00:02:16.000 --> 00:02:18.000 ktorý doteraz oskenoval 15 miliónov kníh. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Keď Google digitalizuje knihu, uložia ju do ozaj pekného formátu. 00:02:21.000 --> 00:02:23.000 Máme dáta a navyše máme aj metadáta. 00:02:23.000 --> 00:02:26.000 Máme informácie o veciach ako je miesto vydania, 00:02:26.000 --> 00:02:28.000 autor, obdobie vydania. 00:02:28.000 --> 00:02:31.000 A naša činnosť potom spočíva v prehliadaní týchto záznamov 00:02:31.000 --> 00:02:35.000 a vylúčení všetkého, okrem dát najvyššej kvality. 00:02:35.000 --> 00:02:37.000 Čo nám zostane, 00:02:37.000 --> 00:02:40.000 je súbor piatich miliónov kníh, 00:02:40.000 --> 00:02:43.000 500 miliárd slov, 00:02:43.000 --> 00:02:45.000 reťazec znakov tisíckrát dlhší 00:02:45.000 --> 00:02:48.000 než ľudský genóm -- 00:02:48.000 --> 00:02:50.000 text, ktorý, ak by sme ho napísali, 00:02:50.000 --> 00:02:52.000 by sa tiahol odtiaľ na Mesiac a späť 00:02:52.000 --> 00:02:54.000 10 krát -- 00:02:54.000 --> 00:02:58.000 ozajstný úlomok nášho kultúrneho genómu. 00:02:58.000 --> 00:03:00.000 Samozrejme, čo sme urobili, 00:03:00.000 --> 00:03:03.000 čeliac takejto hroznej hyperbole ... 00:03:03.000 --> 00:03:05.000 (Smiech) 00:03:05.000 --> 00:03:08.000 sme urobili to, čo 00:03:08.000 --> 00:03:11.000 by býval urobil každý výskumník so štipkou sebaúcty. 00:03:11.000 --> 00:03:13.000 Vybrali sme stránku z XKCD, 00:03:13.000 --> 00:03:15.000 a riekli, "Ustúp. 00:03:15.000 --> 00:03:17.000 Ideme vyskúšať vedu." NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Smiech) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Samozrejme, uvažovali sme, 00:03:21.000 --> 00:03:23.000 skúsme my len najprv zverejniť dáta, 00:03:23.000 --> 00:03:25.000 pre ostatných nech si na tom robia vedu. 00:03:25.000 --> 00:03:27.000 A tak uvažujeme, ktoré dáta môžeme zverejniť? 00:03:27.000 --> 00:03:29.000 Samozrejme, chcete vziať knihy 00:03:29.000 --> 00:03:31.000 a vydať plný text týchto piatich miliónov kníh. 00:03:31.000 --> 00:03:33.000 Google a osobitne Jon Orwant, 00:03:33.000 --> 00:03:35.000 nám ukázali malú rovnicu, ktorú sme sa museli naučiť. 00:03:35.000 --> 00:03:38.000 Vezmite päť miliónov kníh, to znamená päť miliónov autorov 00:03:38.000 --> 00:03:41.000 a päť miliónov žalobcov a máte masívny súdny proces. 00:03:41.000 --> 00:03:43.000 Takže, aj keď by to bolo veľmi, veľmi úžasné, 00:03:43.000 --> 00:03:46.000 opäť, extrémne, extrémne nepraktické. 00:03:46.000 --> 00:03:48.000 (Smiech) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Opäť sme to svojim spôsobom vyriešili 00:03:50.000 --> 00:03:53.000 a zvolili sme veľmi praktický prístup, ktorý bol o kúsok menej úžasný. 00:03:53.000 --> 00:03:55.000 Povedali sme si, namiesto zverejnenia plného textu 00:03:55.000 --> 00:03:57.000 zverejníme štatistické informácie o knihách. 00:03:57.000 --> 00:03:59.000 Napríklad "A gleam of happiness" ("Záblesk šťastia"). 00:03:59.000 --> 00:04:01.000 To sú štyri slová: nazývame to štyr-gram. 00:04:01.000 --> 00:04:03.000 Povieme vám, koľkokrát sa určitý štyr-gram 00:04:03.000 --> 00:04:05.000 objavuje v knihách v rokoch 1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 až do roku 2008. 00:04:07.000 --> 00:04:09.000 To nám dáva časovú závislosť 00:04:09.000 --> 00:04:11.000 frekvencie použitia určitej vety v priebehu času. 00:04:11.000 --> 00:04:14.000 Urobíme to pre všetky slová a frázy, ktoré sa objavujú v týchto knihách 00:04:14.000 --> 00:04:17.000 a to nám dáva veľkú tabuľku s dvoma miliardami riadkov, 00:04:17.000 --> 00:04:19.000 ktorá nám hovorí a cestách kultúrnych zmien. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Teda tie dve miliardy riadkov, 00:04:21.000 --> 00:04:23.000 nazývame ich dve miliardy n-gramov. 00:04:23.000 --> 00:04:25.000 Čo nám hovoria? 00:04:25.000 --> 00:04:27.000 Individuálne n-gramy sú mierou kultúrnych trendov. 00:04:27.000 --> 00:04:29.000 Dovoľte mi uviesť vám jeden príklad. 00:04:29.000 --> 00:04:31.000 Predpokladajme, že je mi skvele, 00:04:31.000 --> 00:04:33.000 a potom zajtra vám chcem povedať, ako dobre mi bolo. 00:04:33.000 --> 00:04:36.000 A teda by som mohol povedať "Včera som si voľkal." 00:04:36.000 --> 00:04:39.000 Alternatívne by som mohol povedať "Včara som sa tešil." 00:04:39.000 --> 00:04:42.000 Ktorý z nich by som mal použiť? 00:04:42.000 --> 00:04:44.000 Ako sa rozhodnúť? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Už približne šesť mesiacov 00:04:46.000 --> 00:04:48.000 špičkový prístup v tejto oblasti 00:04:48.000 --> 00:04:50.000 je, že by ste, napríklad, 00:04:50.000 --> 00:04:52.000 navštívili nasledujúceho psychológa s úžasným účesom, 00:04:52.000 --> 00:04:54.000 a riekli by ste, 00:04:54.000 --> 00:04:57.000 "Steve, vy ste expert na nepravidelné slovesá. 00:04:57.000 --> 00:04:59.000 Čo by som mal robiť?" 00:04:59.000 --> 00:05:01.000 A on by vám povedal, "Väčšina ľudí hovorí tešiť sa, 00:05:01.000 --> 00:05:04.000 ale niektorí ľudia hovoria voľkať si." 00:05:04.000 --> 00:05:06.000 A tiež ste vedeli, viac-menej, 00:05:06.000 --> 00:05:09.000 že, ak by ste sa presunuli späť v čase o 200 rokov 00:05:09.000 --> 00:05:12.000 a opýtali sa nasledujúceho štátnika s rovnako úžasným účesom: 00:05:12.000 --> 00:05:15.000 (Smiech) 00:05:15.000 --> 00:05:17.000 "Tom, čo by som mal povedať?" 00:05:17.000 --> 00:05:19.000 On by odpovedal, "Za mojich čias, väčšina ľudí používala voľkať si, 00:05:19.000 --> 00:05:22.000 no niektorí používali tešiť sa." 00:05:22.000 --> 00:05:24.000 Takže to, čo vám teraz ukážem sú iba holé dáta. 00:05:24.000 --> 00:05:28.000 Dva riadky z tabuľky s dvoma miliardami záznamov. 00:05:28.000 --> 00:05:30.000 To, čo vidíte je frekvencia výskytu, rok za rokom, 00:05:30.000 --> 00:05:33.000 "tešiť sa" a "voľkať si" v priebehu času. 00:05:34.000 --> 00:05:36.000 Toto sú iba dva 00:05:36.000 --> 00:05:39.000 z dvoch miliárd riadkov. 00:05:39.000 --> 00:05:41.000 Takže, celý set dát 00:05:41.000 --> 00:05:44.000 je miliardukrát úžasnejší než tento obrázok. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Smiech) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Potlesk) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Je mnoho ďalších obrázkov, ktoré sú hodné 500 miliárd slov. 00:05:52.000 --> 00:05:54.000 Napríklad tento. 00:05:54.000 --> 00:05:56.000 Ak vezmete slovo influenza, 00:05:56.000 --> 00:05:58.000 spozorujete zvýšený výskyt v časoch, o ktorých je známe, 00:05:58.000 --> 00:06:01.000 že chrípkové epidémie práve zabíjali ľudí po svete. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Ak ešte nie ste presvedčení, 00:06:04.000 --> 00:06:06.000 hladiny morí stúpajú, 00:06:06.000 --> 00:06:09.000 rovnako aj atmosférický CO2 a globálna teplota. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Mohol by vás zaujímať aj tento partikulárny n-gram, 00:06:12.000 --> 00:06:15.000 ktorý Nietzschemu hovorí, že Boh nie je mŕtvy, 00:06:15.000 --> 00:06:18.000 aj keď by ste mohli súhlasiť, že by sa mu hodil lepší PR manažér. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Smiech) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: S touto vecičkou môžete dospieť k pekne abstraktným konceptom. 00:06:23.000 --> 00:06:25.000 Napríklad, dovoľte mi rozpovedať vám históriu 00:06:25.000 --> 00:06:27.000 roku 1950. 00:06:27.000 --> 00:06:29.000 Podstatnú väčšinu dejín, 00:06:29.000 --> 00:06:31.000 nikto na rok 1950 ani nekýchol 00:06:31.000 --> 00:06:33.000 v rokoch 1700, 1800, 1900, 00:06:33.000 --> 00:06:36.000 nik sa nezaujímal. 00:06:37.000 --> 00:06:39.000 V priebehu 30-tych a 40-tych, 00:06:39.000 --> 00:06:41.000 sa nik nezaujímal. 00:06:41.000 --> 00:06:43.000 Zrazu, v polovici 40-tych 00:06:43.000 --> 00:06:45.000 nastal šum. 00:06:45.000 --> 00:06:47.000 Ľudia si uvedomili, že rok 1950 prichádza 00:06:47.000 --> 00:06:49.000 a mohol by byť veľkolepý. 00:06:49.000 --> 00:06:52.000 (Smiech) 00:06:52.000 --> 00:06:55.000 Avšak nič ľudí nezaujalo počas roku 1950, 00:06:55.000 --> 00:06:58.000 tak, ako rok 1950. 00:06:58.000 --> 00:07:01.000 (Smiech) 00:07:01.000 --> 00:07:03.000 Ľudia chodili ako posadnutí. 00:07:03.000 --> 00:07:05.000 Nemohli prestať hovoriť 00:07:05.000 --> 00:07:08.000 o všetkom, čo robili počas roku 1950, 00:07:08.000 --> 00:07:11.000 všetkom, čo plánovali robiť v roku 1950, 00:07:11.000 --> 00:07:16.000 všetkých snoch, ktoré si chceli splniť v roku 1950. 00:07:16.000 --> 00:07:18.000 Fakticky, rok 1950 bol taký fascinujúci, 00:07:18.000 --> 00:07:20.000 že celé roky potom 00:07:20.000 --> 00:07:23.000 ľudia jednoducho ďalej hovorili o všetkých úžasných veciach, ktoré sa udiali. 00:07:23.000 --> 00:07:25.000 v rokoch 51, 52, 53. 00:07:25.000 --> 00:07:27.000 Konečne, v roku 1954 00:07:27.000 --> 00:07:29.000 sa ktosi prebral a nahliadol, 00:07:29.000 --> 00:07:33.000 že rok 1950 je akosi passé. 00:07:33.000 --> 00:07:35.000 (Smiech) 00:07:35.000 --> 00:07:37.000 A takto bublina spľasla. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Smiech) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 A príbeh roku 1950, 00:07:41.000 --> 00:07:43.000 je príbehom každého roku, o ktorom máme záznamy. 00:07:43.000 --> 00:07:46.000 s malým háčikom, pretože teraz máme tieto pekné tabuľky. 00:07:46.000 --> 00:07:49.000 A pretože máme tieto pekné tabuľky, môžeme veci merať. 00:07:49.000 --> 00:07:51.000 Môžeme sa opýtať: "Hm, ako rýchlo bublina spľasne?" 00:07:51.000 --> 00:07:54.000 A ukazuje sa, že to môžeme merať veľmi presne. 00:07:54.000 --> 00:07:57.000 Rovnice boli odvodené, grafy vytvorené, 00:07:57.000 --> 00:07:59.000 a výsledok je, 00:07:59.000 --> 00:08:02.000 že bubliny spľasnú rýchlejšie a rýchlejšie 00:08:02.000 --> 00:08:04.000 každým odchádzajúcim rokom. 00:08:04.000 --> 00:08:09.000 Záujem o minulosť strácame rýchlejšie. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Teraz malá rada ku kariérnemu rastu. 00:08:11.000 --> 00:08:13.000 Takže pre tých z vás, ktorí chcú byť slávni, 00:08:13.000 --> 00:08:15.000 sa môžeme poučiť od 25 najznámejších politikov, 00:08:15.000 --> 00:08:17.000 spisovateľov, hercov a tak ďalej. 00:08:17.000 --> 00:08:20.000 Takže ak sa chcete stať slávnym čo najskôr, mali by ste byť hercom, 00:08:20.000 --> 00:08:22.000 pretože potom vaša sláva začne rásť ešte pred tridsiatkou -- 00:08:22.000 --> 00:08:24.000 ste ešte mladý, je to ozaj super. 00:08:24.000 --> 00:08:26.000 Ak môžete chvíľu počkať, staňte sa spisovateľom, 00:08:26.000 --> 00:08:28.000 pretože potom môžete dosiahnuť k výšinám, 00:08:28.000 --> 00:08:30.000 ako Mark Twain, napríklad: extrémne slávny. 00:08:30.000 --> 00:08:32.000 Ale ak chcete naozaj na vrchol, 00:08:32.000 --> 00:08:34.000 mali by ste odložiť príjemnosti 00:08:34.000 --> 00:08:36.000 a samozrejme, stať sa politikom. 00:08:36.000 --> 00:08:38.000 Takže tu sa stávate slávnym pred vašou šesťdesiatkou, 00:08:38.000 --> 00:08:40.000 a následne sa stávate veľmi, veľmi slávnym. 00:08:40.000 --> 00:08:43.000 Vedci sa k sláve dostávajú ako omnoho starší. 00:08:43.000 --> 00:08:45.000 Tak napríklad, biológovia a fyzici 00:08:45.000 --> 00:08:47.000 sú takmer takí slávni ako herci. 00:08:47.000 --> 00:08:50.000 Chyby, ktorej by ste sa mali vyvarovať je stať sa matematikom. 00:08:50.000 --> 00:08:52.000 (Smiech) 00:08:52.000 --> 00:08:54.000 Ak to urobíte, 00:08:54.000 --> 00:08:57.000 môžete si myslieť: "Ó, skvelé, do tridsiatky urobím svoju najlepšiu prácu." 00:08:57.000 --> 00:08:59.000 Ale hádajte čo? Nikoho to nebude naozaj zaujímať. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Smiech) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: N-gramy prinášajú 00:09:04.000 --> 00:09:06.000 ešte viac vytriezvujúcich poznatkov. 00:09:06.000 --> 00:09:08.000 Napríklad tu je trajektória Marca Chagalla, 00:09:08.000 --> 00:09:10.000 umelca narodeného v roku 1887. 00:09:10.000 --> 00:09:13.000 A toto vyzerá ako normálna trajektória slávnej osoby. 00:09:13.000 --> 00:09:17.000 Stáva sa slávnejším a slávnejším, 00:09:17.000 --> 00:09:19.000 s výnimkou, ak hľadáte v nemčine. 00:09:19.000 --> 00:09:21.000 Ak hľadáte v nemčine, uvidíte niečo úplne zvláštne, 00:09:21.000 --> 00:09:23.000 niečo, čo sa takmer nikdy neobjaví, 00:09:23.000 --> 00:09:25.000 teda, že sa stáva extrémne slávnym 00:09:25.000 --> 00:09:27.000 a potom z ničoho nič zmizne, 00:09:27.000 --> 00:09:30.000 prechádzajúc úplným minimom medzi rokmi 1933 a 1945, 00:09:30.000 --> 00:09:33.000 a následne opätovne narastajúc. 00:09:33.000 --> 00:09:35.000 Samozrejme, to, čo vidíme, 00:09:35.000 --> 00:09:38.000 je skutočnosť, že Marc Chagall bol židovským umelcom 00:09:38.000 --> 00:09:40.000 v nacistickom Nemecku. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Tieto signály 00:09:42.000 --> 00:09:44.000 sú v skutočnosti také silné, 00:09:44.000 --> 00:09:47.000 že nepotrebujeme vedieť, či bol niekto cenzúrovaný. 00:09:47.000 --> 00:09:49.000 Môžeme na to jednoducho prísť 00:09:49.000 --> 00:09:51.000 použitím naozaj základného spracovania signálov. 00:09:51.000 --> 00:09:53.000 Tu je jednoduchý spôsob, ako to urobiť. 00:09:53.000 --> 00:09:55.000 Je rozumné predpokladať, 00:09:55.000 --> 00:09:57.000 že sláva danej osoby počas istého časového úseku, 00:09:57.000 --> 00:09:59.000 by mala byť približne priemerom jej slávy pred 00:09:59.000 --> 00:10:01.000 a slávy po ňom. 00:10:01.000 --> 00:10:03.000 Takže očakávame takéto niečo. 00:10:03.000 --> 00:10:06.000 A porovnáme to so slávou, ktorú pozorujeme. 00:10:06.000 --> 00:10:08.000 A jednoducho vydelíme jednu druhou, 00:10:08.000 --> 00:10:10.000 aby sme dostali niečo, čo nazývame index supresie. 00:10:10.000 --> 00:10:13.000 Ak je index supresie veľmi, veľmi, veľmi malý, 00:10:13.000 --> 00:10:15.000 potom je dosť možné, že ste potláčaný. 00:10:15.000 --> 00:10:18.000 Ak je veľmi veľký, je možné, že si pomáhate propagandou. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Vskutku sa môžete pozrieť na 00:10:21.000 --> 00:10:24.000 distribúciu indexov supresie cez celé populácie. 00:10:24.000 --> 00:10:26.000 Napríklad, tu -- 00:10:26.000 --> 00:10:28.000 tento index supresie je vyrátaný pre 5000 ľudí 00:10:28.000 --> 00:10:30.000 vybraných v anglických knihách. Kde nie je žiadna supresia -- 00:10:30.000 --> 00:10:32.000 vyzeralo by to takto, tesne centrované okolo jednotky. 00:10:32.000 --> 00:10:34.000 Čo očakávate, je, v podstate, to, čo pozorujete. 00:10:34.000 --> 00:10:36.000 Toto je distribúcia pozorovaná v Nemecku -- 00:10:36.000 --> 00:10:38.000 veľmi rozdielna, je posunutá doľava. 00:10:38.000 --> 00:10:41.000 Ľudia o tom hovorili asi dvakrát menej ako by sa dalo očakávať, 00:10:41.000 --> 00:10:43.000 ale čo je ešte dôležitejšie, distribúcia je oveľa širšia. 00:10:43.000 --> 00:10:46.000 Je mnoho ľudí, ktorý skončia na ľavom konci tejto distribúcie, 00:10:46.000 --> 00:10:49.000 o ktorých sa hovorí asi 10 ráz menej, než by sa malo. 00:10:49.000 --> 00:10:51.000 Ale tiež mnoho ľudí na pravom konci, 00:10:51.000 --> 00:10:53.000 ktorým, zdá sa, pomáha propaganda. 00:10:53.000 --> 00:10:56.000 Tento obrázok predstavuje etalón cenzorstva v knižných záznamoch. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: Takže kulturonómia 00:10:58.000 --> 00:11:00.000 je termín, ktorý používame pre túto metódu. 00:11:00.000 --> 00:11:02.000 Je podobná genomike. 00:11:02.000 --> 00:11:04.000 Zatiaľ, čo genomika je objektívom biológie 00:11:04.000 --> 00:11:07.000 cez okno sekvencie ľudského genómu, 00:11:07.000 --> 00:11:09.000 kulturonómia je podobná. 00:11:09.000 --> 00:11:12.000 Je to aplikácia analýzy dát masívneho rozsahu 00:11:12.000 --> 00:11:14.000 pre štúdium ľudskej kultúry. 00:11:14.000 --> 00:11:16.000 Tu je genóm nahradený 00:11:16.000 --> 00:11:19.000 objektívom digitalizovaných historických záznamov. 00:11:19.000 --> 00:11:21.000 Skvelé na kulturonómii 00:11:21.000 --> 00:11:23.000 je, že ju môže robiť každý. 00:11:23.000 --> 00:11:25.000 Prečo každý? 00:11:25.000 --> 00:11:27.000 Môže ju robiť ktokoľvek, pretože traja chlapíci, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray a Will Brockman z Google 00:11:30.000 --> 00:11:32.000 sa pozreli na prototyp Ngram Viewer 00:11:32.000 --> 00:11:34.000 a povedali si, "Toto je taká zábava, 00:11:34.000 --> 00:11:37.000 musíme ju sprístupniť ľuďom!" 00:11:37.000 --> 00:11:39.000 Takže za dva týždne - dva týždne pred vydaním nášho článku - 00:11:39.000 --> 00:11:42.000 naprogramovali verziu Ngram Viewer-u pre verejnosť. 00:11:42.000 --> 00:11:45.000 Takže teraz môžete vpísať akékoľvek slovo alebo frázu, ktorá vás zaujíma 00:11:45.000 --> 00:11:47.000 a okamžite vidieť príslušný N-gram, 00:11:47.000 --> 00:11:49.000 a tiež prezerať príklady všetkých rôznych kníh, 00:11:49.000 --> 00:11:51.000 v ktorých sa objavuje váš N-gram. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 JM: Aplikácia bola použitá viac ako miliónkrát počas prvého dňa, 00:11:53.000 --> 00:11:55.000 a toto je naozaj najlepší zo všetkých dotazov. 00:11:55.000 --> 00:11:58.000 Takže ľudia sa snažia robiť všetko najlepšie ("their best") v službách pokroku. 00:11:58.000 --> 00:12:01.000 Ale ukazuje sa, že v 18-tom storočí, sa o to nestarali vôbec. 00:12:01.000 --> 00:12:04.000 Nechceli robiť "their best", robili "their beft". 00:12:04.000 --> 00:12:07.000 Čo sa stalo, je, samozrejme, iba chyba. 00:12:07.000 --> 00:12:09.000 Nebola to snaha po priemernosti, 00:12:09.000 --> 00:12:12.000 išlo len o to, že "s" sa písalo odlišne, podobne ako "f." 00:12:12.000 --> 00:12:15.000 Samozrejme, Google o tom vtedy ešte nevedel, 00:12:15.000 --> 00:12:18.000 takže sme to reportovali v našom odbornom článku. 00:12:18.000 --> 00:12:20.000 Ale to je iba pripomienka, 00:12:20.000 --> 00:12:22.000 že aj keď je toto veľká zábava, 00:12:22.000 --> 00:12:24.000 pri interpretácii grafov musíte byť veľmi opatrní 00:12:24.000 --> 00:12:27.000 a používať základné vedecké pravidlá. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: Ľudia to používajú na všetky možné srandovné účely. 00:12:30.000 --> 00:12:37.000 (Smiech) 00:12:37.000 --> 00:12:39.000 Vskutku, nemusíme ani rozprávať, 00:12:39.000 --> 00:12:42.000 iba vám mlčky ukážeme všetky zostávajúce obrázky 00:12:42.000 --> 00:12:45.000 Túto osobu zaujímala história frustrácie. 00:12:45.000 --> 00:12:48.000 Existujú rôzne druhy frustrácie. 00:12:48.000 --> 00:12:51.000 Ak si prepichnete prst je to "argh" (ach) s jedným "a" 00:12:51.000 --> 00:12:53.000 Ak je planéta Zem anihilovaná Vogónmi 00:12:53.000 --> 00:12:55.000 za účelom uvoľnenia priestoru pre vesmírnu diaľnicu, 00:12:55.000 --> 00:12:57.000 je to "aaaaaaaargh" o ôsmich "a." 00:12:57.000 --> 00:12:59.000 Táto osoba skúmala všetky "argh", 00:12:59.000 --> 00:13:01.000 s jedným až ôsmimi "a" 00:13:01.000 --> 00:13:03.000 A ukazuje sa 00:13:03.000 --> 00:13:05.000 že menej frekventované "arghs" 00:13:05.000 --> 00:13:08.000 sú, samozrejme, tie, ktoré zodpovedajú veciam, ktoré sú frustrujúcejšie -- 00:13:08.000 --> 00:13:11.000 s výnimkou, prekvapujúco, začiatku 80-tych. 00:13:11.000 --> 00:13:13.000 Myslíme, že by to mohlo mať dočinenia s Reaganom. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Smiech) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Je veľa použití pre tieto dáta, 00:13:18.000 --> 00:13:21.000 ale najpodstatnejšie je, že historické záznamy sú digitalizované. 00:13:21.000 --> 00:13:23.000 Google začal s digitalizáciou 15 miliónov kníh. 00:13:23.000 --> 00:13:25.000 To je 12 percent všetkých kníh, ktoré kedy boli vydané. 00:13:25.000 --> 00:13:28.000 To predstavuje veľkú časť ľudskej kultúry. 00:13:28.000 --> 00:13:31.000 Kultúra je oveľa širšia: spadajú tam rukopisy, noviny, 00:13:31.000 --> 00:13:33.000 patria tam veci, ktoré nie sú textom, ako výtvarné umenie a maľby. 00:13:33.000 --> 00:13:35.000 Toto všetko bude na našich počítačoch, 00:13:35.000 --> 00:13:37.000 na počítačoch po celom svete. 00:13:37.000 --> 00:13:40.000 Až sa toto stane, transformuje to náš prístup 00:13:40.000 --> 00:13:42.000 k porozumeniu našej minulosti, prítomnosti a ľudstvu. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Ďakujeme veľmi pekne. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Potlesk)