Erez Lieberman Aiden: Každý vie,

že obrázok je hoden tisíc slov.

Ale my na Harvarde

sme sa zamysleli, či je to naozaj pravda.

(Smiech)

Zhromaždili sme teda tím odborníkov

z Harvardu, MIT,

The American Heritage Dictionary, Encyklopédie Britannica

a aj od našich hrdých sponzorov

z Googlu.

A uvažovali sme o tom

asi štyri roky.

A došli sme k prekvapujúcemu záveru.

Dámy a páni, obrázok nie je hoden tísíc slov.

V skutočnosti sme našli obrázky

hodné 500 miliárd slov.

Jean-Baptiste Michel: Takže, ako sme dospeli k tomuto záveru?

Erez a ja sme premýšľali o cestách

k získaniu celistvého obrazu o ľudskej kultúre

a ľudskej histórii: ich zmenách v priebehu času.

Tak veľa kníh bolo napísaných za všetky tie roky.

Takže sme si pomysleli: najlepší spôsob, ako sa z nich poučiť,

je prečítať všetky tieto milióny kníh.

Samozrejme, ak si predstavíme mieru úžasnosti niečoho takého,

toto musí bodovať veľmi, veľmi vysoko.

Problém je, že k tomu prislúcha aj X-ová os -

os praktičnosti.

Toto je veľmi, veľmi nízko.

(Potlesk)

Ľudia zvyknú používať alternatívny prístup,

vyberú zopár prameňov a prečítajú ich veľmi pozorne.

Toto je veľmi praktické, ale nie až také úžasné.

Čo naozaj chcete dosiahnuť,

je umiestniť sa do úžasnej, ešte však praktickej časti tohto priestoru.

Tak sa stalo, že kúsok cez rieku bola spoločnosť nazývaná Google,

ktorá pred pár rokmi začala digitalizačný projekt,

ktorý by akurát mohol umožniť takýto prístup.

Digitalizovali milióny kníh.

To znamená, že je možné použiť výpočtové metódy

na čítanie všetkých týchto kníh stlačením klávesy.

To je veľmi praktické a extrémne úžasné.

ELA: Dovoľte mi rozpovedať vám o tom, odkiaľ knihy prichádzajú.

Od nepamäti existovali spisovatelia.

Títo spisovatelia sa snažili písať kníhy.

A to sa im významne zjednodušilo

s rozvojom kníhtlače pred niekoľkými storočiami.

Odvtedy sa spisovateľom podarilo,

pri 129 miliónoch rôznych príležitostiach,

vydať knihu.

Ak sa tieto knihy nestratili v prúde času,

potom sú niekde v nejakej knižnici,

a mnoho z týchto kníh bolo získaných z týchto knižníc

a digitalizovaných v Google,

ktorý doteraz oskenoval 15 miliónov kníh.

Keď Google digitalizuje knihu, uložia ju do ozaj pekného formátu.

Máme dáta a navyše máme aj metadáta.

Máme informácie o veciach ako je miesto vydania,

autor, obdobie vydania.

A naša činnosť potom spočíva v prehliadaní týchto záznamov

a vylúčení všetkého, okrem dát najvyššej kvality.

Čo nám zostane,

je súbor piatich miliónov kníh,

500 miliárd slov,

reťazec znakov tisíckrát dlhší

než ľudský genóm --

text, ktorý, ak by sme ho napísali,

by sa tiahol odtiaľ na Mesiac a späť

10 krát --

ozajstný úlomok nášho kultúrneho genómu.

Samozrejme, čo sme urobili,

čeliac takejto hroznej hyperbole ...

(Smiech)

sme urobili to, čo

by býval urobil každý výskumník so štipkou sebaúcty.

Vybrali sme stránku z XKCD,

a riekli, "Ustúp.

Ideme vyskúšať vedu."

(Smiech)

JM: Samozrejme, uvažovali sme,

skúsme my len najprv zverejniť dáta,

pre ostatných nech si na tom robia vedu.

A tak uvažujeme, ktoré dáta môžeme zverejniť?

Samozrejme, chcete vziať knihy

a vydať plný text týchto piatich miliónov kníh.

Google a osobitne Jon Orwant,

nám ukázali malú rovnicu, ktorú sme sa museli naučiť.

Vezmite päť miliónov kníh, to znamená päť miliónov autorov

a päť miliónov žalobcov a máte masívny súdny proces.

Takže, aj keď by to bolo veľmi, veľmi úžasné,

opäť, extrémne, extrémne nepraktické.

(Smiech)

Opäť sme to svojim spôsobom vyriešili

a zvolili sme veľmi praktický prístup, ktorý bol o kúsok menej úžasný.

Povedali sme si, namiesto zverejnenia plného textu

zverejníme štatistické informácie o knihách.

Napríklad "A gleam of happiness" ("Záblesk šťastia").

To sú štyri slová: nazývame to štyr-gram.

Povieme vám, koľkokrát sa určitý štyr-gram

objavuje v knihách v rokoch 1801, 1802, 1803,

až do roku 2008.

To nám dáva časovú závislosť

frekvencie použitia určitej vety v priebehu času.

Urobíme to pre všetky slová a frázy, ktoré sa objavujú v týchto knihách

a to nám dáva veľkú tabuľku s dvoma miliardami riadkov,

ktorá nám hovorí a cestách kultúrnych zmien.

ELA: Teda tie dve miliardy riadkov,

nazývame ich dve miliardy n-gramov.

Čo nám hovoria?

Individuálne n-gramy sú mierou kultúrnych trendov.

Dovoľte mi uviesť vám jeden príklad.

Predpokladajme, že je mi skvele,

a potom zajtra vám chcem povedať, ako dobre mi bolo.

A teda by som mohol povedať "Včera som si voľkal."

Alternatívne by som mohol povedať "Včara som sa tešil."

Ktorý z nich by som mal použiť?

Ako sa rozhodnúť?

Už približne šesť mesiacov

špičkový prístup v tejto oblasti

je, že by ste, napríklad,

navštívili nasledujúceho psychológa s úžasným účesom,

a riekli by ste,

"Steve, vy ste expert na nepravidelné slovesá.

Čo by som mal robiť?"

A on by vám povedal, "Väčšina ľudí hovorí tešiť sa,

ale niektorí ľudia hovoria voľkať si."

A tiež ste vedeli, viac-menej,

že, ak by ste sa presunuli späť v čase o 200 rokov

a opýtali sa nasledujúceho štátnika s rovnako úžasným účesom:

(Smiech)

"Tom, čo by som mal povedať?"

On by odpovedal, "Za mojich čias, väčšina ľudí používala voľkať si,

no niektorí používali tešiť sa."

Takže to, čo vám teraz ukážem sú iba holé dáta.

Dva riadky z tabuľky s dvoma miliardami záznamov.

To, čo vidíte je frekvencia výskytu, rok za rokom,

"tešiť sa" a "voľkať si" v priebehu času.

Toto sú iba dva

z dvoch miliárd riadkov.

Takže, celý set dát

je miliardukrát úžasnejší než tento obrázok.

(Smiech)

(Potlesk)

JM: Je mnoho ďalších obrázkov, ktoré sú hodné 500 miliárd slov.

Napríklad tento.

Ak vezmete slovo influenza,

spozorujete zvýšený výskyt v časoch, o ktorých je známe,

že chrípkové epidémie práve zabíjali ľudí po svete.

ELA: Ak ešte nie ste presvedčení,

hladiny morí stúpajú,

rovnako aj atmosférický CO2 a globálna teplota.

JM: Mohol by vás zaujímať aj tento partikulárny n-gram,

ktorý Nietzschemu hovorí, že Boh nie je mŕtvy,

aj keď by ste mohli súhlasiť, že by sa mu hodil lepší PR manažér.

(Smiech)

ELA: S touto vecičkou môžete dospieť k pekne abstraktným konceptom.

Napríklad, dovoľte mi rozpovedať vám históriu

roku 1950.

Podstatnú väčšinu dejín,

nikto na rok 1950 ani nekýchol

v rokoch 1700, 1800, 1900,

nik sa nezaujímal.

V priebehu 30-tych a 40-tych,

sa nik nezaujímal.

Zrazu, v polovici 40-tych

nastal šum.

Ľudia si uvedomili, že rok 1950 prichádza

a mohol by byť veľkolepý.

(Smiech)

Avšak nič ľudí nezaujalo počas roku 1950,

tak, ako rok 1950.

(Smiech)

Ľudia chodili ako posadnutí.

Nemohli prestať hovoriť

o všetkom, čo robili počas roku 1950,

všetkom, čo plánovali robiť v roku 1950,

všetkých snoch, ktoré si chceli splniť v roku 1950.

Fakticky, rok 1950 bol taký fascinujúci,

že celé roky potom

ľudia jednoducho ďalej hovorili o všetkých úžasných veciach, ktoré sa udiali.

v rokoch 51, 52, 53.

Konečne, v roku 1954

sa ktosi prebral a nahliadol,

že rok 1950 je akosi passé.

(Smiech)

A takto bublina spľasla.

(Smiech)

A príbeh roku 1950,

je príbehom každého roku, o ktorom máme záznamy.

s malým háčikom, pretože teraz máme tieto pekné tabuľky.

A pretože máme tieto pekné tabuľky, môžeme veci merať.

Môžeme sa opýtať: "Hm, ako rýchlo bublina spľasne?"

A ukazuje sa, že to môžeme merať veľmi presne.

Rovnice boli odvodené, grafy vytvorené,

a výsledok je,

že bubliny spľasnú rýchlejšie a rýchlejšie

každým odchádzajúcim rokom.

Záujem o minulosť strácame rýchlejšie.

JM: Teraz malá rada ku kariérnemu rastu.

Takže pre tých z vás, ktorí chcú byť slávni,

sa môžeme poučiť od 25 najznámejších politikov,

spisovateľov, hercov a tak ďalej.

Takže ak sa chcete stať slávnym čo najskôr, mali by ste byť hercom,

pretože potom vaša sláva začne rásť ešte pred tridsiatkou --

ste ešte mladý, je to ozaj super.

Ak môžete chvíľu počkať, staňte sa spisovateľom,

pretože potom môžete dosiahnuť k výšinám,

ako Mark Twain, napríklad: extrémne slávny.

Ale ak chcete naozaj na vrchol,

mali by ste odložiť príjemnosti

a samozrejme, stať sa politikom.

Takže tu sa stávate slávnym pred vašou šesťdesiatkou,

a následne sa stávate veľmi, veľmi slávnym.

Vedci sa k sláve dostávajú ako omnoho starší.

Tak napríklad, biológovia a fyzici

sú takmer takí slávni ako herci.

Chyby, ktorej by ste sa mali vyvarovať je stať sa matematikom.

(Smiech)

Ak to urobíte,

môžete si myslieť: "Ó, skvelé, do tridsiatky urobím svoju najlepšiu prácu."

Ale hádajte čo? Nikoho to nebude naozaj zaujímať.

(Smiech)

ELA: N-gramy prinášajú

ešte viac vytriezvujúcich poznatkov.

Napríklad tu je trajektória Marca Chagalla,

umelca narodeného v roku 1887.

A toto vyzerá ako normálna trajektória slávnej osoby.

Stáva sa slávnejším a slávnejším,

s výnimkou, ak hľadáte v nemčine.

Ak hľadáte v nemčine, uvidíte niečo úplne zvláštne,

niečo, čo sa takmer nikdy neobjaví,

teda, že sa stáva extrémne slávnym

a potom z ničoho nič zmizne,

prechádzajúc úplným minimom medzi rokmi 1933 a 1945,

a následne opätovne narastajúc.

Samozrejme, to, čo vidíme,

je skutočnosť, že Marc Chagall bol židovským umelcom

v nacistickom Nemecku.

Tieto signály

sú v skutočnosti také silné,

že nepotrebujeme vedieť, či bol niekto cenzúrovaný.

Môžeme na to jednoducho prísť

použitím naozaj základného spracovania signálov.

Tu je jednoduchý spôsob, ako to urobiť.

Je rozumné predpokladať,

že sláva danej osoby počas istého časového úseku,

by mala byť približne priemerom jej slávy pred

a slávy po ňom.

Takže očakávame takéto niečo.

A porovnáme to so slávou, ktorú pozorujeme.

A jednoducho vydelíme jednu druhou,

aby sme dostali niečo, čo nazývame index supresie.

Ak je index supresie veľmi, veľmi, veľmi malý,

potom je dosť možné, že ste potláčaný.

Ak je veľmi veľký, je možné, že si pomáhate propagandou.

JM: Vskutku sa môžete pozrieť na

distribúciu indexov supresie cez celé populácie.

Napríklad, tu --

tento index supresie je vyrátaný pre 5000 ľudí

vybraných v anglických knihách. Kde nie je žiadna supresia --

vyzeralo by to takto, tesne centrované okolo jednotky.

Čo očakávate, je, v podstate, to, čo pozorujete.

Toto je distribúcia pozorovaná v Nemecku --

veľmi rozdielna, je posunutá doľava.

Ľudia o tom hovorili asi dvakrát menej ako by sa dalo očakávať,

ale čo je ešte dôležitejšie, distribúcia je oveľa širšia.

Je mnoho ľudí, ktorý skončia na ľavom konci tejto distribúcie,

o ktorých sa hovorí asi 10 ráz menej, než by sa malo.

Ale tiež mnoho ľudí na pravom konci,

ktorým, zdá sa, pomáha propaganda.

Tento obrázok predstavuje etalón cenzorstva v knižných záznamoch.

ELA: Takže kulturonómia

je termín, ktorý používame pre túto metódu.

Je podobná genomike.

Zatiaľ, čo genomika je objektívom biológie

cez okno sekvencie ľudského genómu,

kulturonómia je podobná.

Je to aplikácia analýzy dát masívneho rozsahu

pre štúdium ľudskej kultúry.

Tu je genóm nahradený

objektívom digitalizovaných historických záznamov.

Skvelé na kulturonómii

je, že ju môže robiť každý.

Prečo každý?

Môže ju robiť ktokoľvek, pretože traja chlapíci,

Jon Orwant, Matt Gray a Will Brockman z Google

sa pozreli na prototyp Ngram Viewer

a povedali si, "Toto je taká zábava,

musíme ju sprístupniť ľuďom!"

Takže za dva týždne - dva týždne pred vydaním nášho článku -

naprogramovali verziu Ngram Viewer-u pre verejnosť.

Takže teraz môžete vpísať akékoľvek slovo alebo frázu, ktorá vás zaujíma

a okamžite vidieť príslušný N-gram,

a tiež prezerať príklady všetkých rôznych kníh,

v ktorých sa objavuje váš N-gram.

JM: Aplikácia bola použitá viac ako miliónkrát počas prvého dňa,

a toto je naozaj najlepší zo všetkých dotazov.

Takže ľudia sa snažia robiť všetko najlepšie ("their best") v službách pokroku.

Ale ukazuje sa, že v 18-tom storočí, sa o to nestarali vôbec.

Nechceli robiť "their best", robili "their beft".

Čo sa stalo, je, samozrejme, iba chyba.

Nebola to snaha po priemernosti,

išlo len o to, že "s" sa písalo odlišne, podobne ako "f."

Samozrejme, Google o tom vtedy ešte nevedel,

takže sme to reportovali v našom odbornom článku.

Ale to je iba pripomienka,

že aj keď je toto veľká zábava,

pri interpretácii grafov musíte byť veľmi opatrní

a používať základné vedecké pravidlá.

ELA: Ľudia to používajú na všetky možné srandovné účely.

(Smiech)

Vskutku, nemusíme ani rozprávať,

iba vám mlčky ukážeme všetky zostávajúce obrázky

Túto osobu zaujímala história frustrácie.

Existujú rôzne druhy frustrácie.

Ak si prepichnete prst je to "argh" (ach) s jedným "a"

Ak je planéta Zem anihilovaná Vogónmi

za účelom uvoľnenia priestoru pre vesmírnu diaľnicu,

je to "aaaaaaaargh" o ôsmich "a."

Táto osoba skúmala všetky "argh",

s jedným až ôsmimi "a"

A ukazuje sa

že menej frekventované "arghs"

sú, samozrejme, tie, ktoré zodpovedajú veciam, ktoré sú frustrujúcejšie --

s výnimkou, prekvapujúco, začiatku 80-tych.

Myslíme, že by to mohlo mať dočinenia s Reaganom.

(Smiech)

JM: Je veľa použití pre tieto dáta,

ale najpodstatnejšie je, že historické záznamy sú digitalizované.

Google začal s digitalizáciou 15 miliónov kníh.

To je 12 percent všetkých kníh, ktoré kedy boli vydané.

To predstavuje veľkú časť ľudskej kultúry.

Kultúra je oveľa širšia: spadajú tam rukopisy, noviny,

patria tam veci, ktoré nie sú textom, ako výtvarné umenie a maľby.

Toto všetko bude na našich počítačoch,

na počítačoch po celom svete.

Až sa toto stane, transformuje to náš prístup

k porozumeniu našej minulosti, prítomnosti a ľudstvu.

Ďakujeme veľmi pekne.

(Potlesk)