Erez Lieberman Aiden: Svi znaju
da slika vrijedi tisuću riječi.
No, mi smo se na Harvardu
zapitali je li to stvarno istina.
(Smijeh)
Tako smo okupili tim stručnjaka,
koji obuhvaća ljude na Harvardu i MIT-u,
one koji rade na rječniku American Heritage i Encyclopediji Britannici,
čak i naše ponosne sponzore,
Google.
Razmišljali smo o tome
oko četiri godine
i došli smo do začuđujućeg zaključka.
Dame i gospodo, slika ne vrijedi tisuću riječi.
Čak smo pronašli neke slike
koje vrijede 500 milijardi riječi.
Jean-Baptiste Michel: Kako smo došlo do tog zaključka?
Erez i ja razmišljali smo o načinima
na koje bismo mogli steći općenitu sliku ljudske kulture
i ljudske povijesti: promjene kroz vrijeme.
Kroz vrijeme je zapravo napisano mnogo knjiga.
Stoga smo mislili kako je najbolji način da nešto naučimo iz njih
taj da pročitamo sve te milijune knjiga.
Naravno, ako postoji ljestvica za mjerenje koliko je to fenomenalno,
tako nešto mora biti rangirano vrlo, vrlo visoko.
Problem je što za to postoji os x
ili praktična os.
Na njoj se to nalazi vrlo, vrlo nisko.
(Pljesak)
Ljudi su skloni primjenjivanju alternativnog pristupa,
a to je da izaberu nekoliko izvora i njih pročitaju vrlo pažljivo.
To je vrlo praktično, ali nije baš fenomenalno.
Ono što zapravo želite
jest doći do dijela koji je i fenomenalan i praktičan.
Ispada da s druge strane rijeke postoji tvrtka koja se zove Google,
koja je prije nekoliko godina počela s projektom digitalizacije
koji bi mogao omogućiti upravo ovaj pristup.
Digitalizirali su milijune knjiga.
A to znači da se možemo služiti računalnim metodama
kako bismo sve knjige pročitali pritiskom na tipku.
To je vrlo praktično i poprilično fenomenalno.
ELA: Ispričat ću vam malo o tome odakle dolaze knjige.
Od pamtivijeka postoje autori.
Oni teže tome da pišu knjige.
To je postalo znatno lakše
s razvojem tehnike tiskanja prije nekoliko stoljeća.
Od tada su autori pobijedili
129 milijuna puta
i objavili su knjige.
Ako se te knjige s vremenom nisu izgubile,
znači da su negdje u nekoj knjižnici.
Mnoge od tih knjiga izvučene su iz knjižnica
i Google ih je digitalizirao.
Do danas je skenirano 15 milijuna knjiga.
Kad Google digitalizira knjigu, stavlja ju u zaista zgodan format.
Imamo podatke, a imamo i metapodatke.
Imamo informacije o stvarima kao što su mjesto izdavanja,
ime autora, datum izdavanja.
I mi tada prolazimo kroz sve te zapise
i izostavljamo sve što nisu podaci najviše kvalitete.
Ono što nam ostaje
zbirka je od pet milijuna knjiga,
500 milijardi riječi,
niz likova koji je tisuću puta dulji
od ljudskog genoma --
tekst koji bi, kad bi se ispisao,
protezao 10 puta odavde do Mjeseca
i natrag --
zaista tek djelić našeg kulturnog genoma.
Naravno, ono što smo učinili,
kad smo se suočili s tako skandaloznom hiperbolom...
(Smijeh)
bilo je isto što bi učinili bilo koji istraživači
koji drže do sebe.
Uzeli smo jednu stranicu s XKCD-a
i rekli: "Odmaknite se!
Pokušat ćemo nešto znanstveno!"
(Smijeh)
JM: Naravno, mislili smo,
hajdemo prvo omogućiti pristup podacima
kako bi ih ljudi mogli znanstveno promotriti.
Razmišljali smo kojim podacima možemo omogućiti pristup?
Naravno, želite uzeti te knjige
i omogućiti pristup kompletnom tekstu tih pet milijuna knjiga.
Google, a pogotovo Jon Orwant,
pokazali su nam malu jednadžbu koju smo morali naučiti.
Imate pet milijuna knjiga, odnosno pet miljuna autora
i pet milijuna tužitelja u masovnoj tužbi.
Dakle, iako bi to bilo stvarno, stvarno fenomenalno,
to je opet vrlo, vrlo nepraktično.
(Smijeh)
Opet smo popustilli
i primijenili vrlo praktičan pristup, koji je bio nešto manje fenomenalan.
Rekli smo, umjesto da omogućimo pristup kompletnom tekstu,
omogućit ćemo pristup statistikama o knjigama.
Uzmite primjerice "tračak sreće" (a gleam of happiness).
To su četiri riječi i to zovemo četverogram.
Reći ćemo vam koliko se puta određeni četverogram
pojavio u knjigama 1801., 1802., 1803. godine,
i tako sve do 2008.
Tako dobivamo vremenski niz
učestalosti korištenja određene rečenice kroz vrijeme,
To smo napravili za sve riječi i izraze koji se pojavljuju u tim knjigama,
što nam daje veliku tablicu od dvije milijarde redaka
koji nam prikazuju način na koji se kultura mijenja.
ELA: Te dvije milijarde redaka
zovemo dvije milijarde n-grama.
Što nam oni govore?
Pojedinačni n-grami mjere kulturne trendove.
Dat ću vam primjer.
Pretpostavimo da ja težim nečemu (thrive),
a sutra vam želim ispričati koliko sam bio uspješan.
Mogao bih koristiti oblik za prošlo vrijeme "throve",
a mogao koristiti i oblike "thrived".
Koji bih trebao koristiti?
Kako to znati?
Prije otprilike šest mjeseci,
najsuvremeniji podaci u tom polju
kažu da biste, primjerice,
otišli do ovog psihologa fantastične kose
i rekli biste:
"Steve, ti si stručnjak za nepravilne glagole.
Što da radim?"
A on bi vam rekao: "Pa, većina ljudi koristi "thrived",
ali neki ljudi kažu "throve".
A znali biste i, više-manje,
da kad biste se vratili 200 godina u prošlost
i pitali ovog državnika jednako fantastične kose,
(Smijeh)
"Tome, kako bih trebao govoriti?"
On bi vam rekao: "Pa, u moje vrijeme većina je ljudi koristila "throve",
ali neki su koristili "thrived".
Sad ću vam pokazati samo sirove podatke.
Dva reda iz ove tablice od dvije milijarde unosa.
Sada gledate učestalost godinu za godinom
korištenja "thrived" i "throve" kroz vrijeme.
Dakle, to su samo dva reda
od dvije milijarde redova.
Ukupan skup podataka
milijardu je puta fenomenalniji od ovog slajda.
(Smijeh)
(Pljesak)
JM: Postoji mnogo drugih slika koje vrijede 500 milijardi riječi.
Na primjer, ova ovdje.
Ako uzmete samo gripu,
vidjet ćete vrhove u vrijeme za koje znate
da su velike epidemije tada ubijale ljude u cijelom svijetu.
ELA: Ako vam treba još dokaza,
diže se razina mora,
kao i CO2 i temperatura u svijetu.
JM: Možda ne bi bilo loše da pogledate i ovaj konkretni n-gram,
koji govori Nietzscheu da Bog nije mrtav,
iako se možda slažete da bi mu trebao bolji izdavač.
(Smijeh)
ELA: Na ovaj način možete dobiti prilično apstraktne koncepte.
Na primjer, ispričat ću vam priču
o 1950. godini.
Veliki dio povijesti,
nikoga nije bilo briga za 1950. godinu.
1700. godine, 1800., 1900.,
nikoga nije bilo briga.
30-ih i 40-ih godina,
nikoga nije bilo briga.
Odjednom, sredinom 40-ih,
počelo se brujati o tome.
Ljudi su shvatili da će doći 1950. godina
i da bi mogla biti važna.
(Smijeh)
Ali ništa nije ljude zainteresiralo za 1950. godinu
kao 1950. godina.
(Smijeh)
Ljudi su hodali uokolo opsjednuti.
Nisu mogli prestati govoriti
o svim stvarima koje su učinili 1950. godine,
o svim stvarima koje planiraju učiniti 1950. godine,
o svim snovima koje žele ostvariti 1950. godine.
Zapravo, 1950. godina bila je toliko fascinantna
da su i godinama kasnije
ljudi i dalje govorili o fantastičnim stvarima koje su se dogodile,
'51., '52., '53.
Na kraju, 1954. godine,
netko se otrijeznio i shvatio
da je 1950. godina postala passé.
(Smijeh)
I tako se iznenada mjehurić rasprsnuo.
(Smijeh)
Priča o 1950. godini
priča je o svakoj godini koju smo zabilježili,
s malom razlikom, jer sad imamo ove krasne grafove.
A budući da imamo te krasne grafove, možemo mjeriti razne stvari.
Možemo pitati: "Koliko će se brzo mjehurić rasprsnuti?"
Ispada da to možemo vrlo precizno izmjeriti.
Jednadžbe su se derivirale, grafovi su se crtali,
a ukupni rezultat
jest taj da smo otkrili da se mjehurić rasprsne sve brže
sa svakom godinom koja prođe.
Sve brže gubimo zanimanje za prošlost.
JM: A sad mali savjet o odabiru karijere.
Oni među vama koji žele biti slavni
mogu ponešto naučiti od 25 najpoznatijih političkih ličnosti,
pisaca, glumaca i drugih.
Dakle, ako želite rano postati slavni, trebate postati glumac
jer tada postajete slavni do kraja svojih 20-ih godina --
još uvijek ste mladi i to je odlično.
Ako možete malo čekati, trebali biste biti pisac
jer tada se možete vrlo visoko uzdignuti,
poput primjerice Marka Twaina, on je bio zaista slavan.
Ali ako želite dosegnuti sam vrh,
trebali biste odgoditi zadovoljstvo
i, naravno, postati političar.
U tom ćete slučaju postati poznati do kraja svojih 50-ih godina,
i ostati vrlo, vrlo poznati nakon toga.
Znanstvenici uglavnom, isto tako, postaju poznati kad ostare.
Biolozi i fizičari, primjerice,
znaju biti gotovo jednako slavni kao i glumci.
Trebate izbjeći samo jednu pogrešku - da postanete matematičar.
(Smijeh)
Ako to učinite,
možda ćete pomisliti: "Odlično, u 20-ima ću napraviti napraviti svoje najbolje radove."
No, znate što, nikoga neće biti briga.
(Smijeh)
ELA: Postoje i neke ozbiljnije činjenice
među n-gramima.
Primjerice, evo putanje Marca Chagalla,
umjetnika rođenog 1887. godine.
Ovo izgleda kao normalna putanja poznate osobe.
Postaje sve poznatiji i poznatiji,
osim ako gledate za njemački jezik.
Ako gledate za njemački, vidjet ćete nešto vrlo bizarno,
nešto što gotovo nikad ne vidite,
a to je da postaje iznimno poznat,
a nakon toga mu popularnost iznenada padne,
pri čemu su najniže točke bile između 1933. i 1945. godine,
nakon čega mu se opet vratila popularnost.
Naravno, on što zapravo vidimo
jest činjenica da je Marc Chagall bio židovski umjetnik
u nacističkoj Njemačkoj.
Ovi su signali
zapravo toliko jaki
da ne trebamo ni znati da su nekoga cenzurirali.
Zapravo to možemo zaključiti
koristeći osnovnu obradu znakova.
Evo jednostavnog načina kako to učiniti.
Razumno je za očekivati
da će nečija slava u određenom razdoblju
biti otprilike prosjek slave te osobe
prije i nakon tog razdoblja.
To je otprilike ono što mi očekujemo.
I to uspoređujemo sa slavom koju promatramo.
Samo podijelimo jedno drugim
kako bismo dobili takozvani indeks zabrane.
Ako je indeks zabrane vrlo, vrlo, vrlo malen,
onda ste vrlo vjerojatno bili zabranjeni.
Ako je vrlo velik, možda profitirate od propagande.
JM: Zapravo možete promatrati
raspored indeksa zabrane unutar populacija.
Na primjer, ovdje --
ovo je indeks zabrane za 5.000 ljudi
odabranih u engleskim knjigama u kojima nije zabilježeno zabranjivanje --
bilo bi ovako, usko centrirano oko jednog.
Ono što očekujete u biti je ono što i vidite.
Ovo je raspored za Njemačku --
vrlo različito, pomaknuto je ulijevo.
Ljudi su o tome razgovarali upola manje nego što su trebali.
No, mnogo je važnije da je raspored širi.
Ima mnogo ljudi koji su sasvim na lijevoj strani rasporeda
i o kojima se govori 10 puta manje nego što bi se trebalo.
Ali isto tako ima mnogo ljudi na sasvim desnoj strani
koji, izgleda, profitiraju od propagande.
Ova je slika glavni simbol cenzure u knjigama.
ELA: Dakle, kulturomika
jest ime koje smo dali ovoj metodi.
Nalikuje na genomiku.
Osim što je genomika pogled na biologiju,
pogled na slijed baza u ljudskom genomu.
Kulturomika je slična tome.
To je primjena analize ogromnog skupa podataka
na proučavanje ljudske kulture.
Ovdje, umjesto da promatramo genom,
promatramo digitalizirane dijelove povijesnih zapisa.
Ono što je odlično kod kulturomike
jest to da se svi mogu njome baviti.
Zašto se svi mogu njome baviti?
Svi se mogu njome baviti jer su tri tipa,
Jon Orwant, Matt Gray i Will Brockman iz Googlea
vidjeli prototip preglednika Ngram
i rekli: "Ovo je tako zabavno.
Moramo ljudima omogućiti pristup tome."
Za samo dva tjedna -- dva tjedna prije nego nam je objavljen članak --
iskodirali su verziju pregledika Ngram za javnost.
Tako da i vi možete unijeti bilo koju riječ ili izraz koji vas zanima
i odmah vidjeti njegove n-grame --
isto tako možete pregledavati primjere iz svih knjiga
u kojima se pojavljuje vaš n-gram.
JM: Ovaj je preglednik korišten više od milijun puta prvog dana,
i ovo je zapravo najbolji od svih upita.
Ljudi žele dati sve od sebe, pokazati se u najboljem svijetlu.
Ali ispada da u 18. stoljeću ljudima uopće nije bilo stalo do toga.
Nisu željeli dati sve od sebe, željeli su dati fve od sebe.
Naravno, ovdje se radi samo o pogrešci.
Nije da su težili osrednjosti,
već se S prije pisao drugačije, pomalo nalik na F.
Naravno, Google to nije prepoznao
i to smo napomenuli u znanstvenom članku koji smo napisali.
No, ispada da je ovo samo podsjetnik da,
iako je ovo vrlo zabavno,
kad tumačite ove grafove, morate biti vrlo oprezni
i morate usvojiti ove temeljne znastvene standarde.
ELA: Ljudi ovo koriste za razne zabavne namjene.
(Smijeh)
Zapravo, ne moramo ni govoriti,
samo ćemo vam pokazati sve slajdove i šutjeti.
Ovu osobu je zanimala povijest frustracije.
Postoje različite vrste frustracija.
Kad se udarite u nožni prst, to je "argh" s jednim A.
Ako plant Zemlju unište Vogonci
kako bi napravili mjesta za međuzvjezdanu zaobilaznicu,
to je "aaaaaaaargh" s 8 A-ova.
Ova osoba proučava sve "arghove",
od jednog do 8 A-ova.
Ispada da su
manje učestali "arghovi"
naravno, oni koji odgovaraju stvarima koje izazivaju veću frustraciju --
osim, čudno, početkom 80-ih.
Mislimo da to možda ima veze s Reaganom.
(Smijeh)
JM: Ovi se podaci mogu koristiti za razne namjene,
ali ono što je bitno jest da se povijesni zapisi digitaliziraju.
Google je počeo digitalizirati 15 milijuna knjiga.
To je 12 posto svih knjiga koje su ikad izdane.
To je povelik dio ljudske kulture.
U kulturi ima još mnogo toga: rukopisi, novine,
postoje stvari koje nisu tekst, poput umjetnosti i slika.
To će sve biti na našim računalima,
na računalima u cijelome svijetu.
A kad se to dogodi, promijenit će se način na koji smo
shvaćali svoju prošlost, svoju sadašnjost i ljudsku kulturu.
Hvala vam puno.
(Pljesak)