Šta smo naučili iz 5 miliona knjiga

Edit subtitles

0:00 - 0:02

Erez Lieberman Aide: Svako zna
0:02 - 0:05

da jedna slika vrijedi hiljadu riječi.
0:07 - 0:09

Ali mi na Harvardu
0:09 - 0:12

smo se pitali da li je ovo stvarno tačno.
0:12 - 0:14

(Smijeh)
0:14 - 0:18

Stoga smo skupili tim eksperata,
0:18 - 0:20

iz Harvarda, MIT-a,
0:20 - 0:23

The American Heritage Dictionary, Enciklopedije Britannica,
0:23 - 0:25

i naših ponosnih sponzora,
0:25 - 0:28

Googlea.
0:28 - 0:30

Razmišljali smo o tome
0:30 - 0:32

oko 4 godine.
0:32 - 0:37

I došli smo do zapanjujućeg zaključka.
0:37 - 0:40

Dame i gospodo, slika ne vrijedi hiljadu riječi.
0:40 - 0:42

Zapravo, našli smo neke slike
0:42 - 0:47

koje vrijede 500 milijardi riječi.
0:47 - 0:49

Jean-Baptiste Michel: Kako smo došli do ovog zaključka?
0:49 - 0:51

Erez i ja smo razmišljali kako da pronađemo načine
0:51 - 0:53

da napravimo sliku ljudske kulture
0:53 - 0:56

i ljudske historije: promjenu tokom vremena.
0:56 - 0:58

Mnoštvo knjiga je napisano tokom godina.
0:58 - 1:00

Pa smo razmišljali da je najbolji način da se iz njih uči
1:00 - 1:02

jeste da pročitamo sve ove knjige.
1:02 - 1:05

Naravno, ako postoji skala fenomenalnosti,
1:05 - 1:08

mora biti jako, jako visoko.
1:08 - 1:10

Problem je što za to postoji X-osa,
1:10 - 1:12

stvarna osa.
1:12 - 1:14

Koja je veoma, veoma nisko.
1:14 - 1:17

(Aplauz)
1:17 - 1:20

Ljudi obično koriste drugi pristup,
1:20 - 1:22

uzmu par izvora i pažljivo ih čitaju.
1:22 - 1:24

Ovo je veoma praktično, ali nije tako fenomenalno.
1:24 - 1:27

Ono što zapravo želite postići
1:27 - 1:30

jeste fenomenalno, ali praktični dio ovog prostora.
1:30 - 1:33

Postoji kompanija koja se zove Google
1:33 - 1:35

i koja je prije nekoliko godina krenula sa digitalizacijom
1:35 - 1:37

koja bi pomogla ovom pristupu.
1:37 - 1:39

Digitalizirali su milione knjiga.
1:39 - 1:42

To znači da možemo kompjuterski
1:42 - 1:44

pročitati sve knjige u samo jednom kliku.
1:44 - 1:47

To je veoma praktično i fenomenalno.
1:48 - 1:50

ELA: Dozvolite mi da nešto kažem o tome odakle su potjekle knjige.
1:50 - 1:53

Od prastarih vremena, postojali su autori.
1:53 - 1:56

Ovi autori su težili da pišu knjige.
1:56 - 1:58

Ovo je postalo znatno lakše
1:58 - 2:00

od kada se, prije nekoliko stoljeća, pojavila mašina za štampanje.
2:00 - 2:03

Od tada, autori su
2:03 - 2:05

objavili oko 129 miliona
2:05 - 2:07

knjiga.
2:07 - 2:09

Ako se ove knjige nisu izgubile u prošlosti,
2:09 - 2:11

onda su negdje u knjižari,
2:11 - 2:14

a mnoge knjige su podizane iz bibilioteka
2:14 - 2:16

i digitalizovane od strane Goolgea,
2:16 - 2:18

koji je do sada skenirao 15 miliona knjiga.
2:18 - 2:21

Kada Google digitalizuje knjigu, stave je u veoma dobar format.
2:21 - 2:23

Sada imamo podatke i meta-podatke.
2:23 - 2:26

Imamo podatke o tome gdje je objavljena,
2:26 - 2:28

ko je autor, kada je objavljena.
2:28 - 2:31

I mi prelazimo sve ove podatke
2:31 - 2:35

i izbacujemo sve one podatke koji nisu kvalitetni.
2:35 - 2:37

Ono što nam preostaje je
2:37 - 2:40

kolekcija od 5 miliona knjiga,
2:40 - 2:43

500 milijardi riječi,
2:43 - 2:45

i niz slova, 1000 puta duži od
2:45 - 2:48

ljudskog genoma --
2:48 - 2:50

tekst koji, kada se ispiše,
2:50 - 2:52

bi se protezao do Mjeseca i nazad
2:52 - 2:54

10 puta --
2:54 - 2:58

prava krhotina našeg kulturnog genoma.
2:58 - 3:00

Naravno,
3:00 - 3:03

kada smo se suočili sa ovakvom nečuvenom hiperbolom...
3:03 - 3:05

(Smijeh)
3:05 - 3:08

uradili smo ono
3:08 - 3:11

što bi svaki istraživač uradio.
3:11 - 3:13

Uzeli smo stranicu iz XKCD,
3:13 - 3:15

i rekli, "Odmaknite se.
3:15 - 3:17

Isprobat ćemo nauku."
3:17 - 3:19

(Smijeh)
3:19 - 3:21

JM: Naravno, mislili smo,
3:21 - 3:23

hajmo prvo ubaciti podatke
3:23 - 3:25

koji bi ih iskoristili u nauci.
3:25 - 3:27

Razmišljali smo, koje podatke možemo obajaviti?
3:27 - 3:29

Naravno, želite objaviti
3:29 - 3:31

cijeli tekst ovih 5 miliona knjiga.
3:31 - 3:33

Google, a posebno Jon Orwant,
3:33 - 3:35

nam je pokazao jednu jednačinu koju trebamo znati.
3:35 - 3:38

Ako imate 5 miliona, tj., 5 miliona autora,
3:38 - 3:41

to znači 5 miliona tužilaca.
3:41 - 3:43

Iako bi to bilo veoma, veoma fenomenalno,
3:43 - 3:46

ipak je jako nepraktično.
3:46 - 3:48

(Smijeh)
3:48 - 3:50

Nekako smo popustili,
3:50 - 3:53

i krenuli smo praktični pristup, koji je bio malo manje fenomenalan.
3:53 - 3:55

Umjesto da objavljujemo cijeli tekst,
3:55 - 3:57

objavit ćemo statistiku o knjigama.
3:57 - 3:59

Uzmite naprimjer "Tračak sreće."
3:59 - 4:01

Ima četiri riječi; zovemo je četiri-grama.
4:01 - 4:03

Pokazat ćemo vam koliko puta se ona
4:03 - 4:05

pojavila u knjigama u 1801, 1802, 1803,
4:05 - 4:07

sve do 2008.
4:07 - 4:09

Tako znamo
4:09 - 4:11

koliko često se neka rečenica ponavljala tokom vremena.
4:11 - 4:14

Uradili smo to za sve riječi i fraze koje se pojavljuju u ovim knjigama,
4:14 - 4:17

i tako imamo tabelu od 2 milijarde redova
4:17 - 4:19

koji nam govore kako se kultura mijenjala.
4:19 - 4:21

ELA: Te redove
4:21 - 4:23

zovemo 2 milijarde n-grama.
4:23 - 4:25

Šta nam oni govore?
4:25 - 4:27

Pojedinačni n-grami određuju kulturalne trendove.
4:27 - 4:29

Evo primjera.
4:29 - 4:31

Pretpostavimo da napredujem,
4:31 - 4:33

i sutra vam želim ispričati kako sam uradio.
4:33 - 4:36

Mogu reći, "Jučer sam napredovao."
4:36 - 4:39

Umjesto toga, mogu reći, "Jučer napredovah."
4:39 - 4:42

Koju riječ da koristim?
4:42 - 4:44

Kako da znam?
4:44 - 4:46

Od prije šest mjeseci,
4:46 - 4:48

stanje u ovom području je takvo
4:48 - 4:50

da biste mogli, naprimjer,
4:50 - 4:52

otići psihologu sa odličnom kosom,
4:52 - 4:54

i reći,
4:54 - 4:57

"Steve, ti si ekspert u nepravilnim glagolima.
4:57 - 4:59

Šta trebam uraditi?"
4:59 - 5:01

A on bi ti rekao, "Većina ljudi kaže napredova,
5:01 - 5:04

ali neki kažu napredovah."
5:04 - 5:06

Takođe ste znali, manje ili više,
5:06 - 5:09

da ako se vratite 200 godina unazad
5:09 - 5:12

i pitate državnika sa jednako dobrom kosom
5:12 - 5:15

(Smijeh)
5:15 - 5:17

"Tom, šta da kažem?"
5:17 - 5:19

On bi rekao, "Pa, u moje vrijeme, većina ljudi kaže napredovao,
5:19 - 5:22

a neki kažu napredovah."
5:22 - 5:24

Sada ću vam pokazati nepripremljene podatke.
5:24 - 5:28

Dvije kolone u tabeli sa 2 milijarde unosa.
5:28 - 5:30

Možete vidjeti frekvenciju godinu za godinom
5:30 - 5:33

za riječi "napredovao" i "napredovah".
5:34 - 5:36

Ovo je samo 2
5:36 - 5:39

od 2 milijarde kolona.
5:39 - 5:41

Čitav set podataka
5:41 - 5:44

je milijardu puta fenomenalniji od ovog slajda.
5:44 - 5:46

(Smijeh)
5:46 - 5:50

(Aplauz)
5:50 - 5:52

JM: Ima drugih slika koje vrijede 500 milijardi riječi.
5:52 - 5:54

Naprimjer, ova.
5:54 - 5:56

Ako uzmemo gripu,
5:56 - 5:58

vidjećete razdoblja kada je poznato
5:58 - 6:01

da je epidemija gripe ubijala ljude širom planete.
6:01 - 6:04

ELA: Ako još niste uvjereni,
6:04 - 6:06

nivo mora se povećava,
6:06 - 6:09

kao i nivo CO2 u atmosferi i globalna temperatura.
6:09 - 6:12

JM: Pogledajte ovaj n-gram,
6:12 - 6:15

koji pokazuje Nietzscheu da Bog nije mrtav,
6:15 - 6:18

iako se morate složiti da on bi mu dobro došao bolji publicist.
6:18 - 6:20

(Smijeh)
6:20 - 6:23

ELA: Možete posmatrati neke vrlo abstraktne koncepte.
6:23 - 6:25

Naprimjer, dopustite da vam kažem nešto
6:25 - 6:27

o godini 1950-toj.
6:27 - 6:29

Tokom čitave prošlosti, poprilično
6:29 - 6:31

nikome nije bilo stalo do godine 1950.
6:31 - 6:33

U 1700, 1800, i 1900.
6:33 - 6:36

nikome nije bilo stalo.
6:37 - 6:39

Kroz 30-te i 40-te,
6:39 - 6:41

nikome nije bilo stalo.
6:41 - 6:43

Najednom, sredinom 40-tih,
6:43 - 6:45

počela je galama.
6:45 - 6:47

Ljudi su shvatili da će se desiti 1950 godina,
6:47 - 6:49

i da bi mogla biti važna.
6:49 - 6:52

(Smijeh)
6:52 - 6:55

Ali nikada se ljudi nisu više zainteresirali za godinu 1950.
6:55 - 6:58

kao u godini 1950.
6:58 - 7:01

(Smijeh)
7:01 - 7:03

Ljudi su opsjednuto hodali uokolo.
7:03 - 7:05

Nisu mogli prestati pričati
7:05 - 7:08

o stvarima koje su radili godine 1050.,
7:08 - 7:11

i o stvarima koje su planirali raditi godine 1950.
7:11 - 7:16

o snovima koje su htjeli ostvariti godine 1950.
7:16 - 7:18

Zapravo, godina 1950 bila je tako fascinantna
7:18 - 7:20

da su godinama nakon,
7:20 - 7:23

ljudi nastavili pričati o svim zapanjujućim stvarima koje su se desile,
7:23 - 7:25

godine 1951, '52, '53.
7:25 - 7:27

Napokon 1954.,
7:27 - 7:29

neko je shvatio
7:29 - 7:33

da je 1950. nekako zastarijela.
7:33 - 7:35

(Smijeh)
7:35 - 7:37

I samo tako, balon je pukao.
7:37 - 7:39

(Smijeh)
7:39 - 7:41

Priča o godini 1950.
7:41 - 7:43

je priča o svakoj godini koju smo zabilježili,
7:43 - 7:46

a malim preokretom, jer sada imamo ove lijepe grafikone.
7:46 - 7:49

I zbog toga što imamo ove grafikone, možemo da mjerimo stvari.
7:49 - 7:51

Možemo reći, "Kako brzo balon može da pukne?"
7:51 - 7:54

Ispostavilo se da to možemo veoma precizno da izmjerimo.
7:54 - 7:57

Jednačine su izvedene, grafikoni su napravljeni,
7:57 - 7:59

i jednostavan rezultat
7:59 - 8:02

je taj da balon buca sve brže
8:02 - 8:04

kako godine prolaze.
8:04 - 8:09

Sve brže gubimo interes za prošlost.
8:09 - 8:11

JM: Sada ću vam dati jedan mali savjet u vezi odabira karijere.
8:11 - 8:13

Za one koji žele postati poznati,
8:13 - 8:15

saznali smo od 25 najpoznatijih političkih figura,
8:15 - 8:17

pisaca, glumaca i tako dalje.
8:17 - 8:20

Ako želite rano postati poznat, trebali ste biti glumac,
8:20 - 8:22

jer u tom slučaju slava počinje da raste krajem vaših 20-tih godina --
8:22 - 8:24

još uvijek ste mladi, što je sjajno.
8:24 - 8:26

Ako možete čekati još malo, onda bi ste trebali biti pisac,
8:26 - 8:28

jer onda slava doseže velike visine,
8:28 - 8:30

kao Mark Twain, naprimjer: on je veoma poznat.
8:30 - 8:32

Ali ako želite doseći sam vrh,
8:32 - 8:34

trebali bi ste odgoditi slavu
8:34 - 8:36

i, naravno, postati političar.
8:36 - 8:38

Ovako ćete postati popularni krajem vaših 50-tih godina,
8:38 - 8:40

i ostati veoma, veoma, poznati i nakon.
8:40 - 8:43

I naučnici postaju slavni kako stare.
8:43 - 8:45

Naprimejr, biolozi i fizičari
8:45 - 8:47

su obično poznati kao i glumci.
8:47 - 8:50

Jedina greška koju ne smijete napraviti jeste da postanete matematičar.
8:50 - 8:52

(Smijeh)
8:52 - 8:54

Ako to uradite,
8:54 - 8:57

možete pomisliti, "Super. Objavit ću najbolji rad u svojim 20-tim."
8:57 - 8:59

Ali pogodite, nikome zaista neće biti stalo.
8:59 - 9:02

(Smijeh)
9:02 - 9:04

ELA: Ima i nešto trezvenih bilješki
9:04 - 9:06

mešu n-gramima.
9:06 - 9:08

Naprimjer, ovo je put Marca Chagalla,
9:08 - 9:10

umjetnika rođenog 1887.
9:10 - 9:13

I ovo izgleda kao normalan put poznate osobe.
9:13 - 9:17

On postaje sve poznatiji,
9:17 - 9:19

osim ako gledate na njemačkom.
9:19 - 9:21

Na njemačkom, postoji nešto veoma bizarno,
9:21 - 9:23

nešto što se skoro nikada ne može vidjeti,
9:23 - 9:25

a to je da on postaje strašno poznat
9:25 - 9:27

i onda najednom njegova popularnost snažno se penje,
9:27 - 9:30

i doseže nebeske visine između 1933 i 1945.,
9:30 - 9:33

prije se ponovo vraća.
9:33 - 9:35

Naravno, vidimo
9:35 - 9:38

da je Marc Chagall bio jevrejski umjetnih
9:38 - 9:40

u nacističkoj Njemačkoj.
9:40 - 9:42

Ovi signali
9:42 - 9:44

su zapravo tako jaki
9:44 - 9:47

da ne moramo znati da je neko cenzurisan.
9:47 - 9:49

Možemo zapravo shvatiti
9:49 - 9:51

procesuirajući jednostavne signale.
9:51 - 9:53

Evo jednostavnog načina za to.
9:53 - 9:55

Logično je očekivati
9:55 - 9:57

da nečija slava u datom preiodu
9:57 - 9:59

bi trebala otprilike biti prosjek njihove slave prije
9:59 - 10:01

i slave poslije.
10:01 - 10:03

Takvo nešto mi očekujemo.
10:03 - 10:06

I poredimo to sa slavom koju mi posmatramo.
10:06 - 10:08

I jednostavno podijelimo jedno sa drugim
10:08 - 10:10

da bismo dobili nešto što nazivamo indeks zabrane.
10:10 - 10:13

Ako je indeks veoma, veoma, veoma mali,
10:13 - 10:15

onda možda ste zabranjeni.
10:15 - 10:18

Ako je veoma veliki, onda možda imate korist od propagande.
10:19 - 10:21

JM: Možete zapravo posmatrati
10:21 - 10:24

distribuciju indeksa zabrane čitave populacije.
10:24 - 10:26

Naprimjer, ovdje --
10:26 - 10:28

indeks zabrane za 5,000 ljudi
10:28 - 10:30

odabranih iz engleskih udžbenika gdje nema zabrana --
10:30 - 10:32

izgledalo bi ovako, usko centrirani na jedan.
10:32 - 10:34

Ono što očekujete je jednostavno ono što posmatrate.
10:34 - 10:36

Ovo je rasprostranjenost posmatrana u Njemačkoj --
10:36 - 10:38

veoma različita, pomjerena u lijevo.
10:38 - 10:41

Ljudi su o tome govorili dva puta manje nego što je trebalo.
10:41 - 10:43

Ali što je najvažnije, rasprostranjenost je mnogo šira.
10:43 - 10:46

Mnogo je ljudi koji završe na krajnje lijevoj tački rasprostranjenosti
10:46 - 10:49

o kojima se govori 10 puta manje nego što bi trebalo.
10:49 - 10:51

Ali i mnogi ljudi na krajnje desnoj tački
10:51 - 10:53

očigledno imaju korist od propadande.
10:53 - 10:56

Ova slika je znak cenzure.
10:56 - 10:58

ELA: Kulturomija
10:58 - 11:00

je naziv ove naše metode.
11:00 - 11:02

Nešto je nalik genomiji.
11:02 - 11:04

Osim što je genomija uvid u bilogiju
11:04 - 11:07

kroz prozor slijeda baza u ljudskom genomu.
11:07 - 11:09

Kulturomija je slična.
11:09 - 11:12

To je primjena skupljanja podataka velikog uzorka
11:12 - 11:14

na ljudsku kulturu.
11:14 - 11:16

Umjesto kroz ljudski genom,
11:16 - 11:19

gleda se kroz digitalizirane historijske zapise.
11:19 - 11:21

Odlična stvar u vezi kulturonomije
11:21 - 11:23

je da svako to može uraditi.
11:23 - 11:25

Zašto je dostupna svima?
11:25 - 11:27

Zato što su tri čovjeka,
11:27 - 11:30

Jon Orwant, Matt Gray i Will Brockman iz Googlea,
11:30 - 11:32

su vidjeli prototip Ngram VIewera,
11:32 - 11:34

i rekli su, "Ovo je tako zabavno.
11:34 - 11:37

Moramo ovo pružiti ljudima."
11:37 - 11:39

Za ravno dvije sedmice -- dvije sedmice prije nego naš rad objavljen --
11:39 - 11:42

napravili su verziju Ngram Viewera za javnost.
11:42 - 11:45

Tako da sada možete ukucati bilo koju riječ ili frazu koja vas zanima
11:45 - 11:47

i odmah vidjeti njen n-gram --
11:47 - 11:49

i naći primjere iz ranih knjiga
11:49 - 11:51

u kojima se vaš n-gram spominje.
11:51 - 11:53

JM: Ngram Viewer
11:53 - 11:55

i ovo je najbolje od svih upita.
11:55 - 11:58

Ljudi žele najbolje, da urade najbolje što mogu.
11:58 - 12:01

Ali izgleda da ljudi u 18-tom stoljeću o tome nisu marili.
12:01 - 12:04

Nisu željeli uraditi najbolje, željeli su najbolje.
12:04 - 12:07

Desilo se, naravno, ovo je samo pogreška.
12:07 - 12:09

Nije da su težili prosjećnosti,
12:09 - 12:12

već se S pisalo drugačije, slično F.
12:12 - 12:15

Naravno, Google nije ovo izdvojio,
12:15 - 12:18

tako da smo ovo naveli u naučnom članku.
12:18 - 12:20

Ali ovo je ispalo kao podsjetnik
12:20 - 12:22

da, iako je ovo veoma zabavno,
12:22 - 12:24

kada tumačite ove grafikone, morate biti veoma pažljivi,
12:24 - 12:27

i morati primijeniti ove standarde u nauci.
12:27 - 12:30

ELA: Ljudi ovo koriste za razne zabavne svrhe.
12:30 - 12:37

(Smijeh)
12:37 - 12:39

Zapravo, ne moramo pričati,
12:39 - 12:42

samo ćemo vam u tišini pokazati sve slajdove.
12:42 - 12:45

Ovu osobu je interesovala historija frustracije.
12:45 - 12:48

Postoje razni tipovi fustracija.
12:48 - 12:51

Ako se udarite u nožni prst, to je jedno A "argh".
12:51 - 12:53

Ako planetu Zemlju nasele Vogonci
12:53 - 12:55

da naprave međuzvjezdanu zaobliaznicu,
12:55 - 12:57

to je osam A "aaaaaaaargh."
12:57 - 12:59

Ova osoba je istražila sve "arghove,"
12:59 - 13:01

od jednog pa do osam slova A.
13:01 - 13:03

I ispada
13:03 - 13:05

najrjeđi "arghovi"
13:05 - 13:08

su, naravno, oni koji se odnose na stvari koji više frustrirajuće --
13:08 - 13:11

osim, začudo, početkom 80-tih.
13:11 - 13:13

Možda to ima neke veze sa Reaganom.
13:13 - 13:15

(Smijeh)
13:15 - 13:18

JM: Ovi podaci se koriste u razne svrhe,
13:18 - 13:21

ali historijski zapisi se digitalizuju.
13:21 - 13:23

Google je počeo sa digitalizacijom 15 miliona knjiga.
13:23 - 13:25

To je 12 posto svih knjiga koje su izdate.
13:25 - 13:28

To je veliki dio ljudske kulture.
13:28 - 13:31

Tu su i rukopisi, novine,
13:31 - 13:33

tu su i materijali bez teksta, kao umjetnost i slike.
13:33 - 13:35

To je sve u našim kompjuterima,
13:35 - 13:37

i kompjuterima širom svijeta.
13:37 - 13:40

Kada se to desi, to će promijeniti način na koji
13:40 - 13:42

mi shvatamo prošlost, sadašnjost i ljudsku kulturu.
13:42 - 13:44

Hvala vam mnogo.
13:44 - 13:47

(Aplauz)

Title:: Šta smo naučili iz 5 miliona knjiga
Speaker:: Jean-Baptiste Michel + Erez Lieberman Aiden
Description:: Jeste li isprobali Google-ov Labs' Ngram Viewer? To je zarazna alatka koja vam omogućava da tražite riječi i ideje u bazi od 5 miliona knjiga iz različitih stoljeća. Erez Lieberman Aiden and Jean-Baptiste Michel nam pokazuju kako funkcioniše, i nekoliko začuđujućih stvari koje možemo naučiti iz 500 milijardi riječi.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:48

Samra Cebiric added a translation

Bosnian subtitles

Revisions

Revision 1

Samra Cebiric

Šta smo naučili iz 5 miliona knjiga

Revisions

Our website uses cookies

Operating cookies (Required)