WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aide: Svako zna 00:00:02.000 --> 00:00:05.000 da jedna slika vrijedi hiljadu riječi. 00:00:07.000 --> 00:00:09.000 Ali mi na Harvardu 00:00:09.000 --> 00:00:12.000 smo se pitali da li je ovo stvarno tačno. 00:00:12.000 --> 00:00:14.000 (Smijeh) 00:00:14.000 --> 00:00:18.000 Stoga smo skupili tim eksperata, 00:00:18.000 --> 00:00:20.000 iz Harvarda, MIT-a, 00:00:20.000 --> 00:00:23.000 The American Heritage Dictionary, Enciklopedije Britannica, 00:00:23.000 --> 00:00:25.000 i naših ponosnih sponzora, 00:00:25.000 --> 00:00:28.000 Googlea. 00:00:28.000 --> 00:00:30.000 Razmišljali smo o tome 00:00:30.000 --> 00:00:32.000 oko 4 godine. 00:00:32.000 --> 00:00:37.000 I došli smo do zapanjujućeg zaključka. 00:00:37.000 --> 00:00:40.000 Dame i gospodo, slika ne vrijedi hiljadu riječi. 00:00:40.000 --> 00:00:42.000 Zapravo, našli smo neke slike 00:00:42.000 --> 00:00:47.000 koje vrijede 500 milijardi riječi. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Kako smo došli do ovog zaključka? 00:00:49.000 --> 00:00:51.000 Erez i ja smo razmišljali kako da pronađemo načine 00:00:51.000 --> 00:00:53.000 da napravimo sliku ljudske kulture 00:00:53.000 --> 00:00:56.000 i ljudske historije: promjenu tokom vremena. 00:00:56.000 --> 00:00:58.000 Mnoštvo knjiga je napisano tokom godina. 00:00:58.000 --> 00:01:00.000 Pa smo razmišljali da je najbolji način da se iz njih uči 00:01:00.000 --> 00:01:02.000 jeste da pročitamo sve ove knjige. 00:01:02.000 --> 00:01:05.000 Naravno, ako postoji skala fenomenalnosti, 00:01:05.000 --> 00:01:08.000 mora biti jako, jako visoko. 00:01:08.000 --> 00:01:10.000 Problem je što za to postoji X-osa, 00:01:10.000 --> 00:01:12.000 stvarna osa. 00:01:12.000 --> 00:01:14.000 Koja je veoma, veoma nisko. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Aplauz) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Ljudi obično koriste drugi pristup, 00:01:20.000 --> 00:01:22.000 uzmu par izvora i pažljivo ih čitaju. 00:01:22.000 --> 00:01:24.000 Ovo je veoma praktično, ali nije tako fenomenalno. 00:01:24.000 --> 00:01:27.000 Ono što zapravo želite postići 00:01:27.000 --> 00:01:30.000 jeste fenomenalno, ali praktični dio ovog prostora. 00:01:30.000 --> 00:01:33.000 Postoji kompanija koja se zove Google 00:01:33.000 --> 00:01:35.000 i koja je prije nekoliko godina krenula sa digitalizacijom 00:01:35.000 --> 00:01:37.000 koja bi pomogla ovom pristupu. 00:01:37.000 --> 00:01:39.000 Digitalizirali su milione knjiga. 00:01:39.000 --> 00:01:42.000 To znači da možemo kompjuterski 00:01:42.000 --> 00:01:44.000 pročitati sve knjige u samo jednom kliku. 00:01:44.000 --> 00:01:47.000 To je veoma praktično i fenomenalno. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Dozvolite mi da nešto kažem o tome odakle su potjekle knjige. 00:01:50.000 --> 00:01:53.000 Od prastarih vremena, postojali su autori. 00:01:53.000 --> 00:01:56.000 Ovi autori su težili da pišu knjige. 00:01:56.000 --> 00:01:58.000 Ovo je postalo znatno lakše 00:01:58.000 --> 00:02:00.000 od kada se, prije nekoliko stoljeća, pojavila mašina za štampanje. 00:02:00.000 --> 00:02:03.000 Od tada, autori su 00:02:03.000 --> 00:02:05.000 objavili oko 129 miliona 00:02:05.000 --> 00:02:07.000 knjiga. 00:02:07.000 --> 00:02:09.000 Ako se ove knjige nisu izgubile u prošlosti, 00:02:09.000 --> 00:02:11.000 onda su negdje u knjižari, 00:02:11.000 --> 00:02:14.000 a mnoge knjige su podizane iz bibilioteka 00:02:14.000 --> 00:02:16.000 i digitalizovane od strane Goolgea, 00:02:16.000 --> 00:02:18.000 koji je do sada skenirao 15 miliona knjiga. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Kada Google digitalizuje knjigu, stave je u veoma dobar format. 00:02:21.000 --> 00:02:23.000 Sada imamo podatke i meta-podatke. 00:02:23.000 --> 00:02:26.000 Imamo podatke o tome gdje je objavljena, 00:02:26.000 --> 00:02:28.000 ko je autor, kada je objavljena. 00:02:28.000 --> 00:02:31.000 I mi prelazimo sve ove podatke 00:02:31.000 --> 00:02:35.000 i izbacujemo sve one podatke koji nisu kvalitetni. 00:02:35.000 --> 00:02:37.000 Ono što nam preostaje je 00:02:37.000 --> 00:02:40.000 kolekcija od 5 miliona knjiga, 00:02:40.000 --> 00:02:43.000 500 milijardi riječi, 00:02:43.000 --> 00:02:45.000 i niz slova, 1000 puta duži od 00:02:45.000 --> 00:02:48.000 ljudskog genoma -- 00:02:48.000 --> 00:02:50.000 tekst koji, kada se ispiše, 00:02:50.000 --> 00:02:52.000 bi se protezao do Mjeseca i nazad 00:02:52.000 --> 00:02:54.000 10 puta -- 00:02:54.000 --> 00:02:58.000 prava krhotina našeg kulturnog genoma. 00:02:58.000 --> 00:03:00.000 Naravno, 00:03:00.000 --> 00:03:03.000 kada smo se suočili sa ovakvom nečuvenom hiperbolom... 00:03:03.000 --> 00:03:05.000 (Smijeh) 00:03:05.000 --> 00:03:08.000 uradili smo ono 00:03:08.000 --> 00:03:11.000 što bi svaki istraživač uradio. 00:03:11.000 --> 00:03:13.000 Uzeli smo stranicu iz XKCD, 00:03:13.000 --> 00:03:15.000 i rekli, "Odmaknite se. 00:03:15.000 --> 00:03:17.000 Isprobat ćemo nauku." NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Smijeh) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Naravno, mislili smo, 00:03:21.000 --> 00:03:23.000 hajmo prvo ubaciti podatke 00:03:23.000 --> 00:03:25.000 koji bi ih iskoristili u nauci. 00:03:25.000 --> 00:03:27.000 Razmišljali smo, koje podatke možemo obajaviti? 00:03:27.000 --> 00:03:29.000 Naravno, želite objaviti 00:03:29.000 --> 00:03:31.000 cijeli tekst ovih 5 miliona knjiga. 00:03:31.000 --> 00:03:33.000 Google, a posebno Jon Orwant, 00:03:33.000 --> 00:03:35.000 nam je pokazao jednu jednačinu koju trebamo znati. 00:03:35.000 --> 00:03:38.000 Ako imate 5 miliona, tj., 5 miliona autora, 00:03:38.000 --> 00:03:41.000 to znači 5 miliona tužilaca. 00:03:41.000 --> 00:03:43.000 Iako bi to bilo veoma, veoma fenomenalno, 00:03:43.000 --> 00:03:46.000 ipak je jako nepraktično. 00:03:46.000 --> 00:03:48.000 (Smijeh) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Nekako smo popustili, 00:03:50.000 --> 00:03:53.000 i krenuli smo praktični pristup, koji je bio malo manje fenomenalan. 00:03:53.000 --> 00:03:55.000 Umjesto da objavljujemo cijeli tekst, 00:03:55.000 --> 00:03:57.000 objavit ćemo statistiku o knjigama. 00:03:57.000 --> 00:03:59.000 Uzmite naprimjer "Tračak sreće." 00:03:59.000 --> 00:04:01.000 Ima četiri riječi; zovemo je četiri-grama. 00:04:01.000 --> 00:04:03.000 Pokazat ćemo vam koliko puta se ona 00:04:03.000 --> 00:04:05.000 pojavila u knjigama u 1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 sve do 2008. 00:04:07.000 --> 00:04:09.000 Tako znamo 00:04:09.000 --> 00:04:11.000 koliko često se neka rečenica ponavljala tokom vremena. 00:04:11.000 --> 00:04:14.000 Uradili smo to za sve riječi i fraze koje se pojavljuju u ovim knjigama, 00:04:14.000 --> 00:04:17.000 i tako imamo tabelu od 2 milijarde redova 00:04:17.000 --> 00:04:19.000 koji nam govore kako se kultura mijenjala. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Te redove 00:04:21.000 --> 00:04:23.000 zovemo 2 milijarde n-grama. 00:04:23.000 --> 00:04:25.000 Šta nam oni govore? 00:04:25.000 --> 00:04:27.000 Pojedinačni n-grami određuju kulturalne trendove. 00:04:27.000 --> 00:04:29.000 Evo primjera. 00:04:29.000 --> 00:04:31.000 Pretpostavimo da napredujem, 00:04:31.000 --> 00:04:33.000 i sutra vam želim ispričati kako sam uradio. 00:04:33.000 --> 00:04:36.000 Mogu reći, "Jučer sam napredovao." 00:04:36.000 --> 00:04:39.000 Umjesto toga, mogu reći, "Jučer napredovah." 00:04:39.000 --> 00:04:42.000 Koju riječ da koristim? 00:04:42.000 --> 00:04:44.000 Kako da znam? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Od prije šest mjeseci, 00:04:46.000 --> 00:04:48.000 stanje u ovom području je takvo 00:04:48.000 --> 00:04:50.000 da biste mogli, naprimjer, 00:04:50.000 --> 00:04:52.000 otići psihologu sa odličnom kosom, 00:04:52.000 --> 00:04:54.000 i reći, 00:04:54.000 --> 00:04:57.000 "Steve, ti si ekspert u nepravilnim glagolima. 00:04:57.000 --> 00:04:59.000 Šta trebam uraditi?" 00:04:59.000 --> 00:05:01.000 A on bi ti rekao, "Većina ljudi kaže napredova, 00:05:01.000 --> 00:05:04.000 ali neki kažu napredovah." 00:05:04.000 --> 00:05:06.000 Takođe ste znali, manje ili više, 00:05:06.000 --> 00:05:09.000 da ako se vratite 200 godina unazad 00:05:09.000 --> 00:05:12.000 i pitate državnika sa jednako dobrom kosom 00:05:12.000 --> 00:05:15.000 (Smijeh) 00:05:15.000 --> 00:05:17.000 "Tom, šta da kažem?" 00:05:17.000 --> 00:05:19.000 On bi rekao, "Pa, u moje vrijeme, većina ljudi kaže napredovao, 00:05:19.000 --> 00:05:22.000 a neki kažu napredovah." 00:05:22.000 --> 00:05:24.000 Sada ću vam pokazati nepripremljene podatke. 00:05:24.000 --> 00:05:28.000 Dvije kolone u tabeli sa 2 milijarde unosa. 00:05:28.000 --> 00:05:30.000 Možete vidjeti frekvenciju godinu za godinom 00:05:30.000 --> 00:05:33.000 za riječi "napredovao" i "napredovah". 00:05:34.000 --> 00:05:36.000 Ovo je samo 2 00:05:36.000 --> 00:05:39.000 od 2 milijarde kolona. 00:05:39.000 --> 00:05:41.000 Čitav set podataka 00:05:41.000 --> 00:05:44.000 je milijardu puta fenomenalniji od ovog slajda. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Smijeh) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Aplauz) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Ima drugih slika koje vrijede 500 milijardi riječi. 00:05:52.000 --> 00:05:54.000 Naprimjer, ova. 00:05:54.000 --> 00:05:56.000 Ako uzmemo gripu, 00:05:56.000 --> 00:05:58.000 vidjećete razdoblja kada je poznato 00:05:58.000 --> 00:06:01.000 da je epidemija gripe ubijala ljude širom planete. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Ako još niste uvjereni, 00:06:04.000 --> 00:06:06.000 nivo mora se povećava, 00:06:06.000 --> 00:06:09.000 kao i nivo CO2 u atmosferi i globalna temperatura. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Pogledajte ovaj n-gram, 00:06:12.000 --> 00:06:15.000 koji pokazuje Nietzscheu da Bog nije mrtav, 00:06:15.000 --> 00:06:18.000 iako se morate složiti da on bi mu dobro došao bolji publicist. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Smijeh) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Možete posmatrati neke vrlo abstraktne koncepte. 00:06:23.000 --> 00:06:25.000 Naprimjer, dopustite da vam kažem nešto 00:06:25.000 --> 00:06:27.000 o godini 1950-toj. 00:06:27.000 --> 00:06:29.000 Tokom čitave prošlosti, poprilično 00:06:29.000 --> 00:06:31.000 nikome nije bilo stalo do godine 1950. 00:06:31.000 --> 00:06:33.000 U 1700, 1800, i 1900. 00:06:33.000 --> 00:06:36.000 nikome nije bilo stalo. 00:06:37.000 --> 00:06:39.000 Kroz 30-te i 40-te, 00:06:39.000 --> 00:06:41.000 nikome nije bilo stalo. 00:06:41.000 --> 00:06:43.000 Najednom, sredinom 40-tih, 00:06:43.000 --> 00:06:45.000 počela je galama. 00:06:45.000 --> 00:06:47.000 Ljudi su shvatili da će se desiti 1950 godina, 00:06:47.000 --> 00:06:49.000 i da bi mogla biti važna. 00:06:49.000 --> 00:06:52.000 (Smijeh) 00:06:52.000 --> 00:06:55.000 Ali nikada se ljudi nisu više zainteresirali za godinu 1950. 00:06:55.000 --> 00:06:58.000 kao u godini 1950. 00:06:58.000 --> 00:07:01.000 (Smijeh) 00:07:01.000 --> 00:07:03.000 Ljudi su opsjednuto hodali uokolo. 00:07:03.000 --> 00:07:05.000 Nisu mogli prestati pričati 00:07:05.000 --> 00:07:08.000 o stvarima koje su radili godine 1050., 00:07:08.000 --> 00:07:11.000 i o stvarima koje su planirali raditi godine 1950. 00:07:11.000 --> 00:07:16.000 o snovima koje su htjeli ostvariti godine 1950. 00:07:16.000 --> 00:07:18.000 Zapravo, godina 1950 bila je tako fascinantna 00:07:18.000 --> 00:07:20.000 da su godinama nakon, 00:07:20.000 --> 00:07:23.000 ljudi nastavili pričati o svim zapanjujućim stvarima koje su se desile, 00:07:23.000 --> 00:07:25.000 godine 1951, '52, '53. 00:07:25.000 --> 00:07:27.000 Napokon 1954., 00:07:27.000 --> 00:07:29.000 neko je shvatio 00:07:29.000 --> 00:07:33.000 da je 1950. nekako zastarijela. 00:07:33.000 --> 00:07:35.000 (Smijeh) 00:07:35.000 --> 00:07:37.000 I samo tako, balon je pukao. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Smijeh) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 Priča o godini 1950. 00:07:41.000 --> 00:07:43.000 je priča o svakoj godini koju smo zabilježili, 00:07:43.000 --> 00:07:46.000 a malim preokretom, jer sada imamo ove lijepe grafikone. 00:07:46.000 --> 00:07:49.000 I zbog toga što imamo ove grafikone, možemo da mjerimo stvari. 00:07:49.000 --> 00:07:51.000 Možemo reći, "Kako brzo balon može da pukne?" 00:07:51.000 --> 00:07:54.000 Ispostavilo se da to možemo veoma precizno da izmjerimo. 00:07:54.000 --> 00:07:57.000 Jednačine su izvedene, grafikoni su napravljeni, 00:07:57.000 --> 00:07:59.000 i jednostavan rezultat 00:07:59.000 --> 00:08:02.000 je taj da balon buca sve brže 00:08:02.000 --> 00:08:04.000 kako godine prolaze. 00:08:04.000 --> 00:08:09.000 Sve brže gubimo interes za prošlost. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Sada ću vam dati jedan mali savjet u vezi odabira karijere. 00:08:11.000 --> 00:08:13.000 Za one koji žele postati poznati, 00:08:13.000 --> 00:08:15.000 saznali smo od 25 najpoznatijih političkih figura, 00:08:15.000 --> 00:08:17.000 pisaca, glumaca i tako dalje. 00:08:17.000 --> 00:08:20.000 Ako želite rano postati poznat, trebali ste biti glumac, 00:08:20.000 --> 00:08:22.000 jer u tom slučaju slava počinje da raste krajem vaših 20-tih godina -- 00:08:22.000 --> 00:08:24.000 još uvijek ste mladi, što je sjajno. 00:08:24.000 --> 00:08:26.000 Ako možete čekati još malo, onda bi ste trebali biti pisac, 00:08:26.000 --> 00:08:28.000 jer onda slava doseže velike visine, 00:08:28.000 --> 00:08:30.000 kao Mark Twain, naprimjer: on je veoma poznat. 00:08:30.000 --> 00:08:32.000 Ali ako želite doseći sam vrh, 00:08:32.000 --> 00:08:34.000 trebali bi ste odgoditi slavu 00:08:34.000 --> 00:08:36.000 i, naravno, postati političar. 00:08:36.000 --> 00:08:38.000 Ovako ćete postati popularni krajem vaših 50-tih godina, 00:08:38.000 --> 00:08:40.000 i ostati veoma, veoma, poznati i nakon. 00:08:40.000 --> 00:08:43.000 I naučnici postaju slavni kako stare. 00:08:43.000 --> 00:08:45.000 Naprimejr, biolozi i fizičari 00:08:45.000 --> 00:08:47.000 su obično poznati kao i glumci. 00:08:47.000 --> 00:08:50.000 Jedina greška koju ne smijete napraviti jeste da postanete matematičar. 00:08:50.000 --> 00:08:52.000 (Smijeh) 00:08:52.000 --> 00:08:54.000 Ako to uradite, 00:08:54.000 --> 00:08:57.000 možete pomisliti, "Super. Objavit ću najbolji rad u svojim 20-tim." 00:08:57.000 --> 00:08:59.000 Ali pogodite, nikome zaista neće biti stalo. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Smijeh) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: Ima i nešto trezvenih bilješki 00:09:04.000 --> 00:09:06.000 mešu n-gramima. 00:09:06.000 --> 00:09:08.000 Naprimjer, ovo je put Marca Chagalla, 00:09:08.000 --> 00:09:10.000 umjetnika rođenog 1887. 00:09:10.000 --> 00:09:13.000 I ovo izgleda kao normalan put poznate osobe. 00:09:13.000 --> 00:09:17.000 On postaje sve poznatiji, 00:09:17.000 --> 00:09:19.000 osim ako gledate na njemačkom. 00:09:19.000 --> 00:09:21.000 Na njemačkom, postoji nešto veoma bizarno, 00:09:21.000 --> 00:09:23.000 nešto što se skoro nikada ne može vidjeti, 00:09:23.000 --> 00:09:25.000 a to je da on postaje strašno poznat 00:09:25.000 --> 00:09:27.000 i onda najednom njegova popularnost snažno se penje, 00:09:27.000 --> 00:09:30.000 i doseže nebeske visine između 1933 i 1945., 00:09:30.000 --> 00:09:33.000 prije se ponovo vraća. 00:09:33.000 --> 00:09:35.000 Naravno, vidimo 00:09:35.000 --> 00:09:38.000 da je Marc Chagall bio jevrejski umjetnih 00:09:38.000 --> 00:09:40.000 u nacističkoj Njemačkoj. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Ovi signali 00:09:42.000 --> 00:09:44.000 su zapravo tako jaki 00:09:44.000 --> 00:09:47.000 da ne moramo znati da je neko cenzurisan. 00:09:47.000 --> 00:09:49.000 Možemo zapravo shvatiti 00:09:49.000 --> 00:09:51.000 procesuirajući jednostavne signale. 00:09:51.000 --> 00:09:53.000 Evo jednostavnog načina za to. 00:09:53.000 --> 00:09:55.000 Logično je očekivati 00:09:55.000 --> 00:09:57.000 da nečija slava u datom preiodu 00:09:57.000 --> 00:09:59.000 bi trebala otprilike biti prosjek njihove slave prije 00:09:59.000 --> 00:10:01.000 i slave poslije. 00:10:01.000 --> 00:10:03.000 Takvo nešto mi očekujemo. 00:10:03.000 --> 00:10:06.000 I poredimo to sa slavom koju mi posmatramo. 00:10:06.000 --> 00:10:08.000 I jednostavno podijelimo jedno sa drugim 00:10:08.000 --> 00:10:10.000 da bismo dobili nešto što nazivamo indeks zabrane. 00:10:10.000 --> 00:10:13.000 Ako je indeks veoma, veoma, veoma mali, 00:10:13.000 --> 00:10:15.000 onda možda ste zabranjeni. 00:10:15.000 --> 00:10:18.000 Ako je veoma veliki, onda možda imate korist od propagande. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Možete zapravo posmatrati 00:10:21.000 --> 00:10:24.000 distribuciju indeksa zabrane čitave populacije. 00:10:24.000 --> 00:10:26.000 Naprimjer, ovdje -- 00:10:26.000 --> 00:10:28.000 indeks zabrane za 5,000 ljudi 00:10:28.000 --> 00:10:30.000 odabranih iz engleskih udžbenika gdje nema zabrana -- 00:10:30.000 --> 00:10:32.000 izgledalo bi ovako, usko centrirani na jedan. 00:10:32.000 --> 00:10:34.000 Ono što očekujete je jednostavno ono što posmatrate. 00:10:34.000 --> 00:10:36.000 Ovo je rasprostranjenost posmatrana u Njemačkoj -- 00:10:36.000 --> 00:10:38.000 veoma različita, pomjerena u lijevo. 00:10:38.000 --> 00:10:41.000 Ljudi su o tome govorili dva puta manje nego što je trebalo. 00:10:41.000 --> 00:10:43.000 Ali što je najvažnije, rasprostranjenost je mnogo šira. 00:10:43.000 --> 00:10:46.000 Mnogo je ljudi koji završe na krajnje lijevoj tački rasprostranjenosti 00:10:46.000 --> 00:10:49.000 o kojima se govori 10 puta manje nego što bi trebalo. 00:10:49.000 --> 00:10:51.000 Ali i mnogi ljudi na krajnje desnoj tački 00:10:51.000 --> 00:10:53.000 očigledno imaju korist od propadande. 00:10:53.000 --> 00:10:56.000 Ova slika je znak cenzure. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: Kulturomija 00:10:58.000 --> 00:11:00.000 je naziv ove naše metode. 00:11:00.000 --> 00:11:02.000 Nešto je nalik genomiji. 00:11:02.000 --> 00:11:04.000 Osim što je genomija uvid u bilogiju 00:11:04.000 --> 00:11:07.000 kroz prozor slijeda baza u ljudskom genomu. 00:11:07.000 --> 00:11:09.000 Kulturomija je slična. 00:11:09.000 --> 00:11:12.000 To je primjena skupljanja podataka velikog uzorka 00:11:12.000 --> 00:11:14.000 na ljudsku kulturu. 00:11:14.000 --> 00:11:16.000 Umjesto kroz ljudski genom, 00:11:16.000 --> 00:11:19.000 gleda se kroz digitalizirane historijske zapise. 00:11:19.000 --> 00:11:21.000 Odlična stvar u vezi kulturonomije 00:11:21.000 --> 00:11:23.000 je da svako to može uraditi. 00:11:23.000 --> 00:11:25.000 Zašto je dostupna svima? 00:11:25.000 --> 00:11:27.000 Zato što su tri čovjeka, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray i Will Brockman iz Googlea, 00:11:30.000 --> 00:11:32.000 su vidjeli prototip Ngram VIewera, 00:11:32.000 --> 00:11:34.000 i rekli su, "Ovo je tako zabavno. 00:11:34.000 --> 00:11:37.000 Moramo ovo pružiti ljudima." 00:11:37.000 --> 00:11:39.000 Za ravno dvije sedmice -- dvije sedmice prije nego naš rad objavljen -- 00:11:39.000 --> 00:11:42.000 napravili su verziju Ngram Viewera za javnost. 00:11:42.000 --> 00:11:45.000 Tako da sada možete ukucati bilo koju riječ ili frazu koja vas zanima 00:11:45.000 --> 00:11:47.000 i odmah vidjeti njen n-gram -- 00:11:47.000 --> 00:11:49.000 i naći primjere iz ranih knjiga 00:11:49.000 --> 00:11:51.000 u kojima se vaš n-gram spominje. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 JM: Ngram Viewer 00:11:53.000 --> 00:11:55.000 i ovo je najbolje od svih upita. 00:11:55.000 --> 00:11:58.000 Ljudi žele najbolje, da urade najbolje što mogu. 00:11:58.000 --> 00:12:01.000 Ali izgleda da ljudi u 18-tom stoljeću o tome nisu marili. 00:12:01.000 --> 00:12:04.000 Nisu željeli uraditi najbolje, željeli su najbolje. 00:12:04.000 --> 00:12:07.000 Desilo se, naravno, ovo je samo pogreška. 00:12:07.000 --> 00:12:09.000 Nije da su težili prosjećnosti, 00:12:09.000 --> 00:12:12.000 već se S pisalo drugačije, slično F. 00:12:12.000 --> 00:12:15.000 Naravno, Google nije ovo izdvojio, 00:12:15.000 --> 00:12:18.000 tako da smo ovo naveli u naučnom članku. 00:12:18.000 --> 00:12:20.000 Ali ovo je ispalo kao podsjetnik 00:12:20.000 --> 00:12:22.000 da, iako je ovo veoma zabavno, 00:12:22.000 --> 00:12:24.000 kada tumačite ove grafikone, morate biti veoma pažljivi, 00:12:24.000 --> 00:12:27.000 i morati primijeniti ove standarde u nauci. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: Ljudi ovo koriste za razne zabavne svrhe. 00:12:30.000 --> 00:12:37.000 (Smijeh) 00:12:37.000 --> 00:12:39.000 Zapravo, ne moramo pričati, 00:12:39.000 --> 00:12:42.000 samo ćemo vam u tišini pokazati sve slajdove. 00:12:42.000 --> 00:12:45.000 Ovu osobu je interesovala historija frustracije. 00:12:45.000 --> 00:12:48.000 Postoje razni tipovi fustracija. 00:12:48.000 --> 00:12:51.000 Ako se udarite u nožni prst, to je jedno A "argh". 00:12:51.000 --> 00:12:53.000 Ako planetu Zemlju nasele Vogonci 00:12:53.000 --> 00:12:55.000 da naprave međuzvjezdanu zaobliaznicu, 00:12:55.000 --> 00:12:57.000 to je osam A "aaaaaaaargh." 00:12:57.000 --> 00:12:59.000 Ova osoba je istražila sve "arghove," 00:12:59.000 --> 00:13:01.000 od jednog pa do osam slova A. 00:13:01.000 --> 00:13:03.000 I ispada 00:13:03.000 --> 00:13:05.000 najrjeđi "arghovi" 00:13:05.000 --> 00:13:08.000 su, naravno, oni koji se odnose na stvari koji više frustrirajuće -- 00:13:08.000 --> 00:13:11.000 osim, začudo, početkom 80-tih. 00:13:11.000 --> 00:13:13.000 Možda to ima neke veze sa Reaganom. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Smijeh) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Ovi podaci se koriste u razne svrhe, 00:13:18.000 --> 00:13:21.000 ali historijski zapisi se digitalizuju. 00:13:21.000 --> 00:13:23.000 Google je počeo sa digitalizacijom 15 miliona knjiga. 00:13:23.000 --> 00:13:25.000 To je 12 posto svih knjiga koje su izdate. 00:13:25.000 --> 00:13:28.000 To je veliki dio ljudske kulture. 00:13:28.000 --> 00:13:31.000 Tu su i rukopisi, novine, 00:13:31.000 --> 00:13:33.000 tu su i materijali bez teksta, kao umjetnost i slike. 00:13:33.000 --> 00:13:35.000 To je sve u našim kompjuterima, 00:13:35.000 --> 00:13:37.000 i kompjuterima širom svijeta. 00:13:37.000 --> 00:13:40.000 Kada se to desi, to će promijeniti način na koji 00:13:40.000 --> 00:13:42.000 mi shvatamo prošlost, sadašnjost i ljudsku kulturu. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Hvala vam mnogo. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Aplauz)