WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Svi znaju 00:00:02.000 --> 00:00:05.000 da slika vrijedi tisuću riječi. 00:00:07.000 --> 00:00:09.000 No, mi smo se na Harvardu 00:00:09.000 --> 00:00:12.000 zapitali je li to stvarno istina. 00:00:12.000 --> 00:00:14.000 (Smijeh) 00:00:14.000 --> 00:00:18.000 Tako smo okupili tim stručnjaka, 00:00:18.000 --> 00:00:20.000 koji obuhvaća ljude na Harvardu i MIT-u, 00:00:20.000 --> 00:00:23.000 one koji rade na rječniku American Heritage i Encyclopediji Britannici, 00:00:23.000 --> 00:00:25.000 čak i naše ponosne sponzore, 00:00:25.000 --> 00:00:28.000 Google. 00:00:28.000 --> 00:00:30.000 Razmišljali smo o tome 00:00:30.000 --> 00:00:32.000 oko četiri godine 00:00:32.000 --> 00:00:37.000 i došli smo do začuđujućeg zaključka. 00:00:37.000 --> 00:00:40.000 Dame i gospodo, slika ne vrijedi tisuću riječi. 00:00:40.000 --> 00:00:42.000 Čak smo pronašli neke slike 00:00:42.000 --> 00:00:47.000 koje vrijede 500 milijardi riječi. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Kako smo došlo do tog zaključka? 00:00:49.000 --> 00:00:51.000 Erez i ja razmišljali smo o načinima 00:00:51.000 --> 00:00:53.000 na koje bismo mogli steći općenitu sliku ljudske kulture 00:00:53.000 --> 00:00:56.000 i ljudske povijesti: promjene kroz vrijeme. 00:00:56.000 --> 00:00:58.000 Kroz vrijeme je zapravo napisano mnogo knjiga. 00:00:58.000 --> 00:01:00.000 Stoga smo mislili kako je najbolji način da nešto naučimo iz njih 00:01:00.000 --> 00:01:02.000 taj da pročitamo sve te milijune knjiga. 00:01:02.000 --> 00:01:05.000 Naravno, ako postoji ljestvica za mjerenje koliko je to fenomenalno, 00:01:05.000 --> 00:01:08.000 tako nešto mora biti rangirano vrlo, vrlo visoko. 00:01:08.000 --> 00:01:10.000 Problem je što za to postoji os x 00:01:10.000 --> 00:01:12.000 ili praktična os. 00:01:12.000 --> 00:01:14.000 Na njoj se to nalazi vrlo, vrlo nisko. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Pljesak) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Ljudi su skloni primjenjivanju alternativnog pristupa, 00:01:20.000 --> 00:01:22.000 a to je da izaberu nekoliko izvora i njih pročitaju vrlo pažljivo. 00:01:22.000 --> 00:01:24.000 To je vrlo praktično, ali nije baš fenomenalno. 00:01:24.000 --> 00:01:27.000 Ono što zapravo želite 00:01:27.000 --> 00:01:30.000 jest doći do dijela koji je i fenomenalan i praktičan. 00:01:30.000 --> 00:01:33.000 Ispada da s druge strane rijeke postoji tvrtka koja se zove Google, 00:01:33.000 --> 00:01:35.000 koja je prije nekoliko godina počela s projektom digitalizacije 00:01:35.000 --> 00:01:37.000 koji bi mogao omogućiti upravo ovaj pristup. 00:01:37.000 --> 00:01:39.000 Digitalizirali su milijune knjiga. 00:01:39.000 --> 00:01:42.000 A to znači da se možemo služiti računalnim metodama 00:01:42.000 --> 00:01:44.000 kako bismo sve knjige pročitali pritiskom na tipku. 00:01:44.000 --> 00:01:47.000 To je vrlo praktično i poprilično fenomenalno. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Ispričat ću vam malo o tome odakle dolaze knjige. 00:01:50.000 --> 00:01:53.000 Od pamtivijeka postoje autori. 00:01:53.000 --> 00:01:56.000 Oni teže tome da pišu knjige. 00:01:56.000 --> 00:01:58.000 To je postalo znatno lakše 00:01:58.000 --> 00:02:00.000 s razvojem tehnike tiskanja prije nekoliko stoljeća. 00:02:00.000 --> 00:02:03.000 Od tada su autori pobijedili 00:02:03.000 --> 00:02:05.000 129 milijuna puta 00:02:05.000 --> 00:02:07.000 i objavili su knjige. 00:02:07.000 --> 00:02:09.000 Ako se te knjige s vremenom nisu izgubile, 00:02:09.000 --> 00:02:11.000 znači da su negdje u nekoj knjižnici. 00:02:11.000 --> 00:02:14.000 Mnoge od tih knjiga izvučene su iz knjižnica 00:02:14.000 --> 00:02:16.000 i Google ih je digitalizirao. 00:02:16.000 --> 00:02:18.000 Do danas je skenirano 15 milijuna knjiga. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Kad Google digitalizira knjigu, stavlja ju u zaista zgodan format. 00:02:21.000 --> 00:02:23.000 Imamo podatke, a imamo i metapodatke. 00:02:23.000 --> 00:02:26.000 Imamo informacije o stvarima kao što su mjesto izdavanja, 00:02:26.000 --> 00:02:28.000 ime autora, datum izdavanja. 00:02:28.000 --> 00:02:31.000 I mi tada prolazimo kroz sve te zapise 00:02:31.000 --> 00:02:35.000 i izostavljamo sve što nisu podaci najviše kvalitete. 00:02:35.000 --> 00:02:37.000 Ono što nam ostaje 00:02:37.000 --> 00:02:40.000 zbirka je od pet milijuna knjiga, 00:02:40.000 --> 00:02:43.000 500 milijardi riječi, 00:02:43.000 --> 00:02:45.000 niz likova koji je tisuću puta dulji 00:02:45.000 --> 00:02:48.000 od ljudskog genoma -- 00:02:48.000 --> 00:02:50.000 tekst koji bi, kad bi se ispisao, 00:02:50.000 --> 00:02:52.000 protezao 10 puta odavde do Mjeseca 00:02:52.000 --> 00:02:54.000 i natrag -- 00:02:54.000 --> 00:02:58.000 zaista tek djelić našeg kulturnog genoma. 00:02:58.000 --> 00:03:00.000 Naravno, ono što smo učinili, 00:03:00.000 --> 00:03:03.000 kad smo se suočili s tako skandaloznom hiperbolom... 00:03:03.000 --> 00:03:05.000 (Smijeh) 00:03:05.000 --> 00:03:08.000 bilo je isto što bi učinili bilo koji istraživači 00:03:08.000 --> 00:03:11.000 koji drže do sebe. 00:03:11.000 --> 00:03:13.000 Uzeli smo jednu stranicu s XKCD-a 00:03:13.000 --> 00:03:15.000 i rekli: "Odmaknite se! 00:03:15.000 --> 00:03:17.000 Pokušat ćemo nešto znanstveno!" NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Smijeh) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Naravno, mislili smo, 00:03:21.000 --> 00:03:23.000 hajdemo prvo omogućiti pristup podacima 00:03:23.000 --> 00:03:25.000 kako bi ih ljudi mogli znanstveno promotriti. 00:03:25.000 --> 00:03:27.000 Razmišljali smo kojim podacima možemo omogućiti pristup? 00:03:27.000 --> 00:03:29.000 Naravno, želite uzeti te knjige 00:03:29.000 --> 00:03:31.000 i omogućiti pristup kompletnom tekstu tih pet milijuna knjiga. 00:03:31.000 --> 00:03:33.000 Google, a pogotovo Jon Orwant, 00:03:33.000 --> 00:03:35.000 pokazali su nam malu jednadžbu koju smo morali naučiti. 00:03:35.000 --> 00:03:38.000 Imate pet milijuna knjiga, odnosno pet miljuna autora 00:03:38.000 --> 00:03:41.000 i pet milijuna tužitelja u masovnoj tužbi. 00:03:41.000 --> 00:03:43.000 Dakle, iako bi to bilo stvarno, stvarno fenomenalno, 00:03:43.000 --> 00:03:46.000 to je opet vrlo, vrlo nepraktično. 00:03:46.000 --> 00:03:48.000 (Smijeh) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Opet smo popustilli 00:03:50.000 --> 00:03:53.000 i primijenili vrlo praktičan pristup, koji je bio nešto manje fenomenalan. 00:03:53.000 --> 00:03:55.000 Rekli smo, umjesto da omogućimo pristup kompletnom tekstu, 00:03:55.000 --> 00:03:57.000 omogućit ćemo pristup statistikama o knjigama. 00:03:57.000 --> 00:03:59.000 Uzmite primjerice "tračak sreće" (a gleam of happiness). 00:03:59.000 --> 00:04:01.000 To su četiri riječi i to zovemo četverogram. 00:04:01.000 --> 00:04:03.000 Reći ćemo vam koliko se puta određeni četverogram 00:04:03.000 --> 00:04:05.000 pojavio u knjigama 1801., 1802., 1803. godine, 00:04:05.000 --> 00:04:07.000 i tako sve do 2008. 00:04:07.000 --> 00:04:09.000 Tako dobivamo vremenski niz 00:04:09.000 --> 00:04:11.000 učestalosti korištenja određene rečenice kroz vrijeme, 00:04:11.000 --> 00:04:14.000 To smo napravili za sve riječi i izraze koji se pojavljuju u tim knjigama, 00:04:14.000 --> 00:04:17.000 što nam daje veliku tablicu od dvije milijarde redaka 00:04:17.000 --> 00:04:19.000 koji nam prikazuju način na koji se kultura mijenja. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Te dvije milijarde redaka 00:04:21.000 --> 00:04:23.000 zovemo dvije milijarde n-grama. 00:04:23.000 --> 00:04:25.000 Što nam oni govore? 00:04:25.000 --> 00:04:27.000 Pojedinačni n-grami mjere kulturne trendove. 00:04:27.000 --> 00:04:29.000 Dat ću vam primjer. 00:04:29.000 --> 00:04:31.000 Pretpostavimo da ja težim nečemu (thrive), 00:04:31.000 --> 00:04:33.000 a sutra vam želim ispričati koliko sam bio uspješan. 00:04:33.000 --> 00:04:36.000 Mogao bih koristiti oblik za prošlo vrijeme "throve", 00:04:36.000 --> 00:04:39.000 a mogao koristiti i oblike "thrived". 00:04:39.000 --> 00:04:42.000 Koji bih trebao koristiti? 00:04:42.000 --> 00:04:44.000 Kako to znati? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Prije otprilike šest mjeseci, 00:04:46.000 --> 00:04:48.000 najsuvremeniji podaci u tom polju 00:04:48.000 --> 00:04:50.000 kažu da biste, primjerice, 00:04:50.000 --> 00:04:52.000 otišli do ovog psihologa fantastične kose 00:04:52.000 --> 00:04:54.000 i rekli biste: 00:04:54.000 --> 00:04:57.000 "Steve, ti si stručnjak za nepravilne glagole. 00:04:57.000 --> 00:04:59.000 Što da radim?" 00:04:59.000 --> 00:05:01.000 A on bi vam rekao: "Pa, većina ljudi koristi "thrived", 00:05:01.000 --> 00:05:04.000 ali neki ljudi kažu "throve". 00:05:04.000 --> 00:05:06.000 A znali biste i, više-manje, 00:05:06.000 --> 00:05:09.000 da kad biste se vratili 200 godina u prošlost 00:05:09.000 --> 00:05:12.000 i pitali ovog državnika jednako fantastične kose, 00:05:12.000 --> 00:05:15.000 (Smijeh) 00:05:15.000 --> 00:05:17.000 "Tome, kako bih trebao govoriti?" 00:05:17.000 --> 00:05:19.000 On bi vam rekao: "Pa, u moje vrijeme većina je ljudi koristila "throve", 00:05:19.000 --> 00:05:22.000 ali neki su koristili "thrived". 00:05:22.000 --> 00:05:24.000 Sad ću vam pokazati samo sirove podatke. 00:05:24.000 --> 00:05:28.000 Dva reda iz ove tablice od dvije milijarde unosa. 00:05:28.000 --> 00:05:30.000 Sada gledate učestalost godinu za godinom 00:05:30.000 --> 00:05:33.000 korištenja "thrived" i "throve" kroz vrijeme. 00:05:34.000 --> 00:05:36.000 Dakle, to su samo dva reda 00:05:36.000 --> 00:05:39.000 od dvije milijarde redova. 00:05:39.000 --> 00:05:41.000 Ukupan skup podataka 00:05:41.000 --> 00:05:44.000 milijardu je puta fenomenalniji od ovog slajda. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Smijeh) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Pljesak) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Postoji mnogo drugih slika koje vrijede 500 milijardi riječi. 00:05:52.000 --> 00:05:54.000 Na primjer, ova ovdje. 00:05:54.000 --> 00:05:56.000 Ako uzmete samo gripu, 00:05:56.000 --> 00:05:58.000 vidjet ćete vrhove u vrijeme za koje znate 00:05:58.000 --> 00:06:01.000 da su velike epidemije tada ubijale ljude u cijelom svijetu. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Ako vam treba još dokaza, 00:06:04.000 --> 00:06:06.000 diže se razina mora, 00:06:06.000 --> 00:06:09.000 kao i CO2 i temperatura u svijetu. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Možda ne bi bilo loše da pogledate i ovaj konkretni n-gram, 00:06:12.000 --> 00:06:15.000 koji govori Nietzscheu da Bog nije mrtav, 00:06:15.000 --> 00:06:18.000 iako se možda slažete da bi mu trebao bolji izdavač. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Smijeh) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Na ovaj način možete dobiti prilično apstraktne koncepte. 00:06:23.000 --> 00:06:25.000 Na primjer, ispričat ću vam priču 00:06:25.000 --> 00:06:27.000 o 1950. godini. 00:06:27.000 --> 00:06:29.000 Veliki dio povijesti, 00:06:29.000 --> 00:06:31.000 nikoga nije bilo briga za 1950. godinu. 00:06:31.000 --> 00:06:33.000 1700. godine, 1800., 1900., 00:06:33.000 --> 00:06:36.000 nikoga nije bilo briga. 00:06:37.000 --> 00:06:39.000 30-ih i 40-ih godina, 00:06:39.000 --> 00:06:41.000 nikoga nije bilo briga. 00:06:41.000 --> 00:06:43.000 Odjednom, sredinom 40-ih, 00:06:43.000 --> 00:06:45.000 počelo se brujati o tome. 00:06:45.000 --> 00:06:47.000 Ljudi su shvatili da će doći 1950. godina 00:06:47.000 --> 00:06:49.000 i da bi mogla biti važna. 00:06:49.000 --> 00:06:52.000 (Smijeh) 00:06:52.000 --> 00:06:55.000 Ali ništa nije ljude zainteresiralo za 1950. godinu 00:06:55.000 --> 00:06:58.000 kao 1950. godina. 00:06:58.000 --> 00:07:01.000 (Smijeh) 00:07:01.000 --> 00:07:03.000 Ljudi su hodali uokolo opsjednuti. 00:07:03.000 --> 00:07:05.000 Nisu mogli prestati govoriti 00:07:05.000 --> 00:07:08.000 o svim stvarima koje su učinili 1950. godine, 00:07:08.000 --> 00:07:11.000 o svim stvarima koje planiraju učiniti 1950. godine, 00:07:11.000 --> 00:07:16.000 o svim snovima koje žele ostvariti 1950. godine. 00:07:16.000 --> 00:07:18.000 Zapravo, 1950. godina bila je toliko fascinantna 00:07:18.000 --> 00:07:20.000 da su i godinama kasnije 00:07:20.000 --> 00:07:23.000 ljudi i dalje govorili o fantastičnim stvarima koje su se dogodile, 00:07:23.000 --> 00:07:25.000 '51., '52., '53. 00:07:25.000 --> 00:07:27.000 Na kraju, 1954. godine, 00:07:27.000 --> 00:07:29.000 netko se otrijeznio i shvatio 00:07:29.000 --> 00:07:33.000 da je 1950. godina postala passé. 00:07:33.000 --> 00:07:35.000 (Smijeh) 00:07:35.000 --> 00:07:37.000 I tako se iznenada mjehurić rasprsnuo. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Smijeh) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 Priča o 1950. godini 00:07:41.000 --> 00:07:43.000 priča je o svakoj godini koju smo zabilježili, 00:07:43.000 --> 00:07:46.000 s malom razlikom, jer sad imamo ove krasne grafove. 00:07:46.000 --> 00:07:49.000 A budući da imamo te krasne grafove, možemo mjeriti razne stvari. 00:07:49.000 --> 00:07:51.000 Možemo pitati: "Koliko će se brzo mjehurić rasprsnuti?" 00:07:51.000 --> 00:07:54.000 Ispada da to možemo vrlo precizno izmjeriti. 00:07:54.000 --> 00:07:57.000 Jednadžbe su se derivirale, grafovi su se crtali, 00:07:57.000 --> 00:07:59.000 a ukupni rezultat 00:07:59.000 --> 00:08:02.000 jest taj da smo otkrili da se mjehurić rasprsne sve brže 00:08:02.000 --> 00:08:04.000 sa svakom godinom koja prođe. 00:08:04.000 --> 00:08:09.000 Sve brže gubimo zanimanje za prošlost. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: A sad mali savjet o odabiru karijere. 00:08:11.000 --> 00:08:13.000 Oni među vama koji žele biti slavni 00:08:13.000 --> 00:08:15.000 mogu ponešto naučiti od 25 najpoznatijih političkih ličnosti, 00:08:15.000 --> 00:08:17.000 pisaca, glumaca i drugih. 00:08:17.000 --> 00:08:20.000 Dakle, ako želite rano postati slavni, trebate postati glumac 00:08:20.000 --> 00:08:22.000 jer tada postajete slavni do kraja svojih 20-ih godina -- 00:08:22.000 --> 00:08:24.000 još uvijek ste mladi i to je odlično. 00:08:24.000 --> 00:08:26.000 Ako možete malo čekati, trebali biste biti pisac 00:08:26.000 --> 00:08:28.000 jer tada se možete vrlo visoko uzdignuti, 00:08:28.000 --> 00:08:30.000 poput primjerice Marka Twaina, on je bio zaista slavan. 00:08:30.000 --> 00:08:32.000 Ali ako želite dosegnuti sam vrh, 00:08:32.000 --> 00:08:34.000 trebali biste odgoditi zadovoljstvo 00:08:34.000 --> 00:08:36.000 i, naravno, postati političar. 00:08:36.000 --> 00:08:38.000 U tom ćete slučaju postati poznati do kraja svojih 50-ih godina, 00:08:38.000 --> 00:08:40.000 i ostati vrlo, vrlo poznati nakon toga. 00:08:40.000 --> 00:08:43.000 Znanstvenici uglavnom, isto tako, postaju poznati kad ostare. 00:08:43.000 --> 00:08:45.000 Biolozi i fizičari, primjerice, 00:08:45.000 --> 00:08:47.000 znaju biti gotovo jednako slavni kao i glumci. 00:08:47.000 --> 00:08:50.000 Trebate izbjeći samo jednu pogrešku - da postanete matematičar. 00:08:50.000 --> 00:08:52.000 (Smijeh) 00:08:52.000 --> 00:08:54.000 Ako to učinite, 00:08:54.000 --> 00:08:57.000 možda ćete pomisliti: "Odlično, u 20-ima ću napraviti napraviti svoje najbolje radove." 00:08:57.000 --> 00:08:59.000 No, znate što, nikoga neće biti briga. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Smijeh) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: Postoje i neke ozbiljnije činjenice 00:09:04.000 --> 00:09:06.000 među n-gramima. 00:09:06.000 --> 00:09:08.000 Primjerice, evo putanje Marca Chagalla, 00:09:08.000 --> 00:09:10.000 umjetnika rođenog 1887. godine. 00:09:10.000 --> 00:09:13.000 Ovo izgleda kao normalna putanja poznate osobe. 00:09:13.000 --> 00:09:17.000 Postaje sve poznatiji i poznatiji, 00:09:17.000 --> 00:09:19.000 osim ako gledate za njemački jezik. 00:09:19.000 --> 00:09:21.000 Ako gledate za njemački, vidjet ćete nešto vrlo bizarno, 00:09:21.000 --> 00:09:23.000 nešto što gotovo nikad ne vidite, 00:09:23.000 --> 00:09:25.000 a to je da postaje iznimno poznat, 00:09:25.000 --> 00:09:27.000 a nakon toga mu popularnost iznenada padne, 00:09:27.000 --> 00:09:30.000 pri čemu su najniže točke bile između 1933. i 1945. godine, 00:09:30.000 --> 00:09:33.000 nakon čega mu se opet vratila popularnost. 00:09:33.000 --> 00:09:35.000 Naravno, on što zapravo vidimo 00:09:35.000 --> 00:09:38.000 jest činjenica da je Marc Chagall bio židovski umjetnik 00:09:38.000 --> 00:09:40.000 u nacističkoj Njemačkoj. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Ovi su signali 00:09:42.000 --> 00:09:44.000 zapravo toliko jaki 00:09:44.000 --> 00:09:47.000 da ne trebamo ni znati da su nekoga cenzurirali. 00:09:47.000 --> 00:09:49.000 Zapravo to možemo zaključiti 00:09:49.000 --> 00:09:51.000 koristeći osnovnu obradu znakova. 00:09:51.000 --> 00:09:53.000 Evo jednostavnog načina kako to učiniti. 00:09:53.000 --> 00:09:55.000 Razumno je za očekivati 00:09:55.000 --> 00:09:57.000 da će nečija slava u određenom razdoblju 00:09:57.000 --> 00:09:59.000 biti otprilike prosjek slave te osobe 00:09:59.000 --> 00:10:01.000 prije i nakon tog razdoblja. 00:10:01.000 --> 00:10:03.000 To je otprilike ono što mi očekujemo. 00:10:03.000 --> 00:10:06.000 I to uspoređujemo sa slavom koju promatramo. 00:10:06.000 --> 00:10:08.000 Samo podijelimo jedno drugim 00:10:08.000 --> 00:10:10.000 kako bismo dobili takozvani indeks zabrane. 00:10:10.000 --> 00:10:13.000 Ako je indeks zabrane vrlo, vrlo, vrlo malen, 00:10:13.000 --> 00:10:15.000 onda ste vrlo vjerojatno bili zabranjeni. 00:10:15.000 --> 00:10:18.000 Ako je vrlo velik, možda profitirate od propagande. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Zapravo možete promatrati 00:10:21.000 --> 00:10:24.000 raspored indeksa zabrane unutar populacija. 00:10:24.000 --> 00:10:26.000 Na primjer, ovdje -- 00:10:26.000 --> 00:10:28.000 ovo je indeks zabrane za 5.000 ljudi 00:10:28.000 --> 00:10:30.000 odabranih u engleskim knjigama u kojima nije zabilježeno zabranjivanje -- 00:10:30.000 --> 00:10:32.000 bilo bi ovako, usko centrirano oko jednog. 00:10:32.000 --> 00:10:34.000 Ono što očekujete u biti je ono što i vidite. 00:10:34.000 --> 00:10:36.000 Ovo je raspored za Njemačku -- 00:10:36.000 --> 00:10:38.000 vrlo različito, pomaknuto je ulijevo. 00:10:38.000 --> 00:10:41.000 Ljudi su o tome razgovarali upola manje nego što su trebali. 00:10:41.000 --> 00:10:43.000 No, mnogo je važnije da je raspored širi. 00:10:43.000 --> 00:10:46.000 Ima mnogo ljudi koji su sasvim na lijevoj strani rasporeda 00:10:46.000 --> 00:10:49.000 i o kojima se govori 10 puta manje nego što bi se trebalo. 00:10:49.000 --> 00:10:51.000 Ali isto tako ima mnogo ljudi na sasvim desnoj strani 00:10:51.000 --> 00:10:53.000 koji, izgleda, profitiraju od propagande. 00:10:53.000 --> 00:10:56.000 Ova je slika glavni simbol cenzure u knjigama. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: Dakle, kulturomika 00:10:58.000 --> 00:11:00.000 jest ime koje smo dali ovoj metodi. 00:11:00.000 --> 00:11:02.000 Nalikuje na genomiku. 00:11:02.000 --> 00:11:04.000 Osim što je genomika pogled na biologiju, 00:11:04.000 --> 00:11:07.000 pogled na slijed baza u ljudskom genomu. 00:11:07.000 --> 00:11:09.000 Kulturomika je slična tome. 00:11:09.000 --> 00:11:12.000 To je primjena analize ogromnog skupa podataka 00:11:12.000 --> 00:11:14.000 na proučavanje ljudske kulture. 00:11:14.000 --> 00:11:16.000 Ovdje, umjesto da promatramo genom, 00:11:16.000 --> 00:11:19.000 promatramo digitalizirane dijelove povijesnih zapisa. 00:11:19.000 --> 00:11:21.000 Ono što je odlično kod kulturomike 00:11:21.000 --> 00:11:23.000 jest to da se svi mogu njome baviti. 00:11:23.000 --> 00:11:25.000 Zašto se svi mogu njome baviti? 00:11:25.000 --> 00:11:27.000 Svi se mogu njome baviti jer su tri tipa, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray i Will Brockman iz Googlea 00:11:30.000 --> 00:11:32.000 vidjeli prototip preglednika Ngram 00:11:32.000 --> 00:11:34.000 i rekli: "Ovo je tako zabavno. 00:11:34.000 --> 00:11:37.000 Moramo ljudima omogućiti pristup tome." 00:11:37.000 --> 00:11:39.000 Za samo dva tjedna -- dva tjedna prije nego nam je objavljen članak -- 00:11:39.000 --> 00:11:42.000 iskodirali su verziju pregledika Ngram za javnost. 00:11:42.000 --> 00:11:45.000 Tako da i vi možete unijeti bilo koju riječ ili izraz koji vas zanima 00:11:45.000 --> 00:11:47.000 i odmah vidjeti njegove n-grame -- 00:11:47.000 --> 00:11:49.000 isto tako možete pregledavati primjere iz svih knjiga 00:11:49.000 --> 00:11:51.000 u kojima se pojavljuje vaš n-gram. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 JM: Ovaj je preglednik korišten više od milijun puta prvog dana, 00:11:53.000 --> 00:11:55.000 i ovo je zapravo najbolji od svih upita. 00:11:55.000 --> 00:11:58.000 Ljudi žele dati sve od sebe, pokazati se u najboljem svijetlu. 00:11:58.000 --> 00:12:01.000 Ali ispada da u 18. stoljeću ljudima uopće nije bilo stalo do toga. 00:12:01.000 --> 00:12:04.000 Nisu željeli dati sve od sebe, željeli su dati fve od sebe. 00:12:04.000 --> 00:12:07.000 Naravno, ovdje se radi samo o pogrešci. 00:12:07.000 --> 00:12:09.000 Nije da su težili osrednjosti, 00:12:09.000 --> 00:12:12.000 već se S prije pisao drugačije, pomalo nalik na F. 00:12:12.000 --> 00:12:15.000 Naravno, Google to nije prepoznao 00:12:15.000 --> 00:12:18.000 i to smo napomenuli u znanstvenom članku koji smo napisali. 00:12:18.000 --> 00:12:20.000 No, ispada da je ovo samo podsjetnik da, 00:12:20.000 --> 00:12:22.000 iako je ovo vrlo zabavno, 00:12:22.000 --> 00:12:24.000 kad tumačite ove grafove, morate biti vrlo oprezni 00:12:24.000 --> 00:12:27.000 i morate usvojiti ove temeljne znastvene standarde. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: Ljudi ovo koriste za razne zabavne namjene. 00:12:30.000 --> 00:12:37.000 (Smijeh) 00:12:37.000 --> 00:12:39.000 Zapravo, ne moramo ni govoriti, 00:12:39.000 --> 00:12:42.000 samo ćemo vam pokazati sve slajdove i šutjeti. 00:12:42.000 --> 00:12:45.000 Ovu osobu je zanimala povijest frustracije. 00:12:45.000 --> 00:12:48.000 Postoje različite vrste frustracija. 00:12:48.000 --> 00:12:51.000 Kad se udarite u nožni prst, to je "argh" s jednim A. 00:12:51.000 --> 00:12:53.000 Ako plant Zemlju unište Vogonci 00:12:53.000 --> 00:12:55.000 kako bi napravili mjesta za međuzvjezdanu zaobilaznicu, 00:12:55.000 --> 00:12:57.000 to je "aaaaaaaargh" s 8 A-ova. 00:12:57.000 --> 00:12:59.000 Ova osoba proučava sve "arghove", 00:12:59.000 --> 00:13:01.000 od jednog do 8 A-ova. 00:13:01.000 --> 00:13:03.000 Ispada da su 00:13:03.000 --> 00:13:05.000 manje učestali "arghovi" 00:13:05.000 --> 00:13:08.000 naravno, oni koji odgovaraju stvarima koje izazivaju veću frustraciju -- 00:13:08.000 --> 00:13:11.000 osim, čudno, početkom 80-ih. 00:13:11.000 --> 00:13:13.000 Mislimo da to možda ima veze s Reaganom. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Smijeh) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Ovi se podaci mogu koristiti za razne namjene, 00:13:18.000 --> 00:13:21.000 ali ono što je bitno jest da se povijesni zapisi digitaliziraju. 00:13:21.000 --> 00:13:23.000 Google je počeo digitalizirati 15 milijuna knjiga. 00:13:23.000 --> 00:13:25.000 To je 12 posto svih knjiga koje su ikad izdane. 00:13:25.000 --> 00:13:28.000 To je povelik dio ljudske kulture. 00:13:28.000 --> 00:13:31.000 U kulturi ima još mnogo toga: rukopisi, novine, 00:13:31.000 --> 00:13:33.000 postoje stvari koje nisu tekst, poput umjetnosti i slika. 00:13:33.000 --> 00:13:35.000 To će sve biti na našim računalima, 00:13:35.000 --> 00:13:37.000 na računalima u cijelome svijetu. 00:13:37.000 --> 00:13:40.000 A kad se to dogodi, promijenit će se način na koji smo 00:13:40.000 --> 00:13:42.000 shvaćali svoju prošlost, svoju sadašnjost i ljudsku kulturu. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Hvala vam puno. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Pljesak)