Šta smo naučili iz 5 miliona knjiga
-
0:00 - 0:02Erez Lieberman Aide: Svako zna
-
0:02 - 0:05da jedna slika vrijedi hiljadu riječi.
-
0:07 - 0:09Ali mi na Harvardu
-
0:09 - 0:12smo se pitali da li je ovo stvarno tačno.
-
0:12 - 0:14(Smijeh)
-
0:14 - 0:18Stoga smo skupili tim eksperata,
-
0:18 - 0:20iz Harvarda, MIT-a,
-
0:20 - 0:23The American Heritage Dictionary, Enciklopedije Britannica,
-
0:23 - 0:25i naših ponosnih sponzora,
-
0:25 - 0:28Googlea.
-
0:28 - 0:30Razmišljali smo o tome
-
0:30 - 0:32oko 4 godine.
-
0:32 - 0:37I došli smo do zapanjujućeg zaključka.
-
0:37 - 0:40Dame i gospodo, slika ne vrijedi hiljadu riječi.
-
0:40 - 0:42Zapravo, našli smo neke slike
-
0:42 - 0:47koje vrijede 500 milijardi riječi.
-
0:47 - 0:49Jean-Baptiste Michel: Kako smo došli do ovog zaključka?
-
0:49 - 0:51Erez i ja smo razmišljali kako da pronađemo načine
-
0:51 - 0:53da napravimo sliku ljudske kulture
-
0:53 - 0:56i ljudske historije: promjenu tokom vremena.
-
0:56 - 0:58Mnoštvo knjiga je napisano tokom godina.
-
0:58 - 1:00Pa smo razmišljali da je najbolji način da se iz njih uči
-
1:00 - 1:02jeste da pročitamo sve ove knjige.
-
1:02 - 1:05Naravno, ako postoji skala fenomenalnosti,
-
1:05 - 1:08mora biti jako, jako visoko.
-
1:08 - 1:10Problem je što za to postoji X-osa,
-
1:10 - 1:12stvarna osa.
-
1:12 - 1:14Koja je veoma, veoma nisko.
-
1:14 - 1:17(Aplauz)
-
1:17 - 1:20Ljudi obično koriste drugi pristup,
-
1:20 - 1:22uzmu par izvora i pažljivo ih čitaju.
-
1:22 - 1:24Ovo je veoma praktično, ali nije tako fenomenalno.
-
1:24 - 1:27Ono što zapravo želite postići
-
1:27 - 1:30jeste fenomenalno, ali praktični dio ovog prostora.
-
1:30 - 1:33Postoji kompanija koja se zove Google
-
1:33 - 1:35i koja je prije nekoliko godina krenula sa digitalizacijom
-
1:35 - 1:37koja bi pomogla ovom pristupu.
-
1:37 - 1:39Digitalizirali su milione knjiga.
-
1:39 - 1:42To znači da možemo kompjuterski
-
1:42 - 1:44pročitati sve knjige u samo jednom kliku.
-
1:44 - 1:47To je veoma praktično i fenomenalno.
-
1:48 - 1:50ELA: Dozvolite mi da nešto kažem o tome odakle su potjekle knjige.
-
1:50 - 1:53Od prastarih vremena, postojali su autori.
-
1:53 - 1:56Ovi autori su težili da pišu knjige.
-
1:56 - 1:58Ovo je postalo znatno lakše
-
1:58 - 2:00od kada se, prije nekoliko stoljeća, pojavila mašina za štampanje.
-
2:00 - 2:03Od tada, autori su
-
2:03 - 2:05objavili oko 129 miliona
-
2:05 - 2:07knjiga.
-
2:07 - 2:09Ako se ove knjige nisu izgubile u prošlosti,
-
2:09 - 2:11onda su negdje u knjižari,
-
2:11 - 2:14a mnoge knjige su podizane iz bibilioteka
-
2:14 - 2:16i digitalizovane od strane Goolgea,
-
2:16 - 2:18koji je do sada skenirao 15 miliona knjiga.
-
2:18 - 2:21Kada Google digitalizuje knjigu, stave je u veoma dobar format.
-
2:21 - 2:23Sada imamo podatke i meta-podatke.
-
2:23 - 2:26Imamo podatke o tome gdje je objavljena,
-
2:26 - 2:28ko je autor, kada je objavljena.
-
2:28 - 2:31I mi prelazimo sve ove podatke
-
2:31 - 2:35i izbacujemo sve one podatke koji nisu kvalitetni.
-
2:35 - 2:37Ono što nam preostaje je
-
2:37 - 2:40kolekcija od 5 miliona knjiga,
-
2:40 - 2:43500 milijardi riječi,
-
2:43 - 2:45i niz slova, 1000 puta duži od
-
2:45 - 2:48ljudskog genoma --
-
2:48 - 2:50tekst koji, kada se ispiše,
-
2:50 - 2:52bi se protezao do Mjeseca i nazad
-
2:52 - 2:5410 puta --
-
2:54 - 2:58prava krhotina našeg kulturnog genoma.
-
2:58 - 3:00Naravno,
-
3:00 - 3:03kada smo se suočili sa ovakvom nečuvenom hiperbolom...
-
3:03 - 3:05(Smijeh)
-
3:05 - 3:08uradili smo ono
-
3:08 - 3:11što bi svaki istraživač uradio.
-
3:11 - 3:13Uzeli smo stranicu iz XKCD,
-
3:13 - 3:15i rekli, "Odmaknite se.
-
3:15 - 3:17Isprobat ćemo nauku."
-
3:17 - 3:19(Smijeh)
-
3:19 - 3:21JM: Naravno, mislili smo,
-
3:21 - 3:23hajmo prvo ubaciti podatke
-
3:23 - 3:25koji bi ih iskoristili u nauci.
-
3:25 - 3:27Razmišljali smo, koje podatke možemo obajaviti?
-
3:27 - 3:29Naravno, želite objaviti
-
3:29 - 3:31cijeli tekst ovih 5 miliona knjiga.
-
3:31 - 3:33Google, a posebno Jon Orwant,
-
3:33 - 3:35nam je pokazao jednu jednačinu koju trebamo znati.
-
3:35 - 3:38Ako imate 5 miliona, tj., 5 miliona autora,
-
3:38 - 3:41to znači 5 miliona tužilaca.
-
3:41 - 3:43Iako bi to bilo veoma, veoma fenomenalno,
-
3:43 - 3:46ipak je jako nepraktično.
-
3:46 - 3:48(Smijeh)
-
3:48 - 3:50Nekako smo popustili,
-
3:50 - 3:53i krenuli smo praktični pristup, koji je bio malo manje fenomenalan.
-
3:53 - 3:55Umjesto da objavljujemo cijeli tekst,
-
3:55 - 3:57objavit ćemo statistiku o knjigama.
-
3:57 - 3:59Uzmite naprimjer "Tračak sreće."
-
3:59 - 4:01Ima četiri riječi; zovemo je četiri-grama.
-
4:01 - 4:03Pokazat ćemo vam koliko puta se ona
-
4:03 - 4:05pojavila u knjigama u 1801, 1802, 1803,
-
4:05 - 4:07sve do 2008.
-
4:07 - 4:09Tako znamo
-
4:09 - 4:11koliko često se neka rečenica ponavljala tokom vremena.
-
4:11 - 4:14Uradili smo to za sve riječi i fraze koje se pojavljuju u ovim knjigama,
-
4:14 - 4:17i tako imamo tabelu od 2 milijarde redova
-
4:17 - 4:19koji nam govore kako se kultura mijenjala.
-
4:19 - 4:21ELA: Te redove
-
4:21 - 4:23zovemo 2 milijarde n-grama.
-
4:23 - 4:25Šta nam oni govore?
-
4:25 - 4:27Pojedinačni n-grami određuju kulturalne trendove.
-
4:27 - 4:29Evo primjera.
-
4:29 - 4:31Pretpostavimo da napredujem,
-
4:31 - 4:33i sutra vam želim ispričati kako sam uradio.
-
4:33 - 4:36Mogu reći, "Jučer sam napredovao."
-
4:36 - 4:39Umjesto toga, mogu reći, "Jučer napredovah."
-
4:39 - 4:42Koju riječ da koristim?
-
4:42 - 4:44Kako da znam?
-
4:44 - 4:46Od prije šest mjeseci,
-
4:46 - 4:48stanje u ovom području je takvo
-
4:48 - 4:50da biste mogli, naprimjer,
-
4:50 - 4:52otići psihologu sa odličnom kosom,
-
4:52 - 4:54i reći,
-
4:54 - 4:57"Steve, ti si ekspert u nepravilnim glagolima.
-
4:57 - 4:59Šta trebam uraditi?"
-
4:59 - 5:01A on bi ti rekao, "Većina ljudi kaže napredova,
-
5:01 - 5:04ali neki kažu napredovah."
-
5:04 - 5:06Takođe ste znali, manje ili više,
-
5:06 - 5:09da ako se vratite 200 godina unazad
-
5:09 - 5:12i pitate državnika sa jednako dobrom kosom
-
5:12 - 5:15(Smijeh)
-
5:15 - 5:17"Tom, šta da kažem?"
-
5:17 - 5:19On bi rekao, "Pa, u moje vrijeme, većina ljudi kaže napredovao,
-
5:19 - 5:22a neki kažu napredovah."
-
5:22 - 5:24Sada ću vam pokazati nepripremljene podatke.
-
5:24 - 5:28Dvije kolone u tabeli sa 2 milijarde unosa.
-
5:28 - 5:30Možete vidjeti frekvenciju godinu za godinom
-
5:30 - 5:33za riječi "napredovao" i "napredovah".
-
5:34 - 5:36Ovo je samo 2
-
5:36 - 5:39od 2 milijarde kolona.
-
5:39 - 5:41Čitav set podataka
-
5:41 - 5:44je milijardu puta fenomenalniji od ovog slajda.
-
5:44 - 5:46(Smijeh)
-
5:46 - 5:50(Aplauz)
-
5:50 - 5:52JM: Ima drugih slika koje vrijede 500 milijardi riječi.
-
5:52 - 5:54Naprimjer, ova.
-
5:54 - 5:56Ako uzmemo gripu,
-
5:56 - 5:58vidjećete razdoblja kada je poznato
-
5:58 - 6:01da je epidemija gripe ubijala ljude širom planete.
-
6:01 - 6:04ELA: Ako još niste uvjereni,
-
6:04 - 6:06nivo mora se povećava,
-
6:06 - 6:09kao i nivo CO2 u atmosferi i globalna temperatura.
-
6:09 - 6:12JM: Pogledajte ovaj n-gram,
-
6:12 - 6:15koji pokazuje Nietzscheu da Bog nije mrtav,
-
6:15 - 6:18iako se morate složiti da on bi mu dobro došao bolji publicist.
-
6:18 - 6:20(Smijeh)
-
6:20 - 6:23ELA: Možete posmatrati neke vrlo abstraktne koncepte.
-
6:23 - 6:25Naprimjer, dopustite da vam kažem nešto
-
6:25 - 6:27o godini 1950-toj.
-
6:27 - 6:29Tokom čitave prošlosti, poprilično
-
6:29 - 6:31nikome nije bilo stalo do godine 1950.
-
6:31 - 6:33U 1700, 1800, i 1900.
-
6:33 - 6:36nikome nije bilo stalo.
-
6:37 - 6:39Kroz 30-te i 40-te,
-
6:39 - 6:41nikome nije bilo stalo.
-
6:41 - 6:43Najednom, sredinom 40-tih,
-
6:43 - 6:45počela je galama.
-
6:45 - 6:47Ljudi su shvatili da će se desiti 1950 godina,
-
6:47 - 6:49i da bi mogla biti važna.
-
6:49 - 6:52(Smijeh)
-
6:52 - 6:55Ali nikada se ljudi nisu više zainteresirali za godinu 1950.
-
6:55 - 6:58kao u godini 1950.
-
6:58 - 7:01(Smijeh)
-
7:01 - 7:03Ljudi su opsjednuto hodali uokolo.
-
7:03 - 7:05Nisu mogli prestati pričati
-
7:05 - 7:08o stvarima koje su radili godine 1050.,
-
7:08 - 7:11i o stvarima koje su planirali raditi godine 1950.
-
7:11 - 7:16o snovima koje su htjeli ostvariti godine 1950.
-
7:16 - 7:18Zapravo, godina 1950 bila je tako fascinantna
-
7:18 - 7:20da su godinama nakon,
-
7:20 - 7:23ljudi nastavili pričati o svim zapanjujućim stvarima koje su se desile,
-
7:23 - 7:25godine 1951, '52, '53.
-
7:25 - 7:27Napokon 1954.,
-
7:27 - 7:29neko je shvatio
-
7:29 - 7:33da je 1950. nekako zastarijela.
-
7:33 - 7:35(Smijeh)
-
7:35 - 7:37I samo tako, balon je pukao.
-
7:37 - 7:39(Smijeh)
-
7:39 - 7:41Priča o godini 1950.
-
7:41 - 7:43je priča o svakoj godini koju smo zabilježili,
-
7:43 - 7:46a malim preokretom, jer sada imamo ove lijepe grafikone.
-
7:46 - 7:49I zbog toga što imamo ove grafikone, možemo da mjerimo stvari.
-
7:49 - 7:51Možemo reći, "Kako brzo balon može da pukne?"
-
7:51 - 7:54Ispostavilo se da to možemo veoma precizno da izmjerimo.
-
7:54 - 7:57Jednačine su izvedene, grafikoni su napravljeni,
-
7:57 - 7:59i jednostavan rezultat
-
7:59 - 8:02je taj da balon buca sve brže
-
8:02 - 8:04kako godine prolaze.
-
8:04 - 8:09Sve brže gubimo interes za prošlost.
-
8:09 - 8:11JM: Sada ću vam dati jedan mali savjet u vezi odabira karijere.
-
8:11 - 8:13Za one koji žele postati poznati,
-
8:13 - 8:15saznali smo od 25 najpoznatijih političkih figura,
-
8:15 - 8:17pisaca, glumaca i tako dalje.
-
8:17 - 8:20Ako želite rano postati poznat, trebali ste biti glumac,
-
8:20 - 8:22jer u tom slučaju slava počinje da raste krajem vaših 20-tih godina --
-
8:22 - 8:24još uvijek ste mladi, što je sjajno.
-
8:24 - 8:26Ako možete čekati još malo, onda bi ste trebali biti pisac,
-
8:26 - 8:28jer onda slava doseže velike visine,
-
8:28 - 8:30kao Mark Twain, naprimjer: on je veoma poznat.
-
8:30 - 8:32Ali ako želite doseći sam vrh,
-
8:32 - 8:34trebali bi ste odgoditi slavu
-
8:34 - 8:36i, naravno, postati političar.
-
8:36 - 8:38Ovako ćete postati popularni krajem vaših 50-tih godina,
-
8:38 - 8:40i ostati veoma, veoma, poznati i nakon.
-
8:40 - 8:43I naučnici postaju slavni kako stare.
-
8:43 - 8:45Naprimejr, biolozi i fizičari
-
8:45 - 8:47su obično poznati kao i glumci.
-
8:47 - 8:50Jedina greška koju ne smijete napraviti jeste da postanete matematičar.
-
8:50 - 8:52(Smijeh)
-
8:52 - 8:54Ako to uradite,
-
8:54 - 8:57možete pomisliti, "Super. Objavit ću najbolji rad u svojim 20-tim."
-
8:57 - 8:59Ali pogodite, nikome zaista neće biti stalo.
-
8:59 - 9:02(Smijeh)
-
9:02 - 9:04ELA: Ima i nešto trezvenih bilješki
-
9:04 - 9:06mešu n-gramima.
-
9:06 - 9:08Naprimjer, ovo je put Marca Chagalla,
-
9:08 - 9:10umjetnika rođenog 1887.
-
9:10 - 9:13I ovo izgleda kao normalan put poznate osobe.
-
9:13 - 9:17On postaje sve poznatiji,
-
9:17 - 9:19osim ako gledate na njemačkom.
-
9:19 - 9:21Na njemačkom, postoji nešto veoma bizarno,
-
9:21 - 9:23nešto što se skoro nikada ne može vidjeti,
-
9:23 - 9:25a to je da on postaje strašno poznat
-
9:25 - 9:27i onda najednom njegova popularnost snažno se penje,
-
9:27 - 9:30i doseže nebeske visine između 1933 i 1945.,
-
9:30 - 9:33prije se ponovo vraća.
-
9:33 - 9:35Naravno, vidimo
-
9:35 - 9:38da je Marc Chagall bio jevrejski umjetnih
-
9:38 - 9:40u nacističkoj Njemačkoj.
-
9:40 - 9:42Ovi signali
-
9:42 - 9:44su zapravo tako jaki
-
9:44 - 9:47da ne moramo znati da je neko cenzurisan.
-
9:47 - 9:49Možemo zapravo shvatiti
-
9:49 - 9:51procesuirajući jednostavne signale.
-
9:51 - 9:53Evo jednostavnog načina za to.
-
9:53 - 9:55Logično je očekivati
-
9:55 - 9:57da nečija slava u datom preiodu
-
9:57 - 9:59bi trebala otprilike biti prosjek njihove slave prije
-
9:59 - 10:01i slave poslije.
-
10:01 - 10:03Takvo nešto mi očekujemo.
-
10:03 - 10:06I poredimo to sa slavom koju mi posmatramo.
-
10:06 - 10:08I jednostavno podijelimo jedno sa drugim
-
10:08 - 10:10da bismo dobili nešto što nazivamo indeks zabrane.
-
10:10 - 10:13Ako je indeks veoma, veoma, veoma mali,
-
10:13 - 10:15onda možda ste zabranjeni.
-
10:15 - 10:18Ako je veoma veliki, onda možda imate korist od propagande.
-
10:19 - 10:21JM: Možete zapravo posmatrati
-
10:21 - 10:24distribuciju indeksa zabrane čitave populacije.
-
10:24 - 10:26Naprimjer, ovdje --
-
10:26 - 10:28indeks zabrane za 5,000 ljudi
-
10:28 - 10:30odabranih iz engleskih udžbenika gdje nema zabrana --
-
10:30 - 10:32izgledalo bi ovako, usko centrirani na jedan.
-
10:32 - 10:34Ono što očekujete je jednostavno ono što posmatrate.
-
10:34 - 10:36Ovo je rasprostranjenost posmatrana u Njemačkoj --
-
10:36 - 10:38veoma različita, pomjerena u lijevo.
-
10:38 - 10:41Ljudi su o tome govorili dva puta manje nego što je trebalo.
-
10:41 - 10:43Ali što je najvažnije, rasprostranjenost je mnogo šira.
-
10:43 - 10:46Mnogo je ljudi koji završe na krajnje lijevoj tački rasprostranjenosti
-
10:46 - 10:49o kojima se govori 10 puta manje nego što bi trebalo.
-
10:49 - 10:51Ali i mnogi ljudi na krajnje desnoj tački
-
10:51 - 10:53očigledno imaju korist od propadande.
-
10:53 - 10:56Ova slika je znak cenzure.
-
10:56 - 10:58ELA: Kulturomija
-
10:58 - 11:00je naziv ove naše metode.
-
11:00 - 11:02Nešto je nalik genomiji.
-
11:02 - 11:04Osim što je genomija uvid u bilogiju
-
11:04 - 11:07kroz prozor slijeda baza u ljudskom genomu.
-
11:07 - 11:09Kulturomija je slična.
-
11:09 - 11:12To je primjena skupljanja podataka velikog uzorka
-
11:12 - 11:14na ljudsku kulturu.
-
11:14 - 11:16Umjesto kroz ljudski genom,
-
11:16 - 11:19gleda se kroz digitalizirane historijske zapise.
-
11:19 - 11:21Odlična stvar u vezi kulturonomije
-
11:21 - 11:23je da svako to može uraditi.
-
11:23 - 11:25Zašto je dostupna svima?
-
11:25 - 11:27Zato što su tri čovjeka,
-
11:27 - 11:30Jon Orwant, Matt Gray i Will Brockman iz Googlea,
-
11:30 - 11:32su vidjeli prototip Ngram VIewera,
-
11:32 - 11:34i rekli su, "Ovo je tako zabavno.
-
11:34 - 11:37Moramo ovo pružiti ljudima."
-
11:37 - 11:39Za ravno dvije sedmice -- dvije sedmice prije nego naš rad objavljen --
-
11:39 - 11:42napravili su verziju Ngram Viewera za javnost.
-
11:42 - 11:45Tako da sada možete ukucati bilo koju riječ ili frazu koja vas zanima
-
11:45 - 11:47i odmah vidjeti njen n-gram --
-
11:47 - 11:49i naći primjere iz ranih knjiga
-
11:49 - 11:51u kojima se vaš n-gram spominje.
-
11:51 - 11:53JM: Ngram Viewer
-
11:53 - 11:55i ovo je najbolje od svih upita.
-
11:55 - 11:58Ljudi žele najbolje, da urade najbolje što mogu.
-
11:58 - 12:01Ali izgleda da ljudi u 18-tom stoljeću o tome nisu marili.
-
12:01 - 12:04Nisu željeli uraditi najbolje, željeli su najbolje.
-
12:04 - 12:07Desilo se, naravno, ovo je samo pogreška.
-
12:07 - 12:09Nije da su težili prosjećnosti,
-
12:09 - 12:12već se S pisalo drugačije, slično F.
-
12:12 - 12:15Naravno, Google nije ovo izdvojio,
-
12:15 - 12:18tako da smo ovo naveli u naučnom članku.
-
12:18 - 12:20Ali ovo je ispalo kao podsjetnik
-
12:20 - 12:22da, iako je ovo veoma zabavno,
-
12:22 - 12:24kada tumačite ove grafikone, morate biti veoma pažljivi,
-
12:24 - 12:27i morati primijeniti ove standarde u nauci.
-
12:27 - 12:30ELA: Ljudi ovo koriste za razne zabavne svrhe.
-
12:30 - 12:37(Smijeh)
-
12:37 - 12:39Zapravo, ne moramo pričati,
-
12:39 - 12:42samo ćemo vam u tišini pokazati sve slajdove.
-
12:42 - 12:45Ovu osobu je interesovala historija frustracije.
-
12:45 - 12:48Postoje razni tipovi fustracija.
-
12:48 - 12:51Ako se udarite u nožni prst, to je jedno A "argh".
-
12:51 - 12:53Ako planetu Zemlju nasele Vogonci
-
12:53 - 12:55da naprave međuzvjezdanu zaobliaznicu,
-
12:55 - 12:57to je osam A "aaaaaaaargh."
-
12:57 - 12:59Ova osoba je istražila sve "arghove,"
-
12:59 - 13:01od jednog pa do osam slova A.
-
13:01 - 13:03I ispada
-
13:03 - 13:05najrjeđi "arghovi"
-
13:05 - 13:08su, naravno, oni koji se odnose na stvari koji više frustrirajuće --
-
13:08 - 13:11osim, začudo, početkom 80-tih.
-
13:11 - 13:13Možda to ima neke veze sa Reaganom.
-
13:13 - 13:15(Smijeh)
-
13:15 - 13:18JM: Ovi podaci se koriste u razne svrhe,
-
13:18 - 13:21ali historijski zapisi se digitalizuju.
-
13:21 - 13:23Google je počeo sa digitalizacijom 15 miliona knjiga.
-
13:23 - 13:25To je 12 posto svih knjiga koje su izdate.
-
13:25 - 13:28To je veliki dio ljudske kulture.
-
13:28 - 13:31Tu su i rukopisi, novine,
-
13:31 - 13:33tu su i materijali bez teksta, kao umjetnost i slike.
-
13:33 - 13:35To je sve u našim kompjuterima,
-
13:35 - 13:37i kompjuterima širom svijeta.
-
13:37 - 13:40Kada se to desi, to će promijeniti način na koji
-
13:40 - 13:42mi shvatamo prošlost, sadašnjost i ljudsku kulturu.
-
13:42 - 13:44Hvala vam mnogo.
-
13:44 - 13:47(Aplauz)
- Title:
- Šta smo naučili iz 5 miliona knjiga
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Jeste li isprobali Google-ov Labs' Ngram Viewer? To je zarazna alatka koja vam omogućava da tražite riječi i ideje u bazi od 5 miliona knjiga iz različitih stoljeća. Erez Lieberman Aiden and Jean-Baptiste Michel nam pokazuju kako funkcioniše, i nekoliko začuđujućih stvari koje možemo naučiti iz 500 milijardi riječi.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48