< Return to Video

Šta smo naučili iz 5 miliona knjiga

  • 0:00 - 0:02
    Erez Lieberman Aide: Svako zna
  • 0:02 - 0:05
    da jedna slika vrijedi hiljadu riječi.
  • 0:07 - 0:09
    Ali mi na Harvardu
  • 0:09 - 0:12
    smo se pitali da li je ovo stvarno tačno.
  • 0:12 - 0:14
    (Smijeh)
  • 0:14 - 0:18
    Stoga smo skupili tim eksperata,
  • 0:18 - 0:20
    iz Harvarda, MIT-a,
  • 0:20 - 0:23
    The American Heritage Dictionary, Enciklopedije Britannica,
  • 0:23 - 0:25
    i naših ponosnih sponzora,
  • 0:25 - 0:28
    Googlea.
  • 0:28 - 0:30
    Razmišljali smo o tome
  • 0:30 - 0:32
    oko 4 godine.
  • 0:32 - 0:37
    I došli smo do zapanjujućeg zaključka.
  • 0:37 - 0:40
    Dame i gospodo, slika ne vrijedi hiljadu riječi.
  • 0:40 - 0:42
    Zapravo, našli smo neke slike
  • 0:42 - 0:47
    koje vrijede 500 milijardi riječi.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Kako smo došli do ovog zaključka?
  • 0:49 - 0:51
    Erez i ja smo razmišljali kako da pronađemo načine
  • 0:51 - 0:53
    da napravimo sliku ljudske kulture
  • 0:53 - 0:56
    i ljudske historije: promjenu tokom vremena.
  • 0:56 - 0:58
    Mnoštvo knjiga je napisano tokom godina.
  • 0:58 - 1:00
    Pa smo razmišljali da je najbolji način da se iz njih uči
  • 1:00 - 1:02
    jeste da pročitamo sve ove knjige.
  • 1:02 - 1:05
    Naravno, ako postoji skala fenomenalnosti,
  • 1:05 - 1:08
    mora biti jako, jako visoko.
  • 1:08 - 1:10
    Problem je što za to postoji X-osa,
  • 1:10 - 1:12
    stvarna osa.
  • 1:12 - 1:14
    Koja je veoma, veoma nisko.
  • 1:14 - 1:17
    (Aplauz)
  • 1:17 - 1:20
    Ljudi obično koriste drugi pristup,
  • 1:20 - 1:22
    uzmu par izvora i pažljivo ih čitaju.
  • 1:22 - 1:24
    Ovo je veoma praktično, ali nije tako fenomenalno.
  • 1:24 - 1:27
    Ono što zapravo želite postići
  • 1:27 - 1:30
    jeste fenomenalno, ali praktični dio ovog prostora.
  • 1:30 - 1:33
    Postoji kompanija koja se zove Google
  • 1:33 - 1:35
    i koja je prije nekoliko godina krenula sa digitalizacijom
  • 1:35 - 1:37
    koja bi pomogla ovom pristupu.
  • 1:37 - 1:39
    Digitalizirali su milione knjiga.
  • 1:39 - 1:42
    To znači da možemo kompjuterski
  • 1:42 - 1:44
    pročitati sve knjige u samo jednom kliku.
  • 1:44 - 1:47
    To je veoma praktično i fenomenalno.
  • 1:48 - 1:50
    ELA: Dozvolite mi da nešto kažem o tome odakle su potjekle knjige.
  • 1:50 - 1:53
    Od prastarih vremena, postojali su autori.
  • 1:53 - 1:56
    Ovi autori su težili da pišu knjige.
  • 1:56 - 1:58
    Ovo je postalo znatno lakše
  • 1:58 - 2:00
    od kada se, prije nekoliko stoljeća, pojavila mašina za štampanje.
  • 2:00 - 2:03
    Od tada, autori su
  • 2:03 - 2:05
    objavili oko 129 miliona
  • 2:05 - 2:07
    knjiga.
  • 2:07 - 2:09
    Ako se ove knjige nisu izgubile u prošlosti,
  • 2:09 - 2:11
    onda su negdje u knjižari,
  • 2:11 - 2:14
    a mnoge knjige su podizane iz bibilioteka
  • 2:14 - 2:16
    i digitalizovane od strane Goolgea,
  • 2:16 - 2:18
    koji je do sada skenirao 15 miliona knjiga.
  • 2:18 - 2:21
    Kada Google digitalizuje knjigu, stave je u veoma dobar format.
  • 2:21 - 2:23
    Sada imamo podatke i meta-podatke.
  • 2:23 - 2:26
    Imamo podatke o tome gdje je objavljena,
  • 2:26 - 2:28
    ko je autor, kada je objavljena.
  • 2:28 - 2:31
    I mi prelazimo sve ove podatke
  • 2:31 - 2:35
    i izbacujemo sve one podatke koji nisu kvalitetni.
  • 2:35 - 2:37
    Ono što nam preostaje je
  • 2:37 - 2:40
    kolekcija od 5 miliona knjiga,
  • 2:40 - 2:43
    500 milijardi riječi,
  • 2:43 - 2:45
    i niz slova, 1000 puta duži od
  • 2:45 - 2:48
    ljudskog genoma --
  • 2:48 - 2:50
    tekst koji, kada se ispiše,
  • 2:50 - 2:52
    bi se protezao do Mjeseca i nazad
  • 2:52 - 2:54
    10 puta --
  • 2:54 - 2:58
    prava krhotina našeg kulturnog genoma.
  • 2:58 - 3:00
    Naravno,
  • 3:00 - 3:03
    kada smo se suočili sa ovakvom nečuvenom hiperbolom...
  • 3:03 - 3:05
    (Smijeh)
  • 3:05 - 3:08
    uradili smo ono
  • 3:08 - 3:11
    što bi svaki istraživač uradio.
  • 3:11 - 3:13
    Uzeli smo stranicu iz XKCD,
  • 3:13 - 3:15
    i rekli, "Odmaknite se.
  • 3:15 - 3:17
    Isprobat ćemo nauku."
  • 3:17 - 3:19
    (Smijeh)
  • 3:19 - 3:21
    JM: Naravno, mislili smo,
  • 3:21 - 3:23
    hajmo prvo ubaciti podatke
  • 3:23 - 3:25
    koji bi ih iskoristili u nauci.
  • 3:25 - 3:27
    Razmišljali smo, koje podatke možemo obajaviti?
  • 3:27 - 3:29
    Naravno, želite objaviti
  • 3:29 - 3:31
    cijeli tekst ovih 5 miliona knjiga.
  • 3:31 - 3:33
    Google, a posebno Jon Orwant,
  • 3:33 - 3:35
    nam je pokazao jednu jednačinu koju trebamo znati.
  • 3:35 - 3:38
    Ako imate 5 miliona, tj., 5 miliona autora,
  • 3:38 - 3:41
    to znači 5 miliona tužilaca.
  • 3:41 - 3:43
    Iako bi to bilo veoma, veoma fenomenalno,
  • 3:43 - 3:46
    ipak je jako nepraktično.
  • 3:46 - 3:48
    (Smijeh)
  • 3:48 - 3:50
    Nekako smo popustili,
  • 3:50 - 3:53
    i krenuli smo praktični pristup, koji je bio malo manje fenomenalan.
  • 3:53 - 3:55
    Umjesto da objavljujemo cijeli tekst,
  • 3:55 - 3:57
    objavit ćemo statistiku o knjigama.
  • 3:57 - 3:59
    Uzmite naprimjer "Tračak sreće."
  • 3:59 - 4:01
    Ima četiri riječi; zovemo je četiri-grama.
  • 4:01 - 4:03
    Pokazat ćemo vam koliko puta se ona
  • 4:03 - 4:05
    pojavila u knjigama u 1801, 1802, 1803,
  • 4:05 - 4:07
    sve do 2008.
  • 4:07 - 4:09
    Tako znamo
  • 4:09 - 4:11
    koliko često se neka rečenica ponavljala tokom vremena.
  • 4:11 - 4:14
    Uradili smo to za sve riječi i fraze koje se pojavljuju u ovim knjigama,
  • 4:14 - 4:17
    i tako imamo tabelu od 2 milijarde redova
  • 4:17 - 4:19
    koji nam govore kako se kultura mijenjala.
  • 4:19 - 4:21
    ELA: Te redove
  • 4:21 - 4:23
    zovemo 2 milijarde n-grama.
  • 4:23 - 4:25
    Šta nam oni govore?
  • 4:25 - 4:27
    Pojedinačni n-grami određuju kulturalne trendove.
  • 4:27 - 4:29
    Evo primjera.
  • 4:29 - 4:31
    Pretpostavimo da napredujem,
  • 4:31 - 4:33
    i sutra vam želim ispričati kako sam uradio.
  • 4:33 - 4:36
    Mogu reći, "Jučer sam napredovao."
  • 4:36 - 4:39
    Umjesto toga, mogu reći, "Jučer napredovah."
  • 4:39 - 4:42
    Koju riječ da koristim?
  • 4:42 - 4:44
    Kako da znam?
  • 4:44 - 4:46
    Od prije šest mjeseci,
  • 4:46 - 4:48
    stanje u ovom području je takvo
  • 4:48 - 4:50
    da biste mogli, naprimjer,
  • 4:50 - 4:52
    otići psihologu sa odličnom kosom,
  • 4:52 - 4:54
    i reći,
  • 4:54 - 4:57
    "Steve, ti si ekspert u nepravilnim glagolima.
  • 4:57 - 4:59
    Šta trebam uraditi?"
  • 4:59 - 5:01
    A on bi ti rekao, "Većina ljudi kaže napredova,
  • 5:01 - 5:04
    ali neki kažu napredovah."
  • 5:04 - 5:06
    Takođe ste znali, manje ili više,
  • 5:06 - 5:09
    da ako se vratite 200 godina unazad
  • 5:09 - 5:12
    i pitate državnika sa jednako dobrom kosom
  • 5:12 - 5:15
    (Smijeh)
  • 5:15 - 5:17
    "Tom, šta da kažem?"
  • 5:17 - 5:19
    On bi rekao, "Pa, u moje vrijeme, većina ljudi kaže napredovao,
  • 5:19 - 5:22
    a neki kažu napredovah."
  • 5:22 - 5:24
    Sada ću vam pokazati nepripremljene podatke.
  • 5:24 - 5:28
    Dvije kolone u tabeli sa 2 milijarde unosa.
  • 5:28 - 5:30
    Možete vidjeti frekvenciju godinu za godinom
  • 5:30 - 5:33
    za riječi "napredovao" i "napredovah".
  • 5:34 - 5:36
    Ovo je samo 2
  • 5:36 - 5:39
    od 2 milijarde kolona.
  • 5:39 - 5:41
    Čitav set podataka
  • 5:41 - 5:44
    je milijardu puta fenomenalniji od ovog slajda.
  • 5:44 - 5:46
    (Smijeh)
  • 5:46 - 5:50
    (Aplauz)
  • 5:50 - 5:52
    JM: Ima drugih slika koje vrijede 500 milijardi riječi.
  • 5:52 - 5:54
    Naprimjer, ova.
  • 5:54 - 5:56
    Ako uzmemo gripu,
  • 5:56 - 5:58
    vidjećete razdoblja kada je poznato
  • 5:58 - 6:01
    da je epidemija gripe ubijala ljude širom planete.
  • 6:01 - 6:04
    ELA: Ako još niste uvjereni,
  • 6:04 - 6:06
    nivo mora se povećava,
  • 6:06 - 6:09
    kao i nivo CO2 u atmosferi i globalna temperatura.
  • 6:09 - 6:12
    JM: Pogledajte ovaj n-gram,
  • 6:12 - 6:15
    koji pokazuje Nietzscheu da Bog nije mrtav,
  • 6:15 - 6:18
    iako se morate složiti da on bi mu dobro došao bolji publicist.
  • 6:18 - 6:20
    (Smijeh)
  • 6:20 - 6:23
    ELA: Možete posmatrati neke vrlo abstraktne koncepte.
  • 6:23 - 6:25
    Naprimjer, dopustite da vam kažem nešto
  • 6:25 - 6:27
    o godini 1950-toj.
  • 6:27 - 6:29
    Tokom čitave prošlosti, poprilično
  • 6:29 - 6:31
    nikome nije bilo stalo do godine 1950.
  • 6:31 - 6:33
    U 1700, 1800, i 1900.
  • 6:33 - 6:36
    nikome nije bilo stalo.
  • 6:37 - 6:39
    Kroz 30-te i 40-te,
  • 6:39 - 6:41
    nikome nije bilo stalo.
  • 6:41 - 6:43
    Najednom, sredinom 40-tih,
  • 6:43 - 6:45
    počela je galama.
  • 6:45 - 6:47
    Ljudi su shvatili da će se desiti 1950 godina,
  • 6:47 - 6:49
    i da bi mogla biti važna.
  • 6:49 - 6:52
    (Smijeh)
  • 6:52 - 6:55
    Ali nikada se ljudi nisu više zainteresirali za godinu 1950.
  • 6:55 - 6:58
    kao u godini 1950.
  • 6:58 - 7:01
    (Smijeh)
  • 7:01 - 7:03
    Ljudi su opsjednuto hodali uokolo.
  • 7:03 - 7:05
    Nisu mogli prestati pričati
  • 7:05 - 7:08
    o stvarima koje su radili godine 1050.,
  • 7:08 - 7:11
    i o stvarima koje su planirali raditi godine 1950.
  • 7:11 - 7:16
    o snovima koje su htjeli ostvariti godine 1950.
  • 7:16 - 7:18
    Zapravo, godina 1950 bila je tako fascinantna
  • 7:18 - 7:20
    da su godinama nakon,
  • 7:20 - 7:23
    ljudi nastavili pričati o svim zapanjujućim stvarima koje su se desile,
  • 7:23 - 7:25
    godine 1951, '52, '53.
  • 7:25 - 7:27
    Napokon 1954.,
  • 7:27 - 7:29
    neko je shvatio
  • 7:29 - 7:33
    da je 1950. nekako zastarijela.
  • 7:33 - 7:35
    (Smijeh)
  • 7:35 - 7:37
    I samo tako, balon je pukao.
  • 7:37 - 7:39
    (Smijeh)
  • 7:39 - 7:41
    Priča o godini 1950.
  • 7:41 - 7:43
    je priča o svakoj godini koju smo zabilježili,
  • 7:43 - 7:46
    a malim preokretom, jer sada imamo ove lijepe grafikone.
  • 7:46 - 7:49
    I zbog toga što imamo ove grafikone, možemo da mjerimo stvari.
  • 7:49 - 7:51
    Možemo reći, "Kako brzo balon može da pukne?"
  • 7:51 - 7:54
    Ispostavilo se da to možemo veoma precizno da izmjerimo.
  • 7:54 - 7:57
    Jednačine su izvedene, grafikoni su napravljeni,
  • 7:57 - 7:59
    i jednostavan rezultat
  • 7:59 - 8:02
    je taj da balon buca sve brže
  • 8:02 - 8:04
    kako godine prolaze.
  • 8:04 - 8:09
    Sve brže gubimo interes za prošlost.
  • 8:09 - 8:11
    JM: Sada ću vam dati jedan mali savjet u vezi odabira karijere.
  • 8:11 - 8:13
    Za one koji žele postati poznati,
  • 8:13 - 8:15
    saznali smo od 25 najpoznatijih političkih figura,
  • 8:15 - 8:17
    pisaca, glumaca i tako dalje.
  • 8:17 - 8:20
    Ako želite rano postati poznat, trebali ste biti glumac,
  • 8:20 - 8:22
    jer u tom slučaju slava počinje da raste krajem vaših 20-tih godina --
  • 8:22 - 8:24
    još uvijek ste mladi, što je sjajno.
  • 8:24 - 8:26
    Ako možete čekati još malo, onda bi ste trebali biti pisac,
  • 8:26 - 8:28
    jer onda slava doseže velike visine,
  • 8:28 - 8:30
    kao Mark Twain, naprimjer: on je veoma poznat.
  • 8:30 - 8:32
    Ali ako želite doseći sam vrh,
  • 8:32 - 8:34
    trebali bi ste odgoditi slavu
  • 8:34 - 8:36
    i, naravno, postati političar.
  • 8:36 - 8:38
    Ovako ćete postati popularni krajem vaših 50-tih godina,
  • 8:38 - 8:40
    i ostati veoma, veoma, poznati i nakon.
  • 8:40 - 8:43
    I naučnici postaju slavni kako stare.
  • 8:43 - 8:45
    Naprimejr, biolozi i fizičari
  • 8:45 - 8:47
    su obično poznati kao i glumci.
  • 8:47 - 8:50
    Jedina greška koju ne smijete napraviti jeste da postanete matematičar.
  • 8:50 - 8:52
    (Smijeh)
  • 8:52 - 8:54
    Ako to uradite,
  • 8:54 - 8:57
    možete pomisliti, "Super. Objavit ću najbolji rad u svojim 20-tim."
  • 8:57 - 8:59
    Ali pogodite, nikome zaista neće biti stalo.
  • 8:59 - 9:02
    (Smijeh)
  • 9:02 - 9:04
    ELA: Ima i nešto trezvenih bilješki
  • 9:04 - 9:06
    mešu n-gramima.
  • 9:06 - 9:08
    Naprimjer, ovo je put Marca Chagalla,
  • 9:08 - 9:10
    umjetnika rođenog 1887.
  • 9:10 - 9:13
    I ovo izgleda kao normalan put poznate osobe.
  • 9:13 - 9:17
    On postaje sve poznatiji,
  • 9:17 - 9:19
    osim ako gledate na njemačkom.
  • 9:19 - 9:21
    Na njemačkom, postoji nešto veoma bizarno,
  • 9:21 - 9:23
    nešto što se skoro nikada ne može vidjeti,
  • 9:23 - 9:25
    a to je da on postaje strašno poznat
  • 9:25 - 9:27
    i onda najednom njegova popularnost snažno se penje,
  • 9:27 - 9:30
    i doseže nebeske visine između 1933 i 1945.,
  • 9:30 - 9:33
    prije se ponovo vraća.
  • 9:33 - 9:35
    Naravno, vidimo
  • 9:35 - 9:38
    da je Marc Chagall bio jevrejski umjetnih
  • 9:38 - 9:40
    u nacističkoj Njemačkoj.
  • 9:40 - 9:42
    Ovi signali
  • 9:42 - 9:44
    su zapravo tako jaki
  • 9:44 - 9:47
    da ne moramo znati da je neko cenzurisan.
  • 9:47 - 9:49
    Možemo zapravo shvatiti
  • 9:49 - 9:51
    procesuirajući jednostavne signale.
  • 9:51 - 9:53
    Evo jednostavnog načina za to.
  • 9:53 - 9:55
    Logično je očekivati
  • 9:55 - 9:57
    da nečija slava u datom preiodu
  • 9:57 - 9:59
    bi trebala otprilike biti prosjek njihove slave prije
  • 9:59 - 10:01
    i slave poslije.
  • 10:01 - 10:03
    Takvo nešto mi očekujemo.
  • 10:03 - 10:06
    I poredimo to sa slavom koju mi posmatramo.
  • 10:06 - 10:08
    I jednostavno podijelimo jedno sa drugim
  • 10:08 - 10:10
    da bismo dobili nešto što nazivamo indeks zabrane.
  • 10:10 - 10:13
    Ako je indeks veoma, veoma, veoma mali,
  • 10:13 - 10:15
    onda možda ste zabranjeni.
  • 10:15 - 10:18
    Ako je veoma veliki, onda možda imate korist od propagande.
  • 10:19 - 10:21
    JM: Možete zapravo posmatrati
  • 10:21 - 10:24
    distribuciju indeksa zabrane čitave populacije.
  • 10:24 - 10:26
    Naprimjer, ovdje --
  • 10:26 - 10:28
    indeks zabrane za 5,000 ljudi
  • 10:28 - 10:30
    odabranih iz engleskih udžbenika gdje nema zabrana --
  • 10:30 - 10:32
    izgledalo bi ovako, usko centrirani na jedan.
  • 10:32 - 10:34
    Ono što očekujete je jednostavno ono što posmatrate.
  • 10:34 - 10:36
    Ovo je rasprostranjenost posmatrana u Njemačkoj --
  • 10:36 - 10:38
    veoma različita, pomjerena u lijevo.
  • 10:38 - 10:41
    Ljudi su o tome govorili dva puta manje nego što je trebalo.
  • 10:41 - 10:43
    Ali što je najvažnije, rasprostranjenost je mnogo šira.
  • 10:43 - 10:46
    Mnogo je ljudi koji završe na krajnje lijevoj tački rasprostranjenosti
  • 10:46 - 10:49
    o kojima se govori 10 puta manje nego što bi trebalo.
  • 10:49 - 10:51
    Ali i mnogi ljudi na krajnje desnoj tački
  • 10:51 - 10:53
    očigledno imaju korist od propadande.
  • 10:53 - 10:56
    Ova slika je znak cenzure.
  • 10:56 - 10:58
    ELA: Kulturomija
  • 10:58 - 11:00
    je naziv ove naše metode.
  • 11:00 - 11:02
    Nešto je nalik genomiji.
  • 11:02 - 11:04
    Osim što je genomija uvid u bilogiju
  • 11:04 - 11:07
    kroz prozor slijeda baza u ljudskom genomu.
  • 11:07 - 11:09
    Kulturomija je slična.
  • 11:09 - 11:12
    To je primjena skupljanja podataka velikog uzorka
  • 11:12 - 11:14
    na ljudsku kulturu.
  • 11:14 - 11:16
    Umjesto kroz ljudski genom,
  • 11:16 - 11:19
    gleda se kroz digitalizirane historijske zapise.
  • 11:19 - 11:21
    Odlična stvar u vezi kulturonomije
  • 11:21 - 11:23
    je da svako to može uraditi.
  • 11:23 - 11:25
    Zašto je dostupna svima?
  • 11:25 - 11:27
    Zato što su tri čovjeka,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray i Will Brockman iz Googlea,
  • 11:30 - 11:32
    su vidjeli prototip Ngram VIewera,
  • 11:32 - 11:34
    i rekli su, "Ovo je tako zabavno.
  • 11:34 - 11:37
    Moramo ovo pružiti ljudima."
  • 11:37 - 11:39
    Za ravno dvije sedmice -- dvije sedmice prije nego naš rad objavljen --
  • 11:39 - 11:42
    napravili su verziju Ngram Viewera za javnost.
  • 11:42 - 11:45
    Tako da sada možete ukucati bilo koju riječ ili frazu koja vas zanima
  • 11:45 - 11:47
    i odmah vidjeti njen n-gram --
  • 11:47 - 11:49
    i naći primjere iz ranih knjiga
  • 11:49 - 11:51
    u kojima se vaš n-gram spominje.
  • 11:51 - 11:53
    JM: Ngram Viewer
  • 11:53 - 11:55
    i ovo je najbolje od svih upita.
  • 11:55 - 11:58
    Ljudi žele najbolje, da urade najbolje što mogu.
  • 11:58 - 12:01
    Ali izgleda da ljudi u 18-tom stoljeću o tome nisu marili.
  • 12:01 - 12:04
    Nisu željeli uraditi najbolje, željeli su najbolje.
  • 12:04 - 12:07
    Desilo se, naravno, ovo je samo pogreška.
  • 12:07 - 12:09
    Nije da su težili prosjećnosti,
  • 12:09 - 12:12
    već se S pisalo drugačije, slično F.
  • 12:12 - 12:15
    Naravno, Google nije ovo izdvojio,
  • 12:15 - 12:18
    tako da smo ovo naveli u naučnom članku.
  • 12:18 - 12:20
    Ali ovo je ispalo kao podsjetnik
  • 12:20 - 12:22
    da, iako je ovo veoma zabavno,
  • 12:22 - 12:24
    kada tumačite ove grafikone, morate biti veoma pažljivi,
  • 12:24 - 12:27
    i morati primijeniti ove standarde u nauci.
  • 12:27 - 12:30
    ELA: Ljudi ovo koriste za razne zabavne svrhe.
  • 12:30 - 12:37
    (Smijeh)
  • 12:37 - 12:39
    Zapravo, ne moramo pričati,
  • 12:39 - 12:42
    samo ćemo vam u tišini pokazati sve slajdove.
  • 12:42 - 12:45
    Ovu osobu je interesovala historija frustracije.
  • 12:45 - 12:48
    Postoje razni tipovi fustracija.
  • 12:48 - 12:51
    Ako se udarite u nožni prst, to je jedno A "argh".
  • 12:51 - 12:53
    Ako planetu Zemlju nasele Vogonci
  • 12:53 - 12:55
    da naprave međuzvjezdanu zaobliaznicu,
  • 12:55 - 12:57
    to je osam A "aaaaaaaargh."
  • 12:57 - 12:59
    Ova osoba je istražila sve "arghove,"
  • 12:59 - 13:01
    od jednog pa do osam slova A.
  • 13:01 - 13:03
    I ispada
  • 13:03 - 13:05
    najrjeđi "arghovi"
  • 13:05 - 13:08
    su, naravno, oni koji se odnose na stvari koji više frustrirajuće --
  • 13:08 - 13:11
    osim, začudo, početkom 80-tih.
  • 13:11 - 13:13
    Možda to ima neke veze sa Reaganom.
  • 13:13 - 13:15
    (Smijeh)
  • 13:15 - 13:18
    JM: Ovi podaci se koriste u razne svrhe,
  • 13:18 - 13:21
    ali historijski zapisi se digitalizuju.
  • 13:21 - 13:23
    Google je počeo sa digitalizacijom 15 miliona knjiga.
  • 13:23 - 13:25
    To je 12 posto svih knjiga koje su izdate.
  • 13:25 - 13:28
    To je veliki dio ljudske kulture.
  • 13:28 - 13:31
    Tu su i rukopisi, novine,
  • 13:31 - 13:33
    tu su i materijali bez teksta, kao umjetnost i slike.
  • 13:33 - 13:35
    To je sve u našim kompjuterima,
  • 13:35 - 13:37
    i kompjuterima širom svijeta.
  • 13:37 - 13:40
    Kada se to desi, to će promijeniti način na koji
  • 13:40 - 13:42
    mi shvatamo prošlost, sadašnjost i ljudsku kulturu.
  • 13:42 - 13:44
    Hvala vam mnogo.
  • 13:44 - 13:47
    (Aplauz)
Title:
Šta smo naučili iz 5 miliona knjiga
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Jeste li isprobali Google-ov Labs' Ngram Viewer? To je zarazna alatka koja vam omogućava da tražite riječi i ideje u bazi od 5 miliona knjiga iz različitih stoljeća. Erez Lieberman Aiden and Jean-Baptiste Michel nam pokazuju kako funkcioniše, i nekoliko začuđujućih stvari koje možemo naučiti iz 500 milijardi riječi.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Samra Cebiric added a translation

Bosnian subtitles

Revisions