< Return to Video

Što smo naučili iz 5 milijuna knjiga

  • 0:00 - 0:02
    Erez Lieberman Aiden: Svi znaju
  • 0:02 - 0:05
    da slika vrijedi tisuću riječi.
  • 0:07 - 0:09
    No, mi smo se na Harvardu
  • 0:09 - 0:12
    zapitali je li to stvarno istina.
  • 0:12 - 0:14
    (Smijeh)
  • 0:14 - 0:18
    Tako smo okupili tim stručnjaka,
  • 0:18 - 0:20
    koji obuhvaća ljude na Harvardu i MIT-u,
  • 0:20 - 0:23
    one koji rade na rječniku American Heritage i Encyclopediji Britannici,
  • 0:23 - 0:25
    čak i naše ponosne sponzore,
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    Razmišljali smo o tome
  • 0:30 - 0:32
    oko četiri godine
  • 0:32 - 0:37
    i došli smo do začuđujućeg zaključka.
  • 0:37 - 0:40
    Dame i gospodo, slika ne vrijedi tisuću riječi.
  • 0:40 - 0:42
    Čak smo pronašli neke slike
  • 0:42 - 0:47
    koje vrijede 500 milijardi riječi.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Kako smo došlo do tog zaključka?
  • 0:49 - 0:51
    Erez i ja razmišljali smo o načinima
  • 0:51 - 0:53
    na koje bismo mogli steći općenitu sliku ljudske kulture
  • 0:53 - 0:56
    i ljudske povijesti: promjene kroz vrijeme.
  • 0:56 - 0:58
    Kroz vrijeme je zapravo napisano mnogo knjiga.
  • 0:58 - 1:00
    Stoga smo mislili kako je najbolji način da nešto naučimo iz njih
  • 1:00 - 1:02
    taj da pročitamo sve te milijune knjiga.
  • 1:02 - 1:05
    Naravno, ako postoji ljestvica za mjerenje koliko je to fenomenalno,
  • 1:05 - 1:08
    tako nešto mora biti rangirano vrlo, vrlo visoko.
  • 1:08 - 1:10
    Problem je što za to postoji os x
  • 1:10 - 1:12
    ili praktična os.
  • 1:12 - 1:14
    Na njoj se to nalazi vrlo, vrlo nisko.
  • 1:14 - 1:17
    (Pljesak)
  • 1:17 - 1:20
    Ljudi su skloni primjenjivanju alternativnog pristupa,
  • 1:20 - 1:22
    a to je da izaberu nekoliko izvora i njih pročitaju vrlo pažljivo.
  • 1:22 - 1:24
    To je vrlo praktično, ali nije baš fenomenalno.
  • 1:24 - 1:27
    Ono što zapravo želite
  • 1:27 - 1:30
    jest doći do dijela koji je i fenomenalan i praktičan.
  • 1:30 - 1:33
    Ispada da s druge strane rijeke postoji tvrtka koja se zove Google,
  • 1:33 - 1:35
    koja je prije nekoliko godina počela s projektom digitalizacije
  • 1:35 - 1:37
    koji bi mogao omogućiti upravo ovaj pristup.
  • 1:37 - 1:39
    Digitalizirali su milijune knjiga.
  • 1:39 - 1:42
    A to znači da se možemo služiti računalnim metodama
  • 1:42 - 1:44
    kako bismo sve knjige pročitali pritiskom na tipku.
  • 1:44 - 1:47
    To je vrlo praktično i poprilično fenomenalno.
  • 1:48 - 1:50
    ELA: Ispričat ću vam malo o tome odakle dolaze knjige.
  • 1:50 - 1:53
    Od pamtivijeka postoje autori.
  • 1:53 - 1:56
    Oni teže tome da pišu knjige.
  • 1:56 - 1:58
    To je postalo znatno lakše
  • 1:58 - 2:00
    s razvojem tehnike tiskanja prije nekoliko stoljeća.
  • 2:00 - 2:03
    Od tada su autori pobijedili
  • 2:03 - 2:05
    129 milijuna puta
  • 2:05 - 2:07
    i objavili su knjige.
  • 2:07 - 2:09
    Ako se te knjige s vremenom nisu izgubile,
  • 2:09 - 2:11
    znači da su negdje u nekoj knjižnici.
  • 2:11 - 2:14
    Mnoge od tih knjiga izvučene su iz knjižnica
  • 2:14 - 2:16
    i Google ih je digitalizirao.
  • 2:16 - 2:18
    Do danas je skenirano 15 milijuna knjiga.
  • 2:18 - 2:21
    Kad Google digitalizira knjigu, stavlja ju u zaista zgodan format.
  • 2:21 - 2:23
    Imamo podatke, a imamo i metapodatke.
  • 2:23 - 2:26
    Imamo informacije o stvarima kao što su mjesto izdavanja,
  • 2:26 - 2:28
    ime autora, datum izdavanja.
  • 2:28 - 2:31
    I mi tada prolazimo kroz sve te zapise
  • 2:31 - 2:35
    i izostavljamo sve što nisu podaci najviše kvalitete.
  • 2:35 - 2:37
    Ono što nam ostaje
  • 2:37 - 2:40
    zbirka je od pet milijuna knjiga,
  • 2:40 - 2:43
    500 milijardi riječi,
  • 2:43 - 2:45
    niz likova koji je tisuću puta dulji
  • 2:45 - 2:48
    od ljudskog genoma --
  • 2:48 - 2:50
    tekst koji bi, kad bi se ispisao,
  • 2:50 - 2:52
    protezao 10 puta odavde do Mjeseca
  • 2:52 - 2:54
    i natrag --
  • 2:54 - 2:58
    zaista tek djelić našeg kulturnog genoma.
  • 2:58 - 3:00
    Naravno, ono što smo učinili,
  • 3:00 - 3:03
    kad smo se suočili s tako skandaloznom hiperbolom...
  • 3:03 - 3:05
    (Smijeh)
  • 3:05 - 3:08
    bilo je isto što bi učinili bilo koji istraživači
  • 3:08 - 3:11
    koji drže do sebe.
  • 3:11 - 3:13
    Uzeli smo jednu stranicu s XKCD-a
  • 3:13 - 3:15
    i rekli: "Odmaknite se!
  • 3:15 - 3:17
    Pokušat ćemo nešto znanstveno!"
  • 3:17 - 3:19
    (Smijeh)
  • 3:19 - 3:21
    JM: Naravno, mislili smo,
  • 3:21 - 3:23
    hajdemo prvo omogućiti pristup podacima
  • 3:23 - 3:25
    kako bi ih ljudi mogli znanstveno promotriti.
  • 3:25 - 3:27
    Razmišljali smo kojim podacima možemo omogućiti pristup?
  • 3:27 - 3:29
    Naravno, želite uzeti te knjige
  • 3:29 - 3:31
    i omogućiti pristup kompletnom tekstu tih pet milijuna knjiga.
  • 3:31 - 3:33
    Google, a pogotovo Jon Orwant,
  • 3:33 - 3:35
    pokazali su nam malu jednadžbu koju smo morali naučiti.
  • 3:35 - 3:38
    Imate pet milijuna knjiga, odnosno pet miljuna autora
  • 3:38 - 3:41
    i pet milijuna tužitelja u masovnoj tužbi.
  • 3:41 - 3:43
    Dakle, iako bi to bilo stvarno, stvarno fenomenalno,
  • 3:43 - 3:46
    to je opet vrlo, vrlo nepraktično.
  • 3:46 - 3:48
    (Smijeh)
  • 3:48 - 3:50
    Opet smo popustilli
  • 3:50 - 3:53
    i primijenili vrlo praktičan pristup, koji je bio nešto manje fenomenalan.
  • 3:53 - 3:55
    Rekli smo, umjesto da omogućimo pristup kompletnom tekstu,
  • 3:55 - 3:57
    omogućit ćemo pristup statistikama o knjigama.
  • 3:57 - 3:59
    Uzmite primjerice "tračak sreće" (a gleam of happiness).
  • 3:59 - 4:01
    To su četiri riječi i to zovemo četverogram.
  • 4:01 - 4:03
    Reći ćemo vam koliko se puta određeni četverogram
  • 4:03 - 4:05
    pojavio u knjigama 1801., 1802., 1803. godine,
  • 4:05 - 4:07
    i tako sve do 2008.
  • 4:07 - 4:09
    Tako dobivamo vremenski niz
  • 4:09 - 4:11
    učestalosti korištenja određene rečenice kroz vrijeme,
  • 4:11 - 4:14
    To smo napravili za sve riječi i izraze koji se pojavljuju u tim knjigama,
  • 4:14 - 4:17
    što nam daje veliku tablicu od dvije milijarde redaka
  • 4:17 - 4:19
    koji nam prikazuju način na koji se kultura mijenja.
  • 4:19 - 4:21
    ELA: Te dvije milijarde redaka
  • 4:21 - 4:23
    zovemo dvije milijarde n-grama.
  • 4:23 - 4:25
    Što nam oni govore?
  • 4:25 - 4:27
    Pojedinačni n-grami mjere kulturne trendove.
  • 4:27 - 4:29
    Dat ću vam primjer.
  • 4:29 - 4:31
    Pretpostavimo da ja težim nečemu (thrive),
  • 4:31 - 4:33
    a sutra vam želim ispričati koliko sam bio uspješan.
  • 4:33 - 4:36
    Mogao bih koristiti oblik za prošlo vrijeme "throve",
  • 4:36 - 4:39
    a mogao koristiti i oblike "thrived".
  • 4:39 - 4:42
    Koji bih trebao koristiti?
  • 4:42 - 4:44
    Kako to znati?
  • 4:44 - 4:46
    Prije otprilike šest mjeseci,
  • 4:46 - 4:48
    najsuvremeniji podaci u tom polju
  • 4:48 - 4:50
    kažu da biste, primjerice,
  • 4:50 - 4:52
    otišli do ovog psihologa fantastične kose
  • 4:52 - 4:54
    i rekli biste:
  • 4:54 - 4:57
    "Steve, ti si stručnjak za nepravilne glagole.
  • 4:57 - 4:59
    Što da radim?"
  • 4:59 - 5:01
    A on bi vam rekao: "Pa, većina ljudi koristi "thrived",
  • 5:01 - 5:04
    ali neki ljudi kažu "throve".
  • 5:04 - 5:06
    A znali biste i, više-manje,
  • 5:06 - 5:09
    da kad biste se vratili 200 godina u prošlost
  • 5:09 - 5:12
    i pitali ovog državnika jednako fantastične kose,
  • 5:12 - 5:15
    (Smijeh)
  • 5:15 - 5:17
    "Tome, kako bih trebao govoriti?"
  • 5:17 - 5:19
    On bi vam rekao: "Pa, u moje vrijeme većina je ljudi koristila "throve",
  • 5:19 - 5:22
    ali neki su koristili "thrived".
  • 5:22 - 5:24
    Sad ću vam pokazati samo sirove podatke.
  • 5:24 - 5:28
    Dva reda iz ove tablice od dvije milijarde unosa.
  • 5:28 - 5:30
    Sada gledate učestalost godinu za godinom
  • 5:30 - 5:33
    korištenja "thrived" i "throve" kroz vrijeme.
  • 5:34 - 5:36
    Dakle, to su samo dva reda
  • 5:36 - 5:39
    od dvije milijarde redova.
  • 5:39 - 5:41
    Ukupan skup podataka
  • 5:41 - 5:44
    milijardu je puta fenomenalniji od ovog slajda.
  • 5:44 - 5:46
    (Smijeh)
  • 5:46 - 5:50
    (Pljesak)
  • 5:50 - 5:52
    JM: Postoji mnogo drugih slika koje vrijede 500 milijardi riječi.
  • 5:52 - 5:54
    Na primjer, ova ovdje.
  • 5:54 - 5:56
    Ako uzmete samo gripu,
  • 5:56 - 5:58
    vidjet ćete vrhove u vrijeme za koje znate
  • 5:58 - 6:01
    da su velike epidemije tada ubijale ljude u cijelom svijetu.
  • 6:01 - 6:04
    ELA: Ako vam treba još dokaza,
  • 6:04 - 6:06
    diže se razina mora,
  • 6:06 - 6:09
    kao i CO2 i temperatura u svijetu.
  • 6:09 - 6:12
    JM: Možda ne bi bilo loše da pogledate i ovaj konkretni n-gram,
  • 6:12 - 6:15
    koji govori Nietzscheu da Bog nije mrtav,
  • 6:15 - 6:18
    iako se možda slažete da bi mu trebao bolji izdavač.
  • 6:18 - 6:20
    (Smijeh)
  • 6:20 - 6:23
    ELA: Na ovaj način možete dobiti prilično apstraktne koncepte.
  • 6:23 - 6:25
    Na primjer, ispričat ću vam priču
  • 6:25 - 6:27
    o 1950. godini.
  • 6:27 - 6:29
    Veliki dio povijesti,
  • 6:29 - 6:31
    nikoga nije bilo briga za 1950. godinu.
  • 6:31 - 6:33
    1700. godine, 1800., 1900.,
  • 6:33 - 6:36
    nikoga nije bilo briga.
  • 6:37 - 6:39
    30-ih i 40-ih godina,
  • 6:39 - 6:41
    nikoga nije bilo briga.
  • 6:41 - 6:43
    Odjednom, sredinom 40-ih,
  • 6:43 - 6:45
    počelo se brujati o tome.
  • 6:45 - 6:47
    Ljudi su shvatili da će doći 1950. godina
  • 6:47 - 6:49
    i da bi mogla biti važna.
  • 6:49 - 6:52
    (Smijeh)
  • 6:52 - 6:55
    Ali ništa nije ljude zainteresiralo za 1950. godinu
  • 6:55 - 6:58
    kao 1950. godina.
  • 6:58 - 7:01
    (Smijeh)
  • 7:01 - 7:03
    Ljudi su hodali uokolo opsjednuti.
  • 7:03 - 7:05
    Nisu mogli prestati govoriti
  • 7:05 - 7:08
    o svim stvarima koje su učinili 1950. godine,
  • 7:08 - 7:11
    o svim stvarima koje planiraju učiniti 1950. godine,
  • 7:11 - 7:16
    o svim snovima koje žele ostvariti 1950. godine.
  • 7:16 - 7:18
    Zapravo, 1950. godina bila je toliko fascinantna
  • 7:18 - 7:20
    da su i godinama kasnije
  • 7:20 - 7:23
    ljudi i dalje govorili o fantastičnim stvarima koje su se dogodile,
  • 7:23 - 7:25
    '51., '52., '53.
  • 7:25 - 7:27
    Na kraju, 1954. godine,
  • 7:27 - 7:29
    netko se otrijeznio i shvatio
  • 7:29 - 7:33
    da je 1950. godina postala passé.
  • 7:33 - 7:35
    (Smijeh)
  • 7:35 - 7:37
    I tako se iznenada mjehurić rasprsnuo.
  • 7:37 - 7:39
    (Smijeh)
  • 7:39 - 7:41
    Priča o 1950. godini
  • 7:41 - 7:43
    priča je o svakoj godini koju smo zabilježili,
  • 7:43 - 7:46
    s malom razlikom, jer sad imamo ove krasne grafove.
  • 7:46 - 7:49
    A budući da imamo te krasne grafove, možemo mjeriti razne stvari.
  • 7:49 - 7:51
    Možemo pitati: "Koliko će se brzo mjehurić rasprsnuti?"
  • 7:51 - 7:54
    Ispada da to možemo vrlo precizno izmjeriti.
  • 7:54 - 7:57
    Jednadžbe su se derivirale, grafovi su se crtali,
  • 7:57 - 7:59
    a ukupni rezultat
  • 7:59 - 8:02
    jest taj da smo otkrili da se mjehurić rasprsne sve brže
  • 8:02 - 8:04
    sa svakom godinom koja prođe.
  • 8:04 - 8:09
    Sve brže gubimo zanimanje za prošlost.
  • 8:09 - 8:11
    JM: A sad mali savjet o odabiru karijere.
  • 8:11 - 8:13
    Oni među vama koji žele biti slavni
  • 8:13 - 8:15
    mogu ponešto naučiti od 25 najpoznatijih političkih ličnosti,
  • 8:15 - 8:17
    pisaca, glumaca i drugih.
  • 8:17 - 8:20
    Dakle, ako želite rano postati slavni, trebate postati glumac
  • 8:20 - 8:22
    jer tada postajete slavni do kraja svojih 20-ih godina --
  • 8:22 - 8:24
    još uvijek ste mladi i to je odlično.
  • 8:24 - 8:26
    Ako možete malo čekati, trebali biste biti pisac
  • 8:26 - 8:28
    jer tada se možete vrlo visoko uzdignuti,
  • 8:28 - 8:30
    poput primjerice Marka Twaina, on je bio zaista slavan.
  • 8:30 - 8:32
    Ali ako želite dosegnuti sam vrh,
  • 8:32 - 8:34
    trebali biste odgoditi zadovoljstvo
  • 8:34 - 8:36
    i, naravno, postati političar.
  • 8:36 - 8:38
    U tom ćete slučaju postati poznati do kraja svojih 50-ih godina,
  • 8:38 - 8:40
    i ostati vrlo, vrlo poznati nakon toga.
  • 8:40 - 8:43
    Znanstvenici uglavnom, isto tako, postaju poznati kad ostare.
  • 8:43 - 8:45
    Biolozi i fizičari, primjerice,
  • 8:45 - 8:47
    znaju biti gotovo jednako slavni kao i glumci.
  • 8:47 - 8:50
    Trebate izbjeći samo jednu pogrešku - da postanete matematičar.
  • 8:50 - 8:52
    (Smijeh)
  • 8:52 - 8:54
    Ako to učinite,
  • 8:54 - 8:57
    možda ćete pomisliti: "Odlično, u 20-ima ću napraviti napraviti svoje najbolje radove."
  • 8:57 - 8:59
    No, znate što, nikoga neće biti briga.
  • 8:59 - 9:02
    (Smijeh)
  • 9:02 - 9:04
    ELA: Postoje i neke ozbiljnije činjenice
  • 9:04 - 9:06
    među n-gramima.
  • 9:06 - 9:08
    Primjerice, evo putanje Marca Chagalla,
  • 9:08 - 9:10
    umjetnika rođenog 1887. godine.
  • 9:10 - 9:13
    Ovo izgleda kao normalna putanja poznate osobe.
  • 9:13 - 9:17
    Postaje sve poznatiji i poznatiji,
  • 9:17 - 9:19
    osim ako gledate za njemački jezik.
  • 9:19 - 9:21
    Ako gledate za njemački, vidjet ćete nešto vrlo bizarno,
  • 9:21 - 9:23
    nešto što gotovo nikad ne vidite,
  • 9:23 - 9:25
    a to je da postaje iznimno poznat,
  • 9:25 - 9:27
    a nakon toga mu popularnost iznenada padne,
  • 9:27 - 9:30
    pri čemu su najniže točke bile između 1933. i 1945. godine,
  • 9:30 - 9:33
    nakon čega mu se opet vratila popularnost.
  • 9:33 - 9:35
    Naravno, on što zapravo vidimo
  • 9:35 - 9:38
    jest činjenica da je Marc Chagall bio židovski umjetnik
  • 9:38 - 9:40
    u nacističkoj Njemačkoj.
  • 9:40 - 9:42
    Ovi su signali
  • 9:42 - 9:44
    zapravo toliko jaki
  • 9:44 - 9:47
    da ne trebamo ni znati da su nekoga cenzurirali.
  • 9:47 - 9:49
    Zapravo to možemo zaključiti
  • 9:49 - 9:51
    koristeći osnovnu obradu znakova.
  • 9:51 - 9:53
    Evo jednostavnog načina kako to učiniti.
  • 9:53 - 9:55
    Razumno je za očekivati
  • 9:55 - 9:57
    da će nečija slava u određenom razdoblju
  • 9:57 - 9:59
    biti otprilike prosjek slave te osobe
  • 9:59 - 10:01
    prije i nakon tog razdoblja.
  • 10:01 - 10:03
    To je otprilike ono što mi očekujemo.
  • 10:03 - 10:06
    I to uspoređujemo sa slavom koju promatramo.
  • 10:06 - 10:08
    Samo podijelimo jedno drugim
  • 10:08 - 10:10
    kako bismo dobili takozvani indeks zabrane.
  • 10:10 - 10:13
    Ako je indeks zabrane vrlo, vrlo, vrlo malen,
  • 10:13 - 10:15
    onda ste vrlo vjerojatno bili zabranjeni.
  • 10:15 - 10:18
    Ako je vrlo velik, možda profitirate od propagande.
  • 10:19 - 10:21
    JM: Zapravo možete promatrati
  • 10:21 - 10:24
    raspored indeksa zabrane unutar populacija.
  • 10:24 - 10:26
    Na primjer, ovdje --
  • 10:26 - 10:28
    ovo je indeks zabrane za 5.000 ljudi
  • 10:28 - 10:30
    odabranih u engleskim knjigama u kojima nije zabilježeno zabranjivanje --
  • 10:30 - 10:32
    bilo bi ovako, usko centrirano oko jednog.
  • 10:32 - 10:34
    Ono što očekujete u biti je ono što i vidite.
  • 10:34 - 10:36
    Ovo je raspored za Njemačku --
  • 10:36 - 10:38
    vrlo različito, pomaknuto je ulijevo.
  • 10:38 - 10:41
    Ljudi su o tome razgovarali upola manje nego što su trebali.
  • 10:41 - 10:43
    No, mnogo je važnije da je raspored širi.
  • 10:43 - 10:46
    Ima mnogo ljudi koji su sasvim na lijevoj strani rasporeda
  • 10:46 - 10:49
    i o kojima se govori 10 puta manje nego što bi se trebalo.
  • 10:49 - 10:51
    Ali isto tako ima mnogo ljudi na sasvim desnoj strani
  • 10:51 - 10:53
    koji, izgleda, profitiraju od propagande.
  • 10:53 - 10:56
    Ova je slika glavni simbol cenzure u knjigama.
  • 10:56 - 10:58
    ELA: Dakle, kulturomika
  • 10:58 - 11:00
    jest ime koje smo dali ovoj metodi.
  • 11:00 - 11:02
    Nalikuje na genomiku.
  • 11:02 - 11:04
    Osim što je genomika pogled na biologiju,
  • 11:04 - 11:07
    pogled na slijed baza u ljudskom genomu.
  • 11:07 - 11:09
    Kulturomika je slična tome.
  • 11:09 - 11:12
    To je primjena analize ogromnog skupa podataka
  • 11:12 - 11:14
    na proučavanje ljudske kulture.
  • 11:14 - 11:16
    Ovdje, umjesto da promatramo genom,
  • 11:16 - 11:19
    promatramo digitalizirane dijelove povijesnih zapisa.
  • 11:19 - 11:21
    Ono što je odlično kod kulturomike
  • 11:21 - 11:23
    jest to da se svi mogu njome baviti.
  • 11:23 - 11:25
    Zašto se svi mogu njome baviti?
  • 11:25 - 11:27
    Svi se mogu njome baviti jer su tri tipa,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray i Will Brockman iz Googlea
  • 11:30 - 11:32
    vidjeli prototip preglednika Ngram
  • 11:32 - 11:34
    i rekli: "Ovo je tako zabavno.
  • 11:34 - 11:37
    Moramo ljudima omogućiti pristup tome."
  • 11:37 - 11:39
    Za samo dva tjedna -- dva tjedna prije nego nam je objavljen članak --
  • 11:39 - 11:42
    iskodirali su verziju pregledika Ngram za javnost.
  • 11:42 - 11:45
    Tako da i vi možete unijeti bilo koju riječ ili izraz koji vas zanima
  • 11:45 - 11:47
    i odmah vidjeti njegove n-grame --
  • 11:47 - 11:49
    isto tako možete pregledavati primjere iz svih knjiga
  • 11:49 - 11:51
    u kojima se pojavljuje vaš n-gram.
  • 11:51 - 11:53
    JM: Ovaj je preglednik korišten više od milijun puta prvog dana,
  • 11:53 - 11:55
    i ovo je zapravo najbolji od svih upita.
  • 11:55 - 11:58
    Ljudi žele dati sve od sebe, pokazati se u najboljem svijetlu.
  • 11:58 - 12:01
    Ali ispada da u 18. stoljeću ljudima uopće nije bilo stalo do toga.
  • 12:01 - 12:04
    Nisu željeli dati sve od sebe, željeli su dati fve od sebe.
  • 12:04 - 12:07
    Naravno, ovdje se radi samo o pogrešci.
  • 12:07 - 12:09
    Nije da su težili osrednjosti,
  • 12:09 - 12:12
    već se S prije pisao drugačije, pomalo nalik na F.
  • 12:12 - 12:15
    Naravno, Google to nije prepoznao
  • 12:15 - 12:18
    i to smo napomenuli u znanstvenom članku koji smo napisali.
  • 12:18 - 12:20
    No, ispada da je ovo samo podsjetnik da,
  • 12:20 - 12:22
    iako je ovo vrlo zabavno,
  • 12:22 - 12:24
    kad tumačite ove grafove, morate biti vrlo oprezni
  • 12:24 - 12:27
    i morate usvojiti ove temeljne znastvene standarde.
  • 12:27 - 12:30
    ELA: Ljudi ovo koriste za razne zabavne namjene.
  • 12:30 - 12:37
    (Smijeh)
  • 12:37 - 12:39
    Zapravo, ne moramo ni govoriti,
  • 12:39 - 12:42
    samo ćemo vam pokazati sve slajdove i šutjeti.
  • 12:42 - 12:45
    Ovu osobu je zanimala povijest frustracije.
  • 12:45 - 12:48
    Postoje različite vrste frustracija.
  • 12:48 - 12:51
    Kad se udarite u nožni prst, to je "argh" s jednim A.
  • 12:51 - 12:53
    Ako plant Zemlju unište Vogonci
  • 12:53 - 12:55
    kako bi napravili mjesta za međuzvjezdanu zaobilaznicu,
  • 12:55 - 12:57
    to je "aaaaaaaargh" s 8 A-ova.
  • 12:57 - 12:59
    Ova osoba proučava sve "arghove",
  • 12:59 - 13:01
    od jednog do 8 A-ova.
  • 13:01 - 13:03
    Ispada da su
  • 13:03 - 13:05
    manje učestali "arghovi"
  • 13:05 - 13:08
    naravno, oni koji odgovaraju stvarima koje izazivaju veću frustraciju --
  • 13:08 - 13:11
    osim, čudno, početkom 80-ih.
  • 13:11 - 13:13
    Mislimo da to možda ima veze s Reaganom.
  • 13:13 - 13:15
    (Smijeh)
  • 13:15 - 13:18
    JM: Ovi se podaci mogu koristiti za razne namjene,
  • 13:18 - 13:21
    ali ono što je bitno jest da se povijesni zapisi digitaliziraju.
  • 13:21 - 13:23
    Google je počeo digitalizirati 15 milijuna knjiga.
  • 13:23 - 13:25
    To je 12 posto svih knjiga koje su ikad izdane.
  • 13:25 - 13:28
    To je povelik dio ljudske kulture.
  • 13:28 - 13:31
    U kulturi ima još mnogo toga: rukopisi, novine,
  • 13:31 - 13:33
    postoje stvari koje nisu tekst, poput umjetnosti i slika.
  • 13:33 - 13:35
    To će sve biti na našim računalima,
  • 13:35 - 13:37
    na računalima u cijelome svijetu.
  • 13:37 - 13:40
    A kad se to dogodi, promijenit će se način na koji smo
  • 13:40 - 13:42
    shvaćali svoju prošlost, svoju sadašnjost i ljudsku kulturu.
  • 13:42 - 13:44
    Hvala vam puno.
  • 13:44 - 13:47
    (Pljesak)
Title:
Što smo naučili iz 5 milijuna knjiga
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Jeste li se igrali preglednikom Ngram na Google Labs? Navući ćete se na taj alat pomoću kojega možete tražiti riječi i ideje u bazi podataka od pet milijuna knjiga nastalih kroz više stoljeća. Erez Lieberman Aiden i Jean-Baptiste Michel pokazuju nam kako to funkcionira te predstavljaju nekoliko iznenađujućih stvari koje možemo naučiti iz 5 milijardi riječi.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Katarina Smetko added a translation

Croatian subtitles

Revisions