< Return to Video

El que hem après amb 5 milions de llibres.

  • 0:00 - 0:02
    Erez Lieberman Aiden: Tothom sap
  • 0:02 - 0:05
    que una imatge val més que mil mots.
  • 0:07 - 0:09
    Però a Harvard
  • 0:09 - 0:12
    ens preguntàvem si és de veres.
  • 0:12 - 0:14
    (Rialles)
  • 0:14 - 0:18
    Així doncs vam formar un grup d'experts,
  • 0:18 - 0:20
    incloent-hi Harvard, el MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, La Enciclopèdia Britànica
  • 0:23 - 0:25
    i fins i tot el nostre orgullós espònsor,
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    I ens ho vam rumiar
  • 0:30 - 0:32
    durant vora quatre anys.
  • 0:32 - 0:37
    I vam arribar a una conclusió sorprenent.
  • 0:37 - 0:40
    Senyores i senyors, una imatge no val més que mil mots.
  • 0:40 - 0:42
    De fet, vam trobar algunes imatges
  • 0:42 - 0:47
    que valen més que 500.000 milions de mots.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Així doncs com vam arribar a aquesta conclusió?
  • 0:49 - 0:51
    Erez i jo buscàvem maneres
  • 0:51 - 0:53
    de trobar una imatge general de la cultura
  • 0:53 - 0:56
    i història humanes: com canvien amb el temps.
  • 0:56 - 0:58
    S'han escrit molts i molts llibres al llarg de la història.
  • 0:58 - 1:00
    Pensàvem que la millor manera d´aprendre d'ells
  • 1:00 - 1:02
    és llegir-se tots aquests milions de llibres.
  • 1:02 - 1:05
    Ara, és clar, si hi ha una escala per a la magnitud de tot això,
  • 1:05 - 1:08
    cal que vagi extremadament per dalt.
  • 1:08 - 1:10
    El problema és que també hi ha un eix d'abscisses per a això,
  • 1:10 - 1:12
    el qual és l'eix pràctic.
  • 1:12 - 1:14
    És molt, molt baix.
  • 1:14 - 1:17
    (Aplaudiment)
  • 1:17 - 1:20
    Ara la gent tendeix a fer servir un enfocament alternatiu,
  • 1:20 - 1:22
    que és prendre poques fonts i llegilr-les amb molta cura.
  • 1:22 - 1:24
    Això és molt pràctic, però no tan sorprenent.
  • 1:24 - 1:27
    El que realment volem fer
  • 1:27 - 1:30
    és aconseguir la part sorprenent, i pràctica d'aquest espai.
  • 1:30 - 1:33
    Resulta que hi havia una companyia a l'altra vorera del riu anomenada Google
  • 1:33 - 1:35
    que havia encetat un procés de digitalització fa alguns anys
  • 1:35 - 1:37
    que potser possibilitaria aquest enfocament.
  • 1:37 - 1:39
    Han digitalitzat milions de llibres.
  • 1:39 - 1:42
    El que això vol dir és que hom podria usar mètodes informàtics
  • 1:42 - 1:44
    per llegir tots els llibres amb un clic del ratolí.
  • 1:44 - 1:47
    Això és molt pràctic i molt i molt sorprenent.
  • 1:48 - 1:50
    ELA: Us diré ara una mica sobre l'origen dels llibres.
  • 1:50 - 1:53
    Des de temps immemorials, hi ha hagut autors.
  • 1:53 - 1:56
    S'han esforçat en escriure llibres.
  • 1:56 - 1:58
    Això esdevingué molt més fàcil
  • 1:58 - 2:00
    amb el desenvolupament de la impremta fa alguns segles.
  • 2:00 - 2:03
    Des de llavors, els autors han guanyat
  • 2:03 - 2:05
    129 milions vegades,
  • 2:05 - 2:07
    tot publicant llibres.
  • 2:07 - 2:09
    Si aquests llibres no es perden en la nit dels temps,
  • 2:09 - 2:11
    aleshores hi són en algun lloc d'una biblioteca,
  • 2:11 - 2:14
    i molts d'ells han estat deixats en préstec a les biblioteques
  • 2:14 - 2:16
    i digitalitzats per Google,
  • 2:16 - 2:18
    qui ha escanejat 15 milions de llibres fins avui.
  • 2:18 - 2:21
    Quan Google digitalitza un llibre, li donen un format bonic de veres.
  • 2:21 - 2:23
    Ara tenim les dades i, a més a més, les metadades.
  • 2:23 - 2:26
    Tenim informació sobre coses com on ha estat publicat,
  • 2:26 - 2:28
    qui era l'autor, quan fou publicat.
  • 2:28 - 2:31
    I el que fem és esbrinar tots aquests registres
  • 2:31 - 2:35
    i excloure tot allò que no siguin les dades de més qualitat.
  • 2:35 - 2:37
    El que ens queda
  • 2:37 - 2:40
    és una col·leció de cinc milions de llibres,
  • 2:40 - 2:43
    500.000 milions de mots,
  • 2:43 - 2:45
    una tirallonga de lletres mil vegades més llarga
  • 2:45 - 2:48
    que el genoma humà --
  • 2:48 - 2:50
    un text que, un cop escrit,
  • 2:50 - 2:52
    faria el camí d'anada i tornada a la lluna
  • 2:52 - 2:54
    més de 10 vegades --
  • 2:54 - 2:58
    un veritable fragment del nostre genoma cultural.
  • 2:58 - 3:00
    És cert que el que vam fer
  • 3:00 - 3:03
    al enfrontar-nos a aquesta hipèrbole indignant ...
  • 3:03 - 3:05
    (Rialles)
  • 3:05 - 3:08
    fou allò que qualsevol investigador que es precïi
  • 3:08 - 3:11
    hauria fet.
  • 3:11 - 3:13
    Vam agafar una plana del còmic XKCD,
  • 3:13 - 3:15
    i diguérem, "Atura't.
  • 3:15 - 3:17
    Provarem de fer ciència."
  • 3:17 - 3:19
    (Rialles)
  • 3:19 - 3:21
    JM: És clar, hi pensem,
  • 3:21 - 3:23
    posem les dades per aquí
  • 3:23 - 3:25
    perquè la gent faci ciència amb elles.
  • 3:25 - 3:27
    I pensem, quines dades podem publicar?
  • 3:27 - 3:29
    Evidentment, hom vol prendre els llibres
  • 3:29 - 3:31
    i publicar el text sencer de cinc milions de llibres.
  • 3:31 - 3:33
    Google, i Jon Orwant en particular,
  • 3:33 - 3:35
    ens van dir una petita equació que calia que aprenguéssim.
  • 3:35 - 3:38
    Així doncs hi ha cinc milions, és a dir, cinc milions d'autors
  • 3:38 - 3:41
    i cinc millions de demandes judicials és un procés descomunal.
  • 3:41 - 3:43
    Així doncs, encara que això seria molt i molt sorprenent,
  • 3:43 - 3:46
    una vegada més, seria molt i molt poc pràctic.
  • 3:46 - 3:48
    (Rialles)
  • 3:48 - 3:50
    Llavors, gairebé ens vam ensorrar,
  • 3:50 - 3:53
    i optàrem per l'enfocament pràctic, que no era tan sorprenent.
  • 3:53 - 3:55
    Ens vam dir, en lloc de publicar el text sencer,
  • 3:55 - 3:57
    publicarem estadístiques al voltant dels llibres.
  • 3:57 - 3:59
    A tall d'exemple "A gleam of happiness."
  • 3:59 - 4:01
    Té quatre paraules; ho anomenem un quatre-grams.
  • 4:01 - 4:03
    Us direm quantes vegades va aparèixer un quatre-grams en particular
  • 4:03 - 4:05
    en els llibres de 1801, 1802, 1802,
  • 4:05 - 4:07
    fins a l'any 2008.
  • 4:07 - 4:09
    Això ens dóna una sèrie temporal
  • 4:09 - 4:11
    sobre la freqüència amb què una frase concreta ha estat usada al llarg del temps.
  • 4:11 - 4:14
    Ho fem amb tots els mots i frases que apareixen en aquells llibres,
  • 4:14 - 4:17
    i ens dóna una gran taula de 2000 milions de línies
  • 4:17 - 4:19
    que ens parla sobre la manera com la cultura ha canviat.
  • 4:19 - 4:21
    ELA: Així doncs 2000 milions de línies,
  • 4:21 - 4:23
    ho anomenem 2000 milions de n-grams.
  • 4:23 - 4:25
    Què ens diu tot això?
  • 4:25 - 4:27
    Doncs que els n-grams mesuren les tendències culturals.
  • 4:27 - 4:29
    Us posaré un exemple.
  • 4:29 - 4:31
    Suposem que estic esforçant-me,
  • 4:31 - 4:33
    demà vull contar-vos el que vaig fer ahir.
  • 4:33 - 4:36
    Podria dir-vos, "Ahir, em vaig esforçar."
  • 4:36 - 4:39
    Altrament, puc dir, "Ahir, m'esforcí."
  • 4:39 - 4:42
    Quina forma cal que faci servir?
  • 4:42 - 4:44
    Com saber-ho?
  • 4:44 - 4:46
    Fa com sis mesos,
  • 4:46 - 4:48
    el més novedós en aquest camp
  • 4:48 - 4:50
    era que, posem per cas, hom
  • 4:50 - 4:52
    aniria al psicòleg amb cabells fabulosos
  • 4:52 - 4:54
    i li preguntaria,
  • 4:54 - 4:57
    "Steve, tu que ets un expert en verbs irregulars.
  • 4:57 - 4:59
    Què cal que digui?"
  • 4:59 - 5:01
    I et diria, "la majoria de la gent diu em vaig esforçar,
  • 5:01 - 5:04
    però alguns diuen m'esforcí."
  • 5:04 - 5:06
    I hom sap que, més o menys,
  • 5:06 - 5:09
    si ens remuntem 200 anys en la història
  • 5:09 - 5:12
    i preguntem al següent estadista també amb cabells fabulosos,
  • 5:12 - 5:15
    (Rialles)
  • 5:15 - 5:17
    "Tom, què cal que digui?"
  • 5:17 - 5:19
    Diria, "Bé, en la meua època, la majoria deia m'esforcí,
  • 5:19 - 5:22
    i alguns em vaig esforçar."
  • 5:22 - 5:24
    El que ara us mostraré són dades en brut.
  • 5:24 - 5:28
    Dues línes en aquesta taula de 2000 milions d'entrades.
  • 5:28 - 5:30
    El que esteu veient és la freqüència any rere any
  • 5:30 - 5:33
    de "em vaig esforçar" i "m'esforcí".
  • 5:34 - 5:36
    Això és sols dues
  • 5:36 - 5:39
    línies dels 2000 milions.
  • 5:39 - 5:41
    Doncs totes les dades plegades
  • 5:41 - 5:44
    són 1000 milions de cops més sorprenents que aquesta diapositiva.
  • 5:44 - 5:46
    (Rialles)
  • 5:46 - 5:50
    (Aplaudiment)
  • 5:50 - 5:52
    JM: Hi ha moltes altres imatges que valen més que 500.000 milions de paraules.
  • 5:52 - 5:54
    Per exemple, aquesta.
  • 5:54 - 5:56
    Si prenem en consideració la grip
  • 5:56 - 5:58
    hom veurà pics allà on se sap que
  • 5:58 - 6:01
    grans epidèmies de grip eren mortíferes a escala mundial.
  • 6:01 - 6:04
    ELA: Si encara no estiguéssiu convençuts,
  • 6:04 - 6:06
    el nivell del mar està pujant,
  • 6:06 - 6:09
    igual que el CO2 de l'atmosfera i el rescalfament global.
  • 6:09 - 6:12
    JM: Potser us interessi fer una ullada a aquest n-gram,
  • 6:12 - 6:15
    per dir-li a Nietzsche que Déu és mort,
  • 6:15 - 6:18
    tot i que potser esteu d'acord que potser necessita un altre publicista.
  • 6:18 - 6:20
    (Rialles)
  • 6:20 - 6:23
    ELA: Hom pot arribar a alguns conceptes prou abstractes amb això.
  • 6:23 - 6:25
    Per exemple, us contaré la història
  • 6:25 - 6:27
    de l'any 1950.
  • 6:27 - 6:29
    Pel que fa a gran part de la història,
  • 6:29 - 6:31
    a ningú li importava un rave el 1950.
  • 6:31 - 6:33
    El 1700, el 1800, el 1900,
  • 6:33 - 6:36
    a ningú li importaven un rave.
  • 6:37 - 6:39
    Els anys 30 i 40,
  • 6:39 - 6:41
    a ningú li importava un rave.
  • 6:41 - 6:43
    De sobte, a mitjans dels anys 40,
  • 6:43 - 6:45
    va començar a haver-hi un rumor.
  • 6:45 - 6:47
    La gent s'adonà que 1950 anava a succeir,
  • 6:47 - 6:49
    i que potser seria gran.
  • 6:49 - 6:52
    (Rialles)
  • 6:52 - 6:55
    Però no-res va fer que la gent s'hi interessessi.
  • 6:55 - 6:58
    tant com l'any 1950.
  • 6:58 - 7:01
    (Rialles)
  • 7:01 - 7:03
    La gent s'hi estava obsessionant.
  • 7:03 - 7:05
    No podien deixar de parlar-ne
  • 7:05 - 7:08
    sobre allò que havien fet en 1950,
  • 7:08 - 7:11
    tot allò que planejaven fer en 1950,
  • 7:11 - 7:16
    tots els somnis al voltant d'allò que volien aconseguir en 1950.
  • 7:16 - 7:18
    De fet, el 1950 va ser tant fascinant
  • 7:18 - 7:20
    que durant anys després,
  • 7:20 - 7:23
    la gent va continuar parlant sobre les coses meravelloses que havien passat,
  • 7:23 - 7:25
    en 1951, 52, 53.
  • 7:25 - 7:27
    Al capdavall en 1954,
  • 7:27 - 7:29
    algú es va despertar i es va adonar
  • 7:29 - 7:33
    que el 1950 havia, d'alguna manera, passat de moda.
  • 7:33 - 7:35
    (Rialles)
  • 7:35 - 7:37
    I simplement així, la bombolla va esclatar.
  • 7:37 - 7:39
    (Rialles)
  • 7:39 - 7:41
    I la història del 1950
  • 7:41 - 7:43
    és la història de cada any que tenim enregistrat,
  • 7:43 - 7:46
    amb un petit canvi, perquè ara tenim aquests fantàstics gràfics.
  • 7:46 - 7:49
    I com que tenim aquests fantàstics gràfics, podem mesurar les coses.
  • 7:49 - 7:51
    Podem afirmar, "A quina velocitat esclata la bombolla?
  • 7:51 - 7:54
    I resulta que podem mesurar-ho amb molta precisió.
  • 7:54 - 7:57
    Vam resoldre equacions, generar gràfics.
  • 7:57 - 7:59
    i el resultat nítid
  • 7:59 - 8:02
    és que trobem que la bombolla esclata més i més ràpidament
  • 8:02 - 8:04
    amb cada any que passa.
  • 8:04 - 8:09
    El passat deixa d'interessar-nos més ràpidament.
  • 8:09 - 8:11
    JM: Ara un petit consell per a la vida professional.
  • 8:11 - 8:13
    Per a aquells de vosaltres qui vulgueu ser famosos,
  • 8:13 - 8:15
    podem aprendre de les 25 figures polítiques més famoses,
  • 8:15 - 8:17
    autors, actors, etc.
  • 8:17 - 8:20
    Així, si algú vol esdevenir famós aviat, caldria que fos actor,
  • 8:20 - 8:22
    perquè la fama comença a crèixer quan tens gariebé 30 anys --
  • 8:22 - 8:24
    encara ets jove, això és bonic de veres.
  • 8:24 - 8:26
    Ara si pots esperar una mica més, caldria que fossis un autor,
  • 8:26 - 8:28
    perquè llavors t'aixecaràs a alçades molt elevades,
  • 8:28 - 8:30
    com Mark Twain, per exemple: molt i molt famós.
  • 8:30 - 8:32
    Però si vols assolir el cim,
  • 8:32 - 8:34
    cal que endarrereixis la gratificació
  • 8:34 - 8:36
    i, és clar, esdevinguis polític.
  • 8:36 - 8:38
    En aquest cas seràs famós quan tinguis gairebé 60 anys,
  • 8:38 - 8:40
    i seràs molt i molt famós després.
  • 8:40 - 8:43
    Els científics tendeixen a ser famosos quan són encara més grans.
  • 8:43 - 8:45
    Com, per exemple, els biòlegs i els físics
  • 8:45 - 8:47
    tendeixen a ser tan famosos com els actors.
  • 8:47 - 8:50
    Una errada que cal evitar és convertir-se en matemàtic.
  • 8:50 - 8:52
    (Rialles)
  • 8:52 - 8:54
    Si ho fas,
  • 8:54 - 8:57
    potser pensis, "molt bé, faré la meua gran obra quan tingui 20 i escaig."
  • 8:57 - 8:59
    Però sabeu què, a ningú li importarà un rave.
  • 8:59 - 9:02
    (Rialles)
  • 9:02 - 9:04
    ELA: Hi ha més notes alliçonadores
  • 9:04 - 9:06
    entre els n-grams.
  • 9:06 - 9:08
    A tall d'exemple, heus aquí la trajectòria de Marc Chagall,
  • 9:08 - 9:10
    un artista nascut en 1887.
  • 9:10 - 9:13
    I això sembla la trajectòria normal de una persona famosa.
  • 9:13 - 9:17
    Es fa més i més famós,
  • 9:17 - 9:19
    excepte si recerques en alemay.
  • 9:19 - 9:21
    Si recerques en alemay, veus quelcom estrany del tot,
  • 9:21 - 9:23
    quelcom que garibé no veus mai,
  • 9:23 - 9:25
    que és que esdevé molt i molt famós
  • 9:25 - 9:27
    i llavors, sobtadament, decau
  • 9:27 - 9:30
    tot tocant fons entre 1933 i 1945,
  • 9:30 - 9:33
    abans de repuntar de nou.
  • 9:33 - 9:35
    I, és clar, el que veiem
  • 9:35 - 9:38
    és el fet que Marc Chagall era un artista jueu
  • 9:38 - 9:40
    a l'Alemanya nazi.
  • 9:40 - 9:42
    Aquests signes
  • 9:42 - 9:44
    són realment tan forts
  • 9:44 - 9:47
    que no cal que sapiguem que algú fou censurat.
  • 9:47 - 9:49
    Podem deduir-ho
  • 9:49 - 9:51
    fent servir un bàsic procesament de signes.
  • 9:51 - 9:53
    Aquí teniu una manera simple de fer-ho.
  • 9:53 - 9:55
    Una expectativa raonable
  • 9:55 - 9:57
    és que la fama d'algú en un període donat de temps
  • 9:57 - 9:59
    hauria de ser, més o menys, el promedi de la seva fama anterior
  • 9:59 - 10:01
    i la seva fama posterior.
  • 10:01 - 10:03
    Doncs això és el que esperem.
  • 10:03 - 10:06
    I comparem això amb la fama que observem.
  • 10:06 - 10:08
    I dividim l'una entre l'altra
  • 10:08 - 10:10
    per obtindre quelcom que anomenem índex de supressió.
  • 10:10 - 10:13
    Si l'índex de supressió és molt i molt petit,
  • 10:13 - 10:15
    és més que probable que t'estiguin suprimint.
  • 10:15 - 10:18
    I si és molt gran, potser és gràcies a la propaganda.
  • 10:19 - 10:21
    JM: Aquí podeu veure realment
  • 10:21 - 10:24
    la distribució dels índex de supresió de poblacions senceres.
  • 10:24 - 10:26
    Així doncs per exemple, aquí --
  • 10:26 - 10:28
    l'índex de supressió és de 5.000 persones
  • 10:28 - 10:30
    preses en llibres en anglés on no hi ha supressió coneguda --
  • 10:30 - 10:32
    seria d'aquesta manera, en essència centrat estretament al voltant del u.
  • 10:32 - 10:34
    El que ens esperaríem és el que observem.
  • 10:34 - 10:36
    Aquesta és la distribució vista en Alemanay --
  • 10:36 - 10:38
    molt diferent, està inclinada envers l'esquerra.
  • 10:38 - 10:41
    La gent en parlava dues vegades del que caldria esperar.
  • 10:41 - 10:43
    Però encara més important, la distribució és molt més àmplia.
  • 10:43 - 10:46
    Hi ha molta gent que acaben en l'extrem esquerrà d'aquesta distribució
  • 10:46 - 10:49
    dels quals es parla unes 10 vegades menys del que caldria esperar.
  • 10:49 - 10:51
    I, d'una altra banda, molta gent en el extrem contrari
  • 10:51 - 10:53
    qui semblen rebre el benefici de la propaganda.
  • 10:53 - 10:56
    Aquesta imatge és l'epítom de la censura en el registre de llibres.
  • 10:56 - 10:58
    ELA: cultròmica
  • 10:58 - 11:00
    és com hem anomenat aquest mètode.
  • 11:00 - 11:02
    És com la genòmica.
  • 11:02 - 11:04
    Tret que la genòmica és una lent vers la biologia
  • 11:04 - 11:07
    a través de la finestra de la seqüència de les bases en el genoma humà.
  • 11:07 - 11:09
    La cultròmica és similar.
  • 11:09 - 11:12
    És l'aplicació de l'anàlisi de corpus massius de dades
  • 11:12 - 11:14
    a l'estudi de la cultura humana.
  • 11:14 - 11:16
    Aquí, en lloc de fer servir la lent del genoma,
  • 11:16 - 11:19
    es fa a través de la lent de registres històrics digitalitzats.
  • 11:19 - 11:21
    El bo de la cultròmica
  • 11:21 - 11:23
    és que tothom pot practicar-la.
  • 11:23 - 11:25
    Perquè pot practicar-la tothom?
  • 11:25 - 11:27
    Gràcies a tres tipus,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray i Will Brockman a Google,
  • 11:30 - 11:32
    van veure el prototipus del Ngram Viewer,
  • 11:32 - 11:34
    i van dir-se, "Això és molt divertit.
  • 11:34 - 11:37
    Hem de posar-ho a l'abast de tothom."
  • 11:37 - 11:39
    Així que en sols dues setmanes -- les dues setmanes prèvies a la publicació de la nostra recerca --
  • 11:39 - 11:42
    van codificar una versió del Ngram Viewer per al gran públic.
  • 11:42 - 11:45
    I llavors hom pot teclejar qualsevol mot o frase en què hom estigui interessat
  • 11:45 - 11:47
    i veure el seu n-gram immediatament --
  • 11:47 - 11:49
    també navegar per exemples de diversos llibres
  • 11:49 - 11:51
    on aquest n-gram apareix.
  • 11:51 - 11:53
    JM: Va ser utilitzat més d'un milio de vegades el primer dia,
  • 11:53 - 11:55
    i això és la millor de les consultes.
  • 11:55 - 11:58
    La gent vol el bo i millor, engrescar-s'hi amb ganes.
  • 11:58 - 12:01
    Però sembla ser que en el segle XVIII, a la gent li importava un rave tot això.
  • 12:01 - 12:04
    No volien el bo i millor (best), volien el bo i millor (beft).
  • 12:04 - 12:07
    El que passava és, és clar, que això és una errada.
  • 12:07 - 12:09
    No és que s'esforcessin per la mediocritat,
  • 12:09 - 12:12
    és simplement que la S s'escrivia diferent, una mena de F.
  • 12:12 - 12:15
    Òbviament Google no ho va veure aleshores,
  • 12:15 - 12:18
    així que vam notificar-ho en el següent article científic que vam escriure.
  • 12:18 - 12:20
    Resulta que això és sols un recordatori
  • 12:20 - 12:22
    que, tot i ser molt divertit,
  • 12:22 - 12:24
    quan interpretes aquests gràfics, cal ser molt curós,
  • 12:24 - 12:27
    i cal que s'adoptin els estàndards bàsics de les ciències.
  • 12:27 - 12:30
    ELA: La gent ho ha fet servir per a tot tipus de propòsits.
  • 12:30 - 12:37
    (Rialles)
  • 12:37 - 12:39
    En realitat, no parlarem,
  • 12:39 - 12:42
    simplement mostrarem les diapositives i estarem callats.
  • 12:42 - 12:45
    Aquesta persona estava interessada en la història de la frustració.
  • 12:45 - 12:48
    Hi ha diversos tipus de frustració.
  • 12:48 - 12:51
    Si et fas mal al dit del peu, això és un "argh" amb una A.
  • 12:51 - 12:53
    Si el planeta Terra és anihilat pels Vogons
  • 12:53 - 12:55
    per fer lloc per una circumval·lació interstel·lar
  • 12:55 - 12:57
    Això és un "aaaaaaaargh" amb vuit As.
  • 12:57 - 12:59
    Aquesta persona estudia tots els "arghs,"
  • 12:59 - 13:01
    des de una A a vuit As.
  • 13:01 - 13:03
    I resulta que
  • 13:03 - 13:05
    els "arghs" menys freqüents
  • 13:05 - 13:08
    són, és clar, els que corresponen a les coses més frustrants --
  • 13:08 - 13:11
    excepte, curiosament, a principis dels anys 80.
  • 13:11 - 13:13
    Pensem que potser estigui relacionat amb Reagan.
  • 13:13 - 13:15
    (Rialles)
  • 13:15 - 13:18
    JM: Hi ha molts usos d'aquestes dades.
  • 13:18 - 13:21
    però el més important és que els arxius històrics estan sent digitaliltzats.
  • 13:21 - 13:23
    Google ha començat a digitalitzar 15 milions de llibres.
  • 13:23 - 13:25
    Això és el 12 % de tots els llibres que s'han publicat en la història.
  • 13:25 - 13:28
    És un troç important de la cultura humana.
  • 13:28 - 13:31
    Hi ha molt més en la cultura: hi ha manuscrits, periòdics,
  • 13:31 - 13:33
    hi ha coses que no són text, com ara art i quadres.
  • 13:33 - 13:35
    I resulta que tot ho tenim als nostres ordinadors,
  • 13:35 - 13:37
    als ordinadors de tot el món.
  • 13:37 - 13:40
    I quan això succeixi, això transformarà la manera que tenim
  • 13:40 - 13:42
    d'entendre el nostre passat, el nostre present i la cultura humana.
  • 13:42 - 13:44
    Moltes gràcies.
  • 13:44 - 13:47
    (Aplaudiment)
Title:
El que hem après amb 5 milions de llibres.
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Heu fet servir el Google Labs' Ngram Viewer? És una eina addictiva que et permet cercar mots i idees en una base de dades de 5 milions de llibres de diferents segles. Erez Lieberman Aiden i Jean-Baptiste Michel ens monstren que funciona, i també algunes de les coses sorprenents que podem aprendre amb 5000 milions de mots.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Dimitra Papageorgiou approved Catalan subtitles for What we learned from 5 million books
Fran Ontanaya accepted Catalan subtitles for What we learned from 5 million books
Fran Ontanaya edited Catalan subtitles for What we learned from 5 million books
Eduardo Otsoa added a translation

Catalan subtitles

Revisions