Erez Lieberman Aiden: Tothom sap
que una imatge val més que mil mots.
Però a Harvard
ens preguntàvem si és de veres.
(Rialles)
Així doncs vam formar un grup d'experts,
incloent-hi Harvard, el MIT,
The American Heritage Dictionary, La Enciclopèdia Britànica
i fins i tot el nostre orgullós espònsor,
Google.
I ens ho vam rumiar
durant vora quatre anys.
I vam arribar a una conclusió sorprenent.
Senyores i senyors, una imatge no val més que mil mots.
De fet, vam trobar algunes imatges
que valen més que 500.000 milions de mots.
Jean-Baptiste Michel: Així doncs com vam arribar a aquesta conclusió?
Erez i jo buscàvem maneres
de trobar una imatge general de la cultura
i història humanes: com canvien amb el temps.
S'han escrit molts i molts llibres al llarg de la història.
Pensàvem que la millor manera d´aprendre d'ells
és llegir-se tots aquests milions de llibres.
Ara, és clar, si hi ha una escala per a la magnitud de tot això,
cal que vagi extremadament per dalt.
El problema és que també hi ha un eix d'abscisses per a això,
el qual és l'eix pràctic.
És molt, molt baix.
(Aplaudiment)
Ara la gent tendeix a fer servir un enfocament alternatiu,
que és prendre poques fonts i llegilr-les amb molta cura.
Això és molt pràctic, però no tan sorprenent.
El que realment volem fer
és aconseguir la part sorprenent, i pràctica d'aquest espai.
Resulta que hi havia una companyia a l'altra vorera del riu anomenada Google
que havia encetat un procés de digitalització fa alguns anys
que potser possibilitaria aquest enfocament.
Han digitalitzat milions de llibres.
El que això vol dir és que hom podria usar mètodes informàtics
per llegir tots els llibres amb un clic del ratolí.
Això és molt pràctic i molt i molt sorprenent.
ELA: Us diré ara una mica sobre l'origen dels llibres.
Des de temps immemorials, hi ha hagut autors.
S'han esforçat en escriure llibres.
Això esdevingué molt més fàcil
amb el desenvolupament de la impremta fa alguns segles.
Des de llavors, els autors han guanyat
129 milions vegades,
tot publicant llibres.
Si aquests llibres no es perden en la nit dels temps,
aleshores hi són en algun lloc d'una biblioteca,
i molts d'ells han estat deixats en préstec a les biblioteques
i digitalitzats per Google,
qui ha escanejat 15 milions de llibres fins avui.
Quan Google digitalitza un llibre, li donen un format bonic de veres.
Ara tenim les dades i, a més a més, les metadades.
Tenim informació sobre coses com on ha estat publicat,
qui era l'autor, quan fou publicat.
I el que fem és esbrinar tots aquests registres
i excloure tot allò que no siguin les dades de més qualitat.
El que ens queda
és una col·leció de cinc milions de llibres,
500.000 milions de mots,
una tirallonga de lletres mil vegades més llarga
que el genoma humà --
un text que, un cop escrit,
faria el camí d'anada i tornada a la lluna
més de 10 vegades --
un veritable fragment del nostre genoma cultural.
És cert que el que vam fer
al enfrontar-nos a aquesta hipèrbole indignant ...
(Rialles)
fou allò que qualsevol investigador que es precïi
hauria fet.
Vam agafar una plana del còmic XKCD,
i diguérem, "Atura't.
Provarem de fer ciència."
(Rialles)
JM: És clar, hi pensem,
posem les dades per aquí
perquè la gent faci ciència amb elles.
I pensem, quines dades podem publicar?
Evidentment, hom vol prendre els llibres
i publicar el text sencer de cinc milions de llibres.
Google, i Jon Orwant en particular,
ens van dir una petita equació que calia que aprenguéssim.
Així doncs hi ha cinc milions, és a dir, cinc milions d'autors
i cinc millions de demandes judicials és un procés descomunal.
Així doncs, encara que això seria molt i molt sorprenent,
una vegada més, seria molt i molt poc pràctic.
(Rialles)
Llavors, gairebé ens vam ensorrar,
i optàrem per l'enfocament pràctic, que no era tan sorprenent.
Ens vam dir, en lloc de publicar el text sencer,
publicarem estadístiques al voltant dels llibres.
A tall d'exemple "A gleam of happiness."
Té quatre paraules; ho anomenem un quatre-grams.
Us direm quantes vegades va aparèixer un quatre-grams en particular
en els llibres de 1801, 1802, 1802,
fins a l'any 2008.
Això ens dóna una sèrie temporal
sobre la freqüència amb què una frase concreta ha estat usada al llarg del temps.
Ho fem amb tots els mots i frases que apareixen en aquells llibres,
i ens dóna una gran taula de 2000 milions de línies
que ens parla sobre la manera com la cultura ha canviat.
ELA: Així doncs 2000 milions de línies,
ho anomenem 2000 milions de n-grams.
Què ens diu tot això?
Doncs que els n-grams mesuren les tendències culturals.
Us posaré un exemple.
Suposem que estic esforçant-me,
demà vull contar-vos el que vaig fer ahir.
Podria dir-vos, "Ahir, em vaig esforçar."
Altrament, puc dir, "Ahir, m'esforcí."
Quina forma cal que faci servir?
Com saber-ho?
Fa com sis mesos,
el més novedós en aquest camp
era que, posem per cas, hom
aniria al psicòleg amb cabells fabulosos
i li preguntaria,
"Steve, tu que ets un expert en verbs irregulars.
Què cal que digui?"
I et diria, "la majoria de la gent diu em vaig esforçar,
però alguns diuen m'esforcí."
I hom sap que, més o menys,
si ens remuntem 200 anys en la història
i preguntem al següent estadista també amb cabells fabulosos,
(Rialles)
"Tom, què cal que digui?"
Diria, "Bé, en la meua època, la majoria deia m'esforcí,
i alguns em vaig esforçar."
El que ara us mostraré són dades en brut.
Dues línes en aquesta taula de 2000 milions d'entrades.
El que esteu veient és la freqüència any rere any
de "em vaig esforçar" i "m'esforcí".
Això és sols dues
línies dels 2000 milions.
Doncs totes les dades plegades
són 1000 milions de cops més sorprenents que aquesta diapositiva.
(Rialles)
(Aplaudiment)
JM: Hi ha moltes altres imatges que valen més que 500.000 milions de paraules.
Per exemple, aquesta.
Si prenem en consideració la grip
hom veurà pics allà on se sap que
grans epidèmies de grip eren mortíferes a escala mundial.
ELA: Si encara no estiguéssiu convençuts,
el nivell del mar està pujant,
igual que el CO2 de l'atmosfera i el rescalfament global.
JM: Potser us interessi fer una ullada a aquest n-gram,
per dir-li a Nietzsche que Déu és mort,
tot i que potser esteu d'acord que potser necessita un altre publicista.
(Rialles)
ELA: Hom pot arribar a alguns conceptes prou abstractes amb això.
Per exemple, us contaré la història
de l'any 1950.
Pel que fa a gran part de la història,
a ningú li importava un rave el 1950.
El 1700, el 1800, el 1900,
a ningú li importaven un rave.
Els anys 30 i 40,
a ningú li importava un rave.
De sobte, a mitjans dels anys 40,
va començar a haver-hi un rumor.
La gent s'adonà que 1950 anava a succeir,
i que potser seria gran.
(Rialles)
Però no-res va fer que la gent s'hi interessessi.
tant com l'any 1950.
(Rialles)
La gent s'hi estava obsessionant.
No podien deixar de parlar-ne
sobre allò que havien fet en 1950,
tot allò que planejaven fer en 1950,
tots els somnis al voltant d'allò que volien aconseguir en 1950.
De fet, el 1950 va ser tant fascinant
que durant anys després,
la gent va continuar parlant sobre les coses meravelloses que havien passat,
en 1951, 52, 53.
Al capdavall en 1954,
algú es va despertar i es va adonar
que el 1950 havia, d'alguna manera, passat de moda.
(Rialles)
I simplement així, la bombolla va esclatar.
(Rialles)
I la història del 1950
és la història de cada any que tenim enregistrat,
amb un petit canvi, perquè ara tenim aquests fantàstics gràfics.
I com que tenim aquests fantàstics gràfics, podem mesurar les coses.
Podem afirmar, "A quina velocitat esclata la bombolla?
I resulta que podem mesurar-ho amb molta precisió.
Vam resoldre equacions, generar gràfics.
i el resultat nítid
és que trobem que la bombolla esclata més i més ràpidament
amb cada any que passa.
El passat deixa d'interessar-nos més ràpidament.
JM: Ara un petit consell per a la vida professional.
Per a aquells de vosaltres qui vulgueu ser famosos,
podem aprendre de les 25 figures polítiques més famoses,
autors, actors, etc.
Així, si algú vol esdevenir famós aviat, caldria que fos actor,
perquè la fama comença a crèixer quan tens gariebé 30 anys --
encara ets jove, això és bonic de veres.
Ara si pots esperar una mica més, caldria que fossis un autor,
perquè llavors t'aixecaràs a alçades molt elevades,
com Mark Twain, per exemple: molt i molt famós.
Però si vols assolir el cim,
cal que endarrereixis la gratificació
i, és clar, esdevinguis polític.
En aquest cas seràs famós quan tinguis gairebé 60 anys,
i seràs molt i molt famós després.
Els científics tendeixen a ser famosos quan són encara més grans.
Com, per exemple, els biòlegs i els físics
tendeixen a ser tan famosos com els actors.
Una errada que cal evitar és convertir-se en matemàtic.
(Rialles)
Si ho fas,
potser pensis, "molt bé, faré la meua gran obra quan tingui 20 i escaig."
Però sabeu què, a ningú li importarà un rave.
(Rialles)
ELA: Hi ha més notes alliçonadores
entre els n-grams.
A tall d'exemple, heus aquí la trajectòria de Marc Chagall,
un artista nascut en 1887.
I això sembla la trajectòria normal de una persona famosa.
Es fa més i més famós,
excepte si recerques en alemay.
Si recerques en alemay, veus quelcom estrany del tot,
quelcom que garibé no veus mai,
que és que esdevé molt i molt famós
i llavors, sobtadament, decau
tot tocant fons entre 1933 i 1945,
abans de repuntar de nou.
I, és clar, el que veiem
és el fet que Marc Chagall era un artista jueu
a l'Alemanya nazi.
Aquests signes
són realment tan forts
que no cal que sapiguem que algú fou censurat.
Podem deduir-ho
fent servir un bàsic procesament de signes.
Aquí teniu una manera simple de fer-ho.
Una expectativa raonable
és que la fama d'algú en un període donat de temps
hauria de ser, més o menys, el promedi de la seva fama anterior
i la seva fama posterior.
Doncs això és el que esperem.
I comparem això amb la fama que observem.
I dividim l'una entre l'altra
per obtindre quelcom que anomenem índex de supressió.
Si l'índex de supressió és molt i molt petit,
és més que probable que t'estiguin suprimint.
I si és molt gran, potser és gràcies a la propaganda.
JM: Aquí podeu veure realment
la distribució dels índex de supresió de poblacions senceres.
Així doncs per exemple, aquí --
l'índex de supressió és de 5.000 persones
preses en llibres en anglés on no hi ha supressió coneguda --
seria d'aquesta manera, en essència centrat estretament al voltant del u.
El que ens esperaríem és el que observem.
Aquesta és la distribució vista en Alemanay --
molt diferent, està inclinada envers l'esquerra.
La gent en parlava dues vegades del que caldria esperar.
Però encara més important, la distribució és molt més àmplia.
Hi ha molta gent que acaben en l'extrem esquerrà d'aquesta distribució
dels quals es parla unes 10 vegades menys del que caldria esperar.
I, d'una altra banda, molta gent en el extrem contrari
qui semblen rebre el benefici de la propaganda.
Aquesta imatge és l'epítom de la censura en el registre de llibres.
ELA: cultròmica
és com hem anomenat aquest mètode.
És com la genòmica.
Tret que la genòmica és una lent vers la biologia
a través de la finestra de la seqüència de les bases en el genoma humà.
La cultròmica és similar.
És l'aplicació de l'anàlisi de corpus massius de dades
a l'estudi de la cultura humana.
Aquí, en lloc de fer servir la lent del genoma,
es fa a través de la lent de registres històrics digitalitzats.
El bo de la cultròmica
és que tothom pot practicar-la.
Perquè pot practicar-la tothom?
Gràcies a tres tipus,
Jon Orwant, Matt Gray i Will Brockman a Google,
van veure el prototipus del Ngram Viewer,
i van dir-se, "Això és molt divertit.
Hem de posar-ho a l'abast de tothom."
Així que en sols dues setmanes -- les dues setmanes prèvies a la publicació de la nostra recerca --
van codificar una versió del Ngram Viewer per al gran públic.
I llavors hom pot teclejar qualsevol mot o frase en què hom estigui interessat
i veure el seu n-gram immediatament --
també navegar per exemples de diversos llibres
on aquest n-gram apareix.
JM: Va ser utilitzat més d'un milio de vegades el primer dia,
i això és la millor de les consultes.
La gent vol el bo i millor, engrescar-s'hi amb ganes.
Però sembla ser que en el segle XVIII, a la gent li importava un rave tot això.
No volien el bo i millor (best), volien el bo i millor (beft).
El que passava és, és clar, que això és una errada.
No és que s'esforcessin per la mediocritat,
és simplement que la S s'escrivia diferent, una mena de F.
Òbviament Google no ho va veure aleshores,
així que vam notificar-ho en el següent article científic que vam escriure.
Resulta que això és sols un recordatori
que, tot i ser molt divertit,
quan interpretes aquests gràfics, cal ser molt curós,
i cal que s'adoptin els estàndards bàsics de les ciències.
ELA: La gent ho ha fet servir per a tot tipus de propòsits.
(Rialles)
En realitat, no parlarem,
simplement mostrarem les diapositives i estarem callats.
Aquesta persona estava interessada en la història de la frustració.
Hi ha diversos tipus de frustració.
Si et fas mal al dit del peu, això és un "argh" amb una A.
Si el planeta Terra és anihilat pels Vogons
per fer lloc per una circumval·lació interstel·lar
Això és un "aaaaaaaargh" amb vuit As.
Aquesta persona estudia tots els "arghs,"
des de una A a vuit As.
I resulta que
els "arghs" menys freqüents
són, és clar, els que corresponen a les coses més frustrants --
excepte, curiosament, a principis dels anys 80.
Pensem que potser estigui relacionat amb Reagan.
(Rialles)
JM: Hi ha molts usos d'aquestes dades.
però el més important és que els arxius històrics estan sent digitaliltzats.
Google ha començat a digitalitzar 15 milions de llibres.
Això és el 12 % de tots els llibres que s'han publicat en la història.
És un troç important de la cultura humana.
Hi ha molt més en la cultura: hi ha manuscrits, periòdics,
hi ha coses que no són text, com ara art i quadres.
I resulta que tot ho tenim als nostres ordinadors,
als ordinadors de tot el món.
I quan això succeixi, això transformarà la manera que tenim
d'entendre el nostre passat, el nostre present i la cultura humana.
Moltes gràcies.
(Aplaudiment)