WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Tothom sap 00:00:02.000 --> 00:00:05.000 que una imatge val més que mil mots. 00:00:07.000 --> 00:00:09.000 Però a Harvard 00:00:09.000 --> 00:00:12.000 ens preguntàvem si és de veres. 00:00:12.000 --> 00:00:14.000 (Rialles) 00:00:14.000 --> 00:00:18.000 Així doncs vam formar un grup d'experts, 00:00:18.000 --> 00:00:20.000 incloent-hi Harvard, el MIT, 00:00:20.000 --> 00:00:23.000 The American Heritage Dictionary, La Enciclopèdia Britànica 00:00:23.000 --> 00:00:25.000 i fins i tot el nostre orgullós espònsor, 00:00:25.000 --> 00:00:28.000 Google. 00:00:28.000 --> 00:00:30.000 I ens ho vam rumiar 00:00:30.000 --> 00:00:32.000 durant vora quatre anys. 00:00:32.000 --> 00:00:37.000 I vam arribar a una conclusió sorprenent. 00:00:37.000 --> 00:00:40.000 Senyores i senyors, una imatge no val més que mil mots. 00:00:40.000 --> 00:00:42.000 De fet, vam trobar algunes imatges 00:00:42.000 --> 00:00:47.000 que valen més que 500.000 milions de mots. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Així doncs com vam arribar a aquesta conclusió? 00:00:49.000 --> 00:00:51.000 Erez i jo buscàvem maneres 00:00:51.000 --> 00:00:53.000 de trobar una imatge general de la cultura 00:00:53.000 --> 00:00:56.000 i història humanes: com canvien amb el temps. 00:00:56.000 --> 00:00:58.000 S'han escrit molts i molts llibres al llarg de la història. 00:00:58.000 --> 00:01:00.000 Pensàvem que la millor manera d´aprendre d'ells 00:01:00.000 --> 00:01:02.000 és llegir-se tots aquests milions de llibres. 00:01:02.000 --> 00:01:05.000 Ara, és clar, si hi ha una escala per a la magnitud de tot això, 00:01:05.000 --> 00:01:08.000 cal que vagi extremadament per dalt. 00:01:08.000 --> 00:01:10.000 El problema és que també hi ha un eix d'abscisses per a això, 00:01:10.000 --> 00:01:12.000 el qual és l'eix pràctic. 00:01:12.000 --> 00:01:14.000 És molt, molt baix. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Aplaudiment) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Ara la gent tendeix a fer servir un enfocament alternatiu, 00:01:20.000 --> 00:01:22.000 que és prendre poques fonts i llegilr-les amb molta cura. 00:01:22.000 --> 00:01:24.000 Això és molt pràctic, però no tan sorprenent. 00:01:24.000 --> 00:01:27.000 El que realment volem fer 00:01:27.000 --> 00:01:30.000 és aconseguir la part sorprenent, i pràctica d'aquest espai. 00:01:30.000 --> 00:01:33.000 Resulta que hi havia una companyia a l'altra vorera del riu anomenada Google 00:01:33.000 --> 00:01:35.000 que havia encetat un procés de digitalització fa alguns anys 00:01:35.000 --> 00:01:37.000 que potser possibilitaria aquest enfocament. 00:01:37.000 --> 00:01:39.000 Han digitalitzat milions de llibres. 00:01:39.000 --> 00:01:42.000 El que això vol dir és que hom podria usar mètodes informàtics 00:01:42.000 --> 00:01:44.000 per llegir tots els llibres amb un clic del ratolí. 00:01:44.000 --> 00:01:47.000 Això és molt pràctic i molt i molt sorprenent. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Us diré ara una mica sobre l'origen dels llibres. 00:01:50.000 --> 00:01:53.000 Des de temps immemorials, hi ha hagut autors. 00:01:53.000 --> 00:01:56.000 S'han esforçat en escriure llibres. 00:01:56.000 --> 00:01:58.000 Això esdevingué molt més fàcil 00:01:58.000 --> 00:02:00.000 amb el desenvolupament de la impremta fa alguns segles. 00:02:00.000 --> 00:02:03.000 Des de llavors, els autors han guanyat 00:02:03.000 --> 00:02:05.000 129 milions vegades, 00:02:05.000 --> 00:02:07.000 tot publicant llibres. 00:02:07.000 --> 00:02:09.000 Si aquests llibres no es perden en la nit dels temps, 00:02:09.000 --> 00:02:11.000 aleshores hi són en algun lloc d'una biblioteca, 00:02:11.000 --> 00:02:14.000 i molts d'ells han estat deixats en préstec a les biblioteques 00:02:14.000 --> 00:02:16.000 i digitalitzats per Google, 00:02:16.000 --> 00:02:18.000 qui ha escanejat 15 milions de llibres fins avui. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Quan Google digitalitza un llibre, li donen un format bonic de veres. 00:02:21.000 --> 00:02:23.000 Ara tenim les dades i, a més a més, les metadades. 00:02:23.000 --> 00:02:26.000 Tenim informació sobre coses com on ha estat publicat, 00:02:26.000 --> 00:02:28.000 qui era l'autor, quan fou publicat. 00:02:28.000 --> 00:02:31.000 I el que fem és esbrinar tots aquests registres 00:02:31.000 --> 00:02:35.000 i excloure tot allò que no siguin les dades de més qualitat. 00:02:35.000 --> 00:02:37.000 El que ens queda 00:02:37.000 --> 00:02:40.000 és una col·leció de cinc milions de llibres, 00:02:40.000 --> 00:02:43.000 500.000 milions de mots, 00:02:43.000 --> 00:02:45.000 una tirallonga de lletres mil vegades més llarga 00:02:45.000 --> 00:02:48.000 que el genoma humà -- 00:02:48.000 --> 00:02:50.000 un text que, un cop escrit, 00:02:50.000 --> 00:02:52.000 faria el camí d'anada i tornada a la lluna 00:02:52.000 --> 00:02:54.000 més de 10 vegades -- 00:02:54.000 --> 00:02:58.000 un veritable fragment del nostre genoma cultural. 00:02:58.000 --> 00:03:00.000 És cert que el que vam fer 00:03:00.000 --> 00:03:03.000 al enfrontar-nos a aquesta hipèrbole indignant ... 00:03:03.000 --> 00:03:05.000 (Rialles) 00:03:05.000 --> 00:03:08.000 fou allò que qualsevol investigador que es precïi 00:03:08.000 --> 00:03:11.000 hauria fet. 00:03:11.000 --> 00:03:13.000 Vam agafar una plana del còmic XKCD, 00:03:13.000 --> 00:03:15.000 i diguérem, "Atura't. 00:03:15.000 --> 00:03:17.000 Provarem de fer ciència." NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Rialles) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: És clar, hi pensem, 00:03:21.000 --> 00:03:23.000 posem les dades per aquí 00:03:23.000 --> 00:03:25.000 perquè la gent faci ciència amb elles. 00:03:25.000 --> 00:03:27.000 I pensem, quines dades podem publicar? 00:03:27.000 --> 00:03:29.000 Evidentment, hom vol prendre els llibres 00:03:29.000 --> 00:03:31.000 i publicar el text sencer de cinc milions de llibres. 00:03:31.000 --> 00:03:33.000 Google, i Jon Orwant en particular, 00:03:33.000 --> 00:03:35.000 ens van dir una petita equació que calia que aprenguéssim. 00:03:35.000 --> 00:03:38.000 Així doncs hi ha cinc milions, és a dir, cinc milions d'autors 00:03:38.000 --> 00:03:41.000 i cinc millions de demandes judicials és un procés descomunal. 00:03:41.000 --> 00:03:43.000 Així doncs, encara que això seria molt i molt sorprenent, 00:03:43.000 --> 00:03:46.000 una vegada més, seria molt i molt poc pràctic. 00:03:46.000 --> 00:03:48.000 (Rialles) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Llavors, gairebé ens vam ensorrar, 00:03:50.000 --> 00:03:53.000 i optàrem per l'enfocament pràctic, que no era tan sorprenent. 00:03:53.000 --> 00:03:55.000 Ens vam dir, en lloc de publicar el text sencer, 00:03:55.000 --> 00:03:57.000 publicarem estadístiques al voltant dels llibres. 00:03:57.000 --> 00:03:59.000 A tall d'exemple "A gleam of happiness." 00:03:59.000 --> 00:04:01.000 Té quatre paraules; ho anomenem un quatre-grams. 00:04:01.000 --> 00:04:03.000 Us direm quantes vegades va aparèixer un quatre-grams en particular 00:04:03.000 --> 00:04:05.000 en els llibres de 1801, 1802, 1802, 00:04:05.000 --> 00:04:07.000 fins a l'any 2008. 00:04:07.000 --> 00:04:09.000 Això ens dóna una sèrie temporal 00:04:09.000 --> 00:04:11.000 sobre la freqüència amb què una frase concreta ha estat usada al llarg del temps. 00:04:11.000 --> 00:04:14.000 Ho fem amb tots els mots i frases que apareixen en aquells llibres, 00:04:14.000 --> 00:04:17.000 i ens dóna una gran taula de 2000 milions de línies 00:04:17.000 --> 00:04:19.000 que ens parla sobre la manera com la cultura ha canviat. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: Així doncs 2000 milions de línies, 00:04:21.000 --> 00:04:23.000 ho anomenem 2000 milions de n-grams. 00:04:23.000 --> 00:04:25.000 Què ens diu tot això? 00:04:25.000 --> 00:04:27.000 Doncs que els n-grams mesuren les tendències culturals. 00:04:27.000 --> 00:04:29.000 Us posaré un exemple. 00:04:29.000 --> 00:04:31.000 Suposem que estic esforçant-me, 00:04:31.000 --> 00:04:33.000 demà vull contar-vos el que vaig fer ahir. 00:04:33.000 --> 00:04:36.000 Podria dir-vos, "Ahir, em vaig esforçar." 00:04:36.000 --> 00:04:39.000 Altrament, puc dir, "Ahir, m'esforcí." 00:04:39.000 --> 00:04:42.000 Quina forma cal que faci servir? 00:04:42.000 --> 00:04:44.000 Com saber-ho? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Fa com sis mesos, 00:04:46.000 --> 00:04:48.000 el més novedós en aquest camp 00:04:48.000 --> 00:04:50.000 era que, posem per cas, hom 00:04:50.000 --> 00:04:52.000 aniria al psicòleg amb cabells fabulosos 00:04:52.000 --> 00:04:54.000 i li preguntaria, 00:04:54.000 --> 00:04:57.000 "Steve, tu que ets un expert en verbs irregulars. 00:04:57.000 --> 00:04:59.000 Què cal que digui?" 00:04:59.000 --> 00:05:01.000 I et diria, "la majoria de la gent diu em vaig esforçar, 00:05:01.000 --> 00:05:04.000 però alguns diuen m'esforcí." 00:05:04.000 --> 00:05:06.000 I hom sap que, més o menys, 00:05:06.000 --> 00:05:09.000 si ens remuntem 200 anys en la història 00:05:09.000 --> 00:05:12.000 i preguntem al següent estadista també amb cabells fabulosos, 00:05:12.000 --> 00:05:15.000 (Rialles) 00:05:15.000 --> 00:05:17.000 "Tom, què cal que digui?" 00:05:17.000 --> 00:05:19.000 Diria, "Bé, en la meua època, la majoria deia m'esforcí, 00:05:19.000 --> 00:05:22.000 i alguns em vaig esforçar." 00:05:22.000 --> 00:05:24.000 El que ara us mostraré són dades en brut. 00:05:24.000 --> 00:05:28.000 Dues línes en aquesta taula de 2000 milions d'entrades. 00:05:28.000 --> 00:05:30.000 El que esteu veient és la freqüència any rere any 00:05:30.000 --> 00:05:33.000 de "em vaig esforçar" i "m'esforcí". 00:05:34.000 --> 00:05:36.000 Això és sols dues 00:05:36.000 --> 00:05:39.000 línies dels 2000 milions. 00:05:39.000 --> 00:05:41.000 Doncs totes les dades plegades 00:05:41.000 --> 00:05:44.000 són 1000 milions de cops més sorprenents que aquesta diapositiva. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Rialles) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Aplaudiment) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Hi ha moltes altres imatges que valen més que 500.000 milions de paraules. 00:05:52.000 --> 00:05:54.000 Per exemple, aquesta. 00:05:54.000 --> 00:05:56.000 Si prenem en consideració la grip 00:05:56.000 --> 00:05:58.000 hom veurà pics allà on se sap que 00:05:58.000 --> 00:06:01.000 grans epidèmies de grip eren mortíferes a escala mundial. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Si encara no estiguéssiu convençuts, 00:06:04.000 --> 00:06:06.000 el nivell del mar està pujant, 00:06:06.000 --> 00:06:09.000 igual que el CO2 de l'atmosfera i el rescalfament global. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Potser us interessi fer una ullada a aquest n-gram, 00:06:12.000 --> 00:06:15.000 per dir-li a Nietzsche que Déu és mort, 00:06:15.000 --> 00:06:18.000 tot i que potser esteu d'acord que potser necessita un altre publicista. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Rialles) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Hom pot arribar a alguns conceptes prou abstractes amb això. 00:06:23.000 --> 00:06:25.000 Per exemple, us contaré la història 00:06:25.000 --> 00:06:27.000 de l'any 1950. 00:06:27.000 --> 00:06:29.000 Pel que fa a gran part de la història, 00:06:29.000 --> 00:06:31.000 a ningú li importava un rave el 1950. 00:06:31.000 --> 00:06:33.000 El 1700, el 1800, el 1900, 00:06:33.000 --> 00:06:36.000 a ningú li importaven un rave. 00:06:37.000 --> 00:06:39.000 Els anys 30 i 40, 00:06:39.000 --> 00:06:41.000 a ningú li importava un rave. 00:06:41.000 --> 00:06:43.000 De sobte, a mitjans dels anys 40, 00:06:43.000 --> 00:06:45.000 va començar a haver-hi un rumor. 00:06:45.000 --> 00:06:47.000 La gent s'adonà que 1950 anava a succeir, 00:06:47.000 --> 00:06:49.000 i que potser seria gran. 00:06:49.000 --> 00:06:52.000 (Rialles) 00:06:52.000 --> 00:06:55.000 Però no-res va fer que la gent s'hi interessessi. 00:06:55.000 --> 00:06:58.000 tant com l'any 1950. 00:06:58.000 --> 00:07:01.000 (Rialles) 00:07:01.000 --> 00:07:03.000 La gent s'hi estava obsessionant. 00:07:03.000 --> 00:07:05.000 No podien deixar de parlar-ne 00:07:05.000 --> 00:07:08.000 sobre allò que havien fet en 1950, 00:07:08.000 --> 00:07:11.000 tot allò que planejaven fer en 1950, 00:07:11.000 --> 00:07:16.000 tots els somnis al voltant d'allò que volien aconseguir en 1950. 00:07:16.000 --> 00:07:18.000 De fet, el 1950 va ser tant fascinant 00:07:18.000 --> 00:07:20.000 que durant anys després, 00:07:20.000 --> 00:07:23.000 la gent va continuar parlant sobre les coses meravelloses que havien passat, 00:07:23.000 --> 00:07:25.000 en 1951, 52, 53. 00:07:25.000 --> 00:07:27.000 Al capdavall en 1954, 00:07:27.000 --> 00:07:29.000 algú es va despertar i es va adonar 00:07:29.000 --> 00:07:33.000 que el 1950 havia, d'alguna manera, passat de moda. 00:07:33.000 --> 00:07:35.000 (Rialles) 00:07:35.000 --> 00:07:37.000 I simplement així, la bombolla va esclatar. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Rialles) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 I la història del 1950 00:07:41.000 --> 00:07:43.000 és la història de cada any que tenim enregistrat, 00:07:43.000 --> 00:07:46.000 amb un petit canvi, perquè ara tenim aquests fantàstics gràfics. 00:07:46.000 --> 00:07:49.000 I com que tenim aquests fantàstics gràfics, podem mesurar les coses. 00:07:49.000 --> 00:07:51.000 Podem afirmar, "A quina velocitat esclata la bombolla? 00:07:51.000 --> 00:07:54.000 I resulta que podem mesurar-ho amb molta precisió. 00:07:54.000 --> 00:07:57.000 Vam resoldre equacions, generar gràfics. 00:07:57.000 --> 00:07:59.000 i el resultat nítid 00:07:59.000 --> 00:08:02.000 és que trobem que la bombolla esclata més i més ràpidament 00:08:02.000 --> 00:08:04.000 amb cada any que passa. 00:08:04.000 --> 00:08:09.000 El passat deixa d'interessar-nos més ràpidament. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Ara un petit consell per a la vida professional. 00:08:11.000 --> 00:08:13.000 Per a aquells de vosaltres qui vulgueu ser famosos, 00:08:13.000 --> 00:08:15.000 podem aprendre de les 25 figures polítiques més famoses, 00:08:15.000 --> 00:08:17.000 autors, actors, etc. 00:08:17.000 --> 00:08:20.000 Així, si algú vol esdevenir famós aviat, caldria que fos actor, 00:08:20.000 --> 00:08:22.000 perquè la fama comença a crèixer quan tens gariebé 30 anys -- 00:08:22.000 --> 00:08:24.000 encara ets jove, això és bonic de veres. 00:08:24.000 --> 00:08:26.000 Ara si pots esperar una mica més, caldria que fossis un autor, 00:08:26.000 --> 00:08:28.000 perquè llavors t'aixecaràs a alçades molt elevades, 00:08:28.000 --> 00:08:30.000 com Mark Twain, per exemple: molt i molt famós. 00:08:30.000 --> 00:08:32.000 Però si vols assolir el cim, 00:08:32.000 --> 00:08:34.000 cal que endarrereixis la gratificació 00:08:34.000 --> 00:08:36.000 i, és clar, esdevinguis polític. 00:08:36.000 --> 00:08:38.000 En aquest cas seràs famós quan tinguis gairebé 60 anys, 00:08:38.000 --> 00:08:40.000 i seràs molt i molt famós després. 00:08:40.000 --> 00:08:43.000 Els científics tendeixen a ser famosos quan són encara més grans. 00:08:43.000 --> 00:08:45.000 Com, per exemple, els biòlegs i els físics 00:08:45.000 --> 00:08:47.000 tendeixen a ser tan famosos com els actors. 00:08:47.000 --> 00:08:50.000 Una errada que cal evitar és convertir-se en matemàtic. 00:08:50.000 --> 00:08:52.000 (Rialles) 00:08:52.000 --> 00:08:54.000 Si ho fas, 00:08:54.000 --> 00:08:57.000 potser pensis, "molt bé, faré la meua gran obra quan tingui 20 i escaig." 00:08:57.000 --> 00:08:59.000 Però sabeu què, a ningú li importarà un rave. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Rialles) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ELA: Hi ha més notes alliçonadores 00:09:04.000 --> 00:09:06.000 entre els n-grams. 00:09:06.000 --> 00:09:08.000 A tall d'exemple, heus aquí la trajectòria de Marc Chagall, 00:09:08.000 --> 00:09:10.000 un artista nascut en 1887. 00:09:10.000 --> 00:09:13.000 I això sembla la trajectòria normal de una persona famosa. 00:09:13.000 --> 00:09:17.000 Es fa més i més famós, 00:09:17.000 --> 00:09:19.000 excepte si recerques en alemay. 00:09:19.000 --> 00:09:21.000 Si recerques en alemay, veus quelcom estrany del tot, 00:09:21.000 --> 00:09:23.000 quelcom que garibé no veus mai, 00:09:23.000 --> 00:09:25.000 que és que esdevé molt i molt famós 00:09:25.000 --> 00:09:27.000 i llavors, sobtadament, decau 00:09:27.000 --> 00:09:30.000 tot tocant fons entre 1933 i 1945, 00:09:30.000 --> 00:09:33.000 abans de repuntar de nou. 00:09:33.000 --> 00:09:35.000 I, és clar, el que veiem 00:09:35.000 --> 00:09:38.000 és el fet que Marc Chagall era un artista jueu 00:09:38.000 --> 00:09:40.000 a l'Alemanya nazi. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Aquests signes 00:09:42.000 --> 00:09:44.000 són realment tan forts 00:09:44.000 --> 00:09:47.000 que no cal que sapiguem que algú fou censurat. 00:09:47.000 --> 00:09:49.000 Podem deduir-ho 00:09:49.000 --> 00:09:51.000 fent servir un bàsic procesament de signes. 00:09:51.000 --> 00:09:53.000 Aquí teniu una manera simple de fer-ho. 00:09:53.000 --> 00:09:55.000 Una expectativa raonable 00:09:55.000 --> 00:09:57.000 és que la fama d'algú en un període donat de temps 00:09:57.000 --> 00:09:59.000 hauria de ser, més o menys, el promedi de la seva fama anterior 00:09:59.000 --> 00:10:01.000 i la seva fama posterior. 00:10:01.000 --> 00:10:03.000 Doncs això és el que esperem. 00:10:03.000 --> 00:10:06.000 I comparem això amb la fama que observem. 00:10:06.000 --> 00:10:08.000 I dividim l'una entre l'altra 00:10:08.000 --> 00:10:10.000 per obtindre quelcom que anomenem índex de supressió. 00:10:10.000 --> 00:10:13.000 Si l'índex de supressió és molt i molt petit, 00:10:13.000 --> 00:10:15.000 és més que probable que t'estiguin suprimint. 00:10:15.000 --> 00:10:18.000 I si és molt gran, potser és gràcies a la propaganda. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Aquí podeu veure realment 00:10:21.000 --> 00:10:24.000 la distribució dels índex de supresió de poblacions senceres. 00:10:24.000 --> 00:10:26.000 Així doncs per exemple, aquí -- 00:10:26.000 --> 00:10:28.000 l'índex de supressió és de 5.000 persones 00:10:28.000 --> 00:10:30.000 preses en llibres en anglés on no hi ha supressió coneguda -- 00:10:30.000 --> 00:10:32.000 seria d'aquesta manera, en essència centrat estretament al voltant del u. 00:10:32.000 --> 00:10:34.000 El que ens esperaríem és el que observem. 00:10:34.000 --> 00:10:36.000 Aquesta és la distribució vista en Alemanay -- 00:10:36.000 --> 00:10:38.000 molt diferent, està inclinada envers l'esquerra. 00:10:38.000 --> 00:10:41.000 La gent en parlava dues vegades del que caldria esperar. 00:10:41.000 --> 00:10:43.000 Però encara més important, la distribució és molt més àmplia. 00:10:43.000 --> 00:10:46.000 Hi ha molta gent que acaben en l'extrem esquerrà d'aquesta distribució 00:10:46.000 --> 00:10:49.000 dels quals es parla unes 10 vegades menys del que caldria esperar. 00:10:49.000 --> 00:10:51.000 I, d'una altra banda, molta gent en el extrem contrari 00:10:51.000 --> 00:10:53.000 qui semblen rebre el benefici de la propaganda. 00:10:53.000 --> 00:10:56.000 Aquesta imatge és l'epítom de la censura en el registre de llibres. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ELA: cultròmica 00:10:58.000 --> 00:11:00.000 és com hem anomenat aquest mètode. 00:11:00.000 --> 00:11:02.000 És com la genòmica. 00:11:02.000 --> 00:11:04.000 Tret que la genòmica és una lent vers la biologia 00:11:04.000 --> 00:11:07.000 a través de la finestra de la seqüència de les bases en el genoma humà. 00:11:07.000 --> 00:11:09.000 La cultròmica és similar. 00:11:09.000 --> 00:11:12.000 És l'aplicació de l'anàlisi de corpus massius de dades 00:11:12.000 --> 00:11:14.000 a l'estudi de la cultura humana. 00:11:14.000 --> 00:11:16.000 Aquí, en lloc de fer servir la lent del genoma, 00:11:16.000 --> 00:11:19.000 es fa a través de la lent de registres històrics digitalitzats. 00:11:19.000 --> 00:11:21.000 El bo de la cultròmica 00:11:21.000 --> 00:11:23.000 és que tothom pot practicar-la. 00:11:23.000 --> 00:11:25.000 Perquè pot practicar-la tothom? 00:11:25.000 --> 00:11:27.000 Gràcies a tres tipus, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray i Will Brockman a Google, 00:11:30.000 --> 00:11:32.000 van veure el prototipus del Ngram Viewer, 00:11:32.000 --> 00:11:34.000 i van dir-se, "Això és molt divertit. 00:11:34.000 --> 00:11:37.000 Hem de posar-ho a l'abast de tothom." 00:11:37.000 --> 00:11:39.000 Així que en sols dues setmanes -- les dues setmanes prèvies a la publicació de la nostra recerca -- 00:11:39.000 --> 00:11:42.000 van codificar una versió del Ngram Viewer per al gran públic. 00:11:42.000 --> 00:11:45.000 I llavors hom pot teclejar qualsevol mot o frase en què hom estigui interessat 00:11:45.000 --> 00:11:47.000 i veure el seu n-gram immediatament -- 00:11:47.000 --> 00:11:49.000 també navegar per exemples de diversos llibres 00:11:49.000 --> 00:11:51.000 on aquest n-gram apareix. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 JM: Va ser utilitzat més d'un milio de vegades el primer dia, 00:11:53.000 --> 00:11:55.000 i això és la millor de les consultes. 00:11:55.000 --> 00:11:58.000 La gent vol el bo i millor, engrescar-s'hi amb ganes. 00:11:58.000 --> 00:12:01.000 Però sembla ser que en el segle XVIII, a la gent li importava un rave tot això. 00:12:01.000 --> 00:12:04.000 No volien el bo i millor (best), volien el bo i millor (beft). 00:12:04.000 --> 00:12:07.000 El que passava és, és clar, que això és una errada. 00:12:07.000 --> 00:12:09.000 No és que s'esforcessin per la mediocritat, 00:12:09.000 --> 00:12:12.000 és simplement que la S s'escrivia diferent, una mena de F. 00:12:12.000 --> 00:12:15.000 Òbviament Google no ho va veure aleshores, 00:12:15.000 --> 00:12:18.000 així que vam notificar-ho en el següent article científic que vam escriure. 00:12:18.000 --> 00:12:20.000 Resulta que això és sols un recordatori 00:12:20.000 --> 00:12:22.000 que, tot i ser molt divertit, 00:12:22.000 --> 00:12:24.000 quan interpretes aquests gràfics, cal ser molt curós, 00:12:24.000 --> 00:12:27.000 i cal que s'adoptin els estàndards bàsics de les ciències. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: La gent ho ha fet servir per a tot tipus de propòsits. 00:12:30.000 --> 00:12:37.000 (Rialles) 00:12:37.000 --> 00:12:39.000 En realitat, no parlarem, 00:12:39.000 --> 00:12:42.000 simplement mostrarem les diapositives i estarem callats. 00:12:42.000 --> 00:12:45.000 Aquesta persona estava interessada en la història de la frustració. 00:12:45.000 --> 00:12:48.000 Hi ha diversos tipus de frustració. 00:12:48.000 --> 00:12:51.000 Si et fas mal al dit del peu, això és un "argh" amb una A. 00:12:51.000 --> 00:12:53.000 Si el planeta Terra és anihilat pels Vogons 00:12:53.000 --> 00:12:55.000 per fer lloc per una circumval·lació interstel·lar 00:12:55.000 --> 00:12:57.000 Això és un "aaaaaaaargh" amb vuit As. 00:12:57.000 --> 00:12:59.000 Aquesta persona estudia tots els "arghs," 00:12:59.000 --> 00:13:01.000 des de una A a vuit As. 00:13:01.000 --> 00:13:03.000 I resulta que 00:13:03.000 --> 00:13:05.000 els "arghs" menys freqüents 00:13:05.000 --> 00:13:08.000 són, és clar, els que corresponen a les coses més frustrants -- 00:13:08.000 --> 00:13:11.000 excepte, curiosament, a principis dels anys 80. 00:13:11.000 --> 00:13:13.000 Pensem que potser estigui relacionat amb Reagan. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Rialles) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Hi ha molts usos d'aquestes dades. 00:13:18.000 --> 00:13:21.000 però el més important és que els arxius històrics estan sent digitaliltzats. 00:13:21.000 --> 00:13:23.000 Google ha començat a digitalitzar 15 milions de llibres. 00:13:23.000 --> 00:13:25.000 Això és el 12 % de tots els llibres que s'han publicat en la història. 00:13:25.000 --> 00:13:28.000 És un troç important de la cultura humana. 00:13:28.000 --> 00:13:31.000 Hi ha molt més en la cultura: hi ha manuscrits, periòdics, 00:13:31.000 --> 00:13:33.000 hi ha coses que no són text, com ara art i quadres. 00:13:33.000 --> 00:13:35.000 I resulta que tot ho tenim als nostres ordinadors, 00:13:35.000 --> 00:13:37.000 als ordinadors de tot el món. 00:13:37.000 --> 00:13:40.000 I quan això succeixi, això transformarà la manera que tenim 00:13:40.000 --> 00:13:42.000 d'entendre el nostre passat, el nostre present i la cultura humana. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Moltes gràcies. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Aplaudiment)