Erez Lieberman Aiden: Toată lumea știe

că o poză valorează cât o mie de cuvinte.

Dar noi cei de la Harvard,

ne gândeam cât de adevărat este.

(Râsete)

Așa că am adunat o echipă de experți,

de la Harvard, MIT (Institutul Tehnologic din Massachusetts),

American Heritage Dictionary, Encyclopedia Britannica

și chiar și pe mândrii noștri sponsori,

Google.

Și am dezbătut această problemă

timp de aproape patru ani.

Și am ajuns la o concluzie surprinzătoare.

Doamnelor și domnilor, o poză nu valorează cât o mie de cuvinte.

Chiar am găsit unele poze,

care valorează 500 de miliarde de cuvinte.

Jean-Baptiste Michel: Cum am ajuns la această concluzie?

Eu și Erez ne gândeam la modalități

de a cuprinde într-o mare poză cultura umană

și istoria umanității: schimbarea de-a lungul timpului.

În toți acești ani au fost scrise foarte multe cărți.

Așa că ne gândeam că cea mai bună metodă să învățăm din ele,

este să citim toate aceste milioane de cărți.

Bineînțeles că dacă ar exista o scală pentru cât de grozavă e ideea,

s-ar afla undeva foarte, foarte sus.

Problema este că există și o axă X pentru asta,

care este axa practică.

Aceasta este foarte, foarte jos.

(Aplauze)

Oamenii au tendința unei alte abordări,

care este să ia câteva surse și să le citească cu atenție.

Ceea ce este foarte practic, dar nu foarte grozav.

Ceea ce se vrea de fapt este,

să avem și partea grozavă și partea practică a acestui spațiu.

Așa că am aflat că mai există o companie numită Google

care începuse cu câțiva ani în urmă un proiect de digitizare,

care ar putea să atingă această abordare.

Ei au digitizat milioane de cărți.

Ceea ce înseamnă, că prin metode computaționale,

cu un singur click, pot fi citite toate cărțile.

Ceea ce este foarte practic si foarte grozav.

ELA: Permiteți-mi să vă povestesc un pic despre originea cărților.

Încă din cele mai vechi timpuri, au existat autori.

Acești autori s-au străduit să scrie cărți.

Proces ce a devenit deosebit de facil

o dată cu dezvoltarea presei de tipar în urmă cu câteva secole.

De atunci, autorii au câștigat

în 129 de milioane de ocazii diferite,

publicarea cărților.

Dacă acele cărți nu s-au pierdut în istorie,

atunci se află undeva într-o bibliotecă,

și multe dintre acele cărți au fost scoase din biblioteci

și digitizate de către Google,

care până în ziua de azi a scanat 15 milioane de cărți.

Când Google digitizează o carte, o și așează într-un format frumos.

Acum avem datele și în plus avem și metadatele.

Avem informații despre locul de publicare,

despre autor, când a fost publicată.

Ceea ce facem noi este să filtrăm aceste informații

și să ștergem tot ce nu este de cea mai mare calitate.

Așa că ce avem acum

este o colecție de 5 milioane de cărți,

500 miliarde de cuvinte,

un șir de caractere de o mie de ori mai lung

decât un genom uman --

un text care, dacă ar fi scris,

s-ar întinde de aici, la lună și înapoi

de 10 ori --

o adevărată bucată din genomul nostru cultural.

Bineînțeles că ceea ce am făcut

când ne-am lovit de o asemenea hiperbolă...

(Râsete)

a fost ceea ce ar face orice cercetător

care se respectă.

Am luat o pagină din XKCD,

și am spus, „Dați-vă înapoi.

O să încercăm prin știință.”

(Râsete)

JM: Acum noi ne gândeam,

să punem datele acolo

și să lăsăm oamenii să experimenteze.

Apoi ne-am întrebat, ce informații să lansăm?

Normal că vrei să iei cărțile

și să vezi tot textul acestor cinci milioane de cărți.

Google-ul și în special Jon Orwant,

ne-au arătat o mică ecuație pe care ar trebui să o învățăm.

Așadar, ai cinci milioane, adică cinci milioane de autori

și cinci milioane de reclamanți într-un imens proces.

Și deși ar fi foarte foarte grozav,

din nou, este foarte, foarte ineficace.

(Râsete)

Atunci din nou ne-am cam prăbușit,

și am făcut ceea ce părea mai practic, dar mai puțin grozav.

Ne-am hotărât ca, în loc să punem întregul text,

vom publica statistici despre cărți.

Spre exemplu „Un strop de fericire.”

Sunt patru cuvinte; este ceea ce numim tetragramă.

Vă vom spune de câte ori apare o anumită tetragramă

în cărți, în 1801, 1802, 1803,

și până în anul 2008.

Ceea ce ne va oferi o serie temporală

cu frecvența de utilizare a acestei secvențe de-a lungul timpului.

Facem asta pentru toate cuvintele și expresiile care apar în acele cărți,

și acest lucru ne oferă un mare tabel de două miliarde de linii

care ne explică cum s-a schimbat cultura.

ELA: Așadar acele două miliarde de linii,

noi le numim două miliarde de n-grame.

Ce ne spun ele?

N-gramele individuale măsoară trendul cultural.

Să vă dau un exemplu.

Să presupunem că eu acum mă aflu într-o stare de prosperitate,

iar mâine aș vrea să vă spun dvs. cum mă descurc.

Așa că aș putea spune, „Ieri, am înflorit.”

Sau o altă variantă, aș putea spune, „Ieri, am prosperat.”

Pe care ar trebui să o folosesc?

De unde știi?

De cam șase luni încoace,

cel mai bun lucru pe care-l puteai face în acest domeniu,

ar fi ca, spre exemplu,

să mergi la un psiholog specializat cu coafură fabuloasă,

și să-i spui,

„Steve, tu ești expert în verbe.

Ce ar trebui să fac?”

Iar el ți-ar spune, „Păi, cei mai mulți oameni spun „a prospera”,

dar unii spun „a înflori”.

Și mai mult sau mai puțin știai și că,

dacă te-ai întoarce în timp cu 200 de ani

și ai întreba un politician cu coafură la fel de fabuloasă,

(Râsete)

„Tom, cum ar trebui să spun?”

El ar spune, „Păi, în vremea mea, cei mai mulți spuneau „a înflori”,

dar unii spuneau „a prospera.”

Ce vă voi arăta în continuare sunt date brute.

Două rânduri din acest tabel cu două miliarde de intrări.

Aici vedeți frecvența înregistrată an de an

de-a lungul timpului pentru „a prospera” și „a înflori”.

Acestea sunt doar două

dintre cele două miliarde de rânduri.

Așa că întreaga bază de date

este de un miliard de ori mai grozavă decât acest slide.

(Râsete)

(Aplauze)

JM: Sunt multe alte poze care valorează 500 de miliarde de cuvinte.

Aceasta spre exemplu.

Dacă alegi răceală,

veți vedea extreme în perioadele în care știați

că mari epidemii de gripă au ucis pe tot globul.

ELA: Dacă nu erați încă convinși,

nivelurile mării se ridică,

ceea ce înseamnă CO2 atmosferic și temperatura globală.

JM: Poate ați vrea să vă uitați mai atent la această n-gramă,

iar asta este pentru a-i spune lui Nietzsche că Dumnezeu nu este mort,

și poate credeți că ar avea nevoie de un editor mai bun.

(Râsete)

ELA: Poți ajunge la niște concepte destul de abstracte cu aceste lucruri.

Spre exemplu, permiteți-mi să vă spun istoria

anului 1950.

În cea mai mare parte a istoriei,

nimănui nu-i păsa de 1950.

În 1700, în 1800, în 1900,

nimănui nu-i păsa.

În anii 30 și 40,

nimănui nu-i păsa.

Dintr-o dată, pe la mijlocul anilor 40,

a început un zumzet.

Oamenii și-au dat seama că 1950 urma să se petreacă,

și putea să fie măreț.

(Râsete)

Dar în 1950, nimic nu i-a interesat mai mult pe oameni,

ca anul 1950.

(Râsete)

Oamenii erau absolut obsedați.

Nu mai încetau să vorbească

despre ce au făcut ei în 1950,

tot ce plănuiau să facă în 1950,

tot ce visau să îndeplinească în 1950.

1950 a fost așa de fascinant

încât la ani după,

oamenii încă mai vorbeau despre lucrurile minunate petrecute atunci,

în '51, '52, '53.

În 1954, într-un final,

cineva s-a trezit şi şi-a dat seama

că anul 1950 a cam trecut.

(Râsete)

Şi uite-aşa, balonul s-a spart.

(Râsete)

Şi povestea anului 1950

este povestea fiecărui an pe care l-am înregistrat,

cu o mică schimbare, pentru că acum avem aceste diagrame drăguţe.

Şi pentru că avem aceste diagrame drăguţe, putem să măsurăm anumite lucruri.

Putem întreba, "Cât de repede se sparge acest balon?"

Şi ne-am dat seama că putem măsura asta cu precizie mare.

Au reieşit ecuaţii, au fost produse grafice

iar rezultatul final

este că aceste baloane se sparg din ce în ce mai repede

cu fiecare an.

Ne pierdem interesul pentru istorie mai repede.

JM: Un mic sfat despre cariere.

Pentru aceia dintre voi care vor să fie faimoşi,

putem învăţa de la cele mai cunoscute 25 de personalităţi politice,

scriitori, actori şi aşa mai departe.

Aşa că dacă vreţi să fiţi cunoscuţi de tineri, ar trebui să fiţi actori,

pentru că devii faimos când te apropii de 30 de ani --

eşti încă tânăr, e minunat.

Dacă poţi să mai aştepţi puţin, poţi să fii scriitor,

pentru că atunci te ridic la culmi foarte înalte,

spre exemplu ca Mark Twain: foarte cunoscut.

Dar dacă vrei să ajungi în vârful piramidei,

ar trebui să întârzii recompensa,

şi bineînţeles, să devii politician.

Aici vei ajunge cunoscut când deja ai trecut de 50 de ani

şi foarte foarte cunoscut după vârsta asta.

Şi oamenii de ştiinţă devin cunoscuţi când sunt mult mai în vârstă.

Spre exemplu, biologii şi fizicienii

ajung la fel de faimoşi ca actorii.

O greşeală pe care nu trebuie să o faceţi, este să deveniţi matematicieni.

(Râsete)

Dacă faceţi asta,

o să vă gândiţi, "O, ce bine, o să-mi ating apogeul pe la 20 de ani."

Dar ghiciţi ce, nimănui nu-i pasă.

(Râsete)

ELA: Există şi note mai vesele

printre n-grame.

Spre exemplu, iată traiectoria lui Marc Chagall,

un artist născut în 1887.

Aşa arată traiectoria normală a unui om faimos.

Devine din ce în ce mai cunoscut,

doar dacă nu te uiţi în germană.

Dacă te uiţi în germană, se observă ceva foarte ciudat,

ceva ce se observă foarte rar,

adică devine extrem de faimos

şi apoi decade dintr-o dată,

trece printr-un nadir între 1933 şi 1945

înainte de a-şi reveni.

Ceea ce vedem este, bineînţeles,

că Marc Chagall este un artist evreu

într-o Germanie nazistă.

Aceste semnalmente

sunt atât de puternice

încât nu avem nevoie să ştim că acea persoană a fost cenzurată.

Ne putem da seama

folosind procese de semnalare de bază.

Iată o metodă de simplă de a o face.

Un rezultat așteptat

este ca faima cuiva într-o perioadă de timp

să fie calculată ca faima anterioară

și faima ulterioară.

Cam asta așteptăm noi.

Și comparăm rezultatul cu faima obeservată de noi.

Și am împărțit un rezultat la celălalt

pentru a reieși ceva ce noi numim index reprimat.

Dacă indexul de reprimare este foarte, foarte, foarte mic,

atunci este foarte posibil ca și tu să fii reprimat.

Dacă este foarte mare, atunci poate beneficiezi de propagandă.

JM: Acum puteți privi

distribuția indexului de reprimare pentru toate populațiile.

Așa că spre exemplu, aici --

indexul de reprimare este pentru 5.000 de persoane

alese din cărți engleze, unde nu se cunoaște vreo reprimare --

ar arăta cam așa, în principiu centrat pe una.

Ceea ce aștepți este în principiu ceea ce observi.

Așa arată distribuția în Germania --

total diferită, este mutată către stânga.

Oamenii au vorbit despre asta de două ori mai puțin decât ar fi trebuit.

Dar mai important este că distribuția este mult mai întinsă.

Sunt oameni care ajung în extrema stângă a distribuției

despre care se vorbește de 10 ori mai puțin decât ar trebui.

De asemenea, mulți oameni din extrema dreaptă

par să beneficieze de propagandă.

Această imagine este marca cenzurilor în arhiva cărții.

ELA: Așa că noi numim această metodă,

culturomică.

Se aseamană cu genomica.

Doar că genomica este o lupă asupra biologiei

prin fereastra de secvențe de bază din genomul uman.

Culturomica este similară.

Este o analiză realizată pe o colecție de date imensă aplicată

la studiul culturii umane.

Aici, nu privim prin lentilele unui genom

ci prin lentilele unor piese digitale din istorie.

Partea grozavă despre culturomică

este că oricine o poate face.

De ce o poate face oricine?

Toată lumea poate datorită a trei bărbați.

Jon Orwant, Matt Gray și Will Brockman de la Google

au văzut prototipul lui Ngram Viewer,

și au spus, „Este foarte distractiv.

Trebuie să-l facem accesibil tuturor.”

Așa că în fix două săptămâni -- cele două săptămâni dinainte să ne iasă actele --

au dezvoltat o versiune a Ngram Viewer pentru publicul larg.

Așa că și voi puteți să tastați orice cuvânt sau frază doriți

și imediat să-i vedeți n-grama --

și să explorați exemple din toate cărțile

în care apare n-grama voastră.

JM: În prima zi a fost folosit de peste un milion de ori,

iar asta este cea mai bună dintre toate interogările.

Așa că oamenii își dau silința, fac tot posibilul.

Se pare că în secolul 18, oamenilor nu le păsa deloc.

Nu doreau să fie cei mai buni, vroiau să fie cei mai buli.

Ceea ce s-a întâmplat este, bineînțeles, doar o greșeală.

Nu tindeau către mediocritate,

doar N-ul era scris diferit, se apropia de un L.

Bineînțeles, Google nu a ales asta atunci,

așa că am raportat acestă situație într-un articol științific pe care l-am scris.

Dar acesta a fost doar ca să ne amintească de faptul că,

deși este foarte distractiv,

atunci când interpretezi aceste grafice, trebuie să fii foarte atent,

și trebuie să adopți standardele de bază în aceste științe.

ELA: Oamenii le-au folosit în diferite scopuri distractive.

(Râsete)

De fapt, nu o să mai vorbim,

ci doar o să vă arătăm slide-urile și o să păstrăm liniștea.

Această persoană a fost interesată de istoria frustrării.

Există diferite tipuri de frustrare.

Dacă îți rupi tocul, este un singur „A”.

Dacă planeta Pământ este anihilată de Vogoni

pentru a permite un zbor interstelar,

este un A spus de opt ori „Aaaaaaaa”.

Această persoană studiază toate „a-urile”,

de la unu la opt A.

Și reiese

că cele mai rare „a-uri”

sunt, evident, cu evenimentele cele mai puțin frustrante --

cu excepția, ciudat, de la începutul anilor '80.

Noi credem că ar putea avea legătură cu Reagan.

(Râsete)

JM: Sunt multe utilizări ale acestei informații,

dar concluzia este că istoricul ei este digitizat.

Google a început să digitizeze 15 milioane de cărți.

Ceea ce înseamnă 12% din totalul de cărți vreodată publicat.

Este o parte considerabilă din cultura umană.

În cultură există mult mai multe lucruri: manuscripte, ziare,

există non-texte, ca arta și picturile.

Toate acestea se întâmplă să fie în calculatoarele noastre,

în calculatoare din întreaga lume.

Și când asta se întâmplă, va schimba felul în care noi

ne înțelegem trecutul, prezentul și cultura umană.

Vă mulțumesc foarte mult.

(Aplauze)