Erez Lieberman Aiden: Mindenki tudja,

hogy egy kép felér ezer szóval.

De mi a Harvardon

elgondolkoztunk, hogy ez tényleg így van-e.

(Nevetés)

Így összeraktunk egy szakértőkből álló csapatot,

Harvardról, MIT-ről

az American Heritage Dictionarytől, az Encyclopedia Britannicától

és még a büszke szponzorunktól is,

a Google-től.

És rágódtunk rajta

nagyjából négy évig.

És egy ijesztő megállapításra jutottunk.

Hölgyeim és uraim, egy kép nem ér fel ezer szóval.

Valójában, találtunk néhány képet

amely 500 milliárd szót ér.

Jean-Baptiste Michel: De hogyan jutottunk erre a következtetésre?

Erez és én olyan módszereket kerestünk,

amelyekből egy áttekintő képet kaphatunk az emberi kultúráról

és az emberi történelemről, időbeli változásáról.

Rengeteg könyvet írtak az évek során.

Így mi arra gondoltunk, legjobban úgy tanulhatunk belőlük,

ha ezt a több millió könyvet elolvassuk.

Természetesen, ha lenne arra egy skála, ez mennyire döbbenetes,

akkor ez extrém, extrém módon magas lenne.

A probléma viszont az, hogy van egy X tengelye is,

ami a praktikusság tengelye.

Ez nagyon, nagyon alacsony.

(Taps)

Manapság hajlamosak az emberek egy másfajta megközelítést használni:

vesznek néhány forrást és nagyon alaposan elolvassák.

Ez rendkívül hasznos, de nem annyira döbbenetes.

Amit igazán szeretnél

az az, hogy eljuss az ábra döbbenetes, mégis hasznos részére.

Kiderült, van egy vállalat, amely tudja a megoldást: a Google,

mely néhány évvel korábban elkezdett egy digitalizálási projektet,

ami lehetővé teheti ezt a megközelítést.

Könyvek millióit digitalizálták.

Mindez azt jelenti, hogy számítási metódusokkal

egy gombnyomásra elolvashatóak ezek a könyvek.

Ez nagyon hasznos és igazán döbbenetes.

ELA: Hadd beszéljek egy kicsit arról, honnan is jönnek ezek a könyvek.

Emberi emlékezet óta vannak szerzők.

Ezek a szerzők arra törekedtek, hogy könyveket írjanak.

És mindez nagyságrendekkel könnyebbé vált

a nyomtatott sajtó néhány századdal ezelőtti fejlődésével.

A szerzők azóta sikeresen,

129 millió különböző alkalommal

publikáltak könyvet.

Ha ezek a könyvek nem tűntek el a történelemben,

akkor valahol megtalálhatóak egy könyvtárban,

és a legtöbbjüket a Google kikölcsönözte

és digitalizálta --

a mai napig 15 millió könyvet.

Amikor a Google bedigitalizál egy könyvet, egy elég szép formátumba rakja.

Szóval megvan az adat és megvan a metaadat.

Van információnk arról, hol publikálták,

ki volt a szerző, mikor publikálták.

Mi azt csináljuk, hogy átnézzük ezeket a rekordokat,

és kizárjuk azokat, amelyek nem a legjobb minőségűek.

A végén maradt egy

ötmillió könyvből álló kollekciónk,

500 milliárd szó,

egy ezerszer hosszabb karakterlánc,

mint az emberi genom --

egy szöveg, mely leírva

elérne a Holdig és vissza

10-szer --

a kulturális genom egy igazi darabja.

Természetesen, amikor

egy ilyen elképesztő túlzással találkozunk...

(Nevetés)

ugyanazt tesszük, mint bármely magára valamit is adó

kutató tenne.

Vettünk egy oldalt az XKCD-ről,

és azt mondtuk, "Egy kis helyet!

Kipróbáljuk a tudományt."

(Nevetés)

JM: Természetesen, gondoltuk mi,

elsőként adjuk oda az adatokat embereknek,

akik tanulmányozzák.

Arra gondoltunk, milyen adatot adhatunk oda?

Természetesen, veheted a könyveket

és kiadhatod mind az ötmillió könyv teljes szövegét.

Nos, a Google és különösképpen Jon Orwant

elmagyarázott nekünk egy kis egyenletet, amelyet meg kellene tanulnunk.

Ha van 5 millió, azaz 5 millió szerződ

és 5 millió felperes, az egy egész szép peres eljárás.

Így, annak ellenére, hogy az igazán, igazán döbbenetes lenne,

ismét csak, hihetetlenül, hihetetlenül haszontalan lenne.

(Nevetés)

Mi eléggé korlátoltak vagyunk,

és vettük az elég praktikus megközelítést, amely valamivel kevésbé döbbenetes.

Azt mondtuk, ahelyett, hogy kiadnánk a teljes szöveget,

statisztikákat fogunk kiadni a könyvekről.

Vegyünk egy példát: "A boldogság egy fénysugara."

Négy szó. Négy-gramnak hívjuk.

Meg fogjuk mondani, hogy egy bizonyos négy-gram hányszor

bukkant fel a könyvekben 1801-ben, 1802-ben, 1803-ban,

egészen 2008-ig.

Kapunk egy idősort arról, hogy

milyen gyakran használták ezt a bizonyos mondatot az idők során.

Megcsináljuk ezt minden szóra és kifejezésre, amely azokban a könyvekben előfordul,

amely egy 2 milliárd sorból álló halmazt ad,

amely elmondja, miként változott a kultúra.

ELA: Ezt a kétmilliárd sort

2 milliárd n-gramnak hívjuk.

Mit mondanak nekünk?

Nos, az egyes n-gramok a kulturális trendeket mérik.

Hadd mondjak egy példát!

Tegyük fel, hogy jómódban élek,

aztán holnap el akarom mondani, milyen jól éltem.

És azt mondhatom, "Tegnap jól éltem (throve)."

Másféleképpen, azt mondhatom, "Tegnap jól éltem (thrived)."

Nos, melyiket kellene használnom?

Honnan lehet tudni?

Nagyjából 6 hónappal ezelőtt,

a tudomány akkori állása szerint

megtehetted volna például,

hogy felkeresed az alábbi furcsa hajú pszichológust,

és azt mondod,

"Steve, a rendhagyó igék szakértője vagy.

Mit kéne tennem?"

És azt mondta volna, "Nos, a legtöbb ember a 'thrived'-ot használja,

de néhányan a 'throve'-ot."

És többé-kevésbé azt is tudnád,

ha 200 évet visszamész az időben,

és megkérdezed az alábbi, szintén furcsa hajú államférfit,

(Nevetés)

"Tom, melyiket kellene használnom?"

Azt mondaná, "Nos, az én időmben a legtöbb ember a 'throve'-ot,

de néhányan a 'thrived'-ot."

Amit most meg fogok mutatni azok nyers adatok.

Két sort ebből a kétmilliárdos halmazból.

Az ábrán a "thrive" és a "throve"

előfordulási gyakorisága látható az évek során.

Nos, ez csak kettő

a kétmilliárd sorból.

Az egész adathalmaz

kétmilliárdszor döbbenetesebb, mint ez a dia.

(Nevetés)

(Taps)

JM: Számtalan más kép van, amely felér 500 milliárd szóval.

Például ez.

Ha csupán az influenzát vesszük,

kiugrásokat fogunk látni azokra az időszakokra, ahol tudjuk, hogy

nagy influenza fertőzésekben haltak meg az emberek világszerte.

ELA: Ha még mindig nem lennének meggyőzve,

a tengerszint emelkedik,

akárcsak a légkör CO2 tartalma és a globális hőmérséklet.

JM: Vagy akár megnézhetitek ezt a bizonyos n-gramot,

melyben Nietzsche szerint Isten nem halott,

habár azzal egyetértenének, hogy jobb publicistára lenne szüksége.

(Nevetés)

ELA: Egészen szép absztrakt koncepciókat kaphatsz ilyen dolgokkal.

Például, hadd meséljek az 1950. év

történelméről!

Nagy valószínűséggel a történelem túlnyomó részében

senkit sem érdekelt 1950.

1700-ban, 1800-ban, 1900-ban

senkit sem érdekelt.

A 30-as és a 40-es években

senkit sem érdekelt.

A 40-es évek közepén hirtelen

elkezdődött a mozgolódás.

Rájöttek az emberek, hogy hamarosan 1950 lesz,

és nagy lehet.

(Nevetés)

1950-ben azonban semmi más nem érdekelte úgy az embereket,

mint az 1950. év.

(Nevetés)

Az emberek megszállottan járkáltak.

Egyfolytában azokról a dolgokról beszéltek,

mit csináltak 1950-ben,

mit fognak csinálni 1950-ben,

az álmokról, amelyeket meg szeretnének valósítani 1950-ben.

1950 valójában annyira szenzációs volt,

hogy évekkel utána is,

az emberek egyfolytában az akkor történt csodálatos dolgokról beszéltek,

'51-ben, '52-ben, '53-ban.

Végül 1954-ben,

felébred valaki és rájött, hogy

1950 valahogyan... elmúlt.

(Nevetés)

És egy csapásra a buborék kipukkant.

(Nevetés)

És 1950 története

megegyezik valamennyi rendelkezésünkre álló év történetével,

egy kis csavarral, hiszen megvannak ezek a szép ábráink.

És mivel megvannak ezek a szép ábrák, meg tudunk mérni dolgokat.

Azt mondhatjuk, "Nézzük, milyen gyorsan pukkant ki a buborék?"

És kiderül, ezt egészen pontosan meg tudjuk mérni.

Egyenleteket írtunk, grafikonokat állítottunk fel,

és a végső eredmény az, hogy

a buborék egyre gyorsabban és gyorsabban pukkan ki,

ahogy telnek az egyes évek.

Egyre gyorsabban veszítjük el a múlttal kapcsolatos érdeklődésünket.

JM: Most pedig egy kis karrier tanács.

Mindazok, akik híresek akarnak lenni,

tanulhatnak a 25 leghíresebb politikai szereplőtől,

szerzőtől, színésztől és így tovább.

Szóval ha idejekorán híres akarsz lenni, színésznek kell menned,

mert a hírnév a 20-as éveid végén kezd el növekedni --

még fiatal vagy, ez igazán nagyszerű.

Ha tudsz egy kicsit tovább várni, szerzőnek kell menned,

mivel akkor igen nagy magasságokba emelkedhetsz,

mint Mark Twain például: elképesztően híres.

Ha viszont a legmagasabbra akarsz jutni,

késleltetned kell az önmegvalósítást, és

természetesen, politikusnak kell állnod.

Így az 50-es éveid végére kezdesz híres lenni,

és csak aztán leszel nagyon, nagyon híres.

A tudósok is akkor kezdenek híressé válni, amikor idősebbek lesznek.

Mint például a biológusok és fizikusok,

akik csaknem olyan híressé válhatnak, mint a színészek.

Egy hibát nem szabad elkövetned: matematikusnak menned.

(Nevetés)

Ha így döntesz,

azt gondolhatod, "Oh, remek. A legjobbat fogom teljesíteni, amikor a 20-as éveimben járok."

De tudod mit? Senkit nem fog érdekelni.

(Nevetés)

ELA: Vannak még jobban kijózanító megjegyzések

az n-gramok között.

Itt van például Marc Chagall pályája,

egy 1887-ben született művészé.

Ez úgy néz ki, mint egy híres ember átlagos pályája.

Egyre jobban és jobban híres lett,

kivéve, ha Németországban nézed.

Ha Németországban nézed, valami egészen bizarr dolgot láthatsz,

valamit, amit szinte még sosem láttál,

nevezetesen, hogy hihetetlen híres lesz,

aztán egyszercsak bezuhan,

egy mélypontra érve 1933 és 1945 között,

mielőtt ismét visszapattanna.

Természetesen, amit látunk

az az a tény, hogy Marc Chagall egy zsidó művész volt

a náci Németországban.

Ezek a jelek

igazából annyira erősek, hogy

nem kell tudnunk, hogy valaki cenzorálva volt.

Valójában ki tudjuk találni,

egészen egyszerű jelzőrendszer segítségével.

Itt egy egyszerű módszer minderre.

Egy ésszerű várakozás, hogy

egy adott időszakban valakinek a hírneve

a korábbi és a későbbi hírnevének

az átlaga.

Ez az amit várnánk.

És ezt összehasonlítjuk az általunk megfigyelt hírnévvel.

Aztán elosztjuk egyiket a másikkal, hogy

előállítsunk valamit, amit elnyomási indexnek hívunk.

Ha az elnyomási index nagyon, nagyon, nagyon alacsony,

akkor nagyon el lehetsz nyomva.

Ha nagyon nagy, akkor lehet, hogy propaganda áldozata vagy.

Igazából meg tudod nézni

az elnyomási index eloszlását a teljes populáción.

Így például, itt --

ez 5000 ember elnyomási indexe, melyet

olyan angol nyelvű könyvekből választottunk ki, ahol nincs tudomásunk elnyomásról --

így kellene kinéznie, nagyjából az egy körül csoportosulva.

Amire számítasz az az általad megfigyelt.

Ez a Németországban megfigyelhető eloszlás --

nagyon különböző, a baloldalra tolódott.

Az emberek kétszer kevesebbszer beszéltek róla, mint kellett volna.

De sokkal fontosabb, hogy az eloszlás sokkal szélesebb.

Sokan vannak, akik az eloszlás bal szélén helyezkednek el,

akikről 10-szer kevesebbszer beszéltek, mint ahogy kellett volna.

De aztán sokan vannak a jobb szélén,

akik feltehetően propaganda áldozatai.

Ez a kép jól illusztrálja a könyvekben megjelenő cenzúrát.

ELA: Kulturonómia,

így hívjuk ezt a módszert.

Olyan, mint a genomika.

Azt leszámítva, hogy a genomika a biológia egyik lencséje,

melyen keresztül az emberi genom alapvető szekvenciáit vizsgáljuk.

A kulturonómia hasonló.

Egy hatalmas méretű adatgyűjtemény analizálásának eszköze,

amellyel az emberi kultúrát tanulmányozhatjuk.

Itt nem a genom lencséjén keresztül, hanem

a történelmi emlékek digitalizált darabjain keresztül.

A kulturonómia nagy előnye, hogy

bárki művelheti.

Miért teheti meg bárki?

Azért teheti, mivel három srác,

Jon Orwant, Matt Gray és Will Brockman a Google-nél

meglátta az Ngram Viewer prototípusát,

és azt mondta, "Ez vicces.

Az emberek számára elérhetővé kell tenni."

Így nagyjából 2 hét alatt -- a tanulmányunk megjelenése előtti 2 hétben --

összerakták az Ngram Viewer publikus verziójának kódját.

És így bármilyen szót vagy kifejezést be tudsz táplálni, ami érdekel

és azonnal láthatod az n-gramját --

még példákat is mutat a különféle könyvekből,

melyekben az n-gramod megtalálható.

JM: Az első napon több mint egymilliószor használták,

és ez a legjobb az összes keresés közül.

Az emberek a legjobbak akarnak lenni, a legjobban előre haladni.

De kiderült, hogy a 18. században az emberek egyáltalán nem törődtek ezzel.

Nem a legjobbak (best) akartak lenni, hanem a legjobbak (beft).

Természetesen ami történt az csak egy hiba.

Nem egy szándékos középszerűség,

hanem csak az, hogy az S betűt régen másképp írták, kicsit hasonlóan, mint az F-et.

A Google természetesen nem jött rá időben,

így ezt jeleztük is az általunk írt tudományos cikkünkben.

De igazából ez csak egy figyelmeztetés, hogy

habár igen szórakoztató amikor ezeket

a grafikonokat értelmezed, nagyon óvatosnak kell lenned,

és el kell fogadnod a tudomány alapfeltételeit.

ELA: Az emberek a legkülönfélébb célokra használják.

(Nevetés)

Igazából, nem is kell beszélnünk,

csak megmutatjuk az összes diát és csendben maradunk.

Ez a személy a frusztráció történelmére volt kíváncsi.

Különféle frusztrációk vannak.

Ha levágod a lábujjad, az egy A-s "argh".

Ha a Földet elpusztítják a Vogonok,

hogy helyet adjanak egy csillagközi kerülőútnak,

az egy 8 A-s "aaaaaaaargh".

Ez a személy valamennyi "argh"-ot tanulmányozza,

egytől nyolc A-ig.

És kiderül, hogy

a legkevésbé gyakori "argh"

természetesen a legjobban frusztráló dolgokhoz kapcsolódik --

leszámítva, furcsán, a 80-as évek elejét.

Szerintünk ez valahogy összefügg Reagennel.

(Nevetés)

JM: Sokféle felhasználási módja van ezeknek az adatoknak,

de a lényeg, hogy a történelmi emlékek digitalizálva lettek.

A Google elkezdett 15 millió könyvet bedigitalizálni.

Ez 12 százaléka a valaha megjelent összes könyvnek.

Az emberi kultúra egy méretes darabja.

Sokkal több van a kultúrában: kéziratok, újságok,

vannak dolgok, amelyek nem szövegek, mint a műalkotások és festmények.

Hamarosan mindezek a számítógépünkön lesznek,

számítógépeken világszerte.

És amikor ez megtörténik, megváltozik a módszer,

ahogy korábban a múltunkat, a jelenünket és emberi kultúránkat vizsgáltuk.

Köszönjük szépen.

(Taps)