Ерез Либерман Ејден: Сите знаат

дека една слика вреди илјада зборови.

Но, ние од Харвард

се прашувавме дали ова навистина е така.

(смеа)

Па, составивме тим од експерти

од Харвард, МИТ,

Американскиот речник на зборови, Енциклопедија Британика,

па дури и од нашиот горд спонзор

Гугл.

Внимателно работевме на ова

околу четири години.

И дојдовме до неверојатен заклучок.

Дами и господа, сликата не вреди илјада зборови.

Всушност, најдовме некои слики

кои вредат 500 милијарди зборови.

Жан-Батист Мишел: Како дојдовме до овој заклучок?

Јас и Ерез размислувавме како

да добиеме голема слика за човечката култура

и човечката историја, за промените низ времето.

Досега се напишани многу книги

и си рековме дека најдобриот начин да учиме од нив

е да ги прочитаме сите тие милиони книги.

Се разбира, доколку постои скала на луди нешта,

ова мора да се рангира екстремно високо.

Проблемот е што истовремено постои и Х оска,

која е многу практична оска.

На неа сме многу ниско.

(аплауз)

Луѓето често користат алтернативен пристап,

т.е. земаат неколку извори и ги читаат многу внимателно.

Ова е многу практично, но не и многу луда работа.

Она што навистина сакате да го направите

е да дојдете до лудиот, но и практичен дел од овој простор.

Излезе дека има една компанија преку реката што се вика Гугл,

која неколку години претходно започнала проект за дигитализација,

кој би можел да го овозможи овој пристап.

Тие имаат дигитализирано милиони книги.

Тоа значи дека можат да се користат методи за пресметка

кои ќе овозможат читање на сите книги со еден клик.

Тоа е многу практично и ептен лудо.

Да ви кажам малку за тоа од каде доаѓаат книгите.

Уште од памтивек постоеле автори,

кои настојувале да пишуваат книги,

што станало значително полесно

со развојот на машината за печатење пред неколку века.

Оттогаш, авторите успеале

во 129 милиони поединечни случаи

да објават книги.

Доколку овие книги не се изгубени,

тогаш се наоѓаат некаде во некоја библиотека.

Многу од овие книги

се дигитализирани од страна на Гугл,

кој досега има скенирано 15 милиони книги.

Кога Гугл дигитализира книга, ја става во навистина убав формат.

Сега ги имаме податоците, плус имаме и метаподатоци,

т.е. каде била објавена книгата,

кој е авторот, кога била објавена.

Потоа, ги прегледавме сите овие податоци

и елиминиравме сè што не е со највисок квалитет.

Она што ни останува

е колекција од пет милиони книги.

500 милијарди зборови.

Низа од знаци илјада пати подолга

од човечкиот геном -

текст кој, кога би бил испишан,

би се протегал од овде до Месечината и назад

10 пати последователно -

вистински сведок на нашиот културолошки геном.

Се разбира, она што тогаш го направивме,

соочени со една ваква безгранична хипербола...

(смеа)

е она што секои истражувачи со самопочит

би го направиле.

Како и во XKCD стриповите,

рековме „Настрана, ве молиме.

Одиме со наука.“

(смеа)

Се разбира, си рековме

„Ајде, прво да ги објавиме податоците,

за луѓето да можат научно да ги обработат“.

Се прашавме кои податоци да ги објавиме.

Секако, би сакале

да го објавите целиот текст од овие пет милиони книги.

Гугл, а особено Џон Орвант,

ни кажа една мала равенка што требаше да ја научиме.

Значи, имате пет милиони. Тоа се пет милиони автори.

А, тоа се пет милиони тужители.

И макар што тоа би било навистина супер,

сепак е многу непрактично.

(смеа)

Повторно се предомисливме

и се насочивме кон попрактичниот пристап, кој не е толку луд.

Па, наместо да го објавиме целиот текст,

решивме да ја објавиме статистиката за книгите.

Земете, на пример, „Блесок на среќа“.

Тоа се три збора. Ние го викаме три-грам.

Ќе ви покажеме колку пати одреден три-грам

се појавил во книгите од 1801, 1802, 1803,

сè до 2008 година.

Тоа ни дава временска низа

за тоа колку често оваа реченица била користена низ времето.

Тоа го повторивме со сите зборови и фрази што се појавуваат во овие книги,

и така добивме голема табела од две милијарди низи

кои ни кажуваат како се менувала културата низ времето.

Значи, имаме две милијарди низи,

или, како што ние ги викаме, два милијарди ен-грами.

Што ни кажуваат тие?

Поединечните ен-грами ги мерат културолошките трендови.

Да ви дадам еден пример.

Да претпоставиме дека просперирам

и утре сакам да ви кажам колку добро ми одело.

Можам да речам „Вчера, напредував“.

Или, можам да кажам „Вчера, просперирав“.

Кој збор да го употребам?

Од каде да знам?

Од пред околу шест месеци,

со најмодерните алатки можете,

на пример,

да му се обратите на овој психолог со неверојатна фризура

и да го прашате

„Стив, ти си експерт за неправилни глаголи.

Што да правам?“.

А, тој ќе ви рече „Па, повеќето луѓе велат просперирав,

но некои луѓе велат напредував.“

Исто така знаете, повеќе или помалку,

дека ако се вратите за 200 години назад во времето

и го прашате овој државник со еднакво неверојатна фризура...

(смеа)

„Том, што да правам?“,

тој ќе ви каже „Па, во мое време, повеќето луѓе напредуваа,

но некои просперираа“.

Сега ќе ви ги покажам необработените податоци.

Два реда од оваа табела со две милијарди записи.

Ја гледате фреквенцијата по години

на „просперира“ и „напредува“ низ времето.

Ова се само два реда

од две милијарди редови.

Значи, вкупниот сет на податоци

е милијарди пати поневеројатен од овој слајд.

(смеа)

(аплауз)

Постојат многу други слики кои вредат 500 милијарди зборови.

На пример, оваа.

Да го земеме грипот.

Ќе видите скокови во времето кога знаете дека

големи епидемии на грип убивале многу луѓе низ светот.

Ако сè уште не сте убедени,

нивото на морињата расте,

како и атмосферскиот јаглерод диоксид и глобалната температура.

Можеби ќе сакате да го погледнете и овој ен-грам,

за да му кажете на Ниче дека Бог не е мртов,

иако можеби ќе се согласите дека му треба подобра реклама.

(смеа)

Можете да налетате на некои прилично апстрактни концепти.

На пример, да ви ја кажам историјата

за 1950-тата година.

Претежно во минатото

на никого не му било гајле за 1950.

Во 1700, во 1800, во 1900...

на никого не му било гајле.

Низ 30-тите и 40-тите

на никого не му било гајле.

Наеднаш, во средината на 40-тите,

почнало нешто да се шушка.

Луѓето сфатиле дека ќе се случи 1950 година

и дека тоа може да биде доста важно.

(смеа)

Но, ништо не ги заинтересирало луѓето за 1950 година

како годината 1950.

(смеа)

Луѓето шетале наоколу преокупирани.

Не можеле да престанат да зборуваат

за сите работи кои ги направиле во 1950,

за сите работи што планирале да ги направат во 1950,

сите соништа за она што сакале да го постигнат во 1950.

Всушност, 1950 била толку фасцинантна

што со години подоцна

луѓето продолжиле да зборуваат за сите неверојатни нешта што се случиле тогаш.

Во '51, '52, '53...

Конечно во 1954,

некој се разбудил и сфатил

дека 1950 одамна поминала.

(смеа)

И така, одеднаш, целата работа спласнала.

(смеа)

Приказната за 1950 година

е приказната за секоја година што ја имаме евидентирано,

со мала промена, бидејќи сега ги имаме овие убави табели.

Па, така, можеме да ги мериме нештата.

Може да речеме „Колку брзо спласнала работата?“.

Излезе дека многу прецизно можеме да го измериме тоа.

Беа изведени равенки, беа направени графикони,

и крајниот резултат

ни говори дека работите спласнуваат сè побрзо и побрзо

со секоја измината година.

Сега побрзо губиме интерес за минатото.

Еден мал професионален совет.

Оние од вас кои сакаат да бидат славни

може да учат од 25-те најславни политички фигури,

автори, актери и така натаму.

Ако сакате да станете славни кога сте помлади, треба да бидете актер,

бидејќи кај нив славата врвот го достигнува кон крајот на 20-тите години од животот.

Сè уште сте млади, баш супер.

Ако можете да почекате малку, тогаш треба да бидете автор,

бидејќи тогаш ќе ги достигнете најголемите височини,

како Марк Твен, на пример. Тој е екстремно славен.

Но, ако сакате да дојдете до самиот врв,

тогаш треба да го одложите задоволството

и, се разбира, да станете политичар.

Тогаш ќе станете славни кон крајот од вашите 50-ти,

а потоа ќе станувате уште пославни.

Научниците, исто така, стануваат славни кога се многу постари.

Како на пример, биолозите и физичарите

можат да бидат славни речиси како актерите.

Но, никако не смеете да станете математичар.

(смеа)

Ако го направите тоа,

ќе си мислите „Супер. Најголемите резултати ќе ги постигнам во моите 20-ти.“

Но, никому нема да му е гајле.

(смеа)

Има и потрезвени податоци

помеѓу ен-грамите.

На пример, еве ја траекторијата за Марк Шагал,

уметник роден во 1887.

Ова изгледа како нормална траекторија за една славна личност.

Тој станува сè пославен.

Но, не ако барате на германски.

Ако барате на германски, ќе видите нешто сосема бизарно,

нешто што ретко се гледа.

Тој станува екстремно славен,

потоа наеднаш славата му паѓа,

достигнувајќи најниска точка од 1933 до 1945,

пред пак да се врати.

Се разбира, од ова гледаме

дека Марк Шагал бил еврејски уметник

во нацистичка Германија.

Овие показатели

се толку силни,

што не мора да знаеме дали некој бил цензуриран.

Самите може да го откриеме тоа

преку просто анализирање на показателот.

Еве едноставен начин како да се направи тоа.

Разумно очекување

е дека нечија слава во еден даден временски период

треба да биде приближно колку и просекот од нивната слава

пред и по тој период.

Тоа би го очекувале.

Тоа ќе го споредиме со фактичката слава.

Едното го делиме со другото

и добиваме т.н. индекс на супресија (потиснување).

Доколку овој индекс е многу, многу мал,

тогаш веројатно сте биле потиснати.

Доколку е многу голем, тогаш можеби користите пропаганда.

Можете да ја погледнете

дистрибуцијата на индексите на супресија низ цели популации.

На пример, овде...

ова е индекс на супресија за 5.000 луѓе

добиен од англиските книги за кои нема супресија.

Тој изгледа вака. Во основа, цврсто е центриран на еден.

Го гледате тоа и што би го очекувале.

Оваа дистрибуција е од Германија.

Многу е различна. Поместена е на лево.

Луѓето за нив зборувале два пати помалку отколку што би требало.

Но, што е уште поважно, дистрибуцијата е многу поширока.

Има многу луѓе на самиот лев крај од дистрибуцијата,

за кои е зборувано десет пати помалку одошто е нормално.

Но, има и многу луѓе на десниот крај,

на кои изгледа им помогнала пропаганда.

Оваа слика е показател за цензурата на книгите.

Овој метод

го нарекуваме културомика.

Сличен е на геномиката,

со таа разлика што со геномиката ја разбираме билогијата,

преку базните секвенци во човечкиот геном.

Културомиката е слична.

Тоа е применета анализа врз податоци од голем размер

со цел да се проучи човечката култура.

Наместо да гледаме низ призмата на геномот,

овде гледаме низ призмата на дигитализираните историски податоци.

Она што е супер кај културомиката

е што секој може да ја примени.

Зошто?

Затоа што тројца момци,

Џон Орвант, Мет Греј и Вил Брокман од Гугл,

го видоа прототипот за „Ngram Viewer“

и рекоа „Ова е баш забавно.

Мора да го направиме достапно за луѓето.“

Во период од две недели, пред да излезе нашата статија,

тие направија верзија на „Ngram Viewer“ наменета за широката јавност.

Па, така и вие може да напишете збор или фраза што ве интересираат

и веднаш да го видите ен-грамот за нив.

Исто така, можете да ги пребарате и книгите

во кои се појавува вашиот ен-грам.

Во само првиот ден оваа алатка беше искористена преку милион пати.

Тоа е најдоброто од сите пребарувања.

Луѓето сакаат да бидат најдобри што можат, да дадат сè од себе.

Но, изгледа дека во 18-тиот век на луѓето воопшто не им било гајле за тоа.

Не сакале да бидат најдобри (beSt), туку најдобли (beFt).

Се разбира ова е само грешка.

Не се работи за стремеж кон медиокритет,

туку тогаш буквата S се пишувала поинаку, слично на F.

Гугл го немаше забележано ова

и затоа ние го спомнавме во трудот што го објавивме.

Ова треба да биде само потсетник

дека, иако ова е многу забавно,

кога ги интерпретирате графконите мора да бидете многу внимателни

и мора да ги примените основните стандарди на науката.

Луѓето го користат ова за разни забавни цели.

(смеа)

Нема потреба да зборуваме.

Само ќе ви ги покажеме слајдовите и ќе молчиме.

Овде некој бил заинтересиран за историјата на фрустрацијата.

Има разни видови на фрустрација.

Ако си го удрите палецот, тоа е „уф“ со едно у.

Доколку Земјата е уништена од страна на Вогоните

за да се изгради меѓуѕвездена обиколница,

тоа е „уф“ со осум у.

Оваа личност ги проучувала сите видови на „уф“,

со од една до осум букви у.

Се покажало дека

поретко се користат оние „уф“

кои кореспондираат на нештата што се пофрустрирачки,

освен, за чудо, во раните 80-ти.

Мислиме дека тоа некако е поврзано со Реган.

(смеа)

Овие податоци може да се користат на разни начини,

но она што е најважно е дека историските записи се дигитализираат.

Гугл започна со дигитализација на 15 милиони книги.

Тоа се 12 проценти од сите книги што некогаш биле објавени,

што е значаен дел од човечката култура.

Но, културата е многу повеќе: имаме ракописи, весници,

податоци кои не се текстуални, како уметноста и сликите.

Сите тие треба да се најдат на нашите компјутери,

на компјутерите низ целиот свет.

Тоа ќе го смени начинот на кој

ги разбираме нашето минато, нашата сегашност и човечката култура.

Ви благодарам многу.

(аплауз)