Ерез Лийберман Айден: Всеки знае,
че една картина струва хиляда думи.
Но ние от Харвард
се чудехме дали това наистина е вярно.
(Смях)
Затова събрахме екип от експерти,
който включва Харвард, МИТ,
Американския речник "Херитидж", енциклопедия "Британика"
и дори гордите ни спонсори-
Гугъл.
Размишлявахме върху това
около 4 години
и стигнахме до стряскащ извод.
Дами и господа, една картина не струва хиляда думи.
Всъщност намерихме няколко картини,
които струват 500 милиарда думи.
Жан Батист Мишел: Как стигнахме до този извод?
Ерез и аз търсихме начини
да добием пълна представа за човешката култура
и история-как се променят във времето.
Много книги са били написани през вековете.
Та си мислехме: "Добре, най-добрият начин да се научим от тях
е да прочетем всички тези милиони книги"
Разбира се, ако има степен колко невероятно е това,
това трябва да е доста, доста голяма степен.
Проблемът е, че има ос Х за това,
която е практическата ос.
Това е много, много ниско.
(Аплодисменти)
Сега хората използват алтернативен подход,
който включва намирането на няколко източника и прочитането им много внимателно.
Това е много практично, но не толкова невероятно.
Това, което наистина искаш да направиш,
е да стигнеш до невероятната, но практична част в тази област.
Оказва се, че има компания отвъд реката на име Гугъл,
която е била започнала преди няколко години проект по дигитизация,
който може и да осъществи този подход.
Те са направили електронен вариант на милиони книги.
Това означава, че човек може да използва компютърни методи,
за да чете всяка книга само с едно кликване.
Това е много практично и изключително страхотно.
ЕЛА: Нека Ви кажа малко повече за това, откъде идват книгите.
Имало е писатели още от време оно.
Тези писатели са се опитвали всячески да пишат книги.
И това станало доста по-лесно
с изобретяването на печатната машина преди няколко века.
Оттогава писателите са получили
129 милиона различни възможности
да публикуват книги.
Ако тези книги не бъдат изгубени някъде в историята,
то те ще бъдат някъде в библиотека
и много от тези книги биват намирани в библиотеките
и дигитализирани от Гугъл.
Гугъл вече е сканирал над 15 милиона книги до този момент.
Когато Гугъл дигитализира една книга, те я правят в много добър формат.
Сега имаме данните, освен това имаме метаданни.
Имаме информация къде е публикувана,
кой е авторът, кога е била публикувана.
Какво направихме ние - прегледахме всички тези архиви
и изхвърлихме всичко, което не е най-високо качество.
Това, което получихме,
е една колекция от 5 милиона книги,
500 милиарда думи,
наниз от знаци хиляда пъти по-дълъг
от човешкия геном-
текст, който ако бъде написан,
ще е дълъг от тук до Луната и обратно,
умножено по 10 пъти-
истински къс от нашия културен геном.
Разбира се, това, което направихме,
изправени пред толкова голяма хипербола,
(Смях)
беше това, което всеки себеуважаващ се изследовател
би направил.
Взехме една страница от ХКСД
и казахме: "Стойте назад!
Ще изпробваваме наука."
(Смях)
ЖМ: Сега, разбира се, си мислим
първо да направим данните свободни,
за да могат хората да правят наука с тях.
Мислим си какви данни можем да направим достъпни?
Разбира се, че искате да вземете книгите
и да пуснете пълните текстове на тези 5 милиона книги по нета.
Гугъл и Джон Оруънт най-вече
ни казаха едно малко уравнение, което трябва да научим.
И така, имаш 5 милиона книги, което е 5 милиона автора,
а 5 милиона ищци е един голям съдебен процес.
И въпреки че това би било наистина много, много готино,
отново, това е много, много непрактично.
(Смях)
Отново ние леко отстъпихме
и предприехме практичния подход, който беше по-малко готин.
Казахме си: "Добре, вместо да пуснем пълния текст,
ще пуснем в интернет пространството статистика за книгите.
Така, вземете например "Лъч щастие".
това са 4 думи, наричаме това 4-грама.
Ще ви кажем колко пъти точно определена 4-грама
се е появявал в книги от 1801, 1802, 1803,
чак до 2008.
Това ни дава времеви серии,
посочващи колко пъти точно това изречение е било използвано във времето.
Направихме това за всички думи и фрази, които се появяват в тези книги.
Това ни дава една голяма таблица от 2 милиарда реда,
която ни казва как културата ни се е променяла.
ЕЛА: Тези 2 милиарда реда
наричаме 2 милиарда н-грами.
Какво ни казват те?
Индивидуалните н-грамови измерват културните тенденции.
Нека ви дам един пример.
Нека предположим, че аз преуспявам.
Утре искам да ви кажа колко добре се справих.
И така, може да кажа: "Вчера успях."
Алтернативно мога да кажа: "Вчера преуспях."
Добре, кое да използвам?
Как да разбера?
От преди около 6 месеца
състоянието на изкуството в тази сфера
би било такова, например,
че да ви накара да отидете при психолог с невероятна коса
и да кажете:
"Стийв, ти си експерт по неправилни глаголи.
Какво да правя?"
И той би ви казал: "Повечето хора казват успях,
но някои хора казват преуспях."
И ти знаеше малко или много,
че ако се върнеш назад 200 години
и попиташ същия човек със също толкова хубава коса,
(Смях)
"Том, какво би трябвало да кажа?"
Той би ви отговорил: "По мое време повечето хора успяваха,
но някои преуспяха."
Сега ще ви покажа само сухи данни.
Два реда от тази таблица с 2 милиарда реда.
Това, което виждате, е година след година използване
на "успял" и "преуспял" през времето.
Това са само 2
от 2 милиарда реда.
Цялата база данни
е един милиард пъти по-готина от този слайд.
(Смях)
(Аплодисменти)
ЖМ: Има много други картини, които струват 500 милиарда думи.
Например, тази.
Ако вземете инфлуенца,
ще надникнете във времето, когато сте знаели, че
големи епидемии са убивали хора по целия глобус.
ЕЛА: Ако още не сте убеден
нивото на морското равнище се покачва,
както и атмосферният въглероден двуокис и глобалната температура.
ЖМ: Може би искате да видите и точно тази н-грама
и това е за да кажем на Ницше, че Господ не е мъртъв,
въпреки че ще се съгласите, че ще се нуждае от по-добър публицист.
(Смях)
ЕЛА: Може да достигнете до някои доста абстрактни идеи с този начин на мислене.
Например, нека ви кажа историята
на 1950 година.
Горе-долу за по-голямата част от историята
на никой не му пукаше за 1950.
През 1700, 1800, 1900
никой не се интересуваше.
През 30-те и 40-те години
на никой не му пукаше.
Изведнъж, по средата на 40-те
започна едно шумене.
Хората осъзнаха, че 1950 ще се случи
и че може би ще е голямо.
(Смях)
Но нищо не заинтересова хората през 1950
така, както годината 1950.
(Смях)
Хората ходеха наоколо обсебени.
Не можеха да спрат да говорят
за всичките неща, които са направили през тази година.
за всичките неща, които са смятали да направят през 1950,
за всичките мечти, които са искали да постигнат през 1950.
Всъщност,1950 беше толкова пленителна,
че за години напред
хората продължаваха да говорят за всичките невероятни неща, които са се случили
през 1951, 1952, 1953.
Най-накрая през 1954
някой се събуди и осъзна, че
1950 е минала някакси пасивно,
(Смях)
И просто така балонът се спука.
(Смях)
А историята на 1950
е историята на всяка година, която имаме в архив,
с малък обрат, защото сега имаме тези хубави таблици.
И защото имаме тези таблици, можем да измерваме неща.
Можем да кажем: "Колко бързо се пука балонът?"
И се оказва, че можем да измерим това доста бързо.
Изведохме уравнения, направихме диаграми
и чистият резултат
е, че балонът се пука по-бързо и по-бързо
с всяка следваща година.
Загубваме интерес в миналото все по-бързо.
ЖМ: И сега един малък съвет относно кариерата.
За тези от вас, които искат да станат известни,
могат да се поучат от 25 от най-известните политици,
писатели, актьори и т.н.
Затова ако искате да станете известен на по-ранен етап, трябва да станете актьор,
защото при тях славата расте от края на 20-те им години.
Все още сте млад, невероятно е.
Ако може да чакате, трябва да станете писател,
защото тогава се изкачвате до големи висоти,
като Марк Твен, например: изключително известен.
Но ако искате да достигнете до самия връх,
трябва да отложите овациите
и, разбира се, да станете политик.
Така ще станете известен към края на 50-те си години
и ще станете много, много известен след това.
Учените също стават популярни, когато остареят много.
Например, биолози и физици
стават почти толкова известни, колкото актьорите.
Една грешка, която не трябва да допускте, е да станете математици.
(Смях)
Ако направите това,
може да си помислите: "О, страхотно, ще създам най-добрия си труд, когато съм на 20."
Но познайте какво, на никого няма да му пука.
(Смях)
ЕЛА: Има по-изтрезвяващи бележки
сред н-грамите.
Например, ето траекторията на Марк Шагал,
артист, роден през 1887.
И това изглежда като нормалната траектория на един известен човек.
Той става по-известен, и по-известен, и по-известен
освен ако не гледате в немския език.
Ако гледате в немския език, ще забележите нещо много странно,
нещо, което почти не се забелязва никъде,
е това че той става много известен
и изведнъж тръгва стремглаво надолу,
и стига до най-ниската точка между 1933 и 1945,
преди да се отблъсне отново.
И разбира се, това, което наблюдаваме,
е фактът, че Марк Шагал е бил еврейски артист
в нацистка Германия.
Тези сигнали
са толкова силни,
че не ни трябва да знаем, че някой е бил цензуриран.
Всъщност можем да достигнем до този извод,
като използваме елементарно преработване на сигналите.
Ето един лесен начин да го направите.
Е, разумното очакване
е, че славата на някого в даден период от време
би трябвало да бъде грубо средното от тяхната слава преди
и след.
Та, това е горе-долу какво очакваме.
И сравняваме това със славата, която наблюдаваме
и просто разделяме едната на другата,
за да получим нещо, което наричаме индекс на потискане.
Ако този индекс е много, много, много малък,
тогава може би сте потиснати.
Ако е много голям, тогава най-вероятно се възползвате от пропаганда.
ЖМ: Сега може да наблюдавате
разпределението на тези индекси сред цели народи.
Например, тук-
този индекс на потискане е за 5 000 души,
избрани от английски книги, къдете няма познат натиск-
би било така-силно концентриран върху един.
Това, което очаквате, е горе-долу това, което наблюдавате.
Това е разпределение, както в Германия-
много различно, изместено вляво.
Хората говореха за него 2 пъти по-малко, а и така е трябвало да бъде.
Но много по-важно е, че разпространението е трябвало да бъде по-обширно.
Има много хора, които попадат в крайно ляво при това разпределение.
И за тях се е говорило 10 пъти по-малко, отколкото е трябвало.
Но пък тогава много хора в крайно дясно
изглежда имат полза от пропаганда.
Тази картина е характерна черта за цензура в книгите.
ЕЛА: Наричаме културомикс
този метод.
Прилича на геномикс.
Само че геномиксът е леща в биологията
през прозорецът на редицата от бази в човешкия геном.
Културомиксът е подобен.
Това е приложението на огромна база данни анализи
за изучаване на човешката култура.
Тук, вместо през леща на геном,
използваме леща на дигитализирани късове на човешката история.
Невероятното нещо на културомиксА
е това, че всеки може да го прави.
А защо това е така?
Всеки може да го прави, защото 3 момчета,
Джон Оруънт, Мат Грей и Уил Брокман в Гугъл,
видяха прототипа на Нграм Вюър,
и казаха: "Това е толквоа забавно.
Трябва да направим това достъпно за хората."
И така за 2 седмици -2 седмици, преди да ни излезе докладът,
те измислиха версия на програмата за широката публика.
И така всеки може да напише думата, която го интересува,
и да види нейната н-грама веднага.
А също така и да търси примери на най-различни книги,
в които се появява н-грамата.
ЖМ: Това беше изпробвано над милион пъти на първия ден
и това е наистина най-хубавото от всички питания.
Хората, които иската да бъдат най-добри, слагат най-добрия си крак напред.
Но изглежда през 18 век на хората не им е пукало за това изобщо.
Те не са искали да са най-добре, а са искали да са най-добрите.
Излиза, че просто е станала грешка.
Не е този стремеж за посредственост,
а просто С се е изписвало различно, малко като Ф.
Но разбира се, Гугъл не са знаели това на времето,
затова отбелязахме това в научната статия, която написахме.
Но изглежда това само напомня,
че въпреки това да е много забавно,
когато тълкувате тези графи, трябва да сте много внимателни,
и трябва да усвоите основните стандарти в науките.
ЕЛА: Хората са използвали това за всякакви цели.
(Смях)
Всъщност, няма да приказваме,
а просто ще ви покажем всичките слайдове и ще замълчим.
Този човек се е интересувал от историята на раздразнението.
Има различни видове раздразнение.
Ако си прободеш пръста на крака, това е "Ауч" с едно A.
Ако Земята бъде унищожена от Вогони,
за да направят път за междузвезден път,
това е "Aааааааргхх" с 8 А-та.
Този човек изучава всички А-та,
от едно до осем.
Излиза, че
по-малко използваното "аргх"
са, разбира се, тези, които съответстват на неща, които са по-дразнещи,
освен, странно, през 80-те.
Мислим, че това има нещо общо с Рейгън.
(Смях)
ЖМ: Тези данни имат много приложения,
но най-важното е, че историческте архиви се дигитализират.
Гугъл е започнал да прави това с 15 милиона книги.
Това са 12% от всички публикувани книги.
Това е огромен къс от човешката култура.
Има много повече в културата: ръкописи, вестници,
неща, които не са текстове, като изкуството и картините.
Всичко това е на нашите компютри,
на компютри по целия свят.
И когато това се случи, това ще промени начина ни на
разбиране на нашето минало, настояще и бъдеще.
Благодаря ви много.
(Аплодисменти)