Эрез Либерман Айден: Все знают,
что картинка стоит тысячи слов.
Но мы в Гарварде
сомневались, правда ли это.
(Смех)
Поэтому мы собрали команду экспертов
из Гарварда, МТИ,
Словаря Американского Наследия, Энциклопедии Британника,
и даже нашего гордого спонсора —
Google.
Мы обдумывали это
примерно четыре года.
И пришли к поразительному умозаключению.
Дамы и господа, картинка не стоит тысячи слов.
Мы нашли некоторые картинки,
которые стоят 500 миллиардов слов.
Жан-Баптист Мишель: Как мы пришли к этому заключению?
Эрез и я размышляли о том,
как получить общий план человеческой культуры и истории:
изменения с течением времени.
За годы были написаны многие книги.
И мы подумали, что лучшим способом их изучить
будет прочитать все эти миллионы книг.
Если бы была шкала, насколько круто бы это было,
то это было бы очень, очень круто.
Итак, для этого есть ось X,
практическая ось.
Это очень, очень низко.
(Аплодисменты)
Сейчас люди предпочитают другой подход, состоящий в том,
чтобы взять несколько источников, и прочитать их очень внимательно.
Это очень практично, но не так круто.
На самом деле хочется
добраться до практичной, но крутой части этого пространства.
Оказывается, напротив, через реку, есть компания Google,
которая несколько лет назад начала проект оцифровки,
который может позволить это сделать.
Они оцифровали миллионы книг.
Это означает, что можно использовать вычислительные методы
для прочтения всех этих книжек за один щелчок мыши.
Это очень практично и невероятно круто.
ЭЛА: Давайте я расскажу о происхождении книг.
С незапамятных времён, были авторы.
Авторы изо всех сил стремились писать книги.
С изобретением печатного станка несколько веков назад
это стало заметно легче.
С тех пор авторы победили
в 129 миллионах случаев
публикации книг.
Если эти книги не затерялись в истории,
они хранятся где-то в какой-то библиотеке,
и многие из этих книг были извлечены из библиотек
и оцифрованы компанией Google,
которая на сегодня просканировала 15 миллионов книг.
Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате.
У нас есть данные и есть метаданные.
У нас есть сведения о том, где книга была опубликована,
кто её автор, когда она была опубликована.
Мы прошлись по всем этим записям,
и исключили всё, кроме данных наивысшего качества.
Таким образом,
осталась коллекция из 5 миллионов книг,
500 миллиардов слов,
строка символов в тысячу раз длиннее,
чем геном человека —
если написать этот текст,
то он протянется до Луны и обратно
10 раз —
настоящий осколок культурного генома.
Естественно, мы сделали
перед лицом такой вопиющей гиперболы...
(Смех)
то, что сделал бы любой
уважающий себя ученый.
Мы взяли страницу из XKDC
и сказали: «Разойдись,
мы займёмся наукой».
(Смех)
ЖМ: Конечно, мы подумали,
давайте сначала сделаем данные доступными
для людей, которые применят к ним науку.
И мы подумали, какие данные мы может опубликовать?
Конечно, хотелось взять и опубликовать
полные тексты всех этих пяти миллионов книг.
Google, и Джон Орвант в частности,
научили нас небольшому уравнению.
Итак, есть пять миллионов, значит пять миллионов авторов
и пять миллионов истцов равняется огромная судебная тяжба.
И, хотя это было бы очень, просто нереально круто,
опять же, это очень, просто нереально непрактично.
(Смех)
Что ж, мы вроде как поддались,
и подошли к делу очень практично, хоть и не так круто.
Мы сказали, что вместо публикации полных текстов,
мы опубликуем статистику о книгах.
Возьмём, например, «A gleam of happiness »
Это четыре слова, мы называем это 4-грамма.
Мы скажем, как часто именно эта 4-грамма
появлялась в книгах в 1801-м, 1802-м, 1803-м,
и так далее вплоть до 2008-го.
Это даст временной ряд частоты использования
именно этой фразы с течением времени.
Мы проделываем это для всех слов и фраз, появляющихся в этих книгах,
и это даёт большую таблицу в два миллиарда строк,
которые говорят нам, каким образом изменялась культура.
ЭЛА: Эти два миллиарда строк,
мы называем их два миллиарда N-грамм.
Что они нам говорят?
Отдельные N-граммы измеряют культурные тенденции.
Позвольте привести пример.
Предположим, я процветаю сегодня,
и завтра хочу рассказать вам, как мне было хорошо.
Я могу сказать: «Вчера я процветал [throve]».
По-другому, я могу сказать: «Вчера я процветал [thrived]».
Какой вариант мне использовать?
Как узнать?
Примерно шесть месяцев назад,
положение дел в этой области
было таким, что можно было, например,
подойти к психологу с поразительной стрижкой
и спросить:
«Стив, ты эксперт по неправильным глаголам.
Как мне быть?»
А он бы ответил: «Большая часть людей сказала бы процветал [thrive],
но некоторые скажут процветал [throve]».
Как известно, более или менее,
если вернуться на 200 лет назад,
и спросить вот этого политика, с не менее поразительной стрижкой,
(Смех)
«Том, как нужно говорить?»
Он бы ответил: «В мои дни большая часть людей процветала [throve],
но некоторые процветали [thrived]».
Я вам покажу необработанные данные.
Две строки из таблицы в два миллиарда строк.
Здесь показана, год за годом,
частота слов «процветал [thrived]» и «процветал [throve]».
И это всего лишь два
из двух миллиардов строк.
Весь набор данных
в миллиард раз круче, чем этот слайд.
(Смех)
(Аплодисменты)
ЖМ: Есть много других картинок, которые стоят 500 миллиардов слов.
Например, вот эта.
Если взять грипп,
можно видеть пики в то время,
когда эпидемии гриппа убивали людей по всему миру.
ЭЛА: Если это вас не убеждает,
уровень моря поднимается,
а также содержание углекислого газа в атмосфере и мировая температура.
ЖМ: А также можно посмотреть на вот эту N-грамму,
и сказать Ницше, что Бог не мёртв,
хотя можно согласиться, что ему нужен лучший публицист.
(Смех)
ЭЛА: С помощью этого инструмента можно добраться до довольно таки абстрактных концепций.
Например, позвольте рассказать
историю 1950-го года.
На протяжении большей части истории
1950-й вообще никого не волновал.
В 1700-х, 1800-х, 1900-х
никто им не интересовался.
В течение 30-х и 40-х
никто им не интересовался.
Внезапно, в середине 40-х,
началось обсуждение.
Люди поняли, что скоро наступит 1950-й,
и это будет событие.
(Смех)
Но ничто не интересовало людей сильнее в 1950-м,
чем сам 1950-й.
(Смех)
Люди помешались.
Они не могли прекратить
рассказывать обо всём, что они делали в 1950-м,
обо всём, что они планировали сделать в 1950-м,
обо всех мечтах, которые они хотели осуществить в 1950-м.
На самом деле, 1950-й был настолько восхитительным,
что годы спустя,
люди продолжали говорить обо всех удивительных событиях, которые случились
в 1951-м, 1952-м, 1953-м.
Наконец, в 1954-м,
кто-то осознал,
что 1950-й стал старомодным.
(Смех)
Вот так пузырь и лопнул.
(Смех)
История 1950-го
повторяется для каждого года, о котором у нас есть данные,
с небольшим изменением, потому что теперь у нас есть вот эти графики.
Благодаря этим графикам, мы можем измерить.
Можно сказать: «Как быстро лопаются пузыри?»
Оказывается, это можно очень точно измерить.
Уравнения были выведены, графики были построены,
и конечным результатом стало то,
что пузыри лопаются быстрее и быстрее
с каждым прошедшим годом.
Мы всё быстрее теряем интерес к прошлому.
ЖМ: Небольшой карьерный совет.
Для тех из вас, кто стремится к славе,
можно научиться у 25-ти самых известных политиков,
авторов, актёров, и т.д.
Если вы хотите стать известным рано, вам нужно быть актёром,
потому что слава начинается к концу их третьего десятка —
вы всё ещё молоды, это здорово.
Если вы согласны подождать, вам нужно стать автором,
потому что это позволит подняться на большие высоты,
как Марк Твен, например, очень знаменит.
Но если вы хотите подняться на самую вершину,
нужно отложить удовольствие
и конечно, стать политиком.
Вы станете известны под конец шестого десятка,
и станете очень, очень знаменитым после.
Учёные тоже становятся знаменитыми, когда они становятся старее.
Например, биологи и физики
становятся примерно такими же знаменитыми, как и актёры.
Ошибкой, которую делать не стоит — становиться математиком.
(Смех)
В этом случае,
можно подумать: «Отлично, свои лучшие работы я сделаю на третьем десятке».
Но знаете что? Никому это не интересно.
(Смех)
ЭЛА: В N-граммах есть
ещё более отрезвляющие вещи.
Например, вот траектория Марка Шагала,
художника, родившегося в 1887-м.
Выглядит как нормальная траектория знаменитого человека.
Он становится всё более и более знаменитым,
за исключением знаменитости среди немецкоговорящих.
Если посмотреть на немецкий язык, то можно увидеть что совершенно невообразимое,
что-то, что видишь не часто —
он становится чрезвычайно знаменитым,
а затем внезапно падает,
проходя надир между 1933-м и 1945-м годами,
прежде чем вернуться позже.
Конечно, здесь мы наблюдаем тот факт,
что Марк Шагал был еврейским художником
в нацистской Германии.
Эти сигналы
настолько сильны,
что нам не нужно знать, что кто-то подвергался цензуре.
Мы можем это понять,
используя простейший анализ сигналов.
Вот простой способ это сделать.
Разумно предположить,
что чья-то слава в данный период времени
должны быть примерно равна среднему славы до
и славы после.
Это то, что мы ожидаем.
И мы сравним это с тем, что мы наблюдаем.
Затем делим одно на второе,
чтобы получить что-то, называемое индекс подавления.
Если индекс подавления очень, очень, очень маленький,
вероятно, что вас действительно подавляют.
Если он очень велик, наверное, вас пропагандируют.
ЖМ: Теперь можно посмотреть
на распределение индексов подавления по всёму населению.
Например, здесь:
это индекс подавления для 5 тысяч людей,
взятых из английских книг, где известно про отсутствие цензуры,
он примерно вот такой, сконцентрированный возле единицы.
Ожидаемое совпадает с наблюдаемым.
Это распределение наблюдалось в Германии —
оно совершенно другое, смещено влево.
Люди говорили об этом в два раза реже, чем должны были.
Однако, что более важно, распределение намного шире.
О многих людях, которые оказываются на левом краю этого распределения,
говорят в 10 раз меньше, чем должны.
Однако многие люди на правом краю
пожинают плоды пропаганды.
Эта картинка — клеймо цензуры на книжной истории.
ЭЛА: Мы называем этот метод
культуромикой.
Это как геномика.
Разве что геномика это линза для биологии,
взгляд сквозь окно последовательностей оснований генома человека.
Культуромика сходна.
Это применение анализа наборов данных огромного масштаба
к изучению человеческой культуры.
Но взамен линзы генома,
мы смотрим сквозь линзу оцифрованных частиц истории.
Замечательным аспектом культуромики является то,
что любой может ею заняться.
Почему же любой может ею заняться?
Потому что эти парни,
Джон Орвант, Мэтт Грей и Уилл Брокман из Google,
увидев прототип средства просмотра N-грамм,
сказали: «Это очень весёлая вещь.
Давайте это опубликуем».
Ровно за две недели — за две недели до публикации нашей статьи —
они запрограммировали публичную версию средства просмотра N-грамм.
Теперь и вы можете напечатать любое слово или предложение, которое вас интересует,
и сразу посмотреть его N-граммы,
включая просмотр примеров из всех тех разных книг,
в которых встречается ваша N-грамма.
ЖМ: В первый же день этим воспользовались более миллиона раз,
и это — лучшие из всех запросов.
Люди хотят показать себя с наилучшей стороны.
Однако оказывается, что в 18-м веке людей это совсем не интересовало.
Они не хотели показать себя с лучшей стороны [best], они хотели показать себя с лучшей штороны [beft].
Как обычно, это была просто ошибка.
Это не стремление к посредственности,
просто буква S писалась по-другому, похоже на F.
Конечно, Google тогда это не отследил,
поэтому мы отметили это в написанной нами статье.
Однако оказывается, что это просто напоминание о том, что,
несмотря на всё веселье,
при объяснении этих графиков нужно быть очень осторожным,
и нужно применять лучшие научные стандарты.
ЭЛА: Как только люди этим не пользовались.
(Смех)
На самом деле, говорить ничего не нужно,
мы просто покажем вам слайды, молча.
Этого человека интересовала история расстройств.
Есть разные типы расстройств.
Если вы ударились большим пальцем, это «ах» с одним А.
Если планету Земля аннигилировали вогоны,
чтобы освободить место для межгалактического туннеля,
это «аааааааах» с восемью А.
Этот человек изучил все «ахи»,
содержащие от одного до восьми А.
Оказывается,
наиболее редкими «ахами» являются те,
которые относятся к наиболее пугающим вещам,
кроме, как ни странно, начала 80-х.
Наверное, Рейган имеет к этому отношение.
(Смех)
ЖМ: Эти данные можно использовать по-разному,
но суть в том, что история оцифровывается.
Google начал оцифровывать 15 миллионов книг.
Это 12 процентов всех когда-либо напечатанных книг.
Это заметная часть человеческой культуры.
Но в культуре намного больше вещей: рукописи, газеты,
нетекстовые вещи, например искусство и картины.
Всё это оказывается на наших компьютерах,
на компьютерах по всему миру.
И когда это случится, это изменит то,
как мы понимаем прошлое, настоящее и человеческую культуру.
Спасибо большое.
(Аплодисменты)