WEBVTT 00:00:00.000 --> 00:00:02.000 Эрез Либерман Айден: Все знают, 00:00:02.000 --> 00:00:05.000 что картинка стоит тысячи слов. 00:00:07.000 --> 00:00:09.000 Но мы в Гарварде 00:00:09.000 --> 00:00:12.000 сомневались, правда ли это. 00:00:12.000 --> 00:00:14.000 (Смех) 00:00:14.000 --> 00:00:18.000 Поэтому мы собрали команду экспертов 00:00:18.000 --> 00:00:20.000 из Гарварда, МТИ, 00:00:20.000 --> 00:00:23.000 Словаря Американского Наследия, Энциклопедии Британника, 00:00:23.000 --> 00:00:25.000 и даже нашего гордого спонсора — 00:00:25.000 --> 00:00:28.000 Google. 00:00:28.000 --> 00:00:30.000 Мы обдумывали это 00:00:30.000 --> 00:00:32.000 примерно четыре года. 00:00:32.000 --> 00:00:37.000 И пришли к поразительному умозаключению. 00:00:37.000 --> 00:00:40.000 Дамы и господа, картинка не стоит тысячи слов. 00:00:40.000 --> 00:00:42.000 Мы нашли некоторые картинки, 00:00:42.000 --> 00:00:47.000 которые стоят 500 миллиардов слов. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Жан-Баптист Мишель: Как мы пришли к этому заключению? 00:00:49.000 --> 00:00:51.000 Эрез и я размышляли о том, 00:00:51.000 --> 00:00:53.000 как получить общий план человеческой культуры и истории: 00:00:53.000 --> 00:00:56.000 изменения с течением времени. 00:00:56.000 --> 00:00:58.000 За годы были написаны многие книги. 00:00:58.000 --> 00:01:00.000 И мы подумали, что лучшим способом их изучить 00:01:00.000 --> 00:01:02.000 будет прочитать все эти миллионы книг. 00:01:02.000 --> 00:01:05.000 Если бы была шкала, насколько круто бы это было, 00:01:05.000 --> 00:01:08.000 то это было бы очень, очень круто. 00:01:08.000 --> 00:01:10.000 Итак, для этого есть ось X, 00:01:10.000 --> 00:01:12.000 практическая ось. 00:01:12.000 --> 00:01:14.000 Это очень, очень низко. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Аплодисменты) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 Сейчас люди предпочитают другой подход, состоящий в том, 00:01:20.000 --> 00:01:22.000 чтобы взять несколько источников, и прочитать их очень внимательно. 00:01:22.000 --> 00:01:24.000 Это очень практично, но не так круто. 00:01:24.000 --> 00:01:27.000 На самом деле хочется 00:01:27.000 --> 00:01:30.000 добраться до практичной, но крутой части этого пространства. 00:01:30.000 --> 00:01:33.000 Оказывается, напротив, через реку, есть компания Google, 00:01:33.000 --> 00:01:35.000 которая несколько лет назад начала проект оцифровки, 00:01:35.000 --> 00:01:37.000 который может позволить это сделать. 00:01:37.000 --> 00:01:39.000 Они оцифровали миллионы книг. 00:01:39.000 --> 00:01:42.000 Это означает, что можно использовать вычислительные методы 00:01:42.000 --> 00:01:44.000 для прочтения всех этих книжек за один щелчок мыши. 00:01:44.000 --> 00:01:47.000 Это очень практично и невероятно круто. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ЭЛА: Давайте я расскажу о происхождении книг. 00:01:50.000 --> 00:01:53.000 С незапамятных времён, были авторы. 00:01:53.000 --> 00:01:56.000 Авторы изо всех сил стремились писать книги. 00:01:56.000 --> 00:01:58.000 С изобретением печатного станка несколько веков назад 00:01:58.000 --> 00:02:00.000 это стало заметно легче. 00:02:00.000 --> 00:02:03.000 С тех пор авторы победили 00:02:03.000 --> 00:02:05.000 в 129 миллионах случаев 00:02:05.000 --> 00:02:07.000 публикации книг. 00:02:07.000 --> 00:02:09.000 Если эти книги не затерялись в истории, 00:02:09.000 --> 00:02:11.000 они хранятся где-то в какой-то библиотеке, 00:02:11.000 --> 00:02:14.000 и многие из этих книг были извлечены из библиотек 00:02:14.000 --> 00:02:16.000 и оцифрованы компанией Google, 00:02:16.000 --> 00:02:18.000 которая на сегодня просканировала 15 миллионов книг. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате. 00:02:21.000 --> 00:02:23.000 У нас есть данные и есть метаданные. 00:02:23.000 --> 00:02:26.000 У нас есть сведения о том, где книга была опубликована, 00:02:26.000 --> 00:02:28.000 кто её автор, когда она была опубликована. 00:02:28.000 --> 00:02:31.000 Мы прошлись по всем этим записям, 00:02:31.000 --> 00:02:35.000 и исключили всё, кроме данных наивысшего качества. 00:02:35.000 --> 00:02:37.000 Таким образом, 00:02:37.000 --> 00:02:40.000 осталась коллекция из 5 миллионов книг, 00:02:40.000 --> 00:02:43.000 500 миллиардов слов, 00:02:43.000 --> 00:02:45.000 строка символов в тысячу раз длиннее, 00:02:45.000 --> 00:02:48.000 чем геном человека — 00:02:48.000 --> 00:02:50.000 если написать этот текст, 00:02:50.000 --> 00:02:52.000 то он протянется до Луны и обратно 00:02:52.000 --> 00:02:54.000 10 раз — 00:02:54.000 --> 00:02:58.000 настоящий осколок культурного генома. 00:02:58.000 --> 00:03:00.000 Естественно, мы сделали 00:03:00.000 --> 00:03:03.000 перед лицом такой вопиющей гиперболы... 00:03:03.000 --> 00:03:05.000 (Смех) 00:03:05.000 --> 00:03:08.000 то, что сделал бы любой 00:03:08.000 --> 00:03:11.000 уважающий себя ученый. 00:03:11.000 --> 00:03:13.000 Мы взяли страницу из XKDC 00:03:13.000 --> 00:03:15.000 и сказали: «Разойдись, 00:03:15.000 --> 00:03:17.000 мы займёмся наукой». NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Смех) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 ЖМ: Конечно, мы подумали, 00:03:21.000 --> 00:03:23.000 давайте сначала сделаем данные доступными 00:03:23.000 --> 00:03:25.000 для людей, которые применят к ним науку. 00:03:25.000 --> 00:03:27.000 И мы подумали, какие данные мы может опубликовать? 00:03:27.000 --> 00:03:29.000 Конечно, хотелось взять и опубликовать 00:03:29.000 --> 00:03:31.000 полные тексты всех этих пяти миллионов книг. 00:03:31.000 --> 00:03:33.000 Google, и Джон Орвант в частности, 00:03:33.000 --> 00:03:35.000 научили нас небольшому уравнению. 00:03:35.000 --> 00:03:38.000 Итак, есть пять миллионов, значит пять миллионов авторов 00:03:38.000 --> 00:03:41.000 и пять миллионов истцов равняется огромная судебная тяжба. 00:03:41.000 --> 00:03:43.000 И, хотя это было бы очень, просто нереально круто, 00:03:43.000 --> 00:03:46.000 опять же, это очень, просто нереально непрактично. 00:03:46.000 --> 00:03:48.000 (Смех) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Что ж, мы вроде как поддались, 00:03:50.000 --> 00:03:53.000 и подошли к делу очень практично, хоть и не так круто. 00:03:53.000 --> 00:03:55.000 Мы сказали, что вместо публикации полных текстов, 00:03:55.000 --> 00:03:57.000 мы опубликуем статистику о книгах. 00:03:57.000 --> 00:03:59.000 Возьмём, например, «A gleam of happiness » 00:03:59.000 --> 00:04:01.000 Это четыре слова, мы называем это 4-грамма. 00:04:01.000 --> 00:04:03.000 Мы скажем, как часто именно эта 4-грамма 00:04:03.000 --> 00:04:05.000 появлялась в книгах в 1801-м, 1802-м, 1803-м, 00:04:05.000 --> 00:04:07.000 и так далее вплоть до 2008-го. 00:04:07.000 --> 00:04:09.000 Это даст временной ряд частоты использования 00:04:09.000 --> 00:04:11.000 именно этой фразы с течением времени. 00:04:11.000 --> 00:04:14.000 Мы проделываем это для всех слов и фраз, появляющихся в этих книгах, 00:04:14.000 --> 00:04:17.000 и это даёт большую таблицу в два миллиарда строк, 00:04:17.000 --> 00:04:19.000 которые говорят нам, каким образом изменялась культура. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ЭЛА: Эти два миллиарда строк, 00:04:21.000 --> 00:04:23.000 мы называем их два миллиарда N-грамм. 00:04:23.000 --> 00:04:25.000 Что они нам говорят? 00:04:25.000 --> 00:04:27.000 Отдельные N-граммы измеряют культурные тенденции. 00:04:27.000 --> 00:04:29.000 Позвольте привести пример. 00:04:29.000 --> 00:04:31.000 Предположим, я процветаю сегодня, 00:04:31.000 --> 00:04:33.000 и завтра хочу рассказать вам, как мне было хорошо. 00:04:33.000 --> 00:04:36.000 Я могу сказать: «Вчера я процветал [throve]». 00:04:36.000 --> 00:04:39.000 По-другому, я могу сказать: «Вчера я процветал [thrived]». 00:04:39.000 --> 00:04:42.000 Какой вариант мне использовать? 00:04:42.000 --> 00:04:44.000 Как узнать? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Примерно шесть месяцев назад, 00:04:46.000 --> 00:04:48.000 положение дел в этой области 00:04:48.000 --> 00:04:50.000 было таким, что можно было, например, 00:04:50.000 --> 00:04:52.000 подойти к психологу с поразительной стрижкой 00:04:52.000 --> 00:04:54.000 и спросить: 00:04:54.000 --> 00:04:57.000 «Стив, ты эксперт по неправильным глаголам. 00:04:57.000 --> 00:04:59.000 Как мне быть?» 00:04:59.000 --> 00:05:01.000 А он бы ответил: «Большая часть людей сказала бы процветал [thrive], 00:05:01.000 --> 00:05:04.000 но некоторые скажут процветал [throve]». 00:05:04.000 --> 00:05:06.000 Как известно, более или менее, 00:05:06.000 --> 00:05:09.000 если вернуться на 200 лет назад, 00:05:09.000 --> 00:05:12.000 и спросить вот этого политика, с не менее поразительной стрижкой, 00:05:12.000 --> 00:05:15.000 (Смех) 00:05:15.000 --> 00:05:17.000 «Том, как нужно говорить?» 00:05:17.000 --> 00:05:19.000 Он бы ответил: «В мои дни большая часть людей процветала [throve], 00:05:19.000 --> 00:05:22.000 но некоторые процветали [thrived]». 00:05:22.000 --> 00:05:24.000 Я вам покажу необработанные данные. 00:05:24.000 --> 00:05:28.000 Две строки из таблицы в два миллиарда строк. 00:05:28.000 --> 00:05:30.000 Здесь показана, год за годом, 00:05:30.000 --> 00:05:33.000 частота слов «процветал [thrived]» и «процветал [throve]». 00:05:34.000 --> 00:05:36.000 И это всего лишь два 00:05:36.000 --> 00:05:39.000 из двух миллиардов строк. 00:05:39.000 --> 00:05:41.000 Весь набор данных 00:05:41.000 --> 00:05:44.000 в миллиард раз круче, чем этот слайд. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Смех) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Аплодисменты) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 ЖМ: Есть много других картинок, которые стоят 500 миллиардов слов. 00:05:52.000 --> 00:05:54.000 Например, вот эта. 00:05:54.000 --> 00:05:56.000 Если взять грипп, 00:05:56.000 --> 00:05:58.000 можно видеть пики в то время, 00:05:58.000 --> 00:06:01.000 когда эпидемии гриппа убивали людей по всему миру. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ЭЛА: Если это вас не убеждает, 00:06:04.000 --> 00:06:06.000 уровень моря поднимается, 00:06:06.000 --> 00:06:09.000 а также содержание углекислого газа в атмосфере и мировая температура. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 ЖМ: А также можно посмотреть на вот эту N-грамму, 00:06:12.000 --> 00:06:15.000 и сказать Ницше, что Бог не мёртв, 00:06:15.000 --> 00:06:18.000 хотя можно согласиться, что ему нужен лучший публицист. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Смех) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ЭЛА: С помощью этого инструмента можно добраться до довольно таки абстрактных концепций. 00:06:23.000 --> 00:06:25.000 Например, позвольте рассказать 00:06:25.000 --> 00:06:27.000 историю 1950-го года. 00:06:27.000 --> 00:06:29.000 На протяжении большей части истории 00:06:29.000 --> 00:06:31.000 1950-й вообще никого не волновал. 00:06:31.000 --> 00:06:33.000 В 1700-х, 1800-х, 1900-х 00:06:33.000 --> 00:06:36.000 никто им не интересовался. 00:06:37.000 --> 00:06:39.000 В течение 30-х и 40-х 00:06:39.000 --> 00:06:41.000 никто им не интересовался. 00:06:41.000 --> 00:06:43.000 Внезапно, в середине 40-х, 00:06:43.000 --> 00:06:45.000 началось обсуждение. 00:06:45.000 --> 00:06:47.000 Люди поняли, что скоро наступит 1950-й, 00:06:47.000 --> 00:06:49.000 и это будет событие. 00:06:49.000 --> 00:06:52.000 (Смех) 00:06:52.000 --> 00:06:55.000 Но ничто не интересовало людей сильнее в 1950-м, 00:06:55.000 --> 00:06:58.000 чем сам 1950-й. 00:06:58.000 --> 00:07:01.000 (Смех) 00:07:01.000 --> 00:07:03.000 Люди помешались. 00:07:03.000 --> 00:07:05.000 Они не могли прекратить 00:07:05.000 --> 00:07:08.000 рассказывать обо всём, что они делали в 1950-м, 00:07:08.000 --> 00:07:11.000 обо всём, что они планировали сделать в 1950-м, 00:07:11.000 --> 00:07:16.000 обо всех мечтах, которые они хотели осуществить в 1950-м. 00:07:16.000 --> 00:07:18.000 На самом деле, 1950-й был настолько восхитительным, 00:07:18.000 --> 00:07:20.000 что годы спустя, 00:07:20.000 --> 00:07:23.000 люди продолжали говорить обо всех удивительных событиях, которые случились 00:07:23.000 --> 00:07:25.000 в 1951-м, 1952-м, 1953-м. 00:07:25.000 --> 00:07:27.000 Наконец, в 1954-м, 00:07:27.000 --> 00:07:29.000 кто-то осознал, 00:07:29.000 --> 00:07:33.000 что 1950-й стал старомодным. 00:07:33.000 --> 00:07:35.000 (Смех) 00:07:35.000 --> 00:07:37.000 Вот так пузырь и лопнул. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Смех) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 История 1950-го 00:07:41.000 --> 00:07:43.000 повторяется для каждого года, о котором у нас есть данные, 00:07:43.000 --> 00:07:46.000 с небольшим изменением, потому что теперь у нас есть вот эти графики. 00:07:46.000 --> 00:07:49.000 Благодаря этим графикам, мы можем измерить. 00:07:49.000 --> 00:07:51.000 Можно сказать: «Как быстро лопаются пузыри?» 00:07:51.000 --> 00:07:54.000 Оказывается, это можно очень точно измерить. 00:07:54.000 --> 00:07:57.000 Уравнения были выведены, графики были построены, 00:07:57.000 --> 00:07:59.000 и конечным результатом стало то, 00:07:59.000 --> 00:08:02.000 что пузыри лопаются быстрее и быстрее 00:08:02.000 --> 00:08:04.000 с каждым прошедшим годом. 00:08:04.000 --> 00:08:09.000 Мы всё быстрее теряем интерес к прошлому. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 ЖМ: Небольшой карьерный совет. 00:08:11.000 --> 00:08:13.000 Для тех из вас, кто стремится к славе, 00:08:13.000 --> 00:08:15.000 можно научиться у 25-ти самых известных политиков, 00:08:15.000 --> 00:08:17.000 авторов, актёров, и т.д. 00:08:17.000 --> 00:08:20.000 Если вы хотите стать известным рано, вам нужно быть актёром, 00:08:20.000 --> 00:08:22.000 потому что слава начинается к концу их третьего десятка — 00:08:22.000 --> 00:08:24.000 вы всё ещё молоды, это здорово. 00:08:24.000 --> 00:08:26.000 Если вы согласны подождать, вам нужно стать автором, 00:08:26.000 --> 00:08:28.000 потому что это позволит подняться на большие высоты, 00:08:28.000 --> 00:08:30.000 как Марк Твен, например, очень знаменит. 00:08:30.000 --> 00:08:32.000 Но если вы хотите подняться на самую вершину, 00:08:32.000 --> 00:08:34.000 нужно отложить удовольствие 00:08:34.000 --> 00:08:36.000 и конечно, стать политиком. 00:08:36.000 --> 00:08:38.000 Вы станете известны под конец шестого десятка, 00:08:38.000 --> 00:08:40.000 и станете очень, очень знаменитым после. 00:08:40.000 --> 00:08:43.000 Учёные тоже становятся знаменитыми, когда они становятся старее. 00:08:43.000 --> 00:08:45.000 Например, биологи и физики 00:08:45.000 --> 00:08:47.000 становятся примерно такими же знаменитыми, как и актёры. 00:08:47.000 --> 00:08:50.000 Ошибкой, которую делать не стоит — становиться математиком. 00:08:50.000 --> 00:08:52.000 (Смех) 00:08:52.000 --> 00:08:54.000 В этом случае, 00:08:54.000 --> 00:08:57.000 можно подумать: «Отлично, свои лучшие работы я сделаю на третьем десятке». 00:08:57.000 --> 00:08:59.000 Но знаете что? Никому это не интересно. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Смех) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 ЭЛА: В N-граммах есть 00:09:04.000 --> 00:09:06.000 ещё более отрезвляющие вещи. 00:09:06.000 --> 00:09:08.000 Например, вот траектория Марка Шагала, 00:09:08.000 --> 00:09:10.000 художника, родившегося в 1887-м. 00:09:10.000 --> 00:09:13.000 Выглядит как нормальная траектория знаменитого человека. 00:09:13.000 --> 00:09:17.000 Он становится всё более и более знаменитым, 00:09:17.000 --> 00:09:19.000 за исключением знаменитости среди немецкоговорящих. 00:09:19.000 --> 00:09:21.000 Если посмотреть на немецкий язык, то можно увидеть что совершенно невообразимое, 00:09:21.000 --> 00:09:23.000 что-то, что видишь не часто — 00:09:23.000 --> 00:09:25.000 он становится чрезвычайно знаменитым, 00:09:25.000 --> 00:09:27.000 а затем внезапно падает, 00:09:27.000 --> 00:09:30.000 проходя надир между 1933-м и 1945-м годами, 00:09:30.000 --> 00:09:33.000 прежде чем вернуться позже. 00:09:33.000 --> 00:09:35.000 Конечно, здесь мы наблюдаем тот факт, 00:09:35.000 --> 00:09:38.000 что Марк Шагал был еврейским художником 00:09:38.000 --> 00:09:40.000 в нацистской Германии. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Эти сигналы 00:09:42.000 --> 00:09:44.000 настолько сильны, 00:09:44.000 --> 00:09:47.000 что нам не нужно знать, что кто-то подвергался цензуре. 00:09:47.000 --> 00:09:49.000 Мы можем это понять, 00:09:49.000 --> 00:09:51.000 используя простейший анализ сигналов. 00:09:51.000 --> 00:09:53.000 Вот простой способ это сделать. 00:09:53.000 --> 00:09:55.000 Разумно предположить, 00:09:55.000 --> 00:09:57.000 что чья-то слава в данный период времени 00:09:57.000 --> 00:09:59.000 должны быть примерно равна среднему славы до 00:09:59.000 --> 00:10:01.000 и славы после. 00:10:01.000 --> 00:10:03.000 Это то, что мы ожидаем. 00:10:03.000 --> 00:10:06.000 И мы сравним это с тем, что мы наблюдаем. 00:10:06.000 --> 00:10:08.000 Затем делим одно на второе, 00:10:08.000 --> 00:10:10.000 чтобы получить что-то, называемое индекс подавления. 00:10:10.000 --> 00:10:13.000 Если индекс подавления очень, очень, очень маленький, 00:10:13.000 --> 00:10:15.000 вероятно, что вас действительно подавляют. 00:10:15.000 --> 00:10:18.000 Если он очень велик, наверное, вас пропагандируют. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 ЖМ: Теперь можно посмотреть 00:10:21.000 --> 00:10:24.000 на распределение индексов подавления по всёму населению. 00:10:24.000 --> 00:10:26.000 Например, здесь: 00:10:26.000 --> 00:10:28.000 это индекс подавления для 5 тысяч людей, 00:10:28.000 --> 00:10:30.000 взятых из английских книг, где известно про отсутствие цензуры, 00:10:30.000 --> 00:10:32.000 он примерно вот такой, сконцентрированный возле единицы. 00:10:32.000 --> 00:10:34.000 Ожидаемое совпадает с наблюдаемым. 00:10:34.000 --> 00:10:36.000 Это распределение наблюдалось в Германии — 00:10:36.000 --> 00:10:38.000 оно совершенно другое, смещено влево. 00:10:38.000 --> 00:10:41.000 Люди говорили об этом в два раза реже, чем должны были. 00:10:41.000 --> 00:10:43.000 Однако, что более важно, распределение намного шире. 00:10:43.000 --> 00:10:46.000 О многих людях, которые оказываются на левом краю этого распределения, 00:10:46.000 --> 00:10:49.000 говорят в 10 раз меньше, чем должны. 00:10:49.000 --> 00:10:51.000 Однако многие люди на правом краю 00:10:51.000 --> 00:10:53.000 пожинают плоды пропаганды. 00:10:53.000 --> 00:10:56.000 Эта картинка — клеймо цензуры на книжной истории. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 ЭЛА: Мы называем этот метод 00:10:58.000 --> 00:11:00.000 культуромикой. 00:11:00.000 --> 00:11:02.000 Это как геномика. 00:11:02.000 --> 00:11:04.000 Разве что геномика это линза для биологии, 00:11:04.000 --> 00:11:07.000 взгляд сквозь окно последовательностей оснований генома человека. 00:11:07.000 --> 00:11:09.000 Культуромика сходна. 00:11:09.000 --> 00:11:12.000 Это применение анализа наборов данных огромного масштаба 00:11:12.000 --> 00:11:14.000 к изучению человеческой культуры. 00:11:14.000 --> 00:11:16.000 Но взамен линзы генома, 00:11:16.000 --> 00:11:19.000 мы смотрим сквозь линзу оцифрованных частиц истории. 00:11:19.000 --> 00:11:21.000 Замечательным аспектом культуромики является то, 00:11:21.000 --> 00:11:23.000 что любой может ею заняться. 00:11:23.000 --> 00:11:25.000 Почему же любой может ею заняться? 00:11:25.000 --> 00:11:27.000 Потому что эти парни, 00:11:27.000 --> 00:11:30.000 Джон Орвант, Мэтт Грей и Уилл Брокман из Google, 00:11:30.000 --> 00:11:32.000 увидев прототип средства просмотра N-грамм, 00:11:32.000 --> 00:11:34.000 сказали: «Это очень весёлая вещь. 00:11:34.000 --> 00:11:37.000 Давайте это опубликуем». 00:11:37.000 --> 00:11:39.000 Ровно за две недели — за две недели до публикации нашей статьи — 00:11:39.000 --> 00:11:42.000 они запрограммировали публичную версию средства просмотра N-грамм. 00:11:42.000 --> 00:11:45.000 Теперь и вы можете напечатать любое слово или предложение, которое вас интересует, 00:11:45.000 --> 00:11:47.000 и сразу посмотреть его N-граммы, 00:11:47.000 --> 00:11:49.000 включая просмотр примеров из всех тех разных книг, 00:11:49.000 --> 00:11:51.000 в которых встречается ваша N-грамма. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 ЖМ: В первый же день этим воспользовались более миллиона раз, 00:11:53.000 --> 00:11:55.000 и это — лучшие из всех запросов. 00:11:55.000 --> 00:11:58.000 Люди хотят показать себя с наилучшей стороны. 00:11:58.000 --> 00:12:01.000 Однако оказывается, что в 18-м веке людей это совсем не интересовало. 00:12:01.000 --> 00:12:04.000 Они не хотели показать себя с лучшей стороны [best], они хотели показать себя с лучшей штороны [beft]. 00:12:04.000 --> 00:12:07.000 Как обычно, это была просто ошибка. 00:12:07.000 --> 00:12:09.000 Это не стремление к посредственности, 00:12:09.000 --> 00:12:12.000 просто буква S писалась по-другому, похоже на F. 00:12:12.000 --> 00:12:15.000 Конечно, Google тогда это не отследил, 00:12:15.000 --> 00:12:18.000 поэтому мы отметили это в написанной нами статье. 00:12:18.000 --> 00:12:20.000 Однако оказывается, что это просто напоминание о том, что, 00:12:20.000 --> 00:12:22.000 несмотря на всё веселье, 00:12:22.000 --> 00:12:24.000 при объяснении этих графиков нужно быть очень осторожным, 00:12:24.000 --> 00:12:27.000 и нужно применять лучшие научные стандарты. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ЭЛА: Как только люди этим не пользовались. 00:12:30.000 --> 00:12:37.000 (Смех) 00:12:37.000 --> 00:12:39.000 На самом деле, говорить ничего не нужно, 00:12:39.000 --> 00:12:42.000 мы просто покажем вам слайды, молча. 00:12:42.000 --> 00:12:45.000 Этого человека интересовала история расстройств. 00:12:45.000 --> 00:12:48.000 Есть разные типы расстройств. 00:12:48.000 --> 00:12:51.000 Если вы ударились большим пальцем, это «ах» с одним А. 00:12:51.000 --> 00:12:53.000 Если планету Земля аннигилировали вогоны, 00:12:53.000 --> 00:12:55.000 чтобы освободить место для межгалактического туннеля, 00:12:55.000 --> 00:12:57.000 это «аааааааах» с восемью А. 00:12:57.000 --> 00:12:59.000 Этот человек изучил все «ахи», 00:12:59.000 --> 00:13:01.000 содержащие от одного до восьми А. 00:13:01.000 --> 00:13:03.000 Оказывается, 00:13:03.000 --> 00:13:05.000 наиболее редкими «ахами» являются те, 00:13:05.000 --> 00:13:08.000 которые относятся к наиболее пугающим вещам, 00:13:08.000 --> 00:13:11.000 кроме, как ни странно, начала 80-х. 00:13:11.000 --> 00:13:13.000 Наверное, Рейган имеет к этому отношение. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Смех) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 ЖМ: Эти данные можно использовать по-разному, 00:13:18.000 --> 00:13:21.000 но суть в том, что история оцифровывается. 00:13:21.000 --> 00:13:23.000 Google начал оцифровывать 15 миллионов книг. 00:13:23.000 --> 00:13:25.000 Это 12 процентов всех когда-либо напечатанных книг. 00:13:25.000 --> 00:13:28.000 Это заметная часть человеческой культуры. 00:13:28.000 --> 00:13:31.000 Но в культуре намного больше вещей: рукописи, газеты, 00:13:31.000 --> 00:13:33.000 нетекстовые вещи, например искусство и картины. 00:13:33.000 --> 00:13:35.000 Всё это оказывается на наших компьютерах, 00:13:35.000 --> 00:13:37.000 на компьютерах по всему миру. 00:13:37.000 --> 00:13:40.000 И когда это случится, это изменит то, 00:13:40.000 --> 00:13:42.000 как мы понимаем прошлое, настоящее и человеческую культуру. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Спасибо большое. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Аплодисменты)