Что мы узнали из 5 миллионов книг
-
0:00 - 0:02Эрез Либерман Айден: Все знают,
-
0:02 - 0:05что картинка стоит тысячи слов.
-
0:07 - 0:09Но мы в Гарварде
-
0:09 - 0:12сомневались, правда ли это.
-
0:12 - 0:14(Смех)
-
0:14 - 0:18Поэтому мы собрали команду экспертов
-
0:18 - 0:20из Гарварда, МТИ,
-
0:20 - 0:23Словаря Американского Наследия, Энциклопедии Британника,
-
0:23 - 0:25и даже нашего гордого спонсора —
-
0:25 - 0:28Google.
-
0:28 - 0:30Мы обдумывали это
-
0:30 - 0:32примерно четыре года.
-
0:32 - 0:37И пришли к поразительному умозаключению.
-
0:37 - 0:40Дамы и господа, картинка не стоит тысячи слов.
-
0:40 - 0:42Мы нашли некоторые картинки,
-
0:42 - 0:47которые стоят 500 миллиардов слов.
-
0:47 - 0:49Жан-Баптист Мишель: Как мы пришли к этому заключению?
-
0:49 - 0:51Эрез и я размышляли о том,
-
0:51 - 0:53как получить общий план человеческой культуры и истории:
-
0:53 - 0:56изменения с течением времени.
-
0:56 - 0:58За годы были написаны многие книги.
-
0:58 - 1:00И мы подумали, что лучшим способом их изучить
-
1:00 - 1:02будет прочитать все эти миллионы книг.
-
1:02 - 1:05Если бы была шкала, насколько круто бы это было,
-
1:05 - 1:08то это было бы очень, очень круто.
-
1:08 - 1:10Итак, для этого есть ось X,
-
1:10 - 1:12практическая ось.
-
1:12 - 1:14Это очень, очень низко.
-
1:14 - 1:17(Аплодисменты)
-
1:17 - 1:20Сейчас люди предпочитают другой подход, состоящий в том,
-
1:20 - 1:22чтобы взять несколько источников, и прочитать их очень внимательно.
-
1:22 - 1:24Это очень практично, но не так круто.
-
1:24 - 1:27На самом деле хочется
-
1:27 - 1:30добраться до практичной, но крутой части этого пространства.
-
1:30 - 1:33Оказывается, напротив, через реку, есть компания Google,
-
1:33 - 1:35которая несколько лет назад начала проект оцифровки,
-
1:35 - 1:37который может позволить это сделать.
-
1:37 - 1:39Они оцифровали миллионы книг.
-
1:39 - 1:42Это означает, что можно использовать вычислительные методы
-
1:42 - 1:44для прочтения всех этих книжек за один щелчок мыши.
-
1:44 - 1:47Это очень практично и невероятно круто.
-
1:48 - 1:50ЭЛА: Давайте я расскажу о происхождении книг.
-
1:50 - 1:53С незапамятных времён, были авторы.
-
1:53 - 1:56Авторы изо всех сил стремились писать книги.
-
1:56 - 1:58С изобретением печатного станка несколько веков назад
-
1:58 - 2:00это стало заметно легче.
-
2:00 - 2:03С тех пор авторы победили
-
2:03 - 2:05в 129 миллионах случаев
-
2:05 - 2:07публикации книг.
-
2:07 - 2:09Если эти книги не затерялись в истории,
-
2:09 - 2:11они хранятся где-то в какой-то библиотеке,
-
2:11 - 2:14и многие из этих книг были извлечены из библиотек
-
2:14 - 2:16и оцифрованы компанией Google,
-
2:16 - 2:18которая на сегодня просканировала 15 миллионов книг.
-
2:18 - 2:21Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате.
-
2:21 - 2:23У нас есть данные и есть метаданные.
-
2:23 - 2:26У нас есть сведения о том, где книга была опубликована,
-
2:26 - 2:28кто её автор, когда она была опубликована.
-
2:28 - 2:31Мы прошлись по всем этим записям,
-
2:31 - 2:35и исключили всё, кроме данных наивысшего качества.
-
2:35 - 2:37Таким образом,
-
2:37 - 2:40осталась коллекция из 5 миллионов книг,
-
2:40 - 2:43500 миллиардов слов,
-
2:43 - 2:45строка символов в тысячу раз длиннее,
-
2:45 - 2:48чем геном человека —
-
2:48 - 2:50если написать этот текст,
-
2:50 - 2:52то он протянется до Луны и обратно
-
2:52 - 2:5410 раз —
-
2:54 - 2:58настоящий осколок культурного генома.
-
2:58 - 3:00Естественно, мы сделали
-
3:00 - 3:03перед лицом такой вопиющей гиперболы...
-
3:03 - 3:05(Смех)
-
3:05 - 3:08то, что сделал бы любой
-
3:08 - 3:11уважающий себя ученый.
-
3:11 - 3:13Мы взяли страницу из XKDC
-
3:13 - 3:15и сказали: «Разойдись,
-
3:15 - 3:17мы займёмся наукой».
-
3:17 - 3:19(Смех)
-
3:19 - 3:21ЖМ: Конечно, мы подумали,
-
3:21 - 3:23давайте сначала сделаем данные доступными
-
3:23 - 3:25для людей, которые применят к ним науку.
-
3:25 - 3:27И мы подумали, какие данные мы может опубликовать?
-
3:27 - 3:29Конечно, хотелось взять и опубликовать
-
3:29 - 3:31полные тексты всех этих пяти миллионов книг.
-
3:31 - 3:33Google, и Джон Орвант в частности,
-
3:33 - 3:35научили нас небольшому уравнению.
-
3:35 - 3:38Итак, есть пять миллионов, значит пять миллионов авторов
-
3:38 - 3:41и пять миллионов истцов равняется огромная судебная тяжба.
-
3:41 - 3:43И, хотя это было бы очень, просто нереально круто,
-
3:43 - 3:46опять же, это очень, просто нереально непрактично.
-
3:46 - 3:48(Смех)
-
3:48 - 3:50Что ж, мы вроде как поддались,
-
3:50 - 3:53и подошли к делу очень практично, хоть и не так круто.
-
3:53 - 3:55Мы сказали, что вместо публикации полных текстов,
-
3:55 - 3:57мы опубликуем статистику о книгах.
-
3:57 - 3:59Возьмём, например, «A gleam of happiness »
-
3:59 - 4:01Это четыре слова, мы называем это 4-грамма.
-
4:01 - 4:03Мы скажем, как часто именно эта 4-грамма
-
4:03 - 4:05появлялась в книгах в 1801-м, 1802-м, 1803-м,
-
4:05 - 4:07и так далее вплоть до 2008-го.
-
4:07 - 4:09Это даст временной ряд частоты использования
-
4:09 - 4:11именно этой фразы с течением времени.
-
4:11 - 4:14Мы проделываем это для всех слов и фраз, появляющихся в этих книгах,
-
4:14 - 4:17и это даёт большую таблицу в два миллиарда строк,
-
4:17 - 4:19которые говорят нам, каким образом изменялась культура.
-
4:19 - 4:21ЭЛА: Эти два миллиарда строк,
-
4:21 - 4:23мы называем их два миллиарда N-грамм.
-
4:23 - 4:25Что они нам говорят?
-
4:25 - 4:27Отдельные N-граммы измеряют культурные тенденции.
-
4:27 - 4:29Позвольте привести пример.
-
4:29 - 4:31Предположим, я процветаю сегодня,
-
4:31 - 4:33и завтра хочу рассказать вам, как мне было хорошо.
-
4:33 - 4:36Я могу сказать: «Вчера я процветал [throve]».
-
4:36 - 4:39По-другому, я могу сказать: «Вчера я процветал [thrived]».
-
4:39 - 4:42Какой вариант мне использовать?
-
4:42 - 4:44Как узнать?
-
4:44 - 4:46Примерно шесть месяцев назад,
-
4:46 - 4:48положение дел в этой области
-
4:48 - 4:50было таким, что можно было, например,
-
4:50 - 4:52подойти к психологу с поразительной стрижкой
-
4:52 - 4:54и спросить:
-
4:54 - 4:57«Стив, ты эксперт по неправильным глаголам.
-
4:57 - 4:59Как мне быть?»
-
4:59 - 5:01А он бы ответил: «Большая часть людей сказала бы процветал [thrive],
-
5:01 - 5:04но некоторые скажут процветал [throve]».
-
5:04 - 5:06Как известно, более или менее,
-
5:06 - 5:09если вернуться на 200 лет назад,
-
5:09 - 5:12и спросить вот этого политика, с не менее поразительной стрижкой,
-
5:12 - 5:15(Смех)
-
5:15 - 5:17«Том, как нужно говорить?»
-
5:17 - 5:19Он бы ответил: «В мои дни большая часть людей процветала [throve],
-
5:19 - 5:22но некоторые процветали [thrived]».
-
5:22 - 5:24Я вам покажу необработанные данные.
-
5:24 - 5:28Две строки из таблицы в два миллиарда строк.
-
5:28 - 5:30Здесь показана, год за годом,
-
5:30 - 5:33частота слов «процветал [thrived]» и «процветал [throve]».
-
5:34 - 5:36И это всего лишь два
-
5:36 - 5:39из двух миллиардов строк.
-
5:39 - 5:41Весь набор данных
-
5:41 - 5:44в миллиард раз круче, чем этот слайд.
-
5:44 - 5:46(Смех)
-
5:46 - 5:50(Аплодисменты)
-
5:50 - 5:52ЖМ: Есть много других картинок, которые стоят 500 миллиардов слов.
-
5:52 - 5:54Например, вот эта.
-
5:54 - 5:56Если взять грипп,
-
5:56 - 5:58можно видеть пики в то время,
-
5:58 - 6:01когда эпидемии гриппа убивали людей по всему миру.
-
6:01 - 6:04ЭЛА: Если это вас не убеждает,
-
6:04 - 6:06уровень моря поднимается,
-
6:06 - 6:09а также содержание углекислого газа в атмосфере и мировая температура.
-
6:09 - 6:12ЖМ: А также можно посмотреть на вот эту N-грамму,
-
6:12 - 6:15и сказать Ницше, что Бог не мёртв,
-
6:15 - 6:18хотя можно согласиться, что ему нужен лучший публицист.
-
6:18 - 6:20(Смех)
-
6:20 - 6:23ЭЛА: С помощью этого инструмента можно добраться до довольно таки абстрактных концепций.
-
6:23 - 6:25Например, позвольте рассказать
-
6:25 - 6:27историю 1950-го года.
-
6:27 - 6:29На протяжении большей части истории
-
6:29 - 6:311950-й вообще никого не волновал.
-
6:31 - 6:33В 1700-х, 1800-х, 1900-х
-
6:33 - 6:36никто им не интересовался.
-
6:37 - 6:39В течение 30-х и 40-х
-
6:39 - 6:41никто им не интересовался.
-
6:41 - 6:43Внезапно, в середине 40-х,
-
6:43 - 6:45началось обсуждение.
-
6:45 - 6:47Люди поняли, что скоро наступит 1950-й,
-
6:47 - 6:49и это будет событие.
-
6:49 - 6:52(Смех)
-
6:52 - 6:55Но ничто не интересовало людей сильнее в 1950-м,
-
6:55 - 6:58чем сам 1950-й.
-
6:58 - 7:01(Смех)
-
7:01 - 7:03Люди помешались.
-
7:03 - 7:05Они не могли прекратить
-
7:05 - 7:08рассказывать обо всём, что они делали в 1950-м,
-
7:08 - 7:11обо всём, что они планировали сделать в 1950-м,
-
7:11 - 7:16обо всех мечтах, которые они хотели осуществить в 1950-м.
-
7:16 - 7:18На самом деле, 1950-й был настолько восхитительным,
-
7:18 - 7:20что годы спустя,
-
7:20 - 7:23люди продолжали говорить обо всех удивительных событиях, которые случились
-
7:23 - 7:25в 1951-м, 1952-м, 1953-м.
-
7:25 - 7:27Наконец, в 1954-м,
-
7:27 - 7:29кто-то осознал,
-
7:29 - 7:33что 1950-й стал старомодным.
-
7:33 - 7:35(Смех)
-
7:35 - 7:37Вот так пузырь и лопнул.
-
7:37 - 7:39(Смех)
-
7:39 - 7:41История 1950-го
-
7:41 - 7:43повторяется для каждого года, о котором у нас есть данные,
-
7:43 - 7:46с небольшим изменением, потому что теперь у нас есть вот эти графики.
-
7:46 - 7:49Благодаря этим графикам, мы можем измерить.
-
7:49 - 7:51Можно сказать: «Как быстро лопаются пузыри?»
-
7:51 - 7:54Оказывается, это можно очень точно измерить.
-
7:54 - 7:57Уравнения были выведены, графики были построены,
-
7:57 - 7:59и конечным результатом стало то,
-
7:59 - 8:02что пузыри лопаются быстрее и быстрее
-
8:02 - 8:04с каждым прошедшим годом.
-
8:04 - 8:09Мы всё быстрее теряем интерес к прошлому.
-
8:09 - 8:11ЖМ: Небольшой карьерный совет.
-
8:11 - 8:13Для тех из вас, кто стремится к славе,
-
8:13 - 8:15можно научиться у 25-ти самых известных политиков,
-
8:15 - 8:17авторов, актёров, и т.д.
-
8:17 - 8:20Если вы хотите стать известным рано, вам нужно быть актёром,
-
8:20 - 8:22потому что слава начинается к концу их третьего десятка —
-
8:22 - 8:24вы всё ещё молоды, это здорово.
-
8:24 - 8:26Если вы согласны подождать, вам нужно стать автором,
-
8:26 - 8:28потому что это позволит подняться на большие высоты,
-
8:28 - 8:30как Марк Твен, например, очень знаменит.
-
8:30 - 8:32Но если вы хотите подняться на самую вершину,
-
8:32 - 8:34нужно отложить удовольствие
-
8:34 - 8:36и конечно, стать политиком.
-
8:36 - 8:38Вы станете известны под конец шестого десятка,
-
8:38 - 8:40и станете очень, очень знаменитым после.
-
8:40 - 8:43Учёные тоже становятся знаменитыми, когда они становятся старее.
-
8:43 - 8:45Например, биологи и физики
-
8:45 - 8:47становятся примерно такими же знаменитыми, как и актёры.
-
8:47 - 8:50Ошибкой, которую делать не стоит — становиться математиком.
-
8:50 - 8:52(Смех)
-
8:52 - 8:54В этом случае,
-
8:54 - 8:57можно подумать: «Отлично, свои лучшие работы я сделаю на третьем десятке».
-
8:57 - 8:59Но знаете что? Никому это не интересно.
-
8:59 - 9:02(Смех)
-
9:02 - 9:04ЭЛА: В N-граммах есть
-
9:04 - 9:06ещё более отрезвляющие вещи.
-
9:06 - 9:08Например, вот траектория Марка Шагала,
-
9:08 - 9:10художника, родившегося в 1887-м.
-
9:10 - 9:13Выглядит как нормальная траектория знаменитого человека.
-
9:13 - 9:17Он становится всё более и более знаменитым,
-
9:17 - 9:19за исключением знаменитости среди немецкоговорящих.
-
9:19 - 9:21Если посмотреть на немецкий язык, то можно увидеть что совершенно невообразимое,
-
9:21 - 9:23что-то, что видишь не часто —
-
9:23 - 9:25он становится чрезвычайно знаменитым,
-
9:25 - 9:27а затем внезапно падает,
-
9:27 - 9:30проходя надир между 1933-м и 1945-м годами,
-
9:30 - 9:33прежде чем вернуться позже.
-
9:33 - 9:35Конечно, здесь мы наблюдаем тот факт,
-
9:35 - 9:38что Марк Шагал был еврейским художником
-
9:38 - 9:40в нацистской Германии.
-
9:40 - 9:42Эти сигналы
-
9:42 - 9:44настолько сильны,
-
9:44 - 9:47что нам не нужно знать, что кто-то подвергался цензуре.
-
9:47 - 9:49Мы можем это понять,
-
9:49 - 9:51используя простейший анализ сигналов.
-
9:51 - 9:53Вот простой способ это сделать.
-
9:53 - 9:55Разумно предположить,
-
9:55 - 9:57что чья-то слава в данный период времени
-
9:57 - 9:59должны быть примерно равна среднему славы до
-
9:59 - 10:01и славы после.
-
10:01 - 10:03Это то, что мы ожидаем.
-
10:03 - 10:06И мы сравним это с тем, что мы наблюдаем.
-
10:06 - 10:08Затем делим одно на второе,
-
10:08 - 10:10чтобы получить что-то, называемое индекс подавления.
-
10:10 - 10:13Если индекс подавления очень, очень, очень маленький,
-
10:13 - 10:15вероятно, что вас действительно подавляют.
-
10:15 - 10:18Если он очень велик, наверное, вас пропагандируют.
-
10:19 - 10:21ЖМ: Теперь можно посмотреть
-
10:21 - 10:24на распределение индексов подавления по всёму населению.
-
10:24 - 10:26Например, здесь:
-
10:26 - 10:28это индекс подавления для 5 тысяч людей,
-
10:28 - 10:30взятых из английских книг, где известно про отсутствие цензуры,
-
10:30 - 10:32он примерно вот такой, сконцентрированный возле единицы.
-
10:32 - 10:34Ожидаемое совпадает с наблюдаемым.
-
10:34 - 10:36Это распределение наблюдалось в Германии —
-
10:36 - 10:38оно совершенно другое, смещено влево.
-
10:38 - 10:41Люди говорили об этом в два раза реже, чем должны были.
-
10:41 - 10:43Однако, что более важно, распределение намного шире.
-
10:43 - 10:46О многих людях, которые оказываются на левом краю этого распределения,
-
10:46 - 10:49говорят в 10 раз меньше, чем должны.
-
10:49 - 10:51Однако многие люди на правом краю
-
10:51 - 10:53пожинают плоды пропаганды.
-
10:53 - 10:56Эта картинка — клеймо цензуры на книжной истории.
-
10:56 - 10:58ЭЛА: Мы называем этот метод
-
10:58 - 11:00культуромикой.
-
11:00 - 11:02Это как геномика.
-
11:02 - 11:04Разве что геномика это линза для биологии,
-
11:04 - 11:07взгляд сквозь окно последовательностей оснований генома человека.
-
11:07 - 11:09Культуромика сходна.
-
11:09 - 11:12Это применение анализа наборов данных огромного масштаба
-
11:12 - 11:14к изучению человеческой культуры.
-
11:14 - 11:16Но взамен линзы генома,
-
11:16 - 11:19мы смотрим сквозь линзу оцифрованных частиц истории.
-
11:19 - 11:21Замечательным аспектом культуромики является то,
-
11:21 - 11:23что любой может ею заняться.
-
11:23 - 11:25Почему же любой может ею заняться?
-
11:25 - 11:27Потому что эти парни,
-
11:27 - 11:30Джон Орвант, Мэтт Грей и Уилл Брокман из Google,
-
11:30 - 11:32увидев прототип средства просмотра N-грамм,
-
11:32 - 11:34сказали: «Это очень весёлая вещь.
-
11:34 - 11:37Давайте это опубликуем».
-
11:37 - 11:39Ровно за две недели — за две недели до публикации нашей статьи —
-
11:39 - 11:42они запрограммировали публичную версию средства просмотра N-грамм.
-
11:42 - 11:45Теперь и вы можете напечатать любое слово или предложение, которое вас интересует,
-
11:45 - 11:47и сразу посмотреть его N-граммы,
-
11:47 - 11:49включая просмотр примеров из всех тех разных книг,
-
11:49 - 11:51в которых встречается ваша N-грамма.
-
11:51 - 11:53ЖМ: В первый же день этим воспользовались более миллиона раз,
-
11:53 - 11:55и это — лучшие из всех запросов.
-
11:55 - 11:58Люди хотят показать себя с наилучшей стороны.
-
11:58 - 12:01Однако оказывается, что в 18-м веке людей это совсем не интересовало.
-
12:01 - 12:04Они не хотели показать себя с лучшей стороны [best], они хотели показать себя с лучшей штороны [beft].
-
12:04 - 12:07Как обычно, это была просто ошибка.
-
12:07 - 12:09Это не стремление к посредственности,
-
12:09 - 12:12просто буква S писалась по-другому, похоже на F.
-
12:12 - 12:15Конечно, Google тогда это не отследил,
-
12:15 - 12:18поэтому мы отметили это в написанной нами статье.
-
12:18 - 12:20Однако оказывается, что это просто напоминание о том, что,
-
12:20 - 12:22несмотря на всё веселье,
-
12:22 - 12:24при объяснении этих графиков нужно быть очень осторожным,
-
12:24 - 12:27и нужно применять лучшие научные стандарты.
-
12:27 - 12:30ЭЛА: Как только люди этим не пользовались.
-
12:30 - 12:37(Смех)
-
12:37 - 12:39На самом деле, говорить ничего не нужно,
-
12:39 - 12:42мы просто покажем вам слайды, молча.
-
12:42 - 12:45Этого человека интересовала история расстройств.
-
12:45 - 12:48Есть разные типы расстройств.
-
12:48 - 12:51Если вы ударились большим пальцем, это «ах» с одним А.
-
12:51 - 12:53Если планету Земля аннигилировали вогоны,
-
12:53 - 12:55чтобы освободить место для межгалактического туннеля,
-
12:55 - 12:57это «аааааааах» с восемью А.
-
12:57 - 12:59Этот человек изучил все «ахи»,
-
12:59 - 13:01содержащие от одного до восьми А.
-
13:01 - 13:03Оказывается,
-
13:03 - 13:05наиболее редкими «ахами» являются те,
-
13:05 - 13:08которые относятся к наиболее пугающим вещам,
-
13:08 - 13:11кроме, как ни странно, начала 80-х.
-
13:11 - 13:13Наверное, Рейган имеет к этому отношение.
-
13:13 - 13:15(Смех)
-
13:15 - 13:18ЖМ: Эти данные можно использовать по-разному,
-
13:18 - 13:21но суть в том, что история оцифровывается.
-
13:21 - 13:23Google начал оцифровывать 15 миллионов книг.
-
13:23 - 13:25Это 12 процентов всех когда-либо напечатанных книг.
-
13:25 - 13:28Это заметная часть человеческой культуры.
-
13:28 - 13:31Но в культуре намного больше вещей: рукописи, газеты,
-
13:31 - 13:33нетекстовые вещи, например искусство и картины.
-
13:33 - 13:35Всё это оказывается на наших компьютерах,
-
13:35 - 13:37на компьютерах по всему миру.
-
13:37 - 13:40И когда это случится, это изменит то,
-
13:40 - 13:42как мы понимаем прошлое, настоящее и человеческую культуру.
-
13:42 - 13:44Спасибо большое.
-
13:44 - 13:47(Аплодисменты)
- Title:
- Что мы узнали из 5 миллионов книг
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Вы пробовали средство просмотра N-грамм от лабораторий Google? Этот увлекательный инструмент позволяет искать слова и идеи в базе данных из 5 миллионов книг за многие века. Эрез Либерман Айден и Жан-Баптист Мишель показывают, как оно работает, и показывают несколько неожиданных фактов, которые можно узнать из 500 миллиардов слов.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48