Что мы узнали из 5 миллионов книг

Edit subtitles

0:00 - 0:02

Эрез Либерман Айден: Все знают,
0:02 - 0:05

что картинка стоит тысячи слов.
0:07 - 0:09

Но мы в Гарварде
0:09 - 0:12

сомневались, правда ли это.
0:12 - 0:14

(Смех)
0:14 - 0:18

Поэтому мы собрали команду экспертов
0:18 - 0:20

из Гарварда, МТИ,
0:20 - 0:23

Словаря Американского Наследия, Энциклопедии Британника,
0:23 - 0:25

и даже нашего гордого спонсора —
0:25 - 0:28

Google.
0:28 - 0:30

Мы обдумывали это
0:30 - 0:32

примерно четыре года.
0:32 - 0:37

И пришли к поразительному умозаключению.
0:37 - 0:40

Дамы и господа, картинка не стоит тысячи слов.
0:40 - 0:42

Мы нашли некоторые картинки,
0:42 - 0:47

которые стоят 500 миллиардов слов.
0:47 - 0:49

Жан-Баптист Мишель: Как мы пришли к этому заключению?
0:49 - 0:51

Эрез и я размышляли о том,
0:51 - 0:53

как получить общий план человеческой культуры и истории:
0:53 - 0:56

изменения с течением времени.
0:56 - 0:58

За годы были написаны многие книги.
0:58 - 1:00

И мы подумали, что лучшим способом их изучить
1:00 - 1:02

будет прочитать все эти миллионы книг.
1:02 - 1:05

Если бы была шкала, насколько круто бы это было,
1:05 - 1:08

то это было бы очень, очень круто.
1:08 - 1:10

Итак, для этого есть ось X,
1:10 - 1:12

практическая ось.
1:12 - 1:14

Это очень, очень низко.
1:14 - 1:17

(Аплодисменты)
1:17 - 1:20

Сейчас люди предпочитают другой подход, состоящий в том,
1:20 - 1:22

чтобы взять несколько источников, и прочитать их очень внимательно.
1:22 - 1:24

Это очень практично, но не так круто.
1:24 - 1:27

На самом деле хочется
1:27 - 1:30

добраться до практичной, но крутой части этого пространства.
1:30 - 1:33

Оказывается, напротив, через реку, есть компания Google,
1:33 - 1:35

которая несколько лет назад начала проект оцифровки,
1:35 - 1:37

который может позволить это сделать.
1:37 - 1:39

Они оцифровали миллионы книг.
1:39 - 1:42

Это означает, что можно использовать вычислительные методы
1:42 - 1:44

для прочтения всех этих книжек за один щелчок мыши.
1:44 - 1:47

Это очень практично и невероятно круто.
1:48 - 1:50

ЭЛА: Давайте я расскажу о происхождении книг.
1:50 - 1:53

С незапамятных времён, были авторы.
1:53 - 1:56

Авторы изо всех сил стремились писать книги.
1:56 - 1:58

С изобретением печатного станка несколько веков назад
1:58 - 2:00

это стало заметно легче.
2:00 - 2:03

С тех пор авторы победили
2:03 - 2:05

в 129 миллионах случаев
2:05 - 2:07

публикации книг.
2:07 - 2:09

Если эти книги не затерялись в истории,
2:09 - 2:11

они хранятся где-то в какой-то библиотеке,
2:11 - 2:14

и многие из этих книг были извлечены из библиотек
2:14 - 2:16

и оцифрованы компанией Google,
2:16 - 2:18

которая на сегодня просканировала 15 миллионов книг.
2:18 - 2:21

Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате.
2:21 - 2:23

У нас есть данные и есть метаданные.
2:23 - 2:26

У нас есть сведения о том, где книга была опубликована,
2:26 - 2:28

кто её автор, когда она была опубликована.
2:28 - 2:31

Мы прошлись по всем этим записям,
2:31 - 2:35

и исключили всё, кроме данных наивысшего качества.
2:35 - 2:37

Таким образом,
2:37 - 2:40

осталась коллекция из 5 миллионов книг,
2:40 - 2:43

500 миллиардов слов,
2:43 - 2:45

строка символов в тысячу раз длиннее,
2:45 - 2:48

чем геном человека —
2:48 - 2:50

если написать этот текст,
2:50 - 2:52

то он протянется до Луны и обратно
2:52 - 2:54

10 раз —
2:54 - 2:58

настоящий осколок культурного генома.
2:58 - 3:00

Естественно, мы сделали
3:00 - 3:03

перед лицом такой вопиющей гиперболы...
3:03 - 3:05

(Смех)
3:05 - 3:08

то, что сделал бы любой
3:08 - 3:11

уважающий себя ученый.
3:11 - 3:13

Мы взяли страницу из XKDC
3:13 - 3:15

и сказали: «Разойдись,
3:15 - 3:17

мы займёмся наукой».
3:17 - 3:19

(Смех)
3:19 - 3:21

ЖМ: Конечно, мы подумали,
3:21 - 3:23

давайте сначала сделаем данные доступными
3:23 - 3:25

для людей, которые применят к ним науку.
3:25 - 3:27

И мы подумали, какие данные мы может опубликовать?
3:27 - 3:29

Конечно, хотелось взять и опубликовать
3:29 - 3:31

полные тексты всех этих пяти миллионов книг.
3:31 - 3:33

Google, и Джон Орвант в частности,
3:33 - 3:35

научили нас небольшому уравнению.
3:35 - 3:38

Итак, есть пять миллионов, значит пять миллионов авторов
3:38 - 3:41

и пять миллионов истцов равняется огромная судебная тяжба.
3:41 - 3:43

И, хотя это было бы очень, просто нереально круто,
3:43 - 3:46

опять же, это очень, просто нереально непрактично.
3:46 - 3:48

(Смех)
3:48 - 3:50

Что ж, мы вроде как поддались,
3:50 - 3:53

и подошли к делу очень практично, хоть и не так круто.
3:53 - 3:55

Мы сказали, что вместо публикации полных текстов,
3:55 - 3:57

мы опубликуем статистику о книгах.
3:57 - 3:59

Возьмём, например, «A gleam of happiness »
3:59 - 4:01

Это четыре слова, мы называем это 4-грамма.
4:01 - 4:03

Мы скажем, как часто именно эта 4-грамма
4:03 - 4:05

появлялась в книгах в 1801-м, 1802-м, 1803-м,
4:05 - 4:07

и так далее вплоть до 2008-го.
4:07 - 4:09

Это даст временной ряд частоты использования
4:09 - 4:11

именно этой фразы с течением времени.
4:11 - 4:14

Мы проделываем это для всех слов и фраз, появляющихся в этих книгах,
4:14 - 4:17

и это даёт большую таблицу в два миллиарда строк,
4:17 - 4:19

которые говорят нам, каким образом изменялась культура.
4:19 - 4:21

ЭЛА: Эти два миллиарда строк,
4:21 - 4:23

мы называем их два миллиарда N-грамм.
4:23 - 4:25

Что они нам говорят?
4:25 - 4:27

Отдельные N-граммы измеряют культурные тенденции.
4:27 - 4:29

Позвольте привести пример.
4:29 - 4:31

Предположим, я процветаю сегодня,
4:31 - 4:33

и завтра хочу рассказать вам, как мне было хорошо.
4:33 - 4:36

Я могу сказать: «Вчера я процветал [throve]».
4:36 - 4:39

По-другому, я могу сказать: «Вчера я процветал [thrived]».
4:39 - 4:42

Какой вариант мне использовать?
4:42 - 4:44

Как узнать?
4:44 - 4:46

Примерно шесть месяцев назад,
4:46 - 4:48

положение дел в этой области
4:48 - 4:50

было таким, что можно было, например,
4:50 - 4:52

подойти к психологу с поразительной стрижкой
4:52 - 4:54

и спросить:
4:54 - 4:57

«Стив, ты эксперт по неправильным глаголам.
4:57 - 4:59

Как мне быть?»
4:59 - 5:01

А он бы ответил: «Большая часть людей сказала бы процветал [thrive],
5:01 - 5:04

но некоторые скажут процветал [throve]».
5:04 - 5:06

Как известно, более или менее,
5:06 - 5:09

если вернуться на 200 лет назад,
5:09 - 5:12

и спросить вот этого политика, с не менее поразительной стрижкой,
5:12 - 5:15

(Смех)
5:15 - 5:17

«Том, как нужно говорить?»
5:17 - 5:19

Он бы ответил: «В мои дни большая часть людей процветала [throve],
5:19 - 5:22

но некоторые процветали [thrived]».
5:22 - 5:24

Я вам покажу необработанные данные.
5:24 - 5:28

Две строки из таблицы в два миллиарда строк.
5:28 - 5:30

Здесь показана, год за годом,
5:30 - 5:33

частота слов «процветал [thrived]» и «процветал [throve]».
5:34 - 5:36

И это всего лишь два
5:36 - 5:39

из двух миллиардов строк.
5:39 - 5:41

Весь набор данных
5:41 - 5:44

в миллиард раз круче, чем этот слайд.
5:44 - 5:46

(Смех)
5:46 - 5:50

(Аплодисменты)
5:50 - 5:52

ЖМ: Есть много других картинок, которые стоят 500 миллиардов слов.
5:52 - 5:54

Например, вот эта.
5:54 - 5:56

Если взять грипп,
5:56 - 5:58

можно видеть пики в то время,
5:58 - 6:01

когда эпидемии гриппа убивали людей по всему миру.
6:01 - 6:04

ЭЛА: Если это вас не убеждает,
6:04 - 6:06

уровень моря поднимается,
6:06 - 6:09

а также содержание углекислого газа в атмосфере и мировая температура.
6:09 - 6:12

ЖМ: А также можно посмотреть на вот эту N-грамму,
6:12 - 6:15

и сказать Ницше, что Бог не мёртв,
6:15 - 6:18

хотя можно согласиться, что ему нужен лучший публицист.
6:18 - 6:20

(Смех)
6:20 - 6:23

ЭЛА: С помощью этого инструмента можно добраться до довольно таки абстрактных концепций.
6:23 - 6:25

Например, позвольте рассказать
6:25 - 6:27

историю 1950-го года.
6:27 - 6:29

На протяжении большей части истории
6:29 - 6:31

1950-й вообще никого не волновал.
6:31 - 6:33

В 1700-х, 1800-х, 1900-х
6:33 - 6:36

никто им не интересовался.
6:37 - 6:39

В течение 30-х и 40-х
6:39 - 6:41

никто им не интересовался.
6:41 - 6:43

Внезапно, в середине 40-х,
6:43 - 6:45

началось обсуждение.
6:45 - 6:47

Люди поняли, что скоро наступит 1950-й,
6:47 - 6:49

и это будет событие.
6:49 - 6:52

(Смех)
6:52 - 6:55

Но ничто не интересовало людей сильнее в 1950-м,
6:55 - 6:58

чем сам 1950-й.
6:58 - 7:01

(Смех)
7:01 - 7:03

Люди помешались.
7:03 - 7:05

Они не могли прекратить
7:05 - 7:08

рассказывать обо всём, что они делали в 1950-м,
7:08 - 7:11

обо всём, что они планировали сделать в 1950-м,
7:11 - 7:16

обо всех мечтах, которые они хотели осуществить в 1950-м.
7:16 - 7:18

На самом деле, 1950-й был настолько восхитительным,
7:18 - 7:20

что годы спустя,
7:20 - 7:23

люди продолжали говорить обо всех удивительных событиях, которые случились
7:23 - 7:25

в 1951-м, 1952-м, 1953-м.
7:25 - 7:27

Наконец, в 1954-м,
7:27 - 7:29

кто-то осознал,
7:29 - 7:33

что 1950-й стал старомодным.
7:33 - 7:35

(Смех)
7:35 - 7:37

Вот так пузырь и лопнул.
7:37 - 7:39

(Смех)
7:39 - 7:41

История 1950-го
7:41 - 7:43

повторяется для каждого года, о котором у нас есть данные,
7:43 - 7:46

с небольшим изменением, потому что теперь у нас есть вот эти графики.
7:46 - 7:49

Благодаря этим графикам, мы можем измерить.
7:49 - 7:51

Можно сказать: «Как быстро лопаются пузыри?»
7:51 - 7:54

Оказывается, это можно очень точно измерить.
7:54 - 7:57

Уравнения были выведены, графики были построены,
7:57 - 7:59

и конечным результатом стало то,
7:59 - 8:02

что пузыри лопаются быстрее и быстрее
8:02 - 8:04

с каждым прошедшим годом.
8:04 - 8:09

Мы всё быстрее теряем интерес к прошлому.
8:09 - 8:11

ЖМ: Небольшой карьерный совет.
8:11 - 8:13

Для тех из вас, кто стремится к славе,
8:13 - 8:15

можно научиться у 25-ти самых известных политиков,
8:15 - 8:17

авторов, актёров, и т.д.
8:17 - 8:20

Если вы хотите стать известным рано, вам нужно быть актёром,
8:20 - 8:22

потому что слава начинается к концу их третьего десятка —
8:22 - 8:24

вы всё ещё молоды, это здорово.
8:24 - 8:26

Если вы согласны подождать, вам нужно стать автором,
8:26 - 8:28

потому что это позволит подняться на большие высоты,
8:28 - 8:30

как Марк Твен, например, очень знаменит.
8:30 - 8:32

Но если вы хотите подняться на самую вершину,
8:32 - 8:34

нужно отложить удовольствие
8:34 - 8:36

и конечно, стать политиком.
8:36 - 8:38

Вы станете известны под конец шестого десятка,
8:38 - 8:40

и станете очень, очень знаменитым после.
8:40 - 8:43

Учёные тоже становятся знаменитыми, когда они становятся старее.
8:43 - 8:45

Например, биологи и физики
8:45 - 8:47

становятся примерно такими же знаменитыми, как и актёры.
8:47 - 8:50

Ошибкой, которую делать не стоит — становиться математиком.
8:50 - 8:52

(Смех)
8:52 - 8:54

В этом случае,
8:54 - 8:57

можно подумать: «Отлично, свои лучшие работы я сделаю на третьем десятке».
8:57 - 8:59

Но знаете что? Никому это не интересно.
8:59 - 9:02

(Смех)
9:02 - 9:04

ЭЛА: В N-граммах есть
9:04 - 9:06

ещё более отрезвляющие вещи.
9:06 - 9:08

Например, вот траектория Марка Шагала,
9:08 - 9:10

художника, родившегося в 1887-м.
9:10 - 9:13

Выглядит как нормальная траектория знаменитого человека.
9:13 - 9:17

Он становится всё более и более знаменитым,
9:17 - 9:19

за исключением знаменитости среди немецкоговорящих.
9:19 - 9:21

Если посмотреть на немецкий язык, то можно увидеть что совершенно невообразимое,
9:21 - 9:23

что-то, что видишь не часто —
9:23 - 9:25

он становится чрезвычайно знаменитым,
9:25 - 9:27

а затем внезапно падает,
9:27 - 9:30

проходя надир между 1933-м и 1945-м годами,
9:30 - 9:33

прежде чем вернуться позже.
9:33 - 9:35

Конечно, здесь мы наблюдаем тот факт,
9:35 - 9:38

что Марк Шагал был еврейским художником
9:38 - 9:40

в нацистской Германии.
9:40 - 9:42

Эти сигналы
9:42 - 9:44

настолько сильны,
9:44 - 9:47

что нам не нужно знать, что кто-то подвергался цензуре.
9:47 - 9:49

Мы можем это понять,
9:49 - 9:51

используя простейший анализ сигналов.
9:51 - 9:53

Вот простой способ это сделать.
9:53 - 9:55

Разумно предположить,
9:55 - 9:57

что чья-то слава в данный период времени
9:57 - 9:59

должны быть примерно равна среднему славы до
9:59 - 10:01

и славы после.
10:01 - 10:03

Это то, что мы ожидаем.
10:03 - 10:06

И мы сравним это с тем, что мы наблюдаем.
10:06 - 10:08

Затем делим одно на второе,
10:08 - 10:10

чтобы получить что-то, называемое индекс подавления.
10:10 - 10:13

Если индекс подавления очень, очень, очень маленький,
10:13 - 10:15

вероятно, что вас действительно подавляют.
10:15 - 10:18

Если он очень велик, наверное, вас пропагандируют.
10:19 - 10:21

ЖМ: Теперь можно посмотреть
10:21 - 10:24

на распределение индексов подавления по всёму населению.
10:24 - 10:26

Например, здесь:
10:26 - 10:28

это индекс подавления для 5 тысяч людей,
10:28 - 10:30

взятых из английских книг, где известно про отсутствие цензуры,
10:30 - 10:32

он примерно вот такой, сконцентрированный возле единицы.
10:32 - 10:34

Ожидаемое совпадает с наблюдаемым.
10:34 - 10:36

Это распределение наблюдалось в Германии —
10:36 - 10:38

оно совершенно другое, смещено влево.
10:38 - 10:41

Люди говорили об этом в два раза реже, чем должны были.
10:41 - 10:43

Однако, что более важно, распределение намного шире.
10:43 - 10:46

О многих людях, которые оказываются на левом краю этого распределения,
10:46 - 10:49

говорят в 10 раз меньше, чем должны.
10:49 - 10:51

Однако многие люди на правом краю
10:51 - 10:53

пожинают плоды пропаганды.
10:53 - 10:56

Эта картинка — клеймо цензуры на книжной истории.
10:56 - 10:58

ЭЛА: Мы называем этот метод
10:58 - 11:00

культуромикой.
11:00 - 11:02

Это как геномика.
11:02 - 11:04

Разве что геномика это линза для биологии,
11:04 - 11:07

взгляд сквозь окно последовательностей оснований генома человека.
11:07 - 11:09

Культуромика сходна.
11:09 - 11:12

Это применение анализа наборов данных огромного масштаба
11:12 - 11:14

к изучению человеческой культуры.
11:14 - 11:16

Но взамен линзы генома,
11:16 - 11:19

мы смотрим сквозь линзу оцифрованных частиц истории.
11:19 - 11:21

Замечательным аспектом культуромики является то,
11:21 - 11:23

что любой может ею заняться.
11:23 - 11:25

Почему же любой может ею заняться?
11:25 - 11:27

Потому что эти парни,
11:27 - 11:30

Джон Орвант, Мэтт Грей и Уилл Брокман из Google,
11:30 - 11:32

увидев прототип средства просмотра N-грамм,
11:32 - 11:34

сказали: «Это очень весёлая вещь.
11:34 - 11:37

Давайте это опубликуем».
11:37 - 11:39

Ровно за две недели — за две недели до публикации нашей статьи —
11:39 - 11:42

они запрограммировали публичную версию средства просмотра N-грамм.
11:42 - 11:45

Теперь и вы можете напечатать любое слово или предложение, которое вас интересует,
11:45 - 11:47

и сразу посмотреть его N-граммы,
11:47 - 11:49

включая просмотр примеров из всех тех разных книг,
11:49 - 11:51

в которых встречается ваша N-грамма.
11:51 - 11:53

ЖМ: В первый же день этим воспользовались более миллиона раз,
11:53 - 11:55

и это — лучшие из всех запросов.
11:55 - 11:58

Люди хотят показать себя с наилучшей стороны.
11:58 - 12:01

Однако оказывается, что в 18-м веке людей это совсем не интересовало.
12:01 - 12:04

Они не хотели показать себя с лучшей стороны [best], они хотели показать себя с лучшей штороны [beft].
12:04 - 12:07

Как обычно, это была просто ошибка.
12:07 - 12:09

Это не стремление к посредственности,
12:09 - 12:12

просто буква S писалась по-другому, похоже на F.
12:12 - 12:15

Конечно, Google тогда это не отследил,
12:15 - 12:18

поэтому мы отметили это в написанной нами статье.
12:18 - 12:20

Однако оказывается, что это просто напоминание о том, что,
12:20 - 12:22

несмотря на всё веселье,
12:22 - 12:24

при объяснении этих графиков нужно быть очень осторожным,
12:24 - 12:27

и нужно применять лучшие научные стандарты.
12:27 - 12:30

ЭЛА: Как только люди этим не пользовались.
12:30 - 12:37

(Смех)
12:37 - 12:39

На самом деле, говорить ничего не нужно,
12:39 - 12:42

мы просто покажем вам слайды, молча.
12:42 - 12:45

Этого человека интересовала история расстройств.
12:45 - 12:48

Есть разные типы расстройств.
12:48 - 12:51

Если вы ударились большим пальцем, это «ах» с одним А.
12:51 - 12:53

Если планету Земля аннигилировали вогоны,
12:53 - 12:55

чтобы освободить место для межгалактического туннеля,
12:55 - 12:57

это «аааааааах» с восемью А.
12:57 - 12:59

Этот человек изучил все «ахи»,
12:59 - 13:01

содержащие от одного до восьми А.
13:01 - 13:03

Оказывается,
13:03 - 13:05

наиболее редкими «ахами» являются те,
13:05 - 13:08

которые относятся к наиболее пугающим вещам,
13:08 - 13:11

кроме, как ни странно, начала 80-х.
13:11 - 13:13

Наверное, Рейган имеет к этому отношение.
13:13 - 13:15

(Смех)
13:15 - 13:18

ЖМ: Эти данные можно использовать по-разному,
13:18 - 13:21

но суть в том, что история оцифровывается.
13:21 - 13:23

Google начал оцифровывать 15 миллионов книг.
13:23 - 13:25

Это 12 процентов всех когда-либо напечатанных книг.
13:25 - 13:28

Это заметная часть человеческой культуры.
13:28 - 13:31

Но в культуре намного больше вещей: рукописи, газеты,
13:31 - 13:33

нетекстовые вещи, например искусство и картины.
13:33 - 13:35

Всё это оказывается на наших компьютерах,
13:35 - 13:37

на компьютерах по всему миру.
13:37 - 13:40

И когда это случится, это изменит то,
13:40 - 13:42

как мы понимаем прошлое, настоящее и человеческую культуру.
13:42 - 13:44

Спасибо большое.
13:44 - 13:47

(Аплодисменты)

Title:: Что мы узнали из 5 миллионов книг
Speaker:: Jean-Baptiste Michel + Erez Lieberman Aiden
Description:: Вы пробовали средство просмотра N-грамм от лабораторий Google? Этот увлекательный инструмент позволяет искать слова и идеи в базе данных из 5 миллионов книг за многие века. Эрез Либерман Айден и Жан-Баптист Мишель показывают, как оно работает, и показывают несколько неожиданных фактов, которые можно узнать из 500 миллиардов слов.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:48

Aliaksandr Autayeu added a translation

Russian subtitles

Revisions

Revision 1

Aliaksandr Autayeu

Что мы узнали из 5 миллионов книг

Revisions

Our website uses cookies

Operating cookies (Required)