Що ми дізналися з 5 мільйонів книг

Edit subtitles

0:00 - 0:02

Ерез Ліберман Айден: Усі знають,
0:02 - 0:05

що зображення варте тисячі слів.
0:07 - 0:09

Але ми у Гарварді
0:09 - 0:12

сумнівалися, чи це є правдою.
0:12 - 0:14

(Сміх)
0:14 - 0:18

Тому ми зібрали команду експертів
0:18 - 0:20

з Гарварду, МТІ,
0:20 - 0:23

Словника Американської Спадщини, Енциклопедії Британіка,
0:23 - 0:25

та навіть нашого величного спонсора
0:25 - 0:28

Google.
0:28 - 0:30

Ми обмірковували це
0:30 - 0:32

приблизно чотири роки.
0:32 - 0:37

І ми дійшли до вражаючого висновку.
0:37 - 0:40

Леді та джентельмени, зображення не варте тисячі слів.
0:40 - 0:42

Направду, ми знайшли певні зображення,
0:42 - 0:47

що варті більше 500 мільярдів слів.
0:47 - 0:49

Жан-Баптист Мішель: То як ми зробили такий висновок?
0:49 - 0:51

Ерез та я обмірковували те,
0:51 - 0:53

як отримати загальний план людської культури та історії:
0:53 - 0:56

що змінюється з плином часу.
0:56 - 0:58

Так багато книг було написано за довгі роки.
0:58 - 1:00

Тож ми вважали, що найкращий шлях вивчити їх -
1:00 - 1:02

це прочитати всі ці мільйони книг.
1:02 - 1:05

Звичайно, якби була така шкала, щоб показати наскільки це круто
1:05 - 1:08

то це було б вийнятково, виключно круто
1:08 - 1:10

Проблема в тому, що існує вісь Х,
1:10 - 1:12

практична вісь.
1:12 - 1:14

Це дуже, дуже низько.
1:14 - 1:17

(Аплодисменти)
1:17 - 1:20

Тепер люди мають тенденцію використовувати альтернативний підхід -
1:20 - 1:22

взяти декілька джерел та дуже ретельно їх прочитати.
1:22 - 1:24

Це дуже практично, але не так круто.
1:24 - 1:27

Чого насправді хочеться
1:27 - 1:30

дістатися практичної, але крутої частини цього простору.
1:30 - 1:33

Виявляється, навпроти, через річку, є компанія Google,
1:33 - 1:35

яка кілька років тому розпочала проект оцифровки,
1:35 - 1:37

що може дозволити такий підхід.
1:37 - 1:39

Вони оцифрували мільйони книг.
1:39 - 1:42

Це значить, що можна використовувати обчислювальні методи
1:42 - 1:44

для того, щоб прочитати всі ці книги одним натисненням кнопки.
1:44 - 1:47

Це дуже практично і неймовірно круто.
1:48 - 1:50

Ела: Давайте я розповім про походження книг.
1:50 - 1:53

З незапам'ятних часів були автори.
1:53 - 1:56

Ці автори прагнули писати книги.
1:56 - 1:58

І це стало значно простіше
1:58 - 2:00

з розвитком друкарства кілька століть тому.
2:00 - 2:03

З тих пір, автори перемогли
2:03 - 2:05

у 129 мільйонів різних випадків
2:05 - 2:07

видання книг.
2:07 - 2:09

Якщо ці книги не канули в історію,
2:09 - 2:11

вони зберігаються десь в якійсь бібліотеці,
2:11 - 2:14

і більшість з цих книг беруться з бібліотек
2:14 - 2:16

та оцифровуються компанією Google,
2:16 - 2:18

яка на сьогоднішній день відсканувала 15 мільйонів книг.
2:18 - 2:21

Коли компанія Google оцифровує книгу, вони зберігають її у дуже зручному форматі.
2:21 - 2:23

У нас є дані та метадані.
2:23 - 2:26

У нас є інформація про такі речі, де це було опубліковано,
2:26 - 2:28

хто автор книги, коли відбулася публікація.
2:28 - 2:31

Ми пройшлись по усім цим записам,
2:31 - 2:35

та виключили всі, окрім даних найкращої якості.
2:35 - 2:37

Таким чином,
2:37 - 2:40

залишилась колекція з 5 мільйонів книг,
2:40 - 2:43

500 мільярдів слів,
2:43 - 2:45

рядок символів у тисячу разів довший
2:45 - 2:48

ніж геном людини -
2:48 - 2:50

якщо написати цей текст,
2:50 - 2:52

він простягнеться до Місяця та назад
2:52 - 2:54

10 разів -
2:54 - 2:58

справжній уламок нашого культурного геному.
2:58 - 3:00

Звісно, ми зробили,
3:00 - 3:03

коли зіштовхнулися з такою обурливою гіперболою ...
3:03 - 3:05

(Сміх)
3:05 - 3:08

те, що зробив би будь-який
3:08 - 3:11

поважаючий себе вчений.
3:11 - 3:13

Ми взяли сторінку з XKСD
3:13 - 3:15

та сказали: "Відійдіть,
3:15 - 3:17

ми збираємося зайнятися наукою".
3:17 - 3:19

(Сміх)
3:19 - 3:21

ЖМ: Звісно, ми подумали,
3:21 - 3:23

що ж, давайте спочатку викладемо дані
3:23 - 3:25

для людей, що опрацюють їх науково.
3:25 - 3:27

Тож ми подумали, які дані ми можемо опублікувати?
3:27 - 3:29

Звісно, хотілося взяти
3:29 - 3:31

та видати усі тексти цих пяти мільйонів книг.
3:31 - 3:33

Google та особоливо Джон Орвант
3:33 - 3:35

навчили нас невеликому рівнянню.
3:35 - 3:38

Отже, є п'ять мільйонів книг - це п'ять мільйонів авторів
3:38 - 3:41

та п'ять мільйонів позивачів - це величезна судова тяганина.
3:41 - 3:43

І, хоча це було б просто неймовірно круто,
3:43 - 3:46

знову ж таки, це дуже, просто нереально непрактично.
3:46 - 3:48

(Сміх)
3:48 - 3:50

Що ж, ми здається як піддалися
3:50 - 3:53

та підійшли до справи дуже практично, хоча й не так круто.
3:53 - 3:55

Ми сказали, що замість публікації повних текстів,
3:55 - 3:57

ми опублікуємо статистику про книги.
3:57 - 3:59

Візьмемо, для прикладу, «A gleam of happiness».
3:59 - 4:01

Ці чотири слова ми називаємо four-gram.
4:01 - 4:03

Ми повідомимо вам, як часто цей конкретний four-gram
4:03 - 4:05

з'являється в книгах у 1801, 1802, 1803,
4:05 - 4:07

і так далі аж до 2008.
4:07 - 4:09

Це дає нам часовий ряд
4:09 - 4:11

частоти використання даної фрази впродовж часу.
4:11 - 4:14

Ми робимо це для усіх слів та фраз, що з'являються у цих книгах,
4:14 - 4:17

і це дає нам велику таблицю з двох мільярдів рядків,
4:17 - 4:19

які говорять нам, яким чином змінювалась культура.
4:19 - 4:21

ЕЛА: Ці два мільярди рядків,
4:21 - 4:23

ми називаємо їх два мільярди n-gram.
4:23 - 4:25

Що вони нам говорять?
4:25 - 4:27

Окремі n-gram'и вимірюють культурні тенденції.
4:27 - 4:29

Дозвольте навести приклад.
4:29 - 4:31

Давайте припустимо, що я процвітаю,
4:31 - 4:33

і завтра хочу розповісти вам, як мені було добре.
4:33 - 4:36

Я можу сказати: "Учора я процвітав [throve]".
4:36 - 4:39

Крім того, я можу сказати: "Учора я процвітав [thrived]".
4:39 - 4:42

Який варіант мені використовувати?
4:42 - 4:44

Як дізнатися?
4:44 - 4:46

Приблизно шість місяців тому,
4:46 - 4:48

стан справ у цій області
4:48 - 4:50

був таким, що можна було, наприклад,
4:50 - 4:52

підійти до психолога з приголомшливою зачіскою
4:52 - 4:54

та запитати:
4:54 - 4:57

"Стів, ти експерт з неправильних дієслів.
4:57 - 4:59

Що мені робити?"
4:59 - 5:01

А він би відповів: "Більшість людей сказали б процвітав [thrive],
5:01 - 5:04

та лише деякі скажуть процвітав [throve]".
5:04 - 5:06

Як більш-менш відомо,
5:06 - 5:09

якщо повернутися на 200 років тому назад,
5:09 - 5:12

та запитати ось цього політика з не менш приголомшливою зачіскою,
5:12 - 5:15

(Сміх)
5:15 - 5:17

"Том, як мені потрібно говорити?"
5:17 - 5:19

Він би відповів: "У мої часи більшість людей процвітала [throve],
5:19 - 5:22

але деякі з них процвітали [thrived]".
5:22 - 5:24

Я покажу вам неопрацьовані дані.
5:24 - 5:28

Два рядки з таблиці в два мільярди рядків.
5:28 - 5:30

Тут показана, частота слів
5:30 - 5:33

"процвітав" [thrived] та "процвітав" [throve] протягом часу.
5:34 - 5:36

І це лише два рядки
5:36 - 5:39

з двох мільярдів.
5:39 - 5:41

Весь набір даних
5:41 - 5:44

в мільярд разів дивовижніший, ніж цей слайд.
5:44 - 5:46

(Сміх)
5:46 - 5:50

(Аплодисменти)
5:50 - 5:52

ЖМ: Існує багато інших картинок, котрі вартують 500 мільярдів слів.
5:52 - 5:54

Наприклад, ось ця.
5:54 - 5:56

Якщо взяти грипп,
5:56 - 5:58

ви побачите піки на той час,
5:58 - 6:01

коли епідемії грипу вбивали людей по всьому світу.
6:01 - 6:04

ЕЛА: Якщо ви досі не переконані,
6:04 - 6:06

рівень моря піднімається,
6:06 - 6:09

а також вміст СО2 в атмосфері та глобальна температура.
6:09 - 6:12

ЖМ: А також можна подивитись на оць цю N-граму,
6:12 - 6:15

та сказати Ніцше, що Бог не мертвий,
6:15 - 6:18

хоча можна погодитись, що йому потрібен кращий публіцист.
6:18 - 6:20

(Сміх)
6:20 - 6:23

ЕЛА: За допомогою цих речей ви можете отримати певні абстрактні уявлення.
6:23 - 6:25

Наприклад, дозвольте розповісти
6:25 - 6:27

історію 1950-го року.
6:27 - 6:29

Впродовж більшої частини історії
6:29 - 6:31

ніхто не згадував про 1950-й.
6:31 - 6:33

У 1700-х, 1800-х, 1900-х
6:33 - 6:36

ніхто ним не цікавився.
6:37 - 6:39

Протягом 30-х та 40-х років
6:39 - 6:41

ніхто ним не цікавився.
6:41 - 6:43

Раптово, в середині 40-х років,
6:43 - 6:45

там здійнявся гомін.
6:45 - 6:47

Люди зрозуміли, що скоро наступить 1950-й рік,
6:47 - 6:49

і це може бути подією.
6:49 - 6:52

(Сміх)
6:52 - 6:55

Але нічого не цікавило людей сильніше у 1950-му,
6:55 - 6:58

ніж сам 1950-й.
6:58 - 7:01

(Сміх)
7:01 - 7:03

Люди були одержимі.
7:03 - 7:05

Вони не могли перестати говорити
7:05 - 7:08

про речі, які вони зробили у 1950-му,
7:08 - 7:11

про все, що вони планували зробити у 1950-му.
7:11 - 7:16

про усі мрії, які вони хотіли реалізувати у 1950-му.
7:16 - 7:18

Насправді, 1950-й був настільки захоплюючим,
7:18 - 7:20

що протягом багатьох років після цього
7:20 - 7:23

люди просто продовжували говорити про всі дивовижні речі, які сталися
7:23 - 7:25

у 1951, 1952, 1953.
7:25 - 7:27

Нарешті, у 1954-му
7:27 - 7:29

хтось прокинувся й усвідомив,
7:29 - 7:33

що 1950-й рік застарів.
7:33 - 7:35

(Сміх)
7:35 - 7:37

І просто так бульбашка лопнула.
7:37 - 7:39

(Сміх)
7:39 - 7:41

Історія 1950-го
7:41 - 7:43

повторюється для кожного року, про який у нас є дані,
7:43 - 7:46

с невеликими змінами, тому що тепер у нас є ось ці гарні графіки.
7:46 - 7:49

Завдяки цим графікам, ми можемо вимірювати речі.
7:49 - 7:51

Ми можемо сказати: "Як швидко це бульбашка лопне?"
7:51 - 7:54

І виходить, що ми можемо виміряти це дуже точно.
7:54 - 7:57

Рівняння були отримані, графіки побудовані,
7:57 - 7:59

і кінцевим результатом стало те,
7:59 - 8:02

що бульбашки лопаються все швидше та швидше
8:02 - 8:04

з кожним роком.
8:04 - 8:09

Ми втрачаємо інтерес до минулого все більш швидкими темпами.
8:09 - 8:11

ЖМ: Невелика кар'ерна порада.
8:11 - 8:13

Для тих із вас, хто прагне слави,
8:13 - 8:15

можна навчитися у 25-ти найвідоміших політиків,
8:15 - 8:17

авторів, акторів і т.д.
8:17 - 8:20

Якщо ви хочете рано стати знаменитимм, вам потрібно бути актором,
8:20 - 8:22

тому, що слава почне зростати близько кінця вашого третього десятку -
8:22 - 8:24

ви досі молоді, і це чудово.
8:24 - 8:26

Якщо ви можете трішки почекати, тоді вам потрібно стати автором,
8:26 - 8:28

тому, що це дозволить піднятися на більші висоти,
8:28 - 8:30

як Марк Твен, наприклад, дуже відомий.
8:30 - 8:32

Але якщо ви хочете піднятися на саму вершину,
8:32 - 8:34

потрібно відкласти задоволення
8:34 - 8:36

і, звісно, стати політиком.
8:36 - 8:38

Ви станете відомими під кінець вашого шостого десятку,
8:38 - 8:40

та станете дуже, дуже відомими потім.
8:40 - 8:43

Вчені також стають знаменитими, коли вони стають набагато старішими.
8:43 - 8:45

Наприклад, біологи та фізики
8:45 - 8:47

стають приблизно такими ж відомими як і актори.
8:47 - 8:50

Помилкою, яку робити не варто - ставати математиком.
8:50 - 8:52

(Сміх)
8:52 - 8:54

У цьому випадку,
8:54 - 8:57

ви можете думати: "Чудово. Свої накращі роботи я зроблю до тридцяти років".
8:57 - 8:59

Але знаете що? Це нікого не цікавить.
8:59 - 9:02

(Сміх)
9:02 - 9:04

ЕЛА: Існують більш серьйозніші речі
9:04 - 9:06

в N-граммах.
9:06 - 9:08

Наприклад, ось траекторія Марка Шагала,
9:08 - 9:10

художника, що народився у 1887-му.
9:10 - 9:13

Виглядає, як нормальна траекторія знаменитої людини.
9:13 - 9:17

Він стає все більш і більш знаменитим,
9:17 - 9:19

за виключенням відомості серед німців.
9:19 - 9:21

Якщо подивитися на німецьку мову, ви бачите щось зовсім дивне,
9:21 - 9:23

те, що ви майже ніколи не бачите -
9:23 - 9:25

він стає надзвичайно відомим,
9:25 - 9:27

а потім раптом різко падає,
9:27 - 9:30

переживає надир між 1933 і 1945,
9:30 - 9:33

перш ніж повертається знову.
9:33 - 9:35

Звісно, ми бачимо
9:35 - 9:38

факт того, що Марк Шагал був єврейським художником
9:38 - 9:40

у нацистській Німеччині.
9:40 - 9:42

Ці сигнали
9:42 - 9:44

настільки сильні,
9:44 - 9:47

що нам не потрібно знати, що хтось піддавався цензурі.
9:47 - 9:49

Ми можемо це зрозуміти,
9:49 - 9:51

використовуючи найпростіший аналіз сигналів.
9:51 - 9:53

Ось простий спосіб це зробити.
9:53 - 9:55

Доцільно припустити,
9:55 - 9:57

що чиясь слава в даний період часу
9:57 - 9:59

повинна бути приблизно рівна середньому рівню слави до
9:59 - 10:01

і слави після.
10:01 - 10:03

Це те, чого ми очікуємо.
10:03 - 10:06

Ми порівнюємо це зі славою, яку ми спостерігаємо.
10:06 - 10:08

А потім ділимо одне на інше,
10:08 - 10:10

щоб отримати дещо, що ми називаємо індексом пригнічення.
10:10 - 10:13

Якщо індекс пригнічення дуже, дуже, дуже низький,
10:13 - 10:15

то найбільш ймовірно, що ви дійсно зазнаєте утисків.
10:15 - 10:18

Коли він дуже великий, напевне, ви отримуєте зиск від пропаганди.
10:19 - 10:21

ЖМ: Тепер можна подивитись
10:21 - 10:24

на розподілення індексів подавлення по всьому населенню.
10:24 - 10:26

Наприклад, тут:
10:26 - 10:28

це індекс подавлення для 5 тисяч людей,
10:28 - 10:30

взятих з англійських книг, де відомо про відсутність цензури,
10:30 - 10:32

він, приблизно, ось такий, сконцентрований біля одиниці.
10:32 - 10:34

Очікуване співпадає з тим, що ми спостерігаємо.
10:34 - 10:36

Це розподілення спостерігалось у Німеччині -
10:36 - 10:38

воно зовсім інше, зміщене вліво.
10:38 - 10:41

Люди говорили про це в вдвічі менше, ніж мали-б.
10:41 - 10:43

Але, що більш важливо, розподілення набагато ширше.
10:43 - 10:46

Про більшість людей, які опиняються на лівому боці цього розподілу
10:46 - 10:49

говорять у 10 разів менше, ніж повинні.
10:49 - 10:51

Але і багато людей на правому краю,
10:51 - 10:53

які отримують вигоди від пропаганди.
10:53 - 10:56

Ця картинка є характерною ознакою цензури в історії книг.
10:56 - 10:58

ЕЛА: Культуроміка -
10:58 - 11:00

ось як ми називаємо цей метод.
11:00 - 11:02

Це ніби як геноміка.
11:02 - 11:04

Хіба що, геноміка це лінза для біології,
11:04 - 11:07

погляд через вікно послідовностей основ генома людини.
11:07 - 11:09

Культуроміка схожа.
11:09 - 11:12

Це застосування аналізу набору даних величезного маштабу
11:12 - 11:14

для вивчення людської культури.
11:14 - 11:16

А тут, замість лінзи геному,
11:16 - 11:19

ми дивимось через лінзу оцифрованих частинок історії.
11:19 - 11:21

Чудовим аспектом культуроміки є те,
11:21 - 11:23

що будь-хто може нею зайнятися.
11:23 - 11:25

Чому ж будь-хто може нею зайнятися?
11:25 - 11:27

Кожен може робити це, тому що троє хлопців,
11:27 - 11:30

Джон Орвант, Метт Грей та Уилл Брокман з Google,
11:30 - 11:32

побачивши прототип засобу перегляду N-грамм,
11:32 - 11:34

сказали: "Це так весело.
11:34 - 11:37

Ми повинні зробити це доступним для людей".
11:37 - 11:39

Рівно через два тижні - за два тижні до публікації нашої статті -
11:39 - 11:42

вони запрограмували публічну версію засобу перегляду N-грам.
11:42 - 11:45

Тепер і ви можете надрукувати будь-яке слово або речення, яке вас цікавить,
11:45 - 11:47

і відразу подивитись його N-грами,
11:47 - 11:49

включаючи перегляд прикладів із усіх тих різних книг,
11:49 - 11:51

в яких зустрічається ваша N-грамма.
11:51 - 11:53

ЖМ: В перший же день цим скористалися більше мільйона разів,
11:53 - 11:55

і це - найкраще із усіх запитів.
11:55 - 11:58

Люди хочуть показати себе з найкращої сторони.
11:58 - 12:01

Але виявляється, що у 18-му столітті людей це зовсім не цікавило.
12:01 - 12:04

Вони не хотіли показати себе з кращої [best], вони хотіли показати себе з кращої сторони [beft].
12:04 - 12:07

Як зазвичай, це була просто помилка.
12:07 - 12:09

Це не прагнення до посередньості,
12:09 - 12:12

просто буква S писалася по іншому, схоже на F.
12:12 - 12:15

Звісно, Google тоді це не дослідив,
12:15 - 12:18

тому ми відмітили це в написаній нами науковій статті.
12:18 - 12:20

Але виявляється, це всього лише нагадування про те,
12:20 - 12:22

що, хоча це дуже весело,
12:22 - 12:24

при інтерпритації цих графіків ви повинні бути дуже обережні
12:24 - 12:27

і ви маєте керуватись базовими нормами наукових досліджень.
12:27 - 12:30

ЕЛА: Як тільки люди цим не користувались.
12:30 - 12:37

(Сміх)
12:37 - 12:39

Насправда, говорити нічого не потрібно,
12:39 - 12:42

ми просто збираємося показати вам усі слайди мовчки.
12:42 - 12:45

Ця людина була зацікавлена в історії розчарування.
12:45 - 12:48

Існують різні види розчарування.
12:48 - 12:51

Якщо ви ударились великим пальцем, це "ах" з одним А.
12:51 - 12:53

Якщо планета Земля буде знищена Вогонами,
12:53 - 12:55

щоб звільнити місце для міжгалактичного тунелю,
12:55 - 12:57

це "аааааааах" з вісьмома А.
12:57 - 12:59

Ця людина вивчила усі "ахи",
12:59 - 13:01

які містять від одного до восьми А.
13:01 - 13:03

Виходить,
13:03 - 13:05

найбільш рідкими "ахами" являються ті,
13:05 - 13:08

які відносяться до найстрашніших речей,
13:08 - 13:11

окрім, як не дивно, початку 80-х.
13:11 - 13:13

Напевне, Рейган має до цього відношення.
13:13 - 13:15

(Сміх)
13:15 - 13:18

ЖМ: Ці дані можна використовувати по різному,
13:18 - 13:21

але суть в тому, що історія оцифровується.
13:21 - 13:23

Google почав оцифровувати 15 мільйонів книг.
13:23 - 13:25

Це 12 відсотків усіх книг, які коли-небудь були опубліковані.
13:25 - 13:28

Це значна частина людської культури.
13:28 - 13:31

Але в культурі набагато більше речей: рукописи, газети,
13:31 - 13:33

нетекстові речі, наприклад, мистецтво і картини.
13:33 - 13:35

Все це виявляється на наших комп'ютерах,
13:35 - 13:37

на комп'ютерах по всьому світу.
13:37 - 13:40

І коли це трапиться, це змінить те,
13:40 - 13:42

як ми розуміємо минуле, сьогодення та людську культуру.
13:42 - 13:44

Дуже дякую.
13:44 - 13:47

(Оплески)

Title:: Що ми дізналися з 5 мільйонів книг
Speaker:: Jean-Baptiste Michel + Erez Lieberman Aiden
Description:: Ви бавились переглядачем Ngram з лабораторії Google? Цей захоплюючий ігровий інструмент дозволяє шукати слова та ідеї в базі даних з 5 мільйонів книг впродовж століть. Ерез Ліберман Айден та Жан-Баптист Мішель демонструють як воно працює та декілька дивовижних речей, які можна дізнатись з 500 мільярдів слів.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:48

Inna Kravchenko added a translation

Ukrainian subtitles

Revisions

Revision 1

Inna Kravchenko

Що ми дізналися з 5 мільйонів книг

Revisions

Our website uses cookies

Operating cookies (Required)