Що ми дізналися з 5 мільйонів книг
-
0:00 - 0:02Ерез Ліберман Айден: Усі знають,
-
0:02 - 0:05що зображення варте тисячі слів.
-
0:07 - 0:09Але ми у Гарварді
-
0:09 - 0:12сумнівалися, чи це є правдою.
-
0:12 - 0:14(Сміх)
-
0:14 - 0:18Тому ми зібрали команду експертів
-
0:18 - 0:20з Гарварду, МТІ,
-
0:20 - 0:23Словника Американської Спадщини, Енциклопедії Британіка,
-
0:23 - 0:25та навіть нашого величного спонсора
-
0:25 - 0:28Google.
-
0:28 - 0:30Ми обмірковували це
-
0:30 - 0:32приблизно чотири роки.
-
0:32 - 0:37І ми дійшли до вражаючого висновку.
-
0:37 - 0:40Леді та джентельмени, зображення не варте тисячі слів.
-
0:40 - 0:42Направду, ми знайшли певні зображення,
-
0:42 - 0:47що варті більше 500 мільярдів слів.
-
0:47 - 0:49Жан-Баптист Мішель: То як ми зробили такий висновок?
-
0:49 - 0:51Ерез та я обмірковували те,
-
0:51 - 0:53як отримати загальний план людської культури та історії:
-
0:53 - 0:56що змінюється з плином часу.
-
0:56 - 0:58Так багато книг було написано за довгі роки.
-
0:58 - 1:00Тож ми вважали, що найкращий шлях вивчити їх -
-
1:00 - 1:02це прочитати всі ці мільйони книг.
-
1:02 - 1:05Звичайно, якби була така шкала, щоб показати наскільки це круто
-
1:05 - 1:08то це було б вийнятково, виключно круто
-
1:08 - 1:10Проблема в тому, що існує вісь Х,
-
1:10 - 1:12практична вісь.
-
1:12 - 1:14Це дуже, дуже низько.
-
1:14 - 1:17(Аплодисменти)
-
1:17 - 1:20Тепер люди мають тенденцію використовувати альтернативний підхід -
-
1:20 - 1:22взяти декілька джерел та дуже ретельно їх прочитати.
-
1:22 - 1:24Це дуже практично, але не так круто.
-
1:24 - 1:27Чого насправді хочеться
-
1:27 - 1:30дістатися практичної, але крутої частини цього простору.
-
1:30 - 1:33Виявляється, навпроти, через річку, є компанія Google,
-
1:33 - 1:35яка кілька років тому розпочала проект оцифровки,
-
1:35 - 1:37що може дозволити такий підхід.
-
1:37 - 1:39Вони оцифрували мільйони книг.
-
1:39 - 1:42Це значить, що можна використовувати обчислювальні методи
-
1:42 - 1:44для того, щоб прочитати всі ці книги одним натисненням кнопки.
-
1:44 - 1:47Це дуже практично і неймовірно круто.
-
1:48 - 1:50Ела: Давайте я розповім про походження книг.
-
1:50 - 1:53З незапам'ятних часів були автори.
-
1:53 - 1:56Ці автори прагнули писати книги.
-
1:56 - 1:58І це стало значно простіше
-
1:58 - 2:00з розвитком друкарства кілька століть тому.
-
2:00 - 2:03З тих пір, автори перемогли
-
2:03 - 2:05у 129 мільйонів різних випадків
-
2:05 - 2:07видання книг.
-
2:07 - 2:09Якщо ці книги не канули в історію,
-
2:09 - 2:11вони зберігаються десь в якійсь бібліотеці,
-
2:11 - 2:14і більшість з цих книг беруться з бібліотек
-
2:14 - 2:16та оцифровуються компанією Google,
-
2:16 - 2:18яка на сьогоднішній день відсканувала 15 мільйонів книг.
-
2:18 - 2:21Коли компанія Google оцифровує книгу, вони зберігають її у дуже зручному форматі.
-
2:21 - 2:23У нас є дані та метадані.
-
2:23 - 2:26У нас є інформація про такі речі, де це було опубліковано,
-
2:26 - 2:28хто автор книги, коли відбулася публікація.
-
2:28 - 2:31Ми пройшлись по усім цим записам,
-
2:31 - 2:35та виключили всі, окрім даних найкращої якості.
-
2:35 - 2:37Таким чином,
-
2:37 - 2:40залишилась колекція з 5 мільйонів книг,
-
2:40 - 2:43500 мільярдів слів,
-
2:43 - 2:45рядок символів у тисячу разів довший
-
2:45 - 2:48ніж геном людини -
-
2:48 - 2:50якщо написати цей текст,
-
2:50 - 2:52він простягнеться до Місяця та назад
-
2:52 - 2:5410 разів -
-
2:54 - 2:58справжній уламок нашого культурного геному.
-
2:58 - 3:00Звісно, ми зробили,
-
3:00 - 3:03коли зіштовхнулися з такою обурливою гіперболою ...
-
3:03 - 3:05(Сміх)
-
3:05 - 3:08те, що зробив би будь-який
-
3:08 - 3:11поважаючий себе вчений.
-
3:11 - 3:13Ми взяли сторінку з XKСD
-
3:13 - 3:15та сказали: "Відійдіть,
-
3:15 - 3:17ми збираємося зайнятися наукою".
-
3:17 - 3:19(Сміх)
-
3:19 - 3:21ЖМ: Звісно, ми подумали,
-
3:21 - 3:23що ж, давайте спочатку викладемо дані
-
3:23 - 3:25для людей, що опрацюють їх науково.
-
3:25 - 3:27Тож ми подумали, які дані ми можемо опублікувати?
-
3:27 - 3:29Звісно, хотілося взяти
-
3:29 - 3:31та видати усі тексти цих пяти мільйонів книг.
-
3:31 - 3:33Google та особоливо Джон Орвант
-
3:33 - 3:35навчили нас невеликому рівнянню.
-
3:35 - 3:38Отже, є п'ять мільйонів книг - це п'ять мільйонів авторів
-
3:38 - 3:41та п'ять мільйонів позивачів - це величезна судова тяганина.
-
3:41 - 3:43І, хоча це було б просто неймовірно круто,
-
3:43 - 3:46знову ж таки, це дуже, просто нереально непрактично.
-
3:46 - 3:48(Сміх)
-
3:48 - 3:50Що ж, ми здається як піддалися
-
3:50 - 3:53та підійшли до справи дуже практично, хоча й не так круто.
-
3:53 - 3:55Ми сказали, що замість публікації повних текстів,
-
3:55 - 3:57ми опублікуємо статистику про книги.
-
3:57 - 3:59Візьмемо, для прикладу, «A gleam of happiness».
-
3:59 - 4:01Ці чотири слова ми називаємо four-gram.
-
4:01 - 4:03Ми повідомимо вам, як часто цей конкретний four-gram
-
4:03 - 4:05з'являється в книгах у 1801, 1802, 1803,
-
4:05 - 4:07і так далі аж до 2008.
-
4:07 - 4:09Це дає нам часовий ряд
-
4:09 - 4:11частоти використання даної фрази впродовж часу.
-
4:11 - 4:14Ми робимо це для усіх слів та фраз, що з'являються у цих книгах,
-
4:14 - 4:17і це дає нам велику таблицю з двох мільярдів рядків,
-
4:17 - 4:19які говорять нам, яким чином змінювалась культура.
-
4:19 - 4:21ЕЛА: Ці два мільярди рядків,
-
4:21 - 4:23ми називаємо їх два мільярди n-gram.
-
4:23 - 4:25Що вони нам говорять?
-
4:25 - 4:27Окремі n-gram'и вимірюють культурні тенденції.
-
4:27 - 4:29Дозвольте навести приклад.
-
4:29 - 4:31Давайте припустимо, що я процвітаю,
-
4:31 - 4:33і завтра хочу розповісти вам, як мені було добре.
-
4:33 - 4:36Я можу сказати: "Учора я процвітав [throve]".
-
4:36 - 4:39Крім того, я можу сказати: "Учора я процвітав [thrived]".
-
4:39 - 4:42Який варіант мені використовувати?
-
4:42 - 4:44Як дізнатися?
-
4:44 - 4:46Приблизно шість місяців тому,
-
4:46 - 4:48стан справ у цій області
-
4:48 - 4:50був таким, що можна було, наприклад,
-
4:50 - 4:52підійти до психолога з приголомшливою зачіскою
-
4:52 - 4:54та запитати:
-
4:54 - 4:57"Стів, ти експерт з неправильних дієслів.
-
4:57 - 4:59Що мені робити?"
-
4:59 - 5:01А він би відповів: "Більшість людей сказали б процвітав [thrive],
-
5:01 - 5:04та лише деякі скажуть процвітав [throve]".
-
5:04 - 5:06Як більш-менш відомо,
-
5:06 - 5:09якщо повернутися на 200 років тому назад,
-
5:09 - 5:12та запитати ось цього політика з не менш приголомшливою зачіскою,
-
5:12 - 5:15(Сміх)
-
5:15 - 5:17"Том, як мені потрібно говорити?"
-
5:17 - 5:19Він би відповів: "У мої часи більшість людей процвітала [throve],
-
5:19 - 5:22але деякі з них процвітали [thrived]".
-
5:22 - 5:24Я покажу вам неопрацьовані дані.
-
5:24 - 5:28Два рядки з таблиці в два мільярди рядків.
-
5:28 - 5:30Тут показана, частота слів
-
5:30 - 5:33"процвітав" [thrived] та "процвітав" [throve] протягом часу.
-
5:34 - 5:36І це лише два рядки
-
5:36 - 5:39з двох мільярдів.
-
5:39 - 5:41Весь набір даних
-
5:41 - 5:44в мільярд разів дивовижніший, ніж цей слайд.
-
5:44 - 5:46(Сміх)
-
5:46 - 5:50(Аплодисменти)
-
5:50 - 5:52ЖМ: Існує багато інших картинок, котрі вартують 500 мільярдів слів.
-
5:52 - 5:54Наприклад, ось ця.
-
5:54 - 5:56Якщо взяти грипп,
-
5:56 - 5:58ви побачите піки на той час,
-
5:58 - 6:01коли епідемії грипу вбивали людей по всьому світу.
-
6:01 - 6:04ЕЛА: Якщо ви досі не переконані,
-
6:04 - 6:06рівень моря піднімається,
-
6:06 - 6:09а також вміст СО2 в атмосфері та глобальна температура.
-
6:09 - 6:12ЖМ: А також можна подивитись на оць цю N-граму,
-
6:12 - 6:15та сказати Ніцше, що Бог не мертвий,
-
6:15 - 6:18хоча можна погодитись, що йому потрібен кращий публіцист.
-
6:18 - 6:20(Сміх)
-
6:20 - 6:23ЕЛА: За допомогою цих речей ви можете отримати певні абстрактні уявлення.
-
6:23 - 6:25Наприклад, дозвольте розповісти
-
6:25 - 6:27історію 1950-го року.
-
6:27 - 6:29Впродовж більшої частини історії
-
6:29 - 6:31ніхто не згадував про 1950-й.
-
6:31 - 6:33У 1700-х, 1800-х, 1900-х
-
6:33 - 6:36ніхто ним не цікавився.
-
6:37 - 6:39Протягом 30-х та 40-х років
-
6:39 - 6:41ніхто ним не цікавився.
-
6:41 - 6:43Раптово, в середині 40-х років,
-
6:43 - 6:45там здійнявся гомін.
-
6:45 - 6:47Люди зрозуміли, що скоро наступить 1950-й рік,
-
6:47 - 6:49і це може бути подією.
-
6:49 - 6:52(Сміх)
-
6:52 - 6:55Але нічого не цікавило людей сильніше у 1950-му,
-
6:55 - 6:58ніж сам 1950-й.
-
6:58 - 7:01(Сміх)
-
7:01 - 7:03Люди були одержимі.
-
7:03 - 7:05Вони не могли перестати говорити
-
7:05 - 7:08про речі, які вони зробили у 1950-му,
-
7:08 - 7:11про все, що вони планували зробити у 1950-му.
-
7:11 - 7:16про усі мрії, які вони хотіли реалізувати у 1950-му.
-
7:16 - 7:18Насправді, 1950-й був настільки захоплюючим,
-
7:18 - 7:20що протягом багатьох років після цього
-
7:20 - 7:23люди просто продовжували говорити про всі дивовижні речі, які сталися
-
7:23 - 7:25у 1951, 1952, 1953.
-
7:25 - 7:27Нарешті, у 1954-му
-
7:27 - 7:29хтось прокинувся й усвідомив,
-
7:29 - 7:33що 1950-й рік застарів.
-
7:33 - 7:35(Сміх)
-
7:35 - 7:37І просто так бульбашка лопнула.
-
7:37 - 7:39(Сміх)
-
7:39 - 7:41Історія 1950-го
-
7:41 - 7:43повторюється для кожного року, про який у нас є дані,
-
7:43 - 7:46с невеликими змінами, тому що тепер у нас є ось ці гарні графіки.
-
7:46 - 7:49Завдяки цим графікам, ми можемо вимірювати речі.
-
7:49 - 7:51Ми можемо сказати: "Як швидко це бульбашка лопне?"
-
7:51 - 7:54І виходить, що ми можемо виміряти це дуже точно.
-
7:54 - 7:57Рівняння були отримані, графіки побудовані,
-
7:57 - 7:59і кінцевим результатом стало те,
-
7:59 - 8:02що бульбашки лопаються все швидше та швидше
-
8:02 - 8:04з кожним роком.
-
8:04 - 8:09Ми втрачаємо інтерес до минулого все більш швидкими темпами.
-
8:09 - 8:11ЖМ: Невелика кар'ерна порада.
-
8:11 - 8:13Для тих із вас, хто прагне слави,
-
8:13 - 8:15можна навчитися у 25-ти найвідоміших політиків,
-
8:15 - 8:17авторів, акторів і т.д.
-
8:17 - 8:20Якщо ви хочете рано стати знаменитимм, вам потрібно бути актором,
-
8:20 - 8:22тому, що слава почне зростати близько кінця вашого третього десятку -
-
8:22 - 8:24ви досі молоді, і це чудово.
-
8:24 - 8:26Якщо ви можете трішки почекати, тоді вам потрібно стати автором,
-
8:26 - 8:28тому, що це дозволить піднятися на більші висоти,
-
8:28 - 8:30як Марк Твен, наприклад, дуже відомий.
-
8:30 - 8:32Але якщо ви хочете піднятися на саму вершину,
-
8:32 - 8:34потрібно відкласти задоволення
-
8:34 - 8:36і, звісно, стати політиком.
-
8:36 - 8:38Ви станете відомими під кінець вашого шостого десятку,
-
8:38 - 8:40та станете дуже, дуже відомими потім.
-
8:40 - 8:43Вчені також стають знаменитими, коли вони стають набагато старішими.
-
8:43 - 8:45Наприклад, біологи та фізики
-
8:45 - 8:47стають приблизно такими ж відомими як і актори.
-
8:47 - 8:50Помилкою, яку робити не варто - ставати математиком.
-
8:50 - 8:52(Сміх)
-
8:52 - 8:54У цьому випадку,
-
8:54 - 8:57ви можете думати: "Чудово. Свої накращі роботи я зроблю до тридцяти років".
-
8:57 - 8:59Але знаете що? Це нікого не цікавить.
-
8:59 - 9:02(Сміх)
-
9:02 - 9:04ЕЛА: Існують більш серьйозніші речі
-
9:04 - 9:06в N-граммах.
-
9:06 - 9:08Наприклад, ось траекторія Марка Шагала,
-
9:08 - 9:10художника, що народився у 1887-му.
-
9:10 - 9:13Виглядає, як нормальна траекторія знаменитої людини.
-
9:13 - 9:17Він стає все більш і більш знаменитим,
-
9:17 - 9:19за виключенням відомості серед німців.
-
9:19 - 9:21Якщо подивитися на німецьку мову, ви бачите щось зовсім дивне,
-
9:21 - 9:23те, що ви майже ніколи не бачите -
-
9:23 - 9:25він стає надзвичайно відомим,
-
9:25 - 9:27а потім раптом різко падає,
-
9:27 - 9:30переживає надир між 1933 і 1945,
-
9:30 - 9:33перш ніж повертається знову.
-
9:33 - 9:35Звісно, ми бачимо
-
9:35 - 9:38факт того, що Марк Шагал був єврейським художником
-
9:38 - 9:40у нацистській Німеччині.
-
9:40 - 9:42Ці сигнали
-
9:42 - 9:44настільки сильні,
-
9:44 - 9:47що нам не потрібно знати, що хтось піддавався цензурі.
-
9:47 - 9:49Ми можемо це зрозуміти,
-
9:49 - 9:51використовуючи найпростіший аналіз сигналів.
-
9:51 - 9:53Ось простий спосіб це зробити.
-
9:53 - 9:55Доцільно припустити,
-
9:55 - 9:57що чиясь слава в даний період часу
-
9:57 - 9:59повинна бути приблизно рівна середньому рівню слави до
-
9:59 - 10:01і слави після.
-
10:01 - 10:03Це те, чого ми очікуємо.
-
10:03 - 10:06Ми порівнюємо це зі славою, яку ми спостерігаємо.
-
10:06 - 10:08А потім ділимо одне на інше,
-
10:08 - 10:10щоб отримати дещо, що ми називаємо індексом пригнічення.
-
10:10 - 10:13Якщо індекс пригнічення дуже, дуже, дуже низький,
-
10:13 - 10:15то найбільш ймовірно, що ви дійсно зазнаєте утисків.
-
10:15 - 10:18Коли він дуже великий, напевне, ви отримуєте зиск від пропаганди.
-
10:19 - 10:21ЖМ: Тепер можна подивитись
-
10:21 - 10:24на розподілення індексів подавлення по всьому населенню.
-
10:24 - 10:26Наприклад, тут:
-
10:26 - 10:28це індекс подавлення для 5 тисяч людей,
-
10:28 - 10:30взятих з англійських книг, де відомо про відсутність цензури,
-
10:30 - 10:32він, приблизно, ось такий, сконцентрований біля одиниці.
-
10:32 - 10:34Очікуване співпадає з тим, що ми спостерігаємо.
-
10:34 - 10:36Це розподілення спостерігалось у Німеччині -
-
10:36 - 10:38воно зовсім інше, зміщене вліво.
-
10:38 - 10:41Люди говорили про це в вдвічі менше, ніж мали-б.
-
10:41 - 10:43Але, що більш важливо, розподілення набагато ширше.
-
10:43 - 10:46Про більшість людей, які опиняються на лівому боці цього розподілу
-
10:46 - 10:49говорять у 10 разів менше, ніж повинні.
-
10:49 - 10:51Але і багато людей на правому краю,
-
10:51 - 10:53які отримують вигоди від пропаганди.
-
10:53 - 10:56Ця картинка є характерною ознакою цензури в історії книг.
-
10:56 - 10:58ЕЛА: Культуроміка -
-
10:58 - 11:00ось як ми називаємо цей метод.
-
11:00 - 11:02Це ніби як геноміка.
-
11:02 - 11:04Хіба що, геноміка це лінза для біології,
-
11:04 - 11:07погляд через вікно послідовностей основ генома людини.
-
11:07 - 11:09Культуроміка схожа.
-
11:09 - 11:12Це застосування аналізу набору даних величезного маштабу
-
11:12 - 11:14для вивчення людської культури.
-
11:14 - 11:16А тут, замість лінзи геному,
-
11:16 - 11:19ми дивимось через лінзу оцифрованих частинок історії.
-
11:19 - 11:21Чудовим аспектом культуроміки є те,
-
11:21 - 11:23що будь-хто може нею зайнятися.
-
11:23 - 11:25Чому ж будь-хто може нею зайнятися?
-
11:25 - 11:27Кожен може робити це, тому що троє хлопців,
-
11:27 - 11:30Джон Орвант, Метт Грей та Уилл Брокман з Google,
-
11:30 - 11:32побачивши прототип засобу перегляду N-грамм,
-
11:32 - 11:34сказали: "Це так весело.
-
11:34 - 11:37Ми повинні зробити це доступним для людей".
-
11:37 - 11:39Рівно через два тижні - за два тижні до публікації нашої статті -
-
11:39 - 11:42вони запрограмували публічну версію засобу перегляду N-грам.
-
11:42 - 11:45Тепер і ви можете надрукувати будь-яке слово або речення, яке вас цікавить,
-
11:45 - 11:47і відразу подивитись його N-грами,
-
11:47 - 11:49включаючи перегляд прикладів із усіх тих різних книг,
-
11:49 - 11:51в яких зустрічається ваша N-грамма.
-
11:51 - 11:53ЖМ: В перший же день цим скористалися більше мільйона разів,
-
11:53 - 11:55і це - найкраще із усіх запитів.
-
11:55 - 11:58Люди хочуть показати себе з найкращої сторони.
-
11:58 - 12:01Але виявляється, що у 18-му столітті людей це зовсім не цікавило.
-
12:01 - 12:04Вони не хотіли показати себе з кращої [best], вони хотіли показати себе з кращої сторони [beft].
-
12:04 - 12:07Як зазвичай, це була просто помилка.
-
12:07 - 12:09Це не прагнення до посередньості,
-
12:09 - 12:12просто буква S писалася по іншому, схоже на F.
-
12:12 - 12:15Звісно, Google тоді це не дослідив,
-
12:15 - 12:18тому ми відмітили це в написаній нами науковій статті.
-
12:18 - 12:20Але виявляється, це всього лише нагадування про те,
-
12:20 - 12:22що, хоча це дуже весело,
-
12:22 - 12:24при інтерпритації цих графіків ви повинні бути дуже обережні
-
12:24 - 12:27і ви маєте керуватись базовими нормами наукових досліджень.
-
12:27 - 12:30ЕЛА: Як тільки люди цим не користувались.
-
12:30 - 12:37(Сміх)
-
12:37 - 12:39Насправда, говорити нічого не потрібно,
-
12:39 - 12:42ми просто збираємося показати вам усі слайди мовчки.
-
12:42 - 12:45Ця людина була зацікавлена в історії розчарування.
-
12:45 - 12:48Існують різні види розчарування.
-
12:48 - 12:51Якщо ви ударились великим пальцем, це "ах" з одним А.
-
12:51 - 12:53Якщо планета Земля буде знищена Вогонами,
-
12:53 - 12:55щоб звільнити місце для міжгалактичного тунелю,
-
12:55 - 12:57це "аааааааах" з вісьмома А.
-
12:57 - 12:59Ця людина вивчила усі "ахи",
-
12:59 - 13:01які містять від одного до восьми А.
-
13:01 - 13:03Виходить,
-
13:03 - 13:05найбільш рідкими "ахами" являються ті,
-
13:05 - 13:08які відносяться до найстрашніших речей,
-
13:08 - 13:11окрім, як не дивно, початку 80-х.
-
13:11 - 13:13Напевне, Рейган має до цього відношення.
-
13:13 - 13:15(Сміх)
-
13:15 - 13:18ЖМ: Ці дані можна використовувати по різному,
-
13:18 - 13:21але суть в тому, що історія оцифровується.
-
13:21 - 13:23Google почав оцифровувати 15 мільйонів книг.
-
13:23 - 13:25Це 12 відсотків усіх книг, які коли-небудь були опубліковані.
-
13:25 - 13:28Це значна частина людської культури.
-
13:28 - 13:31Але в культурі набагато більше речей: рукописи, газети,
-
13:31 - 13:33нетекстові речі, наприклад, мистецтво і картини.
-
13:33 - 13:35Все це виявляється на наших комп'ютерах,
-
13:35 - 13:37на комп'ютерах по всьому світу.
-
13:37 - 13:40І коли це трапиться, це змінить те,
-
13:40 - 13:42як ми розуміємо минуле, сьогодення та людську культуру.
-
13:42 - 13:44Дуже дякую.
-
13:44 - 13:47(Оплески)
- Title:
- Що ми дізналися з 5 мільйонів книг
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Ви бавились переглядачем Ngram з лабораторії Google? Цей захоплюючий ігровий інструмент дозволяє шукати слова та ідеї в базі даних з 5 мільйонів книг впродовж століть. Ерез Ліберман Айден та Жан-Баптист Мішель демонструють як воно працює та декілька дивовижних речей, які можна дізнатись з 500 мільярдів слів.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48