Ерез Ліберман Айден: Усі знають,
що зображення варте тисячі слів.
Але ми у Гарварді
сумнівалися, чи це є правдою.
(Сміх)
Тому ми зібрали команду експертів
з Гарварду, МТІ,
Словника Американської Спадщини, Енциклопедії Британіка,
та навіть нашого величного спонсора
Google.
Ми обмірковували це
приблизно чотири роки.
І ми дійшли до вражаючого висновку.
Леді та джентельмени, зображення не варте тисячі слів.
Направду, ми знайшли певні зображення,
що варті більше 500 мільярдів слів.
Жан-Баптист Мішель: То як ми зробили такий висновок?
Ерез та я обмірковували те,
як отримати загальний план людської культури та історії:
що змінюється з плином часу.
Так багато книг було написано за довгі роки.
Тож ми вважали, що найкращий шлях вивчити їх -
це прочитати всі ці мільйони книг.
Звичайно, якби була така шкала, щоб показати наскільки це круто
то це було б вийнятково, виключно круто
Проблема в тому, що існує вісь Х,
практична вісь.
Це дуже, дуже низько.
(Аплодисменти)
Тепер люди мають тенденцію використовувати альтернативний підхід -
взяти декілька джерел та дуже ретельно їх прочитати.
Це дуже практично, але не так круто.
Чого насправді хочеться
дістатися практичної, але крутої частини цього простору.
Виявляється, навпроти, через річку, є компанія Google,
яка кілька років тому розпочала проект оцифровки,
що може дозволити такий підхід.
Вони оцифрували мільйони книг.
Це значить, що можна використовувати обчислювальні методи
для того, щоб прочитати всі ці книги одним натисненням кнопки.
Це дуже практично і неймовірно круто.
Ела: Давайте я розповім про походження книг.
З незапам'ятних часів були автори.
Ці автори прагнули писати книги.
І це стало значно простіше
з розвитком друкарства кілька століть тому.
З тих пір, автори перемогли
у 129 мільйонів різних випадків
видання книг.
Якщо ці книги не канули в історію,
вони зберігаються десь в якійсь бібліотеці,
і більшість з цих книг беруться з бібліотек
та оцифровуються компанією Google,
яка на сьогоднішній день відсканувала 15 мільйонів книг.
Коли компанія Google оцифровує книгу, вони зберігають її у дуже зручному форматі.
У нас є дані та метадані.
У нас є інформація про такі речі, де це було опубліковано,
хто автор книги, коли відбулася публікація.
Ми пройшлись по усім цим записам,
та виключили всі, окрім даних найкращої якості.
Таким чином,
залишилась колекція з 5 мільйонів книг,
500 мільярдів слів,
рядок символів у тисячу разів довший
ніж геном людини -
якщо написати цей текст,
він простягнеться до Місяця та назад
10 разів -
справжній уламок нашого культурного геному.
Звісно, ми зробили,
коли зіштовхнулися з такою обурливою гіперболою ...
(Сміх)
те, що зробив би будь-який
поважаючий себе вчений.
Ми взяли сторінку з XKСD
та сказали: "Відійдіть,
ми збираємося зайнятися наукою".
(Сміх)
ЖМ: Звісно, ми подумали,
що ж, давайте спочатку викладемо дані
для людей, що опрацюють їх науково.
Тож ми подумали, які дані ми можемо опублікувати?
Звісно, хотілося взяти
та видати усі тексти цих пяти мільйонів книг.
Google та особоливо Джон Орвант
навчили нас невеликому рівнянню.
Отже, є п'ять мільйонів книг - це п'ять мільйонів авторів
та п'ять мільйонів позивачів - це величезна судова тяганина.
І, хоча це було б просто неймовірно круто,
знову ж таки, це дуже, просто нереально непрактично.
(Сміх)
Що ж, ми здається як піддалися
та підійшли до справи дуже практично, хоча й не так круто.
Ми сказали, що замість публікації повних текстів,
ми опублікуємо статистику про книги.
Візьмемо, для прикладу, «A gleam of happiness».
Ці чотири слова ми називаємо four-gram.
Ми повідомимо вам, як часто цей конкретний four-gram
з'являється в книгах у 1801, 1802, 1803,
і так далі аж до 2008.
Це дає нам часовий ряд
частоти використання даної фрази впродовж часу.
Ми робимо це для усіх слів та фраз, що з'являються у цих книгах,
і це дає нам велику таблицю з двох мільярдів рядків,
які говорять нам, яким чином змінювалась культура.
ЕЛА: Ці два мільярди рядків,
ми називаємо їх два мільярди n-gram.
Що вони нам говорять?
Окремі n-gram'и вимірюють культурні тенденції.
Дозвольте навести приклад.
Давайте припустимо, що я процвітаю,
і завтра хочу розповісти вам, як мені було добре.
Я можу сказати: "Учора я процвітав [throve]".
Крім того, я можу сказати: "Учора я процвітав [thrived]".
Який варіант мені використовувати?
Як дізнатися?
Приблизно шість місяців тому,
стан справ у цій області
був таким, що можна було, наприклад,
підійти до психолога з приголомшливою зачіскою
та запитати:
"Стів, ти експерт з неправильних дієслів.
Що мені робити?"
А він би відповів: "Більшість людей сказали б процвітав [thrive],
та лише деякі скажуть процвітав [throve]".
Як більш-менш відомо,
якщо повернутися на 200 років тому назад,
та запитати ось цього політика з не менш приголомшливою зачіскою,
(Сміх)
"Том, як мені потрібно говорити?"
Він би відповів: "У мої часи більшість людей процвітала [throve],
але деякі з них процвітали [thrived]".
Я покажу вам неопрацьовані дані.
Два рядки з таблиці в два мільярди рядків.
Тут показана, частота слів
"процвітав" [thrived] та "процвітав" [throve] протягом часу.
І це лише два рядки
з двох мільярдів.
Весь набір даних
в мільярд разів дивовижніший, ніж цей слайд.
(Сміх)
(Аплодисменти)
ЖМ: Існує багато інших картинок, котрі вартують 500 мільярдів слів.
Наприклад, ось ця.
Якщо взяти грипп,
ви побачите піки на той час,
коли епідемії грипу вбивали людей по всьому світу.
ЕЛА: Якщо ви досі не переконані,
рівень моря піднімається,
а також вміст СО2 в атмосфері та глобальна температура.
ЖМ: А також можна подивитись на оць цю N-граму,
та сказати Ніцше, що Бог не мертвий,
хоча можна погодитись, що йому потрібен кращий публіцист.
(Сміх)
ЕЛА: За допомогою цих речей ви можете отримати певні абстрактні уявлення.
Наприклад, дозвольте розповісти
історію 1950-го року.
Впродовж більшої частини історії
ніхто не згадував про 1950-й.
У 1700-х, 1800-х, 1900-х
ніхто ним не цікавився.
Протягом 30-х та 40-х років
ніхто ним не цікавився.
Раптово, в середині 40-х років,
там здійнявся гомін.
Люди зрозуміли, що скоро наступить 1950-й рік,
і це може бути подією.
(Сміх)
Але нічого не цікавило людей сильніше у 1950-му,
ніж сам 1950-й.
(Сміх)
Люди були одержимі.
Вони не могли перестати говорити
про речі, які вони зробили у 1950-му,
про все, що вони планували зробити у 1950-му.
про усі мрії, які вони хотіли реалізувати у 1950-му.
Насправді, 1950-й був настільки захоплюючим,
що протягом багатьох років після цього
люди просто продовжували говорити про всі дивовижні речі, які сталися
у 1951, 1952, 1953.
Нарешті, у 1954-му
хтось прокинувся й усвідомив,
що 1950-й рік застарів.
(Сміх)
І просто так бульбашка лопнула.
(Сміх)
Історія 1950-го
повторюється для кожного року, про який у нас є дані,
с невеликими змінами, тому що тепер у нас є ось ці гарні графіки.
Завдяки цим графікам, ми можемо вимірювати речі.
Ми можемо сказати: "Як швидко це бульбашка лопне?"
І виходить, що ми можемо виміряти це дуже точно.
Рівняння були отримані, графіки побудовані,
і кінцевим результатом стало те,
що бульбашки лопаються все швидше та швидше
з кожним роком.
Ми втрачаємо інтерес до минулого все більш швидкими темпами.
ЖМ: Невелика кар'ерна порада.
Для тих із вас, хто прагне слави,
можна навчитися у 25-ти найвідоміших політиків,
авторів, акторів і т.д.
Якщо ви хочете рано стати знаменитимм, вам потрібно бути актором,
тому, що слава почне зростати близько кінця вашого третього десятку -
ви досі молоді, і це чудово.
Якщо ви можете трішки почекати, тоді вам потрібно стати автором,
тому, що це дозволить піднятися на більші висоти,
як Марк Твен, наприклад, дуже відомий.
Але якщо ви хочете піднятися на саму вершину,
потрібно відкласти задоволення
і, звісно, стати політиком.
Ви станете відомими під кінець вашого шостого десятку,
та станете дуже, дуже відомими потім.
Вчені також стають знаменитими, коли вони стають набагато старішими.
Наприклад, біологи та фізики
стають приблизно такими ж відомими як і актори.
Помилкою, яку робити не варто - ставати математиком.
(Сміх)
У цьому випадку,
ви можете думати: "Чудово. Свої накращі роботи я зроблю до тридцяти років".
Але знаете що? Це нікого не цікавить.
(Сміх)
ЕЛА: Існують більш серьйозніші речі
в N-граммах.
Наприклад, ось траекторія Марка Шагала,
художника, що народився у 1887-му.
Виглядає, як нормальна траекторія знаменитої людини.
Він стає все більш і більш знаменитим,
за виключенням відомості серед німців.
Якщо подивитися на німецьку мову, ви бачите щось зовсім дивне,
те, що ви майже ніколи не бачите -
він стає надзвичайно відомим,
а потім раптом різко падає,
переживає надир між 1933 і 1945,
перш ніж повертається знову.
Звісно, ми бачимо
факт того, що Марк Шагал був єврейським художником
у нацистській Німеччині.
Ці сигнали
настільки сильні,
що нам не потрібно знати, що хтось піддавався цензурі.
Ми можемо це зрозуміти,
використовуючи найпростіший аналіз сигналів.
Ось простий спосіб це зробити.
Доцільно припустити,
що чиясь слава в даний період часу
повинна бути приблизно рівна середньому рівню слави до
і слави після.
Це те, чого ми очікуємо.
Ми порівнюємо це зі славою, яку ми спостерігаємо.
А потім ділимо одне на інше,
щоб отримати дещо, що ми називаємо індексом пригнічення.
Якщо індекс пригнічення дуже, дуже, дуже низький,
то найбільш ймовірно, що ви дійсно зазнаєте утисків.
Коли він дуже великий, напевне, ви отримуєте зиск від пропаганди.
ЖМ: Тепер можна подивитись
на розподілення індексів подавлення по всьому населенню.
Наприклад, тут:
це індекс подавлення для 5 тисяч людей,
взятих з англійських книг, де відомо про відсутність цензури,
він, приблизно, ось такий, сконцентрований біля одиниці.
Очікуване співпадає з тим, що ми спостерігаємо.
Це розподілення спостерігалось у Німеччині -
воно зовсім інше, зміщене вліво.
Люди говорили про це в вдвічі менше, ніж мали-б.
Але, що більш важливо, розподілення набагато ширше.
Про більшість людей, які опиняються на лівому боці цього розподілу
говорять у 10 разів менше, ніж повинні.
Але і багато людей на правому краю,
які отримують вигоди від пропаганди.
Ця картинка є характерною ознакою цензури в історії книг.
ЕЛА: Культуроміка -
ось як ми називаємо цей метод.
Це ніби як геноміка.
Хіба що, геноміка це лінза для біології,
погляд через вікно послідовностей основ генома людини.
Культуроміка схожа.
Це застосування аналізу набору даних величезного маштабу
для вивчення людської культури.
А тут, замість лінзи геному,
ми дивимось через лінзу оцифрованих частинок історії.
Чудовим аспектом культуроміки є те,
що будь-хто може нею зайнятися.
Чому ж будь-хто може нею зайнятися?
Кожен може робити це, тому що троє хлопців,
Джон Орвант, Метт Грей та Уилл Брокман з Google,
побачивши прототип засобу перегляду N-грамм,
сказали: "Це так весело.
Ми повинні зробити це доступним для людей".
Рівно через два тижні - за два тижні до публікації нашої статті -
вони запрограмували публічну версію засобу перегляду N-грам.
Тепер і ви можете надрукувати будь-яке слово або речення, яке вас цікавить,
і відразу подивитись його N-грами,
включаючи перегляд прикладів із усіх тих різних книг,
в яких зустрічається ваша N-грамма.
ЖМ: В перший же день цим скористалися більше мільйона разів,
і це - найкраще із усіх запитів.
Люди хочуть показати себе з найкращої сторони.
Але виявляється, що у 18-му столітті людей це зовсім не цікавило.
Вони не хотіли показати себе з кращої [best], вони хотіли показати себе з кращої сторони [beft].
Як зазвичай, це була просто помилка.
Це не прагнення до посередньості,
просто буква S писалася по іншому, схоже на F.
Звісно, Google тоді це не дослідив,
тому ми відмітили це в написаній нами науковій статті.
Але виявляється, це всього лише нагадування про те,
що, хоча це дуже весело,
при інтерпритації цих графіків ви повинні бути дуже обережні
і ви маєте керуватись базовими нормами наукових досліджень.
ЕЛА: Як тільки люди цим не користувались.
(Сміх)
Насправда, говорити нічого не потрібно,
ми просто збираємося показати вам усі слайди мовчки.
Ця людина була зацікавлена в історії розчарування.
Існують різні види розчарування.
Якщо ви ударились великим пальцем, це "ах" з одним А.
Якщо планета Земля буде знищена Вогонами,
щоб звільнити місце для міжгалактичного тунелю,
це "аааааааах" з вісьмома А.
Ця людина вивчила усі "ахи",
які містять від одного до восьми А.
Виходить,
найбільш рідкими "ахами" являються ті,
які відносяться до найстрашніших речей,
окрім, як не дивно, початку 80-х.
Напевне, Рейган має до цього відношення.
(Сміх)
ЖМ: Ці дані можна використовувати по різному,
але суть в тому, що історія оцифровується.
Google почав оцифровувати 15 мільйонів книг.
Це 12 відсотків усіх книг, які коли-небудь були опубліковані.
Це значна частина людської культури.
Але в культурі набагато більше речей: рукописи, газети,
нетекстові речі, наприклад, мистецтво і картини.
Все це виявляється на наших комп'ютерах,
на комп'ютерах по всьому світу.
І коли це трапиться, це змінить те,
як ми розуміємо минуле, сьогодення та людську культуру.
Дуже дякую.
(Оплески)