Какво научихме от 5 милиона книги
-
0:00 - 0:02Ерез Лийберман Айден: Всеки знае,
-
0:02 - 0:05че една картина струва хиляда думи.
-
0:07 - 0:09Но ние от Харвард
-
0:09 - 0:12се чудехме дали това наистина е вярно.
-
0:12 - 0:14(Смях)
-
0:14 - 0:18Затова събрахме екип от експерти,
-
0:18 - 0:20който включва Харвард, МИТ,
-
0:20 - 0:23Американския речник "Херитидж", енциклопедия "Британика"
-
0:23 - 0:25и дори гордите ни спонсори-
-
0:25 - 0:28Гугъл.
-
0:28 - 0:30Размишлявахме върху това
-
0:30 - 0:32около 4 години
-
0:32 - 0:37и стигнахме до стряскащ извод.
-
0:37 - 0:40Дами и господа, една картина не струва хиляда думи.
-
0:40 - 0:42Всъщност намерихме няколко картини,
-
0:42 - 0:47които струват 500 милиарда думи.
-
0:47 - 0:49Жан Батист Мишел: Как стигнахме до този извод?
-
0:49 - 0:51Ерез и аз търсихме начини
-
0:51 - 0:53да добием пълна представа за човешката култура
-
0:53 - 0:56и история-как се променят във времето.
-
0:56 - 0:58Много книги са били написани през вековете.
-
0:58 - 1:00Та си мислехме: "Добре, най-добрият начин да се научим от тях
-
1:00 - 1:02е да прочетем всички тези милиони книги"
-
1:02 - 1:05Разбира се, ако има степен колко невероятно е това,
-
1:05 - 1:08това трябва да е доста, доста голяма степен.
-
1:08 - 1:10Проблемът е, че има ос Х за това,
-
1:10 - 1:12която е практическата ос.
-
1:12 - 1:14Това е много, много ниско.
-
1:14 - 1:17(Аплодисменти)
-
1:17 - 1:20Сега хората използват алтернативен подход,
-
1:20 - 1:22който включва намирането на няколко източника и прочитането им много внимателно.
-
1:22 - 1:24Това е много практично, но не толкова невероятно.
-
1:24 - 1:27Това, което наистина искаш да направиш,
-
1:27 - 1:30е да стигнеш до невероятната, но практична част в тази област.
-
1:30 - 1:33Оказва се, че има компания отвъд реката на име Гугъл,
-
1:33 - 1:35която е била започнала преди няколко години проект по дигитизация,
-
1:35 - 1:37който може и да осъществи този подход.
-
1:37 - 1:39Те са направили електронен вариант на милиони книги.
-
1:39 - 1:42Това означава, че човек може да използва компютърни методи,
-
1:42 - 1:44за да чете всяка книга само с едно кликване.
-
1:44 - 1:47Това е много практично и изключително страхотно.
-
1:48 - 1:50ЕЛА: Нека Ви кажа малко повече за това, откъде идват книгите.
-
1:50 - 1:53Имало е писатели още от време оно.
-
1:53 - 1:56Тези писатели са се опитвали всячески да пишат книги.
-
1:56 - 1:58И това станало доста по-лесно
-
1:58 - 2:00с изобретяването на печатната машина преди няколко века.
-
2:00 - 2:03Оттогава писателите са получили
-
2:03 - 2:05129 милиона различни възможности
-
2:05 - 2:07да публикуват книги.
-
2:07 - 2:09Ако тези книги не бъдат изгубени някъде в историята,
-
2:09 - 2:11то те ще бъдат някъде в библиотека
-
2:11 - 2:14и много от тези книги биват намирани в библиотеките
-
2:14 - 2:16и дигитализирани от Гугъл.
-
2:16 - 2:18Гугъл вече е сканирал над 15 милиона книги до този момент.
-
2:18 - 2:21Когато Гугъл дигитализира една книга, те я правят в много добър формат.
-
2:21 - 2:23Сега имаме данните, освен това имаме метаданни.
-
2:23 - 2:26Имаме информация къде е публикувана,
-
2:26 - 2:28кой е авторът, кога е била публикувана.
-
2:28 - 2:31Какво направихме ние - прегледахме всички тези архиви
-
2:31 - 2:35и изхвърлихме всичко, което не е най-високо качество.
-
2:35 - 2:37Това, което получихме,
-
2:37 - 2:40е една колекция от 5 милиона книги,
-
2:40 - 2:43500 милиарда думи,
-
2:43 - 2:45наниз от знаци хиляда пъти по-дълъг
-
2:45 - 2:48от човешкия геном-
-
2:48 - 2:50текст, който ако бъде написан,
-
2:50 - 2:52ще е дълъг от тук до Луната и обратно,
-
2:52 - 2:54умножено по 10 пъти-
-
2:54 - 2:58истински къс от нашия културен геном.
-
2:58 - 3:00Разбира се, това, което направихме,
-
3:00 - 3:03изправени пред толкова голяма хипербола,
-
3:03 - 3:05(Смях)
-
3:05 - 3:08беше това, което всеки себеуважаващ се изследовател
-
3:08 - 3:11би направил.
-
3:11 - 3:13Взехме една страница от ХКСД
-
3:13 - 3:15и казахме: "Стойте назад!
-
3:15 - 3:17Ще изпробваваме наука."
-
3:17 - 3:19(Смях)
-
3:19 - 3:21ЖМ: Сега, разбира се, си мислим
-
3:21 - 3:23първо да направим данните свободни,
-
3:23 - 3:25за да могат хората да правят наука с тях.
-
3:25 - 3:27Мислим си какви данни можем да направим достъпни?
-
3:27 - 3:29Разбира се, че искате да вземете книгите
-
3:29 - 3:31и да пуснете пълните текстове на тези 5 милиона книги по нета.
-
3:31 - 3:33Гугъл и Джон Оруънт най-вече
-
3:33 - 3:35ни казаха едно малко уравнение, което трябва да научим.
-
3:35 - 3:38И така, имаш 5 милиона книги, което е 5 милиона автора,
-
3:38 - 3:41а 5 милиона ищци е един голям съдебен процес.
-
3:41 - 3:43И въпреки че това би било наистина много, много готино,
-
3:43 - 3:46отново, това е много, много непрактично.
-
3:46 - 3:48(Смях)
-
3:48 - 3:50Отново ние леко отстъпихме
-
3:50 - 3:53и предприехме практичния подход, който беше по-малко готин.
-
3:53 - 3:55Казахме си: "Добре, вместо да пуснем пълния текст,
-
3:55 - 3:57ще пуснем в интернет пространството статистика за книгите.
-
3:57 - 3:59Така, вземете например "Лъч щастие".
-
3:59 - 4:01това са 4 думи, наричаме това 4-грама.
-
4:01 - 4:03Ще ви кажем колко пъти точно определена 4-грама
-
4:03 - 4:05се е появявал в книги от 1801, 1802, 1803,
-
4:05 - 4:07чак до 2008.
-
4:07 - 4:09Това ни дава времеви серии,
-
4:09 - 4:11посочващи колко пъти точно това изречение е било използвано във времето.
-
4:11 - 4:14Направихме това за всички думи и фрази, които се появяват в тези книги.
-
4:14 - 4:17Това ни дава една голяма таблица от 2 милиарда реда,
-
4:17 - 4:19която ни казва как културата ни се е променяла.
-
4:19 - 4:21ЕЛА: Тези 2 милиарда реда
-
4:21 - 4:23наричаме 2 милиарда н-грами.
-
4:23 - 4:25Какво ни казват те?
-
4:25 - 4:27Индивидуалните н-грамови измерват културните тенденции.
-
4:27 - 4:29Нека ви дам един пример.
-
4:29 - 4:31Нека предположим, че аз преуспявам.
-
4:31 - 4:33Утре искам да ви кажа колко добре се справих.
-
4:33 - 4:36И така, може да кажа: "Вчера успях."
-
4:36 - 4:39Алтернативно мога да кажа: "Вчера преуспях."
-
4:39 - 4:42Добре, кое да използвам?
-
4:42 - 4:44Как да разбера?
-
4:44 - 4:46От преди около 6 месеца
-
4:46 - 4:48състоянието на изкуството в тази сфера
-
4:48 - 4:50би било такова, например,
-
4:50 - 4:52че да ви накара да отидете при психолог с невероятна коса
-
4:52 - 4:54и да кажете:
-
4:54 - 4:57"Стийв, ти си експерт по неправилни глаголи.
-
4:57 - 4:59Какво да правя?"
-
4:59 - 5:01И той би ви казал: "Повечето хора казват успях,
-
5:01 - 5:04но някои хора казват преуспях."
-
5:04 - 5:06И ти знаеше малко или много,
-
5:06 - 5:09че ако се върнеш назад 200 години
-
5:09 - 5:12и попиташ същия човек със също толкова хубава коса,
-
5:12 - 5:15(Смях)
-
5:15 - 5:17"Том, какво би трябвало да кажа?"
-
5:17 - 5:19Той би ви отговорил: "По мое време повечето хора успяваха,
-
5:19 - 5:22но някои преуспяха."
-
5:22 - 5:24Сега ще ви покажа само сухи данни.
-
5:24 - 5:28Два реда от тази таблица с 2 милиарда реда.
-
5:28 - 5:30Това, което виждате, е година след година използване
-
5:30 - 5:33на "успял" и "преуспял" през времето.
-
5:34 - 5:36Това са само 2
-
5:36 - 5:39от 2 милиарда реда.
-
5:39 - 5:41Цялата база данни
-
5:41 - 5:44е един милиард пъти по-готина от този слайд.
-
5:44 - 5:46(Смях)
-
5:46 - 5:50(Аплодисменти)
-
5:50 - 5:52ЖМ: Има много други картини, които струват 500 милиарда думи.
-
5:52 - 5:54Например, тази.
-
5:54 - 5:56Ако вземете инфлуенца,
-
5:56 - 5:58ще надникнете във времето, когато сте знаели, че
-
5:58 - 6:01големи епидемии са убивали хора по целия глобус.
-
6:01 - 6:04ЕЛА: Ако още не сте убеден
-
6:04 - 6:06нивото на морското равнище се покачва,
-
6:06 - 6:09както и атмосферният въглероден двуокис и глобалната температура.
-
6:09 - 6:12ЖМ: Може би искате да видите и точно тази н-грама
-
6:12 - 6:15и това е за да кажем на Ницше, че Господ не е мъртъв,
-
6:15 - 6:18въпреки че ще се съгласите, че ще се нуждае от по-добър публицист.
-
6:18 - 6:20(Смях)
-
6:20 - 6:23ЕЛА: Може да достигнете до някои доста абстрактни идеи с този начин на мислене.
-
6:23 - 6:25Например, нека ви кажа историята
-
6:25 - 6:27на 1950 година.
-
6:27 - 6:29Горе-долу за по-голямата част от историята
-
6:29 - 6:31на никой не му пукаше за 1950.
-
6:31 - 6:33През 1700, 1800, 1900
-
6:33 - 6:36никой не се интересуваше.
-
6:37 - 6:39През 30-те и 40-те години
-
6:39 - 6:41на никой не му пукаше.
-
6:41 - 6:43Изведнъж, по средата на 40-те
-
6:43 - 6:45започна едно шумене.
-
6:45 - 6:47Хората осъзнаха, че 1950 ще се случи
-
6:47 - 6:49и че може би ще е голямо.
-
6:49 - 6:52(Смях)
-
6:52 - 6:55Но нищо не заинтересова хората през 1950
-
6:55 - 6:58така, както годината 1950.
-
6:58 - 7:01(Смях)
-
7:01 - 7:03Хората ходеха наоколо обсебени.
-
7:03 - 7:05Не можеха да спрат да говорят
-
7:05 - 7:08за всичките неща, които са направили през тази година.
-
7:08 - 7:11за всичките неща, които са смятали да направят през 1950,
-
7:11 - 7:16за всичките мечти, които са искали да постигнат през 1950.
-
7:16 - 7:18Всъщност,1950 беше толкова пленителна,
-
7:18 - 7:20че за години напред
-
7:20 - 7:23хората продължаваха да говорят за всичките невероятни неща, които са се случили
-
7:23 - 7:25през 1951, 1952, 1953.
-
7:25 - 7:27Най-накрая през 1954
-
7:27 - 7:29някой се събуди и осъзна, че
-
7:29 - 7:331950 е минала някакси пасивно,
-
7:33 - 7:35(Смях)
-
7:35 - 7:37И просто така балонът се спука.
-
7:37 - 7:39(Смях)
-
7:39 - 7:41А историята на 1950
-
7:41 - 7:43е историята на всяка година, която имаме в архив,
-
7:43 - 7:46с малък обрат, защото сега имаме тези хубави таблици.
-
7:46 - 7:49И защото имаме тези таблици, можем да измерваме неща.
-
7:49 - 7:51Можем да кажем: "Колко бързо се пука балонът?"
-
7:51 - 7:54И се оказва, че можем да измерим това доста бързо.
-
7:54 - 7:57Изведохме уравнения, направихме диаграми
-
7:57 - 7:59и чистият резултат
-
7:59 - 8:02е, че балонът се пука по-бързо и по-бързо
-
8:02 - 8:04с всяка следваща година.
-
8:04 - 8:09Загубваме интерес в миналото все по-бързо.
-
8:09 - 8:11ЖМ: И сега един малък съвет относно кариерата.
-
8:11 - 8:13За тези от вас, които искат да станат известни,
-
8:13 - 8:15могат да се поучат от 25 от най-известните политици,
-
8:15 - 8:17писатели, актьори и т.н.
-
8:17 - 8:20Затова ако искате да станете известен на по-ранен етап, трябва да станете актьор,
-
8:20 - 8:22защото при тях славата расте от края на 20-те им години.
-
8:22 - 8:24Все още сте млад, невероятно е.
-
8:24 - 8:26Ако може да чакате, трябва да станете писател,
-
8:26 - 8:28защото тогава се изкачвате до големи висоти,
-
8:28 - 8:30като Марк Твен, например: изключително известен.
-
8:30 - 8:32Но ако искате да достигнете до самия връх,
-
8:32 - 8:34трябва да отложите овациите
-
8:34 - 8:36и, разбира се, да станете политик.
-
8:36 - 8:38Така ще станете известен към края на 50-те си години
-
8:38 - 8:40и ще станете много, много известен след това.
-
8:40 - 8:43Учените също стават популярни, когато остареят много.
-
8:43 - 8:45Например, биолози и физици
-
8:45 - 8:47стават почти толкова известни, колкото актьорите.
-
8:47 - 8:50Една грешка, която не трябва да допускте, е да станете математици.
-
8:50 - 8:52(Смях)
-
8:52 - 8:54Ако направите това,
-
8:54 - 8:57може да си помислите: "О, страхотно, ще създам най-добрия си труд, когато съм на 20."
-
8:57 - 8:59Но познайте какво, на никого няма да му пука.
-
8:59 - 9:02(Смях)
-
9:02 - 9:04ЕЛА: Има по-изтрезвяващи бележки
-
9:04 - 9:06сред н-грамите.
-
9:06 - 9:08Например, ето траекторията на Марк Шагал,
-
9:08 - 9:10артист, роден през 1887.
-
9:10 - 9:13И това изглежда като нормалната траектория на един известен човек.
-
9:13 - 9:17Той става по-известен, и по-известен, и по-известен
-
9:17 - 9:19освен ако не гледате в немския език.
-
9:19 - 9:21Ако гледате в немския език, ще забележите нещо много странно,
-
9:21 - 9:23нещо, което почти не се забелязва никъде,
-
9:23 - 9:25е това че той става много известен
-
9:25 - 9:27и изведнъж тръгва стремглаво надолу,
-
9:27 - 9:30и стига до най-ниската точка между 1933 и 1945,
-
9:30 - 9:33преди да се отблъсне отново.
-
9:33 - 9:35И разбира се, това, което наблюдаваме,
-
9:35 - 9:38е фактът, че Марк Шагал е бил еврейски артист
-
9:38 - 9:40в нацистка Германия.
-
9:40 - 9:42Тези сигнали
-
9:42 - 9:44са толкова силни,
-
9:44 - 9:47че не ни трябва да знаем, че някой е бил цензуриран.
-
9:47 - 9:49Всъщност можем да достигнем до този извод,
-
9:49 - 9:51като използваме елементарно преработване на сигналите.
-
9:51 - 9:53Ето един лесен начин да го направите.
-
9:53 - 9:55Е, разумното очакване
-
9:55 - 9:57е, че славата на някого в даден период от време
-
9:57 - 9:59би трябвало да бъде грубо средното от тяхната слава преди
-
9:59 - 10:01и след.
-
10:01 - 10:03Та, това е горе-долу какво очакваме.
-
10:03 - 10:06И сравняваме това със славата, която наблюдаваме
-
10:06 - 10:08и просто разделяме едната на другата,
-
10:08 - 10:10за да получим нещо, което наричаме индекс на потискане.
-
10:10 - 10:13Ако този индекс е много, много, много малък,
-
10:13 - 10:15тогава може би сте потиснати.
-
10:15 - 10:18Ако е много голям, тогава най-вероятно се възползвате от пропаганда.
-
10:19 - 10:21ЖМ: Сега може да наблюдавате
-
10:21 - 10:24разпределението на тези индекси сред цели народи.
-
10:24 - 10:26Например, тук-
-
10:26 - 10:28този индекс на потискане е за 5 000 души,
-
10:28 - 10:30избрани от английски книги, къдете няма познат натиск-
-
10:30 - 10:32би било така-силно концентриран върху един.
-
10:32 - 10:34Това, което очаквате, е горе-долу това, което наблюдавате.
-
10:34 - 10:36Това е разпределение, както в Германия-
-
10:36 - 10:38много различно, изместено вляво.
-
10:38 - 10:41Хората говореха за него 2 пъти по-малко, а и така е трябвало да бъде.
-
10:41 - 10:43Но много по-важно е, че разпространението е трябвало да бъде по-обширно.
-
10:43 - 10:46Има много хора, които попадат в крайно ляво при това разпределение.
-
10:46 - 10:49И за тях се е говорило 10 пъти по-малко, отколкото е трябвало.
-
10:49 - 10:51Но пък тогава много хора в крайно дясно
-
10:51 - 10:53изглежда имат полза от пропаганда.
-
10:53 - 10:56Тази картина е характерна черта за цензура в книгите.
-
10:56 - 10:58ЕЛА: Наричаме културомикс
-
10:58 - 11:00този метод.
-
11:00 - 11:02Прилича на геномикс.
-
11:02 - 11:04Само че геномиксът е леща в биологията
-
11:04 - 11:07през прозорецът на редицата от бази в човешкия геном.
-
11:07 - 11:09Културомиксът е подобен.
-
11:09 - 11:12Това е приложението на огромна база данни анализи
-
11:12 - 11:14за изучаване на човешката култура.
-
11:14 - 11:16Тук, вместо през леща на геном,
-
11:16 - 11:19използваме леща на дигитализирани късове на човешката история.
-
11:19 - 11:21Невероятното нещо на културомиксА
-
11:21 - 11:23е това, че всеки може да го прави.
-
11:23 - 11:25А защо това е така?
-
11:25 - 11:27Всеки може да го прави, защото 3 момчета,
-
11:27 - 11:30Джон Оруънт, Мат Грей и Уил Брокман в Гугъл,
-
11:30 - 11:32видяха прототипа на Нграм Вюър,
-
11:32 - 11:34и казаха: "Това е толквоа забавно.
-
11:34 - 11:37Трябва да направим това достъпно за хората."
-
11:37 - 11:39И така за 2 седмици -2 седмици, преди да ни излезе докладът,
-
11:39 - 11:42те измислиха версия на програмата за широката публика.
-
11:42 - 11:45И така всеки може да напише думата, която го интересува,
-
11:45 - 11:47и да види нейната н-грама веднага.
-
11:47 - 11:49А също така и да търси примери на най-различни книги,
-
11:49 - 11:51в които се появява н-грамата.
-
11:51 - 11:53ЖМ: Това беше изпробвано над милион пъти на първия ден
-
11:53 - 11:55и това е наистина най-хубавото от всички питания.
-
11:55 - 11:58Хората, които иската да бъдат най-добри, слагат най-добрия си крак напред.
-
11:58 - 12:01Но изглежда през 18 век на хората не им е пукало за това изобщо.
-
12:01 - 12:04Те не са искали да са най-добре, а са искали да са най-добрите.
-
12:04 - 12:07Излиза, че просто е станала грешка.
-
12:07 - 12:09Не е този стремеж за посредственост,
-
12:09 - 12:12а просто С се е изписвало различно, малко като Ф.
-
12:12 - 12:15Но разбира се, Гугъл не са знаели това на времето,
-
12:15 - 12:18затова отбелязахме това в научната статия, която написахме.
-
12:18 - 12:20Но изглежда това само напомня,
-
12:20 - 12:22че въпреки това да е много забавно,
-
12:22 - 12:24когато тълкувате тези графи, трябва да сте много внимателни,
-
12:24 - 12:27и трябва да усвоите основните стандарти в науките.
-
12:27 - 12:30ЕЛА: Хората са използвали това за всякакви цели.
-
12:30 - 12:37(Смях)
-
12:37 - 12:39Всъщност, няма да приказваме,
-
12:39 - 12:42а просто ще ви покажем всичките слайдове и ще замълчим.
-
12:42 - 12:45Този човек се е интересувал от историята на раздразнението.
-
12:45 - 12:48Има различни видове раздразнение.
-
12:48 - 12:51Ако си прободеш пръста на крака, това е "Ауч" с едно A.
-
12:51 - 12:53Ако Земята бъде унищожена от Вогони,
-
12:53 - 12:55за да направят път за междузвезден път,
-
12:55 - 12:57това е "Aааааааргхх" с 8 А-та.
-
12:57 - 12:59Този човек изучава всички А-та,
-
12:59 - 13:01от едно до осем.
-
13:01 - 13:03Излиза, че
-
13:03 - 13:05по-малко използваното "аргх"
-
13:05 - 13:08са, разбира се, тези, които съответстват на неща, които са по-дразнещи,
-
13:08 - 13:11освен, странно, през 80-те.
-
13:11 - 13:13Мислим, че това има нещо общо с Рейгън.
-
13:13 - 13:15(Смях)
-
13:15 - 13:18ЖМ: Тези данни имат много приложения,
-
13:18 - 13:21но най-важното е, че историческте архиви се дигитализират.
-
13:21 - 13:23Гугъл е започнал да прави това с 15 милиона книги.
-
13:23 - 13:25Това са 12% от всички публикувани книги.
-
13:25 - 13:28Това е огромен къс от човешката култура.
-
13:28 - 13:31Има много повече в културата: ръкописи, вестници,
-
13:31 - 13:33неща, които не са текстове, като изкуството и картините.
-
13:33 - 13:35Всичко това е на нашите компютри,
-
13:35 - 13:37на компютри по целия свят.
-
13:37 - 13:40И когато това се случи, това ще промени начина ни на
-
13:40 - 13:42разбиране на нашето минало, настояще и бъдеще.
-
13:42 - 13:44Благодаря ви много.
-
13:44 - 13:47(Аплодисменти)
- Title:
- Какво научихме от 5 милиона книги
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Играли ли сте някога с Гугъл Лабс "Нграм Вюър"? Това е пристрастяващ инструмент, който ви позволява да търсите думи и идеи в датабаза от 5 милиона книги още от миналите векове. Ерез Лийберман Айден и Жан-Батист Мишел ни показват как става, а и някои от невероятните неща, които можете да научите от 500 милиарда думи.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48