Какво научихме от 5 милиона книги

Edit subtitles

0:00 - 0:02

Ерез Лийберман Айден: Всеки знае,
0:02 - 0:05

че една картина струва хиляда думи.
0:07 - 0:09

Но ние от Харвард
0:09 - 0:12

се чудехме дали това наистина е вярно.
0:12 - 0:14

(Смях)
0:14 - 0:18

Затова събрахме екип от експерти,
0:18 - 0:20

който включва Харвард, МИТ,
0:20 - 0:23

Американския речник "Херитидж", енциклопедия "Британика"
0:23 - 0:25

и дори гордите ни спонсори-
0:25 - 0:28

Гугъл.
0:28 - 0:30

Размишлявахме върху това
0:30 - 0:32

около 4 години
0:32 - 0:37

и стигнахме до стряскащ извод.
0:37 - 0:40

Дами и господа, една картина не струва хиляда думи.
0:40 - 0:42

Всъщност намерихме няколко картини,
0:42 - 0:47

които струват 500 милиарда думи.
0:47 - 0:49

Жан Батист Мишел: Как стигнахме до този извод?
0:49 - 0:51

Ерез и аз търсихме начини
0:51 - 0:53

да добием пълна представа за човешката култура
0:53 - 0:56

и история-как се променят във времето.
0:56 - 0:58

Много книги са били написани през вековете.
0:58 - 1:00

Та си мислехме: "Добре, най-добрият начин да се научим от тях
1:00 - 1:02

е да прочетем всички тези милиони книги"
1:02 - 1:05

Разбира се, ако има степен колко невероятно е това,
1:05 - 1:08

това трябва да е доста, доста голяма степен.
1:08 - 1:10

Проблемът е, че има ос Х за това,
1:10 - 1:12

която е практическата ос.
1:12 - 1:14

Това е много, много ниско.
1:14 - 1:17

(Аплодисменти)
1:17 - 1:20

Сега хората използват алтернативен подход,
1:20 - 1:22

който включва намирането на няколко източника и прочитането им много внимателно.
1:22 - 1:24

Това е много практично, но не толкова невероятно.
1:24 - 1:27

Това, което наистина искаш да направиш,
1:27 - 1:30

е да стигнеш до невероятната, но практична част в тази област.
1:30 - 1:33

Оказва се, че има компания отвъд реката на име Гугъл,
1:33 - 1:35

която е била започнала преди няколко години проект по дигитизация,
1:35 - 1:37

който може и да осъществи този подход.
1:37 - 1:39

Те са направили електронен вариант на милиони книги.
1:39 - 1:42

Това означава, че човек може да използва компютърни методи,
1:42 - 1:44

за да чете всяка книга само с едно кликване.
1:44 - 1:47

Това е много практично и изключително страхотно.
1:48 - 1:50

ЕЛА: Нека Ви кажа малко повече за това, откъде идват книгите.
1:50 - 1:53

Имало е писатели още от време оно.
1:53 - 1:56

Тези писатели са се опитвали всячески да пишат книги.
1:56 - 1:58

И това станало доста по-лесно
1:58 - 2:00

с изобретяването на печатната машина преди няколко века.
2:00 - 2:03

Оттогава писателите са получили
2:03 - 2:05

129 милиона различни възможности
2:05 - 2:07

да публикуват книги.
2:07 - 2:09

Ако тези книги не бъдат изгубени някъде в историята,
2:09 - 2:11

то те ще бъдат някъде в библиотека
2:11 - 2:14

и много от тези книги биват намирани в библиотеките
2:14 - 2:16

и дигитализирани от Гугъл.
2:16 - 2:18

Гугъл вече е сканирал над 15 милиона книги до този момент.
2:18 - 2:21

Когато Гугъл дигитализира една книга, те я правят в много добър формат.
2:21 - 2:23

Сега имаме данните, освен това имаме метаданни.
2:23 - 2:26

Имаме информация къде е публикувана,
2:26 - 2:28

кой е авторът, кога е била публикувана.
2:28 - 2:31

Какво направихме ние - прегледахме всички тези архиви
2:31 - 2:35

и изхвърлихме всичко, което не е най-високо качество.
2:35 - 2:37

Това, което получихме,
2:37 - 2:40

е една колекция от 5 милиона книги,
2:40 - 2:43

500 милиарда думи,
2:43 - 2:45

наниз от знаци хиляда пъти по-дълъг
2:45 - 2:48

от човешкия геном-
2:48 - 2:50

текст, който ако бъде написан,
2:50 - 2:52

ще е дълъг от тук до Луната и обратно,
2:52 - 2:54

умножено по 10 пъти-
2:54 - 2:58

истински къс от нашия културен геном.
2:58 - 3:00

Разбира се, това, което направихме,
3:00 - 3:03

изправени пред толкова голяма хипербола,
3:03 - 3:05

(Смях)
3:05 - 3:08

беше това, което всеки себеуважаващ се изследовател
3:08 - 3:11

би направил.
3:11 - 3:13

Взехме една страница от ХКСД
3:13 - 3:15

и казахме: "Стойте назад!
3:15 - 3:17

Ще изпробваваме наука."
3:17 - 3:19

(Смях)
3:19 - 3:21

ЖМ: Сега, разбира се, си мислим
3:21 - 3:23

първо да направим данните свободни,
3:23 - 3:25

за да могат хората да правят наука с тях.
3:25 - 3:27

Мислим си какви данни можем да направим достъпни?
3:27 - 3:29

Разбира се, че искате да вземете книгите
3:29 - 3:31

и да пуснете пълните текстове на тези 5 милиона книги по нета.
3:31 - 3:33

Гугъл и Джон Оруънт най-вече
3:33 - 3:35

ни казаха едно малко уравнение, което трябва да научим.
3:35 - 3:38

И така, имаш 5 милиона книги, което е 5 милиона автора,
3:38 - 3:41

а 5 милиона ищци е един голям съдебен процес.
3:41 - 3:43

И въпреки че това би било наистина много, много готино,
3:43 - 3:46

отново, това е много, много непрактично.
3:46 - 3:48

(Смях)
3:48 - 3:50

Отново ние леко отстъпихме
3:50 - 3:53

и предприехме практичния подход, който беше по-малко готин.
3:53 - 3:55

Казахме си: "Добре, вместо да пуснем пълния текст,
3:55 - 3:57

ще пуснем в интернет пространството статистика за книгите.
3:57 - 3:59

Така, вземете например "Лъч щастие".
3:59 - 4:01

това са 4 думи, наричаме това 4-грама.
4:01 - 4:03

Ще ви кажем колко пъти точно определена 4-грама
4:03 - 4:05

се е появявал в книги от 1801, 1802, 1803,
4:05 - 4:07

чак до 2008.
4:07 - 4:09

Това ни дава времеви серии,
4:09 - 4:11

посочващи колко пъти точно това изречение е било използвано във времето.
4:11 - 4:14

Направихме това за всички думи и фрази, които се появяват в тези книги.
4:14 - 4:17

Това ни дава една голяма таблица от 2 милиарда реда,
4:17 - 4:19

която ни казва как културата ни се е променяла.
4:19 - 4:21

ЕЛА: Тези 2 милиарда реда
4:21 - 4:23

наричаме 2 милиарда н-грами.
4:23 - 4:25

Какво ни казват те?
4:25 - 4:27

Индивидуалните н-грамови измерват културните тенденции.
4:27 - 4:29

Нека ви дам един пример.
4:29 - 4:31

Нека предположим, че аз преуспявам.
4:31 - 4:33

Утре искам да ви кажа колко добре се справих.
4:33 - 4:36

И така, може да кажа: "Вчера успях."
4:36 - 4:39

Алтернативно мога да кажа: "Вчера преуспях."
4:39 - 4:42

Добре, кое да използвам?
4:42 - 4:44

Как да разбера?
4:44 - 4:46

От преди около 6 месеца
4:46 - 4:48

състоянието на изкуството в тази сфера
4:48 - 4:50

би било такова, например,
4:50 - 4:52

че да ви накара да отидете при психолог с невероятна коса
4:52 - 4:54

и да кажете:
4:54 - 4:57

"Стийв, ти си експерт по неправилни глаголи.
4:57 - 4:59

Какво да правя?"
4:59 - 5:01

И той би ви казал: "Повечето хора казват успях,
5:01 - 5:04

но някои хора казват преуспях."
5:04 - 5:06

И ти знаеше малко или много,
5:06 - 5:09

че ако се върнеш назад 200 години
5:09 - 5:12

и попиташ същия човек със също толкова хубава коса,
5:12 - 5:15

(Смях)
5:15 - 5:17

"Том, какво би трябвало да кажа?"
5:17 - 5:19

Той би ви отговорил: "По мое време повечето хора успяваха,
5:19 - 5:22

но някои преуспяха."
5:22 - 5:24

Сега ще ви покажа само сухи данни.
5:24 - 5:28

Два реда от тази таблица с 2 милиарда реда.
5:28 - 5:30

Това, което виждате, е година след година използване
5:30 - 5:33

на "успял" и "преуспял" през времето.
5:34 - 5:36

Това са само 2
5:36 - 5:39

от 2 милиарда реда.
5:39 - 5:41

Цялата база данни
5:41 - 5:44

е един милиард пъти по-готина от този слайд.
5:44 - 5:46

(Смях)
5:46 - 5:50

(Аплодисменти)
5:50 - 5:52

ЖМ: Има много други картини, които струват 500 милиарда думи.
5:52 - 5:54

Например, тази.
5:54 - 5:56

Ако вземете инфлуенца,
5:56 - 5:58

ще надникнете във времето, когато сте знаели, че
5:58 - 6:01

големи епидемии са убивали хора по целия глобус.
6:01 - 6:04

ЕЛА: Ако още не сте убеден
6:04 - 6:06

нивото на морското равнище се покачва,
6:06 - 6:09

както и атмосферният въглероден двуокис и глобалната температура.
6:09 - 6:12

ЖМ: Може би искате да видите и точно тази н-грама
6:12 - 6:15

и това е за да кажем на Ницше, че Господ не е мъртъв,
6:15 - 6:18

въпреки че ще се съгласите, че ще се нуждае от по-добър публицист.
6:18 - 6:20

(Смях)
6:20 - 6:23

ЕЛА: Може да достигнете до някои доста абстрактни идеи с този начин на мислене.
6:23 - 6:25

Например, нека ви кажа историята
6:25 - 6:27

на 1950 година.
6:27 - 6:29

Горе-долу за по-голямата част от историята
6:29 - 6:31

на никой не му пукаше за 1950.
6:31 - 6:33

През 1700, 1800, 1900
6:33 - 6:36

никой не се интересуваше.
6:37 - 6:39

През 30-те и 40-те години
6:39 - 6:41

на никой не му пукаше.
6:41 - 6:43

Изведнъж, по средата на 40-те
6:43 - 6:45

започна едно шумене.
6:45 - 6:47

Хората осъзнаха, че 1950 ще се случи
6:47 - 6:49

и че може би ще е голямо.
6:49 - 6:52

(Смях)
6:52 - 6:55

Но нищо не заинтересова хората през 1950
6:55 - 6:58

така, както годината 1950.
6:58 - 7:01

(Смях)
7:01 - 7:03

Хората ходеха наоколо обсебени.
7:03 - 7:05

Не можеха да спрат да говорят
7:05 - 7:08

за всичките неща, които са направили през тази година.
7:08 - 7:11

за всичките неща, които са смятали да направят през 1950,
7:11 - 7:16

за всичките мечти, които са искали да постигнат през 1950.
7:16 - 7:18

Всъщност,1950 беше толкова пленителна,
7:18 - 7:20

че за години напред
7:20 - 7:23

хората продължаваха да говорят за всичките невероятни неща, които са се случили
7:23 - 7:25

през 1951, 1952, 1953.
7:25 - 7:27

Най-накрая през 1954
7:27 - 7:29

някой се събуди и осъзна, че
7:29 - 7:33

1950 е минала някакси пасивно,
7:33 - 7:35

(Смях)
7:35 - 7:37

И просто така балонът се спука.
7:37 - 7:39

(Смях)
7:39 - 7:41

А историята на 1950
7:41 - 7:43

е историята на всяка година, която имаме в архив,
7:43 - 7:46

с малък обрат, защото сега имаме тези хубави таблици.
7:46 - 7:49

И защото имаме тези таблици, можем да измерваме неща.
7:49 - 7:51

Можем да кажем: "Колко бързо се пука балонът?"
7:51 - 7:54

И се оказва, че можем да измерим това доста бързо.
7:54 - 7:57

Изведохме уравнения, направихме диаграми
7:57 - 7:59

и чистият резултат
7:59 - 8:02

е, че балонът се пука по-бързо и по-бързо
8:02 - 8:04

с всяка следваща година.
8:04 - 8:09

Загубваме интерес в миналото все по-бързо.
8:09 - 8:11

ЖМ: И сега един малък съвет относно кариерата.
8:11 - 8:13

За тези от вас, които искат да станат известни,
8:13 - 8:15

могат да се поучат от 25 от най-известните политици,
8:15 - 8:17

писатели, актьори и т.н.
8:17 - 8:20

Затова ако искате да станете известен на по-ранен етап, трябва да станете актьор,
8:20 - 8:22

защото при тях славата расте от края на 20-те им години.
8:22 - 8:24

Все още сте млад, невероятно е.
8:24 - 8:26

Ако може да чакате, трябва да станете писател,
8:26 - 8:28

защото тогава се изкачвате до големи висоти,
8:28 - 8:30

като Марк Твен, например: изключително известен.
8:30 - 8:32

Но ако искате да достигнете до самия връх,
8:32 - 8:34

трябва да отложите овациите
8:34 - 8:36

и, разбира се, да станете политик.
8:36 - 8:38

Така ще станете известен към края на 50-те си години
8:38 - 8:40

и ще станете много, много известен след това.
8:40 - 8:43

Учените също стават популярни, когато остареят много.
8:43 - 8:45

Например, биолози и физици
8:45 - 8:47

стават почти толкова известни, колкото актьорите.
8:47 - 8:50

Една грешка, която не трябва да допускте, е да станете математици.
8:50 - 8:52

(Смях)
8:52 - 8:54

Ако направите това,
8:54 - 8:57

може да си помислите: "О, страхотно, ще създам най-добрия си труд, когато съм на 20."
8:57 - 8:59

Но познайте какво, на никого няма да му пука.
8:59 - 9:02

(Смях)
9:02 - 9:04

ЕЛА: Има по-изтрезвяващи бележки
9:04 - 9:06

сред н-грамите.
9:06 - 9:08

Например, ето траекторията на Марк Шагал,
9:08 - 9:10

артист, роден през 1887.
9:10 - 9:13

И това изглежда като нормалната траектория на един известен човек.
9:13 - 9:17

Той става по-известен, и по-известен, и по-известен
9:17 - 9:19

освен ако не гледате в немския език.
9:19 - 9:21

Ако гледате в немския език, ще забележите нещо много странно,
9:21 - 9:23

нещо, което почти не се забелязва никъде,
9:23 - 9:25

е това че той става много известен
9:25 - 9:27

и изведнъж тръгва стремглаво надолу,
9:27 - 9:30

и стига до най-ниската точка между 1933 и 1945,
9:30 - 9:33

преди да се отблъсне отново.
9:33 - 9:35

И разбира се, това, което наблюдаваме,
9:35 - 9:38

е фактът, че Марк Шагал е бил еврейски артист
9:38 - 9:40

в нацистка Германия.
9:40 - 9:42

Тези сигнали
9:42 - 9:44

са толкова силни,
9:44 - 9:47

че не ни трябва да знаем, че някой е бил цензуриран.
9:47 - 9:49

Всъщност можем да достигнем до този извод,
9:49 - 9:51

като използваме елементарно преработване на сигналите.
9:51 - 9:53

Ето един лесен начин да го направите.
9:53 - 9:55

Е, разумното очакване
9:55 - 9:57

е, че славата на някого в даден период от време
9:57 - 9:59

би трябвало да бъде грубо средното от тяхната слава преди
9:59 - 10:01

и след.
10:01 - 10:03

Та, това е горе-долу какво очакваме.
10:03 - 10:06

И сравняваме това със славата, която наблюдаваме
10:06 - 10:08

и просто разделяме едната на другата,
10:08 - 10:10

за да получим нещо, което наричаме индекс на потискане.
10:10 - 10:13

Ако този индекс е много, много, много малък,
10:13 - 10:15

тогава може би сте потиснати.
10:15 - 10:18

Ако е много голям, тогава най-вероятно се възползвате от пропаганда.
10:19 - 10:21

ЖМ: Сега може да наблюдавате
10:21 - 10:24

разпределението на тези индекси сред цели народи.
10:24 - 10:26

Например, тук-
10:26 - 10:28

този индекс на потискане е за 5 000 души,
10:28 - 10:30

избрани от английски книги, къдете няма познат натиск-
10:30 - 10:32

би било така-силно концентриран върху един.
10:32 - 10:34

Това, което очаквате, е горе-долу това, което наблюдавате.
10:34 - 10:36

Това е разпределение, както в Германия-
10:36 - 10:38

много различно, изместено вляво.
10:38 - 10:41

Хората говореха за него 2 пъти по-малко, а и така е трябвало да бъде.
10:41 - 10:43

Но много по-важно е, че разпространението е трябвало да бъде по-обширно.
10:43 - 10:46

Има много хора, които попадат в крайно ляво при това разпределение.
10:46 - 10:49

И за тях се е говорило 10 пъти по-малко, отколкото е трябвало.
10:49 - 10:51

Но пък тогава много хора в крайно дясно
10:51 - 10:53

изглежда имат полза от пропаганда.
10:53 - 10:56

Тази картина е характерна черта за цензура в книгите.
10:56 - 10:58

ЕЛА: Наричаме културомикс
10:58 - 11:00

този метод.
11:00 - 11:02

Прилича на геномикс.
11:02 - 11:04

Само че геномиксът е леща в биологията
11:04 - 11:07

през прозорецът на редицата от бази в човешкия геном.
11:07 - 11:09

Културомиксът е подобен.
11:09 - 11:12

Това е приложението на огромна база данни анализи
11:12 - 11:14

за изучаване на човешката култура.
11:14 - 11:16

Тук, вместо през леща на геном,
11:16 - 11:19

използваме леща на дигитализирани късове на човешката история.
11:19 - 11:21

Невероятното нещо на културомиксА
11:21 - 11:23

е това, че всеки може да го прави.
11:23 - 11:25

А защо това е така?
11:25 - 11:27

Всеки може да го прави, защото 3 момчета,
11:27 - 11:30

Джон Оруънт, Мат Грей и Уил Брокман в Гугъл,
11:30 - 11:32

видяха прототипа на Нграм Вюър,
11:32 - 11:34

и казаха: "Това е толквоа забавно.
11:34 - 11:37

Трябва да направим това достъпно за хората."
11:37 - 11:39

И така за 2 седмици -2 седмици, преди да ни излезе докладът,
11:39 - 11:42

те измислиха версия на програмата за широката публика.
11:42 - 11:45

И така всеки може да напише думата, която го интересува,
11:45 - 11:47

и да види нейната н-грама веднага.
11:47 - 11:49

А също така и да търси примери на най-различни книги,
11:49 - 11:51

в които се появява н-грамата.
11:51 - 11:53

ЖМ: Това беше изпробвано над милион пъти на първия ден
11:53 - 11:55

и това е наистина най-хубавото от всички питания.
11:55 - 11:58

Хората, които иската да бъдат най-добри, слагат най-добрия си крак напред.
11:58 - 12:01

Но изглежда през 18 век на хората не им е пукало за това изобщо.
12:01 - 12:04

Те не са искали да са най-добре, а са искали да са най-добрите.
12:04 - 12:07

Излиза, че просто е станала грешка.
12:07 - 12:09

Не е този стремеж за посредственост,
12:09 - 12:12

а просто С се е изписвало различно, малко като Ф.
12:12 - 12:15

Но разбира се, Гугъл не са знаели това на времето,
12:15 - 12:18

затова отбелязахме това в научната статия, която написахме.
12:18 - 12:20

Но изглежда това само напомня,
12:20 - 12:22

че въпреки това да е много забавно,
12:22 - 12:24

когато тълкувате тези графи, трябва да сте много внимателни,
12:24 - 12:27

и трябва да усвоите основните стандарти в науките.
12:27 - 12:30

ЕЛА: Хората са използвали това за всякакви цели.
12:30 - 12:37

(Смях)
12:37 - 12:39

Всъщност, няма да приказваме,
12:39 - 12:42

а просто ще ви покажем всичките слайдове и ще замълчим.
12:42 - 12:45

Този човек се е интересувал от историята на раздразнението.
12:45 - 12:48

Има различни видове раздразнение.
12:48 - 12:51

Ако си прободеш пръста на крака, това е "Ауч" с едно A.
12:51 - 12:53

Ако Земята бъде унищожена от Вогони,
12:53 - 12:55

за да направят път за междузвезден път,
12:55 - 12:57

това е "Aааааааргхх" с 8 А-та.
12:57 - 12:59

Този човек изучава всички А-та,
12:59 - 13:01

от едно до осем.
13:01 - 13:03

Излиза, че
13:03 - 13:05

по-малко използваното "аргх"
13:05 - 13:08

са, разбира се, тези, които съответстват на неща, които са по-дразнещи,
13:08 - 13:11

освен, странно, през 80-те.
13:11 - 13:13

Мислим, че това има нещо общо с Рейгън.
13:13 - 13:15

(Смях)
13:15 - 13:18

ЖМ: Тези данни имат много приложения,
13:18 - 13:21

но най-важното е, че историческте архиви се дигитализират.
13:21 - 13:23

Гугъл е започнал да прави това с 15 милиона книги.
13:23 - 13:25

Това са 12% от всички публикувани книги.
13:25 - 13:28

Това е огромен къс от човешката култура.
13:28 - 13:31

Има много повече в културата: ръкописи, вестници,
13:31 - 13:33

неща, които не са текстове, като изкуството и картините.
13:33 - 13:35

Всичко това е на нашите компютри,
13:35 - 13:37

на компютри по целия свят.
13:37 - 13:40

И когато това се случи, това ще промени начина ни на
13:40 - 13:42

разбиране на нашето минало, настояще и бъдеще.
13:42 - 13:44

Благодаря ви много.
13:44 - 13:47

(Аплодисменти)

Title:: Какво научихме от 5 милиона книги
Speaker:: Jean-Baptiste Michel + Erez Lieberman Aiden
Description:: Играли ли сте някога с Гугъл Лабс "Нграм Вюър"? Това е пристрастяващ инструмент, който ви позволява да търсите думи и идеи в датабаза от 5 милиона книги още от миналите векове. Ерез Лийберман Айден и Жан-Батист Мишел ни показват как става, а и някои от невероятните неща, които можете да научите от 500 милиарда думи.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:48

Rositsa Kratunkova added a translation

Bulgarian subtitles

Revisions

Revision 1

Rositsa Kratunkova

Какво научихме от 5 милиона книги

Revisions

Our website uses cookies

Operating cookies (Required)