Што научивме од 5 милиони книги
-
0:00 - 0:02Ерез Либерман Ејден: Сите знаат
-
0:02 - 0:05дека една слика вреди илјада зборови.
-
0:07 - 0:09Но, ние од Харвард
-
0:09 - 0:12се прашувавме дали ова навистина е така.
-
0:12 - 0:14(смеа)
-
0:14 - 0:18Па, составивме тим од експерти
-
0:18 - 0:20од Харвард, МИТ,
-
0:20 - 0:23Американскиот речник на зборови, Енциклопедија Британика,
-
0:23 - 0:25па дури и од нашиот горд спонзор
-
0:25 - 0:28Гугл.
-
0:28 - 0:30Внимателно работевме на ова
-
0:30 - 0:32околу четири години.
-
0:32 - 0:37И дојдовме до неверојатен заклучок.
-
0:37 - 0:40Дами и господа, сликата не вреди илјада зборови.
-
0:40 - 0:42Всушност, најдовме некои слики
-
0:42 - 0:47кои вредат 500 милијарди зборови.
-
0:47 - 0:49Жан-Батист Мишел: Како дојдовме до овој заклучок?
-
0:49 - 0:51Јас и Ерез размислувавме како
-
0:51 - 0:53да добиеме голема слика за човечката култура
-
0:53 - 0:56и човечката историја, за промените низ времето.
-
0:56 - 0:58Досега се напишани многу книги
-
0:58 - 1:00и си рековме дека најдобриот начин да учиме од нив
-
1:00 - 1:02е да ги прочитаме сите тие милиони книги.
-
1:02 - 1:05Се разбира, доколку постои скала на луди нешта,
-
1:05 - 1:08ова мора да се рангира екстремно високо.
-
1:08 - 1:10Проблемот е што истовремено постои и Х оска,
-
1:10 - 1:12која е многу практична оска.
-
1:12 - 1:14На неа сме многу ниско.
-
1:14 - 1:17(аплауз)
-
1:17 - 1:20Луѓето често користат алтернативен пристап,
-
1:20 - 1:22т.е. земаат неколку извори и ги читаат многу внимателно.
-
1:22 - 1:24Ова е многу практично, но не и многу луда работа.
-
1:24 - 1:27Она што навистина сакате да го направите
-
1:27 - 1:30е да дојдете до лудиот, но и практичен дел од овој простор.
-
1:30 - 1:33Излезе дека има една компанија преку реката што се вика Гугл,
-
1:33 - 1:35која неколку години претходно започнала проект за дигитализација,
-
1:35 - 1:37кој би можел да го овозможи овој пристап.
-
1:37 - 1:39Тие имаат дигитализирано милиони книги.
-
1:39 - 1:42Тоа значи дека можат да се користат методи за пресметка
-
1:42 - 1:44кои ќе овозможат читање на сите книги со еден клик.
-
1:44 - 1:47Тоа е многу практично и ептен лудо.
-
1:48 - 1:50Да ви кажам малку за тоа од каде доаѓаат книгите.
-
1:50 - 1:53Уште од памтивек постоеле автори,
-
1:53 - 1:56кои настојувале да пишуваат книги,
-
1:56 - 1:58што станало значително полесно
-
1:58 - 2:00со развојот на машината за печатење пред неколку века.
-
2:00 - 2:03Оттогаш, авторите успеале
-
2:03 - 2:05во 129 милиони поединечни случаи
-
2:05 - 2:07да објават книги.
-
2:07 - 2:09Доколку овие книги не се изгубени,
-
2:09 - 2:11тогаш се наоѓаат некаде во некоја библиотека.
-
2:11 - 2:14Многу од овие книги
-
2:14 - 2:16се дигитализирани од страна на Гугл,
-
2:16 - 2:18кој досега има скенирано 15 милиони книги.
-
2:18 - 2:21Кога Гугл дигитализира книга, ја става во навистина убав формат.
-
2:21 - 2:23Сега ги имаме податоците, плус имаме и метаподатоци,
-
2:23 - 2:26т.е. каде била објавена книгата,
-
2:26 - 2:28кој е авторот, кога била објавена.
-
2:28 - 2:31Потоа, ги прегледавме сите овие податоци
-
2:31 - 2:35и елиминиравме сè што не е со највисок квалитет.
-
2:35 - 2:37Она што ни останува
-
2:37 - 2:40е колекција од пет милиони книги.
-
2:40 - 2:43500 милијарди зборови.
-
2:43 - 2:45Низа од знаци илјада пати подолга
-
2:45 - 2:48од човечкиот геном -
-
2:48 - 2:50текст кој, кога би бил испишан,
-
2:50 - 2:52би се протегал од овде до Месечината и назад
-
2:52 - 2:5410 пати последователно -
-
2:54 - 2:58вистински сведок на нашиот културолошки геном.
-
2:58 - 3:00Се разбира, она што тогаш го направивме,
-
3:00 - 3:03соочени со една ваква безгранична хипербола...
-
3:03 - 3:05(смеа)
-
3:05 - 3:08е она што секои истражувачи со самопочит
-
3:08 - 3:11би го направиле.
-
3:11 - 3:13Како и во XKCD стриповите,
-
3:13 - 3:15рековме „Настрана, ве молиме.
-
3:15 - 3:17Одиме со наука.“
-
3:17 - 3:19(смеа)
-
3:19 - 3:21Се разбира, си рековме
-
3:21 - 3:23„Ајде, прво да ги објавиме податоците,
-
3:23 - 3:25за луѓето да можат научно да ги обработат“.
-
3:25 - 3:27Се прашавме кои податоци да ги објавиме.
-
3:27 - 3:29Секако, би сакале
-
3:29 - 3:31да го објавите целиот текст од овие пет милиони книги.
-
3:31 - 3:33Гугл, а особено Џон Орвант,
-
3:33 - 3:35ни кажа една мала равенка што требаше да ја научиме.
-
3:35 - 3:38Значи, имате пет милиони. Тоа се пет милиони автори.
-
3:38 - 3:41А, тоа се пет милиони тужители.
-
3:41 - 3:43И макар што тоа би било навистина супер,
-
3:43 - 3:46сепак е многу непрактично.
-
3:46 - 3:48(смеа)
-
3:48 - 3:50Повторно се предомисливме
-
3:50 - 3:53и се насочивме кон попрактичниот пристап, кој не е толку луд.
-
3:53 - 3:55Па, наместо да го објавиме целиот текст,
-
3:55 - 3:57решивме да ја објавиме статистиката за книгите.
-
3:57 - 3:59Земете, на пример, „Блесок на среќа“.
-
3:59 - 4:01Тоа се три збора. Ние го викаме три-грам.
-
4:01 - 4:03Ќе ви покажеме колку пати одреден три-грам
-
4:03 - 4:05се појавил во книгите од 1801, 1802, 1803,
-
4:05 - 4:07сè до 2008 година.
-
4:07 - 4:09Тоа ни дава временска низа
-
4:09 - 4:11за тоа колку често оваа реченица била користена низ времето.
-
4:11 - 4:14Тоа го повторивме со сите зборови и фрази што се појавуваат во овие книги,
-
4:14 - 4:17и така добивме голема табела од две милијарди низи
-
4:17 - 4:19кои ни кажуваат како се менувала културата низ времето.
-
4:19 - 4:21Значи, имаме две милијарди низи,
-
4:21 - 4:23или, како што ние ги викаме, два милијарди ен-грами.
-
4:23 - 4:25Што ни кажуваат тие?
-
4:25 - 4:27Поединечните ен-грами ги мерат културолошките трендови.
-
4:27 - 4:29Да ви дадам еден пример.
-
4:29 - 4:31Да претпоставиме дека просперирам
-
4:31 - 4:33и утре сакам да ви кажам колку добро ми одело.
-
4:33 - 4:36Можам да речам „Вчера, напредував“.
-
4:36 - 4:39Или, можам да кажам „Вчера, просперирав“.
-
4:39 - 4:42Кој збор да го употребам?
-
4:42 - 4:44Од каде да знам?
-
4:44 - 4:46Од пред околу шест месеци,
-
4:46 - 4:48со најмодерните алатки можете,
-
4:48 - 4:50на пример,
-
4:50 - 4:52да му се обратите на овој психолог со неверојатна фризура
-
4:52 - 4:54и да го прашате
-
4:54 - 4:57„Стив, ти си експерт за неправилни глаголи.
-
4:57 - 4:59Што да правам?“.
-
4:59 - 5:01А, тој ќе ви рече „Па, повеќето луѓе велат просперирав,
-
5:01 - 5:04но некои луѓе велат напредував.“
-
5:04 - 5:06Исто така знаете, повеќе или помалку,
-
5:06 - 5:09дека ако се вратите за 200 години назад во времето
-
5:09 - 5:12и го прашате овој државник со еднакво неверојатна фризура...
-
5:12 - 5:15(смеа)
-
5:15 - 5:17„Том, што да правам?“,
-
5:17 - 5:19тој ќе ви каже „Па, во мое време, повеќето луѓе напредуваа,
-
5:19 - 5:22но некои просперираа“.
-
5:22 - 5:24Сега ќе ви ги покажам необработените податоци.
-
5:24 - 5:28Два реда од оваа табела со две милијарди записи.
-
5:28 - 5:30Ја гледате фреквенцијата по години
-
5:30 - 5:33на „просперира“ и „напредува“ низ времето.
-
5:34 - 5:36Ова се само два реда
-
5:36 - 5:39од две милијарди редови.
-
5:39 - 5:41Значи, вкупниот сет на податоци
-
5:41 - 5:44е милијарди пати поневеројатен од овој слајд.
-
5:44 - 5:46(смеа)
-
5:46 - 5:50(аплауз)
-
5:50 - 5:52Постојат многу други слики кои вредат 500 милијарди зборови.
-
5:52 - 5:54На пример, оваа.
-
5:54 - 5:56Да го земеме грипот.
-
5:56 - 5:58Ќе видите скокови во времето кога знаете дека
-
5:58 - 6:01големи епидемии на грип убивале многу луѓе низ светот.
-
6:01 - 6:04Ако сè уште не сте убедени,
-
6:04 - 6:06нивото на морињата расте,
-
6:06 - 6:09како и атмосферскиот јаглерод диоксид и глобалната температура.
-
6:09 - 6:12Можеби ќе сакате да го погледнете и овој ен-грам,
-
6:12 - 6:15за да му кажете на Ниче дека Бог не е мртов,
-
6:15 - 6:18иако можеби ќе се согласите дека му треба подобра реклама.
-
6:18 - 6:20(смеа)
-
6:20 - 6:23Можете да налетате на некои прилично апстрактни концепти.
-
6:23 - 6:25На пример, да ви ја кажам историјата
-
6:25 - 6:27за 1950-тата година.
-
6:27 - 6:29Претежно во минатото
-
6:29 - 6:31на никого не му било гајле за 1950.
-
6:31 - 6:33Во 1700, во 1800, во 1900...
-
6:33 - 6:36на никого не му било гајле.
-
6:37 - 6:39Низ 30-тите и 40-тите
-
6:39 - 6:41на никого не му било гајле.
-
6:41 - 6:43Наеднаш, во средината на 40-тите,
-
6:43 - 6:45почнало нешто да се шушка.
-
6:45 - 6:47Луѓето сфатиле дека ќе се случи 1950 година
-
6:47 - 6:49и дека тоа може да биде доста важно.
-
6:49 - 6:52(смеа)
-
6:52 - 6:55Но, ништо не ги заинтересирало луѓето за 1950 година
-
6:55 - 6:58како годината 1950.
-
6:58 - 7:01(смеа)
-
7:01 - 7:03Луѓето шетале наоколу преокупирани.
-
7:03 - 7:05Не можеле да престанат да зборуваат
-
7:05 - 7:08за сите работи кои ги направиле во 1950,
-
7:08 - 7:11за сите работи што планирале да ги направат во 1950,
-
7:11 - 7:16сите соништа за она што сакале да го постигнат во 1950.
-
7:16 - 7:18Всушност, 1950 била толку фасцинантна
-
7:18 - 7:20што со години подоцна
-
7:20 - 7:23луѓето продолжиле да зборуваат за сите неверојатни нешта што се случиле тогаш.
-
7:23 - 7:25Во '51, '52, '53...
-
7:25 - 7:27Конечно во 1954,
-
7:27 - 7:29некој се разбудил и сфатил
-
7:29 - 7:33дека 1950 одамна поминала.
-
7:33 - 7:35(смеа)
-
7:35 - 7:37И така, одеднаш, целата работа спласнала.
-
7:37 - 7:39(смеа)
-
7:39 - 7:41Приказната за 1950 година
-
7:41 - 7:43е приказната за секоја година што ја имаме евидентирано,
-
7:43 - 7:46со мала промена, бидејќи сега ги имаме овие убави табели.
-
7:46 - 7:49Па, така, можеме да ги мериме нештата.
-
7:49 - 7:51Може да речеме „Колку брзо спласнала работата?“.
-
7:51 - 7:54Излезе дека многу прецизно можеме да го измериме тоа.
-
7:54 - 7:57Беа изведени равенки, беа направени графикони,
-
7:57 - 7:59и крајниот резултат
-
7:59 - 8:02ни говори дека работите спласнуваат сè побрзо и побрзо
-
8:02 - 8:04со секоја измината година.
-
8:04 - 8:09Сега побрзо губиме интерес за минатото.
-
8:09 - 8:11Еден мал професионален совет.
-
8:11 - 8:13Оние од вас кои сакаат да бидат славни
-
8:13 - 8:15може да учат од 25-те најславни политички фигури,
-
8:15 - 8:17автори, актери и така натаму.
-
8:17 - 8:20Ако сакате да станете славни кога сте помлади, треба да бидете актер,
-
8:20 - 8:22бидејќи кај нив славата врвот го достигнува кон крајот на 20-тите години од животот.
-
8:22 - 8:24Сè уште сте млади, баш супер.
-
8:24 - 8:26Ако можете да почекате малку, тогаш треба да бидете автор,
-
8:26 - 8:28бидејќи тогаш ќе ги достигнете најголемите височини,
-
8:28 - 8:30како Марк Твен, на пример. Тој е екстремно славен.
-
8:30 - 8:32Но, ако сакате да дојдете до самиот врв,
-
8:32 - 8:34тогаш треба да го одложите задоволството
-
8:34 - 8:36и, се разбира, да станете политичар.
-
8:36 - 8:38Тогаш ќе станете славни кон крајот од вашите 50-ти,
-
8:38 - 8:40а потоа ќе станувате уште пославни.
-
8:40 - 8:43Научниците, исто така, стануваат славни кога се многу постари.
-
8:43 - 8:45Како на пример, биолозите и физичарите
-
8:45 - 8:47можат да бидат славни речиси како актерите.
-
8:47 - 8:50Но, никако не смеете да станете математичар.
-
8:50 - 8:52(смеа)
-
8:52 - 8:54Ако го направите тоа,
-
8:54 - 8:57ќе си мислите „Супер. Најголемите резултати ќе ги постигнам во моите 20-ти.“
-
8:57 - 8:59Но, никому нема да му е гајле.
-
8:59 - 9:02(смеа)
-
9:02 - 9:04Има и потрезвени податоци
-
9:04 - 9:06помеѓу ен-грамите.
-
9:06 - 9:08На пример, еве ја траекторијата за Марк Шагал,
-
9:08 - 9:10уметник роден во 1887.
-
9:10 - 9:13Ова изгледа како нормална траекторија за една славна личност.
-
9:13 - 9:17Тој станува сè пославен.
-
9:17 - 9:19Но, не ако барате на германски.
-
9:19 - 9:21Ако барате на германски, ќе видите нешто сосема бизарно,
-
9:21 - 9:23нешто што ретко се гледа.
-
9:23 - 9:25Тој станува екстремно славен,
-
9:25 - 9:27потоа наеднаш славата му паѓа,
-
9:27 - 9:30достигнувајќи најниска точка од 1933 до 1945,
-
9:30 - 9:33пред пак да се врати.
-
9:33 - 9:35Се разбира, од ова гледаме
-
9:35 - 9:38дека Марк Шагал бил еврејски уметник
-
9:38 - 9:40во нацистичка Германија.
-
9:40 - 9:42Овие показатели
-
9:42 - 9:44се толку силни,
-
9:44 - 9:47што не мора да знаеме дали некој бил цензуриран.
-
9:47 - 9:49Самите може да го откриеме тоа
-
9:49 - 9:51преку просто анализирање на показателот.
-
9:51 - 9:53Еве едноставен начин како да се направи тоа.
-
9:53 - 9:55Разумно очекување
-
9:55 - 9:57е дека нечија слава во еден даден временски период
-
9:57 - 9:59треба да биде приближно колку и просекот од нивната слава
-
9:59 - 10:01пред и по тој период.
-
10:01 - 10:03Тоа би го очекувале.
-
10:03 - 10:06Тоа ќе го споредиме со фактичката слава.
-
10:06 - 10:08Едното го делиме со другото
-
10:08 - 10:10и добиваме т.н. индекс на супресија (потиснување).
-
10:10 - 10:13Доколку овој индекс е многу, многу мал,
-
10:13 - 10:15тогаш веројатно сте биле потиснати.
-
10:15 - 10:18Доколку е многу голем, тогаш можеби користите пропаганда.
-
10:19 - 10:21Можете да ја погледнете
-
10:21 - 10:24дистрибуцијата на индексите на супресија низ цели популации.
-
10:24 - 10:26На пример, овде...
-
10:26 - 10:28ова е индекс на супресија за 5.000 луѓе
-
10:28 - 10:30добиен од англиските книги за кои нема супресија.
-
10:30 - 10:32Тој изгледа вака. Во основа, цврсто е центриран на еден.
-
10:32 - 10:34Го гледате тоа и што би го очекувале.
-
10:34 - 10:36Оваа дистрибуција е од Германија.
-
10:36 - 10:38Многу е различна. Поместена е на лево.
-
10:38 - 10:41Луѓето за нив зборувале два пати помалку отколку што би требало.
-
10:41 - 10:43Но, што е уште поважно, дистрибуцијата е многу поширока.
-
10:43 - 10:46Има многу луѓе на самиот лев крај од дистрибуцијата,
-
10:46 - 10:49за кои е зборувано десет пати помалку одошто е нормално.
-
10:49 - 10:51Но, има и многу луѓе на десниот крај,
-
10:51 - 10:53на кои изгледа им помогнала пропаганда.
-
10:53 - 10:56Оваа слика е показател за цензурата на книгите.
-
10:56 - 10:58Овој метод
-
10:58 - 11:00го нарекуваме културомика.
-
11:00 - 11:02Сличен е на геномиката,
-
11:02 - 11:04со таа разлика што со геномиката ја разбираме билогијата,
-
11:04 - 11:07преку базните секвенци во човечкиот геном.
-
11:07 - 11:09Културомиката е слична.
-
11:09 - 11:12Тоа е применета анализа врз податоци од голем размер
-
11:12 - 11:14со цел да се проучи човечката култура.
-
11:14 - 11:16Наместо да гледаме низ призмата на геномот,
-
11:16 - 11:19овде гледаме низ призмата на дигитализираните историски податоци.
-
11:19 - 11:21Она што е супер кај културомиката
-
11:21 - 11:23е што секој може да ја примени.
-
11:23 - 11:25Зошто?
-
11:25 - 11:27Затоа што тројца момци,
-
11:27 - 11:30Џон Орвант, Мет Греј и Вил Брокман од Гугл,
-
11:30 - 11:32го видоа прототипот за „Ngram Viewer“
-
11:32 - 11:34и рекоа „Ова е баш забавно.
-
11:34 - 11:37Мора да го направиме достапно за луѓето.“
-
11:37 - 11:39Во период од две недели, пред да излезе нашата статија,
-
11:39 - 11:42тие направија верзија на „Ngram Viewer“ наменета за широката јавност.
-
11:42 - 11:45Па, така и вие може да напишете збор или фраза што ве интересираат
-
11:45 - 11:47и веднаш да го видите ен-грамот за нив.
-
11:47 - 11:49Исто така, можете да ги пребарате и книгите
-
11:49 - 11:51во кои се појавува вашиот ен-грам.
-
11:51 - 11:53Во само првиот ден оваа алатка беше искористена преку милион пати.
-
11:53 - 11:55Тоа е најдоброто од сите пребарувања.
-
11:55 - 11:58Луѓето сакаат да бидат најдобри што можат, да дадат сè од себе.
-
11:58 - 12:01Но, изгледа дека во 18-тиот век на луѓето воопшто не им било гајле за тоа.
-
12:01 - 12:04Не сакале да бидат најдобри (beSt), туку најдобли (beFt).
-
12:04 - 12:07Се разбира ова е само грешка.
-
12:07 - 12:09Не се работи за стремеж кон медиокритет,
-
12:09 - 12:12туку тогаш буквата S се пишувала поинаку, слично на F.
-
12:12 - 12:15Гугл го немаше забележано ова
-
12:15 - 12:18и затоа ние го спомнавме во трудот што го објавивме.
-
12:18 - 12:20Ова треба да биде само потсетник
-
12:20 - 12:22дека, иако ова е многу забавно,
-
12:22 - 12:24кога ги интерпретирате графконите мора да бидете многу внимателни
-
12:24 - 12:27и мора да ги примените основните стандарди на науката.
-
12:27 - 12:30Луѓето го користат ова за разни забавни цели.
-
12:30 - 12:37(смеа)
-
12:37 - 12:39Нема потреба да зборуваме.
-
12:39 - 12:42Само ќе ви ги покажеме слајдовите и ќе молчиме.
-
12:42 - 12:45Овде некој бил заинтересиран за историјата на фрустрацијата.
-
12:45 - 12:48Има разни видови на фрустрација.
-
12:48 - 12:51Ако си го удрите палецот, тоа е „уф“ со едно у.
-
12:51 - 12:53Доколку Земјата е уништена од страна на Вогоните
-
12:53 - 12:55за да се изгради меѓуѕвездена обиколница,
-
12:55 - 12:57тоа е „уф“ со осум у.
-
12:57 - 12:59Оваа личност ги проучувала сите видови на „уф“,
-
12:59 - 13:01со од една до осум букви у.
-
13:01 - 13:03Се покажало дека
-
13:03 - 13:05поретко се користат оние „уф“
-
13:05 - 13:08кои кореспондираат на нештата што се пофрустрирачки,
-
13:08 - 13:11освен, за чудо, во раните 80-ти.
-
13:11 - 13:13Мислиме дека тоа некако е поврзано со Реган.
-
13:13 - 13:15(смеа)
-
13:15 - 13:18Овие податоци може да се користат на разни начини,
-
13:18 - 13:21но она што е најважно е дека историските записи се дигитализираат.
-
13:21 - 13:23Гугл започна со дигитализација на 15 милиони книги.
-
13:23 - 13:25Тоа се 12 проценти од сите книги што некогаш биле објавени,
-
13:25 - 13:28што е значаен дел од човечката култура.
-
13:28 - 13:31Но, културата е многу повеќе: имаме ракописи, весници,
-
13:31 - 13:33податоци кои не се текстуални, како уметноста и сликите.
-
13:33 - 13:35Сите тие треба да се најдат на нашите компјутери,
-
13:35 - 13:37на компјутерите низ целиот свет.
-
13:37 - 13:40Тоа ќе го смени начинот на кој
-
13:40 - 13:42ги разбираме нашето минато, нашата сегашност и човечката култура.
-
13:42 - 13:44Ви благодарам многу.
-
13:44 - 13:47(аплауз)
- Title:
- Што научивме од 5 милиони книги
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Дали некогаш си имате играно со „Ngram Viewer“ на Гугл? Тоа е алатка од која станувате зависни и која ви овозможува да пребарувате зборови и идеи во база на податоци од пет милиони книги. Ерез Либерман Ејден и Жан-Батист Мишел ни покажуваат како функционира оваа алатка и ни демонстрираат неколку од изненадувачките работи кои можеме да ги научиме од 500 милијарди зборови.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48