< Return to Video

Што научивме од 5 милиони книги

  • 0:00 - 0:02
    Ерез Либерман Ејден: Сите знаат
  • 0:02 - 0:05
    дека една слика вреди илјада зборови.
  • 0:07 - 0:09
    Но, ние од Харвард
  • 0:09 - 0:12
    се прашувавме дали ова навистина е така.
  • 0:12 - 0:14
    (смеа)
  • 0:14 - 0:18
    Па, составивме тим од експерти
  • 0:18 - 0:20
    од Харвард, МИТ,
  • 0:20 - 0:23
    Американскиот речник на зборови, Енциклопедија Британика,
  • 0:23 - 0:25
    па дури и од нашиот горд спонзор
  • 0:25 - 0:28
    Гугл.
  • 0:28 - 0:30
    Внимателно работевме на ова
  • 0:30 - 0:32
    околу четири години.
  • 0:32 - 0:37
    И дојдовме до неверојатен заклучок.
  • 0:37 - 0:40
    Дами и господа, сликата не вреди илјада зборови.
  • 0:40 - 0:42
    Всушност, најдовме некои слики
  • 0:42 - 0:47
    кои вредат 500 милијарди зборови.
  • 0:47 - 0:49
    Жан-Батист Мишел: Како дојдовме до овој заклучок?
  • 0:49 - 0:51
    Јас и Ерез размислувавме како
  • 0:51 - 0:53
    да добиеме голема слика за човечката култура
  • 0:53 - 0:56
    и човечката историја, за промените низ времето.
  • 0:56 - 0:58
    Досега се напишани многу книги
  • 0:58 - 1:00
    и си рековме дека најдобриот начин да учиме од нив
  • 1:00 - 1:02
    е да ги прочитаме сите тие милиони книги.
  • 1:02 - 1:05
    Се разбира, доколку постои скала на луди нешта,
  • 1:05 - 1:08
    ова мора да се рангира екстремно високо.
  • 1:08 - 1:10
    Проблемот е што истовремено постои и Х оска,
  • 1:10 - 1:12
    која е многу практична оска.
  • 1:12 - 1:14
    На неа сме многу ниско.
  • 1:14 - 1:17
    (аплауз)
  • 1:17 - 1:20
    Луѓето често користат алтернативен пристап,
  • 1:20 - 1:22
    т.е. земаат неколку извори и ги читаат многу внимателно.
  • 1:22 - 1:24
    Ова е многу практично, но не и многу луда работа.
  • 1:24 - 1:27
    Она што навистина сакате да го направите
  • 1:27 - 1:30
    е да дојдете до лудиот, но и практичен дел од овој простор.
  • 1:30 - 1:33
    Излезе дека има една компанија преку реката што се вика Гугл,
  • 1:33 - 1:35
    која неколку години претходно започнала проект за дигитализација,
  • 1:35 - 1:37
    кој би можел да го овозможи овој пристап.
  • 1:37 - 1:39
    Тие имаат дигитализирано милиони книги.
  • 1:39 - 1:42
    Тоа значи дека можат да се користат методи за пресметка
  • 1:42 - 1:44
    кои ќе овозможат читање на сите книги со еден клик.
  • 1:44 - 1:47
    Тоа е многу практично и ептен лудо.
  • 1:48 - 1:50
    Да ви кажам малку за тоа од каде доаѓаат книгите.
  • 1:50 - 1:53
    Уште од памтивек постоеле автори,
  • 1:53 - 1:56
    кои настојувале да пишуваат книги,
  • 1:56 - 1:58
    што станало значително полесно
  • 1:58 - 2:00
    со развојот на машината за печатење пред неколку века.
  • 2:00 - 2:03
    Оттогаш, авторите успеале
  • 2:03 - 2:05
    во 129 милиони поединечни случаи
  • 2:05 - 2:07
    да објават книги.
  • 2:07 - 2:09
    Доколку овие книги не се изгубени,
  • 2:09 - 2:11
    тогаш се наоѓаат некаде во некоја библиотека.
  • 2:11 - 2:14
    Многу од овие книги
  • 2:14 - 2:16
    се дигитализирани од страна на Гугл,
  • 2:16 - 2:18
    кој досега има скенирано 15 милиони книги.
  • 2:18 - 2:21
    Кога Гугл дигитализира книга, ја става во навистина убав формат.
  • 2:21 - 2:23
    Сега ги имаме податоците, плус имаме и метаподатоци,
  • 2:23 - 2:26
    т.е. каде била објавена книгата,
  • 2:26 - 2:28
    кој е авторот, кога била објавена.
  • 2:28 - 2:31
    Потоа, ги прегледавме сите овие податоци
  • 2:31 - 2:35
    и елиминиравме сè што не е со највисок квалитет.
  • 2:35 - 2:37
    Она што ни останува
  • 2:37 - 2:40
    е колекција од пет милиони книги.
  • 2:40 - 2:43
    500 милијарди зборови.
  • 2:43 - 2:45
    Низа од знаци илјада пати подолга
  • 2:45 - 2:48
    од човечкиот геном -
  • 2:48 - 2:50
    текст кој, кога би бил испишан,
  • 2:50 - 2:52
    би се протегал од овде до Месечината и назад
  • 2:52 - 2:54
    10 пати последователно -
  • 2:54 - 2:58
    вистински сведок на нашиот културолошки геном.
  • 2:58 - 3:00
    Се разбира, она што тогаш го направивме,
  • 3:00 - 3:03
    соочени со една ваква безгранична хипербола...
  • 3:03 - 3:05
    (смеа)
  • 3:05 - 3:08
    е она што секои истражувачи со самопочит
  • 3:08 - 3:11
    би го направиле.
  • 3:11 - 3:13
    Како и во XKCD стриповите,
  • 3:13 - 3:15
    рековме „Настрана, ве молиме.
  • 3:15 - 3:17
    Одиме со наука.“
  • 3:17 - 3:19
    (смеа)
  • 3:19 - 3:21
    Се разбира, си рековме
  • 3:21 - 3:23
    „Ајде, прво да ги објавиме податоците,
  • 3:23 - 3:25
    за луѓето да можат научно да ги обработат“.
  • 3:25 - 3:27
    Се прашавме кои податоци да ги објавиме.
  • 3:27 - 3:29
    Секако, би сакале
  • 3:29 - 3:31
    да го објавите целиот текст од овие пет милиони книги.
  • 3:31 - 3:33
    Гугл, а особено Џон Орвант,
  • 3:33 - 3:35
    ни кажа една мала равенка што требаше да ја научиме.
  • 3:35 - 3:38
    Значи, имате пет милиони. Тоа се пет милиони автори.
  • 3:38 - 3:41
    А, тоа се пет милиони тужители.
  • 3:41 - 3:43
    И макар што тоа би било навистина супер,
  • 3:43 - 3:46
    сепак е многу непрактично.
  • 3:46 - 3:48
    (смеа)
  • 3:48 - 3:50
    Повторно се предомисливме
  • 3:50 - 3:53
    и се насочивме кон попрактичниот пристап, кој не е толку луд.
  • 3:53 - 3:55
    Па, наместо да го објавиме целиот текст,
  • 3:55 - 3:57
    решивме да ја објавиме статистиката за книгите.
  • 3:57 - 3:59
    Земете, на пример, „Блесок на среќа“.
  • 3:59 - 4:01
    Тоа се три збора. Ние го викаме три-грам.
  • 4:01 - 4:03
    Ќе ви покажеме колку пати одреден три-грам
  • 4:03 - 4:05
    се појавил во книгите од 1801, 1802, 1803,
  • 4:05 - 4:07
    сè до 2008 година.
  • 4:07 - 4:09
    Тоа ни дава временска низа
  • 4:09 - 4:11
    за тоа колку често оваа реченица била користена низ времето.
  • 4:11 - 4:14
    Тоа го повторивме со сите зборови и фрази што се појавуваат во овие книги,
  • 4:14 - 4:17
    и така добивме голема табела од две милијарди низи
  • 4:17 - 4:19
    кои ни кажуваат како се менувала културата низ времето.
  • 4:19 - 4:21
    Значи, имаме две милијарди низи,
  • 4:21 - 4:23
    или, како што ние ги викаме, два милијарди ен-грами.
  • 4:23 - 4:25
    Што ни кажуваат тие?
  • 4:25 - 4:27
    Поединечните ен-грами ги мерат културолошките трендови.
  • 4:27 - 4:29
    Да ви дадам еден пример.
  • 4:29 - 4:31
    Да претпоставиме дека просперирам
  • 4:31 - 4:33
    и утре сакам да ви кажам колку добро ми одело.
  • 4:33 - 4:36
    Можам да речам „Вчера, напредував“.
  • 4:36 - 4:39
    Или, можам да кажам „Вчера, просперирав“.
  • 4:39 - 4:42
    Кој збор да го употребам?
  • 4:42 - 4:44
    Од каде да знам?
  • 4:44 - 4:46
    Од пред околу шест месеци,
  • 4:46 - 4:48
    со најмодерните алатки можете,
  • 4:48 - 4:50
    на пример,
  • 4:50 - 4:52
    да му се обратите на овој психолог со неверојатна фризура
  • 4:52 - 4:54
    и да го прашате
  • 4:54 - 4:57
    „Стив, ти си експерт за неправилни глаголи.
  • 4:57 - 4:59
    Што да правам?“.
  • 4:59 - 5:01
    А, тој ќе ви рече „Па, повеќето луѓе велат просперирав,
  • 5:01 - 5:04
    но некои луѓе велат напредував.“
  • 5:04 - 5:06
    Исто така знаете, повеќе или помалку,
  • 5:06 - 5:09
    дека ако се вратите за 200 години назад во времето
  • 5:09 - 5:12
    и го прашате овој државник со еднакво неверојатна фризура...
  • 5:12 - 5:15
    (смеа)
  • 5:15 - 5:17
    „Том, што да правам?“,
  • 5:17 - 5:19
    тој ќе ви каже „Па, во мое време, повеќето луѓе напредуваа,
  • 5:19 - 5:22
    но некои просперираа“.
  • 5:22 - 5:24
    Сега ќе ви ги покажам необработените податоци.
  • 5:24 - 5:28
    Два реда од оваа табела со две милијарди записи.
  • 5:28 - 5:30
    Ја гледате фреквенцијата по години
  • 5:30 - 5:33
    на „просперира“ и „напредува“ низ времето.
  • 5:34 - 5:36
    Ова се само два реда
  • 5:36 - 5:39
    од две милијарди редови.
  • 5:39 - 5:41
    Значи, вкупниот сет на податоци
  • 5:41 - 5:44
    е милијарди пати поневеројатен од овој слајд.
  • 5:44 - 5:46
    (смеа)
  • 5:46 - 5:50
    (аплауз)
  • 5:50 - 5:52
    Постојат многу други слики кои вредат 500 милијарди зборови.
  • 5:52 - 5:54
    На пример, оваа.
  • 5:54 - 5:56
    Да го земеме грипот.
  • 5:56 - 5:58
    Ќе видите скокови во времето кога знаете дека
  • 5:58 - 6:01
    големи епидемии на грип убивале многу луѓе низ светот.
  • 6:01 - 6:04
    Ако сè уште не сте убедени,
  • 6:04 - 6:06
    нивото на морињата расте,
  • 6:06 - 6:09
    како и атмосферскиот јаглерод диоксид и глобалната температура.
  • 6:09 - 6:12
    Можеби ќе сакате да го погледнете и овој ен-грам,
  • 6:12 - 6:15
    за да му кажете на Ниче дека Бог не е мртов,
  • 6:15 - 6:18
    иако можеби ќе се согласите дека му треба подобра реклама.
  • 6:18 - 6:20
    (смеа)
  • 6:20 - 6:23
    Можете да налетате на некои прилично апстрактни концепти.
  • 6:23 - 6:25
    На пример, да ви ја кажам историјата
  • 6:25 - 6:27
    за 1950-тата година.
  • 6:27 - 6:29
    Претежно во минатото
  • 6:29 - 6:31
    на никого не му било гајле за 1950.
  • 6:31 - 6:33
    Во 1700, во 1800, во 1900...
  • 6:33 - 6:36
    на никого не му било гајле.
  • 6:37 - 6:39
    Низ 30-тите и 40-тите
  • 6:39 - 6:41
    на никого не му било гајле.
  • 6:41 - 6:43
    Наеднаш, во средината на 40-тите,
  • 6:43 - 6:45
    почнало нешто да се шушка.
  • 6:45 - 6:47
    Луѓето сфатиле дека ќе се случи 1950 година
  • 6:47 - 6:49
    и дека тоа може да биде доста важно.
  • 6:49 - 6:52
    (смеа)
  • 6:52 - 6:55
    Но, ништо не ги заинтересирало луѓето за 1950 година
  • 6:55 - 6:58
    како годината 1950.
  • 6:58 - 7:01
    (смеа)
  • 7:01 - 7:03
    Луѓето шетале наоколу преокупирани.
  • 7:03 - 7:05
    Не можеле да престанат да зборуваат
  • 7:05 - 7:08
    за сите работи кои ги направиле во 1950,
  • 7:08 - 7:11
    за сите работи што планирале да ги направат во 1950,
  • 7:11 - 7:16
    сите соништа за она што сакале да го постигнат во 1950.
  • 7:16 - 7:18
    Всушност, 1950 била толку фасцинантна
  • 7:18 - 7:20
    што со години подоцна
  • 7:20 - 7:23
    луѓето продолжиле да зборуваат за сите неверојатни нешта што се случиле тогаш.
  • 7:23 - 7:25
    Во '51, '52, '53...
  • 7:25 - 7:27
    Конечно во 1954,
  • 7:27 - 7:29
    некој се разбудил и сфатил
  • 7:29 - 7:33
    дека 1950 одамна поминала.
  • 7:33 - 7:35
    (смеа)
  • 7:35 - 7:37
    И така, одеднаш, целата работа спласнала.
  • 7:37 - 7:39
    (смеа)
  • 7:39 - 7:41
    Приказната за 1950 година
  • 7:41 - 7:43
    е приказната за секоја година што ја имаме евидентирано,
  • 7:43 - 7:46
    со мала промена, бидејќи сега ги имаме овие убави табели.
  • 7:46 - 7:49
    Па, така, можеме да ги мериме нештата.
  • 7:49 - 7:51
    Може да речеме „Колку брзо спласнала работата?“.
  • 7:51 - 7:54
    Излезе дека многу прецизно можеме да го измериме тоа.
  • 7:54 - 7:57
    Беа изведени равенки, беа направени графикони,
  • 7:57 - 7:59
    и крајниот резултат
  • 7:59 - 8:02
    ни говори дека работите спласнуваат сè побрзо и побрзо
  • 8:02 - 8:04
    со секоја измината година.
  • 8:04 - 8:09
    Сега побрзо губиме интерес за минатото.
  • 8:09 - 8:11
    Еден мал професионален совет.
  • 8:11 - 8:13
    Оние од вас кои сакаат да бидат славни
  • 8:13 - 8:15
    може да учат од 25-те најславни политички фигури,
  • 8:15 - 8:17
    автори, актери и така натаму.
  • 8:17 - 8:20
    Ако сакате да станете славни кога сте помлади, треба да бидете актер,
  • 8:20 - 8:22
    бидејќи кај нив славата врвот го достигнува кон крајот на 20-тите години од животот.
  • 8:22 - 8:24
    Сè уште сте млади, баш супер.
  • 8:24 - 8:26
    Ако можете да почекате малку, тогаш треба да бидете автор,
  • 8:26 - 8:28
    бидејќи тогаш ќе ги достигнете најголемите височини,
  • 8:28 - 8:30
    како Марк Твен, на пример. Тој е екстремно славен.
  • 8:30 - 8:32
    Но, ако сакате да дојдете до самиот врв,
  • 8:32 - 8:34
    тогаш треба да го одложите задоволството
  • 8:34 - 8:36
    и, се разбира, да станете политичар.
  • 8:36 - 8:38
    Тогаш ќе станете славни кон крајот од вашите 50-ти,
  • 8:38 - 8:40
    а потоа ќе станувате уште пославни.
  • 8:40 - 8:43
    Научниците, исто така, стануваат славни кога се многу постари.
  • 8:43 - 8:45
    Како на пример, биолозите и физичарите
  • 8:45 - 8:47
    можат да бидат славни речиси како актерите.
  • 8:47 - 8:50
    Но, никако не смеете да станете математичар.
  • 8:50 - 8:52
    (смеа)
  • 8:52 - 8:54
    Ако го направите тоа,
  • 8:54 - 8:57
    ќе си мислите „Супер. Најголемите резултати ќе ги постигнам во моите 20-ти.“
  • 8:57 - 8:59
    Но, никому нема да му е гајле.
  • 8:59 - 9:02
    (смеа)
  • 9:02 - 9:04
    Има и потрезвени податоци
  • 9:04 - 9:06
    помеѓу ен-грамите.
  • 9:06 - 9:08
    На пример, еве ја траекторијата за Марк Шагал,
  • 9:08 - 9:10
    уметник роден во 1887.
  • 9:10 - 9:13
    Ова изгледа како нормална траекторија за една славна личност.
  • 9:13 - 9:17
    Тој станува сè пославен.
  • 9:17 - 9:19
    Но, не ако барате на германски.
  • 9:19 - 9:21
    Ако барате на германски, ќе видите нешто сосема бизарно,
  • 9:21 - 9:23
    нешто што ретко се гледа.
  • 9:23 - 9:25
    Тој станува екстремно славен,
  • 9:25 - 9:27
    потоа наеднаш славата му паѓа,
  • 9:27 - 9:30
    достигнувајќи најниска точка од 1933 до 1945,
  • 9:30 - 9:33
    пред пак да се врати.
  • 9:33 - 9:35
    Се разбира, од ова гледаме
  • 9:35 - 9:38
    дека Марк Шагал бил еврејски уметник
  • 9:38 - 9:40
    во нацистичка Германија.
  • 9:40 - 9:42
    Овие показатели
  • 9:42 - 9:44
    се толку силни,
  • 9:44 - 9:47
    што не мора да знаеме дали некој бил цензуриран.
  • 9:47 - 9:49
    Самите може да го откриеме тоа
  • 9:49 - 9:51
    преку просто анализирање на показателот.
  • 9:51 - 9:53
    Еве едноставен начин како да се направи тоа.
  • 9:53 - 9:55
    Разумно очекување
  • 9:55 - 9:57
    е дека нечија слава во еден даден временски период
  • 9:57 - 9:59
    треба да биде приближно колку и просекот од нивната слава
  • 9:59 - 10:01
    пред и по тој период.
  • 10:01 - 10:03
    Тоа би го очекувале.
  • 10:03 - 10:06
    Тоа ќе го споредиме со фактичката слава.
  • 10:06 - 10:08
    Едното го делиме со другото
  • 10:08 - 10:10
    и добиваме т.н. индекс на супресија (потиснување).
  • 10:10 - 10:13
    Доколку овој индекс е многу, многу мал,
  • 10:13 - 10:15
    тогаш веројатно сте биле потиснати.
  • 10:15 - 10:18
    Доколку е многу голем, тогаш можеби користите пропаганда.
  • 10:19 - 10:21
    Можете да ја погледнете
  • 10:21 - 10:24
    дистрибуцијата на индексите на супресија низ цели популации.
  • 10:24 - 10:26
    На пример, овде...
  • 10:26 - 10:28
    ова е индекс на супресија за 5.000 луѓе
  • 10:28 - 10:30
    добиен од англиските книги за кои нема супресија.
  • 10:30 - 10:32
    Тој изгледа вака. Во основа, цврсто е центриран на еден.
  • 10:32 - 10:34
    Го гледате тоа и што би го очекувале.
  • 10:34 - 10:36
    Оваа дистрибуција е од Германија.
  • 10:36 - 10:38
    Многу е различна. Поместена е на лево.
  • 10:38 - 10:41
    Луѓето за нив зборувале два пати помалку отколку што би требало.
  • 10:41 - 10:43
    Но, што е уште поважно, дистрибуцијата е многу поширока.
  • 10:43 - 10:46
    Има многу луѓе на самиот лев крај од дистрибуцијата,
  • 10:46 - 10:49
    за кои е зборувано десет пати помалку одошто е нормално.
  • 10:49 - 10:51
    Но, има и многу луѓе на десниот крај,
  • 10:51 - 10:53
    на кои изгледа им помогнала пропаганда.
  • 10:53 - 10:56
    Оваа слика е показател за цензурата на книгите.
  • 10:56 - 10:58
    Овој метод
  • 10:58 - 11:00
    го нарекуваме културомика.
  • 11:00 - 11:02
    Сличен е на геномиката,
  • 11:02 - 11:04
    со таа разлика што со геномиката ја разбираме билогијата,
  • 11:04 - 11:07
    преку базните секвенци во човечкиот геном.
  • 11:07 - 11:09
    Културомиката е слична.
  • 11:09 - 11:12
    Тоа е применета анализа врз податоци од голем размер
  • 11:12 - 11:14
    со цел да се проучи човечката култура.
  • 11:14 - 11:16
    Наместо да гледаме низ призмата на геномот,
  • 11:16 - 11:19
    овде гледаме низ призмата на дигитализираните историски податоци.
  • 11:19 - 11:21
    Она што е супер кај културомиката
  • 11:21 - 11:23
    е што секој може да ја примени.
  • 11:23 - 11:25
    Зошто?
  • 11:25 - 11:27
    Затоа што тројца момци,
  • 11:27 - 11:30
    Џон Орвант, Мет Греј и Вил Брокман од Гугл,
  • 11:30 - 11:32
    го видоа прототипот за „Ngram Viewer“
  • 11:32 - 11:34
    и рекоа „Ова е баш забавно.
  • 11:34 - 11:37
    Мора да го направиме достапно за луѓето.“
  • 11:37 - 11:39
    Во период од две недели, пред да излезе нашата статија,
  • 11:39 - 11:42
    тие направија верзија на „Ngram Viewer“ наменета за широката јавност.
  • 11:42 - 11:45
    Па, така и вие може да напишете збор или фраза што ве интересираат
  • 11:45 - 11:47
    и веднаш да го видите ен-грамот за нив.
  • 11:47 - 11:49
    Исто така, можете да ги пребарате и книгите
  • 11:49 - 11:51
    во кои се појавува вашиот ен-грам.
  • 11:51 - 11:53
    Во само првиот ден оваа алатка беше искористена преку милион пати.
  • 11:53 - 11:55
    Тоа е најдоброто од сите пребарувања.
  • 11:55 - 11:58
    Луѓето сакаат да бидат најдобри што можат, да дадат сè од себе.
  • 11:58 - 12:01
    Но, изгледа дека во 18-тиот век на луѓето воопшто не им било гајле за тоа.
  • 12:01 - 12:04
    Не сакале да бидат најдобри (beSt), туку најдобли (beFt).
  • 12:04 - 12:07
    Се разбира ова е само грешка.
  • 12:07 - 12:09
    Не се работи за стремеж кон медиокритет,
  • 12:09 - 12:12
    туку тогаш буквата S се пишувала поинаку, слично на F.
  • 12:12 - 12:15
    Гугл го немаше забележано ова
  • 12:15 - 12:18
    и затоа ние го спомнавме во трудот што го објавивме.
  • 12:18 - 12:20
    Ова треба да биде само потсетник
  • 12:20 - 12:22
    дека, иако ова е многу забавно,
  • 12:22 - 12:24
    кога ги интерпретирате графконите мора да бидете многу внимателни
  • 12:24 - 12:27
    и мора да ги примените основните стандарди на науката.
  • 12:27 - 12:30
    Луѓето го користат ова за разни забавни цели.
  • 12:30 - 12:37
    (смеа)
  • 12:37 - 12:39
    Нема потреба да зборуваме.
  • 12:39 - 12:42
    Само ќе ви ги покажеме слајдовите и ќе молчиме.
  • 12:42 - 12:45
    Овде некој бил заинтересиран за историјата на фрустрацијата.
  • 12:45 - 12:48
    Има разни видови на фрустрација.
  • 12:48 - 12:51
    Ако си го удрите палецот, тоа е „уф“ со едно у.
  • 12:51 - 12:53
    Доколку Земјата е уништена од страна на Вогоните
  • 12:53 - 12:55
    за да се изгради меѓуѕвездена обиколница,
  • 12:55 - 12:57
    тоа е „уф“ со осум у.
  • 12:57 - 12:59
    Оваа личност ги проучувала сите видови на „уф“,
  • 12:59 - 13:01
    со од една до осум букви у.
  • 13:01 - 13:03
    Се покажало дека
  • 13:03 - 13:05
    поретко се користат оние „уф“
  • 13:05 - 13:08
    кои кореспондираат на нештата што се пофрустрирачки,
  • 13:08 - 13:11
    освен, за чудо, во раните 80-ти.
  • 13:11 - 13:13
    Мислиме дека тоа некако е поврзано со Реган.
  • 13:13 - 13:15
    (смеа)
  • 13:15 - 13:18
    Овие податоци може да се користат на разни начини,
  • 13:18 - 13:21
    но она што е најважно е дека историските записи се дигитализираат.
  • 13:21 - 13:23
    Гугл започна со дигитализација на 15 милиони книги.
  • 13:23 - 13:25
    Тоа се 12 проценти од сите книги што некогаш биле објавени,
  • 13:25 - 13:28
    што е значаен дел од човечката култура.
  • 13:28 - 13:31
    Но, културата е многу повеќе: имаме ракописи, весници,
  • 13:31 - 13:33
    податоци кои не се текстуални, како уметноста и сликите.
  • 13:33 - 13:35
    Сите тие треба да се најдат на нашите компјутери,
  • 13:35 - 13:37
    на компјутерите низ целиот свет.
  • 13:37 - 13:40
    Тоа ќе го смени начинот на кој
  • 13:40 - 13:42
    ги разбираме нашето минато, нашата сегашност и човечката култура.
  • 13:42 - 13:44
    Ви благодарам многу.
  • 13:44 - 13:47
    (аплауз)
Title:
Што научивме од 5 милиони книги
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Дали некогаш си имате играно со „Ngram Viewer“ на Гугл? Тоа е алатка од која станувате зависни и која ви овозможува да пребарувате зборови и идеи во база на податоци од пет милиони книги. Ерез Либерман Ејден и Жан-Батист Мишел ни покажуваат како функционира оваа алатка и ни демонстрираат неколку од изненадувачките работи кои можеме да ги научиме од 500 милијарди зборови.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
ALEKSANDAR MITEVSKI added a translation

Macedonian subtitles

Revisions