1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden: Semua orang tahu 2 00:00:02,000 --> 00:00:05,000 sebuah gambar mengandung seribu kata. 3 00:00:07,000 --> 00:00:09,000 Tapi kami di Harvard 4 00:00:09,000 --> 00:00:12,000 ingin tahu apakah itu memang benar. 5 00:00:12,000 --> 00:00:14,000 (Suara tawa) 6 00:00:14,000 --> 00:00:18,000 Jadi kami mengumpulkan tim ahli, 7 00:00:18,000 --> 00:00:20,000 mulai dari Harvard, MIT, 8 00:00:20,000 --> 00:00:23,000 The American Heritage Dictionary, The Encyclopedia Britannica 9 00:00:23,000 --> 00:00:25,000 hingga sponsor kami, 10 00:00:25,000 --> 00:00:28,000 Google. 11 00:00:28,000 --> 00:00:30,000 Kami memikirkan hal ini 12 00:00:30,000 --> 00:00:32,000 selama empat tahun. 13 00:00:32,000 --> 00:00:37,000 Kami sampai pada kesimpulan yang mengejutkan. 14 00:00:37,000 --> 00:00:40,000 Hadirin yang terhormat, sebuah gambar tidak mengandung seribu kata. 15 00:00:40,000 --> 00:00:42,000 Bahkan, kami menemukan beberapa gambar 16 00:00:42,000 --> 00:00:47,000 yang mengandung 500 miliar kata. 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel: Bagaimana kami bisa sampai pada kesimpulan ini? 18 00:00:49,000 --> 00:00:51,000 Saya dan Erez berpikir tentang cara 19 00:00:51,000 --> 00:00:53,000 mendapatkan gambaran besar budaya manusia 20 00:00:53,000 --> 00:00:56,000 dan sejarah manusia: berubah seiring waktu. 21 00:00:56,000 --> 00:00:58,000 Ada banyak buku yang telah ditulis selama bertahun-tahun ini. 22 00:00:58,000 --> 00:01:00,000 Jadi kami berpikir, cara terbaik untuk belajar 23 00:01:00,000 --> 00:01:02,000 adalah dengan membaca semua jutaan buku ini. 24 00:01:02,000 --> 00:01:05,000 Tentu saja, kalau ada ukuran seberapa keren hal ini, 25 00:01:05,000 --> 00:01:08,000 rankingnya pasti sangat tinggi. 26 00:01:08,000 --> 00:01:10,000 Masalahnya ada sumbu-X untuk itu, 27 00:01:10,000 --> 00:01:12,000 yaitu sumbu kepraktisan, 28 00:01:12,000 --> 00:01:14,000 yang sangat-sangat rendah. 29 00:01:14,000 --> 00:01:17,000 (Tepuk tangan) 30 00:01:17,000 --> 00:01:20,000 Orang-orang cenderung menggunakan pendekatan alternatif, 31 00:01:20,000 --> 00:01:22,000 mengambil beberapa buku dan membacanya dengan teliti. 32 00:01:22,000 --> 00:01:24,000 Ini sangat praktis tapi tidak keren. 33 00:01:24,000 --> 00:01:27,000 Yang ingin kita lakukan adalah 34 00:01:27,000 --> 00:01:30,000 masuk ke sisi yang keren tapi juga praktis. 35 00:01:30,000 --> 00:01:33,000 Ternyata ada sebuah perusahaan di seberang sungai yang bernama Google 36 00:01:33,000 --> 00:01:35,000 yang memulai proyek digitalisasinya beberapa tahun lalu 37 00:01:35,000 --> 00:01:37,000 yang mungkin bisa mewujudkan pendekatan ini. 38 00:01:37,000 --> 00:01:39,000 Mereka mendigitalkan jutaan buku. 39 00:01:39,000 --> 00:01:42,000 Jadi artinya, seseorang bisa menggunakan metode komputasional 40 00:01:42,000 --> 00:01:44,000 untuk membaca semua buku dengan satu klik. 41 00:01:44,000 --> 00:01:47,000 Itu sangat praktis dan mengagumkan. 42 00:01:48,000 --> 00:01:50,000 ELA: Mari kita bahas sedikit dari mana asal buku-buku itu. 43 00:01:50,000 --> 00:01:53,000 Sejak dulu, selalu ada yang namanya penulis. 44 00:01:53,000 --> 00:01:56,000 Penulis-penulis ini berjuang menulis buku. 45 00:01:56,000 --> 00:01:58,000 Ini menjadi jauh lebih mudah 46 00:01:58,000 --> 00:02:00,000 ketika mesin cetak muncul beberapa abad yang lalu. 47 00:02:00,000 --> 00:02:03,000 Sejak itu, penulis telah melalui 48 00:02:03,000 --> 00:02:05,000 dalam 129 juta kesempatan berbeda 49 00:02:05,000 --> 00:02:07,000 untuk menerbitkan buku. 50 00:02:07,000 --> 00:02:09,000 Kalau buku-buku itu tidak hilang ditelan waktu, 51 00:02:09,000 --> 00:02:11,000 kemungkinan mereka ada di perpustakaan, 52 00:02:11,000 --> 00:02:14,000 dan ada banyak buku itu yang diambil dari perpustakaan 53 00:02:14,000 --> 00:02:16,000 dan didigitalkan oleh Google, 54 00:02:16,000 --> 00:02:18,000 yang telah memindai 15 juta buku sampai hari ini. 55 00:02:18,000 --> 00:02:21,000 Saat Google mendigitalkan buku, mereka memasukkannya ke dalam format yang rapi. 56 00:02:21,000 --> 00:02:23,000 Kita sekarang punya data dan juga metadatanya. 57 00:02:23,000 --> 00:02:26,000 Kita punya informasi seperti di mana buku itu diterbitkan, 58 00:02:26,000 --> 00:02:28,000 siapa penulisnya, kapan diterbitkan. 59 00:02:28,000 --> 00:02:31,000 Yang kita lakukan adalah menelusuri catatan-catatan itu 60 00:02:31,000 --> 00:02:35,000 dan mengecualikan semua yang kualitas datanya tidak baik. 61 00:02:35,000 --> 00:02:37,000 Akhirnya yang tersisa adalah 62 00:02:37,000 --> 00:02:40,000 sekumpulan buku sebanyak lima juta, 63 00:02:40,000 --> 00:02:43,000 500 miliar kata, 64 00:02:43,000 --> 00:02:45,000 serangkaian karakter yang seribu kali lebih panjang 65 00:02:45,000 --> 00:02:48,000 daripada genom manusia -- 66 00:02:48,000 --> 00:02:50,000 teks yang jika dituliskan 67 00:02:50,000 --> 00:02:52,000 panjangnya adalah jarak dari sini ke Bulan dan 68 00:02:52,000 --> 00:02:54,000 kembali 10 kali -- 69 00:02:54,000 --> 00:02:58,000 potongan penting genom budaya kita. 70 00:02:58,000 --> 00:03:00,000 Tentu saja itu yang kami lakukan 71 00:03:00,000 --> 00:03:03,000 ketika dihadapkan dengan hiperbola semacam itu ... 72 00:03:03,000 --> 00:03:05,000 (Suara tawa) 73 00:03:05,000 --> 00:03:08,000 sama seperti yang akan dilakukan oleh 74 00:03:08,000 --> 00:03:11,000 peneliti sejati mana pun. 75 00:03:11,000 --> 00:03:13,000 Kami ambil satu halaman dari XKCD, 76 00:03:13,000 --> 00:03:15,000 dan berkata, "Minggir. 77 00:03:15,000 --> 00:03:17,000 Kami akan menggunakan ilmu pengetahuan." 78 00:03:17,000 --> 00:03:19,000 (Suara tawa) 79 00:03:19,000 --> 00:03:21,000 JM: Tentu saja, kami berpikir, 80 00:03:21,000 --> 00:03:23,000 mari pertama-tama kita gelar data ini di luar sana 81 00:03:23,000 --> 00:03:25,000 agar orang-orang bisa menerapkan ilmu pengetahuan sendiri. 82 00:03:25,000 --> 00:03:27,000 Kami berpikir, apakah data ini boleh kami buka? 83 00:03:27,000 --> 00:03:29,000 Tentu saja kita ingin mengambil semua buku itu 84 00:03:29,000 --> 00:03:31,000 dan membuka seluruh teks dari lima juta buku ini. 85 00:03:31,000 --> 00:03:33,000 Google, dan terutama Jon Orwant, 86 00:03:33,000 --> 00:03:35,000 memberi tahu kami hitungan yang harus kami ketahui. 87 00:03:35,000 --> 00:03:38,000 Jadi ada lima juta buku, itu artinya lima juta penulis 88 00:03:38,000 --> 00:03:41,000 dan lima juta pengacara dengan setumpuk tuntutan. 89 00:03:41,000 --> 00:03:43,000 Jadi meskipun itu akan sangat keren, 90 00:03:43,000 --> 00:03:46,000 kembali, itu sangat tidak praktis. 91 00:03:46,000 --> 00:03:48,000 (Suara tawa) 92 00:03:48,000 --> 00:03:50,000 Sekali lagi, kami terjebak, 93 00:03:50,000 --> 00:03:53,000 dan kami mengambil pendekatan yang sangat praktis, yang kurang keren. 94 00:03:53,000 --> 00:03:55,000 Kami berkata, ketimbang membuka seluruh teks, 95 00:03:55,000 --> 00:03:57,000 kami akan membuka statistik tentang buku-buku itu saja. 96 00:03:57,000 --> 00:03:59,000 Jadi misalnya "A gleam of happiness." 97 00:03:59,000 --> 00:04:01,000 Terdiri dari empat kata; kita menyebutnya empat-gram. 98 00:04:01,000 --> 00:04:03,000 Kami akan memberitahu berapa kali empat-gram tertentu 99 00:04:03,000 --> 00:04:05,000 muncul dalam buku di tahun 1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 sampai 2008. 101 00:04:07,000 --> 00:04:09,000 Itu akan menghasilkan rangkaian waktu 102 00:04:09,000 --> 00:04:11,000 seberapa sering frasa tertentu ini digunakan dalam periode tertentu. 103 00:04:11,000 --> 00:04:14,000 Kami melakukan itu pada semua kata dan frasa yang muncul dalam buku-buku itu, 104 00:04:14,000 --> 00:04:17,000 dan itu menghasilkan segepok dua miliar baris 105 00:04:17,000 --> 00:04:19,000 yang menunjukkan bagaimana budaya berubah. 106 00:04:19,000 --> 00:04:21,000 ELA: Jadi dua miliar baris itu, 107 00:04:21,000 --> 00:04:23,000 kami menyebutkan dua miliar n-gram. 108 00:04:23,000 --> 00:04:25,000 Apa yang ditunjukkan? 109 00:04:25,000 --> 00:04:27,000 Masing-masing n-gram menunjukkan perkembangan tren budaya. 110 00:04:27,000 --> 00:04:29,000 Mari saya perlihatkan contohnya. 111 00:04:29,000 --> 00:04:31,000 Misalkan kata "thriving" dalam Bahasa Inggris 112 00:04:31,000 --> 00:04:33,000 kalau saya ingin menggunakan bentuk lampau kata itu. 113 00:04:33,000 --> 00:04:36,000 Saya mungkin menggunakan, "throve." 114 00:04:36,000 --> 00:04:39,000 Selain itu saya juga bisa menggunakan, "thrived." 115 00:04:39,000 --> 00:04:42,000 Mana yang harus saya gunakan? 116 00:04:42,000 --> 00:04:44,000 Bagaimana kita bisa tahu? 117 00:04:44,000 --> 00:04:46,000 Sekitar enam bulan lalu, 118 00:04:46,000 --> 00:04:48,000 cara terbaik dalam bidang ini 119 00:04:48,000 --> 00:04:50,000 yang bisa kita lakukan, misalnya, 120 00:04:50,000 --> 00:04:52,000 mengunjungi psikolog dengan rambut indah ini, 121 00:04:52,000 --> 00:04:54,000 dan berkata, 122 00:04:54,000 --> 00:04:57,000 "Steve, Anda ahli dalam kata kerja tidak beraturan. 123 00:04:57,000 --> 00:04:59,000 Apa yang harus saya gunakan?" 124 00:04:59,000 --> 00:05:01,000 Dia akan menjawab, "Kebanyakan orang menggunakan "thrived", 125 00:05:01,000 --> 00:05:04,000 tapi ada beberapa yang mengatakan "throve." 126 00:05:04,000 --> 00:05:06,000 Kurang lebih Anda pasti tahu 127 00:05:06,000 --> 00:05:09,000 kalau kita kembali ke masa 200 tahun lalu 128 00:05:09,000 --> 00:05:12,000 dan bertanya ke pejabat yang juga punya rambut indah ini, 129 00:05:12,000 --> 00:05:15,000 (Suara tawa) 130 00:05:15,000 --> 00:05:17,000 "Tom, apa yang harus saya gunakan?" 131 00:05:17,000 --> 00:05:19,000 Dia akan menjawab, "Yang saya tahu, kebanyakan orang menggunakan 'throve', 132 00:05:19,000 --> 00:05:22,000 tapi ada beberapa yang mengatakan 'thrived". 133 00:05:22,000 --> 00:05:24,000 Yang akan saya tunjukkan hanyalah data mentah. 134 00:05:24,000 --> 00:05:28,000 Dua baris dari tabel berisi dua miliar catatan ini. 135 00:05:28,000 --> 00:05:30,000 Yang Anda lihat adalah frekuensi tahun demi tahun 136 00:05:30,000 --> 00:05:33,000 kata "thrived" dan "throve". 137 00:05:34,000 --> 00:05:36,000 Ini baru dua dari 138 00:05:36,000 --> 00:05:39,000 dua miliar baris. 139 00:05:39,000 --> 00:05:41,000 Jadi keseluruhan data yang ada 140 00:05:41,000 --> 00:05:44,000 miliaran kali lebih keren dari ini. 141 00:05:44,000 --> 00:05:46,000 (Suara tawa) 142 00:05:46,000 --> 00:05:50,000 (Tepuk tangan) 143 00:05:50,000 --> 00:05:52,000 JM: Ada banyak gambar yang bernilai lebih dari 500 miliar kata. 144 00:05:52,000 --> 00:05:54,000 Yang ini misalnya. 145 00:05:54,000 --> 00:05:56,000 Kalau kita gunakan kata "influenza", 146 00:05:56,000 --> 00:05:58,000 bisa kita lihat puncaknya di saat 147 00:05:58,000 --> 00:06:01,000 epidemi flu membunuh orang-orang dunia. 148 00:06:01,000 --> 00:06:04,000 ELA: Kalau Anda belum yakin bahwa 149 00:06:04,000 --> 00:06:06,000 tingkat permukaan laut meningkat, 150 00:06:06,000 --> 00:06:09,000 begitu juga dengan CO2 di atmosfer dan suhu global. 151 00:06:09,000 --> 00:06:12,000 JM: Anda mungkin juga ingin melihat n-gram yang ini, 152 00:06:12,000 --> 00:06:15,000 dan ini untuk memberitahu Nietzsche bahwa Tuhan belum mati, 153 00:06:15,000 --> 00:06:18,000 meski Anda mungkin setuju yang dia butuhkan sebenarnya penerbit yang lebih baik. 154 00:06:18,000 --> 00:06:20,000 (Suara tawa) 155 00:06:20,000 --> 00:06:23,000 ELA: Anda bisa mendapatkan konsep yang sangat abstrak dengan ini. 156 00:06:23,000 --> 00:06:25,000 Misalnya, mari saya ceritakan sejarah 157 00:06:25,000 --> 00:06:27,000 dari tahun 1950. 158 00:06:27,000 --> 00:06:29,000 Seperti kebanyakan periode dalam sejarah, 159 00:06:29,000 --> 00:06:31,000 tidak ada yang peduli dengan tahun 1950. 160 00:06:31,000 --> 00:06:33,000 Di tahun 1700, 1800, 1900, 161 00:06:33,000 --> 00:06:36,000 tidak ada yang peduli. 162 00:06:37,000 --> 00:06:39,000 Sepanjang tahun 30-an dan 40-an, 163 00:06:39,000 --> 00:06:41,000 tidak ada yang peduli. 164 00:06:41,000 --> 00:06:43,000 Tiba-tiba, di pertengahan tahun 40-an, 165 00:06:43,000 --> 00:06:45,000 mulai ramai. 166 00:06:45,000 --> 00:06:47,000 Orang-orang sadar bahwa tahun 1950 akan segera tiba, 167 00:06:47,000 --> 00:06:49,000 dan bisa jadi sesuatu yang besar. 168 00:06:49,000 --> 00:06:52,000 (Suara tawa) 169 00:06:52,000 --> 00:06:55,000 Tapi puncak ketertarikan orang-orang akan tahun 1950 170 00:06:55,000 --> 00:06:58,000 adalah di tahun 1950. 171 00:06:58,000 --> 00:07:01,000 (Suara tawa) 172 00:07:01,000 --> 00:07:03,000 Orang-orang semua terobsesi. 173 00:07:03,000 --> 00:07:05,000 Mereka tidak bisa berhenti bicara 174 00:07:05,000 --> 00:07:08,000 tentang hal-hal yang mereka lakukan di tahun 1950, 175 00:07:08,000 --> 00:07:11,000 semua yang akan mereka lakukan di tahun 1950, 176 00:07:11,000 --> 00:07:16,000 semua mimpi yang ingin mereka capai di tahun 1950. 177 00:07:16,000 --> 00:07:18,000 Bahkan, tahun 1950 begitu menariknya 178 00:07:18,000 --> 00:07:20,000 hingga beberapa tahun kemudian, 179 00:07:20,000 --> 00:07:23,000 orang-orang masih terus berbicara tentang hal-hal yang terjadi, 180 00:07:23,000 --> 00:07:25,000 di tahun 1951, 1952, 1953. 181 00:07:25,000 --> 00:07:27,000 Akhirnya di tahun 1954, 182 00:07:27,000 --> 00:07:29,000 seseorang bangun dan menyadari 183 00:07:29,000 --> 00:07:33,000 bahwa tahun 1950 sudah lewat. 184 00:07:33,000 --> 00:07:35,000 (Suara tawa) 185 00:07:35,000 --> 00:07:37,000 Seperti itu saja, gelembungnya pun meledak. 186 00:07:37,000 --> 00:07:39,000 (Suara tawa) 187 00:07:39,000 --> 00:07:41,000 Cerita tentang tahun 1950 188 00:07:41,000 --> 00:07:43,000 adalah cerita tahunan yang kita catat, 189 00:07:43,000 --> 00:07:46,000 dengan sedikit variasi karena sekarang kita punya grafik yang keren ini. 190 00:07:46,000 --> 00:07:49,000 Karena kita punya grafik keren ini, kita bisa mengukur. 191 00:07:49,000 --> 00:07:51,000 Kita bisa berkata, "Seberapa cepat gelembung ini meledak?" 192 00:07:51,000 --> 00:07:54,000 Ternyata kita bisa mengukurnya dengan sangat tepat. 193 00:07:54,000 --> 00:07:57,000 Menghasilkan persamaan, menciptakan grafik, 194 00:07:57,000 --> 00:07:59,000 dan hasil bersihnya 195 00:07:59,000 --> 00:08:02,000 adalah kita menemukan gelembung ini meledak semakin cepat 196 00:08:02,000 --> 00:08:04,000 setiap tahunnya. 197 00:08:04,000 --> 00:08:09,000 Kita kehilangan minat terhadap masa lalu dengan lebih cepat. 198 00:08:09,000 --> 00:08:11,000 JM: Sedikit nasihat karir. 199 00:08:11,000 --> 00:08:13,000 Bagi Anda yang ingin menjadi terkenal, 200 00:08:13,000 --> 00:08:15,000 kita bisa belajar dari 25 tokoh politik yang paling terkenal, 201 00:08:15,000 --> 00:08:17,000 penulis, aktor, dan sebagainya. 202 00:08:17,000 --> 00:08:20,000 Kalau Anda ingin cepat terkenal, Anda harus menjadi aktor, 203 00:08:20,000 --> 00:08:22,000 karena ketenaran mulai naik di akhir usia 20-an -- 204 00:08:22,000 --> 00:08:24,000 Anda masih muda, benar-benar bagus. 205 00:08:24,000 --> 00:08:26,000 Kalau Anda mau menunggu, Anda harus menjadi penulis, 206 00:08:26,000 --> 00:08:28,000 karena Anda bisa naik sangat tinggi, 207 00:08:28,000 --> 00:08:30,000 seperti Mark Twain, misalnya: sangat terkenal. 208 00:08:30,000 --> 00:08:32,000 Tapi kalau Anda ingin mencapai puncak, 209 00:08:32,000 --> 00:08:34,000 Anda harus mau menunggu lebih lama 210 00:08:34,000 --> 00:08:36,000 dan, tentu saja, menjadi politikus. 211 00:08:36,000 --> 00:08:38,000 Di sini Anda akan menjadi terkenal di akhir usia 50-an, 212 00:08:38,000 --> 00:08:40,000 dan menjadi sangat terkenal sesudahnya. 213 00:08:40,000 --> 00:08:43,000 Ilmuwan juga cenderung menjadi terkenal di usia tua. 214 00:08:43,000 --> 00:08:45,000 Misalnya, ahli biologi dan fisika 215 00:08:45,000 --> 00:08:47,000 cenderung hampir sama terkenalnya dengan aktor. 216 00:08:47,000 --> 00:08:50,000 Yang tidak boleh Anda lakukan adalah menjadi ahli matematika. 217 00:08:50,000 --> 00:08:52,000 (Suara tawa) 218 00:08:52,000 --> 00:08:54,000 Kalau Anda melakukan itu, 219 00:08:54,000 --> 00:08:57,000 Anda mungkin berpikir, "Baiklah. Saya akan menghasilkan karya terbaik di usia 20-an." 220 00:08:57,000 --> 00:08:59,000 Tapi coba tebak, tidak ada yang peduli. 221 00:08:59,000 --> 00:09:02,000 (Suara tawa) 222 00:09:02,000 --> 00:09:04,000 ELA: Ada catatan yang lebih serius 223 00:09:04,000 --> 00:09:06,000 tentang n-gram. 224 00:09:06,000 --> 00:09:08,000 Misalnya, inilah lintasan Marc Chagall, 225 00:09:08,000 --> 00:09:10,000 seniman yang lahir di tahun 1887. 226 00:09:10,000 --> 00:09:13,000 Ini tampak seperti lintasan normal orang terkenal. 227 00:09:13,000 --> 00:09:17,000 Dia menjadi semakin terkenal, 228 00:09:17,000 --> 00:09:19,000 kecuali kalau Anda melihat dalam data bahasa Jerman. 229 00:09:19,000 --> 00:09:21,000 Dalam bahasa Jerman, ada sesuatu yang sangat aneh, 230 00:09:21,000 --> 00:09:23,000 sesuatu yang jarang Anda lihat, 231 00:09:23,000 --> 00:09:25,000 dia menjadi sangat terkenal 232 00:09:25,000 --> 00:09:27,000 dan tiba-tiba anjlok, 233 00:09:27,000 --> 00:09:30,000 mencapai titik dasar antara 1933 dan 1945, 234 00:09:30,000 --> 00:09:33,000 sebelum naik lagi setelahnya. 235 00:09:33,000 --> 00:09:35,000 Tentu saja, yang kita lihat adalah 236 00:09:35,000 --> 00:09:38,000 kenyataan bahwa Marc Chagall adalah artis Yahudi 237 00:09:38,000 --> 00:09:40,000 di negara Nazi Jerman. 238 00:09:40,000 --> 00:09:42,000 Sinyal ini 239 00:09:42,000 --> 00:09:44,000 sangat kuat 240 00:09:44,000 --> 00:09:47,000 kita tidak perlu tahu bahwa seseorang disensor. 241 00:09:47,000 --> 00:09:49,000 Kita bisa melihatnya 242 00:09:49,000 --> 00:09:51,000 menggunakan pengolahan sinyal yang paling dasar. 243 00:09:51,000 --> 00:09:53,000 Inilah cara sederhana untuk melakukannya. 244 00:09:53,000 --> 00:09:55,000 Harapan yang masuk akal 245 00:09:55,000 --> 00:09:57,000 seseorang terkenal dalam periode waktu tertentu 246 00:09:57,000 --> 00:09:59,000 seharusnya kurang lebih sama dengan ketenaran mereka 247 00:09:59,000 --> 00:10:01,000 sebelum dan sesudahnya. 248 00:10:01,000 --> 00:10:03,000 Jadi itulah yang kita harapkan. 249 00:10:03,000 --> 00:10:06,000 Kita membandingkan itu dengan ketenaran yang kita amati. 250 00:10:06,000 --> 00:10:08,000 Kita cukup membagi satu hal dengan yang lainnya 251 00:10:08,000 --> 00:10:10,000 untuk mendapatkan apa yang kita sebut indeks tekanan. 252 00:10:10,000 --> 00:10:13,000 Kalau indeks tekanan sangat kecil, 253 00:10:13,000 --> 00:10:15,000 kemungkinan Anda sedang ditekan. 254 00:10:15,000 --> 00:10:18,000 Kalau sangat besar, mungkin Anda diuntungkan oleh propaganda. 255 00:10:19,000 --> 00:10:21,000 JM: Anda bisa melihat 256 00:10:21,000 --> 00:10:24,000 distribusi indeks tekanan di seluruh populasi. 257 00:10:24,000 --> 00:10:26,000 Misalnya, di sini -- 258 00:10:26,000 --> 00:10:28,000 indeks tekanan untuk 5000 orang 259 00:10:28,000 --> 00:10:30,000 dipilih dalam buku bahasa Inggris yang diketahui tidak ada tekanan -- 260 00:10:30,000 --> 00:10:32,000 akan seperti ini, intinya berpusat pada satu titik. 261 00:10:32,000 --> 00:10:34,000 Yang Anda harapkan adalah yang Anda lihat. 262 00:10:34,000 --> 00:10:36,000 Ini distribusi seperti yang tampak di Jerman -- 263 00:10:36,000 --> 00:10:38,000 sangat berbeda, bergeser ke kiri. 264 00:10:38,000 --> 00:10:41,000 Orang-orang membicarakannya dua kali lebih sedikit dari yang seharusnya. 265 00:10:41,000 --> 00:10:43,000 Tapi yang jauh lebih penting, distribusinya sangat lebar. 266 00:10:43,000 --> 00:10:46,000 Ada banyak orang yang akhirnya ada di pojok kiri distribusi ini 267 00:10:46,000 --> 00:10:49,000 yang berbicara sekitar 10 kali lebih sedikit dari yang seharusnya. 268 00:10:49,000 --> 00:10:51,000 Tapi ada banyak juga orang di pojok kanan 269 00:10:51,000 --> 00:10:53,000 yang diuntungkan oleh propaganda ini. 270 00:10:53,000 --> 00:10:56,000 Gambar ini adalah rekaman penyensoran dalam sejarah buku. 271 00:10:56,000 --> 00:10:58,000 ELA: Jadi kulturomika 272 00:10:58,000 --> 00:11:00,000 itulah sebutan untuk metode ini. 273 00:11:00,000 --> 00:11:02,000 Seperti genomika. 274 00:11:02,000 --> 00:11:04,000 Hanya saja genomika menggunakan kacamata biologi 275 00:11:04,000 --> 00:11:07,000 melalui jendela rangkaian basa dalam genom manusia. 276 00:11:07,000 --> 00:11:09,000 Kulturomika hampir mirip. 277 00:11:09,000 --> 00:11:12,000 Ini adalah aplikasi analisis pengumpulan data skala besar 278 00:11:12,000 --> 00:11:14,000 untuk penelitian budaya manusia. 279 00:11:14,000 --> 00:11:16,000 Di sini, alih-alih melalui kacamata genom, 280 00:11:16,000 --> 00:11:19,000 kami melalui kacamata potongan digital catatan sejarah. 281 00:11:19,000 --> 00:11:21,000 Yang menarik tentang kulturomika ini 282 00:11:21,000 --> 00:11:23,000 semua orang bisa melakukannya. 283 00:11:23,000 --> 00:11:25,000 Mengapa semua orang bisa melakukannya? 284 00:11:25,000 --> 00:11:27,000 Semua orang bisa melakukannya berkat tiga orang ini, 285 00:11:27,000 --> 00:11:30,000 Jon Orwant, Matt Gray, dan Will Brockman di Google, 286 00:11:30,000 --> 00:11:32,000 melihat prototip Ngram Viewer, 287 00:11:32,000 --> 00:11:34,000 dan berkata, "Ini asyik. 288 00:11:34,000 --> 00:11:37,000 Kita harus membuatnya untuk umum." 289 00:11:37,000 --> 00:11:39,000 Jadi tepat dalam dua minggu - sebelum makalah kami terbit -- 290 00:11:39,000 --> 00:11:42,000 mereka membuat versi Ngram Viewer untuk khalayak umum. 291 00:11:42,000 --> 00:11:45,000 Jadi Anda bisa mengetikkan kata atau frasa yang menarik minat Anda 292 00:11:45,000 --> 00:11:47,000 dan langsung melihat n-gramnya -- 293 00:11:47,000 --> 00:11:49,000 juga menelusuri contoh-contoh berbagai buku 294 00:11:49,000 --> 00:11:51,000 yang memuat n-gram Anda tadi. 295 00:11:51,000 --> 00:11:53,000 JM: Perangkat ini digunakan lebih dari satu juta kali dalam hari pertama, 296 00:11:53,000 --> 00:11:55,000 dan ini yang terbaik dari semua permintaan yang ada. 297 00:11:55,000 --> 00:11:58,000 orang-orang selalu ingin melakukan yang terbaik. 298 00:11:58,000 --> 00:12:01,000 Tapi ternyata di abad ke-18, orang-orang tidak peduli dengan hal itu. 299 00:12:01,000 --> 00:12:04,000 Mereka tidak ingin melakukan yang terbaik, "best", tapi "beft". 300 00:12:04,000 --> 00:12:07,000 Tentu saja, ini hanya kesalahan. 301 00:12:07,000 --> 00:12:09,000 Bukan orang-orang saat itu ingin menjadi biasa saja, 302 00:12:09,000 --> 00:12:12,000 tapi karena saat itu huruf S ditulis berbeda, seperti huruf F. 303 00:12:12,000 --> 00:12:15,000 Google tidak mengetahui ini saat itu, 304 00:12:15,000 --> 00:12:18,000 jadi kami melaporkan ini dalam artikel ilmiah yang kami tulis. 305 00:12:18,000 --> 00:12:20,000 Tapi ini ternyata menjadi sebuah peringatan 306 00:12:20,000 --> 00:12:22,000 bahwa meskipun menyenangkan, 307 00:12:22,000 --> 00:12:24,000 saat menginterpretasikan grafik ini, Anda harus hati-hati, 308 00:12:24,000 --> 00:12:27,000 dan Anda harus mengadopsi standar dasar dalam ilmu pengetahuan. 309 00:12:27,000 --> 00:12:30,000 ELA: Orang-orang menggunakannya untuk bermain-main. 310 00:12:30,000 --> 00:12:37,000 (Suara tawa) 311 00:12:37,000 --> 00:12:39,000 Sebenarnya, kami bahkan tidak perlu bicara, 312 00:12:39,000 --> 00:12:42,000 hanya perlu menunjukkan semua slide yang ada dan diam. 313 00:12:42,000 --> 00:12:45,000 Orang ini tertarik pada sejarah frustrasi. 314 00:12:45,000 --> 00:12:48,000 Ada banyak jenis frustrasi. 315 00:12:48,000 --> 00:12:51,000 Kalau Anda tersandung, itu "argh" dengan satu A. 316 00:12:51,000 --> 00:12:53,000 Kalau planet Bumi dimusnahkan oleh Vogon 317 00:12:53,000 --> 00:12:55,000 yang datang melalui jalan pintas antargalaksi, 318 00:12:55,000 --> 00:12:57,000 itu "aaaaaaaargh" dengan delapan A. 319 00:12:57,000 --> 00:12:59,000 Orang ini menyelidiki semua "argh," 320 00:12:59,000 --> 00:13:01,000 mulai dari satu sampai delapan A. 321 00:13:01,000 --> 00:13:03,000 Ternyata 322 00:13:03,000 --> 00:13:05,000 semakin sedikit "argh" 323 00:13:05,000 --> 00:13:08,000 tentu saja menyatakan hal-hal yang lebih membuat frustrasi -- 324 00:13:08,000 --> 00:13:11,000 kecuali, anehnya, di awal tahun 80-an. 325 00:13:11,000 --> 00:13:13,000 Kami pikir ini berhubungan dengan Reagan. 326 00:13:13,000 --> 00:13:15,000 (Suara tawa) 327 00:13:15,000 --> 00:13:18,000 JM: Ada banyak kegunaan data ini, 328 00:13:18,000 --> 00:13:21,000 tapi pada dasarnya catatan sejarah sedang didigitalkan. 329 00:13:21,000 --> 00:13:23,000 Google sudah mulai mendigitalkan 15 juta buku. 330 00:13:23,000 --> 00:13:25,000 Itu 12 persen dari semua buku yang pernah diterbitkan. 331 00:13:25,000 --> 00:13:28,000 Itu bagian yang cukup besar dari budaya manusia. 332 00:13:28,000 --> 00:13:31,000 Ada banyak budaya: naskah, koran, 333 00:13:31,000 --> 00:13:33,000 ada yang bukan berupa teks, seperti seni dan lukisan. 334 00:13:33,000 --> 00:13:35,000 Semua ini ada dalam komputer kita, 335 00:13:35,000 --> 00:13:37,000 komputer di seluruh dunia. 336 00:13:37,000 --> 00:13:40,000 Dan ketika itu terjadi, itu akan mengubah cara kita 337 00:13:40,000 --> 00:13:42,000 memahami masa lalu, masa kini, dan budaya manusia. 338 00:13:42,000 --> 00:13:44,000 Terima kasih banyak. 339 00:13:44,000 --> 00:13:47,000 (Tepuk tangan)