< Return to Video

Apa yang kami pelajari dari 5 juta buku

  • 0:00 - 0:02
    Erez Lieberman Aiden: Semua orang tahu
  • 0:02 - 0:05
    sebuah gambar mengandung seribu kata.
  • 0:07 - 0:09
    Tapi kami di Harvard
  • 0:09 - 0:12
    ingin tahu apakah itu memang benar.
  • 0:12 - 0:14
    (Suara tawa)
  • 0:14 - 0:18
    Jadi kami mengumpulkan tim ahli,
  • 0:18 - 0:20
    mulai dari Harvard, MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, The Encyclopedia Britannica
  • 0:23 - 0:25
    hingga sponsor kami,
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    Kami memikirkan hal ini
  • 0:30 - 0:32
    selama empat tahun.
  • 0:32 - 0:37
    Kami sampai pada kesimpulan yang mengejutkan.
  • 0:37 - 0:40
    Hadirin yang terhormat, sebuah gambar tidak mengandung seribu kata.
  • 0:40 - 0:42
    Bahkan, kami menemukan beberapa gambar
  • 0:42 - 0:47
    yang mengandung 500 miliar kata.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Bagaimana kami bisa sampai pada kesimpulan ini?
  • 0:49 - 0:51
    Saya dan Erez berpikir tentang cara
  • 0:51 - 0:53
    mendapatkan gambaran besar budaya manusia
  • 0:53 - 0:56
    dan sejarah manusia: berubah seiring waktu.
  • 0:56 - 0:58
    Ada banyak buku yang telah ditulis selama bertahun-tahun ini.
  • 0:58 - 1:00
    Jadi kami berpikir, cara terbaik untuk belajar
  • 1:00 - 1:02
    adalah dengan membaca semua jutaan buku ini.
  • 1:02 - 1:05
    Tentu saja, kalau ada ukuran seberapa keren hal ini,
  • 1:05 - 1:08
    rankingnya pasti sangat tinggi.
  • 1:08 - 1:10
    Masalahnya ada sumbu-X untuk itu,
  • 1:10 - 1:12
    yaitu sumbu kepraktisan,
  • 1:12 - 1:14
    yang sangat-sangat rendah.
  • 1:14 - 1:17
    (Tepuk tangan)
  • 1:17 - 1:20
    Orang-orang cenderung menggunakan pendekatan alternatif,
  • 1:20 - 1:22
    mengambil beberapa buku dan membacanya dengan teliti.
  • 1:22 - 1:24
    Ini sangat praktis tapi tidak keren.
  • 1:24 - 1:27
    Yang ingin kita lakukan adalah
  • 1:27 - 1:30
    masuk ke sisi yang keren tapi juga praktis.
  • 1:30 - 1:33
    Ternyata ada sebuah perusahaan di seberang sungai yang bernama Google
  • 1:33 - 1:35
    yang memulai proyek digitalisasinya beberapa tahun lalu
  • 1:35 - 1:37
    yang mungkin bisa mewujudkan pendekatan ini.
  • 1:37 - 1:39
    Mereka mendigitalkan jutaan buku.
  • 1:39 - 1:42
    Jadi artinya, seseorang bisa menggunakan metode komputasional
  • 1:42 - 1:44
    untuk membaca semua buku dengan satu klik.
  • 1:44 - 1:47
    Itu sangat praktis dan mengagumkan.
  • 1:48 - 1:50
    ELA: Mari kita bahas sedikit dari mana asal buku-buku itu.
  • 1:50 - 1:53
    Sejak dulu, selalu ada yang namanya penulis.
  • 1:53 - 1:56
    Penulis-penulis ini berjuang menulis buku.
  • 1:56 - 1:58
    Ini menjadi jauh lebih mudah
  • 1:58 - 2:00
    ketika mesin cetak muncul beberapa abad yang lalu.
  • 2:00 - 2:03
    Sejak itu, penulis telah melalui
  • 2:03 - 2:05
    dalam 129 juta kesempatan berbeda
  • 2:05 - 2:07
    untuk menerbitkan buku.
  • 2:07 - 2:09
    Kalau buku-buku itu tidak hilang ditelan waktu,
  • 2:09 - 2:11
    kemungkinan mereka ada di perpustakaan,
  • 2:11 - 2:14
    dan ada banyak buku itu yang diambil dari perpustakaan
  • 2:14 - 2:16
    dan didigitalkan oleh Google,
  • 2:16 - 2:18
    yang telah memindai 15 juta buku sampai hari ini.
  • 2:18 - 2:21
    Saat Google mendigitalkan buku, mereka memasukkannya ke dalam format yang rapi.
  • 2:21 - 2:23
    Kita sekarang punya data dan juga metadatanya.
  • 2:23 - 2:26
    Kita punya informasi seperti di mana buku itu diterbitkan,
  • 2:26 - 2:28
    siapa penulisnya, kapan diterbitkan.
  • 2:28 - 2:31
    Yang kita lakukan adalah menelusuri catatan-catatan itu
  • 2:31 - 2:35
    dan mengecualikan semua yang kualitas datanya tidak baik.
  • 2:35 - 2:37
    Akhirnya yang tersisa adalah
  • 2:37 - 2:40
    sekumpulan buku sebanyak lima juta,
  • 2:40 - 2:43
    500 miliar kata,
  • 2:43 - 2:45
    serangkaian karakter yang seribu kali lebih panjang
  • 2:45 - 2:48
    daripada genom manusia --
  • 2:48 - 2:50
    teks yang jika dituliskan
  • 2:50 - 2:52
    panjangnya adalah jarak dari sini ke Bulan dan
  • 2:52 - 2:54
    kembali 10 kali --
  • 2:54 - 2:58
    potongan penting genom budaya kita.
  • 2:58 - 3:00
    Tentu saja itu yang kami lakukan
  • 3:00 - 3:03
    ketika dihadapkan dengan hiperbola semacam itu ...
  • 3:03 - 3:05
    (Suara tawa)
  • 3:05 - 3:08
    sama seperti yang akan dilakukan oleh
  • 3:08 - 3:11
    peneliti sejati mana pun.
  • 3:11 - 3:13
    Kami ambil satu halaman dari XKCD,
  • 3:13 - 3:15
    dan berkata, "Minggir.
  • 3:15 - 3:17
    Kami akan menggunakan ilmu pengetahuan."
  • 3:17 - 3:19
    (Suara tawa)
  • 3:19 - 3:21
    JM: Tentu saja, kami berpikir,
  • 3:21 - 3:23
    mari pertama-tama kita gelar data ini di luar sana
  • 3:23 - 3:25
    agar orang-orang bisa menerapkan ilmu pengetahuan sendiri.
  • 3:25 - 3:27
    Kami berpikir, apakah data ini boleh kami buka?
  • 3:27 - 3:29
    Tentu saja kita ingin mengambil semua buku itu
  • 3:29 - 3:31
    dan membuka seluruh teks dari lima juta buku ini.
  • 3:31 - 3:33
    Google, dan terutama Jon Orwant,
  • 3:33 - 3:35
    memberi tahu kami hitungan yang harus kami ketahui.
  • 3:35 - 3:38
    Jadi ada lima juta buku, itu artinya lima juta penulis
  • 3:38 - 3:41
    dan lima juta pengacara dengan setumpuk tuntutan.
  • 3:41 - 3:43
    Jadi meskipun itu akan sangat keren,
  • 3:43 - 3:46
    kembali, itu sangat tidak praktis.
  • 3:46 - 3:48
    (Suara tawa)
  • 3:48 - 3:50
    Sekali lagi, kami terjebak,
  • 3:50 - 3:53
    dan kami mengambil pendekatan yang sangat praktis, yang kurang keren.
  • 3:53 - 3:55
    Kami berkata, ketimbang membuka seluruh teks,
  • 3:55 - 3:57
    kami akan membuka statistik tentang buku-buku itu saja.
  • 3:57 - 3:59
    Jadi misalnya "A gleam of happiness."
  • 3:59 - 4:01
    Terdiri dari empat kata; kita menyebutnya empat-gram.
  • 4:01 - 4:03
    Kami akan memberitahu berapa kali empat-gram tertentu
  • 4:03 - 4:05
    muncul dalam buku di tahun 1801, 1802, 1803,
  • 4:05 - 4:07
    sampai 2008.
  • 4:07 - 4:09
    Itu akan menghasilkan rangkaian waktu
  • 4:09 - 4:11
    seberapa sering frasa tertentu ini digunakan dalam periode tertentu.
  • 4:11 - 4:14
    Kami melakukan itu pada semua kata dan frasa yang muncul dalam buku-buku itu,
  • 4:14 - 4:17
    dan itu menghasilkan segepok dua miliar baris
  • 4:17 - 4:19
    yang menunjukkan bagaimana budaya berubah.
  • 4:19 - 4:21
    ELA: Jadi dua miliar baris itu,
  • 4:21 - 4:23
    kami menyebutkan dua miliar n-gram.
  • 4:23 - 4:25
    Apa yang ditunjukkan?
  • 4:25 - 4:27
    Masing-masing n-gram menunjukkan perkembangan tren budaya.
  • 4:27 - 4:29
    Mari saya perlihatkan contohnya.
  • 4:29 - 4:31
    Misalkan kata "thriving" dalam Bahasa Inggris
  • 4:31 - 4:33
    kalau saya ingin menggunakan bentuk lampau kata itu.
  • 4:33 - 4:36
    Saya mungkin menggunakan, "throve."
  • 4:36 - 4:39
    Selain itu saya juga bisa menggunakan, "thrived."
  • 4:39 - 4:42
    Mana yang harus saya gunakan?
  • 4:42 - 4:44
    Bagaimana kita bisa tahu?
  • 4:44 - 4:46
    Sekitar enam bulan lalu,
  • 4:46 - 4:48
    cara terbaik dalam bidang ini
  • 4:48 - 4:50
    yang bisa kita lakukan, misalnya,
  • 4:50 - 4:52
    mengunjungi psikolog dengan rambut indah ini,
  • 4:52 - 4:54
    dan berkata,
  • 4:54 - 4:57
    "Steve, Anda ahli dalam kata kerja tidak beraturan.
  • 4:57 - 4:59
    Apa yang harus saya gunakan?"
  • 4:59 - 5:01
    Dia akan menjawab, "Kebanyakan orang menggunakan "thrived",
  • 5:01 - 5:04
    tapi ada beberapa yang mengatakan "throve."
  • 5:04 - 5:06
    Kurang lebih Anda pasti tahu
  • 5:06 - 5:09
    kalau kita kembali ke masa 200 tahun lalu
  • 5:09 - 5:12
    dan bertanya ke pejabat yang juga punya rambut indah ini,
  • 5:12 - 5:15
    (Suara tawa)
  • 5:15 - 5:17
    "Tom, apa yang harus saya gunakan?"
  • 5:17 - 5:19
    Dia akan menjawab, "Yang saya tahu, kebanyakan orang menggunakan 'throve',
  • 5:19 - 5:22
    tapi ada beberapa yang mengatakan 'thrived".
  • 5:22 - 5:24
    Yang akan saya tunjukkan hanyalah data mentah.
  • 5:24 - 5:28
    Dua baris dari tabel berisi dua miliar catatan ini.
  • 5:28 - 5:30
    Yang Anda lihat adalah frekuensi tahun demi tahun
  • 5:30 - 5:33
    kata "thrived" dan "throve".
  • 5:34 - 5:36
    Ini baru dua dari
  • 5:36 - 5:39
    dua miliar baris.
  • 5:39 - 5:41
    Jadi keseluruhan data yang ada
  • 5:41 - 5:44
    miliaran kali lebih keren dari ini.
  • 5:44 - 5:46
    (Suara tawa)
  • 5:46 - 5:50
    (Tepuk tangan)
  • 5:50 - 5:52
    JM: Ada banyak gambar yang bernilai lebih dari 500 miliar kata.
  • 5:52 - 5:54
    Yang ini misalnya.
  • 5:54 - 5:56
    Kalau kita gunakan kata "influenza",
  • 5:56 - 5:58
    bisa kita lihat puncaknya di saat
  • 5:58 - 6:01
    epidemi flu membunuh orang-orang dunia.
  • 6:01 - 6:04
    ELA: Kalau Anda belum yakin bahwa
  • 6:04 - 6:06
    tingkat permukaan laut meningkat,
  • 6:06 - 6:09
    begitu juga dengan CO2 di atmosfer dan suhu global.
  • 6:09 - 6:12
    JM: Anda mungkin juga ingin melihat n-gram yang ini,
  • 6:12 - 6:15
    dan ini untuk memberitahu Nietzsche bahwa Tuhan belum mati,
  • 6:15 - 6:18
    meski Anda mungkin setuju yang dia butuhkan sebenarnya penerbit yang lebih baik.
  • 6:18 - 6:20
    (Suara tawa)
  • 6:20 - 6:23
    ELA: Anda bisa mendapatkan konsep yang sangat abstrak dengan ini.
  • 6:23 - 6:25
    Misalnya, mari saya ceritakan sejarah
  • 6:25 - 6:27
    dari tahun 1950.
  • 6:27 - 6:29
    Seperti kebanyakan periode dalam sejarah,
  • 6:29 - 6:31
    tidak ada yang peduli dengan tahun 1950.
  • 6:31 - 6:33
    Di tahun 1700, 1800, 1900,
  • 6:33 - 6:36
    tidak ada yang peduli.
  • 6:37 - 6:39
    Sepanjang tahun 30-an dan 40-an,
  • 6:39 - 6:41
    tidak ada yang peduli.
  • 6:41 - 6:43
    Tiba-tiba, di pertengahan tahun 40-an,
  • 6:43 - 6:45
    mulai ramai.
  • 6:45 - 6:47
    Orang-orang sadar bahwa tahun 1950 akan segera tiba,
  • 6:47 - 6:49
    dan bisa jadi sesuatu yang besar.
  • 6:49 - 6:52
    (Suara tawa)
  • 6:52 - 6:55
    Tapi puncak ketertarikan orang-orang akan tahun 1950
  • 6:55 - 6:58
    adalah di tahun 1950.
  • 6:58 - 7:01
    (Suara tawa)
  • 7:01 - 7:03
    Orang-orang semua terobsesi.
  • 7:03 - 7:05
    Mereka tidak bisa berhenti bicara
  • 7:05 - 7:08
    tentang hal-hal yang mereka lakukan di tahun 1950,
  • 7:08 - 7:11
    semua yang akan mereka lakukan di tahun 1950,
  • 7:11 - 7:16
    semua mimpi yang ingin mereka capai di tahun 1950.
  • 7:16 - 7:18
    Bahkan, tahun 1950 begitu menariknya
  • 7:18 - 7:20
    hingga beberapa tahun kemudian,
  • 7:20 - 7:23
    orang-orang masih terus berbicara tentang hal-hal yang terjadi,
  • 7:23 - 7:25
    di tahun 1951, 1952, 1953.
  • 7:25 - 7:27
    Akhirnya di tahun 1954,
  • 7:27 - 7:29
    seseorang bangun dan menyadari
  • 7:29 - 7:33
    bahwa tahun 1950 sudah lewat.
  • 7:33 - 7:35
    (Suara tawa)
  • 7:35 - 7:37
    Seperti itu saja, gelembungnya pun meledak.
  • 7:37 - 7:39
    (Suara tawa)
  • 7:39 - 7:41
    Cerita tentang tahun 1950
  • 7:41 - 7:43
    adalah cerita tahunan yang kita catat,
  • 7:43 - 7:46
    dengan sedikit variasi karena sekarang kita punya grafik yang keren ini.
  • 7:46 - 7:49
    Karena kita punya grafik keren ini, kita bisa mengukur.
  • 7:49 - 7:51
    Kita bisa berkata, "Seberapa cepat gelembung ini meledak?"
  • 7:51 - 7:54
    Ternyata kita bisa mengukurnya dengan sangat tepat.
  • 7:54 - 7:57
    Menghasilkan persamaan, menciptakan grafik,
  • 7:57 - 7:59
    dan hasil bersihnya
  • 7:59 - 8:02
    adalah kita menemukan gelembung ini meledak semakin cepat
  • 8:02 - 8:04
    setiap tahunnya.
  • 8:04 - 8:09
    Kita kehilangan minat terhadap masa lalu dengan lebih cepat.
  • 8:09 - 8:11
    JM: Sedikit nasihat karir.
  • 8:11 - 8:13
    Bagi Anda yang ingin menjadi terkenal,
  • 8:13 - 8:15
    kita bisa belajar dari 25 tokoh politik yang paling terkenal,
  • 8:15 - 8:17
    penulis, aktor, dan sebagainya.
  • 8:17 - 8:20
    Kalau Anda ingin cepat terkenal, Anda harus menjadi aktor,
  • 8:20 - 8:22
    karena ketenaran mulai naik di akhir usia 20-an --
  • 8:22 - 8:24
    Anda masih muda, benar-benar bagus.
  • 8:24 - 8:26
    Kalau Anda mau menunggu, Anda harus menjadi penulis,
  • 8:26 - 8:28
    karena Anda bisa naik sangat tinggi,
  • 8:28 - 8:30
    seperti Mark Twain, misalnya: sangat terkenal.
  • 8:30 - 8:32
    Tapi kalau Anda ingin mencapai puncak,
  • 8:32 - 8:34
    Anda harus mau menunggu lebih lama
  • 8:34 - 8:36
    dan, tentu saja, menjadi politikus.
  • 8:36 - 8:38
    Di sini Anda akan menjadi terkenal di akhir usia 50-an,
  • 8:38 - 8:40
    dan menjadi sangat terkenal sesudahnya.
  • 8:40 - 8:43
    Ilmuwan juga cenderung menjadi terkenal di usia tua.
  • 8:43 - 8:45
    Misalnya, ahli biologi dan fisika
  • 8:45 - 8:47
    cenderung hampir sama terkenalnya dengan aktor.
  • 8:47 - 8:50
    Yang tidak boleh Anda lakukan adalah menjadi ahli matematika.
  • 8:50 - 8:52
    (Suara tawa)
  • 8:52 - 8:54
    Kalau Anda melakukan itu,
  • 8:54 - 8:57
    Anda mungkin berpikir, "Baiklah. Saya akan menghasilkan karya terbaik di usia 20-an."
  • 8:57 - 8:59
    Tapi coba tebak, tidak ada yang peduli.
  • 8:59 - 9:02
    (Suara tawa)
  • 9:02 - 9:04
    ELA: Ada catatan yang lebih serius
  • 9:04 - 9:06
    tentang n-gram.
  • 9:06 - 9:08
    Misalnya, inilah lintasan Marc Chagall,
  • 9:08 - 9:10
    seniman yang lahir di tahun 1887.
  • 9:10 - 9:13
    Ini tampak seperti lintasan normal orang terkenal.
  • 9:13 - 9:17
    Dia menjadi semakin terkenal,
  • 9:17 - 9:19
    kecuali kalau Anda melihat dalam data bahasa Jerman.
  • 9:19 - 9:21
    Dalam bahasa Jerman, ada sesuatu yang sangat aneh,
  • 9:21 - 9:23
    sesuatu yang jarang Anda lihat,
  • 9:23 - 9:25
    dia menjadi sangat terkenal
  • 9:25 - 9:27
    dan tiba-tiba anjlok,
  • 9:27 - 9:30
    mencapai titik dasar antara 1933 dan 1945,
  • 9:30 - 9:33
    sebelum naik lagi setelahnya.
  • 9:33 - 9:35
    Tentu saja, yang kita lihat adalah
  • 9:35 - 9:38
    kenyataan bahwa Marc Chagall adalah artis Yahudi
  • 9:38 - 9:40
    di negara Nazi Jerman.
  • 9:40 - 9:42
    Sinyal ini
  • 9:42 - 9:44
    sangat kuat
  • 9:44 - 9:47
    kita tidak perlu tahu bahwa seseorang disensor.
  • 9:47 - 9:49
    Kita bisa melihatnya
  • 9:49 - 9:51
    menggunakan pengolahan sinyal yang paling dasar.
  • 9:51 - 9:53
    Inilah cara sederhana untuk melakukannya.
  • 9:53 - 9:55
    Harapan yang masuk akal
  • 9:55 - 9:57
    seseorang terkenal dalam periode waktu tertentu
  • 9:57 - 9:59
    seharusnya kurang lebih sama dengan ketenaran mereka
  • 9:59 - 10:01
    sebelum dan sesudahnya.
  • 10:01 - 10:03
    Jadi itulah yang kita harapkan.
  • 10:03 - 10:06
    Kita membandingkan itu dengan ketenaran yang kita amati.
  • 10:06 - 10:08
    Kita cukup membagi satu hal dengan yang lainnya
  • 10:08 - 10:10
    untuk mendapatkan apa yang kita sebut indeks tekanan.
  • 10:10 - 10:13
    Kalau indeks tekanan sangat kecil,
  • 10:13 - 10:15
    kemungkinan Anda sedang ditekan.
  • 10:15 - 10:18
    Kalau sangat besar, mungkin Anda diuntungkan oleh propaganda.
  • 10:19 - 10:21
    JM: Anda bisa melihat
  • 10:21 - 10:24
    distribusi indeks tekanan di seluruh populasi.
  • 10:24 - 10:26
    Misalnya, di sini --
  • 10:26 - 10:28
    indeks tekanan untuk 5000 orang
  • 10:28 - 10:30
    dipilih dalam buku bahasa Inggris yang diketahui tidak ada tekanan --
  • 10:30 - 10:32
    akan seperti ini, intinya berpusat pada satu titik.
  • 10:32 - 10:34
    Yang Anda harapkan adalah yang Anda lihat.
  • 10:34 - 10:36
    Ini distribusi seperti yang tampak di Jerman --
  • 10:36 - 10:38
    sangat berbeda, bergeser ke kiri.
  • 10:38 - 10:41
    Orang-orang membicarakannya dua kali lebih sedikit dari yang seharusnya.
  • 10:41 - 10:43
    Tapi yang jauh lebih penting, distribusinya sangat lebar.
  • 10:43 - 10:46
    Ada banyak orang yang akhirnya ada di pojok kiri distribusi ini
  • 10:46 - 10:49
    yang berbicara sekitar 10 kali lebih sedikit dari yang seharusnya.
  • 10:49 - 10:51
    Tapi ada banyak juga orang di pojok kanan
  • 10:51 - 10:53
    yang diuntungkan oleh propaganda ini.
  • 10:53 - 10:56
    Gambar ini adalah rekaman penyensoran dalam sejarah buku.
  • 10:56 - 10:58
    ELA: Jadi kulturomika
  • 10:58 - 11:00
    itulah sebutan untuk metode ini.
  • 11:00 - 11:02
    Seperti genomika.
  • 11:02 - 11:04
    Hanya saja genomika menggunakan kacamata biologi
  • 11:04 - 11:07
    melalui jendela rangkaian basa dalam genom manusia.
  • 11:07 - 11:09
    Kulturomika hampir mirip.
  • 11:09 - 11:12
    Ini adalah aplikasi analisis pengumpulan data skala besar
  • 11:12 - 11:14
    untuk penelitian budaya manusia.
  • 11:14 - 11:16
    Di sini, alih-alih melalui kacamata genom,
  • 11:16 - 11:19
    kami melalui kacamata potongan digital catatan sejarah.
  • 11:19 - 11:21
    Yang menarik tentang kulturomika ini
  • 11:21 - 11:23
    semua orang bisa melakukannya.
  • 11:23 - 11:25
    Mengapa semua orang bisa melakukannya?
  • 11:25 - 11:27
    Semua orang bisa melakukannya berkat tiga orang ini,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray, dan Will Brockman di Google,
  • 11:30 - 11:32
    melihat prototip Ngram Viewer,
  • 11:32 - 11:34
    dan berkata, "Ini asyik.
  • 11:34 - 11:37
    Kita harus membuatnya untuk umum."
  • 11:37 - 11:39
    Jadi tepat dalam dua minggu - sebelum makalah kami terbit --
  • 11:39 - 11:42
    mereka membuat versi Ngram Viewer untuk khalayak umum.
  • 11:42 - 11:45
    Jadi Anda bisa mengetikkan kata atau frasa yang menarik minat Anda
  • 11:45 - 11:47
    dan langsung melihat n-gramnya --
  • 11:47 - 11:49
    juga menelusuri contoh-contoh berbagai buku
  • 11:49 - 11:51
    yang memuat n-gram Anda tadi.
  • 11:51 - 11:53
    JM: Perangkat ini digunakan lebih dari satu juta kali dalam hari pertama,
  • 11:53 - 11:55
    dan ini yang terbaik dari semua permintaan yang ada.
  • 11:55 - 11:58
    orang-orang selalu ingin melakukan yang terbaik.
  • 11:58 - 12:01
    Tapi ternyata di abad ke-18, orang-orang tidak peduli dengan hal itu.
  • 12:01 - 12:04
    Mereka tidak ingin melakukan yang terbaik, "best", tapi "beft".
  • 12:04 - 12:07
    Tentu saja, ini hanya kesalahan.
  • 12:07 - 12:09
    Bukan orang-orang saat itu ingin menjadi biasa saja,
  • 12:09 - 12:12
    tapi karena saat itu huruf S ditulis berbeda, seperti huruf F.
  • 12:12 - 12:15
    Google tidak mengetahui ini saat itu,
  • 12:15 - 12:18
    jadi kami melaporkan ini dalam artikel ilmiah yang kami tulis.
  • 12:18 - 12:20
    Tapi ini ternyata menjadi sebuah peringatan
  • 12:20 - 12:22
    bahwa meskipun menyenangkan,
  • 12:22 - 12:24
    saat menginterpretasikan grafik ini, Anda harus hati-hati,
  • 12:24 - 12:27
    dan Anda harus mengadopsi standar dasar dalam ilmu pengetahuan.
  • 12:27 - 12:30
    ELA: Orang-orang menggunakannya untuk bermain-main.
  • 12:30 - 12:37
    (Suara tawa)
  • 12:37 - 12:39
    Sebenarnya, kami bahkan tidak perlu bicara,
  • 12:39 - 12:42
    hanya perlu menunjukkan semua slide yang ada dan diam.
  • 12:42 - 12:45
    Orang ini tertarik pada sejarah frustrasi.
  • 12:45 - 12:48
    Ada banyak jenis frustrasi.
  • 12:48 - 12:51
    Kalau Anda tersandung, itu "argh" dengan satu A.
  • 12:51 - 12:53
    Kalau planet Bumi dimusnahkan oleh Vogon
  • 12:53 - 12:55
    yang datang melalui jalan pintas antargalaksi,
  • 12:55 - 12:57
    itu "aaaaaaaargh" dengan delapan A.
  • 12:57 - 12:59
    Orang ini menyelidiki semua "argh,"
  • 12:59 - 13:01
    mulai dari satu sampai delapan A.
  • 13:01 - 13:03
    Ternyata
  • 13:03 - 13:05
    semakin sedikit "argh"
  • 13:05 - 13:08
    tentu saja menyatakan hal-hal yang lebih membuat frustrasi --
  • 13:08 - 13:11
    kecuali, anehnya, di awal tahun 80-an.
  • 13:11 - 13:13
    Kami pikir ini berhubungan dengan Reagan.
  • 13:13 - 13:15
    (Suara tawa)
  • 13:15 - 13:18
    JM: Ada banyak kegunaan data ini,
  • 13:18 - 13:21
    tapi pada dasarnya catatan sejarah sedang didigitalkan.
  • 13:21 - 13:23
    Google sudah mulai mendigitalkan 15 juta buku.
  • 13:23 - 13:25
    Itu 12 persen dari semua buku yang pernah diterbitkan.
  • 13:25 - 13:28
    Itu bagian yang cukup besar dari budaya manusia.
  • 13:28 - 13:31
    Ada banyak budaya: naskah, koran,
  • 13:31 - 13:33
    ada yang bukan berupa teks, seperti seni dan lukisan.
  • 13:33 - 13:35
    Semua ini ada dalam komputer kita,
  • 13:35 - 13:37
    komputer di seluruh dunia.
  • 13:37 - 13:40
    Dan ketika itu terjadi, itu akan mengubah cara kita
  • 13:40 - 13:42
    memahami masa lalu, masa kini, dan budaya manusia.
  • 13:42 - 13:44
    Terima kasih banyak.
  • 13:44 - 13:47
    (Tepuk tangan)
Title:
Apa yang kami pelajari dari 5 juta buku
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Pernahkah Anda bermain-main dengan Ngram Viewer dari Google Labs? Ini alat menarik yang memungkinkan kita mencari kata dan ide dari basis data yang terdiri dari 5 juta buku dari beberapa abad. Erez Lieberman Aiden dan Jean-Baptiste Michel menunjukkan cara kerjanya, dan beberapa hal mengejutkan yang bisa kita pelajari dari 500 miliar kata.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Ade Indarta added a translation

Indonesian subtitles

Revisions