< Return to Video

從五百萬本書學到的事

  • 0:00 - 0:02
    Erez Lieberman Aiden:大家都知道
  • 0:02 - 0:05
    一張圖勝過千言萬語
  • 0:07 - 0:09
    但我們在哈佛時
  • 0:09 - 0:12
    卻在思考這道理是否真是如此
  • 0:12 - 0:14
    (笑聲)
  • 0:14 - 0:18
    所以我們由來自哈佛大學
  • 0:18 - 0:20
    麻省理工學院
  • 0:20 - 0:23
    美國傳統英語詞典,大英百科全書
  • 0:23 - 0:25
    甚至我們偉大的贊助商─Google的專家們
  • 0:25 - 0:28
    組成一個團隊
  • 0:28 - 0:30
    我們花了四年的時間
  • 0:30 - 0:32
    在思考這個問題
  • 0:32 - 0:37
    然後我們得到了一個驚人的結論
  • 0:37 - 0:40
    女士先生們,一張圖片其實不只勝過千言萬語
  • 0:40 - 0:42
    事實上,我們發現某些圖片
  • 0:42 - 0:47
    更是勝過五千億個字
  • 0:47 - 0:49
    Jean-Baptiste Michel:我們是如何得出這項結論的呢?
  • 0:49 - 0:51
    Erez和我思考了不同的方式
  • 0:51 - 0:53
    想更加了解人類文化
  • 0:53 - 0:56
    以及人類歷史從古到今的變化的全景
  • 0:56 - 0:58
    事實上,多年來已經出版了許多書籍。
  • 0:58 - 1:00
    所以我們認為最好的學習方式
  • 1:00 - 1:02
    就是將這上百萬的書全讀過一遍
  • 1:02 - 1:05
    如果能有一個尺規來說明此舉的驚人程度
  • 1:05 - 1:08
    這將會相當驚人
  • 1:08 - 1:10
    但問題是這裡的X軸
  • 1:10 - 1:12
    是表示實用程度
  • 1:12 - 1:14
    這相當不實用
  • 1:14 - 1:17
    (掌聲)
  • 1:17 - 1:20
    現在人們希望用別的方式
  • 1:20 - 1:22
    可以讀少一點書,但讀得非常仔細
  • 1:22 - 1:24
    這會相當實用,但這一點都不吸引人
  • 1:24 - 1:27
    我們真正想做的是
  • 1:27 - 1:30
    要用一種吸引人且實用的方法來閱讀這些書
  • 1:30 - 1:33
    所以在河的對岸有間公司叫做Google
  • 1:33 - 1:35
    他們幾年之前開始了一項數字化計畫
  • 1:35 - 1:37
    這項計畫讓我們能實踐剛說的方法
  • 1:37 - 1:39
    他們已將數百萬本書給數位化
  • 1:39 - 1:42
    這意味著,我們可以透過電腦
  • 1:42 - 1:44
    簡單按個按鈕就能閱讀所有的書
  • 1:44 - 1:47
    這非常實用而且相當棒
  • 1:48 - 1:50
    ELA:讓我為各位介紹這些書都來自何方
  • 1:50 - 1:53
    自古以來,有非常多作家
  • 1:53 - 1:56
    這些作家一直努力寫作
  • 1:56 - 1:58
    但現在寫作變得相當容易
  • 1:58 - 2:00
    這歸功於幾世紀前印刷術的革新
  • 2:00 - 2:03
    自那時起作家們
  • 2:03 - 2:05
    能在一億兩千九百萬個不同的地方
  • 2:05 - 2:07
    出版書籍
  • 2:07 - 2:09
    如果那些書沒有因為時代交替而遺失
  • 2:09 - 2:11
    那麼那些書可能在某個圖書館的一處
  • 2:11 - 2:14
    有相當多書可以從圖書館中被借閱
  • 2:14 - 2:16
    由Google將其數位化
  • 2:16 - 2:18
    迄今Google已經掃描了一千五百萬本書
  • 2:18 - 2:21
    Google將一本書數位化,並以優良的型式呈現
  • 2:21 - 2:23
    現在我們有了這些數據,加上這些詮釋資料
  • 2:23 - 2:26
    我們有了相關的資訊,比如出版地區,
  • 2:26 - 2:28
    作者,出版時間
  • 2:28 - 2:31
    我們所做的就是透過這些記錄
  • 2:31 - 2:35
    並剔除不是最精華的資料
  • 2:35 - 2:37
    我們後來得到的是
  • 2:37 - 2:40
    五百萬本書
  • 2:40 - 2:43
    五千億個詞
  • 2:43 - 2:45
    這是一串比人類基因組
  • 2:45 - 2:48
    還要長上一千倍的字符
  • 2:48 - 2:50
    如果寫成文章
  • 2:50 - 2:52
    將會是從這裡到月球來回距離
  • 2:52 - 2:54
    的十倍以上
  • 2:54 - 2:58
    這是我們文化基因名副其實的的一部分
  • 2:58 - 3:00
    當然當我們面臨
  • 3:00 - 3:03
    如此誇張的情況時
  • 3:03 - 3:05
    (笑聲)
  • 3:05 - 3:08
    我們也跟每一位有自尊心的研究人員一樣
  • 3:08 - 3:11
    會做相同的事
  • 3:11 - 3:13
    我們也和四格漫畫一樣
  • 3:13 - 3:15
    我們決定「等等
  • 3:15 - 3:17
    我們要用科學的方式來處理。」
  • 3:17 - 3:19
    (笑聲)
  • 3:19 - 3:21
    JM:當然,我們在思考
  • 3:21 - 3:23
    首先我們先把資料提取出來
  • 3:23 - 3:25
    讓其他人以科學的方式去分析
  • 3:25 - 3:27
    現在我們在思考,我們能發行何種數據?
  • 3:27 - 3:29
    當然,我們想拿這些書
  • 3:29 - 3:31
    將這五百萬本書的內容全部釋出
  • 3:31 - 3:33
    現在Google,特別是Jon Orwant
  • 3:33 - 3:35
    告訴我們一個我們該注意的小方程式
  • 3:35 - 3:38
    我們有五百萬本書,也就是有五百萬名作者
  • 3:38 - 3:41
    而五百萬名原告是一場龐大的訴訟
  • 3:41 - 3:43
    雖然這個過程是相當地驚人
  • 3:43 - 3:46
    但這還是極度的不切實際
  • 3:46 - 3:48
    (笑聲)
  • 3:48 - 3:50
    然後,我們似乎有點妥協
  • 3:50 - 3:53
    我們試了比較實際的方式,這方法不怎麼吸引人
  • 3:53 - 3:55
    我們認為,與其釋出全部的書籍資料
  • 3:55 - 3:57
    我們選擇將這些書的數據資料給呈現出來
  • 3:57 - 3:59
    舉個例子「幸福的光」
  • 3:59 - 4:01
    這是四個字,我們稱做「四字詞」
  • 4:01 - 4:03
    我們要告訴各位一個特定的四字詞
  • 4:03 - 4:05
    從1801,1802,1803年開始出現在書本裡
  • 4:05 - 4:07
    直到2008年
  • 4:07 - 4:09
    這給我們一個時間軸來了解
  • 4:09 - 4:11
    這些特定的字句從過去到現在的使用頻率
  • 4:11 - 4:14
    我們計算了所有出現在這些書中的字詞
  • 4:14 - 4:17
    彙整出的資料畫出了二十億條曲線
  • 4:17 - 4:19
    這告訴了我們文化是如何改變的
  • 4:19 - 4:21
    ELA:這二十億條曲線
  • 4:21 - 4:23
    我們稱為二十億組詞
  • 4:23 - 4:25
    這告訴了我們
  • 4:25 - 4:27
    每一組詞代表了不同的文化趨勢
  • 4:27 - 4:29
    讓我舉個例子
  • 4:29 - 4:31
    假設我做了件不得了的事
  • 4:31 - 4:33
    明天我要告訴你是多不得了
  • 4:33 - 4:36
    我可能會說「"Yesterday, I throve."」
  • 4:36 - 4:39
    或者,我也可以說「"Yesterday, I thrived."」
  • 4:39 - 4:42
    但我應該說哪一種呢?
  • 4:42 - 4:44
    要怎麼知道
  • 4:44 - 4:46
    大概在六個月前
  • 4:46 - 4:48
    要知道這一領域最尖端的方法
  • 4:48 - 4:50
    你可能得要去詢問
  • 4:50 - 4:52
    一位有著時髦髮型的心理學家
  • 4:52 - 4:54
    你可能會問
  • 4:54 - 4:57
    「史蒂夫,你是不規則動詞的專家。
  • 4:57 - 4:59
    我該怎麼說呢?」
  • 4:59 - 5:01
    而他會告訴你「嗯,大部分的人會說"thrive"
  • 5:01 - 5:04
    但有些人會說"throve"。」
  • 5:04 - 5:06
    而你也或多或少知道
  • 5:06 - 5:09
    如果我們回到兩百年前
  • 5:09 - 5:12
    去問一位同樣也有時髦髮型的政治家
  • 5:12 - 5:15
    (笑聲)
  • 5:15 - 5:17
    「湯姆,我應該怎麼說呢?」
  • 5:17 - 5:19
    他說「嗯,在我的年代,大部份的人說"throve",
  • 5:19 - 5:22
    但少部分的人說"thrived"」
  • 5:22 - 5:24
    現在我要向各位展示原始數據
  • 5:24 - 5:28
    這二十億條目資料中的其中兩條數據
  • 5:28 - 5:30
    各位將會看到的是"thrived"和"throve"兩個字
  • 5:30 - 5:33
    在各年時期的出現頻率
  • 5:34 - 5:36
    這只是二十億筆資料中
  • 5:36 - 5:39
    其中兩個詞條的資訊
  • 5:39 - 5:41
    這全部的數據資料
  • 5:41 - 5:44
    將會比此張投影片還要驚人億萬倍
  • 5:44 - 5:46
    (笑聲)
  • 5:46 - 5:50
    (掌聲)
  • 5:50 - 5:52
    JM:還有其他圖片也具有五千億字的價值
  • 5:52 - 5:54
    例如這張
  • 5:54 - 5:56
    如果談到感冒
  • 5:56 - 5:58
    從這幾個高峰點我們可以知道
  • 5:58 - 6:01
    感冒病毒的大流行在全球造成人類死亡
  • 6:01 - 6:04
    ELA:如果各位還不太相信
  • 6:04 - 6:06
    其他像是海平面升高
  • 6:06 - 6:09
    大氣中的二氧化碳和全球暖化
  • 6:09 - 6:12
    JM:你也許會想看看這組特別的詞組
  • 6:12 - 6:15
    「告訴尼采,上帝還沒死」
  • 6:15 - 6:18
    也許你可能還會認為,他可能需要一個更好的公關
  • 6:18 - 6:20
    (笑聲)
  • 6:20 - 6:23
    ELA:從這當中,各位也能獲得一些相當抽象的概念
  • 6:23 - 6:25
    例如,讓我跟各位說說
  • 6:25 - 6:27
    有關「1950年」的歷史
  • 6:27 - 6:29
    幾乎在絕大多數的歷史裡
  • 6:29 - 6:31
    沒有特別談論1950這一年
  • 6:31 - 6:33
    在1700年,在1800年,1900年
  • 6:33 - 6:36
    沒有人在乎
  • 6:37 - 6:39
    甚至到30年代和40年代
  • 6:39 - 6:41
    也沒有人在談論
  • 6:41 - 6:43
    突然到了40年代中期
  • 6:43 - 6:45
    開始出現了風潮
  • 6:45 - 6:47
    人們意識到1950年就要來臨
  • 6:47 - 6:49
    這是件大事
  • 6:49 - 6:52
    (笑聲)
  • 6:52 - 6:55
    但也沒有因此讓大眾對該年份產生興趣
  • 6:55 - 6:58
    像是「那1950年」
  • 6:58 - 7:01
    (笑聲)
  • 7:01 - 7:03
    人們開始對這一年著迷
  • 7:03 - 7:05
    大家無法停止談論
  • 7:05 - 7:08
    有關他們在1950年所做的一切
  • 7:08 - 7:11
    所有他們計畫要在1950年所做的事
  • 7:11 - 7:16
    所有他們要在1950年完成的夢想
  • 7:16 - 7:18
    事實上,1950年跟往後幾年相較
  • 7:18 - 7:20
    是相當迷人的一年
  • 7:20 - 7:23
    人們不停談論所有發生在
  • 7:23 - 7:25
    '51,'52,'53年的驚奇事件
  • 7:25 - 7:27
    直到1954年
  • 7:27 - 7:29
    有人驚覺而且意識到
  • 7:29 - 7:33
    1950年已經變得過時了
  • 7:33 - 7:35
    (笑聲)
  • 7:35 - 7:37
    這一切就像泡沫破滅一樣
  • 7:37 - 7:39
    (笑聲)
  • 7:39 - 7:41
    1950年的情況
  • 7:41 - 7:43
    其實就是我們數據上每一個年份的情況一樣
  • 7:43 - 7:46
    稍微編排一下,我們有這些精美的圖表
  • 7:46 - 7:49
    因為有這些不錯的圖表,我們就能計算
  • 7:49 - 7:51
    我們可以了解「風潮消逝的速度是多快?」
  • 7:51 - 7:54
    結果就是我們能很精確測量出一份數據
  • 7:54 - 7:57
    有了方程式,也有圖表
  • 7:57 - 7:59
    最終的結果就是
  • 7:59 - 8:02
    談論年份的風潮一年比一年
  • 8:02 - 8:04
    消退的更快
  • 8:04 - 8:09
    我們對於過去的興趣日漸消逝
  • 8:09 - 8:11
    JM:這張圖是有關職業建議
  • 8:11 - 8:13
    對於那些想成名的人
  • 8:13 - 8:15
    我們可以知道二十五位最有名的政治人物
  • 8:15 - 8:17
    作家、演員等等
  • 8:17 - 8:20
    如果各位想在年輕時就成名,那麼各位應該要當演員
  • 8:20 - 8:22
    因為你的名氣會從二十歲後開始累積
  • 8:22 - 8:24
    那時正值青春年華,會相當不錯
  • 8:24 - 8:26
    如果各位有耐心一點,那麼就應該當個作家
  • 8:26 - 8:28
    因為各位就能攀上高峰
  • 8:28 - 8:30
    成為像是馬克吐溫這樣有名望的作家
  • 8:30 - 8:32
    但如果各位想攀上最頂尖的位置
  • 8:32 - 8:34
    就得延後滿足自己的慾望
  • 8:34 - 8:36
    然後當一位政治家
  • 8:36 - 8:38
    那麼各位會在五十歲過後開始成名
  • 8:38 - 8:40
    然後你的名氣會在未來持續延續
  • 8:40 - 8:43
    科學家也往往是在老年時才成名
  • 8:43 - 8:45
    而生物學家和物理學家一樣
  • 8:45 - 8:47
    往往也是和演員一樣著名
  • 8:47 - 8:50
    唯一不要做的職業就是變成數學家
  • 8:50 - 8:52
    (笑聲)
  • 8:52 - 8:54
    如果各位真要做這行
  • 8:54 - 8:57
    各位可能會想「太好了,當我在二十多歲時,我會盡一切努力。」
  • 8:57 - 8:59
    但事實上,沒人會真正去在乎你所做的事
  • 8:59 - 9:02
    (笑聲)
  • 9:02 - 9:04
    ELA:在我們的資料裡
  • 9:04 - 9:06
    還有其他更發人省思的紀錄
  • 9:06 - 9:08
    例如馬克‧夏卡爾的名字出現的頻率軌跡
  • 9:08 - 9:10
    夏卡爾是位1887年出生的藝術家
  • 9:10 - 9:13
    這看起來是一位名人名字正常出現在書中的軌跡
  • 9:13 - 9:17
    他的名氣日益響亮
  • 9:17 - 9:19
    但如果看德國的數據就不是如此
  • 9:19 - 9:21
    如果看德國的數據,會看到某部份是非常奇怪的
  • 9:21 - 9:23
    這是幾乎不太可能看到的
  • 9:23 - 9:25
    就是他變得非常有名
  • 9:25 - 9:27
    卻突然在1933年至1945年間
  • 9:27 - 9:30
    聲勢跌落谷底
  • 9:30 - 9:33
    又反彈回升
  • 9:33 - 9:35
    當然我們看的出來
  • 9:35 - 9:38
    這是因為馬克‧夏卡爾是一位猶太裔藝術家
  • 9:38 - 9:40
    當時德國是納粹統治
  • 9:40 - 9:42
    這些指標
  • 9:42 - 9:44
    事實上相當明確
  • 9:44 - 9:47
    我們不需要知道有人在審查書籍
  • 9:47 - 9:49
    我們能運用基本的信號運算方式
  • 9:49 - 9:51
    實際了解當時狀況
  • 9:51 - 9:53
    我們可以用簡單的方式來做
  • 9:53 - 9:55
    合理的預期是
  • 9:55 - 9:57
    在一段特定的時間裡某人的名氣指數
  • 9:57 - 9:59
    應該會是他們成名前
  • 9:59 - 10:01
    和成名後的指數的平均值
  • 10:01 - 10:03
    這大概是我們預期的結果
  • 10:03 - 10:06
    我們比較了我們觀察到的名人
  • 10:06 - 10:08
    我們將前後的數值相除
  • 10:08 - 10:10
    得到的數值,我們稱作抑制指數
  • 10:10 - 10:13
    如果抑制指數的值非常的小
  • 10:13 - 10:15
    那麼就表示此人也許遭受到打壓
  • 10:15 - 10:18
    但如果數值非常大,也許此人獲得大量的推廣
  • 10:19 - 10:21
    JM:各位現在可以看到
  • 10:21 - 10:24
    抑制指數在抽樣整體人數中的分佈情況
  • 10:24 - 10:26
    所以,例如這裡 --
  • 10:26 - 10:28
    這個抑制指數的抽樣人數是五千人
  • 10:28 - 10:30
    選自出版時期沒有打壓限制的英文書籍來做調查
  • 10:30 - 10:32
    曲線基本上會在數值1的地方呈現高峰
  • 10:32 - 10:34
    基本上預期的會和觀察到的數值是相同的
  • 10:34 - 10:36
    這份分佈圖則是德國的部分 --
  • 10:36 - 10:38
    相當不同,曲線移往左側
  • 10:38 - 10:41
    人們談論事物的次數比預期的少了兩倍
  • 10:41 - 10:43
    更重要的是,整體分佈的情況更寬廣
  • 10:43 - 10:46
    有相當多人是落在圖表較左側的位置
  • 10:46 - 10:49
    因為他們比應該被提及的次數少了十倍
  • 10:49 - 10:51
    但也有相當多人是落在較右側的部分
  • 10:51 - 10:53
    似乎是因為被大量宣傳
  • 10:53 - 10:56
    這張圖是明顯看出書本中具有審查制度
  • 10:56 - 10:58
    ELA:文化組學
  • 10:58 - 11:00
    是我們用的方法
  • 11:00 - 11:02
    這和基因組學有些類似
  • 11:02 - 11:04
    不過基因組學是透過生物學
  • 11:04 - 11:07
    基本的序列基礎來檢視人類基因組
  • 11:07 - 11:09
    文化組學是類似的
  • 11:09 - 11:12
    這是應用收集分析規模龐大的數據
  • 11:12 - 11:14
    來研究人類文化
  • 11:14 - 11:16
    不透過檢視基因組
  • 11:16 - 11:19
    而是檢視歷史紀錄的數位資料
  • 11:19 - 11:21
    文化組學的好處是
  • 11:21 - 11:23
    每個人都能執行
  • 11:23 - 11:25
    為何每個人都能做呢?
  • 11:25 - 11:27
    因為這三位人士
  • 11:27 - 11:30
    Google的Jon Orwant,Matt Gray還有Will Brockman
  • 11:30 - 11:32
    他們看到Ngram瀏覽器的原型
  • 11:32 - 11:34
    他們說「這太有趣了。」
  • 11:34 - 11:37
    我們要讓大家都可以使用這功能
  • 11:37 - 11:39
    所以在兩週的時間 -- 我們的報告出來的兩週前 --
  • 11:39 - 11:42
    他們編寫了一個大眾版本的Ngram瀏覽器
  • 11:42 - 11:45
    各位可以打上任何各位有興趣的字或詞組
  • 11:45 - 11:47
    然後立即看到該字詞的頻率變化 --
  • 11:47 - 11:49
    同時根據你搜尋的字詞
  • 11:49 - 11:51
    瀏覽不同書籍中的各種例子
  • 11:51 - 11:53
    JM:這功能在首日就被使用了超過一百萬次
  • 11:53 - 11:55
    這也是各種查詢工具中最好的一個
  • 11:55 - 11:58
    人們希望做到最好的,以最好的狀態像前進
  • 11:58 - 12:01
    但事實證明在18世紀,人們一點也不關心這一切
  • 12:01 - 12:04
    他們不想做到最好,他們想變成"beft"
  • 12:04 - 12:07
    這是怎麼回事,當然這只是個錯誤
  • 12:07 - 12:09
    這並不是說他們想要平凡
  • 12:09 - 12:12
    這只是因為"S"常被寫的不一樣,寫得像"F"
  • 12:12 - 12:15
    當然,Google並沒有挑出來
  • 12:15 - 12:18
    所以我們在自己寫科學文章中提到此事
  • 12:18 - 12:20
    不過這只是個提醒
  • 12:20 - 12:22
    雖然這相當有趣
  • 12:22 - 12:24
    當你要解讀這些圖表,你必須非常謹慎
  • 12:24 - 12:27
    而且必須採納科學的基礎標準
  • 12:27 - 12:30
    ELA:大家一直在使用這工具來滿足各種樂趣
  • 12:30 - 12:37
    (笑聲)
  • 12:37 - 12:39
    事實上,我們不需要說明的
  • 12:39 - 12:42
    我們原本只想播放所有的投影片然後在一旁保持沉默
  • 12:42 - 12:45
    此人對於挫折的歷史感興趣
  • 12:45 - 12:48
    挫折有非常多種方式
  • 12:48 - 12:51
    如果你踢到腳趾,哀叫聲「啊」就是一個"A"的"argh"
  • 12:51 - 12:53
    如果地球被外星人毀滅
  • 12:53 - 12:55
    變成星際間的通道
  • 12:55 - 12:57
    那麼哀叫聲「啊」就是有八個"A"的"aaaaaaaargh"
  • 12:57 - 12:59
    此人研究了所有書籍上出現的哀叫聲「啊」
  • 12:59 - 13:01
    有從一個"A"到八個"A"
  • 13:01 - 13:03
    結果是
  • 13:03 - 13:05
    較不頻繁的「啊」“arghs”
  • 13:05 - 13:08
    對應了那些相對較令人沮喪的的事情
  • 13:08 - 13:11
    也有例外,奇怪的是在80年代初
  • 13:11 - 13:13
    我們認為這也許是受到雷根的影響
  • 13:13 - 13:15
    (笑聲)
  • 13:15 - 13:18
    JM:這份書據資料有相當多用途
  • 13:18 - 13:21
    不過最終就是歷史紀錄都被數位化了
  • 13:21 - 13:23
    Google已經開始將一千五百萬本書數位化
  • 13:23 - 13:25
    其中百分之十二的書是已出版的
  • 13:25 - 13:28
    這涵蓋了相當大量的人類文化
  • 13:28 - 13:31
    這當中有非常多的文化資料:裡頭有手稿,報紙
  • 13:31 - 13:33
    也有不是文字的資料,像是藝術品和畫作
  • 13:33 - 13:35
    現在這都存放在我們的電腦裡
  • 13:35 - 13:37
    在世界各處的電腦裡
  • 13:37 - 13:40
    如果這一切成真,就會改變
  • 13:40 - 13:42
    我們了解過去、現在和人類文化的方式
  • 13:42 - 13:44
    非常謝謝各位
  • 13:44 - 13:47
    (掌聲)
Title:
從五百萬本書學到的事
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

你是否使用過Google實驗室開發的Ngram瀏覽器?這是一款吸引人的工具,能讓你從跨世紀以來五百萬本書的資料庫中搜尋字詞和想法。Erez Lieberman Aiden和Jean-Baptiste Michel將為我們展示這款工具如何運作,以及一些我們能從這五千億字中學到的一些驚喜發現。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Joyce Chou added a translation

Chinese, Traditional subtitles

Revisions