從五百萬本書學到的事
-
0:00 - 0:02Erez Lieberman Aiden:大家都知道
-
0:02 - 0:05一張圖勝過千言萬語
-
0:07 - 0:09但我們在哈佛時
-
0:09 - 0:12卻在思考這道理是否真是如此
-
0:12 - 0:14(笑聲)
-
0:14 - 0:18所以我們由來自哈佛大學
-
0:18 - 0:20麻省理工學院
-
0:20 - 0:23美國傳統英語詞典,大英百科全書
-
0:23 - 0:25甚至我們偉大的贊助商─Google的專家們
-
0:25 - 0:28組成一個團隊
-
0:28 - 0:30我們花了四年的時間
-
0:30 - 0:32在思考這個問題
-
0:32 - 0:37然後我們得到了一個驚人的結論
-
0:37 - 0:40女士先生們,一張圖片其實不只勝過千言萬語
-
0:40 - 0:42事實上,我們發現某些圖片
-
0:42 - 0:47更是勝過五千億個字
-
0:47 - 0:49Jean-Baptiste Michel:我們是如何得出這項結論的呢?
-
0:49 - 0:51Erez和我思考了不同的方式
-
0:51 - 0:53想更加了解人類文化
-
0:53 - 0:56以及人類歷史從古到今的變化的全景
-
0:56 - 0:58事實上,多年來已經出版了許多書籍。
-
0:58 - 1:00所以我們認為最好的學習方式
-
1:00 - 1:02就是將這上百萬的書全讀過一遍
-
1:02 - 1:05如果能有一個尺規來說明此舉的驚人程度
-
1:05 - 1:08這將會相當驚人
-
1:08 - 1:10但問題是這裡的X軸
-
1:10 - 1:12是表示實用程度
-
1:12 - 1:14這相當不實用
-
1:14 - 1:17(掌聲)
-
1:17 - 1:20現在人們希望用別的方式
-
1:20 - 1:22可以讀少一點書,但讀得非常仔細
-
1:22 - 1:24這會相當實用,但這一點都不吸引人
-
1:24 - 1:27我們真正想做的是
-
1:27 - 1:30要用一種吸引人且實用的方法來閱讀這些書
-
1:30 - 1:33所以在河的對岸有間公司叫做Google
-
1:33 - 1:35他們幾年之前開始了一項數字化計畫
-
1:35 - 1:37這項計畫讓我們能實踐剛說的方法
-
1:37 - 1:39他們已將數百萬本書給數位化
-
1:39 - 1:42這意味著,我們可以透過電腦
-
1:42 - 1:44簡單按個按鈕就能閱讀所有的書
-
1:44 - 1:47這非常實用而且相當棒
-
1:48 - 1:50ELA:讓我為各位介紹這些書都來自何方
-
1:50 - 1:53自古以來,有非常多作家
-
1:53 - 1:56這些作家一直努力寫作
-
1:56 - 1:58但現在寫作變得相當容易
-
1:58 - 2:00這歸功於幾世紀前印刷術的革新
-
2:00 - 2:03自那時起作家們
-
2:03 - 2:05能在一億兩千九百萬個不同的地方
-
2:05 - 2:07出版書籍
-
2:07 - 2:09如果那些書沒有因為時代交替而遺失
-
2:09 - 2:11那麼那些書可能在某個圖書館的一處
-
2:11 - 2:14有相當多書可以從圖書館中被借閱
-
2:14 - 2:16由Google將其數位化
-
2:16 - 2:18迄今Google已經掃描了一千五百萬本書
-
2:18 - 2:21Google將一本書數位化,並以優良的型式呈現
-
2:21 - 2:23現在我們有了這些數據,加上這些詮釋資料
-
2:23 - 2:26我們有了相關的資訊,比如出版地區,
-
2:26 - 2:28作者,出版時間
-
2:28 - 2:31我們所做的就是透過這些記錄
-
2:31 - 2:35並剔除不是最精華的資料
-
2:35 - 2:37我們後來得到的是
-
2:37 - 2:40五百萬本書
-
2:40 - 2:43五千億個詞
-
2:43 - 2:45這是一串比人類基因組
-
2:45 - 2:48還要長上一千倍的字符
-
2:48 - 2:50如果寫成文章
-
2:50 - 2:52將會是從這裡到月球來回距離
-
2:52 - 2:54的十倍以上
-
2:54 - 2:58這是我們文化基因名副其實的的一部分
-
2:58 - 3:00當然當我們面臨
-
3:00 - 3:03如此誇張的情況時
-
3:03 - 3:05(笑聲)
-
3:05 - 3:08我們也跟每一位有自尊心的研究人員一樣
-
3:08 - 3:11會做相同的事
-
3:11 - 3:13我們也和四格漫畫一樣
-
3:13 - 3:15我們決定「等等
-
3:15 - 3:17我們要用科學的方式來處理。」
-
3:17 - 3:19(笑聲)
-
3:19 - 3:21JM:當然,我們在思考
-
3:21 - 3:23首先我們先把資料提取出來
-
3:23 - 3:25讓其他人以科學的方式去分析
-
3:25 - 3:27現在我們在思考,我們能發行何種數據?
-
3:27 - 3:29當然,我們想拿這些書
-
3:29 - 3:31將這五百萬本書的內容全部釋出
-
3:31 - 3:33現在Google,特別是Jon Orwant
-
3:33 - 3:35告訴我們一個我們該注意的小方程式
-
3:35 - 3:38我們有五百萬本書,也就是有五百萬名作者
-
3:38 - 3:41而五百萬名原告是一場龐大的訴訟
-
3:41 - 3:43雖然這個過程是相當地驚人
-
3:43 - 3:46但這還是極度的不切實際
-
3:46 - 3:48(笑聲)
-
3:48 - 3:50然後,我們似乎有點妥協
-
3:50 - 3:53我們試了比較實際的方式,這方法不怎麼吸引人
-
3:53 - 3:55我們認為,與其釋出全部的書籍資料
-
3:55 - 3:57我們選擇將這些書的數據資料給呈現出來
-
3:57 - 3:59舉個例子「幸福的光」
-
3:59 - 4:01這是四個字,我們稱做「四字詞」
-
4:01 - 4:03我們要告訴各位一個特定的四字詞
-
4:03 - 4:05從1801,1802,1803年開始出現在書本裡
-
4:05 - 4:07直到2008年
-
4:07 - 4:09這給我們一個時間軸來了解
-
4:09 - 4:11這些特定的字句從過去到現在的使用頻率
-
4:11 - 4:14我們計算了所有出現在這些書中的字詞
-
4:14 - 4:17彙整出的資料畫出了二十億條曲線
-
4:17 - 4:19這告訴了我們文化是如何改變的
-
4:19 - 4:21ELA:這二十億條曲線
-
4:21 - 4:23我們稱為二十億組詞
-
4:23 - 4:25這告訴了我們
-
4:25 - 4:27每一組詞代表了不同的文化趨勢
-
4:27 - 4:29讓我舉個例子
-
4:29 - 4:31假設我做了件不得了的事
-
4:31 - 4:33明天我要告訴你是多不得了
-
4:33 - 4:36我可能會說「"Yesterday, I throve."」
-
4:36 - 4:39或者,我也可以說「"Yesterday, I thrived."」
-
4:39 - 4:42但我應該說哪一種呢?
-
4:42 - 4:44要怎麼知道
-
4:44 - 4:46大概在六個月前
-
4:46 - 4:48要知道這一領域最尖端的方法
-
4:48 - 4:50你可能得要去詢問
-
4:50 - 4:52一位有著時髦髮型的心理學家
-
4:52 - 4:54你可能會問
-
4:54 - 4:57「史蒂夫,你是不規則動詞的專家。
-
4:57 - 4:59我該怎麼說呢?」
-
4:59 - 5:01而他會告訴你「嗯,大部分的人會說"thrive"
-
5:01 - 5:04但有些人會說"throve"。」
-
5:04 - 5:06而你也或多或少知道
-
5:06 - 5:09如果我們回到兩百年前
-
5:09 - 5:12去問一位同樣也有時髦髮型的政治家
-
5:12 - 5:15(笑聲)
-
5:15 - 5:17「湯姆,我應該怎麼說呢?」
-
5:17 - 5:19他說「嗯,在我的年代,大部份的人說"throve",
-
5:19 - 5:22但少部分的人說"thrived"」
-
5:22 - 5:24現在我要向各位展示原始數據
-
5:24 - 5:28這二十億條目資料中的其中兩條數據
-
5:28 - 5:30各位將會看到的是"thrived"和"throve"兩個字
-
5:30 - 5:33在各年時期的出現頻率
-
5:34 - 5:36這只是二十億筆資料中
-
5:36 - 5:39其中兩個詞條的資訊
-
5:39 - 5:41這全部的數據資料
-
5:41 - 5:44將會比此張投影片還要驚人億萬倍
-
5:44 - 5:46(笑聲)
-
5:46 - 5:50(掌聲)
-
5:50 - 5:52JM:還有其他圖片也具有五千億字的價值
-
5:52 - 5:54例如這張
-
5:54 - 5:56如果談到感冒
-
5:56 - 5:58從這幾個高峰點我們可以知道
-
5:58 - 6:01感冒病毒的大流行在全球造成人類死亡
-
6:01 - 6:04ELA:如果各位還不太相信
-
6:04 - 6:06其他像是海平面升高
-
6:06 - 6:09大氣中的二氧化碳和全球暖化
-
6:09 - 6:12JM:你也許會想看看這組特別的詞組
-
6:12 - 6:15「告訴尼采,上帝還沒死」
-
6:15 - 6:18也許你可能還會認為,他可能需要一個更好的公關
-
6:18 - 6:20(笑聲)
-
6:20 - 6:23ELA:從這當中,各位也能獲得一些相當抽象的概念
-
6:23 - 6:25例如,讓我跟各位說說
-
6:25 - 6:27有關「1950年」的歷史
-
6:27 - 6:29幾乎在絕大多數的歷史裡
-
6:29 - 6:31沒有特別談論1950這一年
-
6:31 - 6:33在1700年,在1800年,1900年
-
6:33 - 6:36沒有人在乎
-
6:37 - 6:39甚至到30年代和40年代
-
6:39 - 6:41也沒有人在談論
-
6:41 - 6:43突然到了40年代中期
-
6:43 - 6:45開始出現了風潮
-
6:45 - 6:47人們意識到1950年就要來臨
-
6:47 - 6:49這是件大事
-
6:49 - 6:52(笑聲)
-
6:52 - 6:55但也沒有因此讓大眾對該年份產生興趣
-
6:55 - 6:58像是「那1950年」
-
6:58 - 7:01(笑聲)
-
7:01 - 7:03人們開始對這一年著迷
-
7:03 - 7:05大家無法停止談論
-
7:05 - 7:08有關他們在1950年所做的一切
-
7:08 - 7:11所有他們計畫要在1950年所做的事
-
7:11 - 7:16所有他們要在1950年完成的夢想
-
7:16 - 7:18事實上,1950年跟往後幾年相較
-
7:18 - 7:20是相當迷人的一年
-
7:20 - 7:23人們不停談論所有發生在
-
7:23 - 7:25'51,'52,'53年的驚奇事件
-
7:25 - 7:27直到1954年
-
7:27 - 7:29有人驚覺而且意識到
-
7:29 - 7:331950年已經變得過時了
-
7:33 - 7:35(笑聲)
-
7:35 - 7:37這一切就像泡沫破滅一樣
-
7:37 - 7:39(笑聲)
-
7:39 - 7:411950年的情況
-
7:41 - 7:43其實就是我們數據上每一個年份的情況一樣
-
7:43 - 7:46稍微編排一下,我們有這些精美的圖表
-
7:46 - 7:49因為有這些不錯的圖表,我們就能計算
-
7:49 - 7:51我們可以了解「風潮消逝的速度是多快?」
-
7:51 - 7:54結果就是我們能很精確測量出一份數據
-
7:54 - 7:57有了方程式,也有圖表
-
7:57 - 7:59最終的結果就是
-
7:59 - 8:02談論年份的風潮一年比一年
-
8:02 - 8:04消退的更快
-
8:04 - 8:09我們對於過去的興趣日漸消逝
-
8:09 - 8:11JM:這張圖是有關職業建議
-
8:11 - 8:13對於那些想成名的人
-
8:13 - 8:15我們可以知道二十五位最有名的政治人物
-
8:15 - 8:17作家、演員等等
-
8:17 - 8:20如果各位想在年輕時就成名,那麼各位應該要當演員
-
8:20 - 8:22因為你的名氣會從二十歲後開始累積
-
8:22 - 8:24那時正值青春年華,會相當不錯
-
8:24 - 8:26如果各位有耐心一點,那麼就應該當個作家
-
8:26 - 8:28因為各位就能攀上高峰
-
8:28 - 8:30成為像是馬克吐溫這樣有名望的作家
-
8:30 - 8:32但如果各位想攀上最頂尖的位置
-
8:32 - 8:34就得延後滿足自己的慾望
-
8:34 - 8:36然後當一位政治家
-
8:36 - 8:38那麼各位會在五十歲過後開始成名
-
8:38 - 8:40然後你的名氣會在未來持續延續
-
8:40 - 8:43科學家也往往是在老年時才成名
-
8:43 - 8:45而生物學家和物理學家一樣
-
8:45 - 8:47往往也是和演員一樣著名
-
8:47 - 8:50唯一不要做的職業就是變成數學家
-
8:50 - 8:52(笑聲)
-
8:52 - 8:54如果各位真要做這行
-
8:54 - 8:57各位可能會想「太好了,當我在二十多歲時,我會盡一切努力。」
-
8:57 - 8:59但事實上,沒人會真正去在乎你所做的事
-
8:59 - 9:02(笑聲)
-
9:02 - 9:04ELA:在我們的資料裡
-
9:04 - 9:06還有其他更發人省思的紀錄
-
9:06 - 9:08例如馬克‧夏卡爾的名字出現的頻率軌跡
-
9:08 - 9:10夏卡爾是位1887年出生的藝術家
-
9:10 - 9:13這看起來是一位名人名字正常出現在書中的軌跡
-
9:13 - 9:17他的名氣日益響亮
-
9:17 - 9:19但如果看德國的數據就不是如此
-
9:19 - 9:21如果看德國的數據,會看到某部份是非常奇怪的
-
9:21 - 9:23這是幾乎不太可能看到的
-
9:23 - 9:25就是他變得非常有名
-
9:25 - 9:27卻突然在1933年至1945年間
-
9:27 - 9:30聲勢跌落谷底
-
9:30 - 9:33又反彈回升
-
9:33 - 9:35當然我們看的出來
-
9:35 - 9:38這是因為馬克‧夏卡爾是一位猶太裔藝術家
-
9:38 - 9:40當時德國是納粹統治
-
9:40 - 9:42這些指標
-
9:42 - 9:44事實上相當明確
-
9:44 - 9:47我們不需要知道有人在審查書籍
-
9:47 - 9:49我們能運用基本的信號運算方式
-
9:49 - 9:51實際了解當時狀況
-
9:51 - 9:53我們可以用簡單的方式來做
-
9:53 - 9:55合理的預期是
-
9:55 - 9:57在一段特定的時間裡某人的名氣指數
-
9:57 - 9:59應該會是他們成名前
-
9:59 - 10:01和成名後的指數的平均值
-
10:01 - 10:03這大概是我們預期的結果
-
10:03 - 10:06我們比較了我們觀察到的名人
-
10:06 - 10:08我們將前後的數值相除
-
10:08 - 10:10得到的數值,我們稱作抑制指數
-
10:10 - 10:13如果抑制指數的值非常的小
-
10:13 - 10:15那麼就表示此人也許遭受到打壓
-
10:15 - 10:18但如果數值非常大,也許此人獲得大量的推廣
-
10:19 - 10:21JM:各位現在可以看到
-
10:21 - 10:24抑制指數在抽樣整體人數中的分佈情況
-
10:24 - 10:26所以,例如這裡 --
-
10:26 - 10:28這個抑制指數的抽樣人數是五千人
-
10:28 - 10:30選自出版時期沒有打壓限制的英文書籍來做調查
-
10:30 - 10:32曲線基本上會在數值1的地方呈現高峰
-
10:32 - 10:34基本上預期的會和觀察到的數值是相同的
-
10:34 - 10:36這份分佈圖則是德國的部分 --
-
10:36 - 10:38相當不同,曲線移往左側
-
10:38 - 10:41人們談論事物的次數比預期的少了兩倍
-
10:41 - 10:43更重要的是,整體分佈的情況更寬廣
-
10:43 - 10:46有相當多人是落在圖表較左側的位置
-
10:46 - 10:49因為他們比應該被提及的次數少了十倍
-
10:49 - 10:51但也有相當多人是落在較右側的部分
-
10:51 - 10:53似乎是因為被大量宣傳
-
10:53 - 10:56這張圖是明顯看出書本中具有審查制度
-
10:56 - 10:58ELA:文化組學
-
10:58 - 11:00是我們用的方法
-
11:00 - 11:02這和基因組學有些類似
-
11:02 - 11:04不過基因組學是透過生物學
-
11:04 - 11:07基本的序列基礎來檢視人類基因組
-
11:07 - 11:09文化組學是類似的
-
11:09 - 11:12這是應用收集分析規模龐大的數據
-
11:12 - 11:14來研究人類文化
-
11:14 - 11:16不透過檢視基因組
-
11:16 - 11:19而是檢視歷史紀錄的數位資料
-
11:19 - 11:21文化組學的好處是
-
11:21 - 11:23每個人都能執行
-
11:23 - 11:25為何每個人都能做呢?
-
11:25 - 11:27因為這三位人士
-
11:27 - 11:30Google的Jon Orwant,Matt Gray還有Will Brockman
-
11:30 - 11:32他們看到Ngram瀏覽器的原型
-
11:32 - 11:34他們說「這太有趣了。」
-
11:34 - 11:37我們要讓大家都可以使用這功能
-
11:37 - 11:39所以在兩週的時間 -- 我們的報告出來的兩週前 --
-
11:39 - 11:42他們編寫了一個大眾版本的Ngram瀏覽器
-
11:42 - 11:45各位可以打上任何各位有興趣的字或詞組
-
11:45 - 11:47然後立即看到該字詞的頻率變化 --
-
11:47 - 11:49同時根據你搜尋的字詞
-
11:49 - 11:51瀏覽不同書籍中的各種例子
-
11:51 - 11:53JM:這功能在首日就被使用了超過一百萬次
-
11:53 - 11:55這也是各種查詢工具中最好的一個
-
11:55 - 11:58人們希望做到最好的,以最好的狀態像前進
-
11:58 - 12:01但事實證明在18世紀,人們一點也不關心這一切
-
12:01 - 12:04他們不想做到最好,他們想變成"beft"
-
12:04 - 12:07這是怎麼回事,當然這只是個錯誤
-
12:07 - 12:09這並不是說他們想要平凡
-
12:09 - 12:12這只是因為"S"常被寫的不一樣,寫得像"F"
-
12:12 - 12:15當然,Google並沒有挑出來
-
12:15 - 12:18所以我們在自己寫科學文章中提到此事
-
12:18 - 12:20不過這只是個提醒
-
12:20 - 12:22雖然這相當有趣
-
12:22 - 12:24當你要解讀這些圖表,你必須非常謹慎
-
12:24 - 12:27而且必須採納科學的基礎標準
-
12:27 - 12:30ELA:大家一直在使用這工具來滿足各種樂趣
-
12:30 - 12:37(笑聲)
-
12:37 - 12:39事實上,我們不需要說明的
-
12:39 - 12:42我們原本只想播放所有的投影片然後在一旁保持沉默
-
12:42 - 12:45此人對於挫折的歷史感興趣
-
12:45 - 12:48挫折有非常多種方式
-
12:48 - 12:51如果你踢到腳趾,哀叫聲「啊」就是一個"A"的"argh"
-
12:51 - 12:53如果地球被外星人毀滅
-
12:53 - 12:55變成星際間的通道
-
12:55 - 12:57那麼哀叫聲「啊」就是有八個"A"的"aaaaaaaargh"
-
12:57 - 12:59此人研究了所有書籍上出現的哀叫聲「啊」
-
12:59 - 13:01有從一個"A"到八個"A"
-
13:01 - 13:03結果是
-
13:03 - 13:05較不頻繁的「啊」“arghs”
-
13:05 - 13:08對應了那些相對較令人沮喪的的事情
-
13:08 - 13:11也有例外,奇怪的是在80年代初
-
13:11 - 13:13我們認為這也許是受到雷根的影響
-
13:13 - 13:15(笑聲)
-
13:15 - 13:18JM:這份書據資料有相當多用途
-
13:18 - 13:21不過最終就是歷史紀錄都被數位化了
-
13:21 - 13:23Google已經開始將一千五百萬本書數位化
-
13:23 - 13:25其中百分之十二的書是已出版的
-
13:25 - 13:28這涵蓋了相當大量的人類文化
-
13:28 - 13:31這當中有非常多的文化資料:裡頭有手稿,報紙
-
13:31 - 13:33也有不是文字的資料,像是藝術品和畫作
-
13:33 - 13:35現在這都存放在我們的電腦裡
-
13:35 - 13:37在世界各處的電腦裡
-
13:37 - 13:40如果這一切成真,就會改變
-
13:40 - 13:42我們了解過去、現在和人類文化的方式
-
13:42 - 13:44非常謝謝各位
-
13:44 - 13:47(掌聲)
- Title:
- 從五百萬本書學到的事
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
你是否使用過Google實驗室開發的Ngram瀏覽器?這是一款吸引人的工具,能讓你從跨世紀以來五百萬本書的資料庫中搜尋字詞和想法。Erez Lieberman Aiden和Jean-Baptiste Michel將為我們展示這款工具如何運作,以及一些我們能從這五千億字中學到的一些驚喜發現。
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48