1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden:大家都知道 2 00:00:02,000 --> 00:00:05,000 一張圖勝過千言萬語 3 00:00:07,000 --> 00:00:09,000 但我們在哈佛時 4 00:00:09,000 --> 00:00:12,000 卻在思考這道理是否真是如此 5 00:00:12,000 --> 00:00:14,000 (笑聲) 6 00:00:14,000 --> 00:00:18,000 所以我們由來自哈佛大學 7 00:00:18,000 --> 00:00:20,000 麻省理工學院 8 00:00:20,000 --> 00:00:23,000 美國傳統英語詞典,大英百科全書 9 00:00:23,000 --> 00:00:25,000 甚至我們偉大的贊助商─Google的專家們 10 00:00:25,000 --> 00:00:28,000 組成一個團隊 11 00:00:28,000 --> 00:00:30,000 我們花了四年的時間 12 00:00:30,000 --> 00:00:32,000 在思考這個問題 13 00:00:32,000 --> 00:00:37,000 然後我們得到了一個驚人的結論 14 00:00:37,000 --> 00:00:40,000 女士先生們,一張圖片其實不只勝過千言萬語 15 00:00:40,000 --> 00:00:42,000 事實上,我們發現某些圖片 16 00:00:42,000 --> 00:00:47,000 更是勝過五千億個字 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel:我們是如何得出這項結論的呢? 18 00:00:49,000 --> 00:00:51,000 Erez和我思考了不同的方式 19 00:00:51,000 --> 00:00:53,000 想更加了解人類文化 20 00:00:53,000 --> 00:00:56,000 以及人類歷史從古到今的變化的全景 21 00:00:56,000 --> 00:00:58,000 事實上,多年來已經出版了許多書籍。 22 00:00:58,000 --> 00:01:00,000 所以我們認為最好的學習方式 23 00:01:00,000 --> 00:01:02,000 就是將這上百萬的書全讀過一遍 24 00:01:02,000 --> 00:01:05,000 如果能有一個尺規來說明此舉的驚人程度 25 00:01:05,000 --> 00:01:08,000 這將會相當驚人 26 00:01:08,000 --> 00:01:10,000 但問題是這裡的X軸 27 00:01:10,000 --> 00:01:12,000 是表示實用程度 28 00:01:12,000 --> 00:01:14,000 這相當不實用 29 00:01:14,000 --> 00:01:17,000 (掌聲) 30 00:01:17,000 --> 00:01:20,000 現在人們希望用別的方式 31 00:01:20,000 --> 00:01:22,000 可以讀少一點書,但讀得非常仔細 32 00:01:22,000 --> 00:01:24,000 這會相當實用,但這一點都不吸引人 33 00:01:24,000 --> 00:01:27,000 我們真正想做的是 34 00:01:27,000 --> 00:01:30,000 要用一種吸引人且實用的方法來閱讀這些書 35 00:01:30,000 --> 00:01:33,000 所以在河的對岸有間公司叫做Google 36 00:01:33,000 --> 00:01:35,000 他們幾年之前開始了一項數字化計畫 37 00:01:35,000 --> 00:01:37,000 這項計畫讓我們能實踐剛說的方法 38 00:01:37,000 --> 00:01:39,000 他們已將數百萬本書給數位化 39 00:01:39,000 --> 00:01:42,000 這意味著,我們可以透過電腦 40 00:01:42,000 --> 00:01:44,000 簡單按個按鈕就能閱讀所有的書 41 00:01:44,000 --> 00:01:47,000 這非常實用而且相當棒 42 00:01:48,000 --> 00:01:50,000 ELA:讓我為各位介紹這些書都來自何方 43 00:01:50,000 --> 00:01:53,000 自古以來,有非常多作家 44 00:01:53,000 --> 00:01:56,000 這些作家一直努力寫作 45 00:01:56,000 --> 00:01:58,000 但現在寫作變得相當容易 46 00:01:58,000 --> 00:02:00,000 這歸功於幾世紀前印刷術的革新 47 00:02:00,000 --> 00:02:03,000 自那時起作家們 48 00:02:03,000 --> 00:02:05,000 能在一億兩千九百萬個不同的地方 49 00:02:05,000 --> 00:02:07,000 出版書籍 50 00:02:07,000 --> 00:02:09,000 如果那些書沒有因為時代交替而遺失 51 00:02:09,000 --> 00:02:11,000 那麼那些書可能在某個圖書館的一處 52 00:02:11,000 --> 00:02:14,000 有相當多書可以從圖書館中被借閱 53 00:02:14,000 --> 00:02:16,000 由Google將其數位化 54 00:02:16,000 --> 00:02:18,000 迄今Google已經掃描了一千五百萬本書 55 00:02:18,000 --> 00:02:21,000 Google將一本書數位化,並以優良的型式呈現 56 00:02:21,000 --> 00:02:23,000 現在我們有了這些數據,加上這些詮釋資料 57 00:02:23,000 --> 00:02:26,000 我們有了相關的資訊,比如出版地區, 58 00:02:26,000 --> 00:02:28,000 作者,出版時間 59 00:02:28,000 --> 00:02:31,000 我們所做的就是透過這些記錄 60 00:02:31,000 --> 00:02:35,000 並剔除不是最精華的資料 61 00:02:35,000 --> 00:02:37,000 我們後來得到的是 62 00:02:37,000 --> 00:02:40,000 五百萬本書 63 00:02:40,000 --> 00:02:43,000 五千億個詞 64 00:02:43,000 --> 00:02:45,000 這是一串比人類基因組 65 00:02:45,000 --> 00:02:48,000 還要長上一千倍的字符 66 00:02:48,000 --> 00:02:50,000 如果寫成文章 67 00:02:50,000 --> 00:02:52,000 將會是從這裡到月球來回距離 68 00:02:52,000 --> 00:02:54,000 的十倍以上 69 00:02:54,000 --> 00:02:58,000 這是我們文化基因名副其實的的一部分 70 00:02:58,000 --> 00:03:00,000 當然當我們面臨 71 00:03:00,000 --> 00:03:03,000 如此誇張的情況時 72 00:03:03,000 --> 00:03:05,000 (笑聲) 73 00:03:05,000 --> 00:03:08,000 我們也跟每一位有自尊心的研究人員一樣 74 00:03:08,000 --> 00:03:11,000 會做相同的事 75 00:03:11,000 --> 00:03:13,000 我們也和四格漫畫一樣 76 00:03:13,000 --> 00:03:15,000 我們決定「等等 77 00:03:15,000 --> 00:03:17,000 我們要用科學的方式來處理。」 78 00:03:17,000 --> 00:03:19,000 (笑聲) 79 00:03:19,000 --> 00:03:21,000 JM:當然,我們在思考 80 00:03:21,000 --> 00:03:23,000 首先我們先把資料提取出來 81 00:03:23,000 --> 00:03:25,000 讓其他人以科學的方式去分析 82 00:03:25,000 --> 00:03:27,000 現在我們在思考,我們能發行何種數據? 83 00:03:27,000 --> 00:03:29,000 當然,我們想拿這些書 84 00:03:29,000 --> 00:03:31,000 將這五百萬本書的內容全部釋出 85 00:03:31,000 --> 00:03:33,000 現在Google,特別是Jon Orwant 86 00:03:33,000 --> 00:03:35,000 告訴我們一個我們該注意的小方程式 87 00:03:35,000 --> 00:03:38,000 我們有五百萬本書,也就是有五百萬名作者 88 00:03:38,000 --> 00:03:41,000 而五百萬名原告是一場龐大的訴訟 89 00:03:41,000 --> 00:03:43,000 雖然這個過程是相當地驚人 90 00:03:43,000 --> 00:03:46,000 但這還是極度的不切實際 91 00:03:46,000 --> 00:03:48,000 (笑聲) 92 00:03:48,000 --> 00:03:50,000 然後,我們似乎有點妥協 93 00:03:50,000 --> 00:03:53,000 我們試了比較實際的方式,這方法不怎麼吸引人 94 00:03:53,000 --> 00:03:55,000 我們認為,與其釋出全部的書籍資料 95 00:03:55,000 --> 00:03:57,000 我們選擇將這些書的數據資料給呈現出來 96 00:03:57,000 --> 00:03:59,000 舉個例子「幸福的光」 97 00:03:59,000 --> 00:04:01,000 這是四個字,我們稱做「四字詞」 98 00:04:01,000 --> 00:04:03,000 我們要告訴各位一個特定的四字詞 99 00:04:03,000 --> 00:04:05,000 從1801,1802,1803年開始出現在書本裡 100 00:04:05,000 --> 00:04:07,000 直到2008年 101 00:04:07,000 --> 00:04:09,000 這給我們一個時間軸來了解 102 00:04:09,000 --> 00:04:11,000 這些特定的字句從過去到現在的使用頻率 103 00:04:11,000 --> 00:04:14,000 我們計算了所有出現在這些書中的字詞 104 00:04:14,000 --> 00:04:17,000 彙整出的資料畫出了二十億條曲線 105 00:04:17,000 --> 00:04:19,000 這告訴了我們文化是如何改變的 106 00:04:19,000 --> 00:04:21,000 ELA:這二十億條曲線 107 00:04:21,000 --> 00:04:23,000 我們稱為二十億組詞 108 00:04:23,000 --> 00:04:25,000 這告訴了我們 109 00:04:25,000 --> 00:04:27,000 每一組詞代表了不同的文化趨勢 110 00:04:27,000 --> 00:04:29,000 讓我舉個例子 111 00:04:29,000 --> 00:04:31,000 假設我做了件不得了的事 112 00:04:31,000 --> 00:04:33,000 明天我要告訴你是多不得了 113 00:04:33,000 --> 00:04:36,000 我可能會說「"Yesterday, I throve."」 114 00:04:36,000 --> 00:04:39,000 或者,我也可以說「"Yesterday, I thrived."」 115 00:04:39,000 --> 00:04:42,000 但我應該說哪一種呢? 116 00:04:42,000 --> 00:04:44,000 要怎麼知道 117 00:04:44,000 --> 00:04:46,000 大概在六個月前 118 00:04:46,000 --> 00:04:48,000 要知道這一領域最尖端的方法 119 00:04:48,000 --> 00:04:50,000 你可能得要去詢問 120 00:04:50,000 --> 00:04:52,000 一位有著時髦髮型的心理學家 121 00:04:52,000 --> 00:04:54,000 你可能會問 122 00:04:54,000 --> 00:04:57,000 「史蒂夫,你是不規則動詞的專家。 123 00:04:57,000 --> 00:04:59,000 我該怎麼說呢?」 124 00:04:59,000 --> 00:05:01,000 而他會告訴你「嗯,大部分的人會說"thrive" 125 00:05:01,000 --> 00:05:04,000 但有些人會說"throve"。」 126 00:05:04,000 --> 00:05:06,000 而你也或多或少知道 127 00:05:06,000 --> 00:05:09,000 如果我們回到兩百年前 128 00:05:09,000 --> 00:05:12,000 去問一位同樣也有時髦髮型的政治家 129 00:05:12,000 --> 00:05:15,000 (笑聲) 130 00:05:15,000 --> 00:05:17,000 「湯姆,我應該怎麼說呢?」 131 00:05:17,000 --> 00:05:19,000 他說「嗯,在我的年代,大部份的人說"throve", 132 00:05:19,000 --> 00:05:22,000 但少部分的人說"thrived"」 133 00:05:22,000 --> 00:05:24,000 現在我要向各位展示原始數據 134 00:05:24,000 --> 00:05:28,000 這二十億條目資料中的其中兩條數據 135 00:05:28,000 --> 00:05:30,000 各位將會看到的是"thrived"和"throve"兩個字 136 00:05:30,000 --> 00:05:33,000 在各年時期的出現頻率 137 00:05:34,000 --> 00:05:36,000 這只是二十億筆資料中 138 00:05:36,000 --> 00:05:39,000 其中兩個詞條的資訊 139 00:05:39,000 --> 00:05:41,000 這全部的數據資料 140 00:05:41,000 --> 00:05:44,000 將會比此張投影片還要驚人億萬倍 141 00:05:44,000 --> 00:05:46,000 (笑聲) 142 00:05:46,000 --> 00:05:50,000 (掌聲) 143 00:05:50,000 --> 00:05:52,000 JM:還有其他圖片也具有五千億字的價值 144 00:05:52,000 --> 00:05:54,000 例如這張 145 00:05:54,000 --> 00:05:56,000 如果談到感冒 146 00:05:56,000 --> 00:05:58,000 從這幾個高峰點我們可以知道 147 00:05:58,000 --> 00:06:01,000 感冒病毒的大流行在全球造成人類死亡 148 00:06:01,000 --> 00:06:04,000 ELA:如果各位還不太相信 149 00:06:04,000 --> 00:06:06,000 其他像是海平面升高 150 00:06:06,000 --> 00:06:09,000 大氣中的二氧化碳和全球暖化 151 00:06:09,000 --> 00:06:12,000 JM:你也許會想看看這組特別的詞組 152 00:06:12,000 --> 00:06:15,000 「告訴尼采,上帝還沒死」 153 00:06:15,000 --> 00:06:18,000 也許你可能還會認為,他可能需要一個更好的公關 154 00:06:18,000 --> 00:06:20,000 (笑聲) 155 00:06:20,000 --> 00:06:23,000 ELA:從這當中,各位也能獲得一些相當抽象的概念 156 00:06:23,000 --> 00:06:25,000 例如,讓我跟各位說說 157 00:06:25,000 --> 00:06:27,000 有關「1950年」的歷史 158 00:06:27,000 --> 00:06:29,000 幾乎在絕大多數的歷史裡 159 00:06:29,000 --> 00:06:31,000 沒有特別談論1950這一年 160 00:06:31,000 --> 00:06:33,000 在1700年,在1800年,1900年 161 00:06:33,000 --> 00:06:36,000 沒有人在乎 162 00:06:37,000 --> 00:06:39,000 甚至到30年代和40年代 163 00:06:39,000 --> 00:06:41,000 也沒有人在談論 164 00:06:41,000 --> 00:06:43,000 突然到了40年代中期 165 00:06:43,000 --> 00:06:45,000 開始出現了風潮 166 00:06:45,000 --> 00:06:47,000 人們意識到1950年就要來臨 167 00:06:47,000 --> 00:06:49,000 這是件大事 168 00:06:49,000 --> 00:06:52,000 (笑聲) 169 00:06:52,000 --> 00:06:55,000 但也沒有因此讓大眾對該年份產生興趣 170 00:06:55,000 --> 00:06:58,000 像是「那1950年」 171 00:06:58,000 --> 00:07:01,000 (笑聲) 172 00:07:01,000 --> 00:07:03,000 人們開始對這一年著迷 173 00:07:03,000 --> 00:07:05,000 大家無法停止談論 174 00:07:05,000 --> 00:07:08,000 有關他們在1950年所做的一切 175 00:07:08,000 --> 00:07:11,000 所有他們計畫要在1950年所做的事 176 00:07:11,000 --> 00:07:16,000 所有他們要在1950年完成的夢想 177 00:07:16,000 --> 00:07:18,000 事實上,1950年跟往後幾年相較 178 00:07:18,000 --> 00:07:20,000 是相當迷人的一年 179 00:07:20,000 --> 00:07:23,000 人們不停談論所有發生在 180 00:07:23,000 --> 00:07:25,000 '51,'52,'53年的驚奇事件 181 00:07:25,000 --> 00:07:27,000 直到1954年 182 00:07:27,000 --> 00:07:29,000 有人驚覺而且意識到 183 00:07:29,000 --> 00:07:33,000 1950年已經變得過時了 184 00:07:33,000 --> 00:07:35,000 (笑聲) 185 00:07:35,000 --> 00:07:37,000 這一切就像泡沫破滅一樣 186 00:07:37,000 --> 00:07:39,000 (笑聲) 187 00:07:39,000 --> 00:07:41,000 1950年的情況 188 00:07:41,000 --> 00:07:43,000 其實就是我們數據上每一個年份的情況一樣 189 00:07:43,000 --> 00:07:46,000 稍微編排一下,我們有這些精美的圖表 190 00:07:46,000 --> 00:07:49,000 因為有這些不錯的圖表,我們就能計算 191 00:07:49,000 --> 00:07:51,000 我們可以了解「風潮消逝的速度是多快?」 192 00:07:51,000 --> 00:07:54,000 結果就是我們能很精確測量出一份數據 193 00:07:54,000 --> 00:07:57,000 有了方程式,也有圖表 194 00:07:57,000 --> 00:07:59,000 最終的結果就是 195 00:07:59,000 --> 00:08:02,000 談論年份的風潮一年比一年 196 00:08:02,000 --> 00:08:04,000 消退的更快 197 00:08:04,000 --> 00:08:09,000 我們對於過去的興趣日漸消逝 198 00:08:09,000 --> 00:08:11,000 JM:這張圖是有關職業建議 199 00:08:11,000 --> 00:08:13,000 對於那些想成名的人 200 00:08:13,000 --> 00:08:15,000 我們可以知道二十五位最有名的政治人物 201 00:08:15,000 --> 00:08:17,000 作家、演員等等 202 00:08:17,000 --> 00:08:20,000 如果各位想在年輕時就成名,那麼各位應該要當演員 203 00:08:20,000 --> 00:08:22,000 因為你的名氣會從二十歲後開始累積 204 00:08:22,000 --> 00:08:24,000 那時正值青春年華,會相當不錯 205 00:08:24,000 --> 00:08:26,000 如果各位有耐心一點,那麼就應該當個作家 206 00:08:26,000 --> 00:08:28,000 因為各位就能攀上高峰 207 00:08:28,000 --> 00:08:30,000 成為像是馬克吐溫這樣有名望的作家 208 00:08:30,000 --> 00:08:32,000 但如果各位想攀上最頂尖的位置 209 00:08:32,000 --> 00:08:34,000 就得延後滿足自己的慾望 210 00:08:34,000 --> 00:08:36,000 然後當一位政治家 211 00:08:36,000 --> 00:08:38,000 那麼各位會在五十歲過後開始成名 212 00:08:38,000 --> 00:08:40,000 然後你的名氣會在未來持續延續 213 00:08:40,000 --> 00:08:43,000 科學家也往往是在老年時才成名 214 00:08:43,000 --> 00:08:45,000 而生物學家和物理學家一樣 215 00:08:45,000 --> 00:08:47,000 往往也是和演員一樣著名 216 00:08:47,000 --> 00:08:50,000 唯一不要做的職業就是變成數學家 217 00:08:50,000 --> 00:08:52,000 (笑聲) 218 00:08:52,000 --> 00:08:54,000 如果各位真要做這行 219 00:08:54,000 --> 00:08:57,000 各位可能會想「太好了,當我在二十多歲時,我會盡一切努力。」 220 00:08:57,000 --> 00:08:59,000 但事實上,沒人會真正去在乎你所做的事 221 00:08:59,000 --> 00:09:02,000 (笑聲) 222 00:09:02,000 --> 00:09:04,000 ELA:在我們的資料裡 223 00:09:04,000 --> 00:09:06,000 還有其他更發人省思的紀錄 224 00:09:06,000 --> 00:09:08,000 例如馬克‧夏卡爾的名字出現的頻率軌跡 225 00:09:08,000 --> 00:09:10,000 夏卡爾是位1887年出生的藝術家 226 00:09:10,000 --> 00:09:13,000 這看起來是一位名人名字正常出現在書中的軌跡 227 00:09:13,000 --> 00:09:17,000 他的名氣日益響亮 228 00:09:17,000 --> 00:09:19,000 但如果看德國的數據就不是如此 229 00:09:19,000 --> 00:09:21,000 如果看德國的數據,會看到某部份是非常奇怪的 230 00:09:21,000 --> 00:09:23,000 這是幾乎不太可能看到的 231 00:09:23,000 --> 00:09:25,000 就是他變得非常有名 232 00:09:25,000 --> 00:09:27,000 卻突然在1933年至1945年間 233 00:09:27,000 --> 00:09:30,000 聲勢跌落谷底 234 00:09:30,000 --> 00:09:33,000 又反彈回升 235 00:09:33,000 --> 00:09:35,000 當然我們看的出來 236 00:09:35,000 --> 00:09:38,000 這是因為馬克‧夏卡爾是一位猶太裔藝術家 237 00:09:38,000 --> 00:09:40,000 當時德國是納粹統治 238 00:09:40,000 --> 00:09:42,000 這些指標 239 00:09:42,000 --> 00:09:44,000 事實上相當明確 240 00:09:44,000 --> 00:09:47,000 我們不需要知道有人在審查書籍 241 00:09:47,000 --> 00:09:49,000 我們能運用基本的信號運算方式 242 00:09:49,000 --> 00:09:51,000 實際了解當時狀況 243 00:09:51,000 --> 00:09:53,000 我們可以用簡單的方式來做 244 00:09:53,000 --> 00:09:55,000 合理的預期是 245 00:09:55,000 --> 00:09:57,000 在一段特定的時間裡某人的名氣指數 246 00:09:57,000 --> 00:09:59,000 應該會是他們成名前 247 00:09:59,000 --> 00:10:01,000 和成名後的指數的平均值 248 00:10:01,000 --> 00:10:03,000 這大概是我們預期的結果 249 00:10:03,000 --> 00:10:06,000 我們比較了我們觀察到的名人 250 00:10:06,000 --> 00:10:08,000 我們將前後的數值相除 251 00:10:08,000 --> 00:10:10,000 得到的數值,我們稱作抑制指數 252 00:10:10,000 --> 00:10:13,000 如果抑制指數的值非常的小 253 00:10:13,000 --> 00:10:15,000 那麼就表示此人也許遭受到打壓 254 00:10:15,000 --> 00:10:18,000 但如果數值非常大,也許此人獲得大量的推廣 255 00:10:19,000 --> 00:10:21,000 JM:各位現在可以看到 256 00:10:21,000 --> 00:10:24,000 抑制指數在抽樣整體人數中的分佈情況 257 00:10:24,000 --> 00:10:26,000 所以,例如這裡 -- 258 00:10:26,000 --> 00:10:28,000 這個抑制指數的抽樣人數是五千人 259 00:10:28,000 --> 00:10:30,000 選自出版時期沒有打壓限制的英文書籍來做調查 260 00:10:30,000 --> 00:10:32,000 曲線基本上會在數值1的地方呈現高峰 261 00:10:32,000 --> 00:10:34,000 基本上預期的會和觀察到的數值是相同的 262 00:10:34,000 --> 00:10:36,000 這份分佈圖則是德國的部分 -- 263 00:10:36,000 --> 00:10:38,000 相當不同,曲線移往左側 264 00:10:38,000 --> 00:10:41,000 人們談論事物的次數比預期的少了兩倍 265 00:10:41,000 --> 00:10:43,000 更重要的是,整體分佈的情況更寬廣 266 00:10:43,000 --> 00:10:46,000 有相當多人是落在圖表較左側的位置 267 00:10:46,000 --> 00:10:49,000 因為他們比應該被提及的次數少了十倍 268 00:10:49,000 --> 00:10:51,000 但也有相當多人是落在較右側的部分 269 00:10:51,000 --> 00:10:53,000 似乎是因為被大量宣傳 270 00:10:53,000 --> 00:10:56,000 這張圖是明顯看出書本中具有審查制度 271 00:10:56,000 --> 00:10:58,000 ELA:文化組學 272 00:10:58,000 --> 00:11:00,000 是我們用的方法 273 00:11:00,000 --> 00:11:02,000 這和基因組學有些類似 274 00:11:02,000 --> 00:11:04,000 不過基因組學是透過生物學 275 00:11:04,000 --> 00:11:07,000 基本的序列基礎來檢視人類基因組 276 00:11:07,000 --> 00:11:09,000 文化組學是類似的 277 00:11:09,000 --> 00:11:12,000 這是應用收集分析規模龐大的數據 278 00:11:12,000 --> 00:11:14,000 來研究人類文化 279 00:11:14,000 --> 00:11:16,000 不透過檢視基因組 280 00:11:16,000 --> 00:11:19,000 而是檢視歷史紀錄的數位資料 281 00:11:19,000 --> 00:11:21,000 文化組學的好處是 282 00:11:21,000 --> 00:11:23,000 每個人都能執行 283 00:11:23,000 --> 00:11:25,000 為何每個人都能做呢? 284 00:11:25,000 --> 00:11:27,000 因為這三位人士 285 00:11:27,000 --> 00:11:30,000 Google的Jon Orwant,Matt Gray還有Will Brockman 286 00:11:30,000 --> 00:11:32,000 他們看到Ngram瀏覽器的原型 287 00:11:32,000 --> 00:11:34,000 他們說「這太有趣了。」 288 00:11:34,000 --> 00:11:37,000 我們要讓大家都可以使用這功能 289 00:11:37,000 --> 00:11:39,000 所以在兩週的時間 -- 我們的報告出來的兩週前 -- 290 00:11:39,000 --> 00:11:42,000 他們編寫了一個大眾版本的Ngram瀏覽器 291 00:11:42,000 --> 00:11:45,000 各位可以打上任何各位有興趣的字或詞組 292 00:11:45,000 --> 00:11:47,000 然後立即看到該字詞的頻率變化 -- 293 00:11:47,000 --> 00:11:49,000 同時根據你搜尋的字詞 294 00:11:49,000 --> 00:11:51,000 瀏覽不同書籍中的各種例子 295 00:11:51,000 --> 00:11:53,000 JM:這功能在首日就被使用了超過一百萬次 296 00:11:53,000 --> 00:11:55,000 這也是各種查詢工具中最好的一個 297 00:11:55,000 --> 00:11:58,000 人們希望做到最好的,以最好的狀態像前進 298 00:11:58,000 --> 00:12:01,000 但事實證明在18世紀,人們一點也不關心這一切 299 00:12:01,000 --> 00:12:04,000 他們不想做到最好,他們想變成"beft" 300 00:12:04,000 --> 00:12:07,000 這是怎麼回事,當然這只是個錯誤 301 00:12:07,000 --> 00:12:09,000 這並不是說他們想要平凡 302 00:12:09,000 --> 00:12:12,000 這只是因為"S"常被寫的不一樣,寫得像"F" 303 00:12:12,000 --> 00:12:15,000 當然,Google並沒有挑出來 304 00:12:15,000 --> 00:12:18,000 所以我們在自己寫科學文章中提到此事 305 00:12:18,000 --> 00:12:20,000 不過這只是個提醒 306 00:12:20,000 --> 00:12:22,000 雖然這相當有趣 307 00:12:22,000 --> 00:12:24,000 當你要解讀這些圖表,你必須非常謹慎 308 00:12:24,000 --> 00:12:27,000 而且必須採納科學的基礎標準 309 00:12:27,000 --> 00:12:30,000 ELA:大家一直在使用這工具來滿足各種樂趣 310 00:12:30,000 --> 00:12:37,000 (笑聲) 311 00:12:37,000 --> 00:12:39,000 事實上,我們不需要說明的 312 00:12:39,000 --> 00:12:42,000 我們原本只想播放所有的投影片然後在一旁保持沉默 313 00:12:42,000 --> 00:12:45,000 此人對於挫折的歷史感興趣 314 00:12:45,000 --> 00:12:48,000 挫折有非常多種方式 315 00:12:48,000 --> 00:12:51,000 如果你踢到腳趾,哀叫聲「啊」就是一個"A"的"argh" 316 00:12:51,000 --> 00:12:53,000 如果地球被外星人毀滅 317 00:12:53,000 --> 00:12:55,000 變成星際間的通道 318 00:12:55,000 --> 00:12:57,000 那麼哀叫聲「啊」就是有八個"A"的"aaaaaaaargh" 319 00:12:57,000 --> 00:12:59,000 此人研究了所有書籍上出現的哀叫聲「啊」 320 00:12:59,000 --> 00:13:01,000 有從一個"A"到八個"A" 321 00:13:01,000 --> 00:13:03,000 結果是 322 00:13:03,000 --> 00:13:05,000 較不頻繁的「啊」“arghs” 323 00:13:05,000 --> 00:13:08,000 對應了那些相對較令人沮喪的的事情 324 00:13:08,000 --> 00:13:11,000 也有例外,奇怪的是在80年代初 325 00:13:11,000 --> 00:13:13,000 我們認為這也許是受到雷根的影響 326 00:13:13,000 --> 00:13:15,000 (笑聲) 327 00:13:15,000 --> 00:13:18,000 JM:這份書據資料有相當多用途 328 00:13:18,000 --> 00:13:21,000 不過最終就是歷史紀錄都被數位化了 329 00:13:21,000 --> 00:13:23,000 Google已經開始將一千五百萬本書數位化 330 00:13:23,000 --> 00:13:25,000 其中百分之十二的書是已出版的 331 00:13:25,000 --> 00:13:28,000 這涵蓋了相當大量的人類文化 332 00:13:28,000 --> 00:13:31,000 這當中有非常多的文化資料:裡頭有手稿,報紙 333 00:13:31,000 --> 00:13:33,000 也有不是文字的資料,像是藝術品和畫作 334 00:13:33,000 --> 00:13:35,000 現在這都存放在我們的電腦裡 335 00:13:35,000 --> 00:13:37,000 在世界各處的電腦裡 336 00:13:37,000 --> 00:13:40,000 如果這一切成真,就會改變 337 00:13:40,000 --> 00:13:42,000 我們了解過去、現在和人類文化的方式 338 00:13:42,000 --> 00:13:44,000 非常謝謝各位 339 00:13:44,000 --> 00:13:47,000 (掌聲)