1 00:00:00,000 --> 00:00:02,000 Erez Liberman Aiden:人说 2 00:00:02,000 --> 00:00:05,000 一副画面抵过一千个词 3 00:00:07,000 --> 00:00:09,000 但是我们在哈佛大学 4 00:00:09,000 --> 00:00:12,000 却在思考这是不是一定正确 5 00:00:12,000 --> 00:00:14,000 (众人笑) 6 00:00:14,000 --> 00:00:18,000 我们召集了各方专家 7 00:00:18,000 --> 00:00:20,000 他们来自哈佛 麻省理工 8 00:00:20,000 --> 00:00:23,000 《英国大百科全书》 《美国传统英语字典》 9 00:00:23,000 --> 00:00:25,000 还有我们骄傲的赞助商 10 00:00:25,000 --> 00:00:28,000 谷歌 11 00:00:28,000 --> 00:00:30,000 我们思考了 12 00:00:30,000 --> 00:00:32,000 大概四年 13 00:00:32,000 --> 00:00:37,000 最后得出一个惊人的结论 14 00:00:37,000 --> 00:00:40,000 女士们先生们 一副画面可不止一千个词那么简单 15 00:00:40,000 --> 00:00:42,000 事实上 我们发现有时候 16 00:00:42,000 --> 00:00:47,000 一幅画面抵过5千亿个词 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel: 我们是如何得出这个结论的呢 18 00:00:49,000 --> 00:00:51,000 是这样的 Erez和我 19 00:00:51,000 --> 00:00:53,000 在想怎样找到一幅展现人类文明 20 00:00:53,000 --> 00:00:56,000 和人文历史的画面: 历史的变迁 21 00:00:56,000 --> 00:00:58,000 人们在漫长岁月中写了很多书 22 00:00:58,000 --> 00:01:00,000 所以我们想 向他们学习的最佳方法 23 00:01:00,000 --> 00:01:02,000 就是把那几百万本书全都读完 24 00:01:02,000 --> 00:01:05,000 当然 如果用坐标来表示这样做的好处 25 00:01:05,000 --> 00:01:08,000 那Y轴上的值一定是极高的 26 00:01:08,000 --> 00:01:10,000 但问题是还有X轴 27 00:01:10,000 --> 00:01:12,000 也就是可行性 28 00:01:12,000 --> 00:01:14,000 这是极低的 29 00:01:14,000 --> 00:01:17,000 (众人鼓掌) 30 00:01:17,000 --> 00:01:20,000 现在人们倾向于另一种做法 31 00:01:20,000 --> 00:01:22,000 那就是选择几本书进行精读 32 00:01:22,000 --> 00:01:24,000 可行性极高但还不够好 33 00:01:24,000 --> 00:01:27,000 人们真正想要的 34 00:01:27,000 --> 00:01:30,000 是一个既好又可行的方法 35 00:01:30,000 --> 00:01:33,000 结果 在水一方 有一家叫“谷歌”的公司 36 00:01:33,000 --> 00:01:35,000 他们在此之前的几年前就开始了一个数字化工程 37 00:01:35,000 --> 00:01:37,000 有可能帮我们找到这个“既好又可行”的方法 38 00:01:37,000 --> 00:01:39,000 他们已经将几百万本书进行了数字化 39 00:01:39,000 --> 00:01:42,000 这就意味着人们在电脑上点几个键 40 00:01:42,000 --> 00:01:44,000 就能阅读所有的书 41 00:01:44,000 --> 00:01:47,000 这真的是既可行又好 42 00:01:48,000 --> 00:01:50,000 这些书是哪里来的呢 43 00:01:50,000 --> 00:01:53,000 从古时候开始 人们就开始写作了 44 00:01:53,000 --> 00:01:56,000 这些作家写书都非常卖力 45 00:01:56,000 --> 00:01:58,000 几个世纪前印刷机问世了 46 00:01:58,000 --> 00:02:00,000 写书的过程变得简单多了 47 00:02:00,000 --> 00:02:03,000 自那以后 48 00:02:03,000 --> 00:02:05,000 作家们已经出版了 49 00:02:05,000 --> 00:02:07,000 1.29亿本书 50 00:02:07,000 --> 00:02:09,000 如果这些书没有随年月而遗失 51 00:02:09,000 --> 00:02:11,000 就都在图书馆里存着 52 00:02:11,000 --> 00:02:14,000 谷歌已经把许多书从图书馆中调了出来 53 00:02:14,000 --> 00:02:16,000 进行了数字化 54 00:02:16,000 --> 00:02:18,000 被扫描的书籍到目前已有1500万册 55 00:02:18,000 --> 00:02:21,000 谷歌扫描图书时 把书的格式做得很好 56 00:02:21,000 --> 00:02:23,000 现在我们不但有了数据 还有元数据 57 00:02:23,000 --> 00:02:26,000 我们掌握了这些书的出版地 58 00:02:26,000 --> 00:02:28,000 作者 出版时间等信息 59 00:02:28,000 --> 00:02:31,000 接下来 我们就要从所有这些记录中 60 00:02:31,000 --> 00:02:35,000 筛选出质量最高的数据 61 00:02:35,000 --> 00:02:37,000 最后剩下的 62 00:02:37,000 --> 00:02:40,000 是5百万本书 63 00:02:40,000 --> 00:02:43,000 5000亿个词 64 00:02:43,000 --> 00:02:45,000 这么多词连起来 65 00:02:45,000 --> 00:02:48,000 长度是人类基因组的1000倍 66 00:02:48,000 --> 00:02:50,000 如果把这些词连续写出来 67 00:02:50,000 --> 00:02:52,000 其长度相当于在地月之间 68 00:02:52,000 --> 00:02:54,000 往返10次以上 69 00:02:54,000 --> 00:02:58,000 这还仅是我们文化基因组的小小一段 70 00:02:58,000 --> 00:03:00,000 当然啦 71 00:03:00,000 --> 00:03:03,000 面对如此令人崩溃的结果 72 00:03:03,000 --> 00:03:05,000 (众人笑) 73 00:03:05,000 --> 00:03:08,000 我们做了一个懂得自重的研究者 74 00:03:08,000 --> 00:03:11,000 应该做的事 75 00:03:11,000 --> 00:03:13,000 我们借鉴了XKCD(科学漫画) 76 00:03:13,000 --> 00:03:15,000 说:" 往后站。 77 00:03:15,000 --> 00:03:17,000 我们要用科学来解决问题。” 78 00:03:17,000 --> 00:03:19,000 (众人笑) 79 00:03:19,000 --> 00:03:21,000 当然 这时我们在想 80 00:03:21,000 --> 00:03:23,000 何不先把数据放上去 81 00:03:23,000 --> 00:03:25,000 让人们通过科学来运用数据 82 00:03:25,000 --> 00:03:27,000 现在我们在思考 哪些数据可以公开 83 00:03:27,000 --> 00:03:29,000 你当然想把这所有5百万本书 84 00:03:29,000 --> 00:03:31,000 全文公开 85 00:03:31,000 --> 00:03:33,000 现在谷歌 具体地说是乔恩. 奥温特 86 00:03:33,000 --> 00:03:35,000 告诉教给我们一个有用的方程式 87 00:03:35,000 --> 00:03:38,000 你有5百万本书 那就有五百万个作者 88 00:03:38,000 --> 00:03:41,000 一个有5百万个原告的官司可不小啊 89 00:03:41,000 --> 00:03:43,000 所以尽管这是个好想法 90 00:03:43,000 --> 00:03:46,000 但是也极不现实 91 00:03:46,000 --> 00:03:48,000 (众人笑) 92 00:03:48,000 --> 00:03:50,000 现在我们做出些许让步 93 00:03:50,000 --> 00:03:53,000 采用一个非常可行但稍微没那么好的方法 94 00:03:53,000 --> 00:03:55,000 我们不公开全书内容 95 00:03:55,000 --> 00:03:57,000 而是公开书本的相关统计数据 96 00:03:57,000 --> 00:03:59,000 拿“A gleam of happiness”这个词组做例子 97 00:03:59,000 --> 00:04:01,000 它有四个单词 我们称它为四字格 98 00:04:01,000 --> 00:04:03,000 我们会告诉你直到2008年出版的书中 99 00:04:03,000 --> 00:04:05,000 在1801年 1802年 1803年一直到2008年 100 00:04:05,000 --> 00:04:07,000 某个四字格一共出现了多少次 101 00:04:07,000 --> 00:04:09,000 这让我们看到 102 00:04:09,000 --> 00:04:11,000 这个词组在这段时期内被使用的频率 103 00:04:11,000 --> 00:04:14,000 我们对在这些书中的所有单词和词组都这么处理 104 00:04:14,000 --> 00:04:17,000 于是我们得出了一个由20亿曲线 105 00:04:17,000 --> 00:04:19,000 表示出文化变化的情况 106 00:04:19,000 --> 00:04:21,000 这20亿条曲线 107 00:04:21,000 --> 00:04:23,000 我们成作20亿个n字格 108 00:04:23,000 --> 00:04:25,000 它们告诉了我们什么 109 00:04:25,000 --> 00:04:27,000 这些n字格衡量的是文化的走势 110 00:04:27,000 --> 00:04:29,000 我来举个例子 111 00:04:29,000 --> 00:04:31,000 假设 我正在发财 112 00:04:31,000 --> 00:04:33,000 明天我告诉你我发财的情况 113 00:04:33,000 --> 00:04:36,000 我会说:“昨天,我发了。” 114 00:04:36,000 --> 00:04:39,000 也可以说:“昨天,我发财了。” 115 00:04:39,000 --> 00:04:42,000 我到底应该用哪个说法呢 116 00:04:42,000 --> 00:04:44,000 怎么找答案 117 00:04:44,000 --> 00:04:46,000 6个月以前 118 00:04:46,000 --> 00:04:48,000 很流行的做法是 119 00:04:48,000 --> 00:04:50,000 比如说 120 00:04:50,000 --> 00:04:52,000 你去问这位秀发飘逸的心理学家 121 00:04:52,000 --> 00:04:54,000 你说 122 00:04:54,000 --> 00:04:57,000 “史蒂夫,你是不规则动词的专家。 123 00:04:57,000 --> 00:04:59,000 我该怎么办啊?” 124 00:04:59,000 --> 00:05:01,000 他会说:“大多数人说‘发财了’, 125 00:05:01,000 --> 00:05:04,000 但有些人说‘发了’。” 126 00:05:04,000 --> 00:05:06,000 如果你可以 127 00:05:06,000 --> 00:05:09,000 回到200年前 128 00:05:09,000 --> 00:05:12,000 问问这位秀发同样飘逸的政治家 129 00:05:12,000 --> 00:05:15,000 (众人笑) 130 00:05:15,000 --> 00:05:17,000 “托马斯,我该怎么说?” 131 00:05:17,000 --> 00:05:19,000 他会回答:“嗯,在我的时代,大多数人说‘发了’, 132 00:05:19,000 --> 00:05:22,000 但是少数人说‘发财了’。” 133 00:05:22,000 --> 00:05:24,000 现在我给你们看一个原始数据 134 00:05:24,000 --> 00:05:28,000 这是20亿本书中的其中两本书的曲线 135 00:05:28,000 --> 00:05:30,000 你们将看到“发了”和“发财了”这两个词 136 00:05:30,000 --> 00:05:33,000 随时间的推移被使用的频率 137 00:05:34,000 --> 00:05:36,000 这还只是 138 00:05:36,000 --> 00:05:39,000 20亿条曲线中的其中两条 139 00:05:39,000 --> 00:05:41,000 整套数据 140 00:05:41,000 --> 00:05:44,000 比这张幻灯片要宏伟10亿倍 141 00:05:44,000 --> 00:05:46,000 (众人笑) 142 00:05:46,000 --> 00:05:50,000 (众人鼓掌) 143 00:05:50,000 --> 00:05:52,000 很多画面都相当于5千亿个词 144 00:05:52,000 --> 00:05:54,000 比如这一幅 145 00:05:54,000 --> 00:05:56,000 如果你找“流行感冒”这一词 146 00:05:56,000 --> 00:05:58,000 你会看到几个全球范围内 147 00:05:58,000 --> 00:06:01,000 祸害人命的流感高峰 148 00:06:01,000 --> 00:06:04,000 如果这不足以令人信服 149 00:06:04,000 --> 00:06:06,000 海平面正在上升 150 00:06:06,000 --> 00:06:09,000 大气中二氧化碳含量和全球气温都在升高 151 00:06:09,000 --> 00:06:12,000 你们也可以看看这个n字格 152 00:06:12,000 --> 00:06:15,000 告诉尼采上帝没死 153 00:06:15,000 --> 00:06:18,000 你可能也认为他或许要换一个企宣了 154 00:06:18,000 --> 00:06:20,000 (众人笑) 155 00:06:20,000 --> 00:06:23,000 你可以通过这个得到非常抽象的概念 156 00:06:23,000 --> 00:06:25,000 我跟你们说说 157 00:06:25,000 --> 00:06:27,000 1950年的历史 158 00:06:27,000 --> 00:06:29,000 在漫漫历史长河中 159 00:06:29,000 --> 00:06:31,000 几乎没人在意1950年 160 00:06:31,000 --> 00:06:33,000 1700年 1800年 1900年 161 00:06:33,000 --> 00:06:36,000 没有人在意 162 00:06:37,000 --> 00:06:39,000 20世纪三十年代和四十年代 163 00:06:39,000 --> 00:06:41,000 没有人在意 164 00:06:41,000 --> 00:06:43,000 到了四十年代中期 突然间 165 00:06:43,000 --> 00:06:45,000 关注度飞升 166 00:06:45,000 --> 00:06:47,000 人们意识到1950年快来了 167 00:06:47,000 --> 00:06:49,000 这一年可能非同小可啊 168 00:06:49,000 --> 00:06:52,000 (众人笑) 169 00:06:52,000 --> 00:06:55,000 1950年 正如人们想象的一样 170 00:06:55,000 --> 00:06:58,000 没发生任何有意思的事情 171 00:06:58,000 --> 00:07:01,000 (众人笑) 172 00:07:01,000 --> 00:07:03,000 人们都着了魔了 173 00:07:03,000 --> 00:07:05,000 无时无刻不在谈论 174 00:07:05,000 --> 00:07:08,000 他们1950年做过的事情 175 00:07:08,000 --> 00:07:11,000 他们打算在1950年做的事情 176 00:07:11,000 --> 00:07:16,000 后者他们1950年想要实现的梦想 177 00:07:16,000 --> 00:07:18,000 事实上 1950年是不同凡响的一年 178 00:07:18,000 --> 00:07:20,000 即使过了好多年 179 00:07:20,000 --> 00:07:23,000 人们还是不停地谈论那年发生的所有美好事情 180 00:07:23,000 --> 00:07:25,000 51年 52年 53年 181 00:07:25,000 --> 00:07:27,000 终于到了1954年 182 00:07:27,000 --> 00:07:29,000 人们醒悟过来 183 00:07:29,000 --> 00:07:33,000 1950年已成往事了 184 00:07:33,000 --> 00:07:35,000 (众人笑) 185 00:07:35,000 --> 00:07:37,000 就这样 泡泡破了 186 00:07:37,000 --> 00:07:39,000 (众人笑) 187 00:07:39,000 --> 00:07:41,000 1950年的情况 188 00:07:41,000 --> 00:07:43,000 以及每一年的情况 我们都记录了下来 189 00:07:43,000 --> 00:07:46,000 多亏了这些漂亮的图表 我们的工作顺利多了 190 00:07:46,000 --> 00:07:49,000 有了这些漂亮的图表 我们就能测量各种事物 191 00:07:49,000 --> 00:07:51,000 我们会说:“泡泡破掉的速度有多快?” 192 00:07:51,000 --> 00:07:54,000 结果证明 我们可以对此进行精准的测量 193 00:07:54,000 --> 00:07:57,000 等式出来了 图表也做好了 194 00:07:57,000 --> 00:07:59,000 最终结果是 195 00:07:59,000 --> 00:08:02,000 泡泡破掉的速度 196 00:08:02,000 --> 00:08:04,000 每年都在加快 197 00:08:04,000 --> 00:08:09,000 我们对过去的遗忘不断加快 198 00:08:09,000 --> 00:08:11,000 好 现在给大家一些发展事业的建议 199 00:08:11,000 --> 00:08:13,000 如果你想成名 200 00:08:13,000 --> 00:08:15,000 我们可以向25位最著名的政治人物 201 00:08:15,000 --> 00:08:17,000 作家 演员学习 202 00:08:17,000 --> 00:08:20,000 如果你想早点成名 你就应该做个演员 203 00:08:20,000 --> 00:08:22,000 因为 演员在20来岁的时候成名 204 00:08:22,000 --> 00:08:24,000 你还很年轻 这是本钱 205 00:08:24,000 --> 00:08:26,000 如果你能等一等 那就当个作家 206 00:08:26,000 --> 00:08:28,000 因为你可以像马克.吐温这样 207 00:08:28,000 --> 00:08:30,000 成为文坛巨星 208 00:08:30,000 --> 00:08:32,000 如果你想到达万人之上 209 00:08:32,000 --> 00:08:34,000 你就不能安于现状 210 00:08:34,000 --> 00:08:36,000 要成为一个政治家 211 00:08:36,000 --> 00:08:38,000 到了快60岁的时候 你就成名了 212 00:08:38,000 --> 00:08:40,000 而且之后名声远扬 213 00:08:40,000 --> 00:08:43,000 科学家通常在年纪一大把的时候才成名 214 00:08:43,000 --> 00:08:45,000 生物学家和物理学家的名声 215 00:08:45,000 --> 00:08:47,000 通常能跟演员的名声媲美 216 00:08:47,000 --> 00:08:50,000 有一个错误你不要犯 那就是成为一个数学家 217 00:08:50,000 --> 00:08:52,000 (众人笑) 218 00:08:52,000 --> 00:08:54,000 如果你成了数学家 219 00:08:54,000 --> 00:08:57,000 你会想:“太好啦,我20多岁的时候会有最辉煌的成就。” 220 00:08:57,000 --> 00:08:59,000 谁知道 人们连睬都不睬你 221 00:08:59,000 --> 00:09:02,000 (众人笑) 222 00:09:02,000 --> 00:09:04,000 n字格中 223 00:09:04,000 --> 00:09:06,000 有些情况更为明了 224 00:09:06,000 --> 00:09:08,000 这是Marc Chagall的名声起落 225 00:09:08,000 --> 00:09:10,000 他是出生于1887的一位艺术家 226 00:09:10,000 --> 00:09:13,000 他的名声起落看似乎没有什么异常 227 00:09:13,000 --> 00:09:17,000 他的名声越来越大 228 00:09:17,000 --> 00:09:19,000 然而如果你在德语书中搜索 情况就不同了 229 00:09:19,000 --> 00:09:21,000 在德语书中 你会看到非常奇怪的现象 230 00:09:21,000 --> 00:09:23,000 闻所未闻 见所未见 231 00:09:23,000 --> 00:09:25,000 他先是名极一时 232 00:09:25,000 --> 00:09:27,000 但突然之间 名声直线下落 233 00:09:27,000 --> 00:09:30,000 在1933年到1945年间达到了低谷 234 00:09:30,000 --> 00:09:33,000 后来才回升 235 00:09:33,000 --> 00:09:35,000 当然 实际情况是 236 00:09:35,000 --> 00:09:38,000 Marc Chagall是一个犹太艺术家 237 00:09:38,000 --> 00:09:40,000 当时身在纳粹德国 238 00:09:40,000 --> 00:09:42,000 这些信号 239 00:09:42,000 --> 00:09:44,000 实在太强了 240 00:09:44,000 --> 00:09:47,000 我们无需知道谁被禁了 241 00:09:47,000 --> 00:09:49,000 我们事实上可以 242 00:09:49,000 --> 00:09:51,000 通过非常基本的信号处理来找出答案 243 00:09:51,000 --> 00:09:53,000 这里有一个简单的方法 244 00:09:53,000 --> 00:09:55,000 一个人在特定时期内 245 00:09:55,000 --> 00:09:57,000 所拥有的知名度 246 00:09:57,000 --> 00:09:59,000 应当大致为他成名前与成名后知名度的平均值 247 00:09:59,000 --> 00:10:01,000 这么想是有道理的 248 00:10:01,000 --> 00:10:03,000 我们也是怎么想的 249 00:10:03,000 --> 00:10:06,000 我们把观察到的知名度进行对比 250 00:10:06,000 --> 00:10:08,000 我们把前者比上后者 251 00:10:08,000 --> 00:10:10,000 产生的结果叫做抑制指数 252 00:10:10,000 --> 00:10:13,000 如果抑制指数非常非常小 253 00:10:13,000 --> 00:10:15,000 那么你的知名度正在被抑制 254 00:10:15,000 --> 00:10:18,000 如果数值非常大 或许就表明你从宣传中获益 255 00:10:19,000 --> 00:10:21,000 你还可以看到 256 00:10:21,000 --> 00:10:24,000 压抑指数在总人数中的分布情况 257 00:10:24,000 --> 00:10:26,000 这里有个例子 258 00:10:26,000 --> 00:10:28,000 这是从没有明显抑制的英文书籍中 259 00:10:28,000 --> 00:10:30,000 选出的5000个人 260 00:10:30,000 --> 00:10:32,000 它是这个样子的 基本上以1为中心 261 00:10:32,000 --> 00:10:34,000 实际情况与预想差不多 262 00:10:34,000 --> 00:10:36,000 而这在是德文书籍中的分布情况 263 00:10:36,000 --> 00:10:38,000 与前者大为不同 往左偏了 264 00:10:38,000 --> 00:10:41,000 人们对它的关注较预期要少了两倍 265 00:10:41,000 --> 00:10:43,000 更重要的是 这个分布的跨度更宽 266 00:10:43,000 --> 00:10:46,000 不少人处于左边的部分 267 00:10:46,000 --> 00:10:49,000 人数比预期中少了10倍 268 00:10:49,000 --> 00:10:51,000 而也有不少人处于更靠右的部分 269 00:10:51,000 --> 00:10:53,000 他们的宣传起了作用 270 00:10:53,000 --> 00:10:56,000 这幅图反映了书籍记录中的审查情况 271 00:10:56,000 --> 00:10:58,000 我们把这种方法 272 00:10:58,000 --> 00:11:00,000 称作文化组学 273 00:11:00,000 --> 00:11:02,000 有点像基因组学 274 00:11:02,000 --> 00:11:04,000 只不过 基因组学是生物学上 275 00:11:04,000 --> 00:11:07,000 观察人类基因组序列的透镜 276 00:11:07,000 --> 00:11:09,000 文化组学很类似 277 00:11:09,000 --> 00:11:12,000 它指的是对人类文明研究的 278 00:11:12,000 --> 00:11:14,000 大规模数据收集分析的应用 279 00:11:14,000 --> 00:11:16,000 它使用的不是基因组这个透镜 280 00:11:16,000 --> 00:11:19,000 而是用数字化的历史记录片段作为透镜 281 00:11:19,000 --> 00:11:21,000 文化组学的优点是 282 00:11:21,000 --> 00:11:23,000 人人都会用它 283 00:11:23,000 --> 00:11:25,000 为什么呢 284 00:11:25,000 --> 00:11:27,000 这是因为这三个人 285 00:11:27,000 --> 00:11:30,000 谷歌的乔恩.奥温特 迈特.格雷和威尔.布洛克曼 286 00:11:30,000 --> 00:11:32,000 看到了n字格后 287 00:11:32,000 --> 00:11:34,000 说:“这太有意思了, 288 00:11:34,000 --> 00:11:37,000 我们得让所有人都用上它。” 289 00:11:37,000 --> 00:11:39,000 于是在我们的论文发表之前的整整两个星期中 290 00:11:39,000 --> 00:11:42,000 他们编了一个面向公众的Ngram Viewer版本 291 00:11:42,000 --> 00:11:45,000 现在你们也可以输入任何你感兴趣的单词或词组 292 00:11:45,000 --> 00:11:47,000 查看它的n字格 293 00:11:47,000 --> 00:11:49,000 并阅览所有书籍中 294 00:11:49,000 --> 00:11:51,000 出现n字格的例句 295 00:11:51,000 --> 00:11:53,000 这个词在第一天就被使用了超过一百万次 296 00:11:53,000 --> 00:11:55,000 这真的是最棒的一个搜索词 297 00:11:55,000 --> 00:11:58,000 人们总想做到最好 总想展示最好的一面 298 00:11:58,000 --> 00:12:01,000 但是在18世纪 人们对此并不在乎 299 00:12:01,000 --> 00:12:04,000 他们不想做到最好(“best”)而是“beft” 300 00:12:04,000 --> 00:12:07,000 实际上 这是个错别字 301 00:12:07,000 --> 00:12:09,000 这并不是因为人们不识字 302 00:12:09,000 --> 00:12:12,000 而是因为当时英文字母S的写法跟现在不同 看起来像F 303 00:12:12,000 --> 00:12:15,000 当然 谷歌没有意识到这一点 304 00:12:15,000 --> 00:12:18,000 于是我们对此在论文中做了报告 305 00:12:18,000 --> 00:12:20,000 这实际上只是一个小提示 306 00:12:20,000 --> 00:12:22,000 尽管这很有趣 307 00:12:22,000 --> 00:12:24,000 但是你在解读这些图表时 仍须非常谨慎 308 00:12:24,000 --> 00:12:27,000 你必须遵循基本的科学准则 309 00:12:27,000 --> 00:12:30,000 人们使用它来寻求各种乐趣 310 00:12:30,000 --> 00:12:37,000 (众人笑) 311 00:12:37,000 --> 00:12:39,000 我们不打算多说 312 00:12:39,000 --> 00:12:42,000 光给你们看这些幻灯片 313 00:12:42,000 --> 00:12:45,000 这个用户对人们烦躁的历史很感兴趣 314 00:12:45,000 --> 00:12:48,000 这里有不同类型的烦躁 315 00:12:48,000 --> 00:12:51,000 如果你的脚趾被碰了 你会说“啊” (“argh”) 316 00:12:51,000 --> 00:12:53,000 如果地球被外星人毁灭了 317 00:12:53,000 --> 00:12:55,000 开了一条星际航道 318 00:12:55,000 --> 00:12:57,000 那就是“啊啊啊啊啊啊啊啊” ("aaaaaaaargh") 319 00:12:57,000 --> 00:12:59,000 这个人研究了不同长短的“啊” (“argh”) 320 00:12:59,000 --> 00:13:01,000 从1个啊到8个啊 321 00:13:01,000 --> 00:13:03,000 结果 322 00:13:03,000 --> 00:13:05,000 那些使用频率较低的啊 323 00:13:05,000 --> 00:13:08,000 代表程度更高的烦躁 324 00:13:08,000 --> 00:13:11,000 八十年代是个例外 325 00:13:11,000 --> 00:13:13,000 我们猜这可能跟里根总统有关 326 00:13:13,000 --> 00:13:15,000 (众人笑) 327 00:13:15,000 --> 00:13:18,000 这个数据库的用处很多 328 00:13:18,000 --> 00:13:21,000 但最重要的是这是一个数字化的历史记录 329 00:13:21,000 --> 00:13:23,000 谷歌已经开始对1500万本书进行数字化处理 330 00:13:23,000 --> 00:13:25,000 其中12%的书已被出版 331 00:13:25,000 --> 00:13:28,000 这是人类文明相当大的一部分 332 00:13:28,000 --> 00:13:31,000 而文明还包括更多的内容 有手稿 报纸 333 00:13:31,000 --> 00:13:33,000 非文字的内容 例如艺术与绘画 334 00:13:33,000 --> 00:13:35,000 这些内容都会出现在我们的电脑上 335 00:13:35,000 --> 00:13:37,000 在世界各地的电脑上 336 00:13:37,000 --> 00:13:40,000 如果这成真了 337 00:13:40,000 --> 00:13:42,000 我们对过去现在以及人类文明的认识就被改变了 338 00:13:42,000 --> 00:13:44,000 非常感谢大家 339 00:13:44,000 --> 00:13:47,000 (众人鼓掌)