WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Liberman Aiden:人说 00:00:02.000 --> 00:00:05.000 一副画面抵过一千个词 00:00:07.000 --> 00:00:09.000 但是我们在哈佛大学 00:00:09.000 --> 00:00:12.000 却在思考这是不是一定正确 00:00:12.000 --> 00:00:14.000 (众人笑) 00:00:14.000 --> 00:00:18.000 我们召集了各方专家 00:00:18.000 --> 00:00:20.000 他们来自哈佛 麻省理工 00:00:20.000 --> 00:00:23.000 《英国大百科全书》 《美国传统英语字典》 00:00:23.000 --> 00:00:25.000 还有我们骄傲的赞助商 00:00:25.000 --> 00:00:28.000 谷歌 00:00:28.000 --> 00:00:30.000 我们思考了 00:00:30.000 --> 00:00:32.000 大概四年 00:00:32.000 --> 00:00:37.000 最后得出一个惊人的结论 00:00:37.000 --> 00:00:40.000 女士们先生们 一副画面可不止一千个词那么简单 00:00:40.000 --> 00:00:42.000 事实上 我们发现有时候 00:00:42.000 --> 00:00:47.000 一幅画面抵过5千亿个词 NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: 我们是如何得出这个结论的呢 00:00:49.000 --> 00:00:51.000 是这样的 Erez和我 00:00:51.000 --> 00:00:53.000 在想怎样找到一幅展现人类文明 00:00:53.000 --> 00:00:56.000 和人文历史的画面: 历史的变迁 00:00:56.000 --> 00:00:58.000 人们在漫长岁月中写了很多书 00:00:58.000 --> 00:01:00.000 所以我们想 向他们学习的最佳方法 00:01:00.000 --> 00:01:02.000 就是把那几百万本书全都读完 00:01:02.000 --> 00:01:05.000 当然 如果用坐标来表示这样做的好处 00:01:05.000 --> 00:01:08.000 那Y轴上的值一定是极高的 00:01:08.000 --> 00:01:10.000 但问题是还有X轴 00:01:10.000 --> 00:01:12.000 也就是可行性 00:01:12.000 --> 00:01:14.000 这是极低的 NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (众人鼓掌) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 现在人们倾向于另一种做法 00:01:20.000 --> 00:01:22.000 那就是选择几本书进行精读 00:01:22.000 --> 00:01:24.000 可行性极高但还不够好 00:01:24.000 --> 00:01:27.000 人们真正想要的 00:01:27.000 --> 00:01:30.000 是一个既好又可行的方法 00:01:30.000 --> 00:01:33.000 结果 在水一方 有一家叫“谷歌”的公司 00:01:33.000 --> 00:01:35.000 他们在此之前的几年前就开始了一个数字化工程 00:01:35.000 --> 00:01:37.000 有可能帮我们找到这个“既好又可行”的方法 00:01:37.000 --> 00:01:39.000 他们已经将几百万本书进行了数字化 00:01:39.000 --> 00:01:42.000 这就意味着人们在电脑上点几个键 00:01:42.000 --> 00:01:44.000 就能阅读所有的书 00:01:44.000 --> 00:01:47.000 这真的是既可行又好 NOTE Paragraph 00:01:48.000 --> 00:01:50.000 这些书是哪里来的呢 00:01:50.000 --> 00:01:53.000 从古时候开始 人们就开始写作了 00:01:53.000 --> 00:01:56.000 这些作家写书都非常卖力 00:01:56.000 --> 00:01:58.000 几个世纪前印刷机问世了 00:01:58.000 --> 00:02:00.000 写书的过程变得简单多了 00:02:00.000 --> 00:02:03.000 自那以后 00:02:03.000 --> 00:02:05.000 作家们已经出版了 00:02:05.000 --> 00:02:07.000 1.29亿本书 00:02:07.000 --> 00:02:09.000 如果这些书没有随年月而遗失 00:02:09.000 --> 00:02:11.000 就都在图书馆里存着 00:02:11.000 --> 00:02:14.000 谷歌已经把许多书从图书馆中调了出来 00:02:14.000 --> 00:02:16.000 进行了数字化 00:02:16.000 --> 00:02:18.000 被扫描的书籍到目前已有1500万册 NOTE Paragraph 00:02:18.000 --> 00:02:21.000 谷歌扫描图书时 把书的格式做得很好 00:02:21.000 --> 00:02:23.000 现在我们不但有了数据 还有元数据 00:02:23.000 --> 00:02:26.000 我们掌握了这些书的出版地 00:02:26.000 --> 00:02:28.000 作者 出版时间等信息 00:02:28.000 --> 00:02:31.000 接下来 我们就要从所有这些记录中 00:02:31.000 --> 00:02:35.000 筛选出质量最高的数据 00:02:35.000 --> 00:02:37.000 最后剩下的 00:02:37.000 --> 00:02:40.000 是5百万本书 00:02:40.000 --> 00:02:43.000 5000亿个词 00:02:43.000 --> 00:02:45.000 这么多词连起来 00:02:45.000 --> 00:02:48.000 长度是人类基因组的1000倍 00:02:48.000 --> 00:02:50.000 如果把这些词连续写出来 00:02:50.000 --> 00:02:52.000 其长度相当于在地月之间 00:02:52.000 --> 00:02:54.000 往返10次以上 00:02:54.000 --> 00:02:58.000 这还仅是我们文化基因组的小小一段 00:02:58.000 --> 00:03:00.000 当然啦 00:03:00.000 --> 00:03:03.000 面对如此令人崩溃的结果 00:03:03.000 --> 00:03:05.000 (众人笑) 00:03:05.000 --> 00:03:08.000 我们做了一个懂得自重的研究者 00:03:08.000 --> 00:03:11.000 应该做的事 00:03:11.000 --> 00:03:13.000 我们借鉴了XKCD(科学漫画) 00:03:13.000 --> 00:03:15.000 说:" 往后站。 00:03:15.000 --> 00:03:17.000 我们要用科学来解决问题。” NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (众人笑) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 当然 这时我们在想 00:03:21.000 --> 00:03:23.000 何不先把数据放上去 00:03:23.000 --> 00:03:25.000 让人们通过科学来运用数据 00:03:25.000 --> 00:03:27.000 现在我们在思考 哪些数据可以公开 00:03:27.000 --> 00:03:29.000 你当然想把这所有5百万本书 00:03:29.000 --> 00:03:31.000 全文公开 00:03:31.000 --> 00:03:33.000 现在谷歌 具体地说是乔恩. 奥温特 00:03:33.000 --> 00:03:35.000 告诉教给我们一个有用的方程式 00:03:35.000 --> 00:03:38.000 你有5百万本书 那就有五百万个作者 00:03:38.000 --> 00:03:41.000 一个有5百万个原告的官司可不小啊 00:03:41.000 --> 00:03:43.000 所以尽管这是个好想法 00:03:43.000 --> 00:03:46.000 但是也极不现实 00:03:46.000 --> 00:03:48.000 (众人笑) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 现在我们做出些许让步 00:03:50.000 --> 00:03:53.000 采用一个非常可行但稍微没那么好的方法 00:03:53.000 --> 00:03:55.000 我们不公开全书内容 00:03:55.000 --> 00:03:57.000 而是公开书本的相关统计数据 00:03:57.000 --> 00:03:59.000 拿“A gleam of happiness”这个词组做例子 00:03:59.000 --> 00:04:01.000 它有四个单词 我们称它为四字格 00:04:01.000 --> 00:04:03.000 我们会告诉你直到2008年出版的书中 00:04:03.000 --> 00:04:05.000 在1801年 1802年 1803年一直到2008年 00:04:05.000 --> 00:04:07.000 某个四字格一共出现了多少次 00:04:07.000 --> 00:04:09.000 这让我们看到 00:04:09.000 --> 00:04:11.000 这个词组在这段时期内被使用的频率 00:04:11.000 --> 00:04:14.000 我们对在这些书中的所有单词和词组都这么处理 00:04:14.000 --> 00:04:17.000 于是我们得出了一个由20亿曲线 00:04:17.000 --> 00:04:19.000 表示出文化变化的情况 NOTE Paragraph 00:04:19.000 --> 00:04:21.000 这20亿条曲线 00:04:21.000 --> 00:04:23.000 我们成作20亿个n字格 00:04:23.000 --> 00:04:25.000 它们告诉了我们什么 00:04:25.000 --> 00:04:27.000 这些n字格衡量的是文化的走势 00:04:27.000 --> 00:04:29.000 我来举个例子 00:04:29.000 --> 00:04:31.000 假设 我正在发财 00:04:31.000 --> 00:04:33.000 明天我告诉你我发财的情况 00:04:33.000 --> 00:04:36.000 我会说:“昨天,我发了。” 00:04:36.000 --> 00:04:39.000 也可以说:“昨天,我发财了。” 00:04:39.000 --> 00:04:42.000 我到底应该用哪个说法呢 00:04:42.000 --> 00:04:44.000 怎么找答案 NOTE Paragraph 00:04:44.000 --> 00:04:46.000 6个月以前 00:04:46.000 --> 00:04:48.000 很流行的做法是 00:04:48.000 --> 00:04:50.000 比如说 00:04:50.000 --> 00:04:52.000 你去问这位秀发飘逸的心理学家 00:04:52.000 --> 00:04:54.000 你说 00:04:54.000 --> 00:04:57.000 “史蒂夫,你是不规则动词的专家。 00:04:57.000 --> 00:04:59.000 我该怎么办啊?” 00:04:59.000 --> 00:05:01.000 他会说:“大多数人说‘发财了’, 00:05:01.000 --> 00:05:04.000 但有些人说‘发了’。” 00:05:04.000 --> 00:05:06.000 如果你可以 00:05:06.000 --> 00:05:09.000 回到200年前 00:05:09.000 --> 00:05:12.000 问问这位秀发同样飘逸的政治家 00:05:12.000 --> 00:05:15.000 (众人笑) 00:05:15.000 --> 00:05:17.000 “托马斯,我该怎么说?” 00:05:17.000 --> 00:05:19.000 他会回答:“嗯,在我的时代,大多数人说‘发了’, 00:05:19.000 --> 00:05:22.000 但是少数人说‘发财了’。” 00:05:22.000 --> 00:05:24.000 现在我给你们看一个原始数据 00:05:24.000 --> 00:05:28.000 这是20亿本书中的其中两本书的曲线 00:05:28.000 --> 00:05:30.000 你们将看到“发了”和“发财了”这两个词 00:05:30.000 --> 00:05:33.000 随时间的推移被使用的频率 00:05:34.000 --> 00:05:36.000 这还只是 00:05:36.000 --> 00:05:39.000 20亿条曲线中的其中两条 00:05:39.000 --> 00:05:41.000 整套数据 00:05:41.000 --> 00:05:44.000 比这张幻灯片要宏伟10亿倍 NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (众人笑) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (众人鼓掌) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 很多画面都相当于5千亿个词 00:05:52.000 --> 00:05:54.000 比如这一幅 00:05:54.000 --> 00:05:56.000 如果你找“流行感冒”这一词 00:05:56.000 --> 00:05:58.000 你会看到几个全球范围内 00:05:58.000 --> 00:06:01.000 祸害人命的流感高峰 NOTE Paragraph 00:06:01.000 --> 00:06:04.000 如果这不足以令人信服 00:06:04.000 --> 00:06:06.000 海平面正在上升 00:06:06.000 --> 00:06:09.000 大气中二氧化碳含量和全球气温都在升高 NOTE Paragraph 00:06:09.000 --> 00:06:12.000 你们也可以看看这个n字格 00:06:12.000 --> 00:06:15.000 告诉尼采上帝没死 00:06:15.000 --> 00:06:18.000 你可能也认为他或许要换一个企宣了 NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (众人笑) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 你可以通过这个得到非常抽象的概念 00:06:23.000 --> 00:06:25.000 我跟你们说说 00:06:25.000 --> 00:06:27.000 1950年的历史 00:06:27.000 --> 00:06:29.000 在漫漫历史长河中 00:06:29.000 --> 00:06:31.000 几乎没人在意1950年 00:06:31.000 --> 00:06:33.000 1700年 1800年 1900年 00:06:33.000 --> 00:06:36.000 没有人在意 00:06:37.000 --> 00:06:39.000 20世纪三十年代和四十年代 00:06:39.000 --> 00:06:41.000 没有人在意 00:06:41.000 --> 00:06:43.000 到了四十年代中期 突然间 00:06:43.000 --> 00:06:45.000 关注度飞升 00:06:45.000 --> 00:06:47.000 人们意识到1950年快来了 00:06:47.000 --> 00:06:49.000 这一年可能非同小可啊 00:06:49.000 --> 00:06:52.000 (众人笑) 00:06:52.000 --> 00:06:55.000 1950年 正如人们想象的一样 00:06:55.000 --> 00:06:58.000 没发生任何有意思的事情 00:06:58.000 --> 00:07:01.000 (众人笑) 00:07:01.000 --> 00:07:03.000 人们都着了魔了 00:07:03.000 --> 00:07:05.000 无时无刻不在谈论 00:07:05.000 --> 00:07:08.000 他们1950年做过的事情 00:07:08.000 --> 00:07:11.000 他们打算在1950年做的事情 00:07:11.000 --> 00:07:16.000 后者他们1950年想要实现的梦想 00:07:16.000 --> 00:07:18.000 事实上 1950年是不同凡响的一年 00:07:18.000 --> 00:07:20.000 即使过了好多年 00:07:20.000 --> 00:07:23.000 人们还是不停地谈论那年发生的所有美好事情 00:07:23.000 --> 00:07:25.000 51年 52年 53年 00:07:25.000 --> 00:07:27.000 终于到了1954年 00:07:27.000 --> 00:07:29.000 人们醒悟过来 00:07:29.000 --> 00:07:33.000 1950年已成往事了 00:07:33.000 --> 00:07:35.000 (众人笑) 00:07:35.000 --> 00:07:37.000 就这样 泡泡破了 NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (众人笑) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 1950年的情况 00:07:41.000 --> 00:07:43.000 以及每一年的情况 我们都记录了下来 00:07:43.000 --> 00:07:46.000 多亏了这些漂亮的图表 我们的工作顺利多了 00:07:46.000 --> 00:07:49.000 有了这些漂亮的图表 我们就能测量各种事物 00:07:49.000 --> 00:07:51.000 我们会说:“泡泡破掉的速度有多快?” 00:07:51.000 --> 00:07:54.000 结果证明 我们可以对此进行精准的测量 00:07:54.000 --> 00:07:57.000 等式出来了 图表也做好了 00:07:57.000 --> 00:07:59.000 最终结果是 00:07:59.000 --> 00:08:02.000 泡泡破掉的速度 00:08:02.000 --> 00:08:04.000 每年都在加快 00:08:04.000 --> 00:08:09.000 我们对过去的遗忘不断加快 NOTE Paragraph 00:08:09.000 --> 00:08:11.000 好 现在给大家一些发展事业的建议 00:08:11.000 --> 00:08:13.000 如果你想成名 00:08:13.000 --> 00:08:15.000 我们可以向25位最著名的政治人物 00:08:15.000 --> 00:08:17.000 作家 演员学习 00:08:17.000 --> 00:08:20.000 如果你想早点成名 你就应该做个演员 00:08:20.000 --> 00:08:22.000 因为 演员在20来岁的时候成名 00:08:22.000 --> 00:08:24.000 你还很年轻 这是本钱 00:08:24.000 --> 00:08:26.000 如果你能等一等 那就当个作家 00:08:26.000 --> 00:08:28.000 因为你可以像马克.吐温这样 00:08:28.000 --> 00:08:30.000 成为文坛巨星 00:08:30.000 --> 00:08:32.000 如果你想到达万人之上 00:08:32.000 --> 00:08:34.000 你就不能安于现状 00:08:34.000 --> 00:08:36.000 要成为一个政治家 00:08:36.000 --> 00:08:38.000 到了快60岁的时候 你就成名了 00:08:38.000 --> 00:08:40.000 而且之后名声远扬 00:08:40.000 --> 00:08:43.000 科学家通常在年纪一大把的时候才成名 00:08:43.000 --> 00:08:45.000 生物学家和物理学家的名声 00:08:45.000 --> 00:08:47.000 通常能跟演员的名声媲美 00:08:47.000 --> 00:08:50.000 有一个错误你不要犯 那就是成为一个数学家 00:08:50.000 --> 00:08:52.000 (众人笑) 00:08:52.000 --> 00:08:54.000 如果你成了数学家 00:08:54.000 --> 00:08:57.000 你会想:“太好啦,我20多岁的时候会有最辉煌的成就。” 00:08:57.000 --> 00:08:59.000 谁知道 人们连睬都不睬你 NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (众人笑) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 n字格中 00:09:04.000 --> 00:09:06.000 有些情况更为明了 00:09:06.000 --> 00:09:08.000 这是Marc Chagall的名声起落 00:09:08.000 --> 00:09:10.000 他是出生于1887的一位艺术家 00:09:10.000 --> 00:09:13.000 他的名声起落看似乎没有什么异常 00:09:13.000 --> 00:09:17.000 他的名声越来越大 00:09:17.000 --> 00:09:19.000 然而如果你在德语书中搜索 情况就不同了 00:09:19.000 --> 00:09:21.000 在德语书中 你会看到非常奇怪的现象 00:09:21.000 --> 00:09:23.000 闻所未闻 见所未见 00:09:23.000 --> 00:09:25.000 他先是名极一时 00:09:25.000 --> 00:09:27.000 但突然之间 名声直线下落 00:09:27.000 --> 00:09:30.000 在1933年到1945年间达到了低谷 00:09:30.000 --> 00:09:33.000 后来才回升 00:09:33.000 --> 00:09:35.000 当然 实际情况是 00:09:35.000 --> 00:09:38.000 Marc Chagall是一个犹太艺术家 00:09:38.000 --> 00:09:40.000 当时身在纳粹德国 NOTE Paragraph 00:09:40.000 --> 00:09:42.000 这些信号 00:09:42.000 --> 00:09:44.000 实在太强了 00:09:44.000 --> 00:09:47.000 我们无需知道谁被禁了 00:09:47.000 --> 00:09:49.000 我们事实上可以 00:09:49.000 --> 00:09:51.000 通过非常基本的信号处理来找出答案 00:09:51.000 --> 00:09:53.000 这里有一个简单的方法 00:09:53.000 --> 00:09:55.000 一个人在特定时期内 00:09:55.000 --> 00:09:57.000 所拥有的知名度 00:09:57.000 --> 00:09:59.000 应当大致为他成名前与成名后知名度的平均值 00:09:59.000 --> 00:10:01.000 这么想是有道理的 00:10:01.000 --> 00:10:03.000 我们也是怎么想的 00:10:03.000 --> 00:10:06.000 我们把观察到的知名度进行对比 00:10:06.000 --> 00:10:08.000 我们把前者比上后者 00:10:08.000 --> 00:10:10.000 产生的结果叫做抑制指数 00:10:10.000 --> 00:10:13.000 如果抑制指数非常非常小 00:10:13.000 --> 00:10:15.000 那么你的知名度正在被抑制 00:10:15.000 --> 00:10:18.000 如果数值非常大 或许就表明你从宣传中获益 NOTE Paragraph 00:10:19.000 --> 00:10:21.000 你还可以看到 00:10:21.000 --> 00:10:24.000 压抑指数在总人数中的分布情况 00:10:24.000 --> 00:10:26.000 这里有个例子 00:10:26.000 --> 00:10:28.000 这是从没有明显抑制的英文书籍中 00:10:28.000 --> 00:10:30.000 选出的5000个人 00:10:30.000 --> 00:10:32.000 它是这个样子的 基本上以1为中心 00:10:32.000 --> 00:10:34.000 实际情况与预想差不多 00:10:34.000 --> 00:10:36.000 而这在是德文书籍中的分布情况 00:10:36.000 --> 00:10:38.000 与前者大为不同 往左偏了 00:10:38.000 --> 00:10:41.000 人们对它的关注较预期要少了两倍 00:10:41.000 --> 00:10:43.000 更重要的是 这个分布的跨度更宽 00:10:43.000 --> 00:10:46.000 不少人处于左边的部分 00:10:46.000 --> 00:10:49.000 人数比预期中少了10倍 00:10:49.000 --> 00:10:51.000 而也有不少人处于更靠右的部分 00:10:51.000 --> 00:10:53.000 他们的宣传起了作用 00:10:53.000 --> 00:10:56.000 这幅图反映了书籍记录中的审查情况 NOTE Paragraph 00:10:56.000 --> 00:10:58.000 我们把这种方法 00:10:58.000 --> 00:11:00.000 称作文化组学 00:11:00.000 --> 00:11:02.000 有点像基因组学 00:11:02.000 --> 00:11:04.000 只不过 基因组学是生物学上 00:11:04.000 --> 00:11:07.000 观察人类基因组序列的透镜 00:11:07.000 --> 00:11:09.000 文化组学很类似 00:11:09.000 --> 00:11:12.000 它指的是对人类文明研究的 00:11:12.000 --> 00:11:14.000 大规模数据收集分析的应用 00:11:14.000 --> 00:11:16.000 它使用的不是基因组这个透镜 00:11:16.000 --> 00:11:19.000 而是用数字化的历史记录片段作为透镜 00:11:19.000 --> 00:11:21.000 文化组学的优点是 00:11:21.000 --> 00:11:23.000 人人都会用它 00:11:23.000 --> 00:11:25.000 为什么呢 00:11:25.000 --> 00:11:27.000 这是因为这三个人 00:11:27.000 --> 00:11:30.000 谷歌的乔恩.奥温特 迈特.格雷和威尔.布洛克曼 00:11:30.000 --> 00:11:32.000 看到了n字格后 00:11:32.000 --> 00:11:34.000 说:“这太有意思了, 00:11:34.000 --> 00:11:37.000 我们得让所有人都用上它。” 00:11:37.000 --> 00:11:39.000 于是在我们的论文发表之前的整整两个星期中 00:11:39.000 --> 00:11:42.000 他们编了一个面向公众的Ngram Viewer版本 00:11:42.000 --> 00:11:45.000 现在你们也可以输入任何你感兴趣的单词或词组 00:11:45.000 --> 00:11:47.000 查看它的n字格 00:11:47.000 --> 00:11:49.000 并阅览所有书籍中 00:11:49.000 --> 00:11:51.000 出现n字格的例句 NOTE Paragraph 00:11:51.000 --> 00:11:53.000 这个词在第一天就被使用了超过一百万次 00:11:53.000 --> 00:11:55.000 这真的是最棒的一个搜索词 00:11:55.000 --> 00:11:58.000 人们总想做到最好 总想展示最好的一面 00:11:58.000 --> 00:12:01.000 但是在18世纪 人们对此并不在乎 00:12:01.000 --> 00:12:04.000 他们不想做到最好(“best”)而是“beft” 00:12:04.000 --> 00:12:07.000 实际上 这是个错别字 00:12:07.000 --> 00:12:09.000 这并不是因为人们不识字 00:12:09.000 --> 00:12:12.000 而是因为当时英文字母S的写法跟现在不同 看起来像F 00:12:12.000 --> 00:12:15.000 当然 谷歌没有意识到这一点 00:12:15.000 --> 00:12:18.000 于是我们对此在论文中做了报告 00:12:18.000 --> 00:12:20.000 这实际上只是一个小提示 00:12:20.000 --> 00:12:22.000 尽管这很有趣 00:12:22.000 --> 00:12:24.000 但是你在解读这些图表时 仍须非常谨慎 00:12:24.000 --> 00:12:27.000 你必须遵循基本的科学准则 NOTE Paragraph 00:12:27.000 --> 00:12:30.000 人们使用它来寻求各种乐趣 00:12:30.000 --> 00:12:37.000 (众人笑) 00:12:37.000 --> 00:12:39.000 我们不打算多说 00:12:39.000 --> 00:12:42.000 光给你们看这些幻灯片 00:12:42.000 --> 00:12:45.000 这个用户对人们烦躁的历史很感兴趣 00:12:45.000 --> 00:12:48.000 这里有不同类型的烦躁 00:12:48.000 --> 00:12:51.000 如果你的脚趾被碰了 你会说“啊” (“argh”) 00:12:51.000 --> 00:12:53.000 如果地球被外星人毁灭了 00:12:53.000 --> 00:12:55.000 开了一条星际航道 00:12:55.000 --> 00:12:57.000 那就是“啊啊啊啊啊啊啊啊” ("aaaaaaaargh") 00:12:57.000 --> 00:12:59.000 这个人研究了不同长短的“啊” (“argh”) 00:12:59.000 --> 00:13:01.000 从1个啊到8个啊 00:13:01.000 --> 00:13:03.000 结果 00:13:03.000 --> 00:13:05.000 那些使用频率较低的啊 00:13:05.000 --> 00:13:08.000 代表程度更高的烦躁 00:13:08.000 --> 00:13:11.000 八十年代是个例外 00:13:11.000 --> 00:13:13.000 我们猜这可能跟里根总统有关 NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (众人笑) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 这个数据库的用处很多 00:13:18.000 --> 00:13:21.000 但最重要的是这是一个数字化的历史记录 00:13:21.000 --> 00:13:23.000 谷歌已经开始对1500万本书进行数字化处理 00:13:23.000 --> 00:13:25.000 其中12%的书已被出版 00:13:25.000 --> 00:13:28.000 这是人类文明相当大的一部分 00:13:28.000 --> 00:13:31.000 而文明还包括更多的内容 有手稿 报纸 00:13:31.000 --> 00:13:33.000 非文字的内容 例如艺术与绘画 00:13:33.000 --> 00:13:35.000 这些内容都会出现在我们的电脑上 00:13:35.000 --> 00:13:37.000 在世界各地的电脑上 00:13:37.000 --> 00:13:40.000 如果这成真了 00:13:40.000 --> 00:13:42.000 我们对过去现在以及人类文明的认识就被改变了 NOTE Paragraph 00:13:42.000 --> 00:13:44.000 非常感谢大家 NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (众人鼓掌)