< Return to Video

我们从五百万本书里学到了什么

  • 0:00 - 0:02
    Erez Liberman Aiden:人说
  • 0:02 - 0:05
    一副画面抵过一千个词
  • 0:07 - 0:09
    但是我们在哈佛大学
  • 0:09 - 0:12
    却在思考这是不是一定正确
  • 0:12 - 0:14
    (众人笑)
  • 0:14 - 0:18
    我们召集了各方专家
  • 0:18 - 0:20
    他们来自哈佛 麻省理工
  • 0:20 - 0:23
    《英国大百科全书》 《美国传统英语字典》
  • 0:23 - 0:25
    还有我们骄傲的赞助商
  • 0:25 - 0:28
    谷歌
  • 0:28 - 0:30
    我们思考了
  • 0:30 - 0:32
    大概四年
  • 0:32 - 0:37
    最后得出一个惊人的结论
  • 0:37 - 0:40
    女士们先生们 一副画面可不止一千个词那么简单
  • 0:40 - 0:42
    事实上 我们发现有时候
  • 0:42 - 0:47
    一幅画面抵过5千亿个词
  • 0:47 - 0:49
    Jean-Baptiste Michel: 我们是如何得出这个结论的呢
  • 0:49 - 0:51
    是这样的 Erez和我
  • 0:51 - 0:53
    在想怎样找到一幅展现人类文明
  • 0:53 - 0:56
    和人文历史的画面: 历史的变迁
  • 0:56 - 0:58
    人们在漫长岁月中写了很多书
  • 0:58 - 1:00
    所以我们想 向他们学习的最佳方法
  • 1:00 - 1:02
    就是把那几百万本书全都读完
  • 1:02 - 1:05
    当然 如果用坐标来表示这样做的好处
  • 1:05 - 1:08
    那Y轴上的值一定是极高的
  • 1:08 - 1:10
    但问题是还有X轴
  • 1:10 - 1:12
    也就是可行性
  • 1:12 - 1:14
    这是极低的
  • 1:14 - 1:17
    (众人鼓掌)
  • 1:17 - 1:20
    现在人们倾向于另一种做法
  • 1:20 - 1:22
    那就是选择几本书进行精读
  • 1:22 - 1:24
    可行性极高但还不够好
  • 1:24 - 1:27
    人们真正想要的
  • 1:27 - 1:30
    是一个既好又可行的方法
  • 1:30 - 1:33
    结果 在水一方 有一家叫“谷歌”的公司
  • 1:33 - 1:35
    他们在此之前的几年前就开始了一个数字化工程
  • 1:35 - 1:37
    有可能帮我们找到这个“既好又可行”的方法
  • 1:37 - 1:39
    他们已经将几百万本书进行了数字化
  • 1:39 - 1:42
    这就意味着人们在电脑上点几个键
  • 1:42 - 1:44
    就能阅读所有的书
  • 1:44 - 1:47
    这真的是既可行又好
  • 1:48 - 1:50
    这些书是哪里来的呢
  • 1:50 - 1:53
    从古时候开始 人们就开始写作了
  • 1:53 - 1:56
    这些作家写书都非常卖力
  • 1:56 - 1:58
    几个世纪前印刷机问世了
  • 1:58 - 2:00
    写书的过程变得简单多了
  • 2:00 - 2:03
    自那以后
  • 2:03 - 2:05
    作家们已经出版了
  • 2:05 - 2:07
    1.29亿本书
  • 2:07 - 2:09
    如果这些书没有随年月而遗失
  • 2:09 - 2:11
    就都在图书馆里存着
  • 2:11 - 2:14
    谷歌已经把许多书从图书馆中调了出来
  • 2:14 - 2:16
    进行了数字化
  • 2:16 - 2:18
    被扫描的书籍到目前已有1500万册
  • 2:18 - 2:21
    谷歌扫描图书时 把书的格式做得很好
  • 2:21 - 2:23
    现在我们不但有了数据 还有元数据
  • 2:23 - 2:26
    我们掌握了这些书的出版地
  • 2:26 - 2:28
    作者 出版时间等信息
  • 2:28 - 2:31
    接下来 我们就要从所有这些记录中
  • 2:31 - 2:35
    筛选出质量最高的数据
  • 2:35 - 2:37
    最后剩下的
  • 2:37 - 2:40
    是5百万本书
  • 2:40 - 2:43
    5000亿个词
  • 2:43 - 2:45
    这么多词连起来
  • 2:45 - 2:48
    长度是人类基因组的1000倍
  • 2:48 - 2:50
    如果把这些词连续写出来
  • 2:50 - 2:52
    其长度相当于在地月之间
  • 2:52 - 2:54
    往返10次以上
  • 2:54 - 2:58
    这还仅是我们文化基因组的小小一段
  • 2:58 - 3:00
    当然啦
  • 3:00 - 3:03
    面对如此令人崩溃的结果
  • 3:03 - 3:05
    (众人笑)
  • 3:05 - 3:08
    我们做了一个懂得自重的研究者
  • 3:08 - 3:11
    应该做的事
  • 3:11 - 3:13
    我们借鉴了XKCD(科学漫画)
  • 3:13 - 3:15
    说:" 往后站。
  • 3:15 - 3:17
    我们要用科学来解决问题。”
  • 3:17 - 3:19
    (众人笑)
  • 3:19 - 3:21
    当然 这时我们在想
  • 3:21 - 3:23
    何不先把数据放上去
  • 3:23 - 3:25
    让人们通过科学来运用数据
  • 3:25 - 3:27
    现在我们在思考 哪些数据可以公开
  • 3:27 - 3:29
    你当然想把这所有5百万本书
  • 3:29 - 3:31
    全文公开
  • 3:31 - 3:33
    现在谷歌 具体地说是乔恩. 奥温特
  • 3:33 - 3:35
    告诉教给我们一个有用的方程式
  • 3:35 - 3:38
    你有5百万本书 那就有五百万个作者
  • 3:38 - 3:41
    一个有5百万个原告的官司可不小啊
  • 3:41 - 3:43
    所以尽管这是个好想法
  • 3:43 - 3:46
    但是也极不现实
  • 3:46 - 3:48
    (众人笑)
  • 3:48 - 3:50
    现在我们做出些许让步
  • 3:50 - 3:53
    采用一个非常可行但稍微没那么好的方法
  • 3:53 - 3:55
    我们不公开全书内容
  • 3:55 - 3:57
    而是公开书本的相关统计数据
  • 3:57 - 3:59
    拿“A gleam of happiness”这个词组做例子
  • 3:59 - 4:01
    它有四个单词 我们称它为四字格
  • 4:01 - 4:03
    我们会告诉你直到2008年出版的书中
  • 4:03 - 4:05
    在1801年 1802年 1803年一直到2008年
  • 4:05 - 4:07
    某个四字格一共出现了多少次
  • 4:07 - 4:09
    这让我们看到
  • 4:09 - 4:11
    这个词组在这段时期内被使用的频率
  • 4:11 - 4:14
    我们对在这些书中的所有单词和词组都这么处理
  • 4:14 - 4:17
    于是我们得出了一个由20亿曲线
  • 4:17 - 4:19
    表示出文化变化的情况
  • 4:19 - 4:21
    这20亿条曲线
  • 4:21 - 4:23
    我们成作20亿个n字格
  • 4:23 - 4:25
    它们告诉了我们什么
  • 4:25 - 4:27
    这些n字格衡量的是文化的走势
  • 4:27 - 4:29
    我来举个例子
  • 4:29 - 4:31
    假设 我正在发财
  • 4:31 - 4:33
    明天我告诉你我发财的情况
  • 4:33 - 4:36
    我会说:“昨天,我发了。”
  • 4:36 - 4:39
    也可以说:“昨天,我发财了。”
  • 4:39 - 4:42
    我到底应该用哪个说法呢
  • 4:42 - 4:44
    怎么找答案
  • 4:44 - 4:46
    6个月以前
  • 4:46 - 4:48
    很流行的做法是
  • 4:48 - 4:50
    比如说
  • 4:50 - 4:52
    你去问这位秀发飘逸的心理学家
  • 4:52 - 4:54
    你说
  • 4:54 - 4:57
    “史蒂夫,你是不规则动词的专家。
  • 4:57 - 4:59
    我该怎么办啊?”
  • 4:59 - 5:01
    他会说:“大多数人说‘发财了’,
  • 5:01 - 5:04
    但有些人说‘发了’。”
  • 5:04 - 5:06
    如果你可以
  • 5:06 - 5:09
    回到200年前
  • 5:09 - 5:12
    问问这位秀发同样飘逸的政治家
  • 5:12 - 5:15
    (众人笑)
  • 5:15 - 5:17
    “托马斯,我该怎么说?”
  • 5:17 - 5:19
    他会回答:“嗯,在我的时代,大多数人说‘发了’,
  • 5:19 - 5:22
    但是少数人说‘发财了’。”
  • 5:22 - 5:24
    现在我给你们看一个原始数据
  • 5:24 - 5:28
    这是20亿本书中的其中两本书的曲线
  • 5:28 - 5:30
    你们将看到“发了”和“发财了”这两个词
  • 5:30 - 5:33
    随时间的推移被使用的频率
  • 5:34 - 5:36
    这还只是
  • 5:36 - 5:39
    20亿条曲线中的其中两条
  • 5:39 - 5:41
    整套数据
  • 5:41 - 5:44
    比这张幻灯片要宏伟10亿倍
  • 5:44 - 5:46
    (众人笑)
  • 5:46 - 5:50
    (众人鼓掌)
  • 5:50 - 5:52
    很多画面都相当于5千亿个词
  • 5:52 - 5:54
    比如这一幅
  • 5:54 - 5:56
    如果你找“流行感冒”这一词
  • 5:56 - 5:58
    你会看到几个全球范围内
  • 5:58 - 6:01
    祸害人命的流感高峰
  • 6:01 - 6:04
    如果这不足以令人信服
  • 6:04 - 6:06
    海平面正在上升
  • 6:06 - 6:09
    大气中二氧化碳含量和全球气温都在升高
  • 6:09 - 6:12
    你们也可以看看这个n字格
  • 6:12 - 6:15
    告诉尼采上帝没死
  • 6:15 - 6:18
    你可能也认为他或许要换一个企宣了
  • 6:18 - 6:20
    (众人笑)
  • 6:20 - 6:23
    你可以通过这个得到非常抽象的概念
  • 6:23 - 6:25
    我跟你们说说
  • 6:25 - 6:27
    1950年的历史
  • 6:27 - 6:29
    在漫漫历史长河中
  • 6:29 - 6:31
    几乎没人在意1950年
  • 6:31 - 6:33
    1700年 1800年 1900年
  • 6:33 - 6:36
    没有人在意
  • 6:37 - 6:39
    20世纪三十年代和四十年代
  • 6:39 - 6:41
    没有人在意
  • 6:41 - 6:43
    到了四十年代中期 突然间
  • 6:43 - 6:45
    关注度飞升
  • 6:45 - 6:47
    人们意识到1950年快来了
  • 6:47 - 6:49
    这一年可能非同小可啊
  • 6:49 - 6:52
    (众人笑)
  • 6:52 - 6:55
    1950年 正如人们想象的一样
  • 6:55 - 6:58
    没发生任何有意思的事情
  • 6:58 - 7:01
    (众人笑)
  • 7:01 - 7:03
    人们都着了魔了
  • 7:03 - 7:05
    无时无刻不在谈论
  • 7:05 - 7:08
    他们1950年做过的事情
  • 7:08 - 7:11
    他们打算在1950年做的事情
  • 7:11 - 7:16
    后者他们1950年想要实现的梦想
  • 7:16 - 7:18
    事实上 1950年是不同凡响的一年
  • 7:18 - 7:20
    即使过了好多年
  • 7:20 - 7:23
    人们还是不停地谈论那年发生的所有美好事情
  • 7:23 - 7:25
    51年 52年 53年
  • 7:25 - 7:27
    终于到了1954年
  • 7:27 - 7:29
    人们醒悟过来
  • 7:29 - 7:33
    1950年已成往事了
  • 7:33 - 7:35
    (众人笑)
  • 7:35 - 7:37
    就这样 泡泡破了
  • 7:37 - 7:39
    (众人笑)
  • 7:39 - 7:41
    1950年的情况
  • 7:41 - 7:43
    以及每一年的情况 我们都记录了下来
  • 7:43 - 7:46
    多亏了这些漂亮的图表 我们的工作顺利多了
  • 7:46 - 7:49
    有了这些漂亮的图表 我们就能测量各种事物
  • 7:49 - 7:51
    我们会说:“泡泡破掉的速度有多快?”
  • 7:51 - 7:54
    结果证明 我们可以对此进行精准的测量
  • 7:54 - 7:57
    等式出来了 图表也做好了
  • 7:57 - 7:59
    最终结果是
  • 7:59 - 8:02
    泡泡破掉的速度
  • 8:02 - 8:04
    每年都在加快
  • 8:04 - 8:09
    我们对过去的遗忘不断加快
  • 8:09 - 8:11
    好 现在给大家一些发展事业的建议
  • 8:11 - 8:13
    如果你想成名
  • 8:13 - 8:15
    我们可以向25位最著名的政治人物
  • 8:15 - 8:17
    作家 演员学习
  • 8:17 - 8:20
    如果你想早点成名 你就应该做个演员
  • 8:20 - 8:22
    因为 演员在20来岁的时候成名
  • 8:22 - 8:24
    你还很年轻 这是本钱
  • 8:24 - 8:26
    如果你能等一等 那就当个作家
  • 8:26 - 8:28
    因为你可以像马克.吐温这样
  • 8:28 - 8:30
    成为文坛巨星
  • 8:30 - 8:32
    如果你想到达万人之上
  • 8:32 - 8:34
    你就不能安于现状
  • 8:34 - 8:36
    要成为一个政治家
  • 8:36 - 8:38
    到了快60岁的时候 你就成名了
  • 8:38 - 8:40
    而且之后名声远扬
  • 8:40 - 8:43
    科学家通常在年纪一大把的时候才成名
  • 8:43 - 8:45
    生物学家和物理学家的名声
  • 8:45 - 8:47
    通常能跟演员的名声媲美
  • 8:47 - 8:50
    有一个错误你不要犯 那就是成为一个数学家
  • 8:50 - 8:52
    (众人笑)
  • 8:52 - 8:54
    如果你成了数学家
  • 8:54 - 8:57
    你会想:“太好啦,我20多岁的时候会有最辉煌的成就。”
  • 8:57 - 8:59
    谁知道 人们连睬都不睬你
  • 8:59 - 9:02
    (众人笑)
  • 9:02 - 9:04
    n字格中
  • 9:04 - 9:06
    有些情况更为明了
  • 9:06 - 9:08
    这是Marc Chagall的名声起落
  • 9:08 - 9:10
    他是出生于1887的一位艺术家
  • 9:10 - 9:13
    他的名声起落看似乎没有什么异常
  • 9:13 - 9:17
    他的名声越来越大
  • 9:17 - 9:19
    然而如果你在德语书中搜索 情况就不同了
  • 9:19 - 9:21
    在德语书中 你会看到非常奇怪的现象
  • 9:21 - 9:23
    闻所未闻 见所未见
  • 9:23 - 9:25
    他先是名极一时
  • 9:25 - 9:27
    但突然之间 名声直线下落
  • 9:27 - 9:30
    在1933年到1945年间达到了低谷
  • 9:30 - 9:33
    后来才回升
  • 9:33 - 9:35
    当然 实际情况是
  • 9:35 - 9:38
    Marc Chagall是一个犹太艺术家
  • 9:38 - 9:40
    当时身在纳粹德国
  • 9:40 - 9:42
    这些信号
  • 9:42 - 9:44
    实在太强了
  • 9:44 - 9:47
    我们无需知道谁被禁了
  • 9:47 - 9:49
    我们事实上可以
  • 9:49 - 9:51
    通过非常基本的信号处理来找出答案
  • 9:51 - 9:53
    这里有一个简单的方法
  • 9:53 - 9:55
    一个人在特定时期内
  • 9:55 - 9:57
    所拥有的知名度
  • 9:57 - 9:59
    应当大致为他成名前与成名后知名度的平均值
  • 9:59 - 10:01
    这么想是有道理的
  • 10:01 - 10:03
    我们也是怎么想的
  • 10:03 - 10:06
    我们把观察到的知名度进行对比
  • 10:06 - 10:08
    我们把前者比上后者
  • 10:08 - 10:10
    产生的结果叫做抑制指数
  • 10:10 - 10:13
    如果抑制指数非常非常小
  • 10:13 - 10:15
    那么你的知名度正在被抑制
  • 10:15 - 10:18
    如果数值非常大 或许就表明你从宣传中获益
  • 10:19 - 10:21
    你还可以看到
  • 10:21 - 10:24
    压抑指数在总人数中的分布情况
  • 10:24 - 10:26
    这里有个例子
  • 10:26 - 10:28
    这是从没有明显抑制的英文书籍中
  • 10:28 - 10:30
    选出的5000个人
  • 10:30 - 10:32
    它是这个样子的 基本上以1为中心
  • 10:32 - 10:34
    实际情况与预想差不多
  • 10:34 - 10:36
    而这在是德文书籍中的分布情况
  • 10:36 - 10:38
    与前者大为不同 往左偏了
  • 10:38 - 10:41
    人们对它的关注较预期要少了两倍
  • 10:41 - 10:43
    更重要的是 这个分布的跨度更宽
  • 10:43 - 10:46
    不少人处于左边的部分
  • 10:46 - 10:49
    人数比预期中少了10倍
  • 10:49 - 10:51
    而也有不少人处于更靠右的部分
  • 10:51 - 10:53
    他们的宣传起了作用
  • 10:53 - 10:56
    这幅图反映了书籍记录中的审查情况
  • 10:56 - 10:58
    我们把这种方法
  • 10:58 - 11:00
    称作文化组学
  • 11:00 - 11:02
    有点像基因组学
  • 11:02 - 11:04
    只不过 基因组学是生物学上
  • 11:04 - 11:07
    观察人类基因组序列的透镜
  • 11:07 - 11:09
    文化组学很类似
  • 11:09 - 11:12
    它指的是对人类文明研究的
  • 11:12 - 11:14
    大规模数据收集分析的应用
  • 11:14 - 11:16
    它使用的不是基因组这个透镜
  • 11:16 - 11:19
    而是用数字化的历史记录片段作为透镜
  • 11:19 - 11:21
    文化组学的优点是
  • 11:21 - 11:23
    人人都会用它
  • 11:23 - 11:25
    为什么呢
  • 11:25 - 11:27
    这是因为这三个人
  • 11:27 - 11:30
    谷歌的乔恩.奥温特 迈特.格雷和威尔.布洛克曼
  • 11:30 - 11:32
    看到了n字格后
  • 11:32 - 11:34
    说:“这太有意思了,
  • 11:34 - 11:37
    我们得让所有人都用上它。”
  • 11:37 - 11:39
    于是在我们的论文发表之前的整整两个星期中
  • 11:39 - 11:42
    他们编了一个面向公众的Ngram Viewer版本
  • 11:42 - 11:45
    现在你们也可以输入任何你感兴趣的单词或词组
  • 11:45 - 11:47
    查看它的n字格
  • 11:47 - 11:49
    并阅览所有书籍中
  • 11:49 - 11:51
    出现n字格的例句
  • 11:51 - 11:53
    这个词在第一天就被使用了超过一百万次
  • 11:53 - 11:55
    这真的是最棒的一个搜索词
  • 11:55 - 11:58
    人们总想做到最好 总想展示最好的一面
  • 11:58 - 12:01
    但是在18世纪 人们对此并不在乎
  • 12:01 - 12:04
    他们不想做到最好(“best”)而是“beft”
  • 12:04 - 12:07
    实际上 这是个错别字
  • 12:07 - 12:09
    这并不是因为人们不识字
  • 12:09 - 12:12
    而是因为当时英文字母S的写法跟现在不同 看起来像F
  • 12:12 - 12:15
    当然 谷歌没有意识到这一点
  • 12:15 - 12:18
    于是我们对此在论文中做了报告
  • 12:18 - 12:20
    这实际上只是一个小提示
  • 12:20 - 12:22
    尽管这很有趣
  • 12:22 - 12:24
    但是你在解读这些图表时 仍须非常谨慎
  • 12:24 - 12:27
    你必须遵循基本的科学准则
  • 12:27 - 12:30
    人们使用它来寻求各种乐趣
  • 12:30 - 12:37
    (众人笑)
  • 12:37 - 12:39
    我们不打算多说
  • 12:39 - 12:42
    光给你们看这些幻灯片
  • 12:42 - 12:45
    这个用户对人们烦躁的历史很感兴趣
  • 12:45 - 12:48
    这里有不同类型的烦躁
  • 12:48 - 12:51
    如果你的脚趾被碰了 你会说“啊” (“argh”)
  • 12:51 - 12:53
    如果地球被外星人毁灭了
  • 12:53 - 12:55
    开了一条星际航道
  • 12:55 - 12:57
    那就是“啊啊啊啊啊啊啊啊” ("aaaaaaaargh")
  • 12:57 - 12:59
    这个人研究了不同长短的“啊” (“argh”)
  • 12:59 - 13:01
    从1个啊到8个啊
  • 13:01 - 13:03
    结果
  • 13:03 - 13:05
    那些使用频率较低的啊
  • 13:05 - 13:08
    代表程度更高的烦躁
  • 13:08 - 13:11
    八十年代是个例外
  • 13:11 - 13:13
    我们猜这可能跟里根总统有关
  • 13:13 - 13:15
    (众人笑)
  • 13:15 - 13:18
    这个数据库的用处很多
  • 13:18 - 13:21
    但最重要的是这是一个数字化的历史记录
  • 13:21 - 13:23
    谷歌已经开始对1500万本书进行数字化处理
  • 13:23 - 13:25
    其中12%的书已被出版
  • 13:25 - 13:28
    这是人类文明相当大的一部分
  • 13:28 - 13:31
    而文明还包括更多的内容 有手稿 报纸
  • 13:31 - 13:33
    非文字的内容 例如艺术与绘画
  • 13:33 - 13:35
    这些内容都会出现在我们的电脑上
  • 13:35 - 13:37
    在世界各地的电脑上
  • 13:37 - 13:40
    如果这成真了
  • 13:40 - 13:42
    我们对过去现在以及人类文明的认识就被改变了
  • 13:42 - 13:44
    非常感谢大家
  • 13:44 - 13:47
    (众人鼓掌)
Title:
我们从五百万本书里学到了什么
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

你用过谷歌实验室的Ngram Viewer吗?它是一个非常容易上瘾的书籍词频统计器,数据库里有几个世纪以来的五百万本书。Erez Lieberman Aiden和Jean-Baptiste Michel将像我们展示这个搜索工具该如何使用,以及这5000亿个词汇的奥秘。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Lili Liang added a translation

Chinese, Simplified subtitles

Revisions