我们从五百万本书里学到了什么
-
0:00 - 0:02Erez Liberman Aiden:人说
-
0:02 - 0:05一副画面抵过一千个词
-
0:07 - 0:09但是我们在哈佛大学
-
0:09 - 0:12却在思考这是不是一定正确
-
0:12 - 0:14(众人笑)
-
0:14 - 0:18我们召集了各方专家
-
0:18 - 0:20他们来自哈佛 麻省理工
-
0:20 - 0:23《英国大百科全书》 《美国传统英语字典》
-
0:23 - 0:25还有我们骄傲的赞助商
-
0:25 - 0:28谷歌
-
0:28 - 0:30我们思考了
-
0:30 - 0:32大概四年
-
0:32 - 0:37最后得出一个惊人的结论
-
0:37 - 0:40女士们先生们 一副画面可不止一千个词那么简单
-
0:40 - 0:42事实上 我们发现有时候
-
0:42 - 0:47一幅画面抵过5千亿个词
-
0:47 - 0:49Jean-Baptiste Michel: 我们是如何得出这个结论的呢
-
0:49 - 0:51是这样的 Erez和我
-
0:51 - 0:53在想怎样找到一幅展现人类文明
-
0:53 - 0:56和人文历史的画面: 历史的变迁
-
0:56 - 0:58人们在漫长岁月中写了很多书
-
0:58 - 1:00所以我们想 向他们学习的最佳方法
-
1:00 - 1:02就是把那几百万本书全都读完
-
1:02 - 1:05当然 如果用坐标来表示这样做的好处
-
1:05 - 1:08那Y轴上的值一定是极高的
-
1:08 - 1:10但问题是还有X轴
-
1:10 - 1:12也就是可行性
-
1:12 - 1:14这是极低的
-
1:14 - 1:17(众人鼓掌)
-
1:17 - 1:20现在人们倾向于另一种做法
-
1:20 - 1:22那就是选择几本书进行精读
-
1:22 - 1:24可行性极高但还不够好
-
1:24 - 1:27人们真正想要的
-
1:27 - 1:30是一个既好又可行的方法
-
1:30 - 1:33结果 在水一方 有一家叫“谷歌”的公司
-
1:33 - 1:35他们在此之前的几年前就开始了一个数字化工程
-
1:35 - 1:37有可能帮我们找到这个“既好又可行”的方法
-
1:37 - 1:39他们已经将几百万本书进行了数字化
-
1:39 - 1:42这就意味着人们在电脑上点几个键
-
1:42 - 1:44就能阅读所有的书
-
1:44 - 1:47这真的是既可行又好
-
1:48 - 1:50这些书是哪里来的呢
-
1:50 - 1:53从古时候开始 人们就开始写作了
-
1:53 - 1:56这些作家写书都非常卖力
-
1:56 - 1:58几个世纪前印刷机问世了
-
1:58 - 2:00写书的过程变得简单多了
-
2:00 - 2:03自那以后
-
2:03 - 2:05作家们已经出版了
-
2:05 - 2:071.29亿本书
-
2:07 - 2:09如果这些书没有随年月而遗失
-
2:09 - 2:11就都在图书馆里存着
-
2:11 - 2:14谷歌已经把许多书从图书馆中调了出来
-
2:14 - 2:16进行了数字化
-
2:16 - 2:18被扫描的书籍到目前已有1500万册
-
2:18 - 2:21谷歌扫描图书时 把书的格式做得很好
-
2:21 - 2:23现在我们不但有了数据 还有元数据
-
2:23 - 2:26我们掌握了这些书的出版地
-
2:26 - 2:28作者 出版时间等信息
-
2:28 - 2:31接下来 我们就要从所有这些记录中
-
2:31 - 2:35筛选出质量最高的数据
-
2:35 - 2:37最后剩下的
-
2:37 - 2:40是5百万本书
-
2:40 - 2:435000亿个词
-
2:43 - 2:45这么多词连起来
-
2:45 - 2:48长度是人类基因组的1000倍
-
2:48 - 2:50如果把这些词连续写出来
-
2:50 - 2:52其长度相当于在地月之间
-
2:52 - 2:54往返10次以上
-
2:54 - 2:58这还仅是我们文化基因组的小小一段
-
2:58 - 3:00当然啦
-
3:00 - 3:03面对如此令人崩溃的结果
-
3:03 - 3:05(众人笑)
-
3:05 - 3:08我们做了一个懂得自重的研究者
-
3:08 - 3:11应该做的事
-
3:11 - 3:13我们借鉴了XKCD(科学漫画)
-
3:13 - 3:15说:" 往后站。
-
3:15 - 3:17我们要用科学来解决问题。”
-
3:17 - 3:19(众人笑)
-
3:19 - 3:21当然 这时我们在想
-
3:21 - 3:23何不先把数据放上去
-
3:23 - 3:25让人们通过科学来运用数据
-
3:25 - 3:27现在我们在思考 哪些数据可以公开
-
3:27 - 3:29你当然想把这所有5百万本书
-
3:29 - 3:31全文公开
-
3:31 - 3:33现在谷歌 具体地说是乔恩. 奥温特
-
3:33 - 3:35告诉教给我们一个有用的方程式
-
3:35 - 3:38你有5百万本书 那就有五百万个作者
-
3:38 - 3:41一个有5百万个原告的官司可不小啊
-
3:41 - 3:43所以尽管这是个好想法
-
3:43 - 3:46但是也极不现实
-
3:46 - 3:48(众人笑)
-
3:48 - 3:50现在我们做出些许让步
-
3:50 - 3:53采用一个非常可行但稍微没那么好的方法
-
3:53 - 3:55我们不公开全书内容
-
3:55 - 3:57而是公开书本的相关统计数据
-
3:57 - 3:59拿“A gleam of happiness”这个词组做例子
-
3:59 - 4:01它有四个单词 我们称它为四字格
-
4:01 - 4:03我们会告诉你直到2008年出版的书中
-
4:03 - 4:05在1801年 1802年 1803年一直到2008年
-
4:05 - 4:07某个四字格一共出现了多少次
-
4:07 - 4:09这让我们看到
-
4:09 - 4:11这个词组在这段时期内被使用的频率
-
4:11 - 4:14我们对在这些书中的所有单词和词组都这么处理
-
4:14 - 4:17于是我们得出了一个由20亿曲线
-
4:17 - 4:19表示出文化变化的情况
-
4:19 - 4:21这20亿条曲线
-
4:21 - 4:23我们成作20亿个n字格
-
4:23 - 4:25它们告诉了我们什么
-
4:25 - 4:27这些n字格衡量的是文化的走势
-
4:27 - 4:29我来举个例子
-
4:29 - 4:31假设 我正在发财
-
4:31 - 4:33明天我告诉你我发财的情况
-
4:33 - 4:36我会说:“昨天,我发了。”
-
4:36 - 4:39也可以说:“昨天,我发财了。”
-
4:39 - 4:42我到底应该用哪个说法呢
-
4:42 - 4:44怎么找答案
-
4:44 - 4:466个月以前
-
4:46 - 4:48很流行的做法是
-
4:48 - 4:50比如说
-
4:50 - 4:52你去问这位秀发飘逸的心理学家
-
4:52 - 4:54你说
-
4:54 - 4:57“史蒂夫,你是不规则动词的专家。
-
4:57 - 4:59我该怎么办啊?”
-
4:59 - 5:01他会说:“大多数人说‘发财了’,
-
5:01 - 5:04但有些人说‘发了’。”
-
5:04 - 5:06如果你可以
-
5:06 - 5:09回到200年前
-
5:09 - 5:12问问这位秀发同样飘逸的政治家
-
5:12 - 5:15(众人笑)
-
5:15 - 5:17“托马斯,我该怎么说?”
-
5:17 - 5:19他会回答:“嗯,在我的时代,大多数人说‘发了’,
-
5:19 - 5:22但是少数人说‘发财了’。”
-
5:22 - 5:24现在我给你们看一个原始数据
-
5:24 - 5:28这是20亿本书中的其中两本书的曲线
-
5:28 - 5:30你们将看到“发了”和“发财了”这两个词
-
5:30 - 5:33随时间的推移被使用的频率
-
5:34 - 5:36这还只是
-
5:36 - 5:3920亿条曲线中的其中两条
-
5:39 - 5:41整套数据
-
5:41 - 5:44比这张幻灯片要宏伟10亿倍
-
5:44 - 5:46(众人笑)
-
5:46 - 5:50(众人鼓掌)
-
5:50 - 5:52很多画面都相当于5千亿个词
-
5:52 - 5:54比如这一幅
-
5:54 - 5:56如果你找“流行感冒”这一词
-
5:56 - 5:58你会看到几个全球范围内
-
5:58 - 6:01祸害人命的流感高峰
-
6:01 - 6:04如果这不足以令人信服
-
6:04 - 6:06海平面正在上升
-
6:06 - 6:09大气中二氧化碳含量和全球气温都在升高
-
6:09 - 6:12你们也可以看看这个n字格
-
6:12 - 6:15告诉尼采上帝没死
-
6:15 - 6:18你可能也认为他或许要换一个企宣了
-
6:18 - 6:20(众人笑)
-
6:20 - 6:23你可以通过这个得到非常抽象的概念
-
6:23 - 6:25我跟你们说说
-
6:25 - 6:271950年的历史
-
6:27 - 6:29在漫漫历史长河中
-
6:29 - 6:31几乎没人在意1950年
-
6:31 - 6:331700年 1800年 1900年
-
6:33 - 6:36没有人在意
-
6:37 - 6:3920世纪三十年代和四十年代
-
6:39 - 6:41没有人在意
-
6:41 - 6:43到了四十年代中期 突然间
-
6:43 - 6:45关注度飞升
-
6:45 - 6:47人们意识到1950年快来了
-
6:47 - 6:49这一年可能非同小可啊
-
6:49 - 6:52(众人笑)
-
6:52 - 6:551950年 正如人们想象的一样
-
6:55 - 6:58没发生任何有意思的事情
-
6:58 - 7:01(众人笑)
-
7:01 - 7:03人们都着了魔了
-
7:03 - 7:05无时无刻不在谈论
-
7:05 - 7:08他们1950年做过的事情
-
7:08 - 7:11他们打算在1950年做的事情
-
7:11 - 7:16后者他们1950年想要实现的梦想
-
7:16 - 7:18事实上 1950年是不同凡响的一年
-
7:18 - 7:20即使过了好多年
-
7:20 - 7:23人们还是不停地谈论那年发生的所有美好事情
-
7:23 - 7:2551年 52年 53年
-
7:25 - 7:27终于到了1954年
-
7:27 - 7:29人们醒悟过来
-
7:29 - 7:331950年已成往事了
-
7:33 - 7:35(众人笑)
-
7:35 - 7:37就这样 泡泡破了
-
7:37 - 7:39(众人笑)
-
7:39 - 7:411950年的情况
-
7:41 - 7:43以及每一年的情况 我们都记录了下来
-
7:43 - 7:46多亏了这些漂亮的图表 我们的工作顺利多了
-
7:46 - 7:49有了这些漂亮的图表 我们就能测量各种事物
-
7:49 - 7:51我们会说:“泡泡破掉的速度有多快?”
-
7:51 - 7:54结果证明 我们可以对此进行精准的测量
-
7:54 - 7:57等式出来了 图表也做好了
-
7:57 - 7:59最终结果是
-
7:59 - 8:02泡泡破掉的速度
-
8:02 - 8:04每年都在加快
-
8:04 - 8:09我们对过去的遗忘不断加快
-
8:09 - 8:11好 现在给大家一些发展事业的建议
-
8:11 - 8:13如果你想成名
-
8:13 - 8:15我们可以向25位最著名的政治人物
-
8:15 - 8:17作家 演员学习
-
8:17 - 8:20如果你想早点成名 你就应该做个演员
-
8:20 - 8:22因为 演员在20来岁的时候成名
-
8:22 - 8:24你还很年轻 这是本钱
-
8:24 - 8:26如果你能等一等 那就当个作家
-
8:26 - 8:28因为你可以像马克.吐温这样
-
8:28 - 8:30成为文坛巨星
-
8:30 - 8:32如果你想到达万人之上
-
8:32 - 8:34你就不能安于现状
-
8:34 - 8:36要成为一个政治家
-
8:36 - 8:38到了快60岁的时候 你就成名了
-
8:38 - 8:40而且之后名声远扬
-
8:40 - 8:43科学家通常在年纪一大把的时候才成名
-
8:43 - 8:45生物学家和物理学家的名声
-
8:45 - 8:47通常能跟演员的名声媲美
-
8:47 - 8:50有一个错误你不要犯 那就是成为一个数学家
-
8:50 - 8:52(众人笑)
-
8:52 - 8:54如果你成了数学家
-
8:54 - 8:57你会想:“太好啦,我20多岁的时候会有最辉煌的成就。”
-
8:57 - 8:59谁知道 人们连睬都不睬你
-
8:59 - 9:02(众人笑)
-
9:02 - 9:04n字格中
-
9:04 - 9:06有些情况更为明了
-
9:06 - 9:08这是Marc Chagall的名声起落
-
9:08 - 9:10他是出生于1887的一位艺术家
-
9:10 - 9:13他的名声起落看似乎没有什么异常
-
9:13 - 9:17他的名声越来越大
-
9:17 - 9:19然而如果你在德语书中搜索 情况就不同了
-
9:19 - 9:21在德语书中 你会看到非常奇怪的现象
-
9:21 - 9:23闻所未闻 见所未见
-
9:23 - 9:25他先是名极一时
-
9:25 - 9:27但突然之间 名声直线下落
-
9:27 - 9:30在1933年到1945年间达到了低谷
-
9:30 - 9:33后来才回升
-
9:33 - 9:35当然 实际情况是
-
9:35 - 9:38Marc Chagall是一个犹太艺术家
-
9:38 - 9:40当时身在纳粹德国
-
9:40 - 9:42这些信号
-
9:42 - 9:44实在太强了
-
9:44 - 9:47我们无需知道谁被禁了
-
9:47 - 9:49我们事实上可以
-
9:49 - 9:51通过非常基本的信号处理来找出答案
-
9:51 - 9:53这里有一个简单的方法
-
9:53 - 9:55一个人在特定时期内
-
9:55 - 9:57所拥有的知名度
-
9:57 - 9:59应当大致为他成名前与成名后知名度的平均值
-
9:59 - 10:01这么想是有道理的
-
10:01 - 10:03我们也是怎么想的
-
10:03 - 10:06我们把观察到的知名度进行对比
-
10:06 - 10:08我们把前者比上后者
-
10:08 - 10:10产生的结果叫做抑制指数
-
10:10 - 10:13如果抑制指数非常非常小
-
10:13 - 10:15那么你的知名度正在被抑制
-
10:15 - 10:18如果数值非常大 或许就表明你从宣传中获益
-
10:19 - 10:21你还可以看到
-
10:21 - 10:24压抑指数在总人数中的分布情况
-
10:24 - 10:26这里有个例子
-
10:26 - 10:28这是从没有明显抑制的英文书籍中
-
10:28 - 10:30选出的5000个人
-
10:30 - 10:32它是这个样子的 基本上以1为中心
-
10:32 - 10:34实际情况与预想差不多
-
10:34 - 10:36而这在是德文书籍中的分布情况
-
10:36 - 10:38与前者大为不同 往左偏了
-
10:38 - 10:41人们对它的关注较预期要少了两倍
-
10:41 - 10:43更重要的是 这个分布的跨度更宽
-
10:43 - 10:46不少人处于左边的部分
-
10:46 - 10:49人数比预期中少了10倍
-
10:49 - 10:51而也有不少人处于更靠右的部分
-
10:51 - 10:53他们的宣传起了作用
-
10:53 - 10:56这幅图反映了书籍记录中的审查情况
-
10:56 - 10:58我们把这种方法
-
10:58 - 11:00称作文化组学
-
11:00 - 11:02有点像基因组学
-
11:02 - 11:04只不过 基因组学是生物学上
-
11:04 - 11:07观察人类基因组序列的透镜
-
11:07 - 11:09文化组学很类似
-
11:09 - 11:12它指的是对人类文明研究的
-
11:12 - 11:14大规模数据收集分析的应用
-
11:14 - 11:16它使用的不是基因组这个透镜
-
11:16 - 11:19而是用数字化的历史记录片段作为透镜
-
11:19 - 11:21文化组学的优点是
-
11:21 - 11:23人人都会用它
-
11:23 - 11:25为什么呢
-
11:25 - 11:27这是因为这三个人
-
11:27 - 11:30谷歌的乔恩.奥温特 迈特.格雷和威尔.布洛克曼
-
11:30 - 11:32看到了n字格后
-
11:32 - 11:34说:“这太有意思了,
-
11:34 - 11:37我们得让所有人都用上它。”
-
11:37 - 11:39于是在我们的论文发表之前的整整两个星期中
-
11:39 - 11:42他们编了一个面向公众的Ngram Viewer版本
-
11:42 - 11:45现在你们也可以输入任何你感兴趣的单词或词组
-
11:45 - 11:47查看它的n字格
-
11:47 - 11:49并阅览所有书籍中
-
11:49 - 11:51出现n字格的例句
-
11:51 - 11:53这个词在第一天就被使用了超过一百万次
-
11:53 - 11:55这真的是最棒的一个搜索词
-
11:55 - 11:58人们总想做到最好 总想展示最好的一面
-
11:58 - 12:01但是在18世纪 人们对此并不在乎
-
12:01 - 12:04他们不想做到最好(“best”)而是“beft”
-
12:04 - 12:07实际上 这是个错别字
-
12:07 - 12:09这并不是因为人们不识字
-
12:09 - 12:12而是因为当时英文字母S的写法跟现在不同 看起来像F
-
12:12 - 12:15当然 谷歌没有意识到这一点
-
12:15 - 12:18于是我们对此在论文中做了报告
-
12:18 - 12:20这实际上只是一个小提示
-
12:20 - 12:22尽管这很有趣
-
12:22 - 12:24但是你在解读这些图表时 仍须非常谨慎
-
12:24 - 12:27你必须遵循基本的科学准则
-
12:27 - 12:30人们使用它来寻求各种乐趣
-
12:30 - 12:37(众人笑)
-
12:37 - 12:39我们不打算多说
-
12:39 - 12:42光给你们看这些幻灯片
-
12:42 - 12:45这个用户对人们烦躁的历史很感兴趣
-
12:45 - 12:48这里有不同类型的烦躁
-
12:48 - 12:51如果你的脚趾被碰了 你会说“啊” (“argh”)
-
12:51 - 12:53如果地球被外星人毁灭了
-
12:53 - 12:55开了一条星际航道
-
12:55 - 12:57那就是“啊啊啊啊啊啊啊啊” ("aaaaaaaargh")
-
12:57 - 12:59这个人研究了不同长短的“啊” (“argh”)
-
12:59 - 13:01从1个啊到8个啊
-
13:01 - 13:03结果
-
13:03 - 13:05那些使用频率较低的啊
-
13:05 - 13:08代表程度更高的烦躁
-
13:08 - 13:11八十年代是个例外
-
13:11 - 13:13我们猜这可能跟里根总统有关
-
13:13 - 13:15(众人笑)
-
13:15 - 13:18这个数据库的用处很多
-
13:18 - 13:21但最重要的是这是一个数字化的历史记录
-
13:21 - 13:23谷歌已经开始对1500万本书进行数字化处理
-
13:23 - 13:25其中12%的书已被出版
-
13:25 - 13:28这是人类文明相当大的一部分
-
13:28 - 13:31而文明还包括更多的内容 有手稿 报纸
-
13:31 - 13:33非文字的内容 例如艺术与绘画
-
13:33 - 13:35这些内容都会出现在我们的电脑上
-
13:35 - 13:37在世界各地的电脑上
-
13:37 - 13:40如果这成真了
-
13:40 - 13:42我们对过去现在以及人类文明的认识就被改变了
-
13:42 - 13:44非常感谢大家
-
13:44 - 13:47(众人鼓掌)
- Title:
- 我们从五百万本书里学到了什么
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
你用过谷歌实验室的Ngram Viewer吗?它是一个非常容易上瘾的书籍词频统计器,数据库里有几个世纪以来的五百万本书。Erez Lieberman Aiden和Jean-Baptiste Michel将像我们展示这个搜索工具该如何使用,以及这5000亿个词汇的奥秘。
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48