1
00:00:00,880 --> 00:00:04,893
在过去，如果你想让计算机做一件事

2
00:00:04,893 --> 00:00:06,447
你需要设计电脑程序

3
00:00:06,447 --> 00:00:09,858
你们可能从没做过这件事

4
00:00:09,858 --> 00:00:19,010
编程需要排列出你想让电脑做的
每一个细枝末节的小步骤来达到你的目的

5
00:00:19,089 --> 00:00:22,585
假如你自己都不清楚完成这某件事的话

6
00:00:22,585 --> 00:00:24,648
要编写处电脑程序来完成那件事就会显得
比登天还要困难

7
00:00:24,648 --> 00:00:28,131
这也是这个人，亚瑟 塞缪尔，所面临的挑战

8
00:00:28,131 --> 00:00:34,468
在1956年，他想让这台电脑和他下国际象棋

9
00:00:34,548 --> 00:00:40,348
你怎样才能罗列出所有的细枝末节，
并且让电脑下象棋比你厉害？

10
00:00:40,394 --> 00:00:42,116
他想出一个办法

11
00:00:42,116 --> 00:00:45,840
它让电脑和自己对战几千次

12
00:00:45,840 --> 00:00:48,364
学习如何下象棋

13
00:00:48,364 --> 00:00:51,544
事实证明他做到了。1962年

14
00:00:51,544 --> 00:00:55,561
这台电脑打败了美国康涅狄克州象棋冠军

15
00:00:55,561 --> 00:00:58,534
亚瑟 塞缪尔是机器学习之父

16
00:00:58,534 --> 00:01:00,251
我非常敬畏他

17
00:01:00,251 --> 00:01:03,014
因为我是机器学习的实践者

18
00:01:03,014 --> 00:01:04,479
我曾是Kaggle的主席

19
00:01:04,479 --> 00:01:07,867
Kaggle是一个拥有200,000机器学习实践者地社区

20
00:01:07,867 --> 00:01:09,925
Kaggle会组织竞赛

21
00:01:09,925 --> 00:01:13,633
让人们尝试解决过去未解决的问题

22
00:01:13,633 --> 00:01:17,470
已成功解决问题几百次

23
00:01:17,470 --> 00:01:19,940
在这个有利环境中，我发现了

24
00:01:19,940 --> 00:01:26,190
机器学习在过去，现在，和将来可以做些什么

25
00:01:26,252 --> 00:01:30,675
第一个机器学习的商业成功案例应该是谷歌

26
00:01:30,675 --> 00:01:35,504
谷歌用计算机算法寻找信息

27
00:01:35,536 --> 00:01:38,437
而且这个算法以计算机学习为基础

28
00:01:38,437 --> 00:01:42,323
从那以后，机器学习得到了很多的商业成功

29
00:01:42,323 --> 00:01:44,160
像亚马逊、网飞这类公司

30
00:01:44,160 --> 00:01:47,876
通过机器学习向你推荐你可能想买的东西

31
00:01:47,876 --> 00:01:49,896
你可能想看的电影

32
00:01:49,896 --> 00:01:51,703
有时候你会被吓一跳

33
00:01:51,703 --> 00:01:53,657
像领英、脸谱这类的公司

34
00:01:53,657 --> 00:01:56,251
有时会告诉你谁会是你的朋友

35
00:01:56,251 --> 00:01:58,228
你根本不知道他们是如何做到的

36
00:01:58,228 --> 00:02:01,195
其实他们正是运用了机器学习的力量

37
00:02:01,195 --> 00:02:04,152
这种运算方法使用数据

38
00:02:04,152 --> 00:02:07,399
而非手动编写程序

39
00:02:07,399 --> 00:02:13,697
这也是IBM的Watson超级计算机
在《危险边缘》里打败两届世界冠军的秘诀

40
00:02:13,739 --> 00:02:16,964
成功回答了这样一个极其模糊且复杂的问题

41
00:02:16,964 --> 00:02:19,799
［“古代‘尼姆鲁德狮像’于2003年在这个城市的国家博物馆消失（连同其它很多物品）”］

42
00:02:19,799 --> 00:02:23,034
这也是为什么我们现在有了第一台自驾车

43
00:02:23,034 --> 00:02:25,856
如果你想区分一棵树和一个行人

44
00:02:25,856 --> 00:02:28,488
显然这很重要

45
00:02:28,488 --> 00:02:31,075
但是我们不知道如何写这样一个程序

46
00:02:31,075 --> 00:02:34,072
有了机器学习，这就成为了可能

47
00:02:34,072 --> 00:02:36,680
这台自驾车已经行驶了十万英里

48
00:02:36,680 --> 00:02:40,186
在正常路面上零事故

49
00:02:40,196 --> 00:02:44,110
我们知道电脑能够学习

50
00:02:44,110 --> 00:02:48,810
学习做一件有时我们自己都不知道怎么做的事情

51
00:02:48,848 --> 00:02:51,733
有时甚至比我们做得更好

52
00:02:51,733 --> 00:02:58,288
我见过机器学习最惊人的例子
是我在Kaggle做的一个项目

53
00:02:58,320 --> 00:03:03,431
一个叫杰弗里 辛顿的人毕业于多伦多大学，
带领一个团队

54
00:03:03,463 --> 00:03:06,140
赢得了一个自动查毒的竞赛

55
00:03:06,140 --> 00:03:12,967
然而真正精彩的不是他们打败了所有默克公司
或者国际学术团体设计的运算

56
00:03:13,000 --> 00:03:18,061
而是他们团队里没有一个人有化学、生物
或者生命科学的背景

57
00:03:18,061 --> 00:03:20,230
却在两个星期内赢得了比赛

58
00:03:20,230 --> 00:03:22,421
他们是如何做到的？

59
00:03:22,421 --> 00:03:25,342
他们应用了一种超凡的算法叫做深度学习

60
00:03:25,342 --> 00:03:31,401
几个星期后纽约时报在其首页
报道了此次的重要成功

61
00:03:31,412 --> 00:03:34,147
在左手边就是杰弗里 辛顿

62
00:03:34,147 --> 00:03:38,488
深度学习是受到人类大脑的启发

63
00:03:38,488 --> 00:03:44,120
也因此这种算法的能力不受任何理论限制

64
00:03:44,141 --> 00:03:46,964
你给它越多的数据和运算时间

65
00:03:46,964 --> 00:03:48,276
它会工作的越好

66
00:03:48,276 --> 00:03:52,865
纽约时报在其文章中
还说明了深度学习的另一非凡之处

67
00:03:52,865 --> 00:03:55,569
现在我要展示给你们看

68
00:03:55,569 --> 00:04:00,510
它表明电脑能够听懂信息

69
00:04:00,510 --> 00:04:06,221
（视频）理查德 拉希德：现在，
我要做的最后一步是

70
00:04:06,246 --> 00:04:10,961
用汉语和大家说话

71
00:04:10,986 --> 00:04:18,598
在这之前，我们已经通过很多说汉语的人
收集了大量信息

72
00:04:18,598 --> 00:04:21,128
然后形成一个语音合成系统

73
00:04:21,128 --> 00:04:25,801
把汉字转换成汉语言

74
00:04:25,801 --> 00:04:29,929
之后我们收录了一个小时我的声音

75
00:04:29,929 --> 00:04:36,330
使声音合成系统的声音听起来像我

76
00:04:36,364 --> 00:04:38,904
再次，结果并不完美

77
00:04:38,904 --> 00:04:41,552
他们会有不少错误

78
00:04:41,552 --> 00:04:44,036
（中文）

79
00:04:44,036 --> 00:04:49,443
（掌声）

80
00:04:49,446 --> 00:04:53,022
在这个领域还有很多工作要做

81
00:04:53,022 --> 00:04:56,667
（中文）

82
00:04:56,667 --> 00:05:01,340
（掌声）

83
00:05:01,345 --> 00:05:04,744
杰里米 霍华德：这是在一个中国的机器学习会议上

84
00:05:04,744 --> 00:05:08,994
事实上，一般来说，你不会在学术会议上
听到如此热烈的掌声

85
00:05:09,011 --> 00:05:12,687
当然除了TEDx演讲可以随意鼓掌

86
00:05:12,687 --> 00:05:15,482
你所看到的一切都伴随着深入学习

87
00:05:15,482 --> 00:05:17,007
（掌声）谢谢

88
00:05:17,007 --> 00:05:19,289
对英文的转录是深入学习

89
00:05:19,289 --> 00:05:22,701
翻译成汉语以及屏幕右上方的文字是深入学习

90
00:05:22,701 --> 00:05:26,008
声音的合成也是深入学习

91
00:05:26,008 --> 00:05:29,242
深入学习就是这样神奇的事情

92
00:05:29,242 --> 00:05:32,341
这个单一的算法似乎可以做任何事情

93
00:05:32,341 --> 00:05:35,452
而且一年前我发现他甚至有视觉

94
00:05:35,452 --> 00:05:37,628
这个名不见经传的德国竞赛

95
00:05:37,628 --> 00:05:40,225
叫做德国交通标志识别基准

96
00:05:40,225 --> 00:05:43,618
深度学习已学得识别这些交通标识

97
00:05:43,618 --> 00:05:47,472
它不仅能够做的比其它算法好

98
00:05:47,472 --> 00:05:50,189
排行榜显示它比人更厉害

99
00:05:50,189 --> 00:05:52,041
是人的准确率的两倍

100
00:05:52,041 --> 00:05:57,417
到2011年，我们有了第一台视力高于人类的电脑

101
00:05:57,442 --> 00:05:59,491
从此更多的电脑也可以做到

102
00:05:59,491 --> 00:06:04,385
在2012年，谷歌宣布让一个深度学习的算法看YouTube视频

103
00:06:04,420 --> 00:06:07,857
收集16，000台电脑上的数据，为期一个月

104
00:06:07,857 --> 00:06:13,998
之后电脑便能仅通过看视频独立识别人和猫

105
00:06:14,027 --> 00:06:16,379
这近似于人类学习的过程

106
00:06:16,379 --> 00:06:19,119
人类不需要被告诉他们看到了什么

107
00:06:19,119 --> 00:06:22,450
而是在自己认知事物的过程中学习

108
00:06:22,450 --> 00:06:25,819
同样在2012年，杰弗里 辛顿，我们之前看到的人

109
00:06:25,819 --> 00:06:28,677
赢了很火的ImageNet比赛

110
00:06:28,677 --> 00:06:34,218
分辨出150万张图片的内容

111
00:06:34,256 --> 00:06:39,209
到2014年，我们已经将图像识别的误差
降低到百分之六

112
00:06:39,242 --> 00:06:41,268
低于人类误差率

113
00:06:41,268 --> 00:06:47,277
这项非凡的工作现在已经用于工业

114
00:06:47,306 --> 00:06:50,348
比如说，去年谷歌声明

115
00:06:50,348 --> 00:06:54,933
他们在两小时内把法国的每一个地点汇成地图

116
00:06:54,933 --> 00:07:02,660
他们是将街景填入深度学习算法以辨认街道号

117
00:07:02,699 --> 00:07:08,259
可以想象从前这件事要花费多少时间和精力

118
00:07:08,274 --> 00:07:10,185
同样的事情也发生在中国

119
00:07:10,185 --> 00:07:14,221
百度大概类似于中国的谷歌

120
00:07:14,221 --> 00:07:16,504
我们看到左上角

121
00:07:16,504 --> 00:07:20,478
是一张我上传到百度的深度学习系统的图片

122
00:07:20,478 --> 00:07:24,247
下面你可以看到系统理解了这张照片

123
00:07:24,247 --> 00:07:26,483
并且找到了类似的图片

124
00:07:26,483 --> 00:07:29,219
同样的背景

125
00:07:29,219 --> 00:07:30,877
同样的角度

126
00:07:30,877 --> 00:07:32,665
有的甚至也有伸出来的舌头

127
00:07:32,665 --> 00:07:35,695
网页上没有准确的文字

128
00:07:35,695 --> 00:07:37,107
我只是上传了图片

129
00:07:37,107 --> 00:07:41,128
所以说电脑能够真正理解它所看到的事物

130
00:07:41,128 --> 00:07:46,292
进而在数据库的几百万张图片中进行实时搜索

131
00:07:46,312 --> 00:07:49,536
就现在而言，电脑的视力意味着什么呢？

132
00:07:49,536 --> 00:07:51,553
事实上不仅仅是电脑能够看见

133
00:07:51,553 --> 00:07:53,622
深度学习其实可以做得更多

134
00:07:53,622 --> 00:07:56,570
像这样一个细小复杂的语句

135
00:07:56,570 --> 00:07:59,394
对深度学习来说是相对易于理解的

136
00:07:59,394 --> 00:08:00,697
你可以看到

137
00:08:00,697 --> 00:08:07,345
斯坦福基础系统显示上面的红点指出
这个语句表达的是否定语气

138
00:08:07,384 --> 00:08:15,900
深度学习在理解语句内容方面已经接近人类水平

139
00:08:15,923 --> 00:08:21,781
同样，深度学习在用于阅读汉语上已经相当于中国本土人水平

140
00:08:21,807 --> 00:08:23,975
这个算法开发于瑞士

141
00:08:23,975 --> 00:08:27,331
没有一个人懂汉语

142
00:08:27,331 --> 00:08:36,682
要我说，深度学习是比较于人类
做这件事最好的系统

143
00:08:36,718 --> 00:08:39,682
这个系统是在我们公司建立的

144
00:08:39,682 --> 00:08:41,728
它要把这些东西集合起来

145
00:08:41,728 --> 00:08:44,189
这些图片没有文字描述

146
00:08:44,189 --> 00:08:46,541
随着我在这输入文字

147
00:08:46,541 --> 00:08:49,510
同时它会了解这些图片

148
00:08:49,510 --> 00:08:51,189
理解它们是关于什么的

149
00:08:51,189 --> 00:08:54,352
然后找出和这些相似的图片

150
00:08:54,352 --> 00:08:57,108
所以你看，他真正在理解我的文字

151
00:08:57,108 --> 00:08:59,332
理解这些图片

152
00:08:59,332 --> 00:09:01,891
我知道你在谷歌上看到过类似的

153
00:09:01,891 --> 00:09:04,666
你可以输入文字，它会提供给你图片

154
00:09:04,666 --> 00:09:08,090
但实际上它是在网页上搜索文字

155
00:09:08,090 --> 00:09:11,091
这和理解图片是有很大不同的

156
00:09:11,091 --> 00:09:17,053
理解图片是电脑在过去几个月里才刚刚会做的事情

157
00:09:17,091 --> 00:09:21,182
电脑不仅有视力，而且能够阅读

158
00:09:21,182 --> 00:09:24,947
而且当然，电脑也能理解所听到的

159
00:09:24,947 --> 00:09:28,389
也许并不意外，我现在要告诉你们，电脑也可以写

160
00:09:28,389 --> 00:09:33,172
这是我昨天用深度学习算法写的文字

161
00:09:33,172 --> 00:09:37,096
这些是斯坦福的算法做的

162
00:09:37,096 --> 00:09:43,110
每一句话都是深度学习算法对图片进行的描述

163
00:09:43,110 --> 00:09:47,581
算法没见过一个穿黑衣服的男人弹吉他

164
00:09:47,581 --> 00:09:49,801
它见过男人，见过黑色

165
00:09:49,801 --> 00:09:51,400
见过吉他

166
00:09:51,400 --> 00:09:55,694
它便自己对这个图片作出了这样的描述

167
00:09:55,694 --> 00:09:59,196
我们还做不到完全和人类同等水平，
但我们已经很接近了

168
00:09:59,196 --> 00:10:04,774
统计表明，四分之一的人更喜欢电脑做的图片说明

169
00:10:04,791 --> 00:10:06,855
目前这个系统刚被开发两周之久

170
00:10:06,855 --> 00:10:08,701
所以按这个速度，估计明年

171
00:10:08,701 --> 00:10:13,352
电脑算法会超过人类水平

172
00:10:13,364 --> 00:10:16,413
电脑会写

173
00:10:16,413 --> 00:10:19,888
我们把这些都放在一起，会发现一个令人兴奋的机遇

174
00:10:19,888 --> 00:10:21,380
比如说，在医药业

175
00:10:21,380 --> 00:10:23,905
一个波士顿团队宣布

176
00:10:23,905 --> 00:10:26,854
他们发现了肿瘤的几十种临床表现

177
00:10:26,854 --> 00:10:31,120
帮助医生预测癌症

178
00:10:32,220 --> 00:10:34,516
同样的，在斯坦福

179
00:10:34,516 --> 00:10:38,179
一个团队宣布通过用放大镜观察组织

180
00:10:38,179 --> 00:10:40,560
开发了一个基于机器学习的系统

181
00:10:40,560 --> 00:10:47,502
可以比病理学家更有效地预测癌症患者的幸存率

182
00:10:47,519 --> 00:10:50,764
在这两个例子中，不仅预测更加准确

183
00:10:50,764 --> 00:10:53,266
而且他们创造了新的科学视角

184
00:10:53,276 --> 00:10:54,781
在放射学中

185
00:10:54,781 --> 00:10:57,876
新视角是人类可以明白的新临床表现

186
00:10:57,876 --> 00:10:59,668
在病理学中

187
00:10:59,668 --> 00:11:04,168
电脑发现癌细胞周围的细胞

188
00:11:04,168 --> 00:11:09,238
在诊断中同癌细胞一样重要

189
00:11:09,260 --> 00:11:14,621
这和病理学家几十年来的教学是相反的

190
00:11:14,621 --> 00:11:17,913
这两个案例中的系统都是由

191
00:11:17,913 --> 00:11:21,534
医学专家和机器学习专家共同开发的

192
00:11:21,534 --> 00:11:24,275
去年我们就已经超过了这个水平

193
00:11:24,275 --> 00:11:30,334
这个是用显微镜识别组织癌变区的例子

194
00:11:30,354 --> 00:11:34,967
所显示的这个系统能够与病理学专家同样准确地识别癌变区

195
00:11:34,967 --> 00:11:37,742
甚至比病理专家更准确

196
00:11:37,742 --> 00:11:41,134
但是建立系统的都是深度学习的专家

197
00:11:41,134 --> 00:11:43,660
没有一个医学专家

198
00:11:44,730 --> 00:11:47,285
类似的，这是神经细胞分裂

199
00:11:47,285 --> 00:11:50,953
我们已经可以和人类一样准确地分裂细胞

200
00:11:50,953 --> 00:11:53,670
但这是个深度学习系统

201
00:11:53,670 --> 00:11:56,921
没有一个开发者拥有医学背景

202
00:11:56,921 --> 00:12:00,148
对于我这个完全没有医学背景的人来说

203
00:12:00,148 --> 00:12:03,875
看起来我也完全可以开一个医药公司

204
00:12:03,875 --> 00:12:06,021
我确实这么做了

205
00:12:06,021 --> 00:12:07,761
我开始有点不知所措

206
00:12:07,761 --> 00:12:10,650
但理论上说这件事是可行的

207
00:12:10,650 --> 00:12:16,142
用这些数据分析技术制作医药

208
00:12:16,142 --> 00:12:18,622
所幸的是，反响非常好

209
00:12:18,622 --> 00:12:20,978
不仅是媒体的，包括医药行业

210
00:12:20,978 --> 00:12:23,322
都很支持

211
00:12:23,322 --> 00:12:27,471
理论表明我们可以将制药的中间过程

212
00:12:27,471 --> 00:12:30,364
充分转换成数据分析

213
00:12:30,364 --> 00:12:33,429
让医生去做他们最擅长的

214
00:12:33,429 --> 00:12:35,031
我有一个例子

215
00:12:35,031 --> 00:12:39,975
制作一个医学诊断测试需要十五分钟

216
00:12:39,975 --> 00:12:41,929
我会给你们实际展示

217
00:12:41,929 --> 00:12:45,416
但是我去掉了一部分，把它压缩到了三分钟

218
00:12:45,416 --> 00:12:48,477
不要医学诊断试验

219
00:12:48,477 --> 00:12:51,846
我要给你们展示制作一个汽车图片的诊断测试

220
00:12:51,846 --> 00:12:54,068
因为这个我们都能懂

221
00:12:54,068 --> 00:12:57,269
现在我们有150万张汽车图片

222
00:12:57,269 --> 00:13:02,695
我想要根据拍照的角度对他们进行分类

223
00:13:02,698 --> 00:13:06,586
这些图片完全没有标签，所以我要先对他们进行简单描述

224
00:13:06,586 --> 00:13:08,451
有深度学习算法

225
00:13:08,451 --> 00:13:12,158
它可以自动识别图片的结构要素

226
00:13:12,158 --> 00:13:15,778
令人高兴的是人和电脑可以合作

227
00:13:15,778 --> 00:13:17,956
你可以看到，这个人

228
00:13:17,956 --> 00:13:20,631
正在告诉电脑什么是感兴趣的要素

229
00:13:20,631 --> 00:13:25,281
为之后电脑用来完善算法

230
00:13:25,281 --> 00:13:29,577
现在，这些深度学习算法处在16，000维空间中

231
00:13:29,577 --> 00:13:33,009
所以你看到电脑让他们在这个空间中旋转

232
00:13:33,009 --> 00:13:35,001
尝试找到新的结构要素

233
00:13:35,001 --> 00:13:36,782
当他成功时

234
00:13:36,782 --> 00:13:40,786
开车的人就可以指出感兴趣的要素

235
00:13:40,786 --> 00:13:43,208
现在电脑成功找出这些要素

236
00:13:43,208 --> 00:13:45,770
比如，角度

237
00:13:45,770 --> 00:13:47,376
我们在这个过程中

238
00:13:47,376 --> 00:13:49,716
逐渐的告诉电脑更多

239
00:13:49,716 --> 00:13:52,144
我们想寻找的结构

240
00:13:52,144 --> 00:13:53,916
你可以想象一个诊断测试

241
00:13:53,916 --> 00:13:57,266
这就像是病理学家识别病态区域

242
00:13:57,266 --> 00:14:02,292
或者放射学专家找出潜在的问题囊肿

243
00:14:02,292 --> 00:14:04,851
有时候这对算法来说有些难度

244
00:14:04,851 --> 00:14:06,815
我们的例子就比较麻烦

245
00:14:06,815 --> 00:14:09,365
车的正面和背面全部混淆了

246
00:14:09,365 --> 00:14:11,437
所以我们要仔细一些

247
00:14:11,437 --> 00:14:14,669
人工地选出正面和背面

248
00:14:14,669 --> 00:14:21,505
人后告诉电脑这是我们所感兴趣的一类

249
00:14:21,523 --> 00:14:24,200
做这件事花了一些时间，所以我们跳过

250
00:14:24,200 --> 00:14:28,406
之后我们用这几百个东西训练机器学习算法

251
00:14:28,420 --> 00:14:30,445
希望他会有很大进步

252
00:14:30,445 --> 00:14:33,518
你能看到，它正在消退一些图片

253
00:14:33,518 --> 00:14:38,226
说明他已经开始可以自己理解这些图片了

254
00:14:38,226 --> 00:14:41,128
我们可以用相似图片的概念

255
00:14:41,128 --> 00:14:43,222
用相似的图片，你可以看到

256
00:14:43,222 --> 00:14:47,241
电脑现在能够只找出正面的车

257
00:14:47,241 --> 00:14:50,189
在这个时候，人可以告诉电脑

258
00:14:50,189 --> 00:14:52,482
对的，没错，你做的很好

259
00:14:53,652 --> 00:14:55,837
当然，有时，即使在这个阶段

260
00:14:55,837 --> 00:14:59,511
分组仍然是很困难的

261
00:14:59,511 --> 00:15:03,395
像我们这里，让电脑在这里旋转了一段时间了

262
00:15:03,399 --> 00:15:08,204
我们还是看到左面的和右面的图片有混淆

263
00:15:08,222 --> 00:15:10,362
所以我们可以再一次给电脑一些提示

264
00:15:10,362 --> 00:15:18,048
我们让它通过深度学习算法尽可能分离出左面和右面的图片

265
00:15:18,067 --> 00:15:21,009
有了这个指示——好的，它已经完成了

266
00:15:21,009 --> 00:15:26,261
它要想办法分开这一部分

267
00:15:26,271 --> 00:15:28,709
你现在知道了

268
00:15:28,709 --> 00:15:36,906
这不是电脑取代人类

269
00:15:36,906 --> 00:15:39,546
而是一起合作

270
00:15:39,546 --> 00:15:45,076
我们在做的是将过去需要五六人的团队
用七年时间做的事情

271
00:15:45,098 --> 00:15:50,203
变成只需一个人花十五分钟就能完成

272
00:15:50,208 --> 00:15:54,158
这个过程需要四到五次反复

273
00:15:54,158 --> 00:15:58,967
你可以看到我们已经将150万张图片的62%正确分类

274
00:15:58,976 --> 00:16:02,728
现在我们就可以快速地检查整个分组

275
00:16:02,745 --> 00:16:05,664
确保没有错误

276
00:16:05,664 --> 00:16:09,616
如果哪里有错误，我们可以告诉电脑

277
00:16:09,616 --> 00:16:12,661
每个分组我们都这样做

278
00:16:12,661 --> 00:16:17,538
现在这150万张图片已经达到80%的成功率

279
00:16:17,563 --> 00:16:19,641
现在这个阶段

280
00:16:19,641 --> 00:16:23,220
只需要找出几个不正确的分类

281
00:16:23,220 --> 00:16:26,108
并让电脑明白为什么

282
00:16:26,108 --> 00:16:27,851
到了这个步骤

283
00:16:27,851 --> 00:16:31,972
十五分钟后我们达到了97%的正确率

284
00:16:31,972 --> 00:16:36,572
这种技术能帮助我们解决一个问题

285
00:16:36,578 --> 00:16:39,614
医疗专家不足的问题

286
00:16:39,614 --> 00:16:45,713
世界经济论坛表明，在发展中国家，
内科医生有十倍到二十倍的短缺

287
00:16:45,727 --> 00:16:50,720
而弥补这一短缺需要300年的时间

288
00:16:50,734 --> 00:16:56,439
所以想象一下，是否我们能够用深度学习的方法
帮助他们提高效率？

289
00:16:56,459 --> 00:16:58,690
我对这个机会表示很激动

290
00:16:58,690 --> 00:17:01,279
我同样的担心一些问题

291
00:17:01,279 --> 00:17:04,403
问题是在这张地图上的蓝色区域内

292
00:17:04,403 --> 00:17:08,172
服务占就业的80%以上

293
00:17:08,172 --> 00:17:09,959
什么是服务？

294
00:17:09,959 --> 00:17:11,473
这些是服务

295
00:17:11,473 --> 00:17:15,627
这些也是电脑才刚刚开始学习的事情

296
00:17:15,627 --> 00:17:19,431
也就是说世界上发达国家的80%的就业

297
00:17:19,431 --> 00:17:21,963
是电脑刚开始学习的

298
00:17:21,963 --> 00:17:23,403
这是什么意思？

299
00:17:23,403 --> 00:17:25,986
其实也没什么大不了的，他们会被其他职业替代

300
00:17:25,986 --> 00:17:28,693
比如说会有更多的数据学家

301
00:17:28,693 --> 00:17:29,510
也不尽然

302
00:17:29,510 --> 00:17:32,628
数据学家不需要太久的时间做这些事

303
00:17:32,628 --> 00:17:35,880
比如这四个算法都是同时一个人开发的

304
00:17:35,880 --> 00:17:38,318
如果你认为这些曾经都发生过

305
00:17:38,318 --> 00:17:42,126
我们看到过新的事物出现

306
00:17:42,126 --> 00:17:44,378
然后被新的职业所取代

307
00:17:44,378 --> 00:17:46,494
那这些新的职业又会是什么？

308
00:17:46,494 --> 00:17:48,365
很难做出估计

309
00:17:48,365 --> 00:17:51,104
因为人的能力以这个均匀的速度增长

310
00:17:51,104 --> 00:17:53,666
但是现在我们有了深度学习系统

311
00:17:53,666 --> 00:17:56,893
它的能力以指数方式增长

312
00:17:56,893 --> 00:17:58,498
我们现在在这

313
00:17:58,498 --> 00:18:00,559
目前，我们看周围的事物

314
00:18:00,559 --> 00:18:03,235
会说：“电脑还是很笨。”对吧？

315
00:18:03,235 --> 00:18:06,664
但是在五年内，电脑会超出这张图

316
00:18:06,664 --> 00:18:10,529
所以我们现在要开始考虑这样的能力了

317
00:18:10,529 --> 00:18:12,579
当然，我们曾经见过这个

318
00:18:12,579 --> 00:18:13,966
在工业革命时期

319
00:18:13,966 --> 00:18:16,817
发动机让生产力迈进一大步

320
00:18:17,667 --> 00:18:20,805
然而问题是，一段时间之后，形势转平了

321
00:18:20,805 --> 00:18:22,507
是由于社会的破坏

322
00:18:22,507 --> 00:18:25,946
但当发动机被普遍应用时

323
00:18:25,946 --> 00:18:28,300
一切都稳定下来了

324
00:18:28,300 --> 00:18:29,773
机器学习革命

325
00:18:29,773 --> 00:18:32,682
将和工业革命有很大不同

326
00:18:32,682 --> 00:18:35,632
因为机器学习革命不会停止

327
00:18:35,632 --> 00:18:38,614
电脑越擅长智能活动

328
00:18:38,614 --> 00:18:42,862
它们越能制造出更加擅长智能活动的电脑

329
00:18:42,862 --> 00:18:47,250
这将会是世界从未经历过的改变

330
00:18:47,250 --> 00:18:50,554
所以你之前理解的可能性是不一样的

331
00:18:50,974 --> 00:18:52,754
这正在影响我们的生活

332
00:18:52,754 --> 00:18:56,384
在过去的25年里，随着资本生产力的增加

333
00:18:56,400 --> 00:19:00,588
劳动生产力在变缓，甚至下降

334
00:19:01,408 --> 00:19:04,149
所以我希望可以发起大家的讨论

335
00:19:04,149 --> 00:19:07,176
我知道当我和人们讲述这样的处境时

336
00:19:07,176 --> 00:19:08,666
人们往往表现出不以为然

337
00:19:08,666 --> 00:19:10,339
电脑不会思考

338
00:19:10,339 --> 00:19:13,367
它们没有情感，也不懂诗

339
00:19:13,367 --> 00:19:15,888
它们甚至都不知道自己是如何运作的

340
00:19:15,888 --> 00:19:17,374
那又怎样？

341
00:19:17,374 --> 00:19:19,178
电脑现在可以做

342
00:19:19,178 --> 00:19:21,897
人类用大部分有偿的劳动时间做的事情

343
00:19:21,897 --> 00:19:23,628
所以现在该到我们思考

344
00:19:23,628 --> 00:19:28,015
我们将如何调整我们的社会结构和经济结构

345
00:19:28,015 --> 00:19:29,855
来应对新形势

346
00:19:29,855 --> 00:19:31,388
谢谢

347
00:19:31,388 --> 00:19:32,190
（鼓掌）