WEBVTT

00:00:00.880 --> 00:00:04.893
在过去，如果你想让计算机做一件事

00:00:04.893 --> 00:00:06.447
你需要设计电脑程序

00:00:06.447 --> 00:00:09.858
你们可能从没做过这件事

00:00:09.858 --> 00:00:19.010
编程需要排列出你想让电脑做的
每一个细枝末节的小步骤来达到你的目的

00:00:19.089 --> 00:00:22.585
假如你自己都不清楚完成这某件事的话

00:00:22.585 --> 00:00:24.648
要编写处电脑程序来完成那件事就会显得
比登天还要困难

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
这也是这个人，亚瑟 塞缪尔，所面临的挑战

00:00:28.131 --> 00:00:34.468
在1956年，他想让这台电脑和他下国际象棋

00:00:34.548 --> 00:00:40.348
你怎样才能罗列出所有的细枝末节，
并且让电脑下象棋比你厉害？

00:00:40.394 --> 00:00:42.116
他想出一个办法

00:00:42.116 --> 00:00:45.840
它让电脑和自己对战几千次

00:00:45.840 --> 00:00:48.364
学习如何下象棋

00:00:48.364 --> 00:00:51.544
事实证明他做到了。1962年

00:00:51.544 --> 00:00:55.561
这台电脑打败了美国康涅狄克州象棋冠军

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
亚瑟 塞缪尔是机器学习之父

00:00:58.534 --> 00:01:00.251
我非常敬畏他

00:01:00.251 --> 00:01:03.014
因为我是机器学习的实践者

00:01:03.014 --> 00:01:04.479
我曾是Kaggle的主席

00:01:04.479 --> 00:01:07.867
Kaggle是一个拥有200,000机器学习实践者地社区

00:01:07.867 --> 00:01:09.925
Kaggle会组织竞赛

00:01:09.925 --> 00:01:13.633
让人们尝试解决过去未解决的问题

00:01:13.633 --> 00:01:17.470
已成功解决问题几百次

00:01:17.470 --> 00:01:19.940
在这个有利环境中，我发现了

00:01:19.940 --> 00:01:26.190
机器学习在过去，现在，和将来可以做些什么

00:01:26.252 --> 00:01:30.675
第一个机器学习的商业成功案例应该是谷歌

00:01:30.675 --> 00:01:35.504
谷歌用计算机算法寻找信息

00:01:35.536 --> 00:01:38.437
而且这个算法以计算机学习为基础

00:01:38.437 --> 00:01:42.323
从那以后，机器学习得到了很多的商业成功

00:01:42.323 --> 00:01:44.160
像亚马逊、网飞这类公司

00:01:44.160 --> 00:01:47.876
通过机器学习向你推荐你可能想买的东西

00:01:47.876 --> 00:01:49.896
你可能想看的电影

00:01:49.896 --> 00:01:51.703
有时候你会被吓一跳

00:01:51.703 --> 00:01:53.657
像领英、脸谱这类的公司

00:01:53.657 --> 00:01:56.251
有时会告诉你谁会是你的朋友

00:01:56.251 --> 00:01:58.228
你根本不知道他们是如何做到的

00:01:58.228 --> 00:02:01.195
其实他们正是运用了机器学习的力量

00:02:01.195 --> 00:02:04.152
这种运算方法使用数据

00:02:04.152 --> 00:02:07.399
而非手动编写程序

NOTE Paragraph

00:02:07.399 --> 00:02:13.697
这也是IBM的Watson超级计算机
在《危险边缘》里打败两届世界冠军的秘诀

00:02:13.739 --> 00:02:16.964
成功回答了这样一个极其模糊且复杂的问题

00:02:16.964 --> 00:02:19.799
［“古代‘尼姆鲁德狮像’于2003年在这个城市的国家博物馆消失（连同其它很多物品）”］

00:02:19.799 --> 00:02:23.034
这也是为什么我们现在有了第一台自驾车

00:02:23.034 --> 00:02:25.856
如果你想区分一棵树和一个行人

00:02:25.856 --> 00:02:28.488
显然这很重要

00:02:28.488 --> 00:02:31.075
但是我们不知道如何写这样一个程序

00:02:31.075 --> 00:02:34.072
有了机器学习，这就成为了可能

00:02:34.072 --> 00:02:36.680
这台自驾车已经行驶了十万英里

00:02:36.680 --> 00:02:40.186
在正常路面上零事故

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
我们知道电脑能够学习

00:02:44.110 --> 00:02:48.810
学习做一件有时我们自己都不知道怎么做的事情

00:02:48.848 --> 00:02:51.733
有时甚至比我们做得更好

00:02:51.733 --> 00:02:58.288
我见过机器学习最惊人的例子
是我在Kaggle做的一个项目

00:02:58.320 --> 00:03:03.431
一个叫杰弗里 辛顿的人毕业于多伦多大学，
带领一个团队

00:03:03.463 --> 00:03:06.140
赢得了一个自动查毒的竞赛

00:03:06.140 --> 00:03:12.967
然而真正精彩的不是他们打败了所有默克公司
或者国际学术团体设计的运算

00:03:13.000 --> 00:03:18.061
而是他们团队里没有一个人有化学、生物
或者生命科学的背景

00:03:18.061 --> 00:03:20.230
却在两个星期内赢得了比赛

00:03:20.230 --> 00:03:22.421
他们是如何做到的？

00:03:22.421 --> 00:03:25.342
他们应用了一种超凡的算法叫做深度学习

00:03:25.342 --> 00:03:31.401
几个星期后纽约时报在其首页
报道了此次的重要成功

00:03:31.412 --> 00:03:34.147
在左手边就是杰弗里 辛顿

00:03:34.147 --> 00:03:38.488
深度学习是受到人类大脑的启发

00:03:38.488 --> 00:03:44.120
也因此这种算法的能力不受任何理论限制

00:03:44.141 --> 00:03:46.964
你给它越多的数据和运算时间

00:03:46.964 --> 00:03:48.276
它会工作的越好

NOTE Paragraph

00:03:48.276 --> 00:03:52.865
纽约时报在其文章中
还说明了深度学习的另一非凡之处

00:03:52.865 --> 00:03:55.569
现在我要展示给你们看

00:03:55.569 --> 00:04:00.510
它表明电脑能够听懂信息

NOTE Paragraph

00:04:00.510 --> 00:04:06.221
（视频）理查德 拉希德：现在，
我要做的最后一步是

00:04:06.246 --> 00:04:10.961
用汉语和大家说话

00:04:10.986 --> 00:04:18.598
在这之前，我们已经通过很多说汉语的人
收集了大量信息

00:04:18.598 --> 00:04:21.128
然后形成一个语音合成系统

00:04:21.128 --> 00:04:25.801
把汉字转换成汉语言

00:04:25.801 --> 00:04:29.929
之后我们收录了一个小时我的声音

00:04:29.929 --> 00:04:36.330
使声音合成系统的声音听起来像我

00:04:36.364 --> 00:04:38.904
再次，结果并不完美

00:04:38.904 --> 00:04:41.552
他们会有不少错误

00:04:41.552 --> 00:04:44.036
（中文）

00:04:44.036 --> 00:04:49.443
（掌声）

00:04:49.446 --> 00:04:53.022
在这个领域还有很多工作要做

00:04:53.022 --> 00:04:56.667
（中文）

00:04:56.667 --> 00:05:01.340
（掌声）

NOTE Paragraph

00:05:01.345 --> 00:05:04.744
杰里米 霍华德：这是在一个中国的机器学习会议上

00:05:04.744 --> 00:05:08.994
事实上，一般来说，你不会在学术会议上
听到如此热烈的掌声

00:05:09.011 --> 00:05:12.687
当然除了TEDx演讲可以随意鼓掌

00:05:12.687 --> 00:05:15.482
你所看到的一切都伴随着深入学习

00:05:15.482 --> 00:05:17.007
（掌声）谢谢

00:05:17.007 --> 00:05:19.289
对英文的转录是深入学习

00:05:19.289 --> 00:05:22.701
翻译成汉语以及屏幕右上方的文字是深入学习

00:05:22.701 --> 00:05:26.008
声音的合成也是深入学习

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
深入学习就是这样神奇的事情

00:05:29.242 --> 00:05:32.341
这个单一的算法似乎可以做任何事情

00:05:32.341 --> 00:05:35.452
而且一年前我发现他甚至有视觉

00:05:35.452 --> 00:05:37.628
这个名不见经传的德国竞赛

00:05:37.628 --> 00:05:40.225
叫做德国交通标志识别基准

00:05:40.225 --> 00:05:43.618
深度学习已学得识别这些交通标识

00:05:43.618 --> 00:05:47.472
它不仅能够做的比其它算法好

00:05:47.472 --> 00:05:50.189
排行榜显示它比人更厉害

00:05:50.189 --> 00:05:52.041
是人的准确率的两倍

00:05:52.041 --> 00:05:57.417
到2011年，我们有了第一台视力高于人类的电脑

00:05:57.442 --> 00:05:59.491
从此更多的电脑也可以做到

00:05:59.491 --> 00:06:04.385
在2012年，谷歌宣布让一个深度学习的算法看YouTube视频

00:06:04.420 --> 00:06:07.857
收集16，000台电脑上的数据，为期一个月

00:06:07.857 --> 00:06:13.998
之后电脑便能仅通过看视频独立识别人和猫

00:06:14.027 --> 00:06:16.379
这近似于人类学习的过程

00:06:16.379 --> 00:06:19.119
人类不需要被告诉他们看到了什么

00:06:19.119 --> 00:06:22.450
而是在自己认知事物的过程中学习

00:06:22.450 --> 00:06:25.819
同样在2012年，杰弗里 辛顿，我们之前看到的人

00:06:25.819 --> 00:06:28.677
赢了很火的ImageNet比赛

00:06:28.677 --> 00:06:34.218
分辨出150万张图片的内容

00:06:34.256 --> 00:06:39.209
到2014年，我们已经将图像识别的误差
降低到百分之六

00:06:39.242 --> 00:06:41.268
低于人类误差率

NOTE Paragraph

00:06:41.268 --> 00:06:47.277
这项非凡的工作现在已经用于工业

00:06:47.306 --> 00:06:50.348
比如说，去年谷歌声明

00:06:50.348 --> 00:06:54.933
他们在两小时内把法国的每一个地点汇成地图

00:06:54.933 --> 00:07:02.660
他们是将街景填入深度学习算法以辨认街道号

00:07:02.699 --> 00:07:08.259
可以想象从前这件事要花费多少时间和精力

00:07:08.274 --> 00:07:10.185
同样的事情也发生在中国

00:07:10.185 --> 00:07:14.221
百度大概类似于中国的谷歌

00:07:14.221 --> 00:07:16.504
我们看到左上角

00:07:16.504 --> 00:07:20.478
是一张我上传到百度的深度学习系统的图片

00:07:20.478 --> 00:07:24.247
下面你可以看到系统理解了这张照片

00:07:24.247 --> 00:07:26.483
并且找到了类似的图片

00:07:26.483 --> 00:07:29.219
同样的背景

00:07:29.219 --> 00:07:30.877
同样的角度

00:07:30.877 --> 00:07:32.665
有的甚至也有伸出来的舌头

00:07:32.665 --> 00:07:35.695
网页上没有准确的文字

00:07:35.695 --> 00:07:37.107
我只是上传了图片

00:07:37.107 --> 00:07:41.128
所以说电脑能够真正理解它所看到的事物

00:07:41.128 --> 00:07:46.292
进而在数据库的几百万张图片中进行实时搜索

NOTE Paragraph

00:07:46.312 --> 00:07:49.536
就现在而言，电脑的视力意味着什么呢？

00:07:49.536 --> 00:07:51.553
事实上不仅仅是电脑能够看见

00:07:51.553 --> 00:07:53.622
深度学习其实可以做得更多

00:07:53.622 --> 00:07:56.570
像这样一个细小复杂的语句

00:07:56.570 --> 00:07:59.394
对深度学习来说是相对易于理解的

00:07:59.394 --> 00:08:00.697
你可以看到

00:08:00.697 --> 00:08:07.345
斯坦福基础系统显示上面的红点指出
这个语句表达的是否定语气

00:08:07.384 --> 00:08:15.900
深度学习在理解语句内容方面已经接近人类水平

00:08:15.923 --> 00:08:21.781
同样，深度学习在用于阅读汉语上已经相当于中国本土人水平

00:08:21.807 --> 00:08:23.975
这个算法开发于瑞士

00:08:23.975 --> 00:08:27.331
没有一个人懂汉语

00:08:27.331 --> 00:08:36.682
要我说，深度学习是比较于人类
做这件事最好的系统

NOTE Paragraph

00:08:36.718 --> 00:08:39.682
这个系统是在我们公司建立的

00:08:39.682 --> 00:08:41.728
它要把这些东西集合起来

00:08:41.728 --> 00:08:44.189
这些图片没有文字描述

00:08:44.189 --> 00:08:46.541
随着我在这输入文字

00:08:46.541 --> 00:08:49.510
同时它会了解这些图片

00:08:49.510 --> 00:08:51.189
理解它们是关于什么的

00:08:51.189 --> 00:08:54.352
然后找出和这些相似的图片

00:08:54.352 --> 00:08:57.108
所以你看，他真正在理解我的文字

00:08:57.108 --> 00:08:59.332
理解这些图片

00:08:59.332 --> 00:09:01.891
我知道你在谷歌上看到过类似的

00:09:01.891 --> 00:09:04.666
你可以输入文字，它会提供给你图片

00:09:04.666 --> 00:09:08.090
但实际上它是在网页上搜索文字

00:09:08.090 --> 00:09:11.091
这和理解图片是有很大不同的

00:09:11.091 --> 00:09:17.053
理解图片是电脑在过去几个月里才刚刚会做的事情

NOTE Paragraph

00:09:17.091 --> 00:09:21.182
电脑不仅有视力，而且能够阅读

00:09:21.182 --> 00:09:24.947
而且当然，电脑也能理解所听到的

00:09:24.947 --> 00:09:28.389
也许并不意外，我现在要告诉你们，电脑也可以写

00:09:28.389 --> 00:09:33.172
这是我昨天用深度学习算法写的文字

00:09:33.172 --> 00:09:37.096
这些是斯坦福的算法做的

00:09:37.096 --> 00:09:43.110
每一句话都是深度学习算法对图片进行的描述

00:09:43.110 --> 00:09:47.581
算法没见过一个穿黑衣服的男人弹吉他

00:09:47.581 --> 00:09:49.801
它见过男人，见过黑色

00:09:49.801 --> 00:09:51.400
见过吉他

00:09:51.400 --> 00:09:55.694
它便自己对这个图片作出了这样的描述

00:09:55.694 --> 00:09:59.196
我们还做不到完全和人类同等水平，
但我们已经很接近了

00:09:59.196 --> 00:10:04.774
统计表明，四分之一的人更喜欢电脑做的图片说明

00:10:04.791 --> 00:10:06.855
目前这个系统刚被开发两周之久

00:10:06.855 --> 00:10:08.701
所以按这个速度，估计明年

00:10:08.701 --> 00:10:13.352
电脑算法会超过人类水平

00:10:13.364 --> 00:10:16.413
电脑会写

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
我们把这些都放在一起，会发现一个令人兴奋的机遇

00:10:19.888 --> 00:10:21.380
比如说，在医药业

00:10:21.380 --> 00:10:23.905
一个波士顿团队宣布

00:10:23.905 --> 00:10:26.854
他们发现了肿瘤的几十种临床表现

00:10:26.854 --> 00:10:31.120
帮助医生预测癌症

00:10:32.220 --> 00:10:34.516
同样的，在斯坦福

00:10:34.516 --> 00:10:38.179
一个团队宣布通过用放大镜观察组织

00:10:38.179 --> 00:10:40.560
开发了一个基于机器学习的系统

00:10:40.560 --> 00:10:47.502
可以比病理学家更有效地预测癌症患者的幸存率

00:10:47.519 --> 00:10:50.764
在这两个例子中，不仅预测更加准确

00:10:50.764 --> 00:10:53.266
而且他们创造了新的科学视角

00:10:53.276 --> 00:10:54.781
在放射学中

00:10:54.781 --> 00:10:57.876
新视角是人类可以明白的新临床表现

00:10:57.876 --> 00:10:59.668
在病理学中

00:10:59.668 --> 00:11:04.168
电脑发现癌细胞周围的细胞

00:11:04.168 --> 00:11:09.238
在诊断中同癌细胞一样重要

00:11:09.260 --> 00:11:14.621
这和病理学家几十年来的教学是相反的

00:11:14.621 --> 00:11:17.913
这两个案例中的系统都是由

00:11:17.913 --> 00:11:21.534
医学专家和机器学习专家共同开发的

00:11:21.534 --> 00:11:24.275
去年我们就已经超过了这个水平

00:11:24.275 --> 00:11:30.334
这个是用显微镜识别组织癌变区的例子

00:11:30.354 --> 00:11:34.967
所显示的这个系统能够与病理学专家同样准确地识别癌变区

00:11:34.967 --> 00:11:37.742
甚至比病理专家更准确

00:11:37.742 --> 00:11:41.134
但是建立系统的都是深度学习的专家

00:11:41.134 --> 00:11:43.660
没有一个医学专家

00:11:44.730 --> 00:11:47.285
类似的，这是神经细胞分裂

00:11:47.285 --> 00:11:50.953
我们已经可以和人类一样准确地分裂细胞

00:11:50.953 --> 00:11:53.670
但这是个深度学习系统

00:11:53.670 --> 00:11:56.921
没有一个开发者拥有医学背景

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
对于我这个完全没有医学背景的人来说

00:12:00.148 --> 00:12:03.875
看起来我也完全可以开一个医药公司

00:12:03.875 --> 00:12:06.021
我确实这么做了

00:12:06.021 --> 00:12:07.761
我开始有点不知所措

00:12:07.761 --> 00:12:10.650
但理论上说这件事是可行的

00:12:10.650 --> 00:12:16.142
用这些数据分析技术制作医药

00:12:16.142 --> 00:12:18.622
所幸的是，反响非常好

00:12:18.622 --> 00:12:20.978
不仅是媒体的，包括医药行业

00:12:20.978 --> 00:12:23.322
都很支持

00:12:23.322 --> 00:12:27.471
理论表明我们可以将制药的中间过程

00:12:27.471 --> 00:12:30.364
充分转换成数据分析

00:12:30.364 --> 00:12:33.429
让医生去做他们最擅长的

00:12:33.429 --> 00:12:35.031
我有一个例子

00:12:35.031 --> 00:12:39.975
制作一个医学诊断测试需要十五分钟

00:12:39.975 --> 00:12:41.929
我会给你们实际展示

00:12:41.929 --> 00:12:45.416
但是我去掉了一部分，把它压缩到了三分钟

00:12:45.416 --> 00:12:48.477
不要医学诊断试验

00:12:48.477 --> 00:12:51.846
我要给你们展示制作一个汽车图片的诊断测试

00:12:51.846 --> 00:12:54.068
因为这个我们都能懂

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
现在我们有150万张汽车图片

00:12:57.269 --> 00:13:02.695
我想要根据拍照的角度对他们进行分类

00:13:02.698 --> 00:13:06.586
这些图片完全没有标签，所以我要先对他们进行简单描述

00:13:06.586 --> 00:13:08.451
有深度学习算法

00:13:08.451 --> 00:13:12.158
它可以自动识别图片的结构要素

00:13:12.158 --> 00:13:15.778
令人高兴的是人和电脑可以合作

00:13:15.778 --> 00:13:17.956
你可以看到，这个人

00:13:17.956 --> 00:13:20.631
正在告诉电脑什么是感兴趣的要素

00:13:20.631 --> 00:13:25.281
为之后电脑用来完善算法

00:13:25.281 --> 00:13:29.577
现在，这些深度学习算法处在16，000维空间中

00:13:29.577 --> 00:13:33.009
所以你看到电脑让他们在这个空间中旋转

00:13:33.009 --> 00:13:35.001
尝试找到新的结构要素

00:13:35.001 --> 00:13:36.782
当他成功时

00:13:36.782 --> 00:13:40.786
开车的人就可以指出感兴趣的要素

00:13:40.786 --> 00:13:43.208
现在电脑成功找出这些要素

00:13:43.208 --> 00:13:45.770
比如，角度

00:13:45.770 --> 00:13:47.376
我们在这个过程中

00:13:47.376 --> 00:13:49.716
逐渐的告诉电脑更多

00:13:49.716 --> 00:13:52.144
我们想寻找的结构

00:13:52.144 --> 00:13:53.916
你可以想象一个诊断测试

00:13:53.916 --> 00:13:57.266
这就像是病理学家识别病态区域

00:13:57.266 --> 00:14:02.292
或者放射学专家找出潜在的问题囊肿

00:14:02.292 --> 00:14:04.851
有时候这对算法来说有些难度

00:14:04.851 --> 00:14:06.815
我们的例子就比较麻烦

00:14:06.815 --> 00:14:09.365
车的正面和背面全部混淆了

00:14:09.365 --> 00:14:11.437
所以我们要仔细一些

00:14:11.437 --> 00:14:14.669
人工地选出正面和背面

00:14:14.669 --> 00:14:21.505
人后告诉电脑这是我们所感兴趣的一类

NOTE Paragraph

00:14:21.523 --> 00:14:24.200
做这件事花了一些时间，所以我们跳过

00:14:24.200 --> 00:14:28.406
之后我们用这几百个东西训练机器学习算法

00:14:28.420 --> 00:14:30.445
希望他会有很大进步

00:14:30.445 --> 00:14:33.518
你能看到，它正在消退一些图片

00:14:33.518 --> 00:14:38.226
说明他已经开始可以自己理解这些图片了

00:14:38.226 --> 00:14:41.128
我们可以用相似图片的概念

00:14:41.128 --> 00:14:43.222
用相似的图片，你可以看到

00:14:43.222 --> 00:14:47.241
电脑现在能够只找出正面的车

00:14:47.241 --> 00:14:50.189
在这个时候，人可以告诉电脑

00:14:50.189 --> 00:14:52.482
对的，没错，你做的很好

NOTE Paragraph

00:14:53.652 --> 00:14:55.837
当然，有时，即使在这个阶段

00:14:55.837 --> 00:14:59.511
分组仍然是很困难的

00:14:59.511 --> 00:15:03.395
像我们这里，让电脑在这里旋转了一段时间了

00:15:03.399 --> 00:15:08.204
我们还是看到左面的和右面的图片有混淆

00:15:08.222 --> 00:15:10.362
所以我们可以再一次给电脑一些提示

00:15:10.362 --> 00:15:18.048
我们让它通过深度学习算法尽可能分离出左面和右面的图片

00:15:18.067 --> 00:15:21.009
有了这个指示——好的，它已经完成了

00:15:21.009 --> 00:15:26.261
它要想办法分开这一部分

NOTE Paragraph

00:15:26.271 --> 00:15:28.709
你现在知道了

00:15:28.709 --> 00:15:36.906
这不是电脑取代人类

00:15:36.906 --> 00:15:39.546
而是一起合作

00:15:39.546 --> 00:15:45.076
我们在做的是将过去需要五六人的团队
用七年时间做的事情

00:15:45.098 --> 00:15:50.203
变成只需一个人花十五分钟就能完成

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
这个过程需要四到五次反复

00:15:54.158 --> 00:15:58.967
你可以看到我们已经将150万张图片的62%正确分类

00:15:58.976 --> 00:16:02.728
现在我们就可以快速地检查整个分组

00:16:02.745 --> 00:16:05.664
确保没有错误

00:16:05.664 --> 00:16:09.616
如果哪里有错误，我们可以告诉电脑

00:16:09.616 --> 00:16:12.661
每个分组我们都这样做

00:16:12.661 --> 00:16:17.538
现在这150万张图片已经达到80%的成功率

00:16:17.563 --> 00:16:19.641
现在这个阶段

00:16:19.641 --> 00:16:23.220
只需要找出几个不正确的分类

00:16:23.220 --> 00:16:26.108
并让电脑明白为什么

00:16:26.108 --> 00:16:27.851
到了这个步骤

00:16:27.851 --> 00:16:31.972
十五分钟后我们达到了97%的正确率

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
这种技术能帮助我们解决一个问题

00:16:36.578 --> 00:16:39.614
医疗专家不足的问题

00:16:39.614 --> 00:16:45.713
世界经济论坛表明，在发展中国家，
内科医生有十倍到二十倍的短缺

00:16:45.727 --> 00:16:50.720
而弥补这一短缺需要300年的时间

00:16:50.734 --> 00:16:56.439
所以想象一下，是否我们能够用深度学习的方法
帮助他们提高效率？

NOTE Paragraph

00:16:56.459 --> 00:16:58.690
我对这个机会表示很激动

00:16:58.690 --> 00:17:01.279
我同样的担心一些问题

00:17:01.279 --> 00:17:04.403
问题是在这张地图上的蓝色区域内

00:17:04.403 --> 00:17:08.172
服务占就业的80%以上

00:17:08.172 --> 00:17:09.959
什么是服务？

00:17:09.959 --> 00:17:11.473
这些是服务

00:17:11.473 --> 00:17:15.627
这些也是电脑才刚刚开始学习的事情

00:17:15.627 --> 00:17:19.431
也就是说世界上发达国家的80%的就业

00:17:19.431 --> 00:17:21.963
是电脑刚开始学习的

00:17:21.963 --> 00:17:23.403
这是什么意思？

00:17:23.403 --> 00:17:25.986
其实也没什么大不了的，他们会被其他职业替代

00:17:25.986 --> 00:17:28.693
比如说会有更多的数据学家

00:17:28.693 --> 00:17:29.510
也不尽然

00:17:29.510 --> 00:17:32.628
数据学家不需要太久的时间做这些事

00:17:32.628 --> 00:17:35.880
比如这四个算法都是同时一个人开发的

00:17:35.880 --> 00:17:38.318
如果你认为这些曾经都发生过

00:17:38.318 --> 00:17:42.126
我们看到过新的事物出现

00:17:42.126 --> 00:17:44.378
然后被新的职业所取代

00:17:44.378 --> 00:17:46.494
那这些新的职业又会是什么？

00:17:46.494 --> 00:17:48.365
很难做出估计

00:17:48.365 --> 00:17:51.104
因为人的能力以这个均匀的速度增长

00:17:51.104 --> 00:17:53.666
但是现在我们有了深度学习系统

00:17:53.666 --> 00:17:56.893
它的能力以指数方式增长

00:17:56.893 --> 00:17:58.498
我们现在在这

00:17:58.498 --> 00:18:00.559
目前，我们看周围的事物

00:18:00.559 --> 00:18:03.235
会说：“电脑还是很笨。”对吧？

00:18:03.235 --> 00:18:06.664
但是在五年内，电脑会超出这张图

00:18:06.664 --> 00:18:10.529
所以我们现在要开始考虑这样的能力了

NOTE Paragraph

00:18:10.529 --> 00:18:12.579
当然，我们曾经见过这个

00:18:12.579 --> 00:18:13.966
在工业革命时期

00:18:13.966 --> 00:18:16.817
发动机让生产力迈进一大步

00:18:17.667 --> 00:18:20.805
然而问题是，一段时间之后，形势转平了

00:18:20.805 --> 00:18:22.507
是由于社会的破坏

00:18:22.507 --> 00:18:25.946
但当发动机被普遍应用时

00:18:25.946 --> 00:18:28.300
一切都稳定下来了

00:18:28.300 --> 00:18:29.773
机器学习革命

00:18:29.773 --> 00:18:32.682
将和工业革命有很大不同

00:18:32.682 --> 00:18:35.632
因为机器学习革命不会停止

00:18:35.632 --> 00:18:38.614
电脑越擅长智能活动

00:18:38.614 --> 00:18:42.862
它们越能制造出更加擅长智能活动的电脑

00:18:42.862 --> 00:18:47.250
这将会是世界从未经历过的改变

00:18:47.250 --> 00:18:50.554
所以你之前理解的可能性是不一样的

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
这正在影响我们的生活

00:18:52.754 --> 00:18:56.384
在过去的25年里，随着资本生产力的增加

00:18:56.400 --> 00:19:00.588
劳动生产力在变缓，甚至下降

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
所以我希望可以发起大家的讨论

00:19:04.149 --> 00:19:07.176
我知道当我和人们讲述这样的处境时

00:19:07.176 --> 00:19:08.666
人们往往表现出不以为然

00:19:08.666 --> 00:19:10.339
电脑不会思考

00:19:10.339 --> 00:19:13.367
它们没有情感，也不懂诗

00:19:13.367 --> 00:19:15.888
它们甚至都不知道自己是如何运作的

00:19:15.888 --> 00:19:17.374
那又怎样？

00:19:17.374 --> 00:19:19.178
电脑现在可以做

00:19:19.178 --> 00:19:21.897
人类用大部分有偿的劳动时间做的事情

00:19:21.897 --> 00:19:23.628
所以现在该到我们思考

00:19:23.628 --> 00:19:28.015
我们将如何调整我们的社会结构和经济结构

00:19:28.015 --> 00:19:29.855
来应对新形势

00:19:29.855 --> 00:19:31.388
谢谢

00:19:31.388 --> 00:19:32.190
（鼓掌）