WEBVTT 00:00:00.880 --> 00:00:04.893 在过去,如果你想让计算机做一件事 00:00:04.893 --> 00:00:06.447 你需要设计电脑程序 00:00:06.447 --> 00:00:09.858 你们可能从没做过这件事 00:00:09.858 --> 00:00:19.010 编程需要排列出你想让电脑做的 每一个细枝末节的小步骤来达到你的目的 00:00:19.089 --> 00:00:22.585 假如你自己都不清楚完成这某件事的话 00:00:22.585 --> 00:00:24.648 要编写处电脑程序来完成那件事就会显得 比登天还要困难 NOTE Paragraph 00:00:24.648 --> 00:00:28.131 这也是这个人,亚瑟 塞缪尔,所面临的挑战 00:00:28.131 --> 00:00:34.468 在1956年,他想让这台电脑和他下国际象棋 00:00:34.548 --> 00:00:40.348 你怎样才能罗列出所有的细枝末节, 并且让电脑下象棋比你厉害? 00:00:40.394 --> 00:00:42.116 他想出一个办法 00:00:42.116 --> 00:00:45.840 它让电脑和自己对战几千次 00:00:45.840 --> 00:00:48.364 学习如何下象棋 00:00:48.364 --> 00:00:51.544 事实证明他做到了。1962年 00:00:51.544 --> 00:00:55.561 这台电脑打败了美国康涅狄克州象棋冠军 NOTE Paragraph 00:00:55.561 --> 00:00:58.534 亚瑟 塞缪尔是机器学习之父 00:00:58.534 --> 00:01:00.251 我非常敬畏他 00:01:00.251 --> 00:01:03.014 因为我是机器学习的实践者 00:01:03.014 --> 00:01:04.479 我曾是Kaggle的主席 00:01:04.479 --> 00:01:07.867 Kaggle是一个拥有200,000机器学习实践者地社区 00:01:07.867 --> 00:01:09.925 Kaggle会组织竞赛 00:01:09.925 --> 00:01:13.633 让人们尝试解决过去未解决的问题 00:01:13.633 --> 00:01:17.470 已成功解决问题几百次 00:01:17.470 --> 00:01:19.940 在这个有利环境中,我发现了 00:01:19.940 --> 00:01:26.190 机器学习在过去,现在,和将来可以做些什么 00:01:26.252 --> 00:01:30.675 第一个机器学习的商业成功案例应该是谷歌 00:01:30.675 --> 00:01:35.504 谷歌用计算机算法寻找信息 00:01:35.536 --> 00:01:38.437 而且这个算法以计算机学习为基础 00:01:38.437 --> 00:01:42.323 从那以后,机器学习得到了很多的商业成功 00:01:42.323 --> 00:01:44.160 像亚马逊、网飞这类公司 00:01:44.160 --> 00:01:47.876 通过机器学习向你推荐你可能想买的东西 00:01:47.876 --> 00:01:49.896 你可能想看的电影 00:01:49.896 --> 00:01:51.703 有时候你会被吓一跳 00:01:51.703 --> 00:01:53.657 像领英、脸谱这类的公司 00:01:53.657 --> 00:01:56.251 有时会告诉你谁会是你的朋友 00:01:56.251 --> 00:01:58.228 你根本不知道他们是如何做到的 00:01:58.228 --> 00:02:01.195 其实他们正是运用了机器学习的力量 00:02:01.195 --> 00:02:04.152 这种运算方法使用数据 00:02:04.152 --> 00:02:07.399 而非手动编写程序 NOTE Paragraph 00:02:07.399 --> 00:02:13.697 这也是IBM的Watson超级计算机 在《危险边缘》里打败两届世界冠军的秘诀 00:02:13.739 --> 00:02:16.964 成功回答了这样一个极其模糊且复杂的问题 00:02:16.964 --> 00:02:19.799 [“古代‘尼姆鲁德狮像’于2003年在这个城市的国家博物馆消失(连同其它很多物品)”] 00:02:19.799 --> 00:02:23.034 这也是为什么我们现在有了第一台自驾车 00:02:23.034 --> 00:02:25.856 如果你想区分一棵树和一个行人 00:02:25.856 --> 00:02:28.488 显然这很重要 00:02:28.488 --> 00:02:31.075 但是我们不知道如何写这样一个程序 00:02:31.075 --> 00:02:34.072 有了机器学习,这就成为了可能 00:02:34.072 --> 00:02:36.680 这台自驾车已经行驶了十万英里 00:02:36.680 --> 00:02:40.186 在正常路面上零事故 NOTE Paragraph 00:02:40.196 --> 00:02:44.110 我们知道电脑能够学习 00:02:44.110 --> 00:02:48.810 学习做一件有时我们自己都不知道怎么做的事情 00:02:48.848 --> 00:02:51.733 有时甚至比我们做得更好 00:02:51.733 --> 00:02:58.288 我见过机器学习最惊人的例子 是我在Kaggle做的一个项目 00:02:58.320 --> 00:03:03.431 一个叫杰弗里 辛顿的人毕业于多伦多大学, 带领一个团队 00:03:03.463 --> 00:03:06.140 赢得了一个自动查毒的竞赛 00:03:06.140 --> 00:03:12.967 然而真正精彩的不是他们打败了所有默克公司 或者国际学术团体设计的运算 00:03:13.000 --> 00:03:18.061 而是他们团队里没有一个人有化学、生物 或者生命科学的背景 00:03:18.061 --> 00:03:20.230 却在两个星期内赢得了比赛 00:03:20.230 --> 00:03:22.421 他们是如何做到的? 00:03:22.421 --> 00:03:25.342 他们应用了一种超凡的算法叫做深度学习 00:03:25.342 --> 00:03:31.401 几个星期后纽约时报在其首页 报道了此次的重要成功 00:03:31.412 --> 00:03:34.147 在左手边就是杰弗里 辛顿 00:03:34.147 --> 00:03:38.488 深度学习是受到人类大脑的启发 00:03:38.488 --> 00:03:44.120 也因此这种算法的能力不受任何理论限制 00:03:44.141 --> 00:03:46.964 你给它越多的数据和运算时间 00:03:46.964 --> 00:03:48.276 它会工作的越好 NOTE Paragraph 00:03:48.276 --> 00:03:52.865 纽约时报在其文章中 还说明了深度学习的另一非凡之处 00:03:52.865 --> 00:03:55.569 现在我要展示给你们看 00:03:55.569 --> 00:04:00.510 它表明电脑能够听懂信息 NOTE Paragraph 00:04:00.510 --> 00:04:06.221 (视频)理查德 拉希德:现在, 我要做的最后一步是 00:04:06.246 --> 00:04:10.961 用汉语和大家说话 00:04:10.986 --> 00:04:18.598 在这之前,我们已经通过很多说汉语的人 收集了大量信息 00:04:18.598 --> 00:04:21.128 然后形成一个语音合成系统 00:04:21.128 --> 00:04:25.801 把汉字转换成汉语言 00:04:25.801 --> 00:04:29.929 之后我们收录了一个小时我的声音 00:04:29.929 --> 00:04:36.330 使声音合成系统的声音听起来像我 00:04:36.364 --> 00:04:38.904 再次,结果并不完美 00:04:38.904 --> 00:04:41.552 他们会有不少错误 00:04:41.552 --> 00:04:44.036 (中文) 00:04:44.036 --> 00:04:49.443 (掌声) 00:04:49.446 --> 00:04:53.022 在这个领域还有很多工作要做 00:04:53.022 --> 00:04:56.667 (中文) 00:04:56.667 --> 00:05:01.340 (掌声) NOTE Paragraph 00:05:01.345 --> 00:05:04.744 杰里米 霍华德:这是在一个中国的机器学习会议上 00:05:04.744 --> 00:05:08.994 事实上,一般来说,你不会在学术会议上 听到如此热烈的掌声 00:05:09.011 --> 00:05:12.687 当然除了TEDx演讲可以随意鼓掌 00:05:12.687 --> 00:05:15.482 你所看到的一切都伴随着深入学习 00:05:15.482 --> 00:05:17.007 (掌声)谢谢 00:05:17.007 --> 00:05:19.289 对英文的转录是深入学习 00:05:19.289 --> 00:05:22.701 翻译成汉语以及屏幕右上方的文字是深入学习 00:05:22.701 --> 00:05:26.008 声音的合成也是深入学习 NOTE Paragraph 00:05:26.008 --> 00:05:29.242 深入学习就是这样神奇的事情 00:05:29.242 --> 00:05:32.341 这个单一的算法似乎可以做任何事情 00:05:32.341 --> 00:05:35.452 而且一年前我发现他甚至有视觉 00:05:35.452 --> 00:05:37.628 这个名不见经传的德国竞赛 00:05:37.628 --> 00:05:40.225 叫做德国交通标志识别基准 00:05:40.225 --> 00:05:43.618 深度学习已学得识别这些交通标识 00:05:43.618 --> 00:05:47.472 它不仅能够做的比其它算法好 00:05:47.472 --> 00:05:50.189 排行榜显示它比人更厉害 00:05:50.189 --> 00:05:52.041 是人的准确率的两倍 00:05:52.041 --> 00:05:57.417 到2011年,我们有了第一台视力高于人类的电脑 00:05:57.442 --> 00:05:59.491 从此更多的电脑也可以做到 00:05:59.491 --> 00:06:04.385 在2012年,谷歌宣布让一个深度学习的算法看YouTube视频 00:06:04.420 --> 00:06:07.857 收集16,000台电脑上的数据,为期一个月 00:06:07.857 --> 00:06:13.998 之后电脑便能仅通过看视频独立识别人和猫 00:06:14.027 --> 00:06:16.379 这近似于人类学习的过程 00:06:16.379 --> 00:06:19.119 人类不需要被告诉他们看到了什么 00:06:19.119 --> 00:06:22.450 而是在自己认知事物的过程中学习 00:06:22.450 --> 00:06:25.819 同样在2012年,杰弗里 辛顿,我们之前看到的人 00:06:25.819 --> 00:06:28.677 赢了很火的ImageNet比赛 00:06:28.677 --> 00:06:34.218 分辨出150万张图片的内容 00:06:34.256 --> 00:06:39.209 到2014年,我们已经将图像识别的误差 降低到百分之六 00:06:39.242 --> 00:06:41.268 低于人类误差率 NOTE Paragraph 00:06:41.268 --> 00:06:47.277 这项非凡的工作现在已经用于工业 00:06:47.306 --> 00:06:50.348 比如说,去年谷歌声明 00:06:50.348 --> 00:06:54.933 他们在两小时内把法国的每一个地点汇成地图 00:06:54.933 --> 00:07:02.660 他们是将街景填入深度学习算法以辨认街道号 00:07:02.699 --> 00:07:08.259 可以想象从前这件事要花费多少时间和精力 00:07:08.274 --> 00:07:10.185 同样的事情也发生在中国 00:07:10.185 --> 00:07:14.221 百度大概类似于中国的谷歌 00:07:14.221 --> 00:07:16.504 我们看到左上角 00:07:16.504 --> 00:07:20.478 是一张我上传到百度的深度学习系统的图片 00:07:20.478 --> 00:07:24.247 下面你可以看到系统理解了这张照片 00:07:24.247 --> 00:07:26.483 并且找到了类似的图片 00:07:26.483 --> 00:07:29.219 同样的背景 00:07:29.219 --> 00:07:30.877 同样的角度 00:07:30.877 --> 00:07:32.665 有的甚至也有伸出来的舌头 00:07:32.665 --> 00:07:35.695 网页上没有准确的文字 00:07:35.695 --> 00:07:37.107 我只是上传了图片 00:07:37.107 --> 00:07:41.128 所以说电脑能够真正理解它所看到的事物 00:07:41.128 --> 00:07:46.292 进而在数据库的几百万张图片中进行实时搜索 NOTE Paragraph 00:07:46.312 --> 00:07:49.536 就现在而言,电脑的视力意味着什么呢? 00:07:49.536 --> 00:07:51.553 事实上不仅仅是电脑能够看见 00:07:51.553 --> 00:07:53.622 深度学习其实可以做得更多 00:07:53.622 --> 00:07:56.570 像这样一个细小复杂的语句 00:07:56.570 --> 00:07:59.394 对深度学习来说是相对易于理解的 00:07:59.394 --> 00:08:00.697 你可以看到 00:08:00.697 --> 00:08:07.345 斯坦福基础系统显示上面的红点指出 这个语句表达的是否定语气 00:08:07.384 --> 00:08:15.900 深度学习在理解语句内容方面已经接近人类水平 00:08:15.923 --> 00:08:21.781 同样,深度学习在用于阅读汉语上已经相当于中国本土人水平 00:08:21.807 --> 00:08:23.975 这个算法开发于瑞士 00:08:23.975 --> 00:08:27.331 没有一个人懂汉语 00:08:27.331 --> 00:08:36.682 要我说,深度学习是比较于人类 做这件事最好的系统 NOTE Paragraph 00:08:36.718 --> 00:08:39.682 这个系统是在我们公司建立的 00:08:39.682 --> 00:08:41.728 它要把这些东西集合起来 00:08:41.728 --> 00:08:44.189 这些图片没有文字描述 00:08:44.189 --> 00:08:46.541 随着我在这输入文字 00:08:46.541 --> 00:08:49.510 同时它会了解这些图片 00:08:49.510 --> 00:08:51.189 理解它们是关于什么的 00:08:51.189 --> 00:08:54.352 然后找出和这些相似的图片 00:08:54.352 --> 00:08:57.108 所以你看,他真正在理解我的文字 00:08:57.108 --> 00:08:59.332 理解这些图片 00:08:59.332 --> 00:09:01.891 我知道你在谷歌上看到过类似的 00:09:01.891 --> 00:09:04.666 你可以输入文字,它会提供给你图片 00:09:04.666 --> 00:09:08.090 但实际上它是在网页上搜索文字 00:09:08.090 --> 00:09:11.091 这和理解图片是有很大不同的 00:09:11.091 --> 00:09:17.053 理解图片是电脑在过去几个月里才刚刚会做的事情 NOTE Paragraph 00:09:17.091 --> 00:09:21.182 电脑不仅有视力,而且能够阅读 00:09:21.182 --> 00:09:24.947 而且当然,电脑也能理解所听到的 00:09:24.947 --> 00:09:28.389 也许并不意外,我现在要告诉你们,电脑也可以写 00:09:28.389 --> 00:09:33.172 这是我昨天用深度学习算法写的文字 00:09:33.172 --> 00:09:37.096 这些是斯坦福的算法做的 00:09:37.096 --> 00:09:43.110 每一句话都是深度学习算法对图片进行的描述 00:09:43.110 --> 00:09:47.581 算法没见过一个穿黑衣服的男人弹吉他 00:09:47.581 --> 00:09:49.801 它见过男人,见过黑色 00:09:49.801 --> 00:09:51.400 见过吉他 00:09:51.400 --> 00:09:55.694 它便自己对这个图片作出了这样的描述 00:09:55.694 --> 00:09:59.196 我们还做不到完全和人类同等水平, 但我们已经很接近了 00:09:59.196 --> 00:10:04.774 统计表明,四分之一的人更喜欢电脑做的图片说明 00:10:04.791 --> 00:10:06.855 目前这个系统刚被开发两周之久 00:10:06.855 --> 00:10:08.701 所以按这个速度,估计明年 00:10:08.701 --> 00:10:13.352 电脑算法会超过人类水平 00:10:13.364 --> 00:10:16.413 电脑会写 NOTE Paragraph 00:10:16.413 --> 00:10:19.888 我们把这些都放在一起,会发现一个令人兴奋的机遇 00:10:19.888 --> 00:10:21.380 比如说,在医药业 00:10:21.380 --> 00:10:23.905 一个波士顿团队宣布 00:10:23.905 --> 00:10:26.854 他们发现了肿瘤的几十种临床表现 00:10:26.854 --> 00:10:31.120 帮助医生预测癌症 00:10:32.220 --> 00:10:34.516 同样的,在斯坦福 00:10:34.516 --> 00:10:38.179 一个团队宣布通过用放大镜观察组织 00:10:38.179 --> 00:10:40.560 开发了一个基于机器学习的系统 00:10:40.560 --> 00:10:47.502 可以比病理学家更有效地预测癌症患者的幸存率 00:10:47.519 --> 00:10:50.764 在这两个例子中,不仅预测更加准确 00:10:50.764 --> 00:10:53.266 而且他们创造了新的科学视角 00:10:53.276 --> 00:10:54.781 在放射学中 00:10:54.781 --> 00:10:57.876 新视角是人类可以明白的新临床表现 00:10:57.876 --> 00:10:59.668 在病理学中 00:10:59.668 --> 00:11:04.168 电脑发现癌细胞周围的细胞 00:11:04.168 --> 00:11:09.238 在诊断中同癌细胞一样重要 00:11:09.260 --> 00:11:14.621 这和病理学家几十年来的教学是相反的 00:11:14.621 --> 00:11:17.913 这两个案例中的系统都是由 00:11:17.913 --> 00:11:21.534 医学专家和机器学习专家共同开发的 00:11:21.534 --> 00:11:24.275 去年我们就已经超过了这个水平 00:11:24.275 --> 00:11:30.334 这个是用显微镜识别组织癌变区的例子 00:11:30.354 --> 00:11:34.967 所显示的这个系统能够与病理学专家同样准确地识别癌变区 00:11:34.967 --> 00:11:37.742 甚至比病理专家更准确 00:11:37.742 --> 00:11:41.134 但是建立系统的都是深度学习的专家 00:11:41.134 --> 00:11:43.660 没有一个医学专家 00:11:44.730 --> 00:11:47.285 类似的,这是神经细胞分裂 00:11:47.285 --> 00:11:50.953 我们已经可以和人类一样准确地分裂细胞 00:11:50.953 --> 00:11:53.670 但这是个深度学习系统 00:11:53.670 --> 00:11:56.921 没有一个开发者拥有医学背景 NOTE Paragraph 00:11:56.921 --> 00:12:00.148 对于我这个完全没有医学背景的人来说 00:12:00.148 --> 00:12:03.875 看起来我也完全可以开一个医药公司 00:12:03.875 --> 00:12:06.021 我确实这么做了 00:12:06.021 --> 00:12:07.761 我开始有点不知所措 00:12:07.761 --> 00:12:10.650 但理论上说这件事是可行的 00:12:10.650 --> 00:12:16.142 用这些数据分析技术制作医药 00:12:16.142 --> 00:12:18.622 所幸的是,反响非常好 00:12:18.622 --> 00:12:20.978 不仅是媒体的,包括医药行业 00:12:20.978 --> 00:12:23.322 都很支持 00:12:23.322 --> 00:12:27.471 理论表明我们可以将制药的中间过程 00:12:27.471 --> 00:12:30.364 充分转换成数据分析 00:12:30.364 --> 00:12:33.429 让医生去做他们最擅长的 00:12:33.429 --> 00:12:35.031 我有一个例子 00:12:35.031 --> 00:12:39.975 制作一个医学诊断测试需要十五分钟 00:12:39.975 --> 00:12:41.929 我会给你们实际展示 00:12:41.929 --> 00:12:45.416 但是我去掉了一部分,把它压缩到了三分钟 00:12:45.416 --> 00:12:48.477 不要医学诊断试验 00:12:48.477 --> 00:12:51.846 我要给你们展示制作一个汽车图片的诊断测试 00:12:51.846 --> 00:12:54.068 因为这个我们都能懂 NOTE Paragraph 00:12:54.068 --> 00:12:57.269 现在我们有150万张汽车图片 00:12:57.269 --> 00:13:02.695 我想要根据拍照的角度对他们进行分类 00:13:02.698 --> 00:13:06.586 这些图片完全没有标签,所以我要先对他们进行简单描述 00:13:06.586 --> 00:13:08.451 有深度学习算法 00:13:08.451 --> 00:13:12.158 它可以自动识别图片的结构要素 00:13:12.158 --> 00:13:15.778 令人高兴的是人和电脑可以合作 00:13:15.778 --> 00:13:17.956 你可以看到,这个人 00:13:17.956 --> 00:13:20.631 正在告诉电脑什么是感兴趣的要素 00:13:20.631 --> 00:13:25.281 为之后电脑用来完善算法 00:13:25.281 --> 00:13:29.577 现在,这些深度学习算法处在16,000维空间中 00:13:29.577 --> 00:13:33.009 所以你看到电脑让他们在这个空间中旋转 00:13:33.009 --> 00:13:35.001 尝试找到新的结构要素 00:13:35.001 --> 00:13:36.782 当他成功时 00:13:36.782 --> 00:13:40.786 开车的人就可以指出感兴趣的要素 00:13:40.786 --> 00:13:43.208 现在电脑成功找出这些要素 00:13:43.208 --> 00:13:45.770 比如,角度 00:13:45.770 --> 00:13:47.376 我们在这个过程中 00:13:47.376 --> 00:13:49.716 逐渐的告诉电脑更多 00:13:49.716 --> 00:13:52.144 我们想寻找的结构 00:13:52.144 --> 00:13:53.916 你可以想象一个诊断测试 00:13:53.916 --> 00:13:57.266 这就像是病理学家识别病态区域 00:13:57.266 --> 00:14:02.292 或者放射学专家找出潜在的问题囊肿 00:14:02.292 --> 00:14:04.851 有时候这对算法来说有些难度 00:14:04.851 --> 00:14:06.815 我们的例子就比较麻烦 00:14:06.815 --> 00:14:09.365 车的正面和背面全部混淆了 00:14:09.365 --> 00:14:11.437 所以我们要仔细一些 00:14:11.437 --> 00:14:14.669 人工地选出正面和背面 00:14:14.669 --> 00:14:21.505 人后告诉电脑这是我们所感兴趣的一类 NOTE Paragraph 00:14:21.523 --> 00:14:24.200 做这件事花了一些时间,所以我们跳过 00:14:24.200 --> 00:14:28.406 之后我们用这几百个东西训练机器学习算法 00:14:28.420 --> 00:14:30.445 希望他会有很大进步 00:14:30.445 --> 00:14:33.518 你能看到,它正在消退一些图片 00:14:33.518 --> 00:14:38.226 说明他已经开始可以自己理解这些图片了 00:14:38.226 --> 00:14:41.128 我们可以用相似图片的概念 00:14:41.128 --> 00:14:43.222 用相似的图片,你可以看到 00:14:43.222 --> 00:14:47.241 电脑现在能够只找出正面的车 00:14:47.241 --> 00:14:50.189 在这个时候,人可以告诉电脑 00:14:50.189 --> 00:14:52.482 对的,没错,你做的很好 NOTE Paragraph 00:14:53.652 --> 00:14:55.837 当然,有时,即使在这个阶段 00:14:55.837 --> 00:14:59.511 分组仍然是很困难的 00:14:59.511 --> 00:15:03.395 像我们这里,让电脑在这里旋转了一段时间了 00:15:03.399 --> 00:15:08.204 我们还是看到左面的和右面的图片有混淆 00:15:08.222 --> 00:15:10.362 所以我们可以再一次给电脑一些提示 00:15:10.362 --> 00:15:18.048 我们让它通过深度学习算法尽可能分离出左面和右面的图片 00:15:18.067 --> 00:15:21.009 有了这个指示——好的,它已经完成了 00:15:21.009 --> 00:15:26.261 它要想办法分开这一部分 NOTE Paragraph 00:15:26.271 --> 00:15:28.709 你现在知道了 00:15:28.709 --> 00:15:36.906 这不是电脑取代人类 00:15:36.906 --> 00:15:39.546 而是一起合作 00:15:39.546 --> 00:15:45.076 我们在做的是将过去需要五六人的团队 用七年时间做的事情 00:15:45.098 --> 00:15:50.203 变成只需一个人花十五分钟就能完成 NOTE Paragraph 00:15:50.208 --> 00:15:54.158 这个过程需要四到五次反复 00:15:54.158 --> 00:15:58.967 你可以看到我们已经将150万张图片的62%正确分类 00:15:58.976 --> 00:16:02.728 现在我们就可以快速地检查整个分组 00:16:02.745 --> 00:16:05.664 确保没有错误 00:16:05.664 --> 00:16:09.616 如果哪里有错误,我们可以告诉电脑 00:16:09.616 --> 00:16:12.661 每个分组我们都这样做 00:16:12.661 --> 00:16:17.538 现在这150万张图片已经达到80%的成功率 00:16:17.563 --> 00:16:19.641 现在这个阶段 00:16:19.641 --> 00:16:23.220 只需要找出几个不正确的分类 00:16:23.220 --> 00:16:26.108 并让电脑明白为什么 00:16:26.108 --> 00:16:27.851 到了这个步骤 00:16:27.851 --> 00:16:31.972 十五分钟后我们达到了97%的正确率 NOTE Paragraph 00:16:31.972 --> 00:16:36.572 这种技术能帮助我们解决一个问题 00:16:36.578 --> 00:16:39.614 医疗专家不足的问题 00:16:39.614 --> 00:16:45.713 世界经济论坛表明,在发展中国家, 内科医生有十倍到二十倍的短缺 00:16:45.727 --> 00:16:50.720 而弥补这一短缺需要300年的时间 00:16:50.734 --> 00:16:56.439 所以想象一下,是否我们能够用深度学习的方法 帮助他们提高效率? NOTE Paragraph 00:16:56.459 --> 00:16:58.690 我对这个机会表示很激动 00:16:58.690 --> 00:17:01.279 我同样的担心一些问题 00:17:01.279 --> 00:17:04.403 问题是在这张地图上的蓝色区域内 00:17:04.403 --> 00:17:08.172 服务占就业的80%以上 00:17:08.172 --> 00:17:09.959 什么是服务? 00:17:09.959 --> 00:17:11.473 这些是服务 00:17:11.473 --> 00:17:15.627 这些也是电脑才刚刚开始学习的事情 00:17:15.627 --> 00:17:19.431 也就是说世界上发达国家的80%的就业 00:17:19.431 --> 00:17:21.963 是电脑刚开始学习的 00:17:21.963 --> 00:17:23.403 这是什么意思? 00:17:23.403 --> 00:17:25.986 其实也没什么大不了的,他们会被其他职业替代 00:17:25.986 --> 00:17:28.693 比如说会有更多的数据学家 00:17:28.693 --> 00:17:29.510 也不尽然 00:17:29.510 --> 00:17:32.628 数据学家不需要太久的时间做这些事 00:17:32.628 --> 00:17:35.880 比如这四个算法都是同时一个人开发的 00:17:35.880 --> 00:17:38.318 如果你认为这些曾经都发生过 00:17:38.318 --> 00:17:42.126 我们看到过新的事物出现 00:17:42.126 --> 00:17:44.378 然后被新的职业所取代 00:17:44.378 --> 00:17:46.494 那这些新的职业又会是什么? 00:17:46.494 --> 00:17:48.365 很难做出估计 00:17:48.365 --> 00:17:51.104 因为人的能力以这个均匀的速度增长 00:17:51.104 --> 00:17:53.666 但是现在我们有了深度学习系统 00:17:53.666 --> 00:17:56.893 它的能力以指数方式增长 00:17:56.893 --> 00:17:58.498 我们现在在这 00:17:58.498 --> 00:18:00.559 目前,我们看周围的事物 00:18:00.559 --> 00:18:03.235 会说:“电脑还是很笨。”对吧? 00:18:03.235 --> 00:18:06.664 但是在五年内,电脑会超出这张图 00:18:06.664 --> 00:18:10.529 所以我们现在要开始考虑这样的能力了 NOTE Paragraph 00:18:10.529 --> 00:18:12.579 当然,我们曾经见过这个 00:18:12.579 --> 00:18:13.966 在工业革命时期 00:18:13.966 --> 00:18:16.817 发动机让生产力迈进一大步 00:18:17.667 --> 00:18:20.805 然而问题是,一段时间之后,形势转平了 00:18:20.805 --> 00:18:22.507 是由于社会的破坏 00:18:22.507 --> 00:18:25.946 但当发动机被普遍应用时 00:18:25.946 --> 00:18:28.300 一切都稳定下来了 00:18:28.300 --> 00:18:29.773 机器学习革命 00:18:29.773 --> 00:18:32.682 将和工业革命有很大不同 00:18:32.682 --> 00:18:35.632 因为机器学习革命不会停止 00:18:35.632 --> 00:18:38.614 电脑越擅长智能活动 00:18:38.614 --> 00:18:42.862 它们越能制造出更加擅长智能活动的电脑 00:18:42.862 --> 00:18:47.250 这将会是世界从未经历过的改变 00:18:47.250 --> 00:18:50.554 所以你之前理解的可能性是不一样的 NOTE Paragraph 00:18:50.974 --> 00:18:52.754 这正在影响我们的生活 00:18:52.754 --> 00:18:56.384 在过去的25年里,随着资本生产力的增加 00:18:56.400 --> 00:19:00.588 劳动生产力在变缓,甚至下降 NOTE Paragraph 00:19:01.408 --> 00:19:04.149 所以我希望可以发起大家的讨论 00:19:04.149 --> 00:19:07.176 我知道当我和人们讲述这样的处境时 00:19:07.176 --> 00:19:08.666 人们往往表现出不以为然 00:19:08.666 --> 00:19:10.339 电脑不会思考 00:19:10.339 --> 00:19:13.367 它们没有情感,也不懂诗 00:19:13.367 --> 00:19:15.888 它们甚至都不知道自己是如何运作的 00:19:15.888 --> 00:19:17.374 那又怎样? 00:19:17.374 --> 00:19:19.178 电脑现在可以做 00:19:19.178 --> 00:19:21.897 人类用大部分有偿的劳动时间做的事情 00:19:21.897 --> 00:19:23.628 所以现在该到我们思考 00:19:23.628 --> 00:19:28.015 我们将如何调整我们的社会结构和经济结构 00:19:28.015 --> 00:19:29.855 来应对新形势 00:19:29.855 --> 00:19:31.388 谢谢 00:19:31.388 --> 00:19:32.190 (鼓掌)