1 00:00:00,880 --> 00:00:04,893 在过去,如果你想让计算机做一件事 2 00:00:04,893 --> 00:00:06,447 你需要设计电脑程序 3 00:00:06,447 --> 00:00:09,858 你们可能从没做过这件事 4 00:00:09,858 --> 00:00:19,010 编程需要排列出你想让电脑做的 每一个细枝末节的小步骤来达到你的目的 5 00:00:19,089 --> 00:00:22,585 假如你自己都不清楚完成这某件事的话 6 00:00:22,585 --> 00:00:24,648 要编写处电脑程序来完成那件事就会显得 比登天还要困难 7 00:00:24,648 --> 00:00:28,131 这也是这个人,亚瑟 塞缪尔,所面临的挑战 8 00:00:28,131 --> 00:00:34,468 在1956年,他想让这台电脑和他下国际象棋 9 00:00:34,548 --> 00:00:40,348 你怎样才能罗列出所有的细枝末节, 并且让电脑下象棋比你厉害? 10 00:00:40,394 --> 00:00:42,116 他想出一个办法 11 00:00:42,116 --> 00:00:45,840 它让电脑和自己对战几千次 12 00:00:45,840 --> 00:00:48,364 学习如何下象棋 13 00:00:48,364 --> 00:00:51,544 事实证明他做到了。1962年 14 00:00:51,544 --> 00:00:55,561 这台电脑打败了美国康涅狄克州象棋冠军 15 00:00:55,561 --> 00:00:58,534 亚瑟 塞缪尔是机器学习之父 16 00:00:58,534 --> 00:01:00,251 我非常敬畏他 17 00:01:00,251 --> 00:01:03,014 因为我是机器学习的实践者 18 00:01:03,014 --> 00:01:04,479 我曾是Kaggle的主席 19 00:01:04,479 --> 00:01:07,867 Kaggle是一个拥有200,000机器学习实践者地社区 20 00:01:07,867 --> 00:01:09,925 Kaggle会组织竞赛 21 00:01:09,925 --> 00:01:13,633 让人们尝试解决过去未解决的问题 22 00:01:13,633 --> 00:01:17,470 已成功解决问题几百次 23 00:01:17,470 --> 00:01:19,940 在这个有利环境中,我发现了 24 00:01:19,940 --> 00:01:26,190 机器学习在过去,现在,和将来可以做些什么 25 00:01:26,252 --> 00:01:30,675 第一个机器学习的商业成功案例应该是谷歌 26 00:01:30,675 --> 00:01:35,504 谷歌用计算机算法寻找信息 27 00:01:35,536 --> 00:01:38,437 而且这个算法以计算机学习为基础 28 00:01:38,437 --> 00:01:42,323 从那以后,机器学习得到了很多的商业成功 29 00:01:42,323 --> 00:01:44,160 像亚马逊、网飞这类公司 30 00:01:44,160 --> 00:01:47,876 通过机器学习向你推荐你可能想买的东西 31 00:01:47,876 --> 00:01:49,896 你可能想看的电影 32 00:01:49,896 --> 00:01:51,703 有时候你会被吓一跳 33 00:01:51,703 --> 00:01:53,657 像领英、脸谱这类的公司 34 00:01:53,657 --> 00:01:56,251 有时会告诉你谁会是你的朋友 35 00:01:56,251 --> 00:01:58,228 你根本不知道他们是如何做到的 36 00:01:58,228 --> 00:02:01,195 其实他们正是运用了机器学习的力量 37 00:02:01,195 --> 00:02:04,152 这种运算方法使用数据 38 00:02:04,152 --> 00:02:07,399 而非手动编写程序 39 00:02:07,399 --> 00:02:13,697 这也是IBM的Watson超级计算机 在《危险边缘》里打败两届世界冠军的秘诀 40 00:02:13,739 --> 00:02:16,964 成功回答了这样一个极其模糊且复杂的问题 41 00:02:16,964 --> 00:02:19,799 [“古代‘尼姆鲁德狮像’于2003年在这个城市的国家博物馆消失(连同其它很多物品)”] 42 00:02:19,799 --> 00:02:23,034 这也是为什么我们现在有了第一台自驾车 43 00:02:23,034 --> 00:02:25,856 如果你想区分一棵树和一个行人 44 00:02:25,856 --> 00:02:28,488 显然这很重要 45 00:02:28,488 --> 00:02:31,075 但是我们不知道如何写这样一个程序 46 00:02:31,075 --> 00:02:34,072 有了机器学习,这就成为了可能 47 00:02:34,072 --> 00:02:36,680 这台自驾车已经行驶了十万英里 48 00:02:36,680 --> 00:02:40,186 在正常路面上零事故 49 00:02:40,196 --> 00:02:44,110 我们知道电脑能够学习 50 00:02:44,110 --> 00:02:48,810 学习做一件有时我们自己都不知道怎么做的事情 51 00:02:48,848 --> 00:02:51,733 有时甚至比我们做得更好 52 00:02:51,733 --> 00:02:58,288 我见过机器学习最惊人的例子 是我在Kaggle做的一个项目 53 00:02:58,320 --> 00:03:03,431 一个叫杰弗里 辛顿的人毕业于多伦多大学, 带领一个团队 54 00:03:03,463 --> 00:03:06,140 赢得了一个自动查毒的竞赛 55 00:03:06,140 --> 00:03:12,967 然而真正精彩的不是他们打败了所有默克公司 或者国际学术团体设计的运算 56 00:03:13,000 --> 00:03:18,061 而是他们团队里没有一个人有化学、生物 或者生命科学的背景 57 00:03:18,061 --> 00:03:20,230 却在两个星期内赢得了比赛 58 00:03:20,230 --> 00:03:22,421 他们是如何做到的? 59 00:03:22,421 --> 00:03:25,342 他们应用了一种超凡的算法叫做深度学习 60 00:03:25,342 --> 00:03:31,401 几个星期后纽约时报在其首页 报道了此次的重要成功 61 00:03:31,412 --> 00:03:34,147 在左手边就是杰弗里 辛顿 62 00:03:34,147 --> 00:03:38,488 深度学习是受到人类大脑的启发 63 00:03:38,488 --> 00:03:44,120 也因此这种算法的能力不受任何理论限制 64 00:03:44,141 --> 00:03:46,964 你给它越多的数据和运算时间 65 00:03:46,964 --> 00:03:48,276 它会工作的越好 66 00:03:48,276 --> 00:03:52,865 纽约时报在其文章中 还说明了深度学习的另一非凡之处 67 00:03:52,865 --> 00:03:55,569 现在我要展示给你们看 68 00:03:55,569 --> 00:04:00,510 它表明电脑能够听懂信息 69 00:04:00,510 --> 00:04:06,221 (视频)理查德 拉希德:现在, 我要做的最后一步是 70 00:04:06,246 --> 00:04:10,961 用汉语和大家说话 71 00:04:10,986 --> 00:04:18,598 在这之前,我们已经通过很多说汉语的人 收集了大量信息 72 00:04:18,598 --> 00:04:21,128 然后形成一个语音合成系统 73 00:04:21,128 --> 00:04:25,801 把汉字转换成汉语言 74 00:04:25,801 --> 00:04:29,929 之后我们收录了一个小时我的声音 75 00:04:29,929 --> 00:04:36,330 使声音合成系统的声音听起来像我 76 00:04:36,364 --> 00:04:38,904 再次,结果并不完美 77 00:04:38,904 --> 00:04:41,552 他们会有不少错误 78 00:04:41,552 --> 00:04:44,036 (中文) 79 00:04:44,036 --> 00:04:49,443 (掌声) 80 00:04:49,446 --> 00:04:53,022 在这个领域还有很多工作要做 81 00:04:53,022 --> 00:04:56,667 (中文) 82 00:04:56,667 --> 00:05:01,340 (掌声) 83 00:05:01,345 --> 00:05:04,744 杰里米 霍华德:这是在一个中国的机器学习会议上 84 00:05:04,744 --> 00:05:08,994 事实上,一般来说,你不会在学术会议上 听到如此热烈的掌声 85 00:05:09,011 --> 00:05:12,687 当然除了TEDx演讲可以随意鼓掌 86 00:05:12,687 --> 00:05:15,482 你所看到的一切都伴随着深入学习 87 00:05:15,482 --> 00:05:17,007 (掌声)谢谢 88 00:05:17,007 --> 00:05:19,289 对英文的转录是深入学习 89 00:05:19,289 --> 00:05:22,701 翻译成汉语以及屏幕右上方的文字是深入学习 90 00:05:22,701 --> 00:05:26,008 声音的合成也是深入学习 91 00:05:26,008 --> 00:05:29,242 深入学习就是这样神奇的事情 92 00:05:29,242 --> 00:05:32,341 这个单一的算法似乎可以做任何事情 93 00:05:32,341 --> 00:05:35,452 而且一年前我发现他甚至有视觉 94 00:05:35,452 --> 00:05:37,628 这个名不见经传的德国竞赛 95 00:05:37,628 --> 00:05:40,225 叫做德国交通标志识别基准 96 00:05:40,225 --> 00:05:43,618 深度学习已学得识别这些交通标识 97 00:05:43,618 --> 00:05:47,472 它不仅能够做的比其它算法好 98 00:05:47,472 --> 00:05:50,189 排行榜显示它比人更厉害 99 00:05:50,189 --> 00:05:52,041 是人的准确率的两倍 100 00:05:52,041 --> 00:05:57,417 到2011年,我们有了第一台视力高于人类的电脑 101 00:05:57,442 --> 00:05:59,491 从此更多的电脑也可以做到 102 00:05:59,491 --> 00:06:04,385 在2012年,谷歌宣布让一个深度学习的算法看YouTube视频 103 00:06:04,420 --> 00:06:07,857 收集16,000台电脑上的数据,为期一个月 104 00:06:07,857 --> 00:06:13,998 之后电脑便能仅通过看视频独立识别人和猫 105 00:06:14,027 --> 00:06:16,379 这近似于人类学习的过程 106 00:06:16,379 --> 00:06:19,119 人类不需要被告诉他们看到了什么 107 00:06:19,119 --> 00:06:22,450 而是在自己认知事物的过程中学习 108 00:06:22,450 --> 00:06:25,819 同样在2012年,杰弗里 辛顿,我们之前看到的人 109 00:06:25,819 --> 00:06:28,677 赢了很火的ImageNet比赛 110 00:06:28,677 --> 00:06:34,218 分辨出150万张图片的内容 111 00:06:34,256 --> 00:06:39,209 到2014年,我们已经将图像识别的误差 降低到百分之六 112 00:06:39,242 --> 00:06:41,268 低于人类误差率 113 00:06:41,268 --> 00:06:47,277 这项非凡的工作现在已经用于工业 114 00:06:47,306 --> 00:06:50,348 比如说,去年谷歌声明 115 00:06:50,348 --> 00:06:54,933 他们在两小时内把法国的每一个地点汇成地图 116 00:06:54,933 --> 00:07:02,660 他们是将街景填入深度学习算法以辨认街道号 117 00:07:02,699 --> 00:07:08,259 可以想象从前这件事要花费多少时间和精力 118 00:07:08,274 --> 00:07:10,185 同样的事情也发生在中国 119 00:07:10,185 --> 00:07:14,221 百度大概类似于中国的谷歌 120 00:07:14,221 --> 00:07:16,504 我们看到左上角 121 00:07:16,504 --> 00:07:20,478 是一张我上传到百度的深度学习系统的图片 122 00:07:20,478 --> 00:07:24,247 下面你可以看到系统理解了这张照片 123 00:07:24,247 --> 00:07:26,483 并且找到了类似的图片 124 00:07:26,483 --> 00:07:29,219 同样的背景 125 00:07:29,219 --> 00:07:30,877 同样的角度 126 00:07:30,877 --> 00:07:32,665 有的甚至也有伸出来的舌头 127 00:07:32,665 --> 00:07:35,695 网页上没有准确的文字 128 00:07:35,695 --> 00:07:37,107 我只是上传了图片 129 00:07:37,107 --> 00:07:41,128 所以说电脑能够真正理解它所看到的事物 130 00:07:41,128 --> 00:07:46,292 进而在数据库的几百万张图片中进行实时搜索 131 00:07:46,312 --> 00:07:49,536 就现在而言,电脑的视力意味着什么呢? 132 00:07:49,536 --> 00:07:51,553 事实上不仅仅是电脑能够看见 133 00:07:51,553 --> 00:07:53,622 深度学习其实可以做得更多 134 00:07:53,622 --> 00:07:56,570 像这样一个细小复杂的语句 135 00:07:56,570 --> 00:07:59,394 对深度学习来说是相对易于理解的 136 00:07:59,394 --> 00:08:00,697 你可以看到 137 00:08:00,697 --> 00:08:07,345 斯坦福基础系统显示上面的红点指出 这个语句表达的是否定语气 138 00:08:07,384 --> 00:08:15,900 深度学习在理解语句内容方面已经接近人类水平 139 00:08:15,923 --> 00:08:21,781 同样,深度学习在用于阅读汉语上已经相当于中国本土人水平 140 00:08:21,807 --> 00:08:23,975 这个算法开发于瑞士 141 00:08:23,975 --> 00:08:27,331 没有一个人懂汉语 142 00:08:27,331 --> 00:08:36,682 要我说,深度学习是比较于人类 做这件事最好的系统 143 00:08:36,718 --> 00:08:39,682 这个系统是在我们公司建立的 144 00:08:39,682 --> 00:08:41,728 它要把这些东西集合起来 145 00:08:41,728 --> 00:08:44,189 这些图片没有文字描述 146 00:08:44,189 --> 00:08:46,541 随着我在这输入文字 147 00:08:46,541 --> 00:08:49,510 同时它会了解这些图片 148 00:08:49,510 --> 00:08:51,189 理解它们是关于什么的 149 00:08:51,189 --> 00:08:54,352 然后找出和这些相似的图片 150 00:08:54,352 --> 00:08:57,108 所以你看,他真正在理解我的文字 151 00:08:57,108 --> 00:08:59,332 理解这些图片 152 00:08:59,332 --> 00:09:01,891 我知道你在谷歌上看到过类似的 153 00:09:01,891 --> 00:09:04,666 你可以输入文字,它会提供给你图片 154 00:09:04,666 --> 00:09:08,090 但实际上它是在网页上搜索文字 155 00:09:08,090 --> 00:09:11,091 这和理解图片是有很大不同的 156 00:09:11,091 --> 00:09:17,053 理解图片是电脑在过去几个月里才刚刚会做的事情 157 00:09:17,091 --> 00:09:21,182 电脑不仅有视力,而且能够阅读 158 00:09:21,182 --> 00:09:24,947 而且当然,电脑也能理解所听到的 159 00:09:24,947 --> 00:09:28,389 也许并不意外,我现在要告诉你们,电脑也可以写 160 00:09:28,389 --> 00:09:33,172 这是我昨天用深度学习算法写的文字 161 00:09:33,172 --> 00:09:37,096 这些是斯坦福的算法做的 162 00:09:37,096 --> 00:09:43,110 每一句话都是深度学习算法对图片进行的描述 163 00:09:43,110 --> 00:09:47,581 算法没见过一个穿黑衣服的男人弹吉他 164 00:09:47,581 --> 00:09:49,801 它见过男人,见过黑色 165 00:09:49,801 --> 00:09:51,400 见过吉他 166 00:09:51,400 --> 00:09:55,694 它便自己对这个图片作出了这样的描述 167 00:09:55,694 --> 00:09:59,196 我们还做不到完全和人类同等水平, 但我们已经很接近了 168 00:09:59,196 --> 00:10:04,774 统计表明,四分之一的人更喜欢电脑做的图片说明 169 00:10:04,791 --> 00:10:06,855 目前这个系统刚被开发两周之久 170 00:10:06,855 --> 00:10:08,701 所以按这个速度,估计明年 171 00:10:08,701 --> 00:10:13,352 电脑算法会超过人类水平 172 00:10:13,364 --> 00:10:16,413 电脑会写 173 00:10:16,413 --> 00:10:19,888 我们把这些都放在一起,会发现一个令人兴奋的机遇 174 00:10:19,888 --> 00:10:21,380 比如说,在医药业 175 00:10:21,380 --> 00:10:23,905 一个波士顿团队宣布 176 00:10:23,905 --> 00:10:26,854 他们发现了肿瘤的几十种临床表现 177 00:10:26,854 --> 00:10:31,120 帮助医生预测癌症 178 00:10:32,220 --> 00:10:34,516 同样的,在斯坦福 179 00:10:34,516 --> 00:10:38,179 一个团队宣布通过用放大镜观察组织 180 00:10:38,179 --> 00:10:40,560 开发了一个基于机器学习的系统 181 00:10:40,560 --> 00:10:47,502 可以比病理学家更有效地预测癌症患者的幸存率 182 00:10:47,519 --> 00:10:50,764 在这两个例子中,不仅预测更加准确 183 00:10:50,764 --> 00:10:53,266 而且他们创造了新的科学视角 184 00:10:53,276 --> 00:10:54,781 在放射学中 185 00:10:54,781 --> 00:10:57,876 新视角是人类可以明白的新临床表现 186 00:10:57,876 --> 00:10:59,668 在病理学中 187 00:10:59,668 --> 00:11:04,168 电脑发现癌细胞周围的细胞 188 00:11:04,168 --> 00:11:09,238 在诊断中同癌细胞一样重要 189 00:11:09,260 --> 00:11:14,621 这和病理学家几十年来的教学是相反的 190 00:11:14,621 --> 00:11:17,913 这两个案例中的系统都是由 191 00:11:17,913 --> 00:11:21,534 医学专家和机器学习专家共同开发的 192 00:11:21,534 --> 00:11:24,275 去年我们就已经超过了这个水平 193 00:11:24,275 --> 00:11:30,334 这个是用显微镜识别组织癌变区的例子 194 00:11:30,354 --> 00:11:34,967 所显示的这个系统能够与病理学专家同样准确地识别癌变区 195 00:11:34,967 --> 00:11:37,742 甚至比病理专家更准确 196 00:11:37,742 --> 00:11:41,134 但是建立系统的都是深度学习的专家 197 00:11:41,134 --> 00:11:43,660 没有一个医学专家 198 00:11:44,730 --> 00:11:47,285 类似的,这是神经细胞分裂 199 00:11:47,285 --> 00:11:50,953 我们已经可以和人类一样准确地分裂细胞 200 00:11:50,953 --> 00:11:53,670 但这是个深度学习系统 201 00:11:53,670 --> 00:11:56,921 没有一个开发者拥有医学背景 202 00:11:56,921 --> 00:12:00,148 对于我这个完全没有医学背景的人来说 203 00:12:00,148 --> 00:12:03,875 看起来我也完全可以开一个医药公司 204 00:12:03,875 --> 00:12:06,021 我确实这么做了 205 00:12:06,021 --> 00:12:07,761 我开始有点不知所措 206 00:12:07,761 --> 00:12:10,650 但理论上说这件事是可行的 207 00:12:10,650 --> 00:12:16,142 用这些数据分析技术制作医药 208 00:12:16,142 --> 00:12:18,622 所幸的是,反响非常好 209 00:12:18,622 --> 00:12:20,978 不仅是媒体的,包括医药行业 210 00:12:20,978 --> 00:12:23,322 都很支持 211 00:12:23,322 --> 00:12:27,471 理论表明我们可以将制药的中间过程 212 00:12:27,471 --> 00:12:30,364 充分转换成数据分析 213 00:12:30,364 --> 00:12:33,429 让医生去做他们最擅长的 214 00:12:33,429 --> 00:12:35,031 我有一个例子 215 00:12:35,031 --> 00:12:39,975 制作一个医学诊断测试需要十五分钟 216 00:12:39,975 --> 00:12:41,929 我会给你们实际展示 217 00:12:41,929 --> 00:12:45,416 但是我去掉了一部分,把它压缩到了三分钟 218 00:12:45,416 --> 00:12:48,477 不要医学诊断试验 219 00:12:48,477 --> 00:12:51,846 我要给你们展示制作一个汽车图片的诊断测试 220 00:12:51,846 --> 00:12:54,068 因为这个我们都能懂 221 00:12:54,068 --> 00:12:57,269 现在我们有150万张汽车图片 222 00:12:57,269 --> 00:13:02,695 我想要根据拍照的角度对他们进行分类 223 00:13:02,698 --> 00:13:06,586 这些图片完全没有标签,所以我要先对他们进行简单描述 224 00:13:06,586 --> 00:13:08,451 有深度学习算法 225 00:13:08,451 --> 00:13:12,158 它可以自动识别图片的结构要素 226 00:13:12,158 --> 00:13:15,778 令人高兴的是人和电脑可以合作 227 00:13:15,778 --> 00:13:17,956 你可以看到,这个人 228 00:13:17,956 --> 00:13:20,631 正在告诉电脑什么是感兴趣的要素 229 00:13:20,631 --> 00:13:25,281 为之后电脑用来完善算法 230 00:13:25,281 --> 00:13:29,577 现在,这些深度学习算法处在16,000维空间中 231 00:13:29,577 --> 00:13:33,009 所以你看到电脑让他们在这个空间中旋转 232 00:13:33,009 --> 00:13:35,001 尝试找到新的结构要素 233 00:13:35,001 --> 00:13:36,782 当他成功时 234 00:13:36,782 --> 00:13:40,786 开车的人就可以指出感兴趣的要素 235 00:13:40,786 --> 00:13:43,208 现在电脑成功找出这些要素 236 00:13:43,208 --> 00:13:45,770 比如,角度 237 00:13:45,770 --> 00:13:47,376 我们在这个过程中 238 00:13:47,376 --> 00:13:49,716 逐渐的告诉电脑更多 239 00:13:49,716 --> 00:13:52,144 我们想寻找的结构 240 00:13:52,144 --> 00:13:53,916 你可以想象一个诊断测试 241 00:13:53,916 --> 00:13:57,266 这就像是病理学家识别病态区域 242 00:13:57,266 --> 00:14:02,292 或者放射学专家找出潜在的问题囊肿 243 00:14:02,292 --> 00:14:04,851 有时候这对算法来说有些难度 244 00:14:04,851 --> 00:14:06,815 我们的例子就比较麻烦 245 00:14:06,815 --> 00:14:09,365 车的正面和背面全部混淆了 246 00:14:09,365 --> 00:14:11,437 所以我们要仔细一些 247 00:14:11,437 --> 00:14:14,669 人工地选出正面和背面 248 00:14:14,669 --> 00:14:21,505 人后告诉电脑这是我们所感兴趣的一类 249 00:14:21,523 --> 00:14:24,200 做这件事花了一些时间,所以我们跳过 250 00:14:24,200 --> 00:14:28,406 之后我们用这几百个东西训练机器学习算法 251 00:14:28,420 --> 00:14:30,445 希望他会有很大进步 252 00:14:30,445 --> 00:14:33,518 你能看到,它正在消退一些图片 253 00:14:33,518 --> 00:14:38,226 说明他已经开始可以自己理解这些图片了 254 00:14:38,226 --> 00:14:41,128 我们可以用相似图片的概念 255 00:14:41,128 --> 00:14:43,222 用相似的图片,你可以看到 256 00:14:43,222 --> 00:14:47,241 电脑现在能够只找出正面的车 257 00:14:47,241 --> 00:14:50,189 在这个时候,人可以告诉电脑 258 00:14:50,189 --> 00:14:52,482 对的,没错,你做的很好 259 00:14:53,652 --> 00:14:55,837 当然,有时,即使在这个阶段 260 00:14:55,837 --> 00:14:59,511 分组仍然是很困难的 261 00:14:59,511 --> 00:15:03,395 像我们这里,让电脑在这里旋转了一段时间了 262 00:15:03,399 --> 00:15:08,204 我们还是看到左面的和右面的图片有混淆 263 00:15:08,222 --> 00:15:10,362 所以我们可以再一次给电脑一些提示 264 00:15:10,362 --> 00:15:18,048 我们让它通过深度学习算法尽可能分离出左面和右面的图片 265 00:15:18,067 --> 00:15:21,009 有了这个指示——好的,它已经完成了 266 00:15:21,009 --> 00:15:26,261 它要想办法分开这一部分 267 00:15:26,271 --> 00:15:28,709 你现在知道了 268 00:15:28,709 --> 00:15:36,906 这不是电脑取代人类 269 00:15:36,906 --> 00:15:39,546 而是一起合作 270 00:15:39,546 --> 00:15:45,076 我们在做的是将过去需要五六人的团队 用七年时间做的事情 271 00:15:45,098 --> 00:15:50,203 变成只需一个人花十五分钟就能完成 272 00:15:50,208 --> 00:15:54,158 这个过程需要四到五次反复 273 00:15:54,158 --> 00:15:58,967 你可以看到我们已经将150万张图片的62%正确分类 274 00:15:58,976 --> 00:16:02,728 现在我们就可以快速地检查整个分组 275 00:16:02,745 --> 00:16:05,664 确保没有错误 276 00:16:05,664 --> 00:16:09,616 如果哪里有错误,我们可以告诉电脑 277 00:16:09,616 --> 00:16:12,661 每个分组我们都这样做 278 00:16:12,661 --> 00:16:17,538 现在这150万张图片已经达到80%的成功率 279 00:16:17,563 --> 00:16:19,641 现在这个阶段 280 00:16:19,641 --> 00:16:23,220 只需要找出几个不正确的分类 281 00:16:23,220 --> 00:16:26,108 并让电脑明白为什么 282 00:16:26,108 --> 00:16:27,851 到了这个步骤 283 00:16:27,851 --> 00:16:31,972 十五分钟后我们达到了97%的正确率 284 00:16:31,972 --> 00:16:36,572 这种技术能帮助我们解决一个问题 285 00:16:36,578 --> 00:16:39,614 医疗专家不足的问题 286 00:16:39,614 --> 00:16:45,713 世界经济论坛表明,在发展中国家, 内科医生有十倍到二十倍的短缺 287 00:16:45,727 --> 00:16:50,720 而弥补这一短缺需要300年的时间 288 00:16:50,734 --> 00:16:56,439 所以想象一下,是否我们能够用深度学习的方法 帮助他们提高效率? 289 00:16:56,459 --> 00:16:58,690 我对这个机会表示很激动 290 00:16:58,690 --> 00:17:01,279 我同样的担心一些问题 291 00:17:01,279 --> 00:17:04,403 问题是在这张地图上的蓝色区域内 292 00:17:04,403 --> 00:17:08,172 服务占就业的80%以上 293 00:17:08,172 --> 00:17:09,959 什么是服务? 294 00:17:09,959 --> 00:17:11,473 这些是服务 295 00:17:11,473 --> 00:17:15,627 这些也是电脑才刚刚开始学习的事情 296 00:17:15,627 --> 00:17:19,431 也就是说世界上发达国家的80%的就业 297 00:17:19,431 --> 00:17:21,963 是电脑刚开始学习的 298 00:17:21,963 --> 00:17:23,403 这是什么意思? 299 00:17:23,403 --> 00:17:25,986 其实也没什么大不了的,他们会被其他职业替代 300 00:17:25,986 --> 00:17:28,693 比如说会有更多的数据学家 301 00:17:28,693 --> 00:17:29,510 也不尽然 302 00:17:29,510 --> 00:17:32,628 数据学家不需要太久的时间做这些事 303 00:17:32,628 --> 00:17:35,880 比如这四个算法都是同时一个人开发的 304 00:17:35,880 --> 00:17:38,318 如果你认为这些曾经都发生过 305 00:17:38,318 --> 00:17:42,126 我们看到过新的事物出现 306 00:17:42,126 --> 00:17:44,378 然后被新的职业所取代 307 00:17:44,378 --> 00:17:46,494 那这些新的职业又会是什么? 308 00:17:46,494 --> 00:17:48,365 很难做出估计 309 00:17:48,365 --> 00:17:51,104 因为人的能力以这个均匀的速度增长 310 00:17:51,104 --> 00:17:53,666 但是现在我们有了深度学习系统 311 00:17:53,666 --> 00:17:56,893 它的能力以指数方式增长 312 00:17:56,893 --> 00:17:58,498 我们现在在这 313 00:17:58,498 --> 00:18:00,559 目前,我们看周围的事物 314 00:18:00,559 --> 00:18:03,235 会说:“电脑还是很笨。”对吧? 315 00:18:03,235 --> 00:18:06,664 但是在五年内,电脑会超出这张图 316 00:18:06,664 --> 00:18:10,529 所以我们现在要开始考虑这样的能力了 317 00:18:10,529 --> 00:18:12,579 当然,我们曾经见过这个 318 00:18:12,579 --> 00:18:13,966 在工业革命时期 319 00:18:13,966 --> 00:18:16,817 发动机让生产力迈进一大步 320 00:18:17,667 --> 00:18:20,805 然而问题是,一段时间之后,形势转平了 321 00:18:20,805 --> 00:18:22,507 是由于社会的破坏 322 00:18:22,507 --> 00:18:25,946 但当发动机被普遍应用时 323 00:18:25,946 --> 00:18:28,300 一切都稳定下来了 324 00:18:28,300 --> 00:18:29,773 机器学习革命 325 00:18:29,773 --> 00:18:32,682 将和工业革命有很大不同 326 00:18:32,682 --> 00:18:35,632 因为机器学习革命不会停止 327 00:18:35,632 --> 00:18:38,614 电脑越擅长智能活动 328 00:18:38,614 --> 00:18:42,862 它们越能制造出更加擅长智能活动的电脑 329 00:18:42,862 --> 00:18:47,250 这将会是世界从未经历过的改变 330 00:18:47,250 --> 00:18:50,554 所以你之前理解的可能性是不一样的 331 00:18:50,974 --> 00:18:52,754 这正在影响我们的生活 332 00:18:52,754 --> 00:18:56,384 在过去的25年里,随着资本生产力的增加 333 00:18:56,400 --> 00:19:00,588 劳动生产力在变缓,甚至下降 334 00:19:01,408 --> 00:19:04,149 所以我希望可以发起大家的讨论 335 00:19:04,149 --> 00:19:07,176 我知道当我和人们讲述这样的处境时 336 00:19:07,176 --> 00:19:08,666 人们往往表现出不以为然 337 00:19:08,666 --> 00:19:10,339 电脑不会思考 338 00:19:10,339 --> 00:19:13,367 它们没有情感,也不懂诗 339 00:19:13,367 --> 00:19:15,888 它们甚至都不知道自己是如何运作的 340 00:19:15,888 --> 00:19:17,374 那又怎样? 341 00:19:17,374 --> 00:19:19,178 电脑现在可以做 342 00:19:19,178 --> 00:19:21,897 人类用大部分有偿的劳动时间做的事情 343 00:19:21,897 --> 00:19:23,628 所以现在该到我们思考 344 00:19:23,628 --> 00:19:28,015 我们将如何调整我们的社会结构和经济结构 345 00:19:28,015 --> 00:19:29,855 来应对新形势 346 00:19:29,855 --> 00:19:31,388 谢谢 347 00:19:31,388 --> 00:19:32,190 (鼓掌)