1 00:00:17,816 --> 00:00:21,325 我们的世界在许多方面一直在变, 2 00:00:21,325 --> 00:00:25,975 其中对我们的未来产生巨大影响的是 3 00:00:25,975 --> 00:00:29,363 人工智能。 4 00:00:29,363 --> 00:00:32,953 它给我们带来了又一场工业革命。 5 00:00:33,627 --> 00:00:39,504 之前的工业革命扩大了人类的机械能力。 6 00:00:40,014 --> 00:00:45,572 这场新的革命,这第二次的机械时代 7 00:00:45,572 --> 00:00:50,122 将会拓展我们的认知能力, 8 00:00:50,122 --> 00:00:52,102 以及我们的精神力。 9 00:00:52,782 --> 00:00:57,177 计算机不仅仅将取代体力劳动, 10 00:00:57,597 --> 00:00:59,897 还将取代脑力劳动。 11 00:01:00,500 --> 00:01:03,450 那么,我们如今的立场是什么呢? 12 00:01:04,034 --> 00:01:07,724 你有可能听说过去年三月发生的事情, 13 00:01:07,724 --> 00:01:11,776 一个被称为AlphaGo的机器学习系统 14 00:01:11,776 --> 00:01:17,708 在围棋游戏中使用了深度学习 来击败了当时的世界冠军。 15 00:01:18,279 --> 00:01:20,679 围棋是一款古老的中国游戏, 16 00:01:20,679 --> 00:01:24,159 对于计算机来说, 17 00:01:24,159 --> 00:01:25,982 它比国际象棋更难掌握。 18 00:01:26,893 --> 00:01:32,086 经过几十年的人工智能的研究, 我们如今是如何成功的? 19 00:01:33,068 --> 00:01:36,698 为了下围棋,AlphaGo经过了 专门的培训。 20 00:01:37,678 --> 00:01:41,300 首先,他需要观察由非常强大的 人类玩家进行的 21 00:01:41,814 --> 00:01:46,894 成千上万次的出招。 22 00:01:47,746 --> 00:01:52,496 接着,它再与自己进行上万次的演练。 23 00:01:54,222 --> 00:01:59,941 机器学习允许计算机从实例中学习。 24 00:02:00,465 --> 00:02:02,575 从数据中学习。 25 00:02:03,885 --> 00:02:07,005 机器学习已成为 26 00:02:07,005 --> 00:02:11,635 将知识塞进计算机里的关键。 27 00:02:12,174 --> 00:02:14,066 这很重要, 28 00:02:14,066 --> 00:02:19,296 因为知识是智力的源泉。 29 00:02:20,438 --> 00:02:26,768 把知识放入计算机中是对之前的 人工智能方法的一种挑战。 30 00:02:27,515 --> 00:02:28,745 为什么? 31 00:02:29,059 --> 00:02:33,859 有很多事是我们凭直觉了解的。 32 00:02:34,601 --> 00:02:38,081 所以我们无法口头沟通。 33 00:02:38,619 --> 00:02:42,780 我们没有意识到这种直观的知识。 34 00:02:43,270 --> 00:02:46,690 我们如何在没有知识的情况下 为计算机编程呢? 35 00:02:47,664 --> 00:02:49,114 解决方法是什么? 36 00:02:49,314 --> 00:02:55,343 解决方法就是让机器它们自己学习知识, 37 00:02:55,343 --> 00:02:56,443 正如我们一样。 38 00:02:56,443 --> 00:03:03,194 这非常重要,因为知识是智力的源泉。 39 00:03:03,194 --> 00:03:06,974 我的任务就是通过学习 40 00:03:06,974 --> 00:03:12,676 来发现和理解智能的原理。 41 00:03:13,166 --> 00:03:18,116 不管是动物,人类还是机器学习。 42 00:03:19,450 --> 00:03:25,066 我和别人相信有几个关键的原则, 43 00:03:25,066 --> 00:03:27,296 正如物理定律一样。 44 00:03:27,885 --> 00:03:32,745 简单的原理可以解释我们自身的智力, 45 00:03:32,745 --> 00:03:36,741 并帮助我们建造智能机器。 46 00:03:37,885 --> 00:03:41,595 例如,思考一下空气动力学定律, 47 00:03:41,595 --> 00:03:48,036 它足以解释鸟类和飞机的飞行。 48 00:03:49,146 --> 00:03:55,381 若我们可以发现同样简单却有力的原理 来解释智能本身, 49 00:03:55,381 --> 00:03:59,186 那就太棒了。 50 00:04:00,026 --> 00:04:03,394 我们取得了一些进展。 51 00:04:04,384 --> 00:04:10,857 这些年来,我和我的合作者们通过对 神经网络和深度学习的研究, 52 00:04:11,777 --> 00:04:16,397 为人工智能邻域的一场变革做出了贡献。 53 00:04:16,397 --> 00:04:20,946 一种受大脑启发的机器学习方法。 54 00:04:22,041 --> 00:04:25,243 它始于你手机上的语音识别, 55 00:04:25,243 --> 00:04:29,963 自2012年一直使用的神经网络。 56 00:04:30,977 --> 00:04:35,647 不久之后,在计算机视觉上取得了突破。 57 00:04:36,680 --> 00:04:43,087 计算机现在可以很好地识别图像的内容。 58 00:04:43,674 --> 00:04:50,049 事实上,在过去的5年里, 它们在一些基准上近似于人类的表现。 59 00:04:50,711 --> 00:04:54,721 现在计算机可以对围棋的视觉外观 60 00:04:54,721 --> 00:04:58,191 产生一个直观的理解, 61 00:04:58,191 --> 00:05:01,763 这足以和人类最好的选手媲美。 62 00:05:01,763 --> 00:05:03,454 最近, 63 00:05:03,454 --> 00:05:06,584 根据我的实验室的一些发现, 64 00:05:06,584 --> 00:05:11,408 深度学习被用来去把一种语言 翻译成另一种, 65 00:05:11,414 --> 00:05:14,441 你会开始在谷歌翻译中看到这个。 66 00:05:15,191 --> 00:05:18,192 它拓展了计算机的理解 67 00:05:18,192 --> 00:05:22,532 和生成自然语言的能力。 68 00:05:23,550 --> 00:05:25,517 但是,别被愚弄了。 69 00:05:25,517 --> 00:05:30,048 我们仍旧离一台 70 00:05:30,048 --> 00:05:34,033 能像人类一样学习掌握 世界的许多方面的计算机 71 00:05:34,033 --> 00:05:37,593 很远很远。 72 00:05:38,541 --> 00:05:41,237 所以,让我们举个例子。 73 00:05:41,637 --> 00:05:46,787 即使是一个两岁的孩子可以 74 00:05:46,787 --> 00:05:50,657 以计算机现在无法做到的方式学习事物。 75 00:05:51,767 --> 00:05:56,169 一个两岁的孩子事实上掌握了直观物理。 76 00:05:56,968 --> 00:06:01,908 她知道当她扔下一个球,球就会落下。 77 00:06:02,493 --> 00:06:06,093 当她把一些液体洒出来的时候, 她知道会弄脏地板。 78 00:06:06,586 --> 00:06:09,516 她的父母根本不需要去教她 79 00:06:09,516 --> 00:06:12,980 关于牛顿定律或者微分方程。 80 00:06:13,840 --> 00:06:20,200 她在无人监管的情况下 独自发现了这一切。 81 00:06:21,352 --> 00:06:27,712 无监管学习确实仍是人工智能 所面临的挑战之一。 82 00:06:28,184 --> 00:06:33,014 它可能还需要花上好几十年的基础研究 83 00:06:33,014 --> 00:06:34,674 来解开这个结。 84 00:06:34,674 --> 00:06:40,895 无监管学习事实上 是试图发现数据的表现形式。 85 00:06:41,729 --> 00:06:43,779 让我来向你举例。 86 00:06:44,364 --> 00:06:49,346 试想你用你的双眼看着的屏幕上的一页 87 00:06:49,346 --> 00:06:54,196 或者计算机将其视为一个图像, 一堆像素。 88 00:06:54,993 --> 00:07:00,113 为了回答关于图像内容的问题, 89 00:07:00,863 --> 00:07:05,211 你需要理解它的高级含义。 90 00:07:05,674 --> 00:07:10,821 这种高级别的含义相对于在你脑中的 91 00:07:10,821 --> 00:07:12,321 最高级别的表现形式。 92 00:07:12,906 --> 00:07:18,308 再往下,你就有了单词的单独含义, 93 00:07:19,188 --> 00:07:23,798 甚至再往下,你就会有由字符 拼凑出来的单词。 94 00:07:24,810 --> 00:07:27,677 这些字符可以用构成字符的不同的笔画 95 00:07:27,677 --> 00:07:30,879 以不同的方式呈现。 96 00:07:31,559 --> 00:07:34,839 这些笔画是由边组成的, 97 00:07:34,839 --> 00:07:37,284 而这些边是由像素组成的。 98 00:07:37,284 --> 00:07:40,454 所以这些是不同级别的表现方式。 99 00:07:41,079 --> 00:07:44,236 但是像素本身并不足以 100 00:07:44,236 --> 00:07:46,584 去理解图像, 101 00:07:46,584 --> 00:07:51,904 来回答关于页面内容的高级问题。 102 00:07:52,932 --> 00:07:57,594 事实上,你的大脑有着 不同等级的表现形式。 103 00:07:57,594 --> 00:08:02,291 从大脑皮层的第一个视觉区域的 神经元开始--V1, 104 00:08:02,291 --> 00:08:04,596 它识别边。 105 00:08:04,596 --> 00:08:09,334 接着,在大脑皮层的第二个视觉区域的 神经元--V2, 106 00:08:09,334 --> 00:08:12,800 它能识别笔画和小的图形。 107 00:08:12,800 --> 00:08:17,060 再往上,你有神经元来检测物体的部分 108 00:08:17,060 --> 00:08:19,992 然后是物体和整个场景。 109 00:08:21,182 --> 00:08:24,757 神经网络,当它们接受图像训练时, 110 00:08:24,757 --> 00:08:28,860 可以真的发现这些类型的表现水平 111 00:08:28,860 --> 00:08:32,778 与我们在大脑中所观察到的十分吻合。 112 00:08:33,638 --> 00:08:38,798 无论是生物神经网络,换言之, 你大脑中的神经网络 113 00:08:38,804 --> 00:08:42,828 还是我们在机器上训练的深层神经网络, 114 00:08:42,845 --> 00:08:48,075 都可以学习从一个等级的表达方式 转化到下一个等级, 115 00:08:48,369 --> 00:08:53,299 而高等级的表现形式应对 更抽象的概念。 116 00:08:53,299 --> 00:08:57,562 例如,字符A的抽象概念 117 00:08:57,562 --> 00:09:00,891 可以通过许多不同的方法在 最底级别上呈现, 118 00:09:00,891 --> 00:09:03,887 可以呈现出许多不同的像素配置, 119 00:09:03,887 --> 00:09:09,097 根据位置,旋转,字体等配置。 120 00:09:10,445 --> 00:09:15,815 所以,我们该怎么学习这些 高等级的表现方法呢? 121 00:09:16,962 --> 00:09:20,681 目前为止,有一件事在深度学习的应用上 122 00:09:20,681 --> 00:09:22,853 非常成功, 123 00:09:22,855 --> 00:09:25,985 我们称之为监管学习。 124 00:09:26,297 --> 00:09:31,588 有监管学习的情况下, 计算机只需被手拿着, 125 00:09:31,594 --> 00:09:35,467 人类必须要告诉计算机许多问题的答案。 126 00:09:35,467 --> 00:09:41,420 例如,在数百万的图像中, 人们必须很好地告诉机器, 127 00:09:41,420 --> 00:09:44,271 对于这张图像,这是一只猫。 128 00:09:44,273 --> 00:09:47,095 对于这张图像,这是一只狗。 129 00:09:47,095 --> 00:09:49,585 对于这张图像,这是一台笔记本电脑。 130 00:09:49,605 --> 00:09:55,595 对于这张图像,这是一个键盘。 等等,等等数百万次。 131 00:09:56,066 --> 00:10:01,026 这是非常痛苦的, 我们使用众包来做到这一点。 132 00:10:01,461 --> 00:10:03,396 虽然,它非常的强大, 133 00:10:03,416 --> 00:10:06,269 这让我们可以解决许多有趣的问题, 134 00:10:06,269 --> 00:10:08,313 但是人类更加的强大, 135 00:10:08,313 --> 00:10:12,076 他们可以学习世界上更多不同的方面, 136 00:10:12,076 --> 00:10:13,809 以一种更自主的方式, 137 00:10:13,809 --> 00:10:17,609 这正如我们所见的孩子学习直观物理。 138 00:10:17,625 --> 00:10:23,739 无监管学习也可以帮助我们 研发自动驾驶汽车。 139 00:10:24,567 --> 00:10:26,097 让我来解释一下: 140 00:10:26,097 --> 00:10:31,835 无监管学习允许计算机 将自己投射到未来, 141 00:10:31,835 --> 00:10:37,205 根据当前的情况生成可信的未来。 142 00:10:38,369 --> 00:10:42,899 这使得计算机可以推理和提前计划。 143 00:10:43,450 --> 00:10:47,985 即使是它们还没训练过的情况下 也是如此。 144 00:10:48,751 --> 00:10:50,441 这很重要, 145 00:10:50,441 --> 00:10:53,951 因为如果我们使用监管学习, 我们将不得不告诉计算机 146 00:10:53,951 --> 00:10:57,395 所有汽车可能会出现的情况 147 00:10:57,395 --> 00:11:01,375 以及人们在这种情况下的反应。 148 00:11:02,451 --> 00:11:06,191 我是怎么学会避免危险驾驶的行为的呢? 149 00:11:07,276 --> 00:11:10,791 难道我必须在一场事故中死去一千次吗? 150 00:11:10,793 --> 00:11:12,106 (笑声) 151 00:11:12,106 --> 00:11:14,606 这是我们现在训练机器的方法。 152 00:11:15,175 --> 00:11:18,340 所以,它不会飞,至少它不会驾驶。 153 00:11:18,340 --> 00:11:19,928 (笑声) 154 00:11:21,288 --> 00:11:25,657 所以,我们需要的是训练我们的模型 155 00:11:25,657 --> 00:11:31,924 能够产生可信的图像或者 可信的未来,具有创造性。 156 00:11:31,924 --> 00:11:33,934 我们正在这方面取得进展。 157 00:11:33,934 --> 00:11:37,457 所以,我们正在训练这些深层神经网络 158 00:11:37,463 --> 00:11:40,818 从高级意义到像素, 159 00:11:40,818 --> 00:11:43,298 而不是从像素到高级意义。 160 00:11:43,307 --> 00:11:46,787 通过表达方法进入另一个方向。 161 00:11:46,787 --> 00:11:50,461 通过这种方法, 计算机可以生成新的图像, 162 00:11:51,191 --> 00:11:55,072 这些图像和它们受训时所见的 163 00:11:55,072 --> 00:11:56,488 完全不一样, 164 00:11:57,018 --> 00:12:00,369 但看起来可信的,看起来像自然图像。 165 00:12:01,888 --> 00:12:06,332 我们同样可以用这些模型来 幻想一些奇怪的东西, 166 00:12:06,342 --> 00:12:09,492 有时是可怕的图像, 167 00:12:09,492 --> 00:12:11,795 正如我们的梦境和噩梦。 168 00:12:12,682 --> 00:12:16,847 这里有一些计算机使用深度图表模型 169 00:12:16,847 --> 00:12:19,826 所合成的图像。 170 00:12:19,826 --> 00:12:21,651 它们看上去就像自然图像, 171 00:12:21,651 --> 00:12:24,551 但是如果你凑近看, 你会发现它们还是有区别的, 172 00:12:25,458 --> 00:12:28,697 而且它们仍缺少一些 173 00:12:28,697 --> 00:12:31,063 我们认为是自然的重要细节。 174 00:12:31,995 --> 00:12:33,951 大约10年前, 175 00:12:33,951 --> 00:12:38,921 无监管学习是我们发现深度学习的 176 00:12:38,921 --> 00:12:42,443 突破口。 177 00:12:44,140 --> 00:12:48,055 这种情况发生在少数实验室, 包括我的实验室, 178 00:12:48,055 --> 00:12:51,455 当时神经网络还未流行。 179 00:12:51,455 --> 00:12:55,217 它们几乎被科学界所抛弃。 180 00:12:56,394 --> 00:12:58,935 如今,事情已经改变了许多。 181 00:12:58,935 --> 00:13:01,375 它已成为一个非常难的领域。 182 00:13:01,384 --> 00:13:06,933 如今每年有成百上千的学生申请研究生课程 183 00:13:06,954 --> 00:13:09,784 到我的实验室和我的合作者一起工作。 184 00:13:11,010 --> 00:13:16,630 蒙特利尔已成为世界上最大的 185 00:13:16,637 --> 00:13:19,387 深度学习研究人员学术聚集地。 186 00:13:20,182 --> 00:13:26,115 我们刚收到9400万美元的 巨额研究经费, 187 00:13:26,127 --> 00:13:29,797 用于推动人工智能和数据科学的发展, 188 00:13:29,797 --> 00:13:36,067 并将深度学习技术和 数据科学转移到工业。 189 00:13:37,249 --> 00:13:43,791 受到这些刺激的商业人士 建立创业公司,工业实验室, 190 00:13:43,791 --> 00:13:46,914 它们中的许多就坐落于大学附近。 191 00:13:48,543 --> 00:13:49,625 例如, 192 00:13:49,625 --> 00:13:54,733 几周前,我们宣布成立一家名为 193 00:13:54,733 --> 00:13:56,507 “Element AI"的初创工厂, 194 00:13:56,507 --> 00:13:59,605 它将专注于深度学习的应用上。 195 00:14:01,562 --> 00:14:05,722 只是没有足够多的深度学习的专家。 196 00:14:06,355 --> 00:14:10,677 所以,那些专家们被支付了疯狂多的薪水, 197 00:14:11,027 --> 00:14:17,212 我的许多前学术同事 都接受了公司的慷慨薪资, 198 00:14:17,228 --> 00:14:20,518 来到了工业实验室工作。 199 00:14:21,081 --> 00:14:25,010 就我自己而言,选择呆在大学, 200 00:14:25,010 --> 00:14:27,166 为公众利益工作, 201 00:14:27,166 --> 00:14:28,886 和学生们一起工作, 202 00:14:28,902 --> 00:14:30,592 保持独立。 203 00:14:30,596 --> 00:14:34,836 指导下一代的深度学习专家。 204 00:14:35,294 --> 00:14:41,024 除了商业价值, 205 00:14:41,024 --> 00:14:44,654 我们还在思考人工智能的社会影响。 206 00:14:45,881 --> 00:14:50,026 我们中的许多人现在开始把目光 207 00:14:50,026 --> 00:14:55,986 投向于社会增值应用,例如健康。 208 00:14:56,457 --> 00:14:58,956 我们认为我们可以利用深度学习 209 00:14:58,956 --> 00:15:02,696 来改进个性化治疗。 210 00:15:03,956 --> 00:15:05,671 我相信在未来, 211 00:15:05,671 --> 00:15:10,361 当我们从地球上数以百万计的人们 那里收集到更多的数据时, 212 00:15:10,361 --> 00:15:13,856 我们将可以提供医疗建议 213 00:15:13,856 --> 00:15:17,246 给数十亿现在无法得到这些建议的人们。 214 00:15:17,601 --> 00:15:22,724 我们可以想象人工智能在 社会价值方面的其他许多应用。 215 00:15:23,140 --> 00:15:26,238 例如,我们对 216 00:15:26,238 --> 00:15:28,582 自然语言的理解的研究, 217 00:15:29,328 --> 00:15:31,199 将会为那些无法负担的人们 218 00:15:31,199 --> 00:15:34,059 提供各种各样的服务,比如法律服务。 219 00:15:34,512 --> 00:15:37,342 我们如今同样也将目光 220 00:15:37,342 --> 00:15:41,132 转向了人工智能对我们的社区的 社会影响。 221 00:15:41,690 --> 00:15:44,801 但这不仅仅是专家需要思考的问题。 222 00:15:46,026 --> 00:15:49,936 我相信,除了数学和专业术语, 223 00:15:49,936 --> 00:15:53,102 普通人能充分知晓 224 00:15:53,138 --> 00:15:55,901 幕后发生了什么, 225 00:15:55,901 --> 00:16:01,191 从而参与在未来几年,乃至几十年的 226 00:16:01,191 --> 00:16:06,547 有关人工智能的重要决策。 227 00:16:07,580 --> 00:16:09,280 所以, 228 00:16:09,930 --> 00:16:16,230 请把你的费用放在一边, 留一些空间让自己去学习吧。 229 00:16:17,842 --> 00:16:22,532 我和我的合作者写了几篇介绍性论文 230 00:16:22,542 --> 00:16:25,376 和一本名为《深度学习》的书, 231 00:16:25,376 --> 00:16:29,619 来帮助学生们和工程师们 进入这个令人兴奋的领域。 232 00:16:30,659 --> 00:16:35,784 同样也有许多在线资源: 软件,学习指南,视频...... 233 00:16:36,310 --> 00:16:41,210 很多本科生都自学了 234 00:16:41,210 --> 00:16:44,548 很多关于深度学习的研究, 235 00:16:44,548 --> 00:16:47,835 为了之后加入实验室。 236 00:16:49,370 --> 00:16:55,170 人工智能将对我们的社会 产生深远的影响。 237 00:16:56,652 --> 00:17:01,672 所以,重要的是要问: 我们该如何使用它? 238 00:17:03,368 --> 00:17:07,896 巨大的积极面可能会伴随着消极面, 239 00:17:07,896 --> 00:17:10,166 譬如军事使用 240 00:17:10,797 --> 00:17:15,357 或者就业市场急速颠覆性的变化。 241 00:17:15,948 --> 00:17:21,629 为了确保在未来的几年内, 242 00:17:21,629 --> 00:17:23,074 人工智能所面临的集体选择 243 00:17:23,074 --> 00:17:25,144 将会对所有人有利, 244 00:17:25,144 --> 00:17:28,557 每一个公民应该 245 00:17:28,557 --> 00:17:32,911 在定义人工智能将如何塑造 我们的未来时发挥积极的作用。 246 00:17:33,871 --> 00:17:34,891 谢谢。 247 00:17:35,065 --> 00:17:39,395 (掌声)