WEBVTT 00:00:17.816 --> 00:00:21.325 我们的世界在许多方面一直在变, 00:00:21.325 --> 00:00:25.975 其中对我们的未来产生巨大影响的是 00:00:25.975 --> 00:00:29.363 人工智能。 00:00:29.363 --> 00:00:32.953 它给我们带来了又一场工业革命。 00:00:33.627 --> 00:00:39.504 之前的工业革命扩大了人类的机械能力。 00:00:40.014 --> 00:00:45.572 这场新的革命,这第二次的机械时代 00:00:45.572 --> 00:00:50.122 将会拓展我们的认知能力, 00:00:50.122 --> 00:00:52.102 以及我们的精神力。 00:00:52.782 --> 00:00:57.177 计算机不仅仅将取代体力劳动, 00:00:57.597 --> 00:00:59.897 还将取代脑力劳动。 00:01:00.500 --> 00:01:03.450 那么,我们如今的立场是什么呢? 00:01:04.034 --> 00:01:07.724 你有可能听说过去年三月发生的事情, 00:01:07.724 --> 00:01:11.776 一个被称为AlphaGo的机器学习系统 00:01:11.776 --> 00:01:17.708 在围棋游戏中使用了深度学习 来击败了当时的世界冠军。 00:01:18.279 --> 00:01:20.679 围棋是一款古老的中国游戏, 00:01:20.679 --> 00:01:24.159 对于计算机来说, 00:01:24.159 --> 00:01:25.982 它比国际象棋更难掌握。 00:01:26.893 --> 00:01:32.086 经过几十年的人工智能的研究, 我们如今是如何成功的? 00:01:33.068 --> 00:01:36.698 为了下围棋,AlphaGo经过了 专门的培训。 00:01:37.678 --> 00:01:41.300 首先,他需要观察由非常强大的 人类玩家进行的 00:01:41.814 --> 00:01:46.894 成千上万次的出招。 00:01:47.746 --> 00:01:52.496 接着,它再与自己进行上万次的演练。 00:01:54.222 --> 00:01:59.941 机器学习允许计算机从实例中学习。 00:02:00.465 --> 00:02:02.575 从数据中学习。 00:02:03.885 --> 00:02:07.005 机器学习已成为 00:02:07.005 --> 00:02:11.635 将知识塞进计算机里的关键。 00:02:12.174 --> 00:02:14.066 这很重要, 00:02:14.066 --> 00:02:19.296 因为知识是智力的源泉。 00:02:20.438 --> 00:02:26.768 把知识放入计算机中是对之前的 人工智能方法的一种挑战。 00:02:27.515 --> 00:02:28.745 为什么? 00:02:29.059 --> 00:02:33.859 有很多事是我们凭直觉了解的。 00:02:34.601 --> 00:02:38.081 所以我们无法口头沟通。 00:02:38.619 --> 00:02:42.780 我们没有意识到这种直观的知识。 00:02:43.270 --> 00:02:46.690 我们如何在没有知识的情况下 为计算机编程呢? 00:02:47.664 --> 00:02:49.114 解决方法是什么? 00:02:49.314 --> 00:02:55.343 解决方法就是让机器它们自己学习知识, 00:02:55.343 --> 00:02:56.443 正如我们一样。 00:02:56.443 --> 00:03:03.194 这非常重要,因为知识是智力的源泉。 00:03:03.194 --> 00:03:06.974 我的任务就是通过学习 00:03:06.974 --> 00:03:12.676 来发现和理解智能的原理。 00:03:13.166 --> 00:03:18.116 不管是动物,人类还是机器学习。 00:03:19.450 --> 00:03:25.066 我和别人相信有几个关键的原则, 00:03:25.066 --> 00:03:27.296 正如物理定律一样。 00:03:27.885 --> 00:03:32.745 简单的原理可以解释我们自身的智力, 00:03:32.745 --> 00:03:36.741 并帮助我们建造智能机器。 00:03:37.885 --> 00:03:41.595 例如,思考一下空气动力学定律, 00:03:41.595 --> 00:03:48.036 它足以解释鸟类和飞机的飞行。 00:03:49.146 --> 00:03:55.381 若我们可以发现同样简单却有力的原理 来解释智能本身, 00:03:55.381 --> 00:03:59.186 那就太棒了。 00:04:00.026 --> 00:04:03.394 我们取得了一些进展。 00:04:04.384 --> 00:04:10.857 这些年来,我和我的合作者们通过对 神经网络和深度学习的研究, 00:04:11.777 --> 00:04:16.397 为人工智能邻域的一场变革做出了贡献。 00:04:16.397 --> 00:04:20.946 一种受大脑启发的机器学习方法。 00:04:22.041 --> 00:04:25.243 它始于你手机上的语音识别, 00:04:25.243 --> 00:04:29.963 自2012年一直使用的神经网络。 00:04:30.977 --> 00:04:35.647 不久之后,在计算机视觉上取得了突破。 00:04:36.680 --> 00:04:43.087 计算机现在可以很好地识别图像的内容。 00:04:43.674 --> 00:04:50.049 事实上,在过去的5年里, 它们在一些基准上近似于人类的表现。 00:04:50.711 --> 00:04:54.721 现在计算机可以对围棋的视觉外观 00:04:54.721 --> 00:04:58.191 产生一个直观的理解, 00:04:58.191 --> 00:05:01.763 这足以和人类最好的选手媲美。 00:05:01.763 --> 00:05:03.454 最近, 00:05:03.454 --> 00:05:06.584 根据我的实验室的一些发现, 00:05:06.584 --> 00:05:11.408 深度学习被用来去把一种语言 翻译成另一种, 00:05:11.414 --> 00:05:14.441 你会开始在谷歌翻译中看到这个。 00:05:15.191 --> 00:05:18.192 它拓展了计算机的理解 00:05:18.192 --> 00:05:22.532 和生成自然语言的能力。 00:05:23.550 --> 00:05:25.517 但是,别被愚弄了。 00:05:25.517 --> 00:05:30.048 我们仍旧离一台 00:05:30.048 --> 00:05:34.033 能像人类一样学习掌握 世界的许多方面的计算机 00:05:34.033 --> 00:05:37.593 很远很远。 00:05:38.541 --> 00:05:41.237 所以,让我们举个例子。 00:05:41.637 --> 00:05:46.787 即使是一个两岁的孩子可以 00:05:46.787 --> 00:05:50.657 以计算机现在无法做到的方式学习事物。 00:05:51.767 --> 00:05:56.169 一个两岁的孩子事实上掌握了直观物理。 NOTE Paragraph 00:05:56.968 --> 00:06:01.908 她知道当她扔下一个球,球就会落下。 00:06:02.493 --> 00:06:06.093 当她把一些液体洒出来的时候, 她知道会弄脏地板。 00:06:06.586 --> 00:06:09.516 她的父母根本不需要去教她 00:06:09.516 --> 00:06:12.980 关于牛顿定律或者微分方程。 00:06:13.840 --> 00:06:20.200 她在无人监管的情况下 独自发现了这一切。 00:06:21.352 --> 00:06:27.712 无监管学习确实仍是人工智能 所面临的挑战之一。 00:06:28.184 --> 00:06:33.014 它可能还需要花上好几十年的基础研究 00:06:33.014 --> 00:06:34.674 来解开这个结。 00:06:34.674 --> 00:06:40.895 无监管学习事实上 是试图发现数据的表现形式。 00:06:41.729 --> 00:06:43.779 让我来向你举例。 00:06:44.364 --> 00:06:49.346 试想你用你的双眼看着的屏幕上的一页 00:06:49.346 --> 00:06:54.196 或者计算机将其视为一个图像, 一堆像素。 00:06:54.993 --> 00:07:00.113 为了回答关于图像内容的问题, 00:07:00.863 --> 00:07:05.211 你需要理解它的高级含义。 00:07:05.674 --> 00:07:10.821 这种高级别的含义相对于在你脑中的 00:07:10.821 --> 00:07:12.321 最高级别的表现形式。 00:07:12.906 --> 00:07:18.308 再往下,你就有了单词的单独含义, 00:07:19.188 --> 00:07:23.798 甚至再往下,你就会有由字符 拼凑出来的单词。 00:07:24.810 --> 00:07:27.677 这些字符可以用构成字符的不同的笔画 00:07:27.677 --> 00:07:30.879 以不同的方式呈现。 00:07:31.559 --> 00:07:34.839 这些笔画是由边组成的, 00:07:34.839 --> 00:07:37.284 而这些边是由像素组成的。 00:07:37.284 --> 00:07:40.454 所以这些是不同级别的表现方式。 00:07:41.079 --> 00:07:44.236 但是像素本身并不足以 00:07:44.236 --> 00:07:46.584 去理解图像, 00:07:46.584 --> 00:07:51.904 来回答关于页面内容的高级问题。 00:07:52.932 --> 00:07:57.594 事实上,你的大脑有着 不同等级的表现形式。 00:07:57.594 --> 00:08:02.291 从大脑皮层的第一个视觉区域的 神经元开始--V1, 00:08:02.291 --> 00:08:04.596 它识别边。 00:08:04.596 --> 00:08:09.334 接着,在大脑皮层的第二个视觉区域的 神经元--V2, 00:08:09.334 --> 00:08:12.800 它能识别笔画和小的图形。 00:08:12.800 --> 00:08:17.060 再往上,你有神经元来检测物体的部分 00:08:17.060 --> 00:08:19.992 然后是物体和整个场景。 00:08:21.182 --> 00:08:24.757 神经网络,当它们接受图像训练时, 00:08:24.757 --> 00:08:28.860 可以真的发现这些类型的表现水平 00:08:28.860 --> 00:08:32.778 与我们在大脑中所观察到的十分吻合。 00:08:33.638 --> 00:08:38.798 无论是生物神经网络,换言之, 你大脑中的神经网络 00:08:38.804 --> 00:08:42.828 还是我们在机器上训练的深层神经网络, 00:08:42.845 --> 00:08:48.075 都可以学习从一个等级的表达方式 转化到下一个等级, 00:08:48.369 --> 00:08:53.299 而高等级的表现形式应对 更抽象的概念。 00:08:53.299 --> 00:08:57.562 例如,字符A的抽象概念 00:08:57.562 --> 00:09:00.891 可以通过许多不同的方法在 最底级别上呈现, 00:09:00.891 --> 00:09:03.887 可以呈现出许多不同的像素配置, 00:09:03.887 --> 00:09:09.097 根据位置,旋转,字体等配置。 00:09:10.445 --> 00:09:15.815 所以,我们该怎么学习这些 高等级的表现方法呢? 00:09:16.962 --> 00:09:20.681 目前为止,有一件事在深度学习的应用上 00:09:20.681 --> 00:09:22.853 非常成功, 00:09:22.855 --> 00:09:25.985 我们称之为监管学习。 00:09:26.297 --> 00:09:31.588 有监管学习的情况下, 计算机只需被手拿着, 00:09:31.594 --> 00:09:35.467 人类必须要告诉计算机许多问题的答案。 00:09:35.467 --> 00:09:41.420 例如,在数百万的图像中, 人们必须很好地告诉机器, 00:09:41.420 --> 00:09:44.271 对于这张图像,这是一只猫。 00:09:44.273 --> 00:09:47.095 对于这张图像,这是一只狗。 00:09:47.095 --> 00:09:49.585 对于这张图像,这是一台笔记本电脑。 00:09:49.605 --> 00:09:55.595 对于这张图像,这是一个键盘。 等等,等等数百万次。 00:09:56.066 --> 00:10:01.026 这是非常痛苦的, 我们使用众包来做到这一点。 00:10:01.461 --> 00:10:03.396 虽然,它非常的强大, 00:10:03.416 --> 00:10:06.269 这让我们可以解决许多有趣的问题, 00:10:06.269 --> 00:10:08.313 但是人类更加的强大, 00:10:08.313 --> 00:10:12.076 他们可以学习世界上更多不同的方面, 00:10:12.076 --> 00:10:13.809 以一种更自主的方式, 00:10:13.809 --> 00:10:17.609 这正如我们所见的孩子学习直观物理。 00:10:17.625 --> 00:10:23.739 无监管学习也可以帮助我们 研发自动驾驶汽车。 00:10:24.567 --> 00:10:26.097 让我来解释一下: 00:10:26.097 --> 00:10:31.835 无监管学习允许计算机 将自己投射到未来, 00:10:31.835 --> 00:10:37.205 根据当前的情况生成可信的未来。 00:10:38.369 --> 00:10:42.899 这使得计算机可以推理和提前计划。 00:10:43.450 --> 00:10:47.985 即使是它们还没训练过的情况下 也是如此。 00:10:48.751 --> 00:10:50.441 这很重要, 00:10:50.441 --> 00:10:53.951 因为如果我们使用监管学习, 我们将不得不告诉计算机 00:10:53.951 --> 00:10:57.395 所有汽车可能会出现的情况 00:10:57.395 --> 00:11:01.375 以及人们在这种情况下的反应。 00:11:02.451 --> 00:11:06.191 我是怎么学会避免危险驾驶的行为的呢? 00:11:07.276 --> 00:11:10.791 难道我必须在一场事故中死去一千次吗? 00:11:10.793 --> 00:11:12.106 (笑声) 00:11:12.106 --> 00:11:14.606 这是我们现在训练机器的方法。 00:11:15.175 --> 00:11:18.340 所以,它不会飞,至少它不会驾驶。 00:11:18.340 --> 00:11:19.928 (笑声) 00:11:21.288 --> 00:11:25.657 所以,我们需要的是训练我们的模型 00:11:25.657 --> 00:11:31.924 能够产生可信的图像或者 可信的未来,具有创造性。 00:11:31.924 --> 00:11:33.934 我们正在这方面取得进展。 00:11:33.934 --> 00:11:37.457 所以,我们正在训练这些深层神经网络 00:11:37.463 --> 00:11:40.818 从高级意义到像素, 00:11:40.818 --> 00:11:43.298 而不是从像素到高级意义。 00:11:43.307 --> 00:11:46.787 通过表达方法进入另一个方向。 00:11:46.787 --> 00:11:50.461 通过这种方法, 计算机可以生成新的图像, 00:11:51.191 --> 00:11:55.072 这些图像和它们受训时所见的 00:11:55.072 --> 00:11:56.488 完全不一样, 00:11:57.018 --> 00:12:00.369 但看起来可信的,看起来像自然图像。 00:12:01.888 --> 00:12:06.332 我们同样可以用这些模型来 幻想一些奇怪的东西, 00:12:06.342 --> 00:12:09.492 有时是可怕的图像, 00:12:09.492 --> 00:12:11.795 正如我们的梦境和噩梦。 00:12:12.682 --> 00:12:16.847 这里有一些计算机使用深度图表模型 00:12:16.847 --> 00:12:19.826 所合成的图像。 00:12:19.826 --> 00:12:21.651 它们看上去就像自然图像, 00:12:21.651 --> 00:12:24.551 但是如果你凑近看, 你会发现它们还是有区别的, 00:12:25.458 --> 00:12:28.697 而且它们仍缺少一些 00:12:28.697 --> 00:12:31.063 我们认为是自然的重要细节。 00:12:31.995 --> 00:12:33.951 大约10年前, 00:12:33.951 --> 00:12:38.921 无监管学习是我们发现深度学习的 00:12:38.921 --> 00:12:42.443 突破口。 00:12:44.140 --> 00:12:48.055 这种情况发生在少数实验室, 包括我的实验室, 00:12:48.055 --> 00:12:51.455 当时神经网络还未流行。 00:12:51.455 --> 00:12:55.217 它们几乎被科学界所抛弃。 00:12:56.394 --> 00:12:58.935 如今,事情已经改变了许多。 00:12:58.935 --> 00:13:01.375 它已成为一个非常难的领域。 00:13:01.384 --> 00:13:06.933 如今每年有成百上千的学生申请研究生课程 00:13:06.954 --> 00:13:09.784 到我的实验室和我的合作者一起工作。 00:13:11.010 --> 00:13:16.630 蒙特利尔已成为世界上最大的 00:13:16.637 --> 00:13:19.387 深度学习研究人员学术聚集地。 00:13:20.182 --> 00:13:26.115 我们刚收到9400万美元的 巨额研究经费, 00:13:26.127 --> 00:13:29.797 用于推动人工智能和数据科学的发展, 00:13:29.797 --> 00:13:36.067 并将深度学习技术和 数据科学转移到工业。 00:13:37.249 --> 00:13:43.791 受到这些刺激的商业人士 建立创业公司,工业实验室, 00:13:43.791 --> 00:13:46.914 它们中的许多就坐落于大学附近。 00:13:48.543 --> 00:13:49.625 例如, 00:13:49.625 --> 00:13:54.733 几周前,我们宣布成立一家名为 00:13:54.733 --> 00:13:56.507 “Element AI"的初创工厂, 00:13:56.507 --> 00:13:59.605 它将专注于深度学习的应用上。 00:14:01.562 --> 00:14:05.722 只是没有足够多的深度学习的专家。 00:14:06.355 --> 00:14:10.677 所以,那些专家们被支付了疯狂多的薪水, 00:14:11.027 --> 00:14:17.212 我的许多前学术同事 都接受了公司的慷慨薪资, 00:14:17.228 --> 00:14:20.518 来到了工业实验室工作。 00:14:21.081 --> 00:14:25.010 就我自己而言,选择呆在大学, 00:14:25.010 --> 00:14:27.166 为公众利益工作, 00:14:27.166 --> 00:14:28.886 和学生们一起工作, 00:14:28.902 --> 00:14:30.592 保持独立。 00:14:30.596 --> 00:14:34.836 指导下一代的深度学习专家。 00:14:35.294 --> 00:14:41.024 除了商业价值, 00:14:41.024 --> 00:14:44.654 我们还在思考人工智能的社会影响。 00:14:45.881 --> 00:14:50.026 我们中的许多人现在开始把目光 00:14:50.026 --> 00:14:55.986 投向于社会增值应用,例如健康。 00:14:56.457 --> 00:14:58.956 我们认为我们可以利用深度学习 00:14:58.956 --> 00:15:02.696 来改进个性化治疗。 00:15:03.956 --> 00:15:05.671 我相信在未来, 00:15:05.671 --> 00:15:10.361 当我们从地球上数以百万计的人们 那里收集到更多的数据时, 00:15:10.361 --> 00:15:13.856 我们将可以提供医疗建议 00:15:13.856 --> 00:15:17.246 给数十亿现在无法得到这些建议的人们。 00:15:17.601 --> 00:15:22.724 我们可以想象人工智能在 社会价值方面的其他许多应用。 00:15:23.140 --> 00:15:26.238 例如,我们对 00:15:26.238 --> 00:15:28.582 自然语言的理解的研究, 00:15:29.328 --> 00:15:31.199 将会为那些无法负担的人们 00:15:31.199 --> 00:15:34.059 提供各种各样的服务,比如法律服务。 00:15:34.512 --> 00:15:37.342 我们如今同样也将目光 00:15:37.342 --> 00:15:41.132 转向了人工智能对我们的社区的 社会影响。 00:15:41.690 --> 00:15:44.801 但这不仅仅是专家需要思考的问题。 00:15:46.026 --> 00:15:49.936 我相信,除了数学和专业术语, 00:15:49.936 --> 00:15:53.102 普通人能充分知晓 00:15:53.138 --> 00:15:55.901 幕后发生了什么, 00:15:55.901 --> 00:16:01.191 从而参与在未来几年,乃至几十年的 00:16:01.191 --> 00:16:06.547 有关人工智能的重要决策。 00:16:07.580 --> 00:16:09.280 所以, 00:16:09.930 --> 00:16:16.230 请把你的费用放在一边, 留一些空间让自己去学习吧。 00:16:17.842 --> 00:16:22.532 我和我的合作者写了几篇介绍性论文 00:16:22.542 --> 00:16:25.376 和一本名为《深度学习》的书, 00:16:25.376 --> 00:16:29.619 来帮助学生们和工程师们 进入这个令人兴奋的领域。 00:16:30.659 --> 00:16:35.784 同样也有许多在线资源: 软件,学习指南,视频...... 00:16:36.310 --> 00:16:41.210 很多本科生都自学了 00:16:41.210 --> 00:16:44.548 很多关于深度学习的研究, 00:16:44.548 --> 00:16:47.835 为了之后加入实验室。 00:16:49.370 --> 00:16:55.170 人工智能将对我们的社会 产生深远的影响。 00:16:56.652 --> 00:17:01.672 所以,重要的是要问: 我们该如何使用它? 00:17:03.368 --> 00:17:07.896 巨大的积极面可能会伴随着消极面, 00:17:07.896 --> 00:17:10.166 譬如军事使用 00:17:10.797 --> 00:17:15.357 或者就业市场急速颠覆性的变化。 00:17:15.948 --> 00:17:21.629 为了确保在未来的几年内, 00:17:21.629 --> 00:17:23.074 人工智能所面临的集体选择 00:17:23.074 --> 00:17:25.144 将会对所有人有利, 00:17:25.144 --> 00:17:28.557 每一个公民应该 00:17:28.557 --> 00:17:32.911 在定义人工智能将如何塑造 我们的未来时发挥积极的作用。 00:17:33.871 --> 00:17:34.891 谢谢。 00:17:35.065 --> 00:17:39.395 (掌声)