WEBVTT 00:00:00.800 --> 00:00:03.954 我在谷歌领导着一个 机器智能的项目组, 00:00:03.954 --> 00:00:08.658 换句话说,利用工程学原理制造出 00:00:08.658 --> 00:00:11.041 能够像人脑一样 完成某些任务的电脑和设备。 00:00:11.439 --> 00:00:14.598 这也使我们对人类的 大脑以及神经科学 00:00:14.598 --> 00:00:15.871 产生了兴趣, 00:00:15.875 --> 00:00:20.087 尤其在那些大脑的表现 00:00:20.087 --> 00:00:24.113 比电脑强太多的领域。 NOTE Paragraph 00:00:25.209 --> 00:00:28.918 长期以来,我们研究的 其中一个领域便是感知, 00:00:28.918 --> 00:00:31.855 一种将外界事物—— 00:00:31.855 --> 00:00:33.539 比如图像或声音— 00:00:33.539 --> 00:00:35.691 转化为大脑内概念的过程。 00:00:36.235 --> 00:00:38.902 这对我们的大脑很重要, 00:00:38.902 --> 00:00:41.240 对计算机的作用也非同小可。 00:00:41.636 --> 00:00:44.790 例如,我们团队开发的机器感知算法 00:00:44.790 --> 00:00:48.924 会根据图片的内容 让你在谷歌相册的图片 00:00:48.924 --> 00:00:50.305 出现在搜索结果中。 00:00:51.594 --> 00:00:55.157 感知的另一方面是创意: 00:00:55.157 --> 00:00:58.199 将概念变成现实。 00:00:58.199 --> 00:01:01.768 因此,这些年我们 在机器感知能力方面的工作 00:01:01.768 --> 00:01:06.691 也意外地跟机器创意以及机器艺术 00:01:06.691 --> 00:01:07.795 联系在了一起。 NOTE Paragraph 00:01:08.556 --> 00:01:11.890 我觉得米开朗基罗对感知和创意 00:01:11.890 --> 00:01:15.520 之间的双重关系有着深刻的见解。 00:01:16.023 --> 00:01:18.099 他有一句名言: 00:01:18.099 --> 00:01:21.376 “每一块石头里都藏着一尊雕像, 00:01:22.036 --> 00:01:25.038 而雕塑家的工作就是去发现它。” 00:01:26.029 --> 00:01:29.275 我想米开朗基罗意思是 00:01:29.275 --> 00:01:32.489 我们通过感知来创造, 00:01:32.489 --> 00:01:35.536 而感知本身是想象力的表现, 00:01:35.536 --> 00:01:37.981 以及创意的来源。 NOTE Paragraph 00:01:38.691 --> 00:01:42.666 而进行思考、感知和想象的器官, 00:01:42.666 --> 00:01:44.228 毫无疑问,就是大脑。 00:01:45.089 --> 00:01:47.684 我想先简单地谈一谈 00:01:47.684 --> 00:01:49.960 我们对大脑的了解。 00:01:50.496 --> 00:01:53.012 因为不像心脏或其它内脏, 00:01:53.012 --> 00:01:56.160 你无法仅仅通过观察 就能看出点什么来, 00:01:56.160 --> 00:01:57.546 至少仅凭肉眼看不出来。 00:01:57.983 --> 00:02:00.449 早期的解剖学家看着大脑, 00:02:00.449 --> 00:02:04.260 给它的表面结构 取了各种充满想象力的名字。 00:02:04.260 --> 00:02:06.717 比如说海马体,意思是“小虾子”。 00:02:06.717 --> 00:02:09.385 但这些并不能告诉我们 00:02:09.385 --> 00:02:11.817 大脑里面究竟是怎样工作的。 NOTE Paragraph 00:02:12.780 --> 00:02:16.423 我认为第一个真正对大脑的工作方式 00:02:16.423 --> 00:02:18.377 有所洞悉的人, 00:02:18.377 --> 00:02:22.341 是19世纪西班牙 伟大的神经解剖学家 00:02:22.341 --> 00:02:23.843 圣地亚哥 · 拉蒙 · 卡哈尔 (Santiago Ramón y Cajal), 00:02:23.843 --> 00:02:27.688 他使用了显微镜以及某种特殊染色剂, 00:02:27.688 --> 00:02:31.892 有选择性地将大脑中的 单个细胞填充或者渲染上 00:02:31.892 --> 00:02:33.848 高对比度的颜色, 00:02:33.848 --> 00:02:37.042 以便了解它们的形态。 00:02:37.972 --> 00:02:40.857 这些就是他在19世纪 00:02:40.857 --> 00:02:42.090 完成的的神经元手绘图。 NOTE Paragraph 00:02:42.090 --> 00:02:44.084 这是一只鸟的大脑。 00:02:44.084 --> 00:02:47.019 能看到这些形态各异的细胞, 00:02:47.019 --> 00:02:50.538 甚至在当时对细胞学说 本身还是新鲜事物。 00:02:50.538 --> 00:02:51.840 而这些结构, 00:02:51.840 --> 00:02:54.169 像树枝一样分岔, 00:02:54.169 --> 00:02:56.425 能够延伸到很长的距离—— 00:02:56.425 --> 00:02:58.401 这些在当时都是闻所未闻。 00:02:58.779 --> 00:03:01.712 他们让人联想到的,当然是电线。 00:03:01.712 --> 00:03:05.163 这对于很多19世纪的人 来说是显而易见的, 00:03:05.187 --> 00:03:09.501 因为那时电线和电力革命刚刚兴起。 00:03:09.964 --> 00:03:11.202 但是在许多方面 00:03:11.202 --> 00:03:14.463 拉蒙 · 卡哈尔的神经解剖学 绘画,比如这一张, 00:03:14.463 --> 00:03:16.875 从某些方面来说是很卓越的。 NOTE Paragraph 00:03:16.875 --> 00:03:18.743 一个多世纪后的我们,仍然在继续 00:03:18.743 --> 00:03:21.602 尝试完成拉蒙 · 卡哈尔开启的事业。 00:03:21.602 --> 00:03:24.740 提供这些原始数据的,是我们来自 00:03:24.744 --> 00:03:27.675 马克斯 · 普朗克 神经科学研究所的合作者。 00:03:27.675 --> 00:03:29.433 他们的工作 00:03:29.433 --> 00:03:34.544 是对那些小块的脑组织进行成像。 00:03:34.544 --> 00:03:37.844 这一整个样品的大小 是1立方毫米左右, 00:03:37.844 --> 00:03:40.519 而我展示的只是它上面 很小很小的一块区域。 00:03:40.519 --> 00:03:42.909 左边那段比例尺的长度是1微米。 00:03:42.909 --> 00:03:45.246 你看到的这个结构 00:03:45.246 --> 00:03:47.360 是一个细菌大小的线粒体。 00:03:47.360 --> 00:03:49.005 这些是利用这个非常微小的组织 00:03:49.005 --> 00:03:52.117 所制作成的连续的切片。 00:03:52.117 --> 00:03:54.544 我们来做个对比。 00:03:54.544 --> 00:03:58.410 通常一根头发的直径是 100微米左右。 00:03:58.410 --> 00:04:00.592 所以我们看到的东西 00:04:00.592 --> 00:04:02.034 比一根头发丝还要细很多。 NOTE Paragraph 00:04:02.034 --> 00:04:06.089 通过这些连续的电子显微镜切片, 00:04:06.089 --> 00:04:11.157 人们可以重构出类似这样的 神经元三维图像。 00:04:11.157 --> 00:04:14.348 某种程度上,这跟拉蒙 · 卡哈尔 所用的方式是一样的。 00:04:14.348 --> 00:04:15.874 我们只对少量的神经元进行了突出显示, 00:04:15.874 --> 00:04:18.613 否则我们不可能看到任何东西, 00:04:18.613 --> 00:04:19.995 因为那样一来画面会很拥挤, 00:04:19.995 --> 00:04:21.569 充满了组织结构, 00:04:21.569 --> 00:04:24.067 充满了各个神经元间 纵横交错的通路。 NOTE Paragraph 00:04:25.293 --> 00:04:28.137 显然,拉蒙 · 卡哈尔 有一点超前于他的时代, 00:04:28.137 --> 00:04:30.836 接下来的几十年间 00:04:30.836 --> 00:04:32.971 人们对大脑的理解进展非常缓慢。 00:04:33.455 --> 00:04:36.292 但是我们已经知道, 神经元通过电流传导信息, 00:04:36.292 --> 00:04:39.328 而到二战时,我们的技术 已取得了长足的进步, 00:04:39.328 --> 00:04:42.158 可以开始在活的 神经元细胞上做电流实验, 00:04:42.158 --> 00:04:44.228 以便更好地理解它们的工作原理。 00:04:44.631 --> 00:04:49.037 而电脑也正是在 这个时候被发明了出来, 00:04:49.037 --> 00:04:52.201 它的发明是基于对大脑的模拟—— 00:04:52.201 --> 00:04:55.270 也就是阿兰 · 图灵 所称的“智能机器”理念, 00:04:55.270 --> 00:04:57.235 图灵是计算机科学的开创者之一。 NOTE Paragraph 00:04:57.923 --> 00:05:02.539 沃伦 · 麦卡洛克(Warren McCulloch)和 沃尔特 · 皮兹(Walter Pitts)看到了 00:05:02.539 --> 00:05:03.936 拉蒙 · 卡哈尔所画的 大脑视觉皮层, 00:05:03.936 --> 00:05:05.582 就是我给你们看的这个。 00:05:05.582 --> 00:05:09.948 这是负责处理我们视觉信息的大脑皮层。 00:05:10.424 --> 00:05:13.932 对他们来说,这看起来像一个电路图。 00:05:14.353 --> 00:05:18.238 在麦卡洛克和皮兹的电路图上, 00:05:18.238 --> 00:05:19.558 有许多细节并不是那么正确。 00:05:19.558 --> 00:05:20.973 但基本概念是对的, 00:05:20.973 --> 00:05:24.909 他们认为视觉皮层工作起来 就像一系列计算机元件 00:05:24.909 --> 00:05:27.669 在同一个层级中传递信息, 00:05:27.669 --> 00:05:29.295 这一点是对的。 NOTE Paragraph 00:05:29.295 --> 00:05:31.669 我们再聊一聊 00:05:31.669 --> 00:05:35.665 视觉信息处理模型需要做些什么。 00:05:36.228 --> 00:05:39.039 感知的基本任务就是 00:05:39.039 --> 00:05:43.171 抓取这样的图像并且告诉我们 00:05:43.171 --> 00:05:44.381 “这是一只鸟”, 00:05:44.391 --> 00:05:47.345 这对我们的大脑来说非常简单。 00:05:47.345 --> 00:05:50.760 但对一台电脑来说, 00:05:50.760 --> 00:05:53.871 在几年前,这还是完全不可能的事。 00:05:53.871 --> 00:05:55.851 传统的计算模式 00:05:55.851 --> 00:05:58.312 很难完成这个任务。 NOTE Paragraph 00:05:59.366 --> 00:06:01.958 像素、鸟的图像以及“鸟”这个词, 00:06:01.958 --> 00:06:05.914 这三者之间所产生的联系, 00:06:05.914 --> 00:06:08.792 本质上是在一个神经网络中各神经元 00:06:08.792 --> 00:06:09.901 相互连接的结果, 00:06:09.901 --> 00:06:11.294 正如这张图所示。 00:06:11.294 --> 00:06:14.610 这种神经网络可能是生物学上的, 存在于我们大脑视觉皮层里, 00:06:14.610 --> 00:06:16.776 或者,现如今我们开始有能力 00:06:16.776 --> 00:06:19.194 在电脑上模拟这种神经网络。 00:06:19.834 --> 00:06:22.217 我们来看一下它的工作原理。 NOTE Paragraph 00:06:22.217 --> 00:06:25.657 可以将像素想像成第一层的神经元, 00:06:25.657 --> 00:06:27.864 这实际上就是在 眼睛内部的工作原理—— 00:06:27.864 --> 00:06:29.617 是视网膜上的神经元。 00:06:29.617 --> 00:06:31.181 然后这些前馈信息 00:06:31.181 --> 00:06:34.528 通过一层层神经元往下传递, 00:06:34.528 --> 00:06:37.625 这些神经元通过突触彼此连接。 00:06:37.625 --> 00:06:39.024 这个神经网络的行为 00:06:39.024 --> 00:06:42.292 是通过所有这些突触的强度来表达的, 00:06:42.292 --> 00:06:45.584 也塑造了这个网络的计算性能。 00:06:45.588 --> 00:06:47.042 最终, 00:06:47.042 --> 00:06:49.589 一个或者一小群神经元 00:06:49.589 --> 00:06:51.200 会亮起来,说,“鸟”。 NOTE Paragraph 00:06:51.824 --> 00:06:55.026 接下来我会将这三部分—— 00:06:55.026 --> 00:06:59.706 输入的像素,神经网络中的突触, 00:06:59.706 --> 00:07:01.315 以及“鸟”,这个输出结果—— 00:07:01.315 --> 00:07:04.366 用三个变量来表示:x、w和y。 00:07:04.853 --> 00:07:06.694 在那张图片上可能会有一百万个x—— 00:07:06.694 --> 00:07:08.625 代表一百万个像素点。 00:07:08.625 --> 00:07:11.151 然后有几十亿或几万亿的w, 00:07:11.151 --> 00:07:14.550 代表着神经网络中所有突触的权重。 00:07:14.550 --> 00:07:16.525 只有很少数量的y, 00:07:16.525 --> 00:07:18.387 代表整个网络的输出结果。 00:07:18.387 --> 00:07:20.110 “Bird(鸟)"这个单词 只有四个字母,对吧? 00:07:21.088 --> 00:07:24.554 我们假定这只是一个很简单的公式 00:07:24.554 --> 00:07:26.701 x 乘以 w 等于 y。 00:07:26.705 --> 00:07:28.735 我把乘号打上了引号, 00:07:28.735 --> 00:07:31.105 因为实际的过程要复杂得多。 00:07:31.105 --> 00:07:34.135 牵涉到一系列非常复杂的数学运算。 NOTE Paragraph 00:07:35.172 --> 00:07:36.413 这是一个方程式, 00:07:36.417 --> 00:07:38.149 有三个变量。 00:07:38.149 --> 00:07:40.879 而我们知道在一个方程式中 00:07:40.879 --> 00:07:44.505 通过两个已知数 你就能算出另一个未知数。 00:07:45.158 --> 00:07:48.608 所以这道推论题, 00:07:48.608 --> 00:07:51.465 即判断出图中是一只鸟, 00:07:51.465 --> 00:07:52.753 可以这样来描述: 00:07:52.757 --> 00:07:56.266 y是未知数,w跟x都是已知数。 00:07:56.266 --> 00:07:58.819 也就是神经网络和像素是已知的。 00:07:58.819 --> 00:08:01.624 实际上这是一个相当简单的问题。 00:08:01.624 --> 00:08:04.260 你只需要用2乘以3,就完事儿了。 00:08:04.862 --> 00:08:07.025 我会给你们展示我们最近 完成的人工神经网络, 00:08:07.025 --> 00:08:09.305 它的工作原理正是如此。 NOTE Paragraph 00:08:09.634 --> 00:08:12.524 这是在一台在手机上 实时运行的神经网络, 00:08:12.524 --> 00:08:15.901 当然,令人惊叹的是它自身的运算能力, 00:08:15.901 --> 00:08:18.817 每秒钟可以进行 几十亿甚至几万亿次的 00:08:18.817 --> 00:08:20.633 运算。 00:08:20.633 --> 00:08:22.304 你所看到的是一台手机的 00:08:22.304 --> 00:08:25.885 相机对准了一张张含有鸟的图片, 00:08:25.885 --> 00:08:28.518 并且它不只能判断出, “是的,这是一只鸟”, 00:08:28.518 --> 00:08:32.360 而且还能用这种网络 来判断这些鸟的种类。 00:08:32.890 --> 00:08:34.776 因此在这张图片中, 00:08:34.776 --> 00:08:38.632 x和w是已知的,y是未知的。 00:08:38.632 --> 00:08:41.114 当然,我省略了非常复杂的那一部分, 00:08:41.114 --> 00:08:44.953 也就是我们如何判断出w? 00:08:44.953 --> 00:08:47.220 为什么大脑能做出这样的判断? 00:08:47.220 --> 00:08:49.028 我们是如何学会这种模式的? NOTE Paragraph 00:08:49.418 --> 00:08:52.645 在学习以及解出w的过程中, 00:08:52.645 --> 00:08:55.362 如果我们使用简单的等式 00:08:55.362 --> 00:08:57.256 将这些都想象成数字, 00:08:57.256 --> 00:09:00.051 那这道题就简单了: 6 = 2 x W, 00:09:00.051 --> 00:09:03.393 那么,用6除以2就可以得出答案。 00:09:04.001 --> 00:09:06.221 现在的问题就是这个运算符号。 00:09:06.823 --> 00:09:07.968 除法—— 00:09:07.968 --> 00:09:10.533 我们用除法是因为它是乘法的逆运算。 00:09:10.533 --> 00:09:12.517 但就像我刚才说的, 00:09:12.517 --> 00:09:15.086 乘法表述在这里其实不太准确。 00:09:15.086 --> 00:09:18.406 这是一个非常非常 复杂的非线性运算, 00:09:18.410 --> 00:09:20.174 它没有逆运算。 00:09:20.174 --> 00:09:23.348 所以我们要找出一个不使用除号 00:09:23.348 --> 00:09:25.406 就能解出这个方程式的方法。 00:09:25.406 --> 00:09:27.653 其实非常简单。 00:09:27.653 --> 00:09:30.468 只需要使用一点代数上的小技巧, 00:09:30.468 --> 00:09:33.398 将6移到等式的右边。 00:09:33.398 --> 00:09:35.198 现在我们仍然使用乘法。 00:09:35.675 --> 00:09:39.295 而这个0——我们就当它是一个误差。 00:09:39.295 --> 00:09:41.844 换句话说,如果我们 能用正确的方法解出w, 00:09:41.844 --> 00:09:43.504 那么这个误差就为0。 00:09:43.504 --> 00:09:45.320 如果我们没有找到正确的答案, 00:09:45.320 --> 00:09:47.123 那么这个误差就会大于0。 NOTE Paragraph 00:09:47.123 --> 00:09:50.639 所以现在我们可以通过 假设去缩小这个误差, 00:09:50.639 --> 00:09:52.954 而这正是电脑所擅长的。 00:09:52.954 --> 00:09:54.151 比如你最开始假设: 00:09:54.151 --> 00:09:54.961 如果w = 0呢? 00:09:54.961 --> 00:09:56.115 那么误差就为6。 00:09:56.115 --> 00:09:58.645 如果w = 1呢?误差就变成了4。 00:09:58.645 --> 00:10:01.252 然后电脑就像玩游戏一样不断测试, 00:10:01.256 --> 00:10:03.653 将误差降低到接近于0。 00:10:03.653 --> 00:10:06.955 这样就逐步逼近了w的值。 00:10:06.955 --> 00:10:10.801 通常来说,它不可能获得完全精确的值, 但是经过很多步运算以后, 00:10:10.801 --> 00:10:15.349 我们得到了 w = 2.999, 已经足够精确了。 00:10:16.302 --> 00:10:18.156 以上就是这个学习过程。 NOTE Paragraph 00:10:18.156 --> 00:10:20.900 大家回想一下刚刚我们所做的, 00:10:20.900 --> 00:10:25.342 我们用了很多已知的x和y的值, 00:10:25.342 --> 00:10:28.790 通过迭代法去解出中间的w, 00:10:28.790 --> 00:10:32.304 这也正是我们自己 在学习时所使用的方法。 00:10:32.304 --> 00:10:34.644 在我们很小的时候, 会看到很多很多图像, 00:10:34.644 --> 00:10:37.241 然后有人告诉我们: “这个是鸟,这个不是鸟。” 00:10:37.714 --> 00:10:39.806 经过一段时间的重复, 00:10:39.806 --> 00:10:42.764 我们解出了w,建立起了 神经元之间的连接。 NOTE Paragraph 00:10:43.460 --> 00:10:47.790 那么现在,我们有了确定的 x和w。再要去解出Y 00:10:47.790 --> 00:10:49.371 就会非常快了。 00:10:49.371 --> 00:10:51.188 我们找到解出w的方法, 00:10:51.188 --> 00:10:53.211 这是一种学习,要困难得多, 00:10:53.211 --> 00:10:54.864 因为我们要用很多的训练样本, 00:10:54.864 --> 00:10:56.815 去将误差最小化。 NOTE Paragraph 00:10:56.815 --> 00:11:00.046 一年前,我们团队的 亚历克斯 · 莫尔德温采夫 00:11:00.046 --> 00:11:03.600 决定做一个实验, 看如果给定已知的w和y, 00:11:03.600 --> 00:11:05.697 去解出x,会发生什么。 00:11:06.124 --> 00:11:07.109 换句话说, 00:11:07.109 --> 00:11:08.671 你已经知道那是一只鸟 00:11:08.675 --> 00:11:11.962 并且也有一个接受过 鸟类识别训练的神经网络, 00:11:11.962 --> 00:11:14.346 那么一只鸟的图像是怎样的呢? 00:11:15.034 --> 00:11:20.078 我们发现,通过运用相同的 将误差最小化的步骤, 00:11:20.082 --> 00:11:23.562 加上一个受过鸟类识别 训练的神经网络, 00:11:23.562 --> 00:11:26.924 我们就可以得到 00:11:30.400 --> 00:11:31.705 一张含有鸟的图片。 00:11:32.814 --> 00:11:36.515 这是一张由一个进行过 鸟类识别训练的 00:11:36.515 --> 00:11:38.441 神经网络所生成的鸟的图片, 00:11:38.441 --> 00:11:41.907 仅仅是通过解出x,而不是y, 00:11:41.907 --> 00:11:43.275 并且重复不断的运行。 NOTE Paragraph 00:11:43.732 --> 00:11:45.639 这是另外一个有趣的例子 00:11:45.639 --> 00:11:49.014 是我们团队的迈克 · 泰卡制作的 , 00:11:49.014 --> 00:11:51.442 他称之为“动物大游行”。 00:11:51.442 --> 00:11:54.392 这让我想起了威廉 ·肯特里奇的作品, 00:11:54.392 --> 00:11:56.835 他先画一些素描,然后擦掉, 00:11:56.835 --> 00:11:58.133 再画一些素描,再擦掉, 00:11:58.133 --> 00:11:59.275 用这种方法创作了一部影片。 00:11:59.275 --> 00:12:00.830 在我们这个案例中, 00:12:00.830 --> 00:12:04.041 迈克在一个旨在识别和辨认 00:12:04.041 --> 00:12:06.193 不同种类动物的神经网络中 00:12:06.193 --> 00:12:07.441 将y变换成各种不同的动物。 00:12:07.441 --> 00:12:12.182 这样你就得到了这个奇特的 动物图像的埃舍尔式变换效果。 NOTE Paragraph 00:12:14.221 --> 00:12:18.779 他和亚历克斯还一起尝试了 00:12:18.779 --> 00:12:21.622 将这些y降低到一个二维空间内, 00:12:21.622 --> 00:12:25.110 从而将被该神经网络识别出来的 00:12:25.110 --> 00:12:26.823 所有对象放到一张图上来。 00:12:26.827 --> 00:12:28.890 通过这样的合成 00:12:28.894 --> 00:12:30.920 或者在整个表面上生成图像, 00:12:30.920 --> 00:12:33.900 在表面上不断的变换y, 你就创造出了一种图像—— 00:12:33.900 --> 00:12:37.135 一个包含该神经网络能够 分辨出来的所有对象的视觉图像。 00:12:37.135 --> 00:12:40.200 所有的动物都在这儿, 犰狳在那个点上。 NOTE Paragraph 00:12:40.919 --> 00:12:43.082 你也可以用其它的神经网络 实现类似的目的。 00:12:43.082 --> 00:12:46.270 这是一个为识别和分辨出不同面孔 00:12:46.270 --> 00:12:48.294 而设计的神经网络。 00:12:48.294 --> 00:12:51.567 这里,我们输入一个y值,代表“我”, 00:12:51.567 --> 00:12:53.222 我自己的面部参数。 00:12:53.222 --> 00:12:55.042 当它在解出x的时候, 00:12:55.042 --> 00:12:57.558 就生成了这张集不同视角 于一体,相当不可思议的, 00:12:57.558 --> 00:13:02.000 立体的、超现实的、迷幻版本的 00:13:02.000 --> 00:13:03.770 我的面部图像。 00:13:03.770 --> 00:13:06.208 它之所以看起来像是集不同视角于一体, 00:13:06.208 --> 00:13:10.315 是因为这个神经网络被设计成将一张脸 00:13:10.319 --> 00:13:12.845 在不同姿势、不同光线之间产生的 00:13:12.845 --> 00:13:16.179 模棱两可的地方抹掉了。 00:13:16.179 --> 00:13:17.858 因此当你开始这项复原工作时, 00:13:17.858 --> 00:13:20.692 如果不利用某种影像引导, 00:13:20.692 --> 00:13:21.937 或者统计引导, 00:13:21.937 --> 00:13:25.630 那么你就会得到一种 令人困惑的多视角的图像, 00:13:25.630 --> 00:13:27.068 因为它是模棱两可的。 00:13:27.786 --> 00:13:31.953 这就是亚历克斯在复原 我的面部的优化流程中, 00:13:31.953 --> 00:13:35.354 用他自己的脸作为 影像引导时所得到的图像。 00:13:36.284 --> 00:13:38.546 你可以看到它还不是十分完美。 00:13:38.546 --> 00:13:40.274 我们在完善这个优化流程方面 00:13:40.274 --> 00:13:42.987 还有许多的工作要做。 00:13:42.991 --> 00:13:45.908 但是通过将我自己的脸 作为渲染过程中的引导, 00:13:45.908 --> 00:13:47.876 你已经可以得到一个 更清晰的面孔了。 NOTE Paragraph 00:13:48.892 --> 00:13:51.347 你不需要完全从一块空白的画布 00:13:51.347 --> 00:13:52.477 或白噪音开始。 00:13:52.477 --> 00:13:53.535 当你在解出x时, 00:13:53.535 --> 00:13:57.814 你可以从一个本身已经是 别的图像的x开始。 00:13:57.818 --> 00:14:00.368 正如这个小小的展示那样。 00:14:00.368 --> 00:14:04.540 这是一个设计为用来将所有物品—— 00:14:04.544 --> 00:14:07.677 人造结构、动物等进行分类的神经网络。 00:14:07.677 --> 00:14:10.294 我们从一张云图开始, 00:14:10.294 --> 00:14:11.995 在优化过程中, 00:14:12.009 --> 00:14:16.505 这个神经网络正在不停地计算 它在云中看到了什么。 00:14:16.931 --> 00:14:19.331 你花越多的时间盯着这张图, 00:14:19.331 --> 00:14:22.028 你就会在云中看到越多的东西。 00:14:23.004 --> 00:14:26.379 你也可以使用面部识别 神经网络去产生迷幻效果, 00:14:26.383 --> 00:14:28.199 然后就可以得到这种不可思议的东西。 NOTE Paragraph 00:14:28.199 --> 00:14:29.389 (观众笑声) NOTE Paragraph 00:14:30.401 --> 00:14:33.079 或者可以像迈克做的另外一个实验那样, 00:14:33.079 --> 00:14:37.058 他还是利用那张云图, 00:14:37.058 --> 00:14:40.529 使它幻化、再放大, 幻化再放大,幻化再放大. 00:14:40.529 --> 00:14:41.594 这样一来, 00:14:41.594 --> 00:14:45.453 我想你就可以得到 这个网络的神游状态, 00:14:45.453 --> 00:14:49.157 或者某种自由联想, 00:14:49.157 --> 00:14:51.454 仿佛这个网络正在吞噬自己的尾巴。 00:14:51.458 --> 00:14:54.843 因此每一张图都是 下一张图的基础,决定了 00:14:54.843 --> 00:14:56.298 “我觉得接下来会看到什么? 00:14:56.298 --> 00:14:59.151 接下来又会看到什么? 接下来还会看到什么?” NOTE Paragraph 00:14:59.487 --> 00:15:02.473 我第一次公开展示这些是在西雅图, 00:15:02.473 --> 00:15:07.934 为一个团队做的一次名为 “高等教育”的讲座上—— 00:15:07.934 --> 00:15:10.435 刚好就在大麻合法化之后。 NOTE Paragraph 00:15:10.435 --> 00:15:12.784 (观众笑声) NOTE Paragraph 00:15:14.627 --> 00:15:16.821 在结束我的演讲前, 00:15:16.821 --> 00:15:21.150 我想再提醒各位, 这种技术是不受限的。 00:15:21.150 --> 00:15:24.694 我给你们看了一些纯粹的视觉实例, 因为它们看起来真的很有趣。 00:15:24.694 --> 00:15:27.475 它不是一种纯粹的视觉技术。 00:15:27.475 --> 00:15:29.200 我们的合作者,艺术家罗斯 · 古德温 00:15:29.200 --> 00:15:33.008 做了一个实验,他用相机拍了一张照片, 00:15:33.008 --> 00:15:37.366 然后他背包里的电脑 基于这张照片的内容, 00:15:37.366 --> 00:15:39.627 用神经网络作了一首诗。 00:15:39.627 --> 00:15:42.355 这个作诗的神经网络已经接受过 00:15:42.355 --> 00:15:44.658 大量的20世纪诗歌的训练。 00:15:44.658 --> 00:15:45.870 其实我觉得 00:15:45.870 --> 00:15:47.756 那首诗还不赖。 NOTE Paragraph 00:15:47.756 --> 00:15:49.154 (观众笑声) NOTE Paragraph 00:15:49.154 --> 00:15:50.453 下面, 00:15:50.453 --> 00:15:52.473 再回到米开朗基罗那句名言, 00:15:52.473 --> 00:15:53.897 我想他是对的, 00:15:53.897 --> 00:15:57.267 感知和创意是密不可分的。 00:15:57.611 --> 00:16:00.305 我们刚刚所看到的是一些 00:16:00.305 --> 00:16:02.612 完全被训练成去区分, 00:16:02.612 --> 00:16:04.838 或辨别世上的不同物品, 00:16:04.838 --> 00:16:08.073 能够逆向运行、成生图像的神经网络。 00:16:08.073 --> 00:16:09.814 我从中受到的启发之一就是, 00:16:09.814 --> 00:16:12.216 不仅米开朗基罗真的看到了 00:16:12.216 --> 00:16:14.702 石头中的雕像, 00:16:14.702 --> 00:16:18.344 而且任何的生物、任何人、任何外星人, 00:16:18.344 --> 00:16:22.015 只要能够有这样的感知, 00:16:22.015 --> 00:16:23.520 也就能够创造, 00:16:23.520 --> 00:16:26.798 因为它们都运用了截然相同的机制。 NOTE Paragraph 00:16:26.798 --> 00:16:31.228 另外,我想感知和创意决不是 00:16:31.228 --> 00:16:32.548 人类所特有的。 00:16:32.548 --> 00:16:36.074 我们开始有了可以 完成这些事的电脑模型。 00:16:36.074 --> 00:16:39.652 这应当不足为奇,因为大脑会运算。 NOTE Paragraph 00:16:39.652 --> 00:16:41.247 最后, 00:16:41.247 --> 00:16:46.025 电脑运算最开始是作为 设计智能机器的一种练习。 00:16:46.025 --> 00:16:48.511 它在很大程度上仿照了我们如何 00:16:48.511 --> 00:16:51.618 让机器变得智能这一理念。 00:16:51.618 --> 00:16:53.498 而我们也终于开始能够实现 00:16:53.498 --> 00:16:56.154 图灵、冯 · 诺依曼、 00:16:56.154 --> 00:16:57.881 麦卡洛克和皮兹 00:16:57.881 --> 00:17:00.220 这些先驱的一些期望了。 00:17:00.220 --> 00:17:04.302 我觉得电脑不仅仅是拿来计算, 00:17:04.302 --> 00:17:06.483 或者玩游戏的。 00:17:06.483 --> 00:17:08.999 从一开始,我们就是 仿照大脑来制造它们的。 00:17:08.999 --> 00:17:12.282 而它们也赋予了我们能够 更好的理解我们的大脑, 00:17:12.282 --> 00:17:13.871 并且拓展其潜力的能力。 NOTE Paragraph 00:17:14.627 --> 00:17:15.738 非常感谢。 NOTE Paragraph 00:17:15.738 --> 00:17:20.857 (观众掌声)