0:00:00.800,0:00:03.954 我在谷歌领导着一个[br]机器智能的项目组, 0:00:03.954,0:00:08.658 换句话说,利用工程学原理制造出 0:00:08.658,0:00:11.041 能够像人脑一样[br]完成某些任务的电脑和设备。 0:00:11.439,0:00:14.598 这也使我们对人类的[br]大脑以及神经科学 0:00:14.598,0:00:15.871 产生了兴趣, 0:00:15.875,0:00:20.087 尤其在那些大脑的表现 0:00:20.087,0:00:24.113 比电脑强太多的领域。 0:00:25.209,0:00:28.918 长期以来,我们研究的[br]其中一个领域便是感知, 0:00:28.918,0:00:31.855 一种将外界事物—— 0:00:31.855,0:00:33.539 比如图像或声音— 0:00:33.539,0:00:35.691 转化为大脑内概念的过程。 0:00:36.235,0:00:38.902 这对我们的大脑很重要, 0:00:38.902,0:00:41.240 对计算机的作用也非同小可。 0:00:41.636,0:00:44.790 例如,我们团队开发的机器感知算法 0:00:44.790,0:00:48.924 会根据图片的内容[br]让你在谷歌相册的图片[br] 0:00:48.924,0:00:50.305 出现在搜索结果中。 0:00:51.594,0:00:55.157 感知的另一方面是创意: 0:00:55.157,0:00:58.199 将概念变成现实。 0:00:58.199,0:01:01.768 因此,这些年我们[br]在机器感知能力方面的工作 0:01:01.768,0:01:06.691 也意外地跟机器创意以及机器艺术 0:01:06.691,0:01:07.795 联系在了一起。 0:01:08.556,0:01:11.890 我觉得米开朗基罗对感知和创意 0:01:11.890,0:01:15.520 之间的双重关系有着深刻的见解。 0:01:16.023,0:01:18.099 他有一句名言: 0:01:18.099,0:01:21.376 “每一块石头里都藏着一尊雕像, 0:01:22.036,0:01:25.038 而雕塑家的工作就是去发现它。” 0:01:26.029,0:01:29.275 我想米开朗基罗意思是 0:01:29.275,0:01:32.489 我们通过感知来创造, 0:01:32.489,0:01:35.536 而感知本身是想象力的表现, 0:01:35.536,0:01:37.981 以及创意的来源。 0:01:38.691,0:01:42.666 而进行思考、感知和想象的器官, 0:01:42.666,0:01:44.228 毫无疑问,就是大脑。 0:01:45.089,0:01:47.684 我想先简单地谈一谈 0:01:47.684,0:01:49.960 我们对大脑的了解。 0:01:50.496,0:01:53.012 因为不像心脏或其它内脏, 0:01:53.012,0:01:56.160 你无法仅仅通过观察[br]就能看出点什么来, 0:01:56.160,0:01:57.546 至少仅凭肉眼看不出来。 0:01:57.983,0:02:00.449 早期的解剖学家看着大脑, 0:02:00.449,0:02:04.260 给它的表面结构[br]取了各种充满想象力的名字。 0:02:04.260,0:02:06.717 比如说海马体,意思是“小虾子”。 0:02:06.717,0:02:09.385 但这些并不能告诉我们 0:02:09.385,0:02:11.817 大脑里面究竟是怎样工作的。 0:02:12.780,0:02:16.423 我认为第一个真正对大脑的工作方式 0:02:16.423,0:02:18.377 有所洞悉的人, 0:02:18.377,0:02:22.341 是19世纪西班牙[br]伟大的神经解剖学家 0:02:22.341,0:02:23.843 圣地亚哥 · 拉蒙 · 卡哈尔[br](Santiago Ramón y Cajal), 0:02:23.843,0:02:27.688 他使用了显微镜以及某种特殊染色剂, 0:02:27.688,0:02:31.892 有选择性地将大脑中的[br]单个细胞填充或者渲染上 0:02:31.892,0:02:33.848 高对比度的颜色, 0:02:33.848,0:02:37.042 以便了解它们的形态。 0:02:37.972,0:02:40.857 这些就是他在19世纪 0:02:40.857,0:02:42.090 完成的的神经元手绘图。 0:02:42.090,0:02:44.084 这是一只鸟的大脑。 0:02:44.084,0:02:47.019 能看到这些形态各异的细胞, 0:02:47.019,0:02:50.538 甚至在当时对细胞学说[br]本身还是新鲜事物。 0:02:50.538,0:02:51.840 而这些结构, 0:02:51.840,0:02:54.169 像树枝一样分岔, 0:02:54.169,0:02:56.425 能够延伸到很长的距离—— 0:02:56.425,0:02:58.401 这些在当时都是闻所未闻。 0:02:58.779,0:03:01.712 他们让人联想到的,当然是电线。 0:03:01.712,0:03:05.163 这对于很多19世纪的人[br]来说是显而易见的, 0:03:05.187,0:03:09.501 因为那时电线和电力革命刚刚兴起。 0:03:09.964,0:03:11.202 但是在许多方面 0:03:11.202,0:03:14.463 拉蒙 · 卡哈尔的神经解剖学[br]绘画,比如这一张, 0:03:14.463,0:03:16.875 从某些方面来说是很卓越的。 0:03:16.875,0:03:18.743 一个多世纪后的我们,仍然在继续 0:03:18.743,0:03:21.602 尝试完成拉蒙 · 卡哈尔开启的事业。 0:03:21.602,0:03:24.740 提供这些原始数据的,是我们来自 0:03:24.744,0:03:27.675 马克斯 · 普朗克[br]神经科学研究所的合作者。 0:03:27.675,0:03:29.433 他们的工作 0:03:29.433,0:03:34.544 是对那些小块的脑组织进行成像。 0:03:34.544,0:03:37.844 这一整个样品的大小[br]是1立方毫米左右, 0:03:37.844,0:03:40.519 而我展示的只是它上面[br]很小很小的一块区域。 0:03:40.519,0:03:42.909 左边那段比例尺的长度是1微米。 0:03:42.909,0:03:45.246 你看到的这个结构 0:03:45.246,0:03:47.360 是一个细菌大小的线粒体。 0:03:47.360,0:03:49.005 这些是利用这个非常微小的组织 0:03:49.005,0:03:52.117 所制作成的连续的切片。 0:03:52.117,0:03:54.544 我们来做个对比。 0:03:54.544,0:03:58.410 通常一根头发的直径是[br]100微米左右。 0:03:58.410,0:04:00.592 所以我们看到的东西 0:04:00.592,0:04:02.034 比一根头发丝还要细很多。 0:04:02.034,0:04:06.089 通过这些连续的电子显微镜切片, 0:04:06.089,0:04:11.157 人们可以重构出类似这样的[br]神经元三维图像。 0:04:11.157,0:04:14.348 某种程度上,这跟拉蒙 · 卡哈尔[br]所用的方式是一样的。 0:04:14.348,0:04:15.874 我们只对少量的神经元进行了突出显示, 0:04:15.874,0:04:18.613 否则我们不可能看到任何东西, 0:04:18.613,0:04:19.995 因为那样一来画面会很拥挤, 0:04:19.995,0:04:21.569 充满了组织结构, 0:04:21.569,0:04:24.067 充满了各个神经元间[br]纵横交错的通路。 0:04:25.293,0:04:28.137 显然,拉蒙 · 卡哈尔[br]有一点超前于他的时代, 0:04:28.137,0:04:30.836 接下来的几十年间 0:04:30.836,0:04:32.971 人们对大脑的理解进展非常缓慢。 0:04:33.455,0:04:36.292 但是我们已经知道,[br]神经元通过电流传导信息, 0:04:36.292,0:04:39.328 而到二战时,我们的技术[br]已取得了长足的进步, 0:04:39.328,0:04:42.158 可以开始在活的[br]神经元细胞上做电流实验, 0:04:42.158,0:04:44.228 以便更好地理解它们的工作原理。 0:04:44.631,0:04:49.037 而电脑也正是在[br]这个时候被发明了出来, 0:04:49.037,0:04:52.201 它的发明是基于对大脑的模拟—— 0:04:52.201,0:04:55.270 也就是阿兰 · 图灵[br]所称的“智能机器”理念, 0:04:55.270,0:04:57.235 图灵是计算机科学的开创者之一。 0:04:57.923,0:05:02.539 沃伦 · 麦卡洛克(Warren McCulloch)和[br]沃尔特 · 皮兹(Walter Pitts)看到了 0:05:02.539,0:05:03.936 拉蒙 · 卡哈尔所画的[br]大脑视觉皮层, 0:05:03.936,0:05:05.582 就是我给你们看的这个。 0:05:05.582,0:05:09.948 这是负责处理我们视觉信息的大脑皮层。 0:05:10.424,0:05:13.932 对他们来说,这看起来像一个电路图。 0:05:14.353,0:05:18.238 在麦卡洛克和皮兹的电路图上, 0:05:18.238,0:05:19.558 有许多细节并不是那么正确。 0:05:19.558,0:05:20.973 但基本概念是对的, 0:05:20.973,0:05:24.909 他们认为视觉皮层工作起来[br]就像一系列计算机元件 0:05:24.909,0:05:27.669 在同一个层级中传递信息, 0:05:27.669,0:05:29.295 这一点是对的。 0:05:29.295,0:05:31.669 我们再聊一聊 0:05:31.669,0:05:35.665 视觉信息处理模型需要做些什么。 0:05:36.228,0:05:39.039 感知的基本任务就是 0:05:39.039,0:05:43.171 抓取这样的图像并且告诉我们 0:05:43.171,0:05:44.381 “这是一只鸟”, 0:05:44.391,0:05:47.345 这对我们的大脑来说非常简单。 0:05:47.345,0:05:50.760 但对一台电脑来说, 0:05:50.760,0:05:53.871 在几年前,这还是完全不可能的事。 0:05:53.871,0:05:55.851 传统的计算模式 0:05:55.851,0:05:58.312 很难完成这个任务。 0:05:59.366,0:06:01.958 像素、鸟的图像以及“鸟”这个词, 0:06:01.958,0:06:05.914 这三者之间所产生的联系, 0:06:05.914,0:06:08.792 本质上是在一个神经网络中各神经元 0:06:08.792,0:06:09.901 相互连接的结果, 0:06:09.901,0:06:11.294 正如这张图所示。 0:06:11.294,0:06:14.610 这种神经网络可能是生物学上的,[br]存在于我们大脑视觉皮层里, 0:06:14.610,0:06:16.776 或者,现如今我们开始有能力 0:06:16.776,0:06:19.194 在电脑上模拟这种神经网络。 0:06:19.834,0:06:22.217 我们来看一下它的工作原理。 0:06:22.217,0:06:25.657 可以将像素想像成第一层的神经元, 0:06:25.657,0:06:27.864 这实际上就是在[br]眼睛内部的工作原理—— 0:06:27.864,0:06:29.617 是视网膜上的神经元。 0:06:29.617,0:06:31.181 然后这些前馈信息 0:06:31.181,0:06:34.528 通过一层层神经元往下传递, 0:06:34.528,0:06:37.625 这些神经元通过突触彼此连接。 0:06:37.625,0:06:39.024 这个神经网络的行为 0:06:39.024,0:06:42.292 是通过所有这些突触的强度来表达的, 0:06:42.292,0:06:45.584 也塑造了这个网络的计算性能。 0:06:45.588,0:06:47.042 最终, 0:06:47.042,0:06:49.589 一个或者一小群神经元 0:06:49.589,0:06:51.200 会亮起来,说,“鸟”。 0:06:51.824,0:06:55.026 接下来我会将这三部分—— 0:06:55.026,0:06:59.706 输入的像素,神经网络中的突触, 0:06:59.706,0:07:01.315 以及“鸟”,这个输出结果—— 0:07:01.315,0:07:04.366 用三个变量来表示:x、w和y。 0:07:04.853,0:07:06.694 在那张图片上可能会有一百万个x—— 0:07:06.694,0:07:08.625 代表一百万个像素点。 0:07:08.625,0:07:11.151 然后有几十亿或几万亿的w, 0:07:11.151,0:07:14.550 代表着神经网络中所有突触的权重。 0:07:14.550,0:07:16.525 只有很少数量的y, 0:07:16.525,0:07:18.387 代表整个网络的输出结果。 0:07:18.387,0:07:20.110 “Bird(鸟)"这个单词[br]只有四个字母,对吧? 0:07:21.088,0:07:24.554 我们假定这只是一个很简单的公式 0:07:24.554,0:07:26.701 x 乘以 w 等于 y。 0:07:26.705,0:07:28.735 我把乘号打上了引号, 0:07:28.735,0:07:31.105 因为实际的过程要复杂得多。 0:07:31.105,0:07:34.135 牵涉到一系列非常复杂的数学运算。 0:07:35.172,0:07:36.413 这是一个方程式, 0:07:36.417,0:07:38.149 有三个变量。 0:07:38.149,0:07:40.879 而我们知道在一个方程式中 0:07:40.879,0:07:44.505 通过两个已知数[br]你就能算出另一个未知数。 0:07:45.158,0:07:48.608 所以这道推论题, 0:07:48.608,0:07:51.465 即判断出图中是一只鸟, 0:07:51.465,0:07:52.753 可以这样来描述: 0:07:52.757,0:07:56.266 y是未知数,w跟x都是已知数。 0:07:56.266,0:07:58.819 也就是神经网络和像素是已知的。 0:07:58.819,0:08:01.624 实际上这是一个相当简单的问题。 0:08:01.624,0:08:04.260 你只需要用2乘以3,就完事儿了。 0:08:04.862,0:08:07.025 我会给你们展示我们最近[br]完成的人工神经网络, 0:08:07.025,0:08:09.305 它的工作原理正是如此。 0:08:09.634,0:08:12.524 这是在一台在手机上[br]实时运行的神经网络, 0:08:12.524,0:08:15.901 当然,令人惊叹的是它自身的运算能力, 0:08:15.901,0:08:18.817 每秒钟可以进行[br]几十亿甚至几万亿次的 0:08:18.817,0:08:20.633 运算。 0:08:20.633,0:08:22.304 你所看到的是一台手机的 0:08:22.304,0:08:25.885 相机对准了一张张含有鸟的图片, 0:08:25.885,0:08:28.518 并且它不只能判断出,[br]“是的,这是一只鸟”, 0:08:28.518,0:08:32.360 而且还能用这种网络[br]来判断这些鸟的种类。 0:08:32.890,0:08:34.776 因此在这张图片中, 0:08:34.776,0:08:38.632 x和w是已知的,y是未知的。 0:08:38.632,0:08:41.114 当然,我省略了非常复杂的那一部分, 0:08:41.114,0:08:44.953 也就是我们如何判断出w? 0:08:44.953,0:08:47.220 为什么大脑能做出这样的判断? 0:08:47.220,0:08:49.028 我们是如何学会这种模式的? 0:08:49.418,0:08:52.645 在学习以及解出w的过程中, 0:08:52.645,0:08:55.362 如果我们使用简单的等式 0:08:55.362,0:08:57.256 将这些都想象成数字, 0:08:57.256,0:09:00.051 那这道题就简单了: 6 = 2 x W, 0:09:00.051,0:09:03.393 那么,用6除以2就可以得出答案。 0:09:04.001,0:09:06.221 现在的问题就是这个运算符号。 0:09:06.823,0:09:07.968 除法—— 0:09:07.968,0:09:10.533 我们用除法是因为它是乘法的逆运算。 0:09:10.533,0:09:12.517 但就像我刚才说的, 0:09:12.517,0:09:15.086 乘法表述在这里其实不太准确。 0:09:15.086,0:09:18.406 这是一个非常非常[br]复杂的非线性运算, 0:09:18.410,0:09:20.174 它没有逆运算。 0:09:20.174,0:09:23.348 所以我们要找出一个不使用除号 0:09:23.348,0:09:25.406 就能解出这个方程式的方法。 0:09:25.406,0:09:27.653 其实非常简单。 0:09:27.653,0:09:30.468 只需要使用一点代数上的小技巧, 0:09:30.468,0:09:33.398 将6移到等式的右边。 0:09:33.398,0:09:35.198 现在我们仍然使用乘法。 0:09:35.675,0:09:39.295 而这个0——我们就当它是一个误差。 0:09:39.295,0:09:41.844 换句话说,如果我们[br]能用正确的方法解出w, 0:09:41.844,0:09:43.504 那么这个误差就为0。 0:09:43.504,0:09:45.320 如果我们没有找到正确的答案, 0:09:45.320,0:09:47.123 那么这个误差就会大于0。 0:09:47.123,0:09:50.639 所以现在我们可以通过[br]假设去缩小这个误差, 0:09:50.639,0:09:52.954 而这正是电脑所擅长的。 0:09:52.954,0:09:54.151 比如你最开始假设: 0:09:54.151,0:09:54.961 如果w = 0呢? 0:09:54.961,0:09:56.115 那么误差就为6。 0:09:56.115,0:09:58.645 如果w = 1呢?误差就变成了4。 0:09:58.645,0:10:01.252 然后电脑就像玩游戏一样不断测试, 0:10:01.256,0:10:03.653 将误差降低到接近于0。 0:10:03.653,0:10:06.955 这样就逐步逼近了w的值。 0:10:06.955,0:10:10.801 通常来说,它不可能获得完全精确的值,[br]但是经过很多步运算以后, 0:10:10.801,0:10:15.349 我们得到了 w = 2.999,[br]已经足够精确了。 0:10:16.302,0:10:18.156 以上就是这个学习过程。 0:10:18.156,0:10:20.900 大家回想一下刚刚我们所做的, 0:10:20.900,0:10:25.342 我们用了很多已知的x和y的值, 0:10:25.342,0:10:28.790 通过迭代法去解出中间的w, 0:10:28.790,0:10:32.304 这也正是我们自己[br]在学习时所使用的方法。 0:10:32.304,0:10:34.644 在我们很小的时候,[br]会看到很多很多图像, 0:10:34.644,0:10:37.241 然后有人告诉我们:[br]“这个是鸟,这个不是鸟。” 0:10:37.714,0:10:39.806 经过一段时间的重复, 0:10:39.806,0:10:42.764 我们解出了w,建立起了[br]神经元之间的连接。 0:10:43.460,0:10:47.790 那么现在,我们有了确定的[br]x和w。再要去解出Y 0:10:47.790,0:10:49.371 就会非常快了。 0:10:49.371,0:10:51.188 我们找到解出w的方法, 0:10:51.188,0:10:53.211 这是一种学习,要困难得多, 0:10:53.211,0:10:54.864 因为我们要用很多的训练样本, 0:10:54.864,0:10:56.815 去将误差最小化。 0:10:56.815,0:11:00.046 一年前,我们团队的[br]亚历克斯 · 莫尔德温采夫 0:11:00.046,0:11:03.600 决定做一个实验,[br]看如果给定已知的w和y, 0:11:03.600,0:11:05.697 去解出x,会发生什么。 0:11:06.124,0:11:07.109 换句话说, 0:11:07.109,0:11:08.671 你已经知道那是一只鸟 0:11:08.675,0:11:11.962 并且也有一个接受过[br]鸟类识别训练的神经网络, 0:11:11.962,0:11:14.346 那么一只鸟的图像是怎样的呢? 0:11:15.034,0:11:20.078 我们发现,通过运用相同的[br]将误差最小化的步骤, 0:11:20.082,0:11:23.562 加上一个受过鸟类识别[br]训练的神经网络, 0:11:23.562,0:11:26.924 我们就可以得到 0:11:30.400,0:11:31.705 一张含有鸟的图片。 0:11:32.814,0:11:36.515 这是一张由一个进行过[br]鸟类识别训练的 0:11:36.515,0:11:38.441 神经网络所生成的鸟的图片, 0:11:38.441,0:11:41.907 仅仅是通过解出x,而不是y, 0:11:41.907,0:11:43.275 并且重复不断的运行。 0:11:43.732,0:11:45.639 这是另外一个有趣的例子 0:11:45.639,0:11:49.014 是我们团队的迈克 · 泰卡制作的 , 0:11:49.014,0:11:51.442 他称之为“动物大游行”。 0:11:51.442,0:11:54.392 这让我想起了威廉 ·肯特里奇的作品, 0:11:54.392,0:11:56.835 他先画一些素描,然后擦掉, 0:11:56.835,0:11:58.133 再画一些素描,再擦掉, 0:11:58.133,0:11:59.275 用这种方法创作了一部影片。 0:11:59.275,0:12:00.830 在我们这个案例中, 0:12:00.830,0:12:04.041 迈克在一个旨在识别和辨认 0:12:04.041,0:12:06.193 不同种类动物的神经网络中 0:12:06.193,0:12:07.441 将y变换成各种不同的动物。 0:12:07.441,0:12:12.182 这样你就得到了这个奇特的[br]动物图像的埃舍尔式变换效果。 0:12:14.221,0:12:18.779 他和亚历克斯还一起尝试了 0:12:18.779,0:12:21.622 将这些y降低到一个二维空间内, 0:12:21.622,0:12:25.110 从而将被该神经网络识别出来的 0:12:25.110,0:12:26.823 所有对象放到一张图上来。 0:12:26.827,0:12:28.890 通过这样的合成 0:12:28.894,0:12:30.920 或者在整个表面上生成图像, 0:12:30.920,0:12:33.900 在表面上不断的变换y,[br]你就创造出了一种图像—— 0:12:33.900,0:12:37.135 一个包含该神经网络能够[br]分辨出来的所有对象的视觉图像。 0:12:37.135,0:12:40.200 所有的动物都在这儿,[br]犰狳在那个点上。 0:12:40.919,0:12:43.082 你也可以用其它的神经网络[br]实现类似的目的。 0:12:43.082,0:12:46.270 这是一个为识别和分辨出不同面孔 0:12:46.270,0:12:48.294 而设计的神经网络。 0:12:48.294,0:12:51.567 这里,我们输入一个y值,代表“我”, 0:12:51.567,0:12:53.222 我自己的面部参数。 0:12:53.222,0:12:55.042 当它在解出x的时候, 0:12:55.042,0:12:57.558 就生成了这张集不同视角[br]于一体,相当不可思议的, 0:12:57.558,0:13:02.000 立体的、超现实的、迷幻版本的 0:13:02.000,0:13:03.770 我的面部图像。 0:13:03.770,0:13:06.208 它之所以看起来像是集不同视角于一体, 0:13:06.208,0:13:10.315 是因为这个神经网络被设计成将一张脸 0:13:10.319,0:13:12.845 在不同姿势、不同光线之间产生的 0:13:12.845,0:13:16.179 模棱两可的地方抹掉了。 0:13:16.179,0:13:17.858 因此当你开始这项复原工作时, 0:13:17.858,0:13:20.692 如果不利用某种影像引导, 0:13:20.692,0:13:21.937 或者统计引导, 0:13:21.937,0:13:25.630 那么你就会得到一种[br]令人困惑的多视角的图像, 0:13:25.630,0:13:27.068 因为它是模棱两可的。 0:13:27.786,0:13:31.953 这就是亚历克斯在复原[br]我的面部的优化流程中, 0:13:31.953,0:13:35.354 用他自己的脸作为[br]影像引导时所得到的图像。 0:13:36.284,0:13:38.546 你可以看到它还不是十分完美。 0:13:38.546,0:13:40.274 我们在完善这个优化流程方面 0:13:40.274,0:13:42.987 还有许多的工作要做。 0:13:42.991,0:13:45.908 但是通过将我自己的脸[br]作为渲染过程中的引导, 0:13:45.908,0:13:47.876 你已经可以得到一个[br]更清晰的面孔了。 0:13:48.892,0:13:51.347 你不需要完全从一块空白的画布 0:13:51.347,0:13:52.477 或白噪音开始。 0:13:52.477,0:13:53.535 当你在解出x时, 0:13:53.535,0:13:57.814 你可以从一个本身已经是[br]别的图像的x开始。 0:13:57.818,0:14:00.368 正如这个小小的展示那样。 0:14:00.368,0:14:04.540 这是一个设计为用来将所有物品—— 0:14:04.544,0:14:07.677 人造结构、动物等进行分类的神经网络。 0:14:07.677,0:14:10.294 我们从一张云图开始, 0:14:10.294,0:14:11.995 在优化过程中, 0:14:12.009,0:14:16.505 这个神经网络正在不停地计算[br]它在云中看到了什么。 0:14:16.931,0:14:19.331 你花越多的时间盯着这张图, 0:14:19.331,0:14:22.028 你就会在云中看到越多的东西。 0:14:23.004,0:14:26.379 你也可以使用面部识别[br]神经网络去产生迷幻效果, 0:14:26.383,0:14:28.199 然后就可以得到这种不可思议的东西。 0:14:28.199,0:14:29.389 (观众笑声) 0:14:30.401,0:14:33.079 或者可以像迈克做的另外一个实验那样, 0:14:33.079,0:14:37.058 他还是利用那张云图, 0:14:37.058,0:14:40.529 使它幻化、再放大,[br]幻化再放大,幻化再放大. 0:14:40.529,0:14:41.594 这样一来, 0:14:41.594,0:14:45.453 我想你就可以得到[br]这个网络的神游状态, 0:14:45.453,0:14:49.157 或者某种自由联想, 0:14:49.157,0:14:51.454 仿佛这个网络正在吞噬自己的尾巴。 0:14:51.458,0:14:54.843 因此每一张图都是[br]下一张图的基础,决定了 0:14:54.843,0:14:56.298 “我觉得接下来会看到什么? 0:14:56.298,0:14:59.151 接下来又会看到什么?[br]接下来还会看到什么?” 0:14:59.487,0:15:02.473 我第一次公开展示这些是在西雅图, 0:15:02.473,0:15:07.934 为一个团队做的一次名为[br]“高等教育”的讲座上—— 0:15:07.934,0:15:10.435 刚好就在大麻合法化之后。 0:15:10.435,0:15:12.784 (观众笑声) 0:15:14.627,0:15:16.821 在结束我的演讲前, 0:15:16.821,0:15:21.150 我想再提醒各位,[br]这种技术是不受限的。 0:15:21.150,0:15:24.694 我给你们看了一些纯粹的视觉实例,[br]因为它们看起来真的很有趣。 0:15:24.694,0:15:27.475 它不是一种纯粹的视觉技术。 0:15:27.475,0:15:29.200 我们的合作者,艺术家罗斯 · 古德温 0:15:29.200,0:15:33.008 做了一个实验,他用相机拍了一张照片, 0:15:33.008,0:15:37.366 然后他背包里的电脑[br]基于这张照片的内容, 0:15:37.366,0:15:39.627 用神经网络作了一首诗。 0:15:39.627,0:15:42.355 这个作诗的神经网络已经接受过 0:15:42.355,0:15:44.658 大量的20世纪诗歌的训练。 0:15:44.658,0:15:45.870 其实我觉得 0:15:45.870,0:15:47.756 那首诗还不赖。 0:15:47.756,0:15:49.154 (观众笑声) 0:15:49.154,0:15:50.453 下面, 0:15:50.453,0:15:52.473 再回到米开朗基罗那句名言, 0:15:52.473,0:15:53.897 我想他是对的, 0:15:53.897,0:15:57.267 感知和创意是密不可分的。 0:15:57.611,0:16:00.305 我们刚刚所看到的是一些 0:16:00.305,0:16:02.612 完全被训练成去区分, 0:16:02.612,0:16:04.838 或辨别世上的不同物品, 0:16:04.838,0:16:08.073 能够逆向运行、成生图像的神经网络。 0:16:08.073,0:16:09.814 我从中受到的启发之一就是, 0:16:09.814,0:16:12.216 不仅米开朗基罗真的看到了 0:16:12.216,0:16:14.702 石头中的雕像, 0:16:14.702,0:16:18.344 而且任何的生物、任何人、任何外星人, 0:16:18.344,0:16:22.015 只要能够有这样的感知, 0:16:22.015,0:16:23.520 也就能够创造, 0:16:23.520,0:16:26.798 因为它们都运用了截然相同的机制。 0:16:26.798,0:16:31.228 另外,我想感知和创意决不是 0:16:31.228,0:16:32.548 人类所特有的。 0:16:32.548,0:16:36.074 我们开始有了可以[br]完成这些事的电脑模型。 0:16:36.074,0:16:39.652 这应当不足为奇,因为大脑会运算。 0:16:39.652,0:16:41.247 最后, 0:16:41.247,0:16:46.025 电脑运算最开始是作为[br]设计智能机器的一种练习。 0:16:46.025,0:16:48.511 它在很大程度上仿照了我们如何 0:16:48.511,0:16:51.618 让机器变得智能这一理念。 0:16:51.618,0:16:53.498 而我们也终于开始能够实现 0:16:53.498,0:16:56.154 图灵、冯 · 诺依曼、 0:16:56.154,0:16:57.881 麦卡洛克和皮兹 0:16:57.881,0:17:00.220 这些先驱的一些期望了。 0:17:00.220,0:17:04.302 我觉得电脑不仅仅是拿来计算, 0:17:04.302,0:17:06.483 或者玩游戏的。 0:17:06.483,0:17:08.999 从一开始,我们就是[br]仿照大脑来制造它们的。 0:17:08.999,0:17:12.282 而它们也赋予了我们能够[br]更好的理解我们的大脑, 0:17:12.282,0:17:13.871 并且拓展其潜力的能力。 0:17:14.627,0:17:15.738 非常感谢。 0:17:15.738,0:17:20.857 (观众掌声)