0:00:00.800,0:00:03.954
我在谷歌领导着一个[br]机器智能的项目组，

0:00:03.954,0:00:08.658
换句话说，利用工程学原理制造出

0:00:08.658,0:00:11.041
能够像人脑一样[br]完成某些任务的电脑和设备。

0:00:11.439,0:00:14.598
这也使我们对人类的[br]大脑以及神经科学

0:00:14.598,0:00:15.871
产生了兴趣，

0:00:15.875,0:00:20.087
尤其在那些大脑的表现

0:00:20.087,0:00:24.113
比电脑强太多的领域。

0:00:25.209,0:00:28.918
长期以来，我们研究的[br]其中一个领域便是感知，

0:00:28.918,0:00:31.855
一种将外界事物——

0:00:31.855,0:00:33.539
比如图像或声音—

0:00:33.539,0:00:35.691
转化为大脑内概念的过程。

0:00:36.235,0:00:38.902
这对我们的大脑很重要，

0:00:38.902,0:00:41.240
对计算机的作用也非同小可。

0:00:41.636,0:00:44.790
例如，我们团队开发的机器感知算法

0:00:44.790,0:00:48.924
会根据图片的内容[br]让你在谷歌相册的图片[br]

0:00:48.924,0:00:50.305
出现在搜索结果中。

0:00:51.594,0:00:55.157
感知的另一方面是创意：

0:00:55.157,0:00:58.199
将概念变成现实。

0:00:58.199,0:01:01.768
因此，这些年我们[br]在机器感知能力方面的工作

0:01:01.768,0:01:06.691
也意外地跟机器创意以及机器艺术

0:01:06.691,0:01:07.795
联系在了一起。

0:01:08.556,0:01:11.890
我觉得米开朗基罗对感知和创意

0:01:11.890,0:01:15.520
之间的双重关系有着深刻的见解。

0:01:16.023,0:01:18.099
他有一句名言：

0:01:18.099,0:01:21.376
“每一块石头里都藏着一尊雕像，

0:01:22.036,0:01:25.038
而雕塑家的工作就是去发现它。”

0:01:26.029,0:01:29.275
我想米开朗基罗意思是

0:01:29.275,0:01:32.489
我们通过感知来创造，

0:01:32.489,0:01:35.536
而感知本身是想象力的表现，

0:01:35.536,0:01:37.981
以及创意的来源。

0:01:38.691,0:01:42.666
而进行思考、感知和想象的器官，

0:01:42.666,0:01:44.228
毫无疑问，就是大脑。

0:01:45.089,0:01:47.684
我想先简单地谈一谈

0:01:47.684,0:01:49.960
我们对大脑的了解。

0:01:50.496,0:01:53.012
因为不像心脏或其它内脏，

0:01:53.012,0:01:56.160
你无法仅仅通过观察[br]就能看出点什么来，

0:01:56.160,0:01:57.546
至少仅凭肉眼看不出来。

0:01:57.983,0:02:00.449
早期的解剖学家看着大脑，

0:02:00.449,0:02:04.260
给它的表面结构[br]取了各种充满想象力的名字。

0:02:04.260,0:02:06.717
比如说海马体，意思是“小虾子”。

0:02:06.717,0:02:09.385
但这些并不能告诉我们

0:02:09.385,0:02:11.817
大脑里面究竟是怎样工作的。

0:02:12.780,0:02:16.423
我认为第一个真正对大脑的工作方式

0:02:16.423,0:02:18.377
有所洞悉的人，

0:02:18.377,0:02:22.341
是19世纪西班牙[br]伟大的神经解剖学家

0:02:22.341,0:02:23.843
圣地亚哥 · 拉蒙 · 卡哈尔[br]（Santiago Ramón y Cajal），

0:02:23.843,0:02:27.688
他使用了显微镜以及某种特殊染色剂，

0:02:27.688,0:02:31.892
有选择性地将大脑中的[br]单个细胞填充或者渲染上

0:02:31.892,0:02:33.848
高对比度的颜色，

0:02:33.848,0:02:37.042
以便了解它们的形态。

0:02:37.972,0:02:40.857
这些就是他在19世纪

0:02:40.857,0:02:42.090
完成的的神经元手绘图。

0:02:42.090,0:02:44.084
这是一只鸟的大脑。

0:02:44.084,0:02:47.019
能看到这些形态各异的细胞，

0:02:47.019,0:02:50.538
甚至在当时对细胞学说[br]本身还是新鲜事物。

0:02:50.538,0:02:51.840
而这些结构，

0:02:51.840,0:02:54.169
像树枝一样分岔，

0:02:54.169,0:02:56.425
能够延伸到很长的距离——

0:02:56.425,0:02:58.401
这些在当时都是闻所未闻。

0:02:58.779,0:03:01.712
他们让人联想到的，当然是电线。

0:03:01.712,0:03:05.163
这对于很多19世纪的人[br]来说是显而易见的，

0:03:05.187,0:03:09.501
因为那时电线和电力革命刚刚兴起。

0:03:09.964,0:03:11.202
但是在许多方面

0:03:11.202,0:03:14.463
拉蒙 · 卡哈尔的神经解剖学[br]绘画，比如这一张，

0:03:14.463,0:03:16.875
从某些方面来说是很卓越的。

0:03:16.875,0:03:18.743
一个多世纪后的我们，仍然在继续

0:03:18.743,0:03:21.602
尝试完成拉蒙 · 卡哈尔开启的事业。

0:03:21.602,0:03:24.740
提供这些原始数据的，是我们来自

0:03:24.744,0:03:27.675
马克斯 · 普朗克[br]神经科学研究所的合作者。

0:03:27.675,0:03:29.433
他们的工作

0:03:29.433,0:03:34.544
是对那些小块的脑组织进行成像。

0:03:34.544,0:03:37.844
这一整个样品的大小[br]是1立方毫米左右，

0:03:37.844,0:03:40.519
而我展示的只是它上面[br]很小很小的一块区域。

0:03:40.519,0:03:42.909
左边那段比例尺的长度是1微米。

0:03:42.909,0:03:45.246
你看到的这个结构

0:03:45.246,0:03:47.360
是一个细菌大小的线粒体。

0:03:47.360,0:03:49.005
这些是利用这个非常微小的组织

0:03:49.005,0:03:52.117
所制作成的连续的切片。

0:03:52.117,0:03:54.544
我们来做个对比。

0:03:54.544,0:03:58.410
通常一根头发的直径是[br]100微米左右。

0:03:58.410,0:04:00.592
所以我们看到的东西

0:04:00.592,0:04:02.034
比一根头发丝还要细很多。

0:04:02.034,0:04:06.089
通过这些连续的电子显微镜切片，

0:04:06.089,0:04:11.157
人们可以重构出类似这样的[br]神经元三维图像。

0:04:11.157,0:04:14.348
某种程度上，这跟拉蒙 · 卡哈尔[br]所用的方式是一样的。

0:04:14.348,0:04:15.874
我们只对少量的神经元进行了突出显示，

0:04:15.874,0:04:18.613
否则我们不可能看到任何东西，

0:04:18.613,0:04:19.995
因为那样一来画面会很拥挤，

0:04:19.995,0:04:21.569
充满了组织结构，

0:04:21.569,0:04:24.067
充满了各个神经元间[br]纵横交错的通路。

0:04:25.293,0:04:28.137
显然，拉蒙 · 卡哈尔[br]有一点超前于他的时代，

0:04:28.137,0:04:30.836
接下来的几十年间

0:04:30.836,0:04:32.971
人们对大脑的理解进展非常缓慢。

0:04:33.455,0:04:36.292
但是我们已经知道，[br]神经元通过电流传导信息，

0:04:36.292,0:04:39.328
而到二战时，我们的技术[br]已取得了长足的进步，

0:04:39.328,0:04:42.158
可以开始在活的[br]神经元细胞上做电流实验，

0:04:42.158,0:04:44.228
以便更好地理解它们的工作原理。

0:04:44.631,0:04:49.037
而电脑也正是在[br]这个时候被发明了出来，

0:04:49.037,0:04:52.201
它的发明是基于对大脑的模拟——

0:04:52.201,0:04:55.270
也就是阿兰 · 图灵[br]所称的“智能机器”理念，

0:04:55.270,0:04:57.235
图灵是计算机科学的开创者之一。

0:04:57.923,0:05:02.539
沃伦 · 麦卡洛克（Warren McCulloch）和[br]沃尔特 · 皮兹（Walter Pitts）看到了

0:05:02.539,0:05:03.936
拉蒙 · 卡哈尔所画的[br]大脑视觉皮层，

0:05:03.936,0:05:05.582
就是我给你们看的这个。

0:05:05.582,0:05:09.948
这是负责处理我们视觉信息的大脑皮层。

0:05:10.424,0:05:13.932
对他们来说，这看起来像一个电路图。

0:05:14.353,0:05:18.238
在麦卡洛克和皮兹的电路图上，

0:05:18.238,0:05:19.558
有许多细节并不是那么正确。

0:05:19.558,0:05:20.973
但基本概念是对的，

0:05:20.973,0:05:24.909
他们认为视觉皮层工作起来[br]就像一系列计算机元件

0:05:24.909,0:05:27.669
在同一个层级中传递信息，

0:05:27.669,0:05:29.295
这一点是对的。

0:05:29.295,0:05:31.669
我们再聊一聊

0:05:31.669,0:05:35.665
视觉信息处理模型需要做些什么。

0:05:36.228,0:05:39.039
感知的基本任务就是

0:05:39.039,0:05:43.171
抓取这样的图像并且告诉我们

0:05:43.171,0:05:44.381
“这是一只鸟”，

0:05:44.391,0:05:47.345
这对我们的大脑来说非常简单。

0:05:47.345,0:05:50.760
但对一台电脑来说，

0:05:50.760,0:05:53.871
在几年前，这还是完全不可能的事。

0:05:53.871,0:05:55.851
传统的计算模式

0:05:55.851,0:05:58.312
很难完成这个任务。

0:05:59.366,0:06:01.958
像素、鸟的图像以及“鸟”这个词，

0:06:01.958,0:06:05.914
这三者之间所产生的联系，

0:06:05.914,0:06:08.792
本质上是在一个神经网络中各神经元

0:06:08.792,0:06:09.901
相互连接的结果，

0:06:09.901,0:06:11.294
正如这张图所示。

0:06:11.294,0:06:14.610
这种神经网络可能是生物学上的，[br]存在于我们大脑视觉皮层里，

0:06:14.610,0:06:16.776
或者，现如今我们开始有能力

0:06:16.776,0:06:19.194
在电脑上模拟这种神经网络。

0:06:19.834,0:06:22.217
我们来看一下它的工作原理。

0:06:22.217,0:06:25.657
可以将像素想像成第一层的神经元，

0:06:25.657,0:06:27.864
这实际上就是在[br]眼睛内部的工作原理——

0:06:27.864,0:06:29.617
是视网膜上的神经元。

0:06:29.617,0:06:31.181
然后这些前馈信息

0:06:31.181,0:06:34.528
通过一层层神经元往下传递，

0:06:34.528,0:06:37.625
这些神经元通过突触彼此连接。

0:06:37.625,0:06:39.024
这个神经网络的行为

0:06:39.024,0:06:42.292
是通过所有这些突触的强度来表达的，

0:06:42.292,0:06:45.584
也塑造了这个网络的计算性能。

0:06:45.588,0:06:47.042
最终，

0:06:47.042,0:06:49.589
一个或者一小群神经元

0:06:49.589,0:06:51.200
会亮起来，说，“鸟”。

0:06:51.824,0:06:55.026
接下来我会将这三部分——

0:06:55.026,0:06:59.706
输入的像素，神经网络中的突触，

0:06:59.706,0:07:01.315
以及“鸟”，这个输出结果——

0:07:01.315,0:07:04.366
用三个变量来表示：x、w和y。

0:07:04.853,0:07:06.694
在那张图片上可能会有一百万个x——

0:07:06.694,0:07:08.625
代表一百万个像素点。

0:07:08.625,0:07:11.151
然后有几十亿或几万亿的w，

0:07:11.151,0:07:14.550
代表着神经网络中所有突触的权重。

0:07:14.550,0:07:16.525
只有很少数量的y，

0:07:16.525,0:07:18.387
代表整个网络的输出结果。

0:07:18.387,0:07:20.110
“Bird（鸟）"这个单词[br]只有四个字母，对吧？

0:07:21.088,0:07:24.554
我们假定这只是一个很简单的公式

0:07:24.554,0:07:26.701
x 乘以 w 等于 y。

0:07:26.705,0:07:28.735
我把乘号打上了引号，

0:07:28.735,0:07:31.105
因为实际的过程要复杂得多。

0:07:31.105,0:07:34.135
牵涉到一系列非常复杂的数学运算。

0:07:35.172,0:07:36.413
这是一个方程式，

0:07:36.417,0:07:38.149
有三个变量。

0:07:38.149,0:07:40.879
而我们知道在一个方程式中

0:07:40.879,0:07:44.505
通过两个已知数[br]你就能算出另一个未知数。

0:07:45.158,0:07:48.608
所以这道推论题，

0:07:48.608,0:07:51.465
即判断出图中是一只鸟，

0:07:51.465,0:07:52.753
可以这样来描述：

0:07:52.757,0:07:56.266
y是未知数，w跟x都是已知数。

0:07:56.266,0:07:58.819
也就是神经网络和像素是已知的。

0:07:58.819,0:08:01.624
实际上这是一个相当简单的问题。

0:08:01.624,0:08:04.260
你只需要用2乘以3，就完事儿了。

0:08:04.862,0:08:07.025
我会给你们展示我们最近[br]完成的人工神经网络，

0:08:07.025,0:08:09.305
它的工作原理正是如此。

0:08:09.634,0:08:12.524
这是在一台在手机上[br]实时运行的神经网络，

0:08:12.524,0:08:15.901
当然，令人惊叹的是它自身的运算能力，

0:08:15.901,0:08:18.817
每秒钟可以进行[br]几十亿甚至几万亿次的

0:08:18.817,0:08:20.633
运算。

0:08:20.633,0:08:22.304
你所看到的是一台手机的

0:08:22.304,0:08:25.885
相机对准了一张张含有鸟的图片，

0:08:25.885,0:08:28.518
并且它不只能判断出，[br]“是的，这是一只鸟”，

0:08:28.518,0:08:32.360
而且还能用这种网络[br]来判断这些鸟的种类。

0:08:32.890,0:08:34.776
因此在这张图片中，

0:08:34.776,0:08:38.632
x和w是已知的，y是未知的。

0:08:38.632,0:08:41.114
当然，我省略了非常复杂的那一部分，

0:08:41.114,0:08:44.953
也就是我们如何判断出w？

0:08:44.953,0:08:47.220
为什么大脑能做出这样的判断？

0:08:47.220,0:08:49.028
我们是如何学会这种模式的？

0:08:49.418,0:08:52.645
在学习以及解出w的过程中，

0:08:52.645,0:08:55.362
如果我们使用简单的等式

0:08:55.362,0:08:57.256
将这些都想象成数字，

0:08:57.256,0:09:00.051
那这道题就简单了： 6 = 2 x W，

0:09:00.051,0:09:03.393
那么，用6除以2就可以得出答案。

0:09:04.001,0:09:06.221
现在的问题就是这个运算符号。

0:09:06.823,0:09:07.968
除法——

0:09:07.968,0:09:10.533
我们用除法是因为它是乘法的逆运算。

0:09:10.533,0:09:12.517
但就像我刚才说的，

0:09:12.517,0:09:15.086
乘法表述在这里其实不太准确。

0:09:15.086,0:09:18.406
这是一个非常非常[br]复杂的非线性运算，

0:09:18.410,0:09:20.174
它没有逆运算。

0:09:20.174,0:09:23.348
所以我们要找出一个不使用除号

0:09:23.348,0:09:25.406
就能解出这个方程式的方法。

0:09:25.406,0:09:27.653
其实非常简单。

0:09:27.653,0:09:30.468
只需要使用一点代数上的小技巧，

0:09:30.468,0:09:33.398
将6移到等式的右边。

0:09:33.398,0:09:35.198
现在我们仍然使用乘法。

0:09:35.675,0:09:39.295
而这个0——我们就当它是一个误差。

0:09:39.295,0:09:41.844
换句话说，如果我们[br]能用正确的方法解出w，

0:09:41.844,0:09:43.504
那么这个误差就为0。

0:09:43.504,0:09:45.320
如果我们没有找到正确的答案，

0:09:45.320,0:09:47.123
那么这个误差就会大于0。

0:09:47.123,0:09:50.639
所以现在我们可以通过[br]假设去缩小这个误差，

0:09:50.639,0:09:52.954
而这正是电脑所擅长的。

0:09:52.954,0:09:54.151
比如你最开始假设：

0:09:54.151,0:09:54.961
如果w = 0呢？

0:09:54.961,0:09:56.115
那么误差就为6。

0:09:56.115,0:09:58.645
如果w = 1呢？误差就变成了4。

0:09:58.645,0:10:01.252
然后电脑就像玩游戏一样不断测试，

0:10:01.256,0:10:03.653
将误差降低到接近于0。

0:10:03.653,0:10:06.955
这样就逐步逼近了w的值。

0:10:06.955,0:10:10.801
通常来说，它不可能获得完全精确的值，[br]但是经过很多步运算以后，

0:10:10.801,0:10:15.349
我们得到了 w = 2.999，[br]已经足够精确了。

0:10:16.302,0:10:18.156
以上就是这个学习过程。

0:10:18.156,0:10:20.900
大家回想一下刚刚我们所做的，

0:10:20.900,0:10:25.342
我们用了很多已知的x和y的值，

0:10:25.342,0:10:28.790
通过迭代法去解出中间的w，

0:10:28.790,0:10:32.304
这也正是我们自己[br]在学习时所使用的方法。

0:10:32.304,0:10:34.644
在我们很小的时候，[br]会看到很多很多图像，

0:10:34.644,0:10:37.241
然后有人告诉我们：[br]“这个是鸟，这个不是鸟。”

0:10:37.714,0:10:39.806
经过一段时间的重复，

0:10:39.806,0:10:42.764
我们解出了w，建立起了[br]神经元之间的连接。

0:10:43.460,0:10:47.790
那么现在，我们有了确定的[br]x和w。再要去解出Y

0:10:47.790,0:10:49.371
就会非常快了。

0:10:49.371,0:10:51.188
我们找到解出w的方法，

0:10:51.188,0:10:53.211
这是一种学习，要困难得多，

0:10:53.211,0:10:54.864
因为我们要用很多的训练样本，

0:10:54.864,0:10:56.815
去将误差最小化。

0:10:56.815,0:11:00.046
一年前，我们团队的[br]亚历克斯 · 莫尔德温采夫

0:11:00.046,0:11:03.600
决定做一个实验，[br]看如果给定已知的w和y，

0:11:03.600,0:11:05.697
去解出x，会发生什么。

0:11:06.124,0:11:07.109
换句话说，

0:11:07.109,0:11:08.671
你已经知道那是一只鸟

0:11:08.675,0:11:11.962
并且也有一个接受过[br]鸟类识别训练的神经网络，

0:11:11.962,0:11:14.346
那么一只鸟的图像是怎样的呢？

0:11:15.034,0:11:20.078
我们发现，通过运用相同的[br]将误差最小化的步骤，

0:11:20.082,0:11:23.562
加上一个受过鸟类识别[br]训练的神经网络，

0:11:23.562,0:11:26.924
我们就可以得到

0:11:30.400,0:11:31.705
一张含有鸟的图片。

0:11:32.814,0:11:36.515
这是一张由一个进行过[br]鸟类识别训练的

0:11:36.515,0:11:38.441
神经网络所生成的鸟的图片，

0:11:38.441,0:11:41.907
仅仅是通过解出x，而不是y，

0:11:41.907,0:11:43.275
并且重复不断的运行。

0:11:43.732,0:11:45.639
这是另外一个有趣的例子

0:11:45.639,0:11:49.014
是我们团队的迈克 · 泰卡制作的 ，

0:11:49.014,0:11:51.442
他称之为“动物大游行”。

0:11:51.442,0:11:54.392
这让我想起了威廉 ·肯特里奇的作品，

0:11:54.392,0:11:56.835
他先画一些素描，然后擦掉，

0:11:56.835,0:11:58.133
再画一些素描，再擦掉，

0:11:58.133,0:11:59.275
用这种方法创作了一部影片。

0:11:59.275,0:12:00.830
在我们这个案例中，

0:12:00.830,0:12:04.041
迈克在一个旨在识别和辨认

0:12:04.041,0:12:06.193
不同种类动物的神经网络中

0:12:06.193,0:12:07.441
将y变换成各种不同的动物。

0:12:07.441,0:12:12.182
这样你就得到了这个奇特的[br]动物图像的埃舍尔式变换效果。

0:12:14.221,0:12:18.779
他和亚历克斯还一起尝试了

0:12:18.779,0:12:21.622
将这些y降低到一个二维空间内，

0:12:21.622,0:12:25.110
从而将被该神经网络识别出来的

0:12:25.110,0:12:26.823
所有对象放到一张图上来。

0:12:26.827,0:12:28.890
通过这样的合成

0:12:28.894,0:12:30.920
或者在整个表面上生成图像，

0:12:30.920,0:12:33.900
在表面上不断的变换y，[br]你就创造出了一种图像——

0:12:33.900,0:12:37.135
一个包含该神经网络能够[br]分辨出来的所有对象的视觉图像。

0:12:37.135,0:12:40.200
所有的动物都在这儿，[br]犰狳在那个点上。

0:12:40.919,0:12:43.082
你也可以用其它的神经网络[br]实现类似的目的。

0:12:43.082,0:12:46.270
这是一个为识别和分辨出不同面孔

0:12:46.270,0:12:48.294
而设计的神经网络。

0:12:48.294,0:12:51.567
这里，我们输入一个y值，代表“我”，

0:12:51.567,0:12:53.222
我自己的面部参数。

0:12:53.222,0:12:55.042
当它在解出x的时候，

0:12:55.042,0:12:57.558
就生成了这张集不同视角[br]于一体，相当不可思议的，

0:12:57.558,0:13:02.000
立体的、超现实的、迷幻版本的

0:13:02.000,0:13:03.770
我的面部图像。

0:13:03.770,0:13:06.208
它之所以看起来像是集不同视角于一体，

0:13:06.208,0:13:10.315
是因为这个神经网络被设计成将一张脸

0:13:10.319,0:13:12.845
在不同姿势、不同光线之间产生的

0:13:12.845,0:13:16.179
模棱两可的地方抹掉了。

0:13:16.179,0:13:17.858
因此当你开始这项复原工作时，

0:13:17.858,0:13:20.692
如果不利用某种影像引导，

0:13:20.692,0:13:21.937
或者统计引导，

0:13:21.937,0:13:25.630
那么你就会得到一种[br]令人困惑的多视角的图像，

0:13:25.630,0:13:27.068
因为它是模棱两可的。

0:13:27.786,0:13:31.953
这就是亚历克斯在复原[br]我的面部的优化流程中，

0:13:31.953,0:13:35.354
用他自己的脸作为[br]影像引导时所得到的图像。

0:13:36.284,0:13:38.546
你可以看到它还不是十分完美。

0:13:38.546,0:13:40.274
我们在完善这个优化流程方面

0:13:40.274,0:13:42.987
还有许多的工作要做。

0:13:42.991,0:13:45.908
但是通过将我自己的脸[br]作为渲染过程中的引导，

0:13:45.908,0:13:47.876
你已经可以得到一个[br]更清晰的面孔了。

0:13:48.892,0:13:51.347
你不需要完全从一块空白的画布

0:13:51.347,0:13:52.477
或白噪音开始。

0:13:52.477,0:13:53.535
当你在解出x时，

0:13:53.535,0:13:57.814
你可以从一个本身已经是[br]别的图像的x开始。

0:13:57.818,0:14:00.368
正如这个小小的展示那样。

0:14:00.368,0:14:04.540
这是一个设计为用来将所有物品——

0:14:04.544,0:14:07.677
人造结构、动物等进行分类的神经网络。

0:14:07.677,0:14:10.294
我们从一张云图开始，

0:14:10.294,0:14:11.995
在优化过程中，

0:14:12.009,0:14:16.505
这个神经网络正在不停地计算[br]它在云中看到了什么。

0:14:16.931,0:14:19.331
你花越多的时间盯着这张图，

0:14:19.331,0:14:22.028
你就会在云中看到越多的东西。

0:14:23.004,0:14:26.379
你也可以使用面部识别[br]神经网络去产生迷幻效果，

0:14:26.383,0:14:28.199
然后就可以得到这种不可思议的东西。

0:14:28.199,0:14:29.389
（观众笑声）

0:14:30.401,0:14:33.079
或者可以像迈克做的另外一个实验那样，

0:14:33.079,0:14:37.058
他还是利用那张云图，

0:14:37.058,0:14:40.529
使它幻化、再放大，[br]幻化再放大，幻化再放大.

0:14:40.529,0:14:41.594
这样一来，

0:14:41.594,0:14:45.453
我想你就可以得到[br]这个网络的神游状态，

0:14:45.453,0:14:49.157
或者某种自由联想，

0:14:49.157,0:14:51.454
仿佛这个网络正在吞噬自己的尾巴。

0:14:51.458,0:14:54.843
因此每一张图都是[br]下一张图的基础，决定了

0:14:54.843,0:14:56.298
“我觉得接下来会看到什么？

0:14:56.298,0:14:59.151
接下来又会看到什么？[br]接下来还会看到什么？”

0:14:59.487,0:15:02.473
我第一次公开展示这些是在西雅图，

0:15:02.473,0:15:07.934
为一个团队做的一次名为[br]“高等教育”的讲座上——

0:15:07.934,0:15:10.435
刚好就在大麻合法化之后。

0:15:10.435,0:15:12.784
（观众笑声）

0:15:14.627,0:15:16.821
在结束我的演讲前，

0:15:16.821,0:15:21.150
我想再提醒各位，[br]这种技术是不受限的。

0:15:21.150,0:15:24.694
我给你们看了一些纯粹的视觉实例，[br]因为它们看起来真的很有趣。

0:15:24.694,0:15:27.475
它不是一种纯粹的视觉技术。

0:15:27.475,0:15:29.200
我们的合作者，艺术家罗斯 · 古德温

0:15:29.200,0:15:33.008
做了一个实验，他用相机拍了一张照片，

0:15:33.008,0:15:37.366
然后他背包里的电脑[br]基于这张照片的内容，

0:15:37.366,0:15:39.627
用神经网络作了一首诗。

0:15:39.627,0:15:42.355
这个作诗的神经网络已经接受过

0:15:42.355,0:15:44.658
大量的20世纪诗歌的训练。

0:15:44.658,0:15:45.870
其实我觉得

0:15:45.870,0:15:47.756
那首诗还不赖。

0:15:47.756,0:15:49.154
（观众笑声）

0:15:49.154,0:15:50.453
下面，

0:15:50.453,0:15:52.473
再回到米开朗基罗那句名言，

0:15:52.473,0:15:53.897
我想他是对的，

0:15:53.897,0:15:57.267
感知和创意是密不可分的。

0:15:57.611,0:16:00.305
我们刚刚所看到的是一些

0:16:00.305,0:16:02.612
完全被训练成去区分，

0:16:02.612,0:16:04.838
或辨别世上的不同物品，

0:16:04.838,0:16:08.073
能够逆向运行、成生图像的神经网络。

0:16:08.073,0:16:09.814
我从中受到的启发之一就是，

0:16:09.814,0:16:12.216
不仅米开朗基罗真的看到了

0:16:12.216,0:16:14.702
石头中的雕像，

0:16:14.702,0:16:18.344
而且任何的生物、任何人、任何外星人，

0:16:18.344,0:16:22.015
只要能够有这样的感知，

0:16:22.015,0:16:23.520
也就能够创造，

0:16:23.520,0:16:26.798
因为它们都运用了截然相同的机制。

0:16:26.798,0:16:31.228
另外，我想感知和创意决不是

0:16:31.228,0:16:32.548
人类所特有的。

0:16:32.548,0:16:36.074
我们开始有了可以[br]完成这些事的电脑模型。

0:16:36.074,0:16:39.652
这应当不足为奇，因为大脑会运算。

0:16:39.652,0:16:41.247
最后，

0:16:41.247,0:16:46.025
电脑运算最开始是作为[br]设计智能机器的一种练习。

0:16:46.025,0:16:48.511
它在很大程度上仿照了我们如何

0:16:48.511,0:16:51.618
让机器变得智能这一理念。

0:16:51.618,0:16:53.498
而我们也终于开始能够实现

0:16:53.498,0:16:56.154
图灵、冯 · 诺依曼、

0:16:56.154,0:16:57.881
麦卡洛克和皮兹

0:16:57.881,0:17:00.220
这些先驱的一些期望了。

0:17:00.220,0:17:04.302
我觉得电脑不仅仅是拿来计算，

0:17:04.302,0:17:06.483
或者玩游戏的。

0:17:06.483,0:17:08.999
从一开始，我们就是[br]仿照大脑来制造它们的。

0:17:08.999,0:17:12.282
而它们也赋予了我们能够[br]更好的理解我们的大脑，

0:17:12.282,0:17:13.871
并且拓展其潜力的能力。

0:17:14.627,0:17:15.738
非常感谢。

0:17:15.738,0:17:20.857
（观众掌声）