WEBVTT

00:00:00.800 --> 00:00:03.954
我在谷歌领导着一个
机器智能的项目组，

00:00:03.954 --> 00:00:08.658
换句话说，利用工程学原理制造出

00:00:08.658 --> 00:00:11.041
能够像人脑一样
完成某些任务的电脑和设备。

00:00:11.439 --> 00:00:14.598
这也使我们对人类的
大脑以及神经科学

00:00:14.598 --> 00:00:15.871
产生了兴趣，

00:00:15.875 --> 00:00:20.087
尤其在那些大脑的表现

00:00:20.087 --> 00:00:24.113
比电脑强太多的领域。

NOTE Paragraph

00:00:25.209 --> 00:00:28.918
长期以来，我们研究的
其中一个领域便是感知，

00:00:28.918 --> 00:00:31.855
一种将外界事物——

00:00:31.855 --> 00:00:33.539
比如图像或声音—

00:00:33.539 --> 00:00:35.691
转化为大脑内概念的过程。

00:00:36.235 --> 00:00:38.902
这对我们的大脑很重要，

00:00:38.902 --> 00:00:41.240
对计算机的作用也非同小可。

00:00:41.636 --> 00:00:44.790
例如，我们团队开发的机器感知算法

00:00:44.790 --> 00:00:48.924
会根据图片的内容
让你在谷歌相册的图片


00:00:48.924 --> 00:00:50.305
出现在搜索结果中。

00:00:51.594 --> 00:00:55.157
感知的另一方面是创意：

00:00:55.157 --> 00:00:58.199
将概念变成现实。

00:00:58.199 --> 00:01:01.768
因此，这些年我们
在机器感知能力方面的工作

00:01:01.768 --> 00:01:06.691
也意外地跟机器创意以及机器艺术

00:01:06.691 --> 00:01:07.795
联系在了一起。

NOTE Paragraph

00:01:08.556 --> 00:01:11.890
我觉得米开朗基罗对感知和创意

00:01:11.890 --> 00:01:15.520
之间的双重关系有着深刻的见解。

00:01:16.023 --> 00:01:18.099
他有一句名言：

00:01:18.099 --> 00:01:21.376
“每一块石头里都藏着一尊雕像，

00:01:22.036 --> 00:01:25.038
而雕塑家的工作就是去发现它。”

00:01:26.029 --> 00:01:29.275
我想米开朗基罗意思是

00:01:29.275 --> 00:01:32.489
我们通过感知来创造，

00:01:32.489 --> 00:01:35.536
而感知本身是想象力的表现，

00:01:35.536 --> 00:01:37.981
以及创意的来源。

NOTE Paragraph

00:01:38.691 --> 00:01:42.666
而进行思考、感知和想象的器官，

00:01:42.666 --> 00:01:44.228
毫无疑问，就是大脑。

00:01:45.089 --> 00:01:47.684
我想先简单地谈一谈

00:01:47.684 --> 00:01:49.960
我们对大脑的了解。

00:01:50.496 --> 00:01:53.012
因为不像心脏或其它内脏，

00:01:53.012 --> 00:01:56.160
你无法仅仅通过观察
就能看出点什么来，

00:01:56.160 --> 00:01:57.546
至少仅凭肉眼看不出来。

00:01:57.983 --> 00:02:00.449
早期的解剖学家看着大脑，

00:02:00.449 --> 00:02:04.260
给它的表面结构
取了各种充满想象力的名字。

00:02:04.260 --> 00:02:06.717
比如说海马体，意思是“小虾子”。

00:02:06.717 --> 00:02:09.385
但这些并不能告诉我们

00:02:09.385 --> 00:02:11.817
大脑里面究竟是怎样工作的。

NOTE Paragraph

00:02:12.780 --> 00:02:16.423
我认为第一个真正对大脑的工作方式

00:02:16.423 --> 00:02:18.377
有所洞悉的人，

00:02:18.377 --> 00:02:22.341
是19世纪西班牙
伟大的神经解剖学家

00:02:22.341 --> 00:02:23.843
圣地亚哥 · 拉蒙 · 卡哈尔
（Santiago Ramón y Cajal），

00:02:23.843 --> 00:02:27.688
他使用了显微镜以及某种特殊染色剂，

00:02:27.688 --> 00:02:31.892
有选择性地将大脑中的
单个细胞填充或者渲染上

00:02:31.892 --> 00:02:33.848
高对比度的颜色，

00:02:33.848 --> 00:02:37.042
以便了解它们的形态。

00:02:37.972 --> 00:02:40.857
这些就是他在19世纪

00:02:40.857 --> 00:02:42.090
完成的的神经元手绘图。

NOTE Paragraph

00:02:42.090 --> 00:02:44.084
这是一只鸟的大脑。

00:02:44.084 --> 00:02:47.019
能看到这些形态各异的细胞，

00:02:47.019 --> 00:02:50.538
甚至在当时对细胞学说
本身还是新鲜事物。

00:02:50.538 --> 00:02:51.840
而这些结构，

00:02:51.840 --> 00:02:54.169
像树枝一样分岔，

00:02:54.169 --> 00:02:56.425
能够延伸到很长的距离——

00:02:56.425 --> 00:02:58.401
这些在当时都是闻所未闻。

00:02:58.779 --> 00:03:01.712
他们让人联想到的，当然是电线。

00:03:01.712 --> 00:03:05.163
这对于很多19世纪的人
来说是显而易见的，

00:03:05.187 --> 00:03:09.501
因为那时电线和电力革命刚刚兴起。

00:03:09.964 --> 00:03:11.202
但是在许多方面

00:03:11.202 --> 00:03:14.463
拉蒙 · 卡哈尔的神经解剖学
绘画，比如这一张，

00:03:14.463 --> 00:03:16.875
从某些方面来说是很卓越的。

NOTE Paragraph

00:03:16.875 --> 00:03:18.743
一个多世纪后的我们，仍然在继续

00:03:18.743 --> 00:03:21.602
尝试完成拉蒙 · 卡哈尔开启的事业。

00:03:21.602 --> 00:03:24.740
提供这些原始数据的，是我们来自

00:03:24.744 --> 00:03:27.675
马克斯 · 普朗克
神经科学研究所的合作者。

00:03:27.675 --> 00:03:29.433
他们的工作

00:03:29.433 --> 00:03:34.544
是对那些小块的脑组织进行成像。

00:03:34.544 --> 00:03:37.844
这一整个样品的大小
是1立方毫米左右，

00:03:37.844 --> 00:03:40.519
而我展示的只是它上面
很小很小的一块区域。

00:03:40.519 --> 00:03:42.909
左边那段比例尺的长度是1微米。

00:03:42.909 --> 00:03:45.246
你看到的这个结构

00:03:45.246 --> 00:03:47.360
是一个细菌大小的线粒体。

00:03:47.360 --> 00:03:49.005
这些是利用这个非常微小的组织

00:03:49.005 --> 00:03:52.117
所制作成的连续的切片。

00:03:52.117 --> 00:03:54.544
我们来做个对比。

00:03:54.544 --> 00:03:58.410
通常一根头发的直径是
100微米左右。

00:03:58.410 --> 00:04:00.592
所以我们看到的东西

00:04:00.592 --> 00:04:02.034
比一根头发丝还要细很多。

NOTE Paragraph

00:04:02.034 --> 00:04:06.089
通过这些连续的电子显微镜切片，

00:04:06.089 --> 00:04:11.157
人们可以重构出类似这样的
神经元三维图像。

00:04:11.157 --> 00:04:14.348
某种程度上，这跟拉蒙 · 卡哈尔
所用的方式是一样的。

00:04:14.348 --> 00:04:15.874
我们只对少量的神经元进行了突出显示，

00:04:15.874 --> 00:04:18.613
否则我们不可能看到任何东西，

00:04:18.613 --> 00:04:19.995
因为那样一来画面会很拥挤，

00:04:19.995 --> 00:04:21.569
充满了组织结构，

00:04:21.569 --> 00:04:24.067
充满了各个神经元间
纵横交错的通路。

NOTE Paragraph

00:04:25.293 --> 00:04:28.137
显然，拉蒙 · 卡哈尔
有一点超前于他的时代，

00:04:28.137 --> 00:04:30.836
接下来的几十年间

00:04:30.836 --> 00:04:32.971
人们对大脑的理解进展非常缓慢。

00:04:33.455 --> 00:04:36.292
但是我们已经知道，
神经元通过电流传导信息，

00:04:36.292 --> 00:04:39.328
而到二战时，我们的技术
已取得了长足的进步，

00:04:39.328 --> 00:04:42.158
可以开始在活的
神经元细胞上做电流实验，

00:04:42.158 --> 00:04:44.228
以便更好地理解它们的工作原理。

00:04:44.631 --> 00:04:49.037
而电脑也正是在
这个时候被发明了出来，

00:04:49.037 --> 00:04:52.201
它的发明是基于对大脑的模拟——

00:04:52.201 --> 00:04:55.270
也就是阿兰 · 图灵
所称的“智能机器”理念，

00:04:55.270 --> 00:04:57.235
图灵是计算机科学的开创者之一。

NOTE Paragraph

00:04:57.923 --> 00:05:02.539
沃伦 · 麦卡洛克（Warren McCulloch）和
沃尔特 · 皮兹（Walter Pitts）看到了

00:05:02.539 --> 00:05:03.936
拉蒙 · 卡哈尔所画的
大脑视觉皮层，

00:05:03.936 --> 00:05:05.582
就是我给你们看的这个。

00:05:05.582 --> 00:05:09.948
这是负责处理我们视觉信息的大脑皮层。

00:05:10.424 --> 00:05:13.932
对他们来说，这看起来像一个电路图。

00:05:14.353 --> 00:05:18.238
在麦卡洛克和皮兹的电路图上，

00:05:18.238 --> 00:05:19.558
有许多细节并不是那么正确。

00:05:19.558 --> 00:05:20.973
但基本概念是对的，

00:05:20.973 --> 00:05:24.909
他们认为视觉皮层工作起来
就像一系列计算机元件

00:05:24.909 --> 00:05:27.669
在同一个层级中传递信息，

00:05:27.669 --> 00:05:29.295
这一点是对的。

NOTE Paragraph

00:05:29.295 --> 00:05:31.669
我们再聊一聊

00:05:31.669 --> 00:05:35.665
视觉信息处理模型需要做些什么。

00:05:36.228 --> 00:05:39.039
感知的基本任务就是

00:05:39.039 --> 00:05:43.171
抓取这样的图像并且告诉我们

00:05:43.171 --> 00:05:44.381
“这是一只鸟”，

00:05:44.391 --> 00:05:47.345
这对我们的大脑来说非常简单。

00:05:47.345 --> 00:05:50.760
但对一台电脑来说，

00:05:50.760 --> 00:05:53.871
在几年前，这还是完全不可能的事。

00:05:53.871 --> 00:05:55.851
传统的计算模式

00:05:55.851 --> 00:05:58.312
很难完成这个任务。

NOTE Paragraph

00:05:59.366 --> 00:06:01.958
像素、鸟的图像以及“鸟”这个词，

00:06:01.958 --> 00:06:05.914
这三者之间所产生的联系，

00:06:05.914 --> 00:06:08.792
本质上是在一个神经网络中各神经元

00:06:08.792 --> 00:06:09.901
相互连接的结果，

00:06:09.901 --> 00:06:11.294
正如这张图所示。

00:06:11.294 --> 00:06:14.610
这种神经网络可能是生物学上的，
存在于我们大脑视觉皮层里，

00:06:14.610 --> 00:06:16.776
或者，现如今我们开始有能力

00:06:16.776 --> 00:06:19.194
在电脑上模拟这种神经网络。

00:06:19.834 --> 00:06:22.217
我们来看一下它的工作原理。

NOTE Paragraph

00:06:22.217 --> 00:06:25.657
可以将像素想像成第一层的神经元，

00:06:25.657 --> 00:06:27.864
这实际上就是在
眼睛内部的工作原理——

00:06:27.864 --> 00:06:29.617
是视网膜上的神经元。

00:06:29.617 --> 00:06:31.181
然后这些前馈信息

00:06:31.181 --> 00:06:34.528
通过一层层神经元往下传递，

00:06:34.528 --> 00:06:37.625
这些神经元通过突触彼此连接。

00:06:37.625 --> 00:06:39.024
这个神经网络的行为

00:06:39.024 --> 00:06:42.292
是通过所有这些突触的强度来表达的，

00:06:42.292 --> 00:06:45.584
也塑造了这个网络的计算性能。

00:06:45.588 --> 00:06:47.042
最终，

00:06:47.042 --> 00:06:49.589
一个或者一小群神经元

00:06:49.589 --> 00:06:51.200
会亮起来，说，“鸟”。

NOTE Paragraph

00:06:51.824 --> 00:06:55.026
接下来我会将这三部分——

00:06:55.026 --> 00:06:59.706
输入的像素，神经网络中的突触，

00:06:59.706 --> 00:07:01.315
以及“鸟”，这个输出结果——

00:07:01.315 --> 00:07:04.366
用三个变量来表示：x、w和y。

00:07:04.853 --> 00:07:06.694
在那张图片上可能会有一百万个x——

00:07:06.694 --> 00:07:08.625
代表一百万个像素点。

00:07:08.625 --> 00:07:11.151
然后有几十亿或几万亿的w，

00:07:11.151 --> 00:07:14.550
代表着神经网络中所有突触的权重。

00:07:14.550 --> 00:07:16.525
只有很少数量的y，

00:07:16.525 --> 00:07:18.387
代表整个网络的输出结果。

00:07:18.387 --> 00:07:20.110
“Bird（鸟）"这个单词
只有四个字母，对吧？

00:07:21.088 --> 00:07:24.554
我们假定这只是一个很简单的公式

00:07:24.554 --> 00:07:26.701
x 乘以 w 等于 y。

00:07:26.705 --> 00:07:28.735
我把乘号打上了引号，

00:07:28.735 --> 00:07:31.105
因为实际的过程要复杂得多。

00:07:31.105 --> 00:07:34.135
牵涉到一系列非常复杂的数学运算。

NOTE Paragraph

00:07:35.172 --> 00:07:36.413
这是一个方程式，

00:07:36.417 --> 00:07:38.149
有三个变量。

00:07:38.149 --> 00:07:40.879
而我们知道在一个方程式中

00:07:40.879 --> 00:07:44.505
通过两个已知数
你就能算出另一个未知数。

00:07:45.158 --> 00:07:48.608
所以这道推论题，

00:07:48.608 --> 00:07:51.465
即判断出图中是一只鸟，

00:07:51.465 --> 00:07:52.753
可以这样来描述：

00:07:52.757 --> 00:07:56.266
y是未知数，w跟x都是已知数。

00:07:56.266 --> 00:07:58.819
也就是神经网络和像素是已知的。

00:07:58.819 --> 00:08:01.624
实际上这是一个相当简单的问题。

00:08:01.624 --> 00:08:04.260
你只需要用2乘以3，就完事儿了。

00:08:04.862 --> 00:08:07.025
我会给你们展示我们最近
完成的人工神经网络，

00:08:07.025 --> 00:08:09.305
它的工作原理正是如此。

NOTE Paragraph

00:08:09.634 --> 00:08:12.524
这是在一台在手机上
实时运行的神经网络，

00:08:12.524 --> 00:08:15.901
当然，令人惊叹的是它自身的运算能力，

00:08:15.901 --> 00:08:18.817
每秒钟可以进行
几十亿甚至几万亿次的

00:08:18.817 --> 00:08:20.633
运算。

00:08:20.633 --> 00:08:22.304
你所看到的是一台手机的

00:08:22.304 --> 00:08:25.885
相机对准了一张张含有鸟的图片，

00:08:25.885 --> 00:08:28.518
并且它不只能判断出，
“是的，这是一只鸟”，

00:08:28.518 --> 00:08:32.360
而且还能用这种网络
来判断这些鸟的种类。

00:08:32.890 --> 00:08:34.776
因此在这张图片中，

00:08:34.776 --> 00:08:38.632
x和w是已知的，y是未知的。

00:08:38.632 --> 00:08:41.114
当然，我省略了非常复杂的那一部分，

00:08:41.114 --> 00:08:44.953
也就是我们如何判断出w？

00:08:44.953 --> 00:08:47.220
为什么大脑能做出这样的判断？

00:08:47.220 --> 00:08:49.028
我们是如何学会这种模式的？

NOTE Paragraph

00:08:49.418 --> 00:08:52.645
在学习以及解出w的过程中，

00:08:52.645 --> 00:08:55.362
如果我们使用简单的等式

00:08:55.362 --> 00:08:57.256
将这些都想象成数字，

00:08:57.256 --> 00:09:00.051
那这道题就简单了： 6 = 2 x W，

00:09:00.051 --> 00:09:03.393
那么，用6除以2就可以得出答案。

00:09:04.001 --> 00:09:06.221
现在的问题就是这个运算符号。

00:09:06.823 --> 00:09:07.968
除法——

00:09:07.968 --> 00:09:10.533
我们用除法是因为它是乘法的逆运算。

00:09:10.533 --> 00:09:12.517
但就像我刚才说的，

00:09:12.517 --> 00:09:15.086
乘法表述在这里其实不太准确。

00:09:15.086 --> 00:09:18.406
这是一个非常非常
复杂的非线性运算，

00:09:18.410 --> 00:09:20.174
它没有逆运算。

00:09:20.174 --> 00:09:23.348
所以我们要找出一个不使用除号

00:09:23.348 --> 00:09:25.406
就能解出这个方程式的方法。

00:09:25.406 --> 00:09:27.653
其实非常简单。

00:09:27.653 --> 00:09:30.468
只需要使用一点代数上的小技巧，

00:09:30.468 --> 00:09:33.398
将6移到等式的右边。

00:09:33.398 --> 00:09:35.198
现在我们仍然使用乘法。

00:09:35.675 --> 00:09:39.295
而这个0——我们就当它是一个误差。

00:09:39.295 --> 00:09:41.844
换句话说，如果我们
能用正确的方法解出w，

00:09:41.844 --> 00:09:43.504
那么这个误差就为0。

00:09:43.504 --> 00:09:45.320
如果我们没有找到正确的答案，

00:09:45.320 --> 00:09:47.123
那么这个误差就会大于0。

NOTE Paragraph

00:09:47.123 --> 00:09:50.639
所以现在我们可以通过
假设去缩小这个误差，

00:09:50.639 --> 00:09:52.954
而这正是电脑所擅长的。

00:09:52.954 --> 00:09:54.151
比如你最开始假设：

00:09:54.151 --> 00:09:54.961
如果w = 0呢？

00:09:54.961 --> 00:09:56.115
那么误差就为6。

00:09:56.115 --> 00:09:58.645
如果w = 1呢？误差就变成了4。

00:09:58.645 --> 00:10:01.252
然后电脑就像玩游戏一样不断测试，

00:10:01.256 --> 00:10:03.653
将误差降低到接近于0。

00:10:03.653 --> 00:10:06.955
这样就逐步逼近了w的值。

00:10:06.955 --> 00:10:10.801
通常来说，它不可能获得完全精确的值，
但是经过很多步运算以后，

00:10:10.801 --> 00:10:15.349
我们得到了 w = 2.999，
已经足够精确了。

00:10:16.302 --> 00:10:18.156
以上就是这个学习过程。

NOTE Paragraph

00:10:18.156 --> 00:10:20.900
大家回想一下刚刚我们所做的，

00:10:20.900 --> 00:10:25.342
我们用了很多已知的x和y的值，

00:10:25.342 --> 00:10:28.790
通过迭代法去解出中间的w，

00:10:28.790 --> 00:10:32.304
这也正是我们自己
在学习时所使用的方法。

00:10:32.304 --> 00:10:34.644
在我们很小的时候，
会看到很多很多图像，

00:10:34.644 --> 00:10:37.241
然后有人告诉我们：
“这个是鸟，这个不是鸟。”

00:10:37.714 --> 00:10:39.806
经过一段时间的重复，

00:10:39.806 --> 00:10:42.764
我们解出了w，建立起了
神经元之间的连接。

NOTE Paragraph

00:10:43.460 --> 00:10:47.790
那么现在，我们有了确定的
x和w。再要去解出Y

00:10:47.790 --> 00:10:49.371
就会非常快了。

00:10:49.371 --> 00:10:51.188
我们找到解出w的方法，

00:10:51.188 --> 00:10:53.211
这是一种学习，要困难得多，

00:10:53.211 --> 00:10:54.864
因为我们要用很多的训练样本，

00:10:54.864 --> 00:10:56.815
去将误差最小化。

NOTE Paragraph

00:10:56.815 --> 00:11:00.046
一年前，我们团队的
亚历克斯 · 莫尔德温采夫

00:11:00.046 --> 00:11:03.600
决定做一个实验，
看如果给定已知的w和y，

00:11:03.600 --> 00:11:05.697
去解出x，会发生什么。

00:11:06.124 --> 00:11:07.109
换句话说，

00:11:07.109 --> 00:11:08.671
你已经知道那是一只鸟

00:11:08.675 --> 00:11:11.962
并且也有一个接受过
鸟类识别训练的神经网络，

00:11:11.962 --> 00:11:14.346
那么一只鸟的图像是怎样的呢？

00:11:15.034 --> 00:11:20.078
我们发现，通过运用相同的
将误差最小化的步骤，

00:11:20.082 --> 00:11:23.562
加上一个受过鸟类识别
训练的神经网络，

00:11:23.562 --> 00:11:26.924
我们就可以得到

00:11:30.400 --> 00:11:31.705
一张含有鸟的图片。

00:11:32.814 --> 00:11:36.515
这是一张由一个进行过
鸟类识别训练的

00:11:36.515 --> 00:11:38.441
神经网络所生成的鸟的图片，

00:11:38.441 --> 00:11:41.907
仅仅是通过解出x，而不是y，

00:11:41.907 --> 00:11:43.275
并且重复不断的运行。

NOTE Paragraph

00:11:43.732 --> 00:11:45.639
这是另外一个有趣的例子

00:11:45.639 --> 00:11:49.014
是我们团队的迈克 · 泰卡制作的 ，

00:11:49.014 --> 00:11:51.442
他称之为“动物大游行”。

00:11:51.442 --> 00:11:54.392
这让我想起了威廉 ·肯特里奇的作品，

00:11:54.392 --> 00:11:56.835
他先画一些素描，然后擦掉，

00:11:56.835 --> 00:11:58.133
再画一些素描，再擦掉，

00:11:58.133 --> 00:11:59.275
用这种方法创作了一部影片。

00:11:59.275 --> 00:12:00.830
在我们这个案例中，

00:12:00.830 --> 00:12:04.041
迈克在一个旨在识别和辨认

00:12:04.041 --> 00:12:06.193
不同种类动物的神经网络中

00:12:06.193 --> 00:12:07.441
将y变换成各种不同的动物。

00:12:07.441 --> 00:12:12.182
这样你就得到了这个奇特的
动物图像的埃舍尔式变换效果。

NOTE Paragraph

00:12:14.221 --> 00:12:18.779
他和亚历克斯还一起尝试了

00:12:18.779 --> 00:12:21.622
将这些y降低到一个二维空间内，

00:12:21.622 --> 00:12:25.110
从而将被该神经网络识别出来的

00:12:25.110 --> 00:12:26.823
所有对象放到一张图上来。

00:12:26.827 --> 00:12:28.890
通过这样的合成

00:12:28.894 --> 00:12:30.920
或者在整个表面上生成图像，

00:12:30.920 --> 00:12:33.900
在表面上不断的变换y，
你就创造出了一种图像——

00:12:33.900 --> 00:12:37.135
一个包含该神经网络能够
分辨出来的所有对象的视觉图像。

00:12:37.135 --> 00:12:40.200
所有的动物都在这儿，
犰狳在那个点上。

NOTE Paragraph

00:12:40.919 --> 00:12:43.082
你也可以用其它的神经网络
实现类似的目的。

00:12:43.082 --> 00:12:46.270
这是一个为识别和分辨出不同面孔

00:12:46.270 --> 00:12:48.294
而设计的神经网络。

00:12:48.294 --> 00:12:51.567
这里，我们输入一个y值，代表“我”，

00:12:51.567 --> 00:12:53.222
我自己的面部参数。

00:12:53.222 --> 00:12:55.042
当它在解出x的时候，

00:12:55.042 --> 00:12:57.558
就生成了这张集不同视角
于一体，相当不可思议的，

00:12:57.558 --> 00:13:02.000
立体的、超现实的、迷幻版本的

00:13:02.000 --> 00:13:03.770
我的面部图像。

00:13:03.770 --> 00:13:06.208
它之所以看起来像是集不同视角于一体，

00:13:06.208 --> 00:13:10.315
是因为这个神经网络被设计成将一张脸

00:13:10.319 --> 00:13:12.845
在不同姿势、不同光线之间产生的

00:13:12.845 --> 00:13:16.179
模棱两可的地方抹掉了。

00:13:16.179 --> 00:13:17.858
因此当你开始这项复原工作时，

00:13:17.858 --> 00:13:20.692
如果不利用某种影像引导，

00:13:20.692 --> 00:13:21.937
或者统计引导，

00:13:21.937 --> 00:13:25.630
那么你就会得到一种
令人困惑的多视角的图像，

00:13:25.630 --> 00:13:27.068
因为它是模棱两可的。

00:13:27.786 --> 00:13:31.953
这就是亚历克斯在复原
我的面部的优化流程中，

00:13:31.953 --> 00:13:35.354
用他自己的脸作为
影像引导时所得到的图像。

00:13:36.284 --> 00:13:38.546
你可以看到它还不是十分完美。

00:13:38.546 --> 00:13:40.274
我们在完善这个优化流程方面

00:13:40.274 --> 00:13:42.987
还有许多的工作要做。

00:13:42.991 --> 00:13:45.908
但是通过将我自己的脸
作为渲染过程中的引导，

00:13:45.908 --> 00:13:47.876
你已经可以得到一个
更清晰的面孔了。

NOTE Paragraph

00:13:48.892 --> 00:13:51.347
你不需要完全从一块空白的画布

00:13:51.347 --> 00:13:52.477
或白噪音开始。

00:13:52.477 --> 00:13:53.535
当你在解出x时，

00:13:53.535 --> 00:13:57.814
你可以从一个本身已经是
别的图像的x开始。

00:13:57.818 --> 00:14:00.368
正如这个小小的展示那样。

00:14:00.368 --> 00:14:04.540
这是一个设计为用来将所有物品——

00:14:04.544 --> 00:14:07.677
人造结构、动物等进行分类的神经网络。

00:14:07.677 --> 00:14:10.294
我们从一张云图开始，

00:14:10.294 --> 00:14:11.995
在优化过程中，

00:14:12.009 --> 00:14:16.505
这个神经网络正在不停地计算
它在云中看到了什么。

00:14:16.931 --> 00:14:19.331
你花越多的时间盯着这张图，

00:14:19.331 --> 00:14:22.028
你就会在云中看到越多的东西。

00:14:23.004 --> 00:14:26.379
你也可以使用面部识别
神经网络去产生迷幻效果，

00:14:26.383 --> 00:14:28.199
然后就可以得到这种不可思议的东西。

NOTE Paragraph

00:14:28.199 --> 00:14:29.389
（观众笑声）

NOTE Paragraph

00:14:30.401 --> 00:14:33.079
或者可以像迈克做的另外一个实验那样，

00:14:33.079 --> 00:14:37.058
他还是利用那张云图，

00:14:37.058 --> 00:14:40.529
使它幻化、再放大，
幻化再放大，幻化再放大.

00:14:40.529 --> 00:14:41.594
这样一来，

00:14:41.594 --> 00:14:45.453
我想你就可以得到
这个网络的神游状态，

00:14:45.453 --> 00:14:49.157
或者某种自由联想，

00:14:49.157 --> 00:14:51.454
仿佛这个网络正在吞噬自己的尾巴。

00:14:51.458 --> 00:14:54.843
因此每一张图都是
下一张图的基础，决定了

00:14:54.843 --> 00:14:56.298
“我觉得接下来会看到什么？

00:14:56.298 --> 00:14:59.151
接下来又会看到什么？
接下来还会看到什么？”

NOTE Paragraph

00:14:59.487 --> 00:15:02.473
我第一次公开展示这些是在西雅图，

00:15:02.473 --> 00:15:07.934
为一个团队做的一次名为
“高等教育”的讲座上——

00:15:07.934 --> 00:15:10.435
刚好就在大麻合法化之后。

NOTE Paragraph

00:15:10.435 --> 00:15:12.784
（观众笑声）

NOTE Paragraph

00:15:14.627 --> 00:15:16.821
在结束我的演讲前，

00:15:16.821 --> 00:15:21.150
我想再提醒各位，
这种技术是不受限的。

00:15:21.150 --> 00:15:24.694
我给你们看了一些纯粹的视觉实例，
因为它们看起来真的很有趣。

00:15:24.694 --> 00:15:27.475
它不是一种纯粹的视觉技术。

00:15:27.475 --> 00:15:29.200
我们的合作者，艺术家罗斯 · 古德温

00:15:29.200 --> 00:15:33.008
做了一个实验，他用相机拍了一张照片，

00:15:33.008 --> 00:15:37.366
然后他背包里的电脑
基于这张照片的内容，

00:15:37.366 --> 00:15:39.627
用神经网络作了一首诗。

00:15:39.627 --> 00:15:42.355
这个作诗的神经网络已经接受过

00:15:42.355 --> 00:15:44.658
大量的20世纪诗歌的训练。

00:15:44.658 --> 00:15:45.870
其实我觉得

00:15:45.870 --> 00:15:47.756
那首诗还不赖。

NOTE Paragraph

00:15:47.756 --> 00:15:49.154
（观众笑声）

NOTE Paragraph

00:15:49.154 --> 00:15:50.453
下面，

00:15:50.453 --> 00:15:52.473
再回到米开朗基罗那句名言，

00:15:52.473 --> 00:15:53.897
我想他是对的，

00:15:53.897 --> 00:15:57.267
感知和创意是密不可分的。

00:15:57.611 --> 00:16:00.305
我们刚刚所看到的是一些

00:16:00.305 --> 00:16:02.612
完全被训练成去区分，

00:16:02.612 --> 00:16:04.838
或辨别世上的不同物品，

00:16:04.838 --> 00:16:08.073
能够逆向运行、成生图像的神经网络。

00:16:08.073 --> 00:16:09.814
我从中受到的启发之一就是，

00:16:09.814 --> 00:16:12.216
不仅米开朗基罗真的看到了

00:16:12.216 --> 00:16:14.702
石头中的雕像，

00:16:14.702 --> 00:16:18.344
而且任何的生物、任何人、任何外星人，

00:16:18.344 --> 00:16:22.015
只要能够有这样的感知，

00:16:22.015 --> 00:16:23.520
也就能够创造，

00:16:23.520 --> 00:16:26.798
因为它们都运用了截然相同的机制。

NOTE Paragraph

00:16:26.798 --> 00:16:31.228
另外，我想感知和创意决不是

00:16:31.228 --> 00:16:32.548
人类所特有的。

00:16:32.548 --> 00:16:36.074
我们开始有了可以
完成这些事的电脑模型。

00:16:36.074 --> 00:16:39.652
这应当不足为奇，因为大脑会运算。

NOTE Paragraph

00:16:39.652 --> 00:16:41.247
最后，

00:16:41.247 --> 00:16:46.025
电脑运算最开始是作为
设计智能机器的一种练习。

00:16:46.025 --> 00:16:48.511
它在很大程度上仿照了我们如何

00:16:48.511 --> 00:16:51.618
让机器变得智能这一理念。

00:16:51.618 --> 00:16:53.498
而我们也终于开始能够实现

00:16:53.498 --> 00:16:56.154
图灵、冯 · 诺依曼、

00:16:56.154 --> 00:16:57.881
麦卡洛克和皮兹

00:16:57.881 --> 00:17:00.220
这些先驱的一些期望了。

00:17:00.220 --> 00:17:04.302
我觉得电脑不仅仅是拿来计算，

00:17:04.302 --> 00:17:06.483
或者玩游戏的。

00:17:06.483 --> 00:17:08.999
从一开始，我们就是
仿照大脑来制造它们的。

00:17:08.999 --> 00:17:12.282
而它们也赋予了我们能够
更好的理解我们的大脑，

00:17:12.282 --> 00:17:13.871
并且拓展其潜力的能力。

NOTE Paragraph

00:17:14.627 --> 00:17:15.738
非常感谢。

NOTE Paragraph

00:17:15.738 --> 00:17:20.857
（观众掌声）