1
00:00:00,800 --> 00:00:03,954
我在谷歌领导着一个
机器智能的项目组，

2
00:00:03,954 --> 00:00:08,658
换句话说，利用工程学原理制造出

3
00:00:08,658 --> 00:00:11,041
能够像人脑一样
完成某些任务的电脑和设备。

4
00:00:11,439 --> 00:00:14,598
这也使我们对人类的
大脑以及神经科学

5
00:00:14,598 --> 00:00:15,871
产生了兴趣，

6
00:00:15,875 --> 00:00:20,087
尤其在那些大脑的表现

7
00:00:20,087 --> 00:00:24,113
比电脑强太多的领域。

8
00:00:25,209 --> 00:00:28,918
长期以来，我们研究的
其中一个领域便是感知，

9
00:00:28,918 --> 00:00:31,855
一种将外界事物——

10
00:00:31,855 --> 00:00:33,539
比如图像或声音—

11
00:00:33,539 --> 00:00:35,691
转化为大脑内概念的过程。

12
00:00:36,235 --> 00:00:38,902
这对我们的大脑很重要，

13
00:00:38,902 --> 00:00:41,240
对计算机的作用也非同小可。

14
00:00:41,636 --> 00:00:44,790
例如，我们团队开发的机器感知算法

15
00:00:44,790 --> 00:00:48,924
会根据图片的内容
让你在谷歌相册的图片


16
00:00:48,924 --> 00:00:50,305
出现在搜索结果中。

17
00:00:51,594 --> 00:00:55,157
感知的另一方面是创意：

18
00:00:55,157 --> 00:00:58,199
将概念变成现实。

19
00:00:58,199 --> 00:01:01,768
因此，这些年我们
在机器感知能力方面的工作

20
00:01:01,768 --> 00:01:06,691
也意外地跟机器创意以及机器艺术

21
00:01:06,691 --> 00:01:07,795
联系在了一起。

22
00:01:08,556 --> 00:01:11,890
我觉得米开朗基罗对感知和创意

23
00:01:11,890 --> 00:01:15,520
之间的双重关系有着深刻的见解。

24
00:01:16,023 --> 00:01:18,099
他有一句名言：

25
00:01:18,099 --> 00:01:21,376
“每一块石头里都藏着一尊雕像，

26
00:01:22,036 --> 00:01:25,038
而雕塑家的工作就是去发现它。”

27
00:01:26,029 --> 00:01:29,275
我想米开朗基罗意思是

28
00:01:29,275 --> 00:01:32,489
我们通过感知来创造，

29
00:01:32,489 --> 00:01:35,536
而感知本身是想象力的表现，

30
00:01:35,536 --> 00:01:37,981
以及创意的来源。

31
00:01:38,691 --> 00:01:42,666
而进行思考、感知和想象的器官，

32
00:01:42,666 --> 00:01:44,228
毫无疑问，就是大脑。

33
00:01:45,089 --> 00:01:47,684
我想先简单地谈一谈

34
00:01:47,684 --> 00:01:49,960
我们对大脑的了解。

35
00:01:50,496 --> 00:01:53,012
因为不像心脏或其它内脏，

36
00:01:53,012 --> 00:01:56,160
你无法仅仅通过观察
就能看出点什么来，

37
00:01:56,160 --> 00:01:57,546
至少仅凭肉眼看不出来。

38
00:01:57,983 --> 00:02:00,449
早期的解剖学家看着大脑，

39
00:02:00,449 --> 00:02:04,260
给它的表面结构
取了各种充满想象力的名字。

40
00:02:04,260 --> 00:02:06,717
比如说海马体，意思是“小虾子”。

41
00:02:06,717 --> 00:02:09,385
但这些并不能告诉我们

42
00:02:09,385 --> 00:02:11,817
大脑里面究竟是怎样工作的。

43
00:02:12,780 --> 00:02:16,423
我认为第一个真正对大脑的工作方式

44
00:02:16,423 --> 00:02:18,377
有所洞悉的人，

45
00:02:18,377 --> 00:02:22,341
是19世纪西班牙
伟大的神经解剖学家

46
00:02:22,341 --> 00:02:23,843
圣地亚哥 · 拉蒙 · 卡哈尔
（Santiago Ramón y Cajal），

47
00:02:23,843 --> 00:02:27,688
他使用了显微镜以及某种特殊染色剂，

48
00:02:27,688 --> 00:02:31,892
有选择性地将大脑中的
单个细胞填充或者渲染上

49
00:02:31,892 --> 00:02:33,848
高对比度的颜色，

50
00:02:33,848 --> 00:02:37,042
以便了解它们的形态。

51
00:02:37,972 --> 00:02:40,857
这些就是他在19世纪

52
00:02:40,857 --> 00:02:42,090
完成的的神经元手绘图。

53
00:02:42,090 --> 00:02:44,084
这是一只鸟的大脑。

54
00:02:44,084 --> 00:02:47,019
能看到这些形态各异的细胞，

55
00:02:47,019 --> 00:02:50,538
甚至在当时对细胞学说
本身还是新鲜事物。

56
00:02:50,538 --> 00:02:51,840
而这些结构，

57
00:02:51,840 --> 00:02:54,169
像树枝一样分岔，

58
00:02:54,169 --> 00:02:56,425
能够延伸到很长的距离——

59
00:02:56,425 --> 00:02:58,401
这些在当时都是闻所未闻。

60
00:02:58,779 --> 00:03:01,712
他们让人联想到的，当然是电线。

61
00:03:01,712 --> 00:03:05,163
这对于很多19世纪的人
来说是显而易见的，

62
00:03:05,187 --> 00:03:09,501
因为那时电线和电力革命刚刚兴起。

63
00:03:09,964 --> 00:03:11,202
但是在许多方面

64
00:03:11,202 --> 00:03:14,463
拉蒙 · 卡哈尔的神经解剖学
绘画，比如这一张，

65
00:03:14,463 --> 00:03:16,875
从某些方面来说是很卓越的。

66
00:03:16,875 --> 00:03:18,743
一个多世纪后的我们，仍然在继续

67
00:03:18,743 --> 00:03:21,602
尝试完成拉蒙 · 卡哈尔开启的事业。

68
00:03:21,602 --> 00:03:24,740
提供这些原始数据的，是我们来自

69
00:03:24,744 --> 00:03:27,675
马克斯 · 普朗克
神经科学研究所的合作者。

70
00:03:27,675 --> 00:03:29,433
他们的工作

71
00:03:29,433 --> 00:03:34,544
是对那些小块的脑组织进行成像。

72
00:03:34,544 --> 00:03:37,844
这一整个样品的大小
是1立方毫米左右，

73
00:03:37,844 --> 00:03:40,519
而我展示的只是它上面
很小很小的一块区域。

74
00:03:40,519 --> 00:03:42,909
左边那段比例尺的长度是1微米。

75
00:03:42,909 --> 00:03:45,246
你看到的这个结构

76
00:03:45,246 --> 00:03:47,360
是一个细菌大小的线粒体。

77
00:03:47,360 --> 00:03:49,005
这些是利用这个非常微小的组织

78
00:03:49,005 --> 00:03:52,117
所制作成的连续的切片。

79
00:03:52,117 --> 00:03:54,544
我们来做个对比。

80
00:03:54,544 --> 00:03:58,410
通常一根头发的直径是
100微米左右。

81
00:03:58,410 --> 00:04:00,592
所以我们看到的东西

82
00:04:00,592 --> 00:04:02,034
比一根头发丝还要细很多。

83
00:04:02,034 --> 00:04:06,089
通过这些连续的电子显微镜切片，

84
00:04:06,089 --> 00:04:11,157
人们可以重构出类似这样的
神经元三维图像。

85
00:04:11,157 --> 00:04:14,348
某种程度上，这跟拉蒙 · 卡哈尔
所用的方式是一样的。

86
00:04:14,348 --> 00:04:15,874
我们只对少量的神经元进行了突出显示，

87
00:04:15,874 --> 00:04:18,613
否则我们不可能看到任何东西，

88
00:04:18,613 --> 00:04:19,995
因为那样一来画面会很拥挤，

89
00:04:19,995 --> 00:04:21,569
充满了组织结构，

90
00:04:21,569 --> 00:04:24,067
充满了各个神经元间
纵横交错的通路。

91
00:04:25,293 --> 00:04:28,137
显然，拉蒙 · 卡哈尔
有一点超前于他的时代，

92
00:04:28,137 --> 00:04:30,836
接下来的几十年间

93
00:04:30,836 --> 00:04:32,971
人们对大脑的理解进展非常缓慢。

94
00:04:33,455 --> 00:04:36,292
但是我们已经知道，
神经元通过电流传导信息，

95
00:04:36,292 --> 00:04:39,328
而到二战时，我们的技术
已取得了长足的进步，

96
00:04:39,328 --> 00:04:42,158
可以开始在活的
神经元细胞上做电流实验，

97
00:04:42,158 --> 00:04:44,228
以便更好地理解它们的工作原理。

98
00:04:44,631 --> 00:04:49,037
而电脑也正是在
这个时候被发明了出来，

99
00:04:49,037 --> 00:04:52,201
它的发明是基于对大脑的模拟——

100
00:04:52,201 --> 00:04:55,270
也就是阿兰 · 图灵
所称的“智能机器”理念，

101
00:04:55,270 --> 00:04:57,235
图灵是计算机科学的开创者之一。

102
00:04:57,923 --> 00:05:02,539
沃伦 · 麦卡洛克（Warren McCulloch）和
沃尔特 · 皮兹（Walter Pitts）看到了

103
00:05:02,539 --> 00:05:03,936
拉蒙 · 卡哈尔所画的
大脑视觉皮层，

104
00:05:03,936 --> 00:05:05,582
就是我给你们看的这个。

105
00:05:05,582 --> 00:05:09,948
这是负责处理我们视觉信息的大脑皮层。

106
00:05:10,424 --> 00:05:13,932
对他们来说，这看起来像一个电路图。

107
00:05:14,353 --> 00:05:18,238
在麦卡洛克和皮兹的电路图上，

108
00:05:18,238 --> 00:05:19,558
有许多细节并不是那么正确。

109
00:05:19,558 --> 00:05:20,973
但基本概念是对的，

110
00:05:20,973 --> 00:05:24,909
他们认为视觉皮层工作起来
就像一系列计算机元件

111
00:05:24,909 --> 00:05:27,669
在同一个层级中传递信息，

112
00:05:27,669 --> 00:05:29,295
这一点是对的。

113
00:05:29,295 --> 00:05:31,669
我们再聊一聊

114
00:05:31,669 --> 00:05:35,665
视觉信息处理模型需要做些什么。

115
00:05:36,228 --> 00:05:39,039
感知的基本任务就是

116
00:05:39,039 --> 00:05:43,171
抓取这样的图像并且告诉我们

117
00:05:43,171 --> 00:05:44,381
“这是一只鸟”，

118
00:05:44,391 --> 00:05:47,345
这对我们的大脑来说非常简单。

119
00:05:47,345 --> 00:05:50,760
但对一台电脑来说，

120
00:05:50,760 --> 00:05:53,871
在几年前，这还是完全不可能的事。

121
00:05:53,871 --> 00:05:55,851
传统的计算模式

122
00:05:55,851 --> 00:05:58,312
很难完成这个任务。

123
00:05:59,366 --> 00:06:01,958
像素、鸟的图像以及“鸟”这个词，

124
00:06:01,958 --> 00:06:05,914
这三者之间所产生的联系，

125
00:06:05,914 --> 00:06:08,792
本质上是在一个神经网络中各神经元

126
00:06:08,792 --> 00:06:09,901
相互连接的结果，

127
00:06:09,901 --> 00:06:11,294
正如这张图所示。

128
00:06:11,294 --> 00:06:14,610
这种神经网络可能是生物学上的，
存在于我们大脑视觉皮层里，

129
00:06:14,610 --> 00:06:16,776
或者，现如今我们开始有能力

130
00:06:16,776 --> 00:06:19,194
在电脑上模拟这种神经网络。

131
00:06:19,834 --> 00:06:22,217
我们来看一下它的工作原理。

132
00:06:22,217 --> 00:06:25,657
可以将像素想像成第一层的神经元，

133
00:06:25,657 --> 00:06:27,864
这实际上就是在
眼睛内部的工作原理——

134
00:06:27,864 --> 00:06:29,617
是视网膜上的神经元。

135
00:06:29,617 --> 00:06:31,181
然后这些前馈信息

136
00:06:31,181 --> 00:06:34,528
通过一层层神经元往下传递，

137
00:06:34,528 --> 00:06:37,625
这些神经元通过突触彼此连接。

138
00:06:37,625 --> 00:06:39,024
这个神经网络的行为

139
00:06:39,024 --> 00:06:42,292
是通过所有这些突触的强度来表达的，

140
00:06:42,292 --> 00:06:45,584
也塑造了这个网络的计算性能。

141
00:06:45,588 --> 00:06:47,042
最终，

142
00:06:47,042 --> 00:06:49,589
一个或者一小群神经元

143
00:06:49,589 --> 00:06:51,200
会亮起来，说，“鸟”。

144
00:06:51,824 --> 00:06:55,026
接下来我会将这三部分——

145
00:06:55,026 --> 00:06:59,706
输入的像素，神经网络中的突触，

146
00:06:59,706 --> 00:07:01,315
以及“鸟”，这个输出结果——

147
00:07:01,315 --> 00:07:04,366
用三个变量来表示：x、w和y。

148
00:07:04,853 --> 00:07:06,694
在那张图片上可能会有一百万个x——

149
00:07:06,694 --> 00:07:08,625
代表一百万个像素点。

150
00:07:08,625 --> 00:07:11,151
然后有几十亿或几万亿的w，

151
00:07:11,151 --> 00:07:14,550
代表着神经网络中所有突触的权重。

152
00:07:14,550 --> 00:07:16,525
只有很少数量的y，

153
00:07:16,525 --> 00:07:18,387
代表整个网络的输出结果。

154
00:07:18,387 --> 00:07:20,110
“Bird（鸟）"这个单词
只有四个字母，对吧？

155
00:07:21,088 --> 00:07:24,554
我们假定这只是一个很简单的公式

156
00:07:24,554 --> 00:07:26,701
x 乘以 w 等于 y。

157
00:07:26,705 --> 00:07:28,735
我把乘号打上了引号，

158
00:07:28,735 --> 00:07:31,105
因为实际的过程要复杂得多。

159
00:07:31,105 --> 00:07:34,135
牵涉到一系列非常复杂的数学运算。

160
00:07:35,172 --> 00:07:36,413
这是一个方程式，

161
00:07:36,417 --> 00:07:38,149
有三个变量。

162
00:07:38,149 --> 00:07:40,879
而我们知道在一个方程式中

163
00:07:40,879 --> 00:07:44,505
通过两个已知数
你就能算出另一个未知数。

164
00:07:45,158 --> 00:07:48,608
所以这道推论题，

165
00:07:48,608 --> 00:07:51,465
即判断出图中是一只鸟，

166
00:07:51,465 --> 00:07:52,753
可以这样来描述：

167
00:07:52,757 --> 00:07:56,266
y是未知数，w跟x都是已知数。

168
00:07:56,266 --> 00:07:58,819
也就是神经网络和像素是已知的。

169
00:07:58,819 --> 00:08:01,624
实际上这是一个相当简单的问题。

170
00:08:01,624 --> 00:08:04,260
你只需要用2乘以3，就完事儿了。

171
00:08:04,862 --> 00:08:07,025
我会给你们展示我们最近
完成的人工神经网络，

172
00:08:07,025 --> 00:08:09,305
它的工作原理正是如此。

173
00:08:09,634 --> 00:08:12,524
这是在一台在手机上
实时运行的神经网络，

174
00:08:12,524 --> 00:08:15,901
当然，令人惊叹的是它自身的运算能力，

175
00:08:15,901 --> 00:08:18,817
每秒钟可以进行
几十亿甚至几万亿次的

176
00:08:18,817 --> 00:08:20,633
运算。

177
00:08:20,633 --> 00:08:22,304
你所看到的是一台手机的

178
00:08:22,304 --> 00:08:25,885
相机对准了一张张含有鸟的图片，

179
00:08:25,885 --> 00:08:28,518
并且它不只能判断出，
“是的，这是一只鸟”，

180
00:08:28,518 --> 00:08:32,360
而且还能用这种网络
来判断这些鸟的种类。

181
00:08:32,890 --> 00:08:34,776
因此在这张图片中，

182
00:08:34,776 --> 00:08:38,632
x和w是已知的，y是未知的。

183
00:08:38,632 --> 00:08:41,114
当然，我省略了非常复杂的那一部分，

184
00:08:41,114 --> 00:08:44,953
也就是我们如何判断出w？

185
00:08:44,953 --> 00:08:47,220
为什么大脑能做出这样的判断？

186
00:08:47,220 --> 00:08:49,028
我们是如何学会这种模式的？

187
00:08:49,418 --> 00:08:52,645
在学习以及解出w的过程中，

188
00:08:52,645 --> 00:08:55,362
如果我们使用简单的等式

189
00:08:55,362 --> 00:08:57,256
将这些都想象成数字，

190
00:08:57,256 --> 00:09:00,051
那这道题就简单了： 6 = 2 x W，

191
00:09:00,051 --> 00:09:03,393
那么，用6除以2就可以得出答案。

192
00:09:04,001 --> 00:09:06,221
现在的问题就是这个运算符号。

193
00:09:06,823 --> 00:09:07,968
除法——

194
00:09:07,968 --> 00:09:10,533
我们用除法是因为它是乘法的逆运算。

195
00:09:10,533 --> 00:09:12,517
但就像我刚才说的，

196
00:09:12,517 --> 00:09:15,086
乘法表述在这里其实不太准确。

197
00:09:15,086 --> 00:09:18,406
这是一个非常非常
复杂的非线性运算，

198
00:09:18,410 --> 00:09:20,174
它没有逆运算。

199
00:09:20,174 --> 00:09:23,348
所以我们要找出一个不使用除号

200
00:09:23,348 --> 00:09:25,406
就能解出这个方程式的方法。

201
00:09:25,406 --> 00:09:27,653
其实非常简单。

202
00:09:27,653 --> 00:09:30,468
只需要使用一点代数上的小技巧，

203
00:09:30,468 --> 00:09:33,398
将6移到等式的右边。

204
00:09:33,398 --> 00:09:35,198
现在我们仍然使用乘法。

205
00:09:35,675 --> 00:09:39,295
而这个0——我们就当它是一个误差。

206
00:09:39,295 --> 00:09:41,844
换句话说，如果我们
能用正确的方法解出w，

207
00:09:41,844 --> 00:09:43,504
那么这个误差就为0。

208
00:09:43,504 --> 00:09:45,320
如果我们没有找到正确的答案，

209
00:09:45,320 --> 00:09:47,123
那么这个误差就会大于0。

210
00:09:47,123 --> 00:09:50,639
所以现在我们可以通过
假设去缩小这个误差，

211
00:09:50,639 --> 00:09:52,954
而这正是电脑所擅长的。

212
00:09:52,954 --> 00:09:54,151
比如你最开始假设：

213
00:09:54,151 --> 00:09:54,961
如果w = 0呢？

214
00:09:54,961 --> 00:09:56,115
那么误差就为6。

215
00:09:56,115 --> 00:09:58,645
如果w = 1呢？误差就变成了4。

216
00:09:58,645 --> 00:10:01,252
然后电脑就像玩游戏一样不断测试，

217
00:10:01,256 --> 00:10:03,653
将误差降低到接近于0。

218
00:10:03,653 --> 00:10:06,955
这样就逐步逼近了w的值。

219
00:10:06,955 --> 00:10:10,801
通常来说，它不可能获得完全精确的值，
但是经过很多步运算以后，

220
00:10:10,801 --> 00:10:15,349
我们得到了 w = 2.999，
已经足够精确了。

221
00:10:16,302 --> 00:10:18,156
以上就是这个学习过程。

222
00:10:18,156 --> 00:10:20,900
大家回想一下刚刚我们所做的，

223
00:10:20,900 --> 00:10:25,342
我们用了很多已知的x和y的值，

224
00:10:25,342 --> 00:10:28,790
通过迭代法去解出中间的w，

225
00:10:28,790 --> 00:10:32,304
这也正是我们自己
在学习时所使用的方法。

226
00:10:32,304 --> 00:10:34,644
在我们很小的时候，
会看到很多很多图像，

227
00:10:34,644 --> 00:10:37,241
然后有人告诉我们：
“这个是鸟，这个不是鸟。”

228
00:10:37,714 --> 00:10:39,806
经过一段时间的重复，

229
00:10:39,806 --> 00:10:42,764
我们解出了w，建立起了
神经元之间的连接。

230
00:10:43,460 --> 00:10:47,790
那么现在，我们有了确定的
x和w。再要去解出Y

231
00:10:47,790 --> 00:10:49,371
就会非常快了。

232
00:10:49,371 --> 00:10:51,188
我们找到解出w的方法，

233
00:10:51,188 --> 00:10:53,211
这是一种学习，要困难得多，

234
00:10:53,211 --> 00:10:54,864
因为我们要用很多的训练样本，

235
00:10:54,864 --> 00:10:56,815
去将误差最小化。

236
00:10:56,815 --> 00:11:00,046
一年前，我们团队的
亚历克斯 · 莫尔德温采夫

237
00:11:00,046 --> 00:11:03,600
决定做一个实验，
看如果给定已知的w和y，

238
00:11:03,600 --> 00:11:05,697
去解出x，会发生什么。

239
00:11:06,124 --> 00:11:07,109
换句话说，

240
00:11:07,109 --> 00:11:08,671
你已经知道那是一只鸟

241
00:11:08,675 --> 00:11:11,962
并且也有一个接受过
鸟类识别训练的神经网络，

242
00:11:11,962 --> 00:11:14,346
那么一只鸟的图像是怎样的呢？

243
00:11:15,034 --> 00:11:20,078
我们发现，通过运用相同的
将误差最小化的步骤，

244
00:11:20,082 --> 00:11:23,562
加上一个受过鸟类识别
训练的神经网络，

245
00:11:23,562 --> 00:11:26,924
我们就可以得到

246
00:11:30,400 --> 00:11:31,705
一张含有鸟的图片。

247
00:11:32,814 --> 00:11:36,515
这是一张由一个进行过
鸟类识别训练的

248
00:11:36,515 --> 00:11:38,441
神经网络所生成的鸟的图片，

249
00:11:38,441 --> 00:11:41,907
仅仅是通过解出x，而不是y，

250
00:11:41,907 --> 00:11:43,275
并且重复不断的运行。

251
00:11:43,732 --> 00:11:45,639
这是另外一个有趣的例子

252
00:11:45,639 --> 00:11:49,014
是我们团队的迈克 · 泰卡制作的 ，

253
00:11:49,014 --> 00:11:51,442
他称之为“动物大游行”。

254
00:11:51,442 --> 00:11:54,392
这让我想起了威廉 ·肯特里奇的作品，

255
00:11:54,392 --> 00:11:56,835
他先画一些素描，然后擦掉，

256
00:11:56,835 --> 00:11:58,133
再画一些素描，再擦掉，

257
00:11:58,133 --> 00:11:59,275
用这种方法创作了一部影片。

258
00:11:59,275 --> 00:12:00,830
在我们这个案例中，

259
00:12:00,830 --> 00:12:04,041
迈克在一个旨在识别和辨认

260
00:12:04,041 --> 00:12:06,193
不同种类动物的神经网络中

261
00:12:06,193 --> 00:12:07,441
将y变换成各种不同的动物。

262
00:12:07,441 --> 00:12:12,182
这样你就得到了这个奇特的
动物图像的埃舍尔式变换效果。

263
00:12:14,221 --> 00:12:18,779
他和亚历克斯还一起尝试了

264
00:12:18,779 --> 00:12:21,622
将这些y降低到一个二维空间内，

265
00:12:21,622 --> 00:12:25,110
从而将被该神经网络识别出来的

266
00:12:25,110 --> 00:12:26,823
所有对象放到一张图上来。

267
00:12:26,827 --> 00:12:28,890
通过这样的合成

268
00:12:28,894 --> 00:12:30,920
或者在整个表面上生成图像，

269
00:12:30,920 --> 00:12:33,900
在表面上不断的变换y，
你就创造出了一种图像——

270
00:12:33,900 --> 00:12:37,135
一个包含该神经网络能够
分辨出来的所有对象的视觉图像。

271
00:12:37,135 --> 00:12:40,200
所有的动物都在这儿，
犰狳在那个点上。

272
00:12:40,919 --> 00:12:43,082
你也可以用其它的神经网络
实现类似的目的。

273
00:12:43,082 --> 00:12:46,270
这是一个为识别和分辨出不同面孔

274
00:12:46,270 --> 00:12:48,294
而设计的神经网络。

275
00:12:48,294 --> 00:12:51,567
这里，我们输入一个y值，代表“我”，

276
00:12:51,567 --> 00:12:53,222
我自己的面部参数。

277
00:12:53,222 --> 00:12:55,042
当它在解出x的时候，

278
00:12:55,042 --> 00:12:57,558
就生成了这张集不同视角
于一体，相当不可思议的，

279
00:12:57,558 --> 00:13:02,000
立体的、超现实的、迷幻版本的

280
00:13:02,000 --> 00:13:03,770
我的面部图像。

281
00:13:03,770 --> 00:13:06,208
它之所以看起来像是集不同视角于一体，

282
00:13:06,208 --> 00:13:10,315
是因为这个神经网络被设计成将一张脸

283
00:13:10,319 --> 00:13:12,845
在不同姿势、不同光线之间产生的

284
00:13:12,845 --> 00:13:16,179
模棱两可的地方抹掉了。

285
00:13:16,179 --> 00:13:17,858
因此当你开始这项复原工作时，

286
00:13:17,858 --> 00:13:20,692
如果不利用某种影像引导，

287
00:13:20,692 --> 00:13:21,937
或者统计引导，

288
00:13:21,937 --> 00:13:25,630
那么你就会得到一种
令人困惑的多视角的图像，

289
00:13:25,630 --> 00:13:27,068
因为它是模棱两可的。

290
00:13:27,786 --> 00:13:31,953
这就是亚历克斯在复原
我的面部的优化流程中，

291
00:13:31,953 --> 00:13:35,354
用他自己的脸作为
影像引导时所得到的图像。

292
00:13:36,284 --> 00:13:38,546
你可以看到它还不是十分完美。

293
00:13:38,546 --> 00:13:40,274
我们在完善这个优化流程方面

294
00:13:40,274 --> 00:13:42,987
还有许多的工作要做。

295
00:13:42,991 --> 00:13:45,908
但是通过将我自己的脸
作为渲染过程中的引导，

296
00:13:45,908 --> 00:13:47,876
你已经可以得到一个
更清晰的面孔了。

297
00:13:48,892 --> 00:13:51,347
你不需要完全从一块空白的画布

298
00:13:51,347 --> 00:13:52,477
或白噪音开始。

299
00:13:52,477 --> 00:13:53,535
当你在解出x时，

300
00:13:53,535 --> 00:13:57,814
你可以从一个本身已经是
别的图像的x开始。

301
00:13:57,818 --> 00:14:00,368
正如这个小小的展示那样。

302
00:14:00,368 --> 00:14:04,540
这是一个设计为用来将所有物品——

303
00:14:04,544 --> 00:14:07,677
人造结构、动物等进行分类的神经网络。

304
00:14:07,677 --> 00:14:10,294
我们从一张云图开始，

305
00:14:10,294 --> 00:14:11,995
在优化过程中，

306
00:14:12,009 --> 00:14:16,505
这个神经网络正在不停地计算
它在云中看到了什么。

307
00:14:16,931 --> 00:14:19,331
你花越多的时间盯着这张图，

308
00:14:19,331 --> 00:14:22,028
你就会在云中看到越多的东西。

309
00:14:23,004 --> 00:14:26,379
你也可以使用面部识别
神经网络去产生迷幻效果，

310
00:14:26,383 --> 00:14:28,199
然后就可以得到这种不可思议的东西。

311
00:14:28,199 --> 00:14:29,389
（观众笑声）

312
00:14:30,401 --> 00:14:33,079
或者可以像迈克做的另外一个实验那样，

313
00:14:33,079 --> 00:14:37,058
他还是利用那张云图，

314
00:14:37,058 --> 00:14:40,529
使它幻化、再放大，
幻化再放大，幻化再放大.

315
00:14:40,529 --> 00:14:41,594
这样一来，

316
00:14:41,594 --> 00:14:45,453
我想你就可以得到
这个网络的神游状态，

317
00:14:45,453 --> 00:14:49,157
或者某种自由联想，

318
00:14:49,157 --> 00:14:51,454
仿佛这个网络正在吞噬自己的尾巴。

319
00:14:51,458 --> 00:14:54,843
因此每一张图都是
下一张图的基础，决定了

320
00:14:54,843 --> 00:14:56,298
“我觉得接下来会看到什么？

321
00:14:56,298 --> 00:14:59,151
接下来又会看到什么？
接下来还会看到什么？”

322
00:14:59,487 --> 00:15:02,473
我第一次公开展示这些是在西雅图，

323
00:15:02,473 --> 00:15:07,934
为一个团队做的一次名为
“高等教育”的讲座上——

324
00:15:07,934 --> 00:15:10,435
刚好就在大麻合法化之后。

325
00:15:10,435 --> 00:15:12,784
（观众笑声）

326
00:15:14,627 --> 00:15:16,821
在结束我的演讲前，

327
00:15:16,821 --> 00:15:21,150
我想再提醒各位，
这种技术是不受限的。

328
00:15:21,150 --> 00:15:24,694
我给你们看了一些纯粹的视觉实例，
因为它们看起来真的很有趣。

329
00:15:24,694 --> 00:15:27,475
它不是一种纯粹的视觉技术。

330
00:15:27,475 --> 00:15:29,200
我们的合作者，艺术家罗斯 · 古德温

331
00:15:29,200 --> 00:15:33,008
做了一个实验，他用相机拍了一张照片，

332
00:15:33,008 --> 00:15:37,366
然后他背包里的电脑
基于这张照片的内容，

333
00:15:37,366 --> 00:15:39,627
用神经网络作了一首诗。

334
00:15:39,627 --> 00:15:42,355
这个作诗的神经网络已经接受过

335
00:15:42,355 --> 00:15:44,658
大量的20世纪诗歌的训练。

336
00:15:44,658 --> 00:15:45,870
其实我觉得

337
00:15:45,870 --> 00:15:47,756
那首诗还不赖。

338
00:15:47,756 --> 00:15:49,154
（观众笑声）

339
00:15:49,154 --> 00:15:50,453
下面，

340
00:15:50,453 --> 00:15:52,473
再回到米开朗基罗那句名言，

341
00:15:52,473 --> 00:15:53,897
我想他是对的，

342
00:15:53,897 --> 00:15:57,267
感知和创意是密不可分的。

343
00:15:57,611 --> 00:16:00,305
我们刚刚所看到的是一些

344
00:16:00,305 --> 00:16:02,612
完全被训练成去区分，

345
00:16:02,612 --> 00:16:04,838
或辨别世上的不同物品，

346
00:16:04,838 --> 00:16:08,073
能够逆向运行、成生图像的神经网络。

347
00:16:08,073 --> 00:16:09,814
我从中受到的启发之一就是，

348
00:16:09,814 --> 00:16:12,216
不仅米开朗基罗真的看到了

349
00:16:12,216 --> 00:16:14,702
石头中的雕像，

350
00:16:14,702 --> 00:16:18,344
而且任何的生物、任何人、任何外星人，

351
00:16:18,344 --> 00:16:22,015
只要能够有这样的感知，

352
00:16:22,015 --> 00:16:23,520
也就能够创造，

353
00:16:23,520 --> 00:16:26,798
因为它们都运用了截然相同的机制。

354
00:16:26,798 --> 00:16:31,228
另外，我想感知和创意决不是

355
00:16:31,228 --> 00:16:32,548
人类所特有的。

356
00:16:32,548 --> 00:16:36,074
我们开始有了可以
完成这些事的电脑模型。

357
00:16:36,074 --> 00:16:39,652
这应当不足为奇，因为大脑会运算。

358
00:16:39,652 --> 00:16:41,247
最后，

359
00:16:41,247 --> 00:16:46,025
电脑运算最开始是作为
设计智能机器的一种练习。

360
00:16:46,025 --> 00:16:48,511
它在很大程度上仿照了我们如何

361
00:16:48,511 --> 00:16:51,618
让机器变得智能这一理念。

362
00:16:51,618 --> 00:16:53,498
而我们也终于开始能够实现

363
00:16:53,498 --> 00:16:56,154
图灵、冯 · 诺依曼、

364
00:16:56,154 --> 00:16:57,881
麦卡洛克和皮兹

365
00:16:57,881 --> 00:17:00,220
这些先驱的一些期望了。

366
00:17:00,220 --> 00:17:04,302
我觉得电脑不仅仅是拿来计算，

367
00:17:04,302 --> 00:17:06,483
或者玩游戏的。

368
00:17:06,483 --> 00:17:08,999
从一开始，我们就是
仿照大脑来制造它们的。

369
00:17:08,999 --> 00:17:12,282
而它们也赋予了我们能够
更好的理解我们的大脑，

370
00:17:12,282 --> 00:17:13,871
并且拓展其潜力的能力。

371
00:17:14,627 --> 00:17:15,738
非常感谢。

372
00:17:15,738 --> 00:17:20,857
（观众掌声）