1 00:00:00,800 --> 00:00:03,954 我在谷歌领导着一个 机器智能的项目组, 2 00:00:03,954 --> 00:00:08,658 换句话说,利用工程学原理制造出 3 00:00:08,658 --> 00:00:11,041 能够像人脑一样 完成某些任务的电脑和设备。 4 00:00:11,439 --> 00:00:14,598 这也使我们对人类的 大脑以及神经科学 5 00:00:14,598 --> 00:00:15,871 产生了兴趣, 6 00:00:15,875 --> 00:00:20,087 尤其在那些大脑的表现 7 00:00:20,087 --> 00:00:24,113 比电脑强太多的领域。 8 00:00:25,209 --> 00:00:28,918 长期以来,我们研究的 其中一个领域便是感知, 9 00:00:28,918 --> 00:00:31,855 一种将外界事物—— 10 00:00:31,855 --> 00:00:33,539 比如图像或声音— 11 00:00:33,539 --> 00:00:35,691 转化为大脑内概念的过程。 12 00:00:36,235 --> 00:00:38,902 这对我们的大脑很重要, 13 00:00:38,902 --> 00:00:41,240 对计算机的作用也非同小可。 14 00:00:41,636 --> 00:00:44,790 例如,我们团队开发的机器感知算法 15 00:00:44,790 --> 00:00:48,924 会根据图片的内容 让你在谷歌相册的图片 16 00:00:48,924 --> 00:00:50,305 出现在搜索结果中。 17 00:00:51,594 --> 00:00:55,157 感知的另一方面是创意: 18 00:00:55,157 --> 00:00:58,199 将概念变成现实。 19 00:00:58,199 --> 00:01:01,768 因此,这些年我们 在机器感知能力方面的工作 20 00:01:01,768 --> 00:01:06,691 也意外地跟机器创意以及机器艺术 21 00:01:06,691 --> 00:01:07,795 联系在了一起。 22 00:01:08,556 --> 00:01:11,890 我觉得米开朗基罗对感知和创意 23 00:01:11,890 --> 00:01:15,520 之间的双重关系有着深刻的见解。 24 00:01:16,023 --> 00:01:18,099 他有一句名言: 25 00:01:18,099 --> 00:01:21,376 “每一块石头里都藏着一尊雕像, 26 00:01:22,036 --> 00:01:25,038 而雕塑家的工作就是去发现它。” 27 00:01:26,029 --> 00:01:29,275 我想米开朗基罗意思是 28 00:01:29,275 --> 00:01:32,489 我们通过感知来创造, 29 00:01:32,489 --> 00:01:35,536 而感知本身是想象力的表现, 30 00:01:35,536 --> 00:01:37,981 以及创意的来源。 31 00:01:38,691 --> 00:01:42,666 而进行思考、感知和想象的器官, 32 00:01:42,666 --> 00:01:44,228 毫无疑问,就是大脑。 33 00:01:45,089 --> 00:01:47,684 我想先简单地谈一谈 34 00:01:47,684 --> 00:01:49,960 我们对大脑的了解。 35 00:01:50,496 --> 00:01:53,012 因为不像心脏或其它内脏, 36 00:01:53,012 --> 00:01:56,160 你无法仅仅通过观察 就能看出点什么来, 37 00:01:56,160 --> 00:01:57,546 至少仅凭肉眼看不出来。 38 00:01:57,983 --> 00:02:00,449 早期的解剖学家看着大脑, 39 00:02:00,449 --> 00:02:04,260 给它的表面结构 取了各种充满想象力的名字。 40 00:02:04,260 --> 00:02:06,717 比如说海马体,意思是“小虾子”。 41 00:02:06,717 --> 00:02:09,385 但这些并不能告诉我们 42 00:02:09,385 --> 00:02:11,817 大脑里面究竟是怎样工作的。 43 00:02:12,780 --> 00:02:16,423 我认为第一个真正对大脑的工作方式 44 00:02:16,423 --> 00:02:18,377 有所洞悉的人, 45 00:02:18,377 --> 00:02:22,341 是19世纪西班牙 伟大的神经解剖学家 46 00:02:22,341 --> 00:02:23,843 圣地亚哥 · 拉蒙 · 卡哈尔 (Santiago Ramón y Cajal), 47 00:02:23,843 --> 00:02:27,688 他使用了显微镜以及某种特殊染色剂, 48 00:02:27,688 --> 00:02:31,892 有选择性地将大脑中的 单个细胞填充或者渲染上 49 00:02:31,892 --> 00:02:33,848 高对比度的颜色, 50 00:02:33,848 --> 00:02:37,042 以便了解它们的形态。 51 00:02:37,972 --> 00:02:40,857 这些就是他在19世纪 52 00:02:40,857 --> 00:02:42,090 完成的的神经元手绘图。 53 00:02:42,090 --> 00:02:44,084 这是一只鸟的大脑。 54 00:02:44,084 --> 00:02:47,019 能看到这些形态各异的细胞, 55 00:02:47,019 --> 00:02:50,538 甚至在当时对细胞学说 本身还是新鲜事物。 56 00:02:50,538 --> 00:02:51,840 而这些结构, 57 00:02:51,840 --> 00:02:54,169 像树枝一样分岔, 58 00:02:54,169 --> 00:02:56,425 能够延伸到很长的距离—— 59 00:02:56,425 --> 00:02:58,401 这些在当时都是闻所未闻。 60 00:02:58,779 --> 00:03:01,712 他们让人联想到的,当然是电线。 61 00:03:01,712 --> 00:03:05,163 这对于很多19世纪的人 来说是显而易见的, 62 00:03:05,187 --> 00:03:09,501 因为那时电线和电力革命刚刚兴起。 63 00:03:09,964 --> 00:03:11,202 但是在许多方面 64 00:03:11,202 --> 00:03:14,463 拉蒙 · 卡哈尔的神经解剖学 绘画,比如这一张, 65 00:03:14,463 --> 00:03:16,875 从某些方面来说是很卓越的。 66 00:03:16,875 --> 00:03:18,743 一个多世纪后的我们,仍然在继续 67 00:03:18,743 --> 00:03:21,602 尝试完成拉蒙 · 卡哈尔开启的事业。 68 00:03:21,602 --> 00:03:24,740 提供这些原始数据的,是我们来自 69 00:03:24,744 --> 00:03:27,675 马克斯 · 普朗克 神经科学研究所的合作者。 70 00:03:27,675 --> 00:03:29,433 他们的工作 71 00:03:29,433 --> 00:03:34,544 是对那些小块的脑组织进行成像。 72 00:03:34,544 --> 00:03:37,844 这一整个样品的大小 是1立方毫米左右, 73 00:03:37,844 --> 00:03:40,519 而我展示的只是它上面 很小很小的一块区域。 74 00:03:40,519 --> 00:03:42,909 左边那段比例尺的长度是1微米。 75 00:03:42,909 --> 00:03:45,246 你看到的这个结构 76 00:03:45,246 --> 00:03:47,360 是一个细菌大小的线粒体。 77 00:03:47,360 --> 00:03:49,005 这些是利用这个非常微小的组织 78 00:03:49,005 --> 00:03:52,117 所制作成的连续的切片。 79 00:03:52,117 --> 00:03:54,544 我们来做个对比。 80 00:03:54,544 --> 00:03:58,410 通常一根头发的直径是 100微米左右。 81 00:03:58,410 --> 00:04:00,592 所以我们看到的东西 82 00:04:00,592 --> 00:04:02,034 比一根头发丝还要细很多。 83 00:04:02,034 --> 00:04:06,089 通过这些连续的电子显微镜切片, 84 00:04:06,089 --> 00:04:11,157 人们可以重构出类似这样的 神经元三维图像。 85 00:04:11,157 --> 00:04:14,348 某种程度上,这跟拉蒙 · 卡哈尔 所用的方式是一样的。 86 00:04:14,348 --> 00:04:15,874 我们只对少量的神经元进行了突出显示, 87 00:04:15,874 --> 00:04:18,613 否则我们不可能看到任何东西, 88 00:04:18,613 --> 00:04:19,995 因为那样一来画面会很拥挤, 89 00:04:19,995 --> 00:04:21,569 充满了组织结构, 90 00:04:21,569 --> 00:04:24,067 充满了各个神经元间 纵横交错的通路。 91 00:04:25,293 --> 00:04:28,137 显然,拉蒙 · 卡哈尔 有一点超前于他的时代, 92 00:04:28,137 --> 00:04:30,836 接下来的几十年间 93 00:04:30,836 --> 00:04:32,971 人们对大脑的理解进展非常缓慢。 94 00:04:33,455 --> 00:04:36,292 但是我们已经知道, 神经元通过电流传导信息, 95 00:04:36,292 --> 00:04:39,328 而到二战时,我们的技术 已取得了长足的进步, 96 00:04:39,328 --> 00:04:42,158 可以开始在活的 神经元细胞上做电流实验, 97 00:04:42,158 --> 00:04:44,228 以便更好地理解它们的工作原理。 98 00:04:44,631 --> 00:04:49,037 而电脑也正是在 这个时候被发明了出来, 99 00:04:49,037 --> 00:04:52,201 它的发明是基于对大脑的模拟—— 100 00:04:52,201 --> 00:04:55,270 也就是阿兰 · 图灵 所称的“智能机器”理念, 101 00:04:55,270 --> 00:04:57,235 图灵是计算机科学的开创者之一。 102 00:04:57,923 --> 00:05:02,539 沃伦 · 麦卡洛克(Warren McCulloch)和 沃尔特 · 皮兹(Walter Pitts)看到了 103 00:05:02,539 --> 00:05:03,936 拉蒙 · 卡哈尔所画的 大脑视觉皮层, 104 00:05:03,936 --> 00:05:05,582 就是我给你们看的这个。 105 00:05:05,582 --> 00:05:09,948 这是负责处理我们视觉信息的大脑皮层。 106 00:05:10,424 --> 00:05:13,932 对他们来说,这看起来像一个电路图。 107 00:05:14,353 --> 00:05:18,238 在麦卡洛克和皮兹的电路图上, 108 00:05:18,238 --> 00:05:19,558 有许多细节并不是那么正确。 109 00:05:19,558 --> 00:05:20,973 但基本概念是对的, 110 00:05:20,973 --> 00:05:24,909 他们认为视觉皮层工作起来 就像一系列计算机元件 111 00:05:24,909 --> 00:05:27,669 在同一个层级中传递信息, 112 00:05:27,669 --> 00:05:29,295 这一点是对的。 113 00:05:29,295 --> 00:05:31,669 我们再聊一聊 114 00:05:31,669 --> 00:05:35,665 视觉信息处理模型需要做些什么。 115 00:05:36,228 --> 00:05:39,039 感知的基本任务就是 116 00:05:39,039 --> 00:05:43,171 抓取这样的图像并且告诉我们 117 00:05:43,171 --> 00:05:44,381 “这是一只鸟”, 118 00:05:44,391 --> 00:05:47,345 这对我们的大脑来说非常简单。 119 00:05:47,345 --> 00:05:50,760 但对一台电脑来说, 120 00:05:50,760 --> 00:05:53,871 在几年前,这还是完全不可能的事。 121 00:05:53,871 --> 00:05:55,851 传统的计算模式 122 00:05:55,851 --> 00:05:58,312 很难完成这个任务。 123 00:05:59,366 --> 00:06:01,958 像素、鸟的图像以及“鸟”这个词, 124 00:06:01,958 --> 00:06:05,914 这三者之间所产生的联系, 125 00:06:05,914 --> 00:06:08,792 本质上是在一个神经网络中各神经元 126 00:06:08,792 --> 00:06:09,901 相互连接的结果, 127 00:06:09,901 --> 00:06:11,294 正如这张图所示。 128 00:06:11,294 --> 00:06:14,610 这种神经网络可能是生物学上的, 存在于我们大脑视觉皮层里, 129 00:06:14,610 --> 00:06:16,776 或者,现如今我们开始有能力 130 00:06:16,776 --> 00:06:19,194 在电脑上模拟这种神经网络。 131 00:06:19,834 --> 00:06:22,217 我们来看一下它的工作原理。 132 00:06:22,217 --> 00:06:25,657 可以将像素想像成第一层的神经元, 133 00:06:25,657 --> 00:06:27,864 这实际上就是在 眼睛内部的工作原理—— 134 00:06:27,864 --> 00:06:29,617 是视网膜上的神经元。 135 00:06:29,617 --> 00:06:31,181 然后这些前馈信息 136 00:06:31,181 --> 00:06:34,528 通过一层层神经元往下传递, 137 00:06:34,528 --> 00:06:37,625 这些神经元通过突触彼此连接。 138 00:06:37,625 --> 00:06:39,024 这个神经网络的行为 139 00:06:39,024 --> 00:06:42,292 是通过所有这些突触的强度来表达的, 140 00:06:42,292 --> 00:06:45,584 也塑造了这个网络的计算性能。 141 00:06:45,588 --> 00:06:47,042 最终, 142 00:06:47,042 --> 00:06:49,589 一个或者一小群神经元 143 00:06:49,589 --> 00:06:51,200 会亮起来,说,“鸟”。 144 00:06:51,824 --> 00:06:55,026 接下来我会将这三部分—— 145 00:06:55,026 --> 00:06:59,706 输入的像素,神经网络中的突触, 146 00:06:59,706 --> 00:07:01,315 以及“鸟”,这个输出结果—— 147 00:07:01,315 --> 00:07:04,366 用三个变量来表示:x、w和y。 148 00:07:04,853 --> 00:07:06,694 在那张图片上可能会有一百万个x—— 149 00:07:06,694 --> 00:07:08,625 代表一百万个像素点。 150 00:07:08,625 --> 00:07:11,151 然后有几十亿或几万亿的w, 151 00:07:11,151 --> 00:07:14,550 代表着神经网络中所有突触的权重。 152 00:07:14,550 --> 00:07:16,525 只有很少数量的y, 153 00:07:16,525 --> 00:07:18,387 代表整个网络的输出结果。 154 00:07:18,387 --> 00:07:20,110 “Bird(鸟)"这个单词 只有四个字母,对吧? 155 00:07:21,088 --> 00:07:24,554 我们假定这只是一个很简单的公式 156 00:07:24,554 --> 00:07:26,701 x 乘以 w 等于 y。 157 00:07:26,705 --> 00:07:28,735 我把乘号打上了引号, 158 00:07:28,735 --> 00:07:31,105 因为实际的过程要复杂得多。 159 00:07:31,105 --> 00:07:34,135 牵涉到一系列非常复杂的数学运算。 160 00:07:35,172 --> 00:07:36,413 这是一个方程式, 161 00:07:36,417 --> 00:07:38,149 有三个变量。 162 00:07:38,149 --> 00:07:40,879 而我们知道在一个方程式中 163 00:07:40,879 --> 00:07:44,505 通过两个已知数 你就能算出另一个未知数。 164 00:07:45,158 --> 00:07:48,608 所以这道推论题, 165 00:07:48,608 --> 00:07:51,465 即判断出图中是一只鸟, 166 00:07:51,465 --> 00:07:52,753 可以这样来描述: 167 00:07:52,757 --> 00:07:56,266 y是未知数,w跟x都是已知数。 168 00:07:56,266 --> 00:07:58,819 也就是神经网络和像素是已知的。 169 00:07:58,819 --> 00:08:01,624 实际上这是一个相当简单的问题。 170 00:08:01,624 --> 00:08:04,260 你只需要用2乘以3,就完事儿了。 171 00:08:04,862 --> 00:08:07,025 我会给你们展示我们最近 完成的人工神经网络, 172 00:08:07,025 --> 00:08:09,305 它的工作原理正是如此。 173 00:08:09,634 --> 00:08:12,524 这是在一台在手机上 实时运行的神经网络, 174 00:08:12,524 --> 00:08:15,901 当然,令人惊叹的是它自身的运算能力, 175 00:08:15,901 --> 00:08:18,817 每秒钟可以进行 几十亿甚至几万亿次的 176 00:08:18,817 --> 00:08:20,633 运算。 177 00:08:20,633 --> 00:08:22,304 你所看到的是一台手机的 178 00:08:22,304 --> 00:08:25,885 相机对准了一张张含有鸟的图片, 179 00:08:25,885 --> 00:08:28,518 并且它不只能判断出, “是的,这是一只鸟”, 180 00:08:28,518 --> 00:08:32,360 而且还能用这种网络 来判断这些鸟的种类。 181 00:08:32,890 --> 00:08:34,776 因此在这张图片中, 182 00:08:34,776 --> 00:08:38,632 x和w是已知的,y是未知的。 183 00:08:38,632 --> 00:08:41,114 当然,我省略了非常复杂的那一部分, 184 00:08:41,114 --> 00:08:44,953 也就是我们如何判断出w? 185 00:08:44,953 --> 00:08:47,220 为什么大脑能做出这样的判断? 186 00:08:47,220 --> 00:08:49,028 我们是如何学会这种模式的? 187 00:08:49,418 --> 00:08:52,645 在学习以及解出w的过程中, 188 00:08:52,645 --> 00:08:55,362 如果我们使用简单的等式 189 00:08:55,362 --> 00:08:57,256 将这些都想象成数字, 190 00:08:57,256 --> 00:09:00,051 那这道题就简单了: 6 = 2 x W, 191 00:09:00,051 --> 00:09:03,393 那么,用6除以2就可以得出答案。 192 00:09:04,001 --> 00:09:06,221 现在的问题就是这个运算符号。 193 00:09:06,823 --> 00:09:07,968 除法—— 194 00:09:07,968 --> 00:09:10,533 我们用除法是因为它是乘法的逆运算。 195 00:09:10,533 --> 00:09:12,517 但就像我刚才说的, 196 00:09:12,517 --> 00:09:15,086 乘法表述在这里其实不太准确。 197 00:09:15,086 --> 00:09:18,406 这是一个非常非常 复杂的非线性运算, 198 00:09:18,410 --> 00:09:20,174 它没有逆运算。 199 00:09:20,174 --> 00:09:23,348 所以我们要找出一个不使用除号 200 00:09:23,348 --> 00:09:25,406 就能解出这个方程式的方法。 201 00:09:25,406 --> 00:09:27,653 其实非常简单。 202 00:09:27,653 --> 00:09:30,468 只需要使用一点代数上的小技巧, 203 00:09:30,468 --> 00:09:33,398 将6移到等式的右边。 204 00:09:33,398 --> 00:09:35,198 现在我们仍然使用乘法。 205 00:09:35,675 --> 00:09:39,295 而这个0——我们就当它是一个误差。 206 00:09:39,295 --> 00:09:41,844 换句话说,如果我们 能用正确的方法解出w, 207 00:09:41,844 --> 00:09:43,504 那么这个误差就为0。 208 00:09:43,504 --> 00:09:45,320 如果我们没有找到正确的答案, 209 00:09:45,320 --> 00:09:47,123 那么这个误差就会大于0。 210 00:09:47,123 --> 00:09:50,639 所以现在我们可以通过 假设去缩小这个误差, 211 00:09:50,639 --> 00:09:52,954 而这正是电脑所擅长的。 212 00:09:52,954 --> 00:09:54,151 比如你最开始假设: 213 00:09:54,151 --> 00:09:54,961 如果w = 0呢? 214 00:09:54,961 --> 00:09:56,115 那么误差就为6。 215 00:09:56,115 --> 00:09:58,645 如果w = 1呢?误差就变成了4。 216 00:09:58,645 --> 00:10:01,252 然后电脑就像玩游戏一样不断测试, 217 00:10:01,256 --> 00:10:03,653 将误差降低到接近于0。 218 00:10:03,653 --> 00:10:06,955 这样就逐步逼近了w的值。 219 00:10:06,955 --> 00:10:10,801 通常来说,它不可能获得完全精确的值, 但是经过很多步运算以后, 220 00:10:10,801 --> 00:10:15,349 我们得到了 w = 2.999, 已经足够精确了。 221 00:10:16,302 --> 00:10:18,156 以上就是这个学习过程。 222 00:10:18,156 --> 00:10:20,900 大家回想一下刚刚我们所做的, 223 00:10:20,900 --> 00:10:25,342 我们用了很多已知的x和y的值, 224 00:10:25,342 --> 00:10:28,790 通过迭代法去解出中间的w, 225 00:10:28,790 --> 00:10:32,304 这也正是我们自己 在学习时所使用的方法。 226 00:10:32,304 --> 00:10:34,644 在我们很小的时候, 会看到很多很多图像, 227 00:10:34,644 --> 00:10:37,241 然后有人告诉我们: “这个是鸟,这个不是鸟。” 228 00:10:37,714 --> 00:10:39,806 经过一段时间的重复, 229 00:10:39,806 --> 00:10:42,764 我们解出了w,建立起了 神经元之间的连接。 230 00:10:43,460 --> 00:10:47,790 那么现在,我们有了确定的 x和w。再要去解出Y 231 00:10:47,790 --> 00:10:49,371 就会非常快了。 232 00:10:49,371 --> 00:10:51,188 我们找到解出w的方法, 233 00:10:51,188 --> 00:10:53,211 这是一种学习,要困难得多, 234 00:10:53,211 --> 00:10:54,864 因为我们要用很多的训练样本, 235 00:10:54,864 --> 00:10:56,815 去将误差最小化。 236 00:10:56,815 --> 00:11:00,046 一年前,我们团队的 亚历克斯 · 莫尔德温采夫 237 00:11:00,046 --> 00:11:03,600 决定做一个实验, 看如果给定已知的w和y, 238 00:11:03,600 --> 00:11:05,697 去解出x,会发生什么。 239 00:11:06,124 --> 00:11:07,109 换句话说, 240 00:11:07,109 --> 00:11:08,671 你已经知道那是一只鸟 241 00:11:08,675 --> 00:11:11,962 并且也有一个接受过 鸟类识别训练的神经网络, 242 00:11:11,962 --> 00:11:14,346 那么一只鸟的图像是怎样的呢? 243 00:11:15,034 --> 00:11:20,078 我们发现,通过运用相同的 将误差最小化的步骤, 244 00:11:20,082 --> 00:11:23,562 加上一个受过鸟类识别 训练的神经网络, 245 00:11:23,562 --> 00:11:26,924 我们就可以得到 246 00:11:30,400 --> 00:11:31,705 一张含有鸟的图片。 247 00:11:32,814 --> 00:11:36,515 这是一张由一个进行过 鸟类识别训练的 248 00:11:36,515 --> 00:11:38,441 神经网络所生成的鸟的图片, 249 00:11:38,441 --> 00:11:41,907 仅仅是通过解出x,而不是y, 250 00:11:41,907 --> 00:11:43,275 并且重复不断的运行。 251 00:11:43,732 --> 00:11:45,639 这是另外一个有趣的例子 252 00:11:45,639 --> 00:11:49,014 是我们团队的迈克 · 泰卡制作的 , 253 00:11:49,014 --> 00:11:51,442 他称之为“动物大游行”。 254 00:11:51,442 --> 00:11:54,392 这让我想起了威廉 ·肯特里奇的作品, 255 00:11:54,392 --> 00:11:56,835 他先画一些素描,然后擦掉, 256 00:11:56,835 --> 00:11:58,133 再画一些素描,再擦掉, 257 00:11:58,133 --> 00:11:59,275 用这种方法创作了一部影片。 258 00:11:59,275 --> 00:12:00,830 在我们这个案例中, 259 00:12:00,830 --> 00:12:04,041 迈克在一个旨在识别和辨认 260 00:12:04,041 --> 00:12:06,193 不同种类动物的神经网络中 261 00:12:06,193 --> 00:12:07,441 将y变换成各种不同的动物。 262 00:12:07,441 --> 00:12:12,182 这样你就得到了这个奇特的 动物图像的埃舍尔式变换效果。 263 00:12:14,221 --> 00:12:18,779 他和亚历克斯还一起尝试了 264 00:12:18,779 --> 00:12:21,622 将这些y降低到一个二维空间内, 265 00:12:21,622 --> 00:12:25,110 从而将被该神经网络识别出来的 266 00:12:25,110 --> 00:12:26,823 所有对象放到一张图上来。 267 00:12:26,827 --> 00:12:28,890 通过这样的合成 268 00:12:28,894 --> 00:12:30,920 或者在整个表面上生成图像, 269 00:12:30,920 --> 00:12:33,900 在表面上不断的变换y, 你就创造出了一种图像—— 270 00:12:33,900 --> 00:12:37,135 一个包含该神经网络能够 分辨出来的所有对象的视觉图像。 271 00:12:37,135 --> 00:12:40,200 所有的动物都在这儿, 犰狳在那个点上。 272 00:12:40,919 --> 00:12:43,082 你也可以用其它的神经网络 实现类似的目的。 273 00:12:43,082 --> 00:12:46,270 这是一个为识别和分辨出不同面孔 274 00:12:46,270 --> 00:12:48,294 而设计的神经网络。 275 00:12:48,294 --> 00:12:51,567 这里,我们输入一个y值,代表“我”, 276 00:12:51,567 --> 00:12:53,222 我自己的面部参数。 277 00:12:53,222 --> 00:12:55,042 当它在解出x的时候, 278 00:12:55,042 --> 00:12:57,558 就生成了这张集不同视角 于一体,相当不可思议的, 279 00:12:57,558 --> 00:13:02,000 立体的、超现实的、迷幻版本的 280 00:13:02,000 --> 00:13:03,770 我的面部图像。 281 00:13:03,770 --> 00:13:06,208 它之所以看起来像是集不同视角于一体, 282 00:13:06,208 --> 00:13:10,315 是因为这个神经网络被设计成将一张脸 283 00:13:10,319 --> 00:13:12,845 在不同姿势、不同光线之间产生的 284 00:13:12,845 --> 00:13:16,179 模棱两可的地方抹掉了。 285 00:13:16,179 --> 00:13:17,858 因此当你开始这项复原工作时, 286 00:13:17,858 --> 00:13:20,692 如果不利用某种影像引导, 287 00:13:20,692 --> 00:13:21,937 或者统计引导, 288 00:13:21,937 --> 00:13:25,630 那么你就会得到一种 令人困惑的多视角的图像, 289 00:13:25,630 --> 00:13:27,068 因为它是模棱两可的。 290 00:13:27,786 --> 00:13:31,953 这就是亚历克斯在复原 我的面部的优化流程中, 291 00:13:31,953 --> 00:13:35,354 用他自己的脸作为 影像引导时所得到的图像。 292 00:13:36,284 --> 00:13:38,546 你可以看到它还不是十分完美。 293 00:13:38,546 --> 00:13:40,274 我们在完善这个优化流程方面 294 00:13:40,274 --> 00:13:42,987 还有许多的工作要做。 295 00:13:42,991 --> 00:13:45,908 但是通过将我自己的脸 作为渲染过程中的引导, 296 00:13:45,908 --> 00:13:47,876 你已经可以得到一个 更清晰的面孔了。 297 00:13:48,892 --> 00:13:51,347 你不需要完全从一块空白的画布 298 00:13:51,347 --> 00:13:52,477 或白噪音开始。 299 00:13:52,477 --> 00:13:53,535 当你在解出x时, 300 00:13:53,535 --> 00:13:57,814 你可以从一个本身已经是 别的图像的x开始。 301 00:13:57,818 --> 00:14:00,368 正如这个小小的展示那样。 302 00:14:00,368 --> 00:14:04,540 这是一个设计为用来将所有物品—— 303 00:14:04,544 --> 00:14:07,677 人造结构、动物等进行分类的神经网络。 304 00:14:07,677 --> 00:14:10,294 我们从一张云图开始, 305 00:14:10,294 --> 00:14:11,995 在优化过程中, 306 00:14:12,009 --> 00:14:16,505 这个神经网络正在不停地计算 它在云中看到了什么。 307 00:14:16,931 --> 00:14:19,331 你花越多的时间盯着这张图, 308 00:14:19,331 --> 00:14:22,028 你就会在云中看到越多的东西。 309 00:14:23,004 --> 00:14:26,379 你也可以使用面部识别 神经网络去产生迷幻效果, 310 00:14:26,383 --> 00:14:28,199 然后就可以得到这种不可思议的东西。 311 00:14:28,199 --> 00:14:29,389 (观众笑声) 312 00:14:30,401 --> 00:14:33,079 或者可以像迈克做的另外一个实验那样, 313 00:14:33,079 --> 00:14:37,058 他还是利用那张云图, 314 00:14:37,058 --> 00:14:40,529 使它幻化、再放大, 幻化再放大,幻化再放大. 315 00:14:40,529 --> 00:14:41,594 这样一来, 316 00:14:41,594 --> 00:14:45,453 我想你就可以得到 这个网络的神游状态, 317 00:14:45,453 --> 00:14:49,157 或者某种自由联想, 318 00:14:49,157 --> 00:14:51,454 仿佛这个网络正在吞噬自己的尾巴。 319 00:14:51,458 --> 00:14:54,843 因此每一张图都是 下一张图的基础,决定了 320 00:14:54,843 --> 00:14:56,298 “我觉得接下来会看到什么? 321 00:14:56,298 --> 00:14:59,151 接下来又会看到什么? 接下来还会看到什么?” 322 00:14:59,487 --> 00:15:02,473 我第一次公开展示这些是在西雅图, 323 00:15:02,473 --> 00:15:07,934 为一个团队做的一次名为 “高等教育”的讲座上—— 324 00:15:07,934 --> 00:15:10,435 刚好就在大麻合法化之后。 325 00:15:10,435 --> 00:15:12,784 (观众笑声) 326 00:15:14,627 --> 00:15:16,821 在结束我的演讲前, 327 00:15:16,821 --> 00:15:21,150 我想再提醒各位, 这种技术是不受限的。 328 00:15:21,150 --> 00:15:24,694 我给你们看了一些纯粹的视觉实例, 因为它们看起来真的很有趣。 329 00:15:24,694 --> 00:15:27,475 它不是一种纯粹的视觉技术。 330 00:15:27,475 --> 00:15:29,200 我们的合作者,艺术家罗斯 · 古德温 331 00:15:29,200 --> 00:15:33,008 做了一个实验,他用相机拍了一张照片, 332 00:15:33,008 --> 00:15:37,366 然后他背包里的电脑 基于这张照片的内容, 333 00:15:37,366 --> 00:15:39,627 用神经网络作了一首诗。 334 00:15:39,627 --> 00:15:42,355 这个作诗的神经网络已经接受过 335 00:15:42,355 --> 00:15:44,658 大量的20世纪诗歌的训练。 336 00:15:44,658 --> 00:15:45,870 其实我觉得 337 00:15:45,870 --> 00:15:47,756 那首诗还不赖。 338 00:15:47,756 --> 00:15:49,154 (观众笑声) 339 00:15:49,154 --> 00:15:50,453 下面, 340 00:15:50,453 --> 00:15:52,473 再回到米开朗基罗那句名言, 341 00:15:52,473 --> 00:15:53,897 我想他是对的, 342 00:15:53,897 --> 00:15:57,267 感知和创意是密不可分的。 343 00:15:57,611 --> 00:16:00,305 我们刚刚所看到的是一些 344 00:16:00,305 --> 00:16:02,612 完全被训练成去区分, 345 00:16:02,612 --> 00:16:04,838 或辨别世上的不同物品, 346 00:16:04,838 --> 00:16:08,073 能够逆向运行、成生图像的神经网络。 347 00:16:08,073 --> 00:16:09,814 我从中受到的启发之一就是, 348 00:16:09,814 --> 00:16:12,216 不仅米开朗基罗真的看到了 349 00:16:12,216 --> 00:16:14,702 石头中的雕像, 350 00:16:14,702 --> 00:16:18,344 而且任何的生物、任何人、任何外星人, 351 00:16:18,344 --> 00:16:22,015 只要能够有这样的感知, 352 00:16:22,015 --> 00:16:23,520 也就能够创造, 353 00:16:23,520 --> 00:16:26,798 因为它们都运用了截然相同的机制。 354 00:16:26,798 --> 00:16:31,228 另外,我想感知和创意决不是 355 00:16:31,228 --> 00:16:32,548 人类所特有的。 356 00:16:32,548 --> 00:16:36,074 我们开始有了可以 完成这些事的电脑模型。 357 00:16:36,074 --> 00:16:39,652 这应当不足为奇,因为大脑会运算。 358 00:16:39,652 --> 00:16:41,247 最后, 359 00:16:41,247 --> 00:16:46,025 电脑运算最开始是作为 设计智能机器的一种练习。 360 00:16:46,025 --> 00:16:48,511 它在很大程度上仿照了我们如何 361 00:16:48,511 --> 00:16:51,618 让机器变得智能这一理念。 362 00:16:51,618 --> 00:16:53,498 而我们也终于开始能够实现 363 00:16:53,498 --> 00:16:56,154 图灵、冯 · 诺依曼、 364 00:16:56,154 --> 00:16:57,881 麦卡洛克和皮兹 365 00:16:57,881 --> 00:17:00,220 这些先驱的一些期望了。 366 00:17:00,220 --> 00:17:04,302 我觉得电脑不仅仅是拿来计算, 367 00:17:04,302 --> 00:17:06,483 或者玩游戏的。 368 00:17:06,483 --> 00:17:08,999 从一开始,我们就是 仿照大脑来制造它们的。 369 00:17:08,999 --> 00:17:12,282 而它们也赋予了我们能够 更好的理解我们的大脑, 370 00:17:12,282 --> 00:17:13,871 并且拓展其潜力的能力。 371 00:17:14,627 --> 00:17:15,738 非常感谢。 372 00:17:15,738 --> 00:17:20,857 (观众掌声)