我在谷歌领导着一个 机器智能的项目组, 换句话说,利用工程学原理制造出 能够像人脑一样 完成某些任务的电脑和设备。 这也使我们对人类的 大脑以及神经科学 产生了兴趣, 尤其在那些大脑的表现 比电脑强太多的领域。 长期以来,我们研究的 其中一个领域便是感知, 一种将外界事物—— 比如图像或声音— 转化为大脑内概念的过程。 这对我们的大脑很重要, 对计算机的作用也非同小可。 例如,我们团队开发的机器感知算法 会根据图片的内容 让你在谷歌相册的图片 出现在搜索结果中。 感知的另一方面是创意: 将概念变成现实。 因此,这些年我们 在机器感知能力方面的工作 也意外地跟机器创意以及机器艺术 联系在了一起。 我觉得米开朗基罗对感知和创意 之间的双重关系有着深刻的见解。 他有一句名言: “每一块石头里都藏着一尊雕像, 而雕塑家的工作就是去发现它。” 我想米开朗基罗意思是 我们通过感知来创造, 而感知本身是想象力的表现, 以及创意的来源。 而进行思考、感知和想象的器官, 毫无疑问,就是大脑。 我想先简单地谈一谈 我们对大脑的了解。 因为不像心脏或其它内脏, 你无法仅仅通过观察 就能看出点什么来, 至少仅凭肉眼看不出来。 早期的解剖学家看着大脑, 给它的表面结构 取了各种充满想象力的名字。 比如说海马体,意思是“小虾子”。 但这些并不能告诉我们 大脑里面究竟是怎样工作的。 我认为第一个真正对大脑的工作方式 有所洞悉的人, 是19世纪西班牙 伟大的神经解剖学家 圣地亚哥 · 拉蒙 · 卡哈尔 (Santiago Ramón y Cajal), 他使用了显微镜以及某种特殊染色剂, 有选择性地将大脑中的 单个细胞填充或者渲染上 高对比度的颜色, 以便了解它们的形态。 这些就是他在19世纪 完成的的神经元手绘图。 这是一只鸟的大脑。 能看到这些形态各异的细胞, 甚至在当时对细胞学说 本身还是新鲜事物。 而这些结构, 像树枝一样分岔, 能够延伸到很长的距离—— 这些在当时都是闻所未闻。 他们让人联想到的,当然是电线。 这对于很多19世纪的人 来说是显而易见的, 因为那时电线和电力革命刚刚兴起。 但是在许多方面 拉蒙 · 卡哈尔的神经解剖学 绘画,比如这一张, 从某些方面来说是很卓越的。 一个多世纪后的我们,仍然在继续 尝试完成拉蒙 · 卡哈尔开启的事业。 提供这些原始数据的,是我们来自 马克斯 · 普朗克 神经科学研究所的合作者。 他们的工作 是对那些小块的脑组织进行成像。 这一整个样品的大小 是1立方毫米左右, 而我展示的只是它上面 很小很小的一块区域。 左边那段比例尺的长度是1微米。 你看到的这个结构 是一个细菌大小的线粒体。 这些是利用这个非常微小的组织 所制作成的连续的切片。 我们来做个对比。 通常一根头发的直径是 100微米左右。 所以我们看到的东西 比一根头发丝还要细很多。 通过这些连续的电子显微镜切片, 人们可以重构出类似这样的 神经元三维图像。 某种程度上,这跟拉蒙 · 卡哈尔 所用的方式是一样的。 我们只对少量的神经元进行了突出显示, 否则我们不可能看到任何东西, 因为那样一来画面会很拥挤, 充满了组织结构, 充满了各个神经元间 纵横交错的通路。 显然,拉蒙 · 卡哈尔 有一点超前于他的时代, 接下来的几十年间 人们对大脑的理解进展非常缓慢。 但是我们已经知道, 神经元通过电流传导信息, 而到二战时,我们的技术 已取得了长足的进步, 可以开始在活的 神经元细胞上做电流实验, 以便更好地理解它们的工作原理。 而电脑也正是在 这个时候被发明了出来, 它的发明是基于对大脑的模拟—— 也就是阿兰 · 图灵 所称的“智能机器”理念, 图灵是计算机科学的开创者之一。 沃伦 · 麦卡洛克(Warren McCulloch)和 沃尔特 · 皮兹(Walter Pitts)看到了 拉蒙 · 卡哈尔所画的 大脑视觉皮层, 就是我给你们看的这个。 这是负责处理我们视觉信息的大脑皮层。 对他们来说,这看起来像一个电路图。 在麦卡洛克和皮兹的电路图上, 有许多细节并不是那么正确。 但基本概念是对的, 他们认为视觉皮层工作起来 就像一系列计算机元件 在同一个层级中传递信息, 这一点是对的。 我们再聊一聊 视觉信息处理模型需要做些什么。 感知的基本任务就是 抓取这样的图像并且告诉我们 “这是一只鸟”, 这对我们的大脑来说非常简单。 但对一台电脑来说, 在几年前,这还是完全不可能的事。 传统的计算模式 很难完成这个任务。 像素、鸟的图像以及“鸟”这个词, 这三者之间所产生的联系, 本质上是在一个神经网络中各神经元 相互连接的结果, 正如这张图所示。 这种神经网络可能是生物学上的, 存在于我们大脑视觉皮层里, 或者,现如今我们开始有能力 在电脑上模拟这种神经网络。 我们来看一下它的工作原理。 可以将像素想像成第一层的神经元, 这实际上就是在 眼睛内部的工作原理—— 是视网膜上的神经元。 然后这些前馈信息 通过一层层神经元往下传递, 这些神经元通过突触彼此连接。 这个神经网络的行为 是通过所有这些突触的强度来表达的, 也塑造了这个网络的计算性能。 最终, 一个或者一小群神经元 会亮起来,说,“鸟”。 接下来我会将这三部分—— 输入的像素,神经网络中的突触, 以及“鸟”,这个输出结果—— 用三个变量来表示:x、w和y。 在那张图片上可能会有一百万个x—— 代表一百万个像素点。 然后有几十亿或几万亿的w, 代表着神经网络中所有突触的权重。 只有很少数量的y, 代表整个网络的输出结果。 “Bird(鸟)"这个单词 只有四个字母,对吧? 我们假定这只是一个很简单的公式 x 乘以 w 等于 y。 我把乘号打上了引号, 因为实际的过程要复杂得多。 牵涉到一系列非常复杂的数学运算。 这是一个方程式, 有三个变量。 而我们知道在一个方程式中 通过两个已知数 你就能算出另一个未知数。 所以这道推论题, 即判断出图中是一只鸟, 可以这样来描述: y是未知数,w跟x都是已知数。 也就是神经网络和像素是已知的。 实际上这是一个相当简单的问题。 你只需要用2乘以3,就完事儿了。 我会给你们展示我们最近 完成的人工神经网络, 它的工作原理正是如此。 这是在一台在手机上 实时运行的神经网络, 当然,令人惊叹的是它自身的运算能力, 每秒钟可以进行 几十亿甚至几万亿次的 运算。 你所看到的是一台手机的 相机对准了一张张含有鸟的图片, 并且它不只能判断出, “是的,这是一只鸟”, 而且还能用这种网络 来判断这些鸟的种类。 因此在这张图片中, x和w是已知的,y是未知的。 当然,我省略了非常复杂的那一部分, 也就是我们如何判断出w? 为什么大脑能做出这样的判断? 我们是如何学会这种模式的? 在学习以及解出w的过程中, 如果我们使用简单的等式 将这些都想象成数字, 那这道题就简单了: 6 = 2 x W, 那么,用6除以2就可以得出答案。 现在的问题就是这个运算符号。 除法—— 我们用除法是因为它是乘法的逆运算。 但就像我刚才说的, 乘法表述在这里其实不太准确。 这是一个非常非常 复杂的非线性运算, 它没有逆运算。 所以我们要找出一个不使用除号 就能解出这个方程式的方法。 其实非常简单。 只需要使用一点代数上的小技巧, 将6移到等式的右边。 现在我们仍然使用乘法。 而这个0——我们就当它是一个误差。 换句话说,如果我们 能用正确的方法解出w, 那么这个误差就为0。 如果我们没有找到正确的答案, 那么这个误差就会大于0。 所以现在我们可以通过 假设去缩小这个误差, 而这正是电脑所擅长的。 比如你最开始假设: 如果w = 0呢? 那么误差就为6。 如果w = 1呢?误差就变成了4。 然后电脑就像玩游戏一样不断测试, 将误差降低到接近于0。 这样就逐步逼近了w的值。 通常来说,它不可能获得完全精确的值, 但是经过很多步运算以后, 我们得到了 w = 2.999, 已经足够精确了。 以上就是这个学习过程。 大家回想一下刚刚我们所做的, 我们用了很多已知的x和y的值, 通过迭代法去解出中间的w, 这也正是我们自己 在学习时所使用的方法。 在我们很小的时候, 会看到很多很多图像, 然后有人告诉我们: “这个是鸟,这个不是鸟。” 经过一段时间的重复, 我们解出了w,建立起了 神经元之间的连接。 那么现在,我们有了确定的 x和w。再要去解出Y 就会非常快了。 我们找到解出w的方法, 这是一种学习,要困难得多, 因为我们要用很多的训练样本, 去将误差最小化。 一年前,我们团队的 亚历克斯 · 莫尔德温采夫 决定做一个实验, 看如果给定已知的w和y, 去解出x,会发生什么。 换句话说, 你已经知道那是一只鸟 并且也有一个接受过 鸟类识别训练的神经网络, 那么一只鸟的图像是怎样的呢? 我们发现,通过运用相同的 将误差最小化的步骤, 加上一个受过鸟类识别 训练的神经网络, 我们就可以得到 一张含有鸟的图片。 这是一张由一个进行过 鸟类识别训练的 神经网络所生成的鸟的图片, 仅仅是通过解出x,而不是y, 并且重复不断的运行。 这是另外一个有趣的例子 是我们团队的迈克 · 泰卡制作的 , 他称之为“动物大游行”。 这让我想起了威廉 ·肯特里奇的作品, 他先画一些素描,然后擦掉, 再画一些素描,再擦掉, 用这种方法创作了一部影片。 在我们这个案例中, 迈克在一个旨在识别和辨认 不同种类动物的神经网络中 将y变换成各种不同的动物。 这样你就得到了这个奇特的 动物图像的埃舍尔式变换效果。 他和亚历克斯还一起尝试了 将这些y降低到一个二维空间内, 从而将被该神经网络识别出来的 所有对象放到一张图上来。 通过这样的合成 或者在整个表面上生成图像, 在表面上不断的变换y, 你就创造出了一种图像—— 一个包含该神经网络能够 分辨出来的所有对象的视觉图像。 所有的动物都在这儿, 犰狳在那个点上。 你也可以用其它的神经网络 实现类似的目的。 这是一个为识别和分辨出不同面孔 而设计的神经网络。 这里,我们输入一个y值,代表“我”, 我自己的面部参数。 当它在解出x的时候, 就生成了这张集不同视角 于一体,相当不可思议的, 立体的、超现实的、迷幻版本的 我的面部图像。 它之所以看起来像是集不同视角于一体, 是因为这个神经网络被设计成将一张脸 在不同姿势、不同光线之间产生的 模棱两可的地方抹掉了。 因此当你开始这项复原工作时, 如果不利用某种影像引导, 或者统计引导, 那么你就会得到一种 令人困惑的多视角的图像, 因为它是模棱两可的。 这就是亚历克斯在复原 我的面部的优化流程中, 用他自己的脸作为 影像引导时所得到的图像。 你可以看到它还不是十分完美。 我们在完善这个优化流程方面 还有许多的工作要做。 但是通过将我自己的脸 作为渲染过程中的引导, 你已经可以得到一个 更清晰的面孔了。 你不需要完全从一块空白的画布 或白噪音开始。 当你在解出x时, 你可以从一个本身已经是 别的图像的x开始。 正如这个小小的展示那样。 这是一个设计为用来将所有物品—— 人造结构、动物等进行分类的神经网络。 我们从一张云图开始, 在优化过程中, 这个神经网络正在不停地计算 它在云中看到了什么。 你花越多的时间盯着这张图, 你就会在云中看到越多的东西。 你也可以使用面部识别 神经网络去产生迷幻效果, 然后就可以得到这种不可思议的东西。 (观众笑声) 或者可以像迈克做的另外一个实验那样, 他还是利用那张云图, 使它幻化、再放大, 幻化再放大,幻化再放大. 这样一来, 我想你就可以得到 这个网络的神游状态, 或者某种自由联想, 仿佛这个网络正在吞噬自己的尾巴。 因此每一张图都是 下一张图的基础,决定了 “我觉得接下来会看到什么? 接下来又会看到什么? 接下来还会看到什么?” 我第一次公开展示这些是在西雅图, 为一个团队做的一次名为 “高等教育”的讲座上—— 刚好就在大麻合法化之后。 (观众笑声) 在结束我的演讲前, 我想再提醒各位, 这种技术是不受限的。 我给你们看了一些纯粹的视觉实例, 因为它们看起来真的很有趣。 它不是一种纯粹的视觉技术。 我们的合作者,艺术家罗斯 · 古德温 做了一个实验,他用相机拍了一张照片, 然后他背包里的电脑 基于这张照片的内容, 用神经网络作了一首诗。 这个作诗的神经网络已经接受过 大量的20世纪诗歌的训练。 其实我觉得 那首诗还不赖。 (观众笑声) 下面, 再回到米开朗基罗那句名言, 我想他是对的, 感知和创意是密不可分的。 我们刚刚所看到的是一些 完全被训练成去区分, 或辨别世上的不同物品, 能够逆向运行、成生图像的神经网络。 我从中受到的启发之一就是, 不仅米开朗基罗真的看到了 石头中的雕像, 而且任何的生物、任何人、任何外星人, 只要能够有这样的感知, 也就能够创造, 因为它们都运用了截然相同的机制。 另外,我想感知和创意决不是 人类所特有的。 我们开始有了可以 完成这些事的电脑模型。 这应当不足为奇,因为大脑会运算。 最后, 电脑运算最开始是作为 设计智能机器的一种练习。 它在很大程度上仿照了我们如何 让机器变得智能这一理念。 而我们也终于开始能够实现 图灵、冯 · 诺依曼、 麦卡洛克和皮兹 这些先驱的一些期望了。 我觉得电脑不仅仅是拿来计算, 或者玩游戏的。 从一开始,我们就是 仿照大脑来制造它们的。 而它们也赋予了我们能够 更好的理解我们的大脑, 并且拓展其潜力的能力。 非常感谢。 (观众掌声)