WEBVTT 00:00:00.876 --> 00:00:02.067 看看这些图像。 00:00:02.067 --> 00:00:04.736 现在,告诉我哪个是真的奥马巴。 NOTE Paragraph 00:00:04.736 --> 00:00:07.611 巴拉克·奥巴马:帮助家庭对他们的房屋重做贷款, 00:00:07.611 --> 00:00:10.262 投资高科技制造业, 00:00:10.266 --> 00:00:11.455 清洁能源 00:00:11.455 --> 00:00:14.228 和带来良好就业机会的基础设施。 NOTE Paragraph 00:00:14.647 --> 00:00:16.171 有人知道吗? 00:00:16.171 --> 00:00:18.069 答案是:都不是。 NOTE Paragraph 00:00:18.069 --> 00:00:19.217 (笑声) NOTE Paragraph 00:00:19.217 --> 00:00:21.007 这些都不是真的。 00:00:21.007 --> 00:00:22.841 那让我来告诉你们是怎么回事。 00:00:23.940 --> 00:00:25.548 我这个工作的灵感来自于 00:00:25.548 --> 00:00:31.003 一个试图保存我们从幸存者那里 了解到的关于大屠杀 00:00:31.003 --> 00:00:32.775 的项目。 00:00:32.775 --> 00:00:35.426 这个项目叫做证词新维度 (New Dimensions in Testimony), 00:00:35.426 --> 00:00:38.576 它可以让你与真实大屠杀幸存者的全息图 00:00:38.576 --> 00:00:41.126 进行互动对话。 NOTE Paragraph 00:00:41.793 --> 00:00:43.799 你是怎么在大屠杀中幸存下来的? NOTE Paragraph 00:00:43.799 --> 00:00:45.451 我怎么幸存下来? 00:00:45.912 --> 00:00:47.719 我幸存下来, 00:00:48.419 --> 00:00:49.976 我相信, 00:00:49.976 --> 00:00:52.993 是因为上帝眷顾我。 NOTE Paragraph 00:00:53.573 --> 00:00:57.057 原来这些答案是预先在工作室录制的。 00:00:57.057 --> 00:00:59.533 但效果令人吃惊。 00:00:59.533 --> 00:01:03.146 你会对他的故事, 他这个人感同身受。 00:01:04.011 --> 00:01:07.332 我想人类互动的特别之处 00:01:07.336 --> 00:01:10.123 让它比图书,演讲或电影 00:01:10.123 --> 00:01:12.355 告诉我们的 00:01:12.355 --> 00:01:15.824 要更加深刻和真实。 NOTE Paragraph 00:01:16.267 --> 00:01:18.722 所以我就开始想, 00:01:18.722 --> 00:01:21.566 我们能不能为每个人做个模型? 00:01:21.566 --> 00:01:24.525 这个模型的样子, 谈话和举止就跟真人无异。 00:01:25.573 --> 00:01:27.610 于是我开始探索这个能不能搞定, 00:01:27.610 --> 00:01:29.944 并最终找到了一个新的解决方案, 00:01:29.944 --> 00:01:33.158 只需使用下面这些东西就能构建人的模型: 00:01:33.747 --> 00:01:35.961 个人现存的照片和视频。 00:01:36.701 --> 00:01:39.348 如果你能利用这种被动信息, 00:01:39.348 --> 00:01:41.379 只需公开的照片和视频, 00:01:41.379 --> 00:01:43.429 这是扩展到其他人的关键。 NOTE Paragraph 00:01:44.119 --> 00:01:45.936 顺便说一句,这是理查德·费曼, 00:01:45.936 --> 00:01:49.363 他除了是诺贝尔物理学奖得主 00:01:49.363 --> 00:01:51.810 也是位传奇教师。 00:01:53.080 --> 00:01:55.318 这岂不是很棒? 如果能够把他带回来 00:01:55.318 --> 00:01:58.607 讲课并激励成千上万的小孩, 00:01:58.607 --> 00:02:01.583 用英语或者其他任何语言? 00:02:02.441 --> 00:02:07.073 或者你也可以征求祖父母的意见, 听听那些让人宽慰的言语, 00:02:07.073 --> 00:02:08.837 即便他们已经离开我们了。 00:02:09.683 --> 00:02:13.109 或者使用这个工具,图书的作者, 不管是活着的还是去世的, 00:02:13.109 --> 00:02:16.040 可以为任何有兴趣的人朗读他们的书本。 NOTE Paragraph 00:02:17.199 --> 00:02:19.666 这里的创意可能是无限的, 00:02:19.666 --> 00:02:21.373 对我而言,这非常让人兴奋。 00:02:22.595 --> 00:02:24.627 这是目前它的工作原理。 NOTE Paragraph 00:02:24.627 --> 00:02:26.308 首先我们引入一种新的技术 00:02:26.312 --> 00:02:30.914 可以从任何图像中 重建一个高细节的3D人脸模型, 00:02:30.914 --> 00:02:33.027 而且无需经对真人进行3D扫描。 00:02:33.890 --> 00:02:36.532 这是不同视角下的同一输出模型。 00:02:37.969 --> 00:02:39.491 这也可以应用于视频, 00:02:39.495 --> 00:02:42.387 通过对每一幅视频 使用同样的算法 00:02:42.387 --> 00:02:44.593 产生移动的3D模型。 00:02:45.538 --> 00:02:48.310 这是不同视角下的同一输出模型。 NOTE Paragraph 00:02:49.933 --> 00:02:52.477 这些问题富有挑战性, 00:02:52.477 --> 00:02:55.056 但关键技巧在于我们需要提前 00:02:55.056 --> 00:02:58.006 分析一个人的大量照片集。 00:02:58.650 --> 00:03:01.189 对乔治·沃克·布什, 我们只需要搜索谷歌, 00:03:02.309 --> 00:03:04.838 这样,我们就能建立一个平均模型, 00:03:04.838 --> 00:03:08.003 一个迭代,精炼的模型来恢复表达的细节, 00:03:08.003 --> 00:03:10.303 比如折痕和皱纹。 00:03:11.326 --> 00:03:12.759 迷人的是 00:03:12.759 --> 00:03:16.206 照片集可以来自你的特定照片。 00:03:16.206 --> 00:03:18.833 你做何表情或者你在哪里拍照 00:03:18.833 --> 00:03:20.762 并不那么关键。 00:03:20.762 --> 00:03:23.176 关键的是数量要足够多。 00:03:23.176 --> 00:03:24.916 这里我们仍然缺少肤色, 00:03:24.920 --> 00:03:27.308 所以下一步, 我们开发了一种新的混合技术 00:03:27.308 --> 00:03:30.158 改善了平均模型, 00:03:30.158 --> 00:03:32.970 并产生尖锐的面部纹理和肤色。 00:03:33.779 --> 00:03:36.550 这可以用于做任何表情。 NOTE Paragraph 00:03:37.485 --> 00:03:40.024 现在我们可以 对一个人的模型进行控制, 00:03:40.024 --> 00:03:43.843 它现在被控制的方式是 一系列静态的照片。 00:03:43.843 --> 00:03:46.953 注意皱纹是如何产生和消失的, 这取决于你的表情。 00:03:48.109 --> 00:03:50.875 我们也可以使用视频来驱动模型。 NOTE Paragraph 00:03:50.879 --> 00:03:53.502 丹尼尔·克雷格:没错,但不管怎样, 00:03:53.502 --> 00:03:57.267 我们能够吸引到更多优秀的人才。 NOTE Paragraph 00:03:58.021 --> 00:03:59.693 这是另一个有趣的演示。 00:03:59.693 --> 00:04:01.963 所以你们看到的是 我使用人们的互联网图像 00:04:01.963 --> 00:04:04.441 建立的个人控制模型。 00:04:04.441 --> 00:04:07.359 现在,如果你从视频中传递表情动作, 00:04:07.359 --> 00:04:09.545 我们可以让整个派对动起来。 NOTE Paragraph 00:04:09.545 --> 00:04:11.731 布什:这是个难以通过的法案, 00:04:11.731 --> 00:04:14.068 因为有太多可供商榷的部分, 00:04:14.068 --> 00:04:19.323 立法过程可能让人奔溃。 NOTE Paragraph 00:04:19.323 --> 00:04:20.977 (鼓掌) NOTE Paragraph 00:04:20.977 --> 00:04:22.818 那么回到正题, 00:04:22.822 --> 00:04:26.043 我们的最终目标, 不如说,是捕捉他们的言谈举止, 00:04:26.043 --> 00:04:29.132 或者每一个人交谈或微笑的独特之处。 00:04:29.132 --> 00:04:31.449 所以这样, 我们能不能只向电脑展示这个人的录像 00:04:31.449 --> 00:04:33.705 就能教会电脑 00:04:33.705 --> 00:04:36.109 去模仿人们谈话的方式? 00:04:36.898 --> 00:04:39.505 而我做的事情是,我让电脑 00:04:39.505 --> 00:04:42.776 看了14个小时的奥巴马演讲。 00:04:43.443 --> 00:04:46.989 这是我们只通过他的音频生产出来的内容。 NOTE Paragraph 00:04:46.989 --> 00:04:48.780 结果非常明显。 00:04:48.784 --> 00:04:53.163 在过去75个月中,美国企业已经创造了 00:04:53.163 --> 00:04:55.951 1450万新的工作机会。 NOTE Paragraph 00:04:55.955 --> 00:04:58.890 所以这里合成的只是嘴巴部分, 00:04:58.890 --> 00:05:00.424 这是我们做的方法。 00:05:00.764 --> 00:05:02.620 我们的处理系统使用神经网络 00:05:02.620 --> 00:05:05.550 来转换和输入音频到这些嘴巴的位置。 NOTE Paragraph 00:05:06.547 --> 00:05:10.812 我们通过我们的工作或者医疗保险 或补助来实现这一目标。 NOTE Paragraph 00:05:10.812 --> 00:05:14.246 然后我们合成纹理, 增强细节和牙齿, 00:05:14.246 --> 00:05:17.354 并将其与源视频中的 头部和背景混合在一起。 NOTE Paragraph 00:05:17.354 --> 00:05:19.283 女性可以获得免费的检查, 00:05:19.283 --> 00:05:22.235 你不会因为是女性而需要支付更高的费用。 00:05:22.973 --> 00:05:26.279 年轻人可以在父母计划中呆到26岁。 NOTE Paragraph 00:05:27.267 --> 00:05:30.249 我觉得这些结果看起来非常真实和有趣, 00:05:30.249 --> 00:05:33.456 但同时,也让我担忧,即便是我。 00:05:33.456 --> 00:05:37.455 我们的目标是构建人的精准模型, 而非歪曲他们。 00:05:37.956 --> 00:05:41.067 但让我担忧的是它被错误使用的可能。 00:05:41.958 --> 00:05:44.949 人们思考这个问题很长时间了, 00:05:44.953 --> 00:05:47.334 从Photoshop进入市场那天就开始了。 00:05:47.862 --> 00:05:51.693 作为一名研究人员, 我也在研究对抗技术, 00:05:51.693 --> 00:05:54.659 我是人工智能基金会持续努力的一份子, 00:05:54.659 --> 00:05:58.070 它结合了机器学习和人工模型 00:05:58.074 --> 00:06:00.258 来识别假图像和视频, 00:06:00.258 --> 00:06:01.756 与我们自己的工作做斗争。 00:06:02.675 --> 00:06:05.895 我们打算发布的一个工具叫做真相卫士, 00:06:05.895 --> 00:06:09.958 是个浏览器插件 可以用来自动标记潜在假内容, 00:06:09.958 --> 00:06:12.515 在浏览器中就可以使用。 NOTE Paragraph 00:06:12.515 --> 00:06:16.777 (掌声) NOTE Paragraph 00:06:16.777 --> 00:06:18.244 此外, 00:06:18.244 --> 00:06:20.118 假视频可以带来很大危害, 00:06:20.118 --> 00:06:23.436 甚至在人们有机会验证它之前, 00:06:23.436 --> 00:06:26.172 所以让大家意识到这可能是什么 00:06:26.172 --> 00:06:28.203 非常重要, 00:06:28.203 --> 00:06:31.566 这样我们才能得到正确的推断, 并对看到的保持谨慎。 NOTE Paragraph 00:06:32.423 --> 00:06:37.470 在个人完全建模 以及确保技术的安全性方面, 00:06:37.470 --> 00:06:40.240 仍有很长的路要走。 00:06:41.097 --> 00:06:42.714 但我兴奋且充满希望, 00:06:42.714 --> 00:06:46.267 因为如果我们正确地使用它, 00:06:46.271 --> 00:06:50.630 这个工具可以让 每个人对世界积极的影响 00:06:50.630 --> 00:06:52.824 得到大规模的普及 00:06:52.824 --> 00:06:55.600 并真正帮助塑造我们想要的未来。 NOTE Paragraph 00:06:55.600 --> 00:06:56.785 谢谢。 NOTE Paragraph 00:06:56.785 --> 00:07:01.849 (掌声)