WEBVTT 00:00:01.468 --> 00:00:06.690 2013 年 4 月 23 日, 00:00:06.714 --> 00:00:12.228 美联社在推特上发布了 这样一条推文: 00:00:12.252 --> 00:00:14.649 “突发新闻: 00:00:14.673 --> 00:00:17.244 白宫发生两起爆炸, 00:00:17.268 --> 00:00:19.601 巴拉克·奥巴马受伤。” 00:00:20.212 --> 00:00:25.637 在不到五分钟的时间里, 这条推文被转发了四千次, 00:00:25.661 --> 00:00:27.878 随后也在网络上被疯传。 NOTE Paragraph 00:00:28.760 --> 00:00:33.110 不过,这条推文并不是 美联社发布的真实新闻。 00:00:33.134 --> 00:00:36.467 事实上,这是一则不实新闻, 或者说是虚假新闻, 00:00:36.491 --> 00:00:40.408 是由入侵了美联社推特账号 00:00:40.408 --> 00:00:44.326 的叙利亚黑客扩散的。 00:00:44.407 --> 00:00:48.296 他们的目的是扰乱社会, 但他们扰乱的远不止于此。 00:00:48.320 --> 00:00:50.820 因为自动交易算法 00:00:50.820 --> 00:00:54.304 立刻捕捉了这条推文的情感, 【注:机器学习中对主观性文本的情感分析】 00:00:54.304 --> 00:00:57.336 并且根据美国总统在这次爆炸中 00:00:57.336 --> 00:01:00.497 受伤或丧生的可能性, 00:01:00.497 --> 00:01:01.916 开始了交易。 00:01:02.188 --> 00:01:04.180 而当他们开始发推时, 00:01:04.204 --> 00:01:07.553 股市迅速随之崩盘, 00:01:07.577 --> 00:01:12.744 一日之内便蒸发了 1400 亿美元的市值。 NOTE Paragraph 00:01:13.062 --> 00:01:17.538 美国特别检察官罗伯特·穆勒 00:01:17.562 --> 00:01:21.454 起诉了三家俄罗斯公司 00:01:21.478 --> 00:01:24.097 以及十三个俄罗斯人, 00:01:24.121 --> 00:01:27.412 指控他们干预 2016 年美国总统大选, 00:01:27.412 --> 00:01:31.092 合谋诓骗美国。 00:01:31.855 --> 00:01:35.419 而这次起诉讲述的 00:01:35.443 --> 00:01:38.585 是互联网研究机构的故事, 00:01:38.609 --> 00:01:42.313 即俄罗斯政府在社交媒体上 布下的影影绰绰的手腕。 00:01:42.815 --> 00:01:45.592 仅在总统大选期间, 00:01:45.616 --> 00:01:47.660 互联网机构就 00:01:47.660 --> 00:01:52.685 影响了 1.26 亿名 美国 Facebook 用户, 00:01:52.720 --> 00:01:55.997 发布了 300 万条推文, 00:01:56.021 --> 00:01:59.863 以及 43 个小时的 Youtube 内容。 00:01:59.887 --> 00:02:01.539 这一切都是虚假的—— 00:02:01.563 --> 00:02:07.886 通过精心设计的虚假信息, 在美国总统大选中播下不和的种子。 NOTE Paragraph 00:02:08.996 --> 00:02:11.646 牛津大学最近的一项研究显示, 00:02:11.670 --> 00:02:14.940 在近期的瑞典大选中, 00:02:14.964 --> 00:02:19.339 在社交媒体上传播 的关于大选的信息中, 00:02:19.339 --> 00:02:20.455 有三分之一 00:02:20.455 --> 00:02:22.521 是虚假或谬误信息。 NOTE Paragraph 00:02:23.037 --> 00:02:28.115 另外,这些通过社交媒体 进行的误导活动 00:02:28.139 --> 00:02:32.290 可以传播所谓的“种族清洗宣传”, 00:02:32.314 --> 00:02:35.425 例如在缅甸煽动对罗兴亚人的迫害, 00:02:35.449 --> 00:02:37.752 或者在印度引发暴徒杀人。 NOTE Paragraph 00:02:37.776 --> 00:02:40.324 我们在虚假新闻变成热点之前 00:02:40.324 --> 00:02:42.513 就开始了对虚假新闻的研究。 00:02:43.030 --> 00:02:48.200 最近,我们发表了一项 迄今最大型的关于虚假新闻 00:02:48.200 --> 00:02:50.380 在网络传播的纵向研究, 00:02:50.404 --> 00:02:53.608 在今年三月登上了《科学》期刊封面。 00:02:54.523 --> 00:02:58.718 我们研究了推特上传播的所有 00:02:58.718 --> 00:03:00.354 核实过的真假新闻, 00:03:00.354 --> 00:03:04.532 范围是自 2006 年推特创立到 2017 年。 00:03:04.612 --> 00:03:06.926 在我们研究这些讯息时, 00:03:06.950 --> 00:03:10.980 我们通过六家独立的 事实核查机构验证, 00:03:10.980 --> 00:03:13.768 以确认新闻故事的真实性。 00:03:13.792 --> 00:03:16.554 所以我们清楚哪些新闻是真的, 00:03:16.578 --> 00:03:18.704 哪些是假的。 00:03:18.728 --> 00:03:20.601 我们可以测量 这些新闻的扩散程度, 00:03:20.625 --> 00:03:22.276 扩散速度, 00:03:22.300 --> 00:03:24.395 以及深度与广度, 00:03:24.419 --> 00:03:28.942 有多少人被卷入这个信息级联。 【注:人们加入信息更具说服力的团体】 00:03:28.942 --> 00:03:30.426 我们在这篇论文中 00:03:30.450 --> 00:03:34.315 比较了真实新闻和 虚假新闻的传播程度。 00:03:34.339 --> 00:03:36.022 这是我们的研究发现。 NOTE Paragraph 00:03:36.046 --> 00:03:39.695 我们发现,在我们研究 的所有新闻类别中, 00:03:39.695 --> 00:03:42.300 虚假新闻都比真实新闻传播得 00:03:42.300 --> 00:03:44.906 更远、更快、更深、更广, 00:03:44.906 --> 00:03:47.405 有时甚至超出一个数量级。 00:03:47.842 --> 00:03:51.366 事实上,虚假的政治新闻 传播速度最快。 00:03:51.390 --> 00:03:54.537 它比任何其他种类的虚假新闻 00:03:54.561 --> 00:03:57.363 都扩散得更远、更快、更深、更广。 00:03:57.387 --> 00:03:58.680 我们看到这个结果时, 00:03:58.704 --> 00:04:01.545 我们立刻感到担忧, 但同时也很好奇。 00:04:01.569 --> 00:04:02.720 为什么? 00:04:02.744 --> 00:04:05.967 为什么虚假新闻比真相 00:04:05.967 --> 00:04:08.005 传播得更远、更快、更深、更广? NOTE Paragraph 00:04:08.339 --> 00:04:11.300 我们想到的第一个假设是, 00:04:11.324 --> 00:04:16.116 “可能传播虚假新闻的人 有更多的关注者,或者关注了更多人, 00:04:16.140 --> 00:04:17.697 或者发推更频繁, 00:04:17.721 --> 00:04:21.847 或者他们中有更多 推特的‘认证’用户,可信度更高, 00:04:21.871 --> 00:04:24.053 或者他们在推特上的时间更长。” 00:04:24.077 --> 00:04:26.375 因此,我们挨个检验了这些假设。 00:04:26.691 --> 00:04:29.611 我们发现,结果恰恰相反。 00:04:29.635 --> 00:04:32.071 假新闻散布者有更少关注者, 00:04:32.095 --> 00:04:34.349 关注的人更少,活跃度更低, 00:04:34.373 --> 00:04:35.833 更少被“认证”, 00:04:35.857 --> 00:04:38.817 使用推特的时间更短。 00:04:38.841 --> 00:04:39.770 然而, 00:04:39.770 --> 00:04:44.957 在控制了这些和很多其他变量之后, 00:04:44.957 --> 00:04:48.474 虚假新闻比真实新闻 被转发的可能性高出了 70%。 NOTE Paragraph 00:04:48.498 --> 00:04:51.188 我们不得不提出别的解释。 00:04:51.212 --> 00:04:54.679 于是,我们设想了一个 “新颖性假设”。 00:04:55.038 --> 00:04:56.998 如果各位对文献有所了解, 00:04:57.022 --> 00:05:00.776 会知道一个广为人知的现象是, 人类的注意力会被新颖性所吸引, 00:05:00.800 --> 00:05:03.319 也就是环境中的新事物。 00:05:03.343 --> 00:05:05.328 如果各位了解社会学文献的话, 00:05:05.352 --> 00:05:09.652 你们应该知道,我们喜欢分享 新鲜的信息。 00:05:09.676 --> 00:05:13.514 这使我们看上去像是 能够获得内部消息, 00:05:13.538 --> 00:05:17.323 通过传播这类信息, 我们的地位可以获得提升。 NOTE Paragraph 00:05:17.792 --> 00:05:24.134 因此我们把刚收到的真假推文 00:05:24.134 --> 00:05:28.113 和用户前 60 天内 在推特上看过的语库比较, 00:05:28.113 --> 00:05:31.299 以衡量刚收到的推文的新颖度。 00:05:31.323 --> 00:05:33.982 但这还不够, 因为我们想到, 00:05:34.006 --> 00:05:38.214 “可能在信息论的层面 虚假新闻更加新颖, 00:05:38.238 --> 00:05:41.496 但也许在人们的感知里, 它并没有很新鲜。” NOTE Paragraph 00:05:41.849 --> 00:05:45.776 因此,为了理解 人们对虚假新闻的感知, 00:05:45.800 --> 00:05:49.490 我们研究了对真假推文的回复中 00:05:49.514 --> 00:05:53.720 包含的信息和情感。 00:05:54.022 --> 00:05:55.228 我们发现, 00:05:55.252 --> 00:05:59.466 在多种不同的情感量表上—— 00:05:59.490 --> 00:06:02.791 惊讶,厌恶,恐惧,悲伤, 00:06:02.815 --> 00:06:05.299 期待,喜悦,信任—— 00:06:05.323 --> 00:06:11.186 对虚假新闻的回复里 明显表现出了 00:06:11.186 --> 00:06:14.150 更多的惊讶和厌恶。 00:06:14.392 --> 00:06:18.224 而对真实新闻的回复里, 00:06:18.224 --> 00:06:19.988 表现出的则是 00:06:19.988 --> 00:06:22.112 更多的期待、喜悦,和信任。 00:06:22.347 --> 00:06:26.133 这个意外事件证实了 我们的新颖性假设。 00:06:26.157 --> 00:06:30.766 这很新鲜、很令人惊讶, 所以我们更可能把它分享出去。 NOTE Paragraph 00:06:31.092 --> 00:06:33.764 同时,在美国国会两院前 进行的国会作证 00:06:33.764 --> 00:06:37.061 提到了机器人账号(注:一种使用 自动化脚本执行大量简单任务的软件) 00:06:37.061 --> 00:06:40.771 在传播虚假信息时的作用。 00:06:40.771 --> 00:06:42.701 因此我们也对这一点进行了研究—— 00:06:42.701 --> 00:06:45.839 我们使用多个复杂的 机器人账号探测算法, 00:06:45.863 --> 00:06:48.937 寻找并提取出了 我们数据中的机器人账号。 00:06:49.347 --> 00:06:52.006 我们把机器人账号移除, 再把它们放回去, 00:06:52.030 --> 00:06:55.149 并比较其对我们的测量 产生的影响。 00:06:55.173 --> 00:06:57.466 我们发现,确实, 00:06:57.490 --> 00:07:01.172 机器人账号加速了 虚假新闻在网络上的传播, 00:07:01.196 --> 00:07:03.691 但它们也在以大约相同的速度 00:07:03.691 --> 00:07:06.187 加速真实新闻的传播。 00:07:06.300 --> 00:07:09.158 这意味着,机器人账号 00:07:09.182 --> 00:07:13.895 并不是造成网上虚实信息 传播差距的原因。 00:07:13.919 --> 00:07:16.768 我们不能推脱这个责任, 00:07:16.792 --> 00:07:21.051 因为要对这种传播负责的, 是我们人类自己。 NOTE Paragraph 00:07:22.472 --> 00:07:25.806 对于我们大家来说 都很不幸的是, 00:07:25.830 --> 00:07:27.584 刚刚我告诉各位的一切 00:07:27.608 --> 00:07:28.869 都是好消息。 NOTE Paragraph 00:07:30.670 --> 00:07:35.120 原因在于,形势马上要大幅恶化了。 00:07:35.850 --> 00:07:39.532 而两种特定的技术 会将形势变得更加糟糕。 00:07:40.207 --> 00:07:45.379 我们将会目睹 一大波合成媒体的剧增。 00:07:45.403 --> 00:07:51.434 虚假视频、虚假音频, 对于人类来说都能以假乱真。 00:07:51.458 --> 00:07:54.212 这是由两项技术支持的。 NOTE Paragraph 00:07:54.236 --> 00:07:58.199 其一是所谓的“生成对抗网络”。 00:07:58.199 --> 00:08:00.680 这是一个由两个网络组成 的机器学习模型: 00:08:00.680 --> 00:08:02.425 一个是判别网络, 00:08:02.425 --> 00:08:06.451 负责分辨样本的真假; 00:08:06.475 --> 00:08:07.916 另一个是生成网络, 00:08:07.916 --> 00:08:10.816 负责产生合成媒体。 00:08:10.840 --> 00:08:15.942 生成网络产生 合成视频或音频, 00:08:15.966 --> 00:08:20.641 而判别网络则试图分辨, “这是真的还是假的?” 00:08:20.665 --> 00:08:23.212 事实上,生成网络的任务是 00:08:23.212 --> 00:08:27.930 尽可能地欺骗判别网络, 让判别网络误以为 00:08:27.930 --> 00:08:31.651 它合成的视频和音频 00:08:31.651 --> 00:08:33.363 其实是真的。 00:08:33.387 --> 00:08:35.760 想象一台处于超级循环中的机器, 00:08:35.784 --> 00:08:38.587 试图变得越来越擅长欺骗我们。 NOTE Paragraph 00:08:39.114 --> 00:08:41.614 第二项技术, 简而言之, 00:08:41.638 --> 00:08:47.360 就是在民众中 的人工智能的民主化, 00:08:47.384 --> 00:08:49.573 即让任何人 00:08:49.597 --> 00:08:52.339 不需要任何人工智能或 00:08:52.339 --> 00:08:53.541 机器学习的背景, 00:08:53.541 --> 00:08:57.850 也能调用这些算法 生成人工合成媒体。 00:08:57.850 --> 00:09:02.355 这两种技术相结合, 让制作视频变得如此容易。 NOTE Paragraph 00:09:02.355 --> 00:09:06.800 白宫曾发布过一个 虚假的、篡改过的视频, 00:09:06.800 --> 00:09:11.398 内容为一名记者和一个试图抢夺 他的麦克风的实习生的互动。 00:09:11.427 --> 00:09:13.426 他们从视频中移除了一些帧, 00:09:13.450 --> 00:09:17.117 让他的行动显得更有攻击性。 00:09:17.157 --> 00:09:20.542 而当摄影师和替身演员 00:09:20.566 --> 00:09:22.993 被采访问及这种技术时, 00:09:23.017 --> 00:09:26.845 他们说,“是的,我们经常 在电影中使用这种技术, 00:09:26.869 --> 00:09:31.872 让我们的出拳和踢腿动作 看上去更具打击感,更加有气势。” 00:09:32.268 --> 00:09:34.135 他们于是发布了这个视频, 00:09:34.159 --> 00:09:36.659 将其作为部分证据, 00:09:36.683 --> 00:09:40.142 试图撤销视频中的记者, 吉姆·阿考斯塔 00:09:40.142 --> 00:09:42.022 的白宫新闻通行证。 00:09:42.069 --> 00:09:46.878 于是 CNN 不得不提出诉讼, 要求恢复该新闻通行证。 NOTE Paragraph 00:09:48.538 --> 00:09:54.165 我能想到我们可以走 的五条不同道路, 00:09:54.165 --> 00:09:58.204 以试图解决当今我们面对 的这些异常艰难的问题。 00:09:58.379 --> 00:10:00.189 每一种措施都带来希望, 00:10:00.213 --> 00:10:03.212 但每一种也有其自身的挑战。 00:10:03.236 --> 00:10:05.244 第一种措施是贴上标签。 00:10:05.268 --> 00:10:06.625 可以这么想: 00:10:06.649 --> 00:10:10.260 当你去超市购买食品时, 00:10:10.284 --> 00:10:12.188 食品上会有详细的标签。 00:10:12.212 --> 00:10:14.204 你可以得知它有多少卡路里, 00:10:14.228 --> 00:10:16.029 含有多少脂肪—— 00:10:16.053 --> 00:10:20.331 然而当我们摄取信息时, 我们没有任何标签。 00:10:20.355 --> 00:10:22.283 这个信息中含有什么? 00:10:22.307 --> 00:10:23.760 其来源是否可信? 00:10:23.784 --> 00:10:26.101 这个信息是从哪里收集的? 00:10:26.125 --> 00:10:27.950 在我们摄取信息时, 00:10:27.974 --> 00:10:30.077 我们并没有以上的任何信息。 00:10:30.101 --> 00:10:33.339 这是一种可能的解决办法, 但它有自身的挑战。 00:10:33.363 --> 00:10:39.814 比如说,在社会中, 有谁能决定信息的真伪? 00:10:40.387 --> 00:10:42.029 是政府吗? 00:10:42.053 --> 00:10:43.203 是 Facebook 吗? 00:10:43.601 --> 00:10:47.363 是由事实核查机构 组成的独立联盟吗? 00:10:47.387 --> 00:10:50.043 谁又来对事实核查机构 进行核查呢? NOTE Paragraph 00:10:50.427 --> 00:10:53.511 另一种可能的解决手段是奖励措施。 00:10:53.535 --> 00:10:56.169 我们知道,在美国总统大选期间, 00:10:56.193 --> 00:10:59.883 有一波虚假信息来源于马其顿, 00:10:59.907 --> 00:11:02.244 他们没有任何政治动机, 00:11:02.268 --> 00:11:04.728 相反,他们有经济动机。 00:11:04.752 --> 00:11:06.900 这个经济动机之所以存在, 00:11:06.924 --> 00:11:10.410 是因为虚假新闻比真相传播得 00:11:10.410 --> 00:11:12.356 更远、更快、更深, 00:11:12.356 --> 00:11:17.366 你可以使用这类信息 博取眼球、吸引注意, 00:11:17.366 --> 00:11:19.450 从而通过广告赚钱。 00:11:19.474 --> 00:11:23.307 但如果我们能抑制 这类信息的传播, 00:11:23.331 --> 00:11:26.148 或许就能在源头减少 00:11:26.148 --> 00:11:28.966 生产这类信息的经济动机。 NOTE Paragraph 00:11:28.966 --> 00:11:31.466 第三,我们可以考虑进行监管, 00:11:31.490 --> 00:11:33.815 毫无疑问,我们应当考虑这个选项。 00:11:33.839 --> 00:11:35.450 现在,在美国, 00:11:35.474 --> 00:11:40.322 我们在探索当 Facebook 和其它平台 受到监管时,会发生什么事情。 00:11:40.346 --> 00:11:44.147 我们应当考虑的措施包括: 监管政治言论, 00:11:44.171 --> 00:11:46.679 对政治言论进行标签, 00:11:46.703 --> 00:11:50.522 确保外国参与者无法资助政治言论, 00:11:50.546 --> 00:11:53.093 但这也有自己的风险。 00:11:53.522 --> 00:11:58.430 举个例子,马来西亚刚刚颁布法案, 对任何散布不实消息的人 00:11:58.430 --> 00:12:01.158 处以六年监禁。 00:12:01.696 --> 00:12:03.775 而在独裁政权中, 00:12:03.799 --> 00:12:08.465 这种政策可以被利用 以压制少数群体的意见, 00:12:08.489 --> 00:12:11.997 继续扩大压迫。 NOTE Paragraph 00:12:12.680 --> 00:12:16.223 第四种可能的解决方法是透明度。 00:12:16.843 --> 00:12:20.557 我们想了解 Facebook 的算法是怎样运作的。 00:12:20.581 --> 00:12:23.461 数据是怎样与算法结合, 00:12:23.485 --> 00:12:26.323 得出我们看到的结果? 00:12:26.347 --> 00:12:28.696 我们想让他们开诚布公, 00:12:28.720 --> 00:12:32.934 为我们披露 Facebook 内部 具体是如何运作的。 00:12:32.958 --> 00:12:35.737 而如果我们想知道 社交媒体对社会的影响, 00:12:35.761 --> 00:12:38.101 我们需要科学家、研究人员 00:12:38.101 --> 00:12:41.014 和其他人能够入手这种信息。 00:12:41.038 --> 00:12:42.585 但与此同时, 00:12:42.609 --> 00:12:46.410 我们还要求 Facebook 锁上一切, 00:12:46.434 --> 00:12:48.607 保证所有数据的安全。 NOTE Paragraph 00:12:48.631 --> 00:12:51.790 因此,Facebook 和其他社交媒体平台 00:12:51.814 --> 00:12:54.948 正面对我称之为的“透明性悖论”。 00:12:55.266 --> 00:12:57.990 我们要求他们 00:12:57.990 --> 00:13:02.773 在开放、透明的同时 保证安全。 00:13:02.797 --> 00:13:05.588 这是非常艰难的挑战, 00:13:05.588 --> 00:13:07.639 这些公司必须直面挑战, 00:13:07.639 --> 00:13:10.899 才能在实现社交科技承诺的同时 00:13:10.899 --> 00:13:12.902 回避它们带来的危害。 NOTE Paragraph 00:13:12.926 --> 00:13:17.617 我们能想到的最后一个解决手段是 算法和机器学习。 00:13:17.641 --> 00:13:21.768 有的科技被开发出来, 用于拔除和理解虚假新闻, 00:13:21.768 --> 00:13:25.616 了解它们的传播方式, 并试图降低其扩散。 00:13:25.824 --> 00:13:28.721 人类需要跟进这种科技, 00:13:28.745 --> 00:13:31.023 因为我们无法逃避的是, 00:13:31.047 --> 00:13:35.085 在任何科技解答或手段的背后 00:13:35.109 --> 00:13:39.156 都有一个根本的伦理与哲学问题: 00:13:39.180 --> 00:13:42.450 我们如何定义真实和虚伪, 00:13:42.474 --> 00:13:45.654 我们将定义真伪的权力托付于谁, 00:13:45.678 --> 00:13:48.138 哪些意见是合法的, 00:13:48.162 --> 00:13:51.868 哪种言论能被允许, 诸如此类。 00:13:51.892 --> 00:13:54.220 科技并非对这个问题的解答, 00:13:54.244 --> 00:13:57.942 伦理学和哲学才是。 NOTE Paragraph 00:13:58.950 --> 00:14:02.013 人类决策、人类合作和人类协调 00:14:02.013 --> 00:14:05.077 的几乎每一个理论, 00:14:05.077 --> 00:14:08.891 其核心都存在某种程度的真相。 00:14:09.347 --> 00:14:11.403 但随着虚假新闻、 00:14:11.427 --> 00:14:12.870 虚假视频、 00:14:12.894 --> 00:14:14.776 虚假音频的崛起, 00:14:14.800 --> 00:14:18.724 我们正在现实终结 的边缘摇摇欲坠, 00:14:18.748 --> 00:14:22.637 在这里我们无法分辨 何为真实,何为虚假。 00:14:22.661 --> 00:14:25.700 这有可能是极度危险的。 NOTE Paragraph 00:14:26.931 --> 00:14:31.009 我们必须保持警惕,拒绝虚假信息, 00:14:31.009 --> 00:14:32.627 捍卫真相—— 00:14:32.919 --> 00:14:36.355 通过我们的技术,我们的政策, 00:14:36.379 --> 00:14:38.299 以及,或许也是最重要的, 00:14:38.323 --> 00:14:41.865 通过我们自己的责任感、 00:14:41.865 --> 00:14:45.407 决定、行为,和举动。 NOTE Paragraph 00:14:45.553 --> 00:14:46.990 谢谢大家。 NOTE Paragraph 00:14:47.014 --> 00:14:50.531 (掌声)