WEBVTT

00:00:01.468 --> 00:00:06.690
2013 年 4 月 23 日，

00:00:06.714 --> 00:00:12.228
美联社在推特上发布了
这样一条推文：

00:00:12.252 --> 00:00:14.649
“突发新闻：

00:00:14.673 --> 00:00:17.244
白宫发生两起爆炸，

00:00:17.268 --> 00:00:19.601
巴拉克·奥巴马受伤。”

00:00:20.212 --> 00:00:25.637
在不到五分钟的时间里，
这条推文被转发了四千次，

00:00:25.661 --> 00:00:27.878
随后也在网络上被疯传。

NOTE Paragraph

00:00:28.760 --> 00:00:33.110
不过，这条推文并不是
美联社发布的真实新闻。

00:00:33.134 --> 00:00:36.467
事实上，这是一则不实新闻，
或者说是虚假新闻，

00:00:36.491 --> 00:00:40.408
是由入侵了美联社推特账号

00:00:40.408 --> 00:00:44.326
的叙利亚黑客扩散的。

00:00:44.407 --> 00:00:48.296
他们的目的是扰乱社会，
但他们扰乱的远不止于此。

00:00:48.320 --> 00:00:50.820
因为自动交易算法

00:00:50.820 --> 00:00:54.304
立刻捕捉了这条推文的情感，
【注：机器学习中对主观性文本的情感分析】

00:00:54.304 --> 00:00:57.336
并且根据美国总统在这次爆炸中

00:00:57.336 --> 00:01:00.497
受伤或丧生的可能性，

00:01:00.497 --> 00:01:01.916
开始了交易。

00:01:02.188 --> 00:01:04.180
而当他们开始发推时，

00:01:04.204 --> 00:01:07.553
股市迅速随之崩盘，

00:01:07.577 --> 00:01:12.744
一日之内便蒸发了
1400 亿美元的市值。

NOTE Paragraph

00:01:13.062 --> 00:01:17.538
美国特别检察官罗伯特·穆勒

00:01:17.562 --> 00:01:21.454
起诉了三家俄罗斯公司

00:01:21.478 --> 00:01:24.097
以及十三个俄罗斯人，

00:01:24.121 --> 00:01:27.412
指控他们干预 2016 年美国总统大选，

00:01:27.412 --> 00:01:31.092
合谋诓骗美国。

00:01:31.855 --> 00:01:35.419
而这次起诉讲述的

00:01:35.443 --> 00:01:38.585
是互联网研究机构的故事，

00:01:38.609 --> 00:01:42.313
即俄罗斯政府在社交媒体上
布下的影影绰绰的手腕。

00:01:42.815 --> 00:01:45.592
仅在总统大选期间，

00:01:45.616 --> 00:01:47.660
互联网机构就

00:01:47.660 --> 00:01:52.685
影响了 1.26 亿名
美国 Facebook 用户，

00:01:52.720 --> 00:01:55.997
发布了 300 万条推文，

00:01:56.021 --> 00:01:59.863
以及 43 个小时的 Youtube 内容。

00:01:59.887 --> 00:02:01.539
这一切都是虚假的——

00:02:01.563 --> 00:02:07.886
通过精心设计的虚假信息，
在美国总统大选中播下不和的种子。

NOTE Paragraph

00:02:08.996 --> 00:02:11.646
牛津大学最近的一项研究显示，

00:02:11.670 --> 00:02:14.940
在近期的瑞典大选中，

00:02:14.964 --> 00:02:19.339
在社交媒体上传播
的关于大选的信息中，

00:02:19.339 --> 00:02:20.455
有三分之一

00:02:20.455 --> 00:02:22.521
是虚假或谬误信息。

NOTE Paragraph

00:02:23.037 --> 00:02:28.115
另外，这些通过社交媒体
进行的误导活动

00:02:28.139 --> 00:02:32.290
可以传播所谓的“种族清洗宣传”，

00:02:32.314 --> 00:02:35.425
例如在缅甸煽动对罗兴亚人的迫害，

00:02:35.449 --> 00:02:37.752
或者在印度引发暴徒杀人。

NOTE Paragraph

00:02:37.776 --> 00:02:40.324
我们在虚假新闻变成热点之前

00:02:40.324 --> 00:02:42.513
就开始了对虚假新闻的研究。

00:02:43.030 --> 00:02:48.200
最近，我们发表了一项
迄今最大型的关于虚假新闻

00:02:48.200 --> 00:02:50.380
在网络传播的纵向研究，

00:02:50.404 --> 00:02:53.608
在今年三月登上了《科学》期刊封面。

00:02:54.523 --> 00:02:58.718
我们研究了推特上传播的所有

00:02:58.718 --> 00:03:00.354
核实过的真假新闻，

00:03:00.354 --> 00:03:04.532
范围是自 2006 年推特创立到 2017 年。

00:03:04.612 --> 00:03:06.926
在我们研究这些讯息时，

00:03:06.950 --> 00:03:10.980
我们通过六家独立的
事实核查机构验证，

00:03:10.980 --> 00:03:13.768
以确认新闻故事的真实性。

00:03:13.792 --> 00:03:16.554
所以我们清楚哪些新闻是真的，

00:03:16.578 --> 00:03:18.704
哪些是假的。

00:03:18.728 --> 00:03:20.601
我们可以测量
这些新闻的扩散程度，

00:03:20.625 --> 00:03:22.276
扩散速度，

00:03:22.300 --> 00:03:24.395
以及深度与广度，

00:03:24.419 --> 00:03:28.942
有多少人被卷入这个信息级联。
【注：人们加入信息更具说服力的团体】

00:03:28.942 --> 00:03:30.426
我们在这篇论文中

00:03:30.450 --> 00:03:34.315
比较了真实新闻和
虚假新闻的传播程度。

00:03:34.339 --> 00:03:36.022
这是我们的研究发现。

NOTE Paragraph

00:03:36.046 --> 00:03:39.695
我们发现，在我们研究
的所有新闻类别中，

00:03:39.695 --> 00:03:42.300
虚假新闻都比真实新闻传播得

00:03:42.300 --> 00:03:44.906
更远、更快、更深、更广，

00:03:44.906 --> 00:03:47.405
有时甚至超出一个数量级。

00:03:47.842 --> 00:03:51.366
事实上，虚假的政治新闻
传播速度最快。

00:03:51.390 --> 00:03:54.537
它比任何其他种类的虚假新闻

00:03:54.561 --> 00:03:57.363
都扩散得更远、更快、更深、更广。

00:03:57.387 --> 00:03:58.680
我们看到这个结果时，

00:03:58.704 --> 00:04:01.545
我们立刻感到担忧，
但同时也很好奇。

00:04:01.569 --> 00:04:02.720
为什么？

00:04:02.744 --> 00:04:05.967
为什么虚假新闻比真相

00:04:05.967 --> 00:04:08.005
传播得更远、更快、更深、更广？

NOTE Paragraph

00:04:08.339 --> 00:04:11.300
我们想到的第一个假设是，

00:04:11.324 --> 00:04:16.116
“可能传播虚假新闻的人
有更多的关注者，或者关注了更多人，

00:04:16.140 --> 00:04:17.697
或者发推更频繁，

00:04:17.721 --> 00:04:21.847
或者他们中有更多
推特的‘认证’用户，可信度更高，

00:04:21.871 --> 00:04:24.053
或者他们在推特上的时间更长。”

00:04:24.077 --> 00:04:26.375
因此，我们挨个检验了这些假设。

00:04:26.691 --> 00:04:29.611
我们发现，结果恰恰相反。

00:04:29.635 --> 00:04:32.071
假新闻散布者有更少关注者，

00:04:32.095 --> 00:04:34.349
关注的人更少，活跃度更低，

00:04:34.373 --> 00:04:35.833
更少被“认证”，

00:04:35.857 --> 00:04:38.817
使用推特的时间更短。

00:04:38.841 --> 00:04:39.770
然而，

00:04:39.770 --> 00:04:44.957
在控制了这些和很多其他变量之后，

00:04:44.957 --> 00:04:48.474
虚假新闻比真实新闻
被转发的可能性高出了 70%。

NOTE Paragraph

00:04:48.498 --> 00:04:51.188
我们不得不提出别的解释。

00:04:51.212 --> 00:04:54.679
于是，我们设想了一个
“新颖性假设”。

00:04:55.038 --> 00:04:56.998
如果各位对文献有所了解，

00:04:57.022 --> 00:05:00.776
会知道一个广为人知的现象是，
人类的注意力会被新颖性所吸引，

00:05:00.800 --> 00:05:03.319
也就是环境中的新事物。

00:05:03.343 --> 00:05:05.328
如果各位了解社会学文献的话，

00:05:05.352 --> 00:05:09.652
你们应该知道，我们喜欢分享
新鲜的信息。

00:05:09.676 --> 00:05:13.514
这使我们看上去像是
能够获得内部消息，

00:05:13.538 --> 00:05:17.323
通过传播这类信息，
我们的地位可以获得提升。

NOTE Paragraph

00:05:17.792 --> 00:05:24.134
因此我们把刚收到的真假推文

00:05:24.134 --> 00:05:28.113
和用户前 60 天内
在推特上看过的语库比较，

00:05:28.113 --> 00:05:31.299
以衡量刚收到的推文的新颖度。

00:05:31.323 --> 00:05:33.982
但这还不够，
因为我们想到，

00:05:34.006 --> 00:05:38.214
“可能在信息论的层面
虚假新闻更加新颖，

00:05:38.238 --> 00:05:41.496
但也许在人们的感知里，
它并没有很新鲜。”

NOTE Paragraph

00:05:41.849 --> 00:05:45.776
因此，为了理解
人们对虚假新闻的感知，

00:05:45.800 --> 00:05:49.490
我们研究了对真假推文的回复中

00:05:49.514 --> 00:05:53.720
包含的信息和情感。

00:05:54.022 --> 00:05:55.228
我们发现，

00:05:55.252 --> 00:05:59.466
在多种不同的情感量表上——

00:05:59.490 --> 00:06:02.791
惊讶，厌恶，恐惧，悲伤，

00:06:02.815 --> 00:06:05.299
期待，喜悦，信任——

00:06:05.323 --> 00:06:11.186
对虚假新闻的回复里
明显表现出了

00:06:11.186 --> 00:06:14.150
更多的惊讶和厌恶。

00:06:14.392 --> 00:06:18.224
而对真实新闻的回复里，

00:06:18.224 --> 00:06:19.988
表现出的则是

00:06:19.988 --> 00:06:22.112
更多的期待、喜悦，和信任。

00:06:22.347 --> 00:06:26.133
这个意外事件证实了
我们的新颖性假设。

00:06:26.157 --> 00:06:30.766
这很新鲜、很令人惊讶，
所以我们更可能把它分享出去。

NOTE Paragraph

00:06:31.092 --> 00:06:33.764
同时，在美国国会两院前
进行的国会作证

00:06:33.764 --> 00:06:37.061
提到了机器人账号（注：一种使用
自动化脚本执行大量简单任务的软件）

00:06:37.061 --> 00:06:40.771
在传播虚假信息时的作用。

00:06:40.771 --> 00:06:42.701
因此我们也对这一点进行了研究——

00:06:42.701 --> 00:06:45.839
我们使用多个复杂的
机器人账号探测算法，

00:06:45.863 --> 00:06:48.937
寻找并提取出了
我们数据中的机器人账号。

00:06:49.347 --> 00:06:52.006
我们把机器人账号移除，
再把它们放回去，

00:06:52.030 --> 00:06:55.149
并比较其对我们的测量
产生的影响。

00:06:55.173 --> 00:06:57.466
我们发现，确实，

00:06:57.490 --> 00:07:01.172
机器人账号加速了
虚假新闻在网络上的传播，

00:07:01.196 --> 00:07:03.691
但它们也在以大约相同的速度

00:07:03.691 --> 00:07:06.187
加速真实新闻的传播。

00:07:06.300 --> 00:07:09.158
这意味着，机器人账号

00:07:09.182 --> 00:07:13.895
并不是造成网上虚实信息
传播差距的原因。

00:07:13.919 --> 00:07:16.768
我们不能推脱这个责任，

00:07:16.792 --> 00:07:21.051
因为要对这种传播负责的，
是我们人类自己。

NOTE Paragraph

00:07:22.472 --> 00:07:25.806
对于我们大家来说
都很不幸的是，

00:07:25.830 --> 00:07:27.584
刚刚我告诉各位的一切

00:07:27.608 --> 00:07:28.869
都是好消息。

NOTE Paragraph

00:07:30.670 --> 00:07:35.120
原因在于，形势马上要大幅恶化了。

00:07:35.850 --> 00:07:39.532
而两种特定的技术
会将形势变得更加糟糕。

00:07:40.207 --> 00:07:45.379
我们将会目睹
一大波合成媒体的剧增。

00:07:45.403 --> 00:07:51.434
虚假视频、虚假音频，
对于人类来说都能以假乱真。

00:07:51.458 --> 00:07:54.212
这是由两项技术支持的。

NOTE Paragraph

00:07:54.236 --> 00:07:58.199
其一是所谓的“生成对抗网络”。

00:07:58.199 --> 00:08:00.680
这是一个由两个网络组成
的机器学习模型：

00:08:00.680 --> 00:08:02.425
一个是判别网络，

00:08:02.425 --> 00:08:06.451
负责分辨样本的真假；

00:08:06.475 --> 00:08:07.916
另一个是生成网络，

00:08:07.916 --> 00:08:10.816
负责产生合成媒体。

00:08:10.840 --> 00:08:15.942
生成网络产生
合成视频或音频，

00:08:15.966 --> 00:08:20.641
而判别网络则试图分辨，
“这是真的还是假的？”

00:08:20.665 --> 00:08:23.212
事实上，生成网络的任务是

00:08:23.212 --> 00:08:27.930
尽可能地欺骗判别网络，
让判别网络误以为

00:08:27.930 --> 00:08:31.651
它合成的视频和音频

00:08:31.651 --> 00:08:33.363
其实是真的。

00:08:33.387 --> 00:08:35.760
想象一台处于超级循环中的机器，

00:08:35.784 --> 00:08:38.587
试图变得越来越擅长欺骗我们。

NOTE Paragraph

00:08:39.114 --> 00:08:41.614
第二项技术，
简而言之，

00:08:41.638 --> 00:08:47.360
就是在民众中
的人工智能的民主化，

00:08:47.384 --> 00:08:49.573
即让任何人

00:08:49.597 --> 00:08:52.339
不需要任何人工智能或

00:08:52.339 --> 00:08:53.541
机器学习的背景，

00:08:53.541 --> 00:08:57.850
也能调用这些算法
生成人工合成媒体。

00:08:57.850 --> 00:09:02.355
这两种技术相结合，
让制作视频变得如此容易。

NOTE Paragraph

00:09:02.355 --> 00:09:06.800
白宫曾发布过一个
虚假的、篡改过的视频，

00:09:06.800 --> 00:09:11.398
内容为一名记者和一个试图抢夺
他的麦克风的实习生的互动。

00:09:11.427 --> 00:09:13.426
他们从视频中移除了一些帧，

00:09:13.450 --> 00:09:17.117
让他的行动显得更有攻击性。

00:09:17.157 --> 00:09:20.542
而当摄影师和替身演员

00:09:20.566 --> 00:09:22.993
被采访问及这种技术时，

00:09:23.017 --> 00:09:26.845
他们说，“是的，我们经常
在电影中使用这种技术,

00:09:26.869 --> 00:09:31.872
让我们的出拳和踢腿动作
看上去更具打击感，更加有气势。”

00:09:32.268 --> 00:09:34.135
他们于是发布了这个视频，

00:09:34.159 --> 00:09:36.659
将其作为部分证据，

00:09:36.683 --> 00:09:40.142
试图撤销视频中的记者，
吉姆·阿考斯塔

00:09:40.142 --> 00:09:42.022
的白宫新闻通行证。

00:09:42.069 --> 00:09:46.878
于是 CNN 不得不提出诉讼，
要求恢复该新闻通行证。

NOTE Paragraph

00:09:48.538 --> 00:09:54.165
我能想到我们可以走
的五条不同道路，

00:09:54.165 --> 00:09:58.204
以试图解决当今我们面对
的这些异常艰难的问题。

00:09:58.379 --> 00:10:00.189
每一种措施都带来希望，

00:10:00.213 --> 00:10:03.212
但每一种也有其自身的挑战。

00:10:03.236 --> 00:10:05.244
第一种措施是贴上标签。

00:10:05.268 --> 00:10:06.625
可以这么想：

00:10:06.649 --> 00:10:10.260
当你去超市购买食品时，

00:10:10.284 --> 00:10:12.188
食品上会有详细的标签。

00:10:12.212 --> 00:10:14.204
你可以得知它有多少卡路里，

00:10:14.228 --> 00:10:16.029
含有多少脂肪——

00:10:16.053 --> 00:10:20.331
然而当我们摄取信息时，
我们没有任何标签。

00:10:20.355 --> 00:10:22.283
这个信息中含有什么？

00:10:22.307 --> 00:10:23.760
其来源是否可信？

00:10:23.784 --> 00:10:26.101
这个信息是从哪里收集的？

00:10:26.125 --> 00:10:27.950
在我们摄取信息时，

00:10:27.974 --> 00:10:30.077
我们并没有以上的任何信息。

00:10:30.101 --> 00:10:33.339
这是一种可能的解决办法，
但它有自身的挑战。

00:10:33.363 --> 00:10:39.814
比如说，在社会中，
有谁能决定信息的真伪？

00:10:40.387 --> 00:10:42.029
是政府吗？

00:10:42.053 --> 00:10:43.203
是 Facebook 吗？

00:10:43.601 --> 00:10:47.363
是由事实核查机构
组成的独立联盟吗？

00:10:47.387 --> 00:10:50.043
谁又来对事实核查机构
进行核查呢？

NOTE Paragraph

00:10:50.427 --> 00:10:53.511
另一种可能的解决手段是奖励措施。

00:10:53.535 --> 00:10:56.169
我们知道，在美国总统大选期间，

00:10:56.193 --> 00:10:59.883
有一波虚假信息来源于马其顿，

00:10:59.907 --> 00:11:02.244
他们没有任何政治动机，

00:11:02.268 --> 00:11:04.728
相反，他们有经济动机。

00:11:04.752 --> 00:11:06.900
这个经济动机之所以存在，

00:11:06.924 --> 00:11:10.410
是因为虚假新闻比真相传播得

00:11:10.410 --> 00:11:12.356
更远、更快、更深，

00:11:12.356 --> 00:11:17.366
你可以使用这类信息
博取眼球、吸引注意，

00:11:17.366 --> 00:11:19.450
从而通过广告赚钱。

00:11:19.474 --> 00:11:23.307
但如果我们能抑制
这类信息的传播，

00:11:23.331 --> 00:11:26.148
或许就能在源头减少

00:11:26.148 --> 00:11:28.966
生产这类信息的经济动机。

NOTE Paragraph

00:11:28.966 --> 00:11:31.466
第三，我们可以考虑进行监管，

00:11:31.490 --> 00:11:33.815
毫无疑问，我们应当考虑这个选项。

00:11:33.839 --> 00:11:35.450
现在，在美国，

00:11:35.474 --> 00:11:40.322
我们在探索当 Facebook 和其它平台
受到监管时，会发生什么事情。

00:11:40.346 --> 00:11:44.147
我们应当考虑的措施包括：
监管政治言论，

00:11:44.171 --> 00:11:46.679
对政治言论进行标签，

00:11:46.703 --> 00:11:50.522
确保外国参与者无法资助政治言论，

00:11:50.546 --> 00:11:53.093
但这也有自己的风险。

00:11:53.522 --> 00:11:58.430
举个例子，马来西亚刚刚颁布法案，
对任何散布不实消息的人

00:11:58.430 --> 00:12:01.158
处以六年监禁。

00:12:01.696 --> 00:12:03.775
而在独裁政权中，

00:12:03.799 --> 00:12:08.465
这种政策可以被利用
以压制少数群体的意见，

00:12:08.489 --> 00:12:11.997
继续扩大压迫。

NOTE Paragraph

00:12:12.680 --> 00:12:16.223
第四种可能的解决方法是透明度。

00:12:16.843 --> 00:12:20.557
我们想了解 Facebook 
的算法是怎样运作的。

00:12:20.581 --> 00:12:23.461
数据是怎样与算法结合，

00:12:23.485 --> 00:12:26.323
得出我们看到的结果？

00:12:26.347 --> 00:12:28.696
我们想让他们开诚布公，

00:12:28.720 --> 00:12:32.934
为我们披露 Facebook 内部
具体是如何运作的。

00:12:32.958 --> 00:12:35.737
而如果我们想知道
社交媒体对社会的影响，

00:12:35.761 --> 00:12:38.101
我们需要科学家、研究人员

00:12:38.101 --> 00:12:41.014
和其他人能够入手这种信息。

00:12:41.038 --> 00:12:42.585
但与此同时，

00:12:42.609 --> 00:12:46.410
我们还要求 Facebook 锁上一切，

00:12:46.434 --> 00:12:48.607
保证所有数据的安全。

NOTE Paragraph

00:12:48.631 --> 00:12:51.790
因此，Facebook 和其他社交媒体平台

00:12:51.814 --> 00:12:54.948
正面对我称之为的“透明性悖论”。

00:12:55.266 --> 00:12:57.990
我们要求他们

00:12:57.990 --> 00:13:02.773
在开放、透明的同时
保证安全。

00:13:02.797 --> 00:13:05.588
这是非常艰难的挑战，

00:13:05.588 --> 00:13:07.639
这些公司必须直面挑战，

00:13:07.639 --> 00:13:10.899
才能在实现社交科技承诺的同时

00:13:10.899 --> 00:13:12.902
回避它们带来的危害。

NOTE Paragraph

00:13:12.926 --> 00:13:17.617
我们能想到的最后一个解决手段是
算法和机器学习。

00:13:17.641 --> 00:13:21.768
有的科技被开发出来，
用于拔除和理解虚假新闻，

00:13:21.768 --> 00:13:25.616
了解它们的传播方式，
并试图降低其扩散。

00:13:25.824 --> 00:13:28.721
人类需要跟进这种科技，

00:13:28.745 --> 00:13:31.023
因为我们无法逃避的是，

00:13:31.047 --> 00:13:35.085
在任何科技解答或手段的背后

00:13:35.109 --> 00:13:39.156
都有一个根本的伦理与哲学问题：

00:13:39.180 --> 00:13:42.450
我们如何定义真实和虚伪，

00:13:42.474 --> 00:13:45.654
我们将定义真伪的权力托付于谁，

00:13:45.678 --> 00:13:48.138
哪些意见是合法的，

00:13:48.162 --> 00:13:51.868
哪种言论能被允许，
诸如此类。

00:13:51.892 --> 00:13:54.220
科技并非对这个问题的解答,

00:13:54.244 --> 00:13:57.942
伦理学和哲学才是。

NOTE Paragraph

00:13:58.950 --> 00:14:02.013
人类决策、人类合作和人类协调

00:14:02.013 --> 00:14:05.077
的几乎每一个理论，

00:14:05.077 --> 00:14:08.891
其核心都存在某种程度的真相。

00:14:09.347 --> 00:14:11.403
但随着虚假新闻、

00:14:11.427 --> 00:14:12.870
虚假视频、

00:14:12.894 --> 00:14:14.776
虚假音频的崛起，

00:14:14.800 --> 00:14:18.724
我们正在现实终结
的边缘摇摇欲坠，

00:14:18.748 --> 00:14:22.637
在这里我们无法分辨
何为真实，何为虚假。

00:14:22.661 --> 00:14:25.700
这有可能是极度危险的。

NOTE Paragraph

00:14:26.931 --> 00:14:31.009
我们必须保持警惕，拒绝虚假信息，

00:14:31.009 --> 00:14:32.627
捍卫真相——

00:14:32.919 --> 00:14:36.355
通过我们的技术，我们的政策，

00:14:36.379 --> 00:14:38.299
以及，或许也是最重要的，

00:14:38.323 --> 00:14:41.865
通过我们自己的责任感、

00:14:41.865 --> 00:14:45.407
决定、行为，和举动。

NOTE Paragraph

00:14:45.553 --> 00:14:46.990
谢谢大家。

NOTE Paragraph

00:14:47.014 --> 00:14:50.531
（掌声）