盲目信仰大数据的时代必须结束

0:01 - 0:03

算法无处不在。
0:04 - 0:07

他们把成功者和失败者区分开来。
0:08 - 0:10

成功者得到工作
0:10 - 0:12

或是一个很好的信用卡优惠计划。
0:12 - 0:15

失败者甚至连面试机会都没有，
0:16 - 0:17

或者要为保险付更多的钱。
0:18 - 0:22

我们被不理解的秘密公式打分，
0:23 - 0:26

却并没有上诉的渠道。
0:27 - 0:29

这引出了一个问题：
0:29 - 0:31

如果算法是错误的怎么办？
0:33 - 0:35

构建一个算法需要两个要素：
0:35 - 0:37

需要数据，如过去发生的事情，
0:37 - 0:38

和成功的定义，
0:38 - 0:41

你正在寻找的，通常希望得到的东西。
0:41 - 0:46

你可以通过观察，理解来训练算法。
0:46 - 0:50

这种算法能找出与成功相关的因素。
0:50 - 0:52

什么情况意味着成功？
0:53 - 0:55

其实，每个人都使用算法。
0:55 - 0:57

他们只是没有把它们写成书面代码。
0:57 - 0:58

举个例子。
0:58 - 1:02

我每天都用一种算法来
为我的家人做饭。
1:02 - 1:04

我使用的数据
1:04 - 1:06

就是我厨房里的原料，
1:06 - 1:08

我拥有的时间，
1:08 - 1:09

我的热情，
1:09 - 1:11

然后我整理了这些数据。
1:11 - 1:15

我不把那种小包拉面算作食物。
1:15 - 1:17

（笑声）
1:17 - 1:19

我对成功的定义是：
1:19 - 1:21

如果我的孩子们肯吃蔬菜，
这顿饭就是成功的。
1:22 - 1:25

这和我最小的儿子
负责做饭时的情况有所不同。
1:25 - 1:28

他说，如果他能吃很多
Nutella巧克力榛子酱就是成功。
1:29 - 1:31

但我可以选择成功。
1:31 - 1:34

我负责。我的意见就很重要。
1:34 - 1:37

这就是算法的第一个规则。
1:37 - 1:40

算法是嵌入在代码中的观点。
1:42 - 1:45

这和你认为大多数人对
算法的看法是不同的。
1:45 - 1:50

他们认为算法是客观、真实和科学的。
1:50 - 1:52

那是一种营销技巧。
1:53 - 1:55

这也是一种用算法来
1:55 - 1:59

恐吓你的营销手段，
1:59 - 2:02

为了让你信任和恐惧算法
2:02 - 2:04

因为你信任并害怕数学。
2:06 - 2:10

当我们盲目信任大数据时，
很多人都可能犯错。
2:12 - 2:15

这是凯丽·索尔斯。
她是布鲁克林的一名高中校长。
2:15 - 2:18

2011年，她告诉我，
她学校的老师们正在被一个复杂
2:18 - 2:20

并且隐秘的算法进行打分，
2:20 - 2:22

这个算法被称为“增值模型"。
2:23 - 2:25

我告诉她，“先弄清楚这个
公式是什么，然后给我看看。
2:25 - 2:27

我来给你解释一下。”
2:27 - 2:29

她说，“我寻求过这个公式，
2:29 - 2:32

但是教育部的负责人告诉我这是数学，
2:32 - 2:34

给我我也看不懂。”
2:35 - 2:37

更糟的还在后面。
2:37 - 2:40

纽约邮报提出了“信息自由法”的要求，
2:40 - 2:43

来得到所有老师的名字与他们的分数，
2:43 - 2:46

并且他们以羞辱教师的方式
发表了这些数据。
2:47 - 2:51

当我试图用同样的方法来获取公式，
源代码的时候，
2:51 - 2:53

我被告知我没有权力这么做。
2:53 - 2:54

我被拒绝了。
2:54 - 2:55

后来我发现，
2:55 - 2:58

纽约市压根儿没有人能接触到这个公式。
2:58 - 3:00

没有人能看懂。
3:02 - 3:05

然后，一个非常聪明的人参与了，
加里·鲁宾斯坦。
3:05 - 3:09

他从纽约邮报的数据中
找到了665名教师，
3:09 - 3:11

实际上他们有两个分数。
3:11 - 3:13

如果他们同时教七年级与八年级的数学，
3:13 - 3:15

就会得到两个评分。
3:15 - 3:17

他决定把这些数据绘成图表。
3:17 - 3:19

每个点代表一个教师。
3:19 - 3:22

（笑声）
3:22 - 3:23

那是什么？
3:23 - 3:24

（笑声）
3:24 - 3:28

它永远不应该被用于个人评估。
3:28 - 3:30

它几乎是一个随机数生成器。
3:30 - 3:33

（掌声）
3:33 - 3:33

但它确实被使用了。
3:33 - 3:35

这是莎拉·维索斯基。
3:35 - 3:37

她连同另外205名教师被解雇了，
3:37 - 3:40

都是来自华盛顿特区的学区，
3:40 - 3:43

尽管她的校长还有学生的
3:43 - 3:44

父母都非常推荐她。
3:45 - 3:47

我知道你们很多人在想什么，
3:47 - 3:50

尤其是这里的数据科学家，
人工智能专家。
3:50 - 3:54

你在想，“我可永远不会做出
这样前后矛盾的算法。”
3:55 - 3:56

但是算法可能会出错，
3:56 - 4:01

即使有良好的意图，
也会产生毁灭性的影响。
4:03 - 4:05

每个人都能看到一架设计的
4:05 - 4:07

很糟糕的飞机会坠毁在地，
4:07 - 4:09

而一个设计糟糕的算法
4:10 - 4:14

可以持续很长一段时间，
并无声地造成破坏。
4:16 - 4:17

这是罗杰·艾尔斯。
4:17 - 4:19

（笑声）
4:21 - 4:23

他在1996年创办了福克斯新闻。
4:23 - 4:26

公司有超过20多名女性曾抱怨过性骚扰。
4:26 - 4:29

她们说她们不被允许在
福克斯新闻有所成就。
4:29 - 4:32

他去年被赶下台，但我们最近看到
4:32 - 4:35

问题依然存在。
4:36 - 4:37

这引出了一个问题：
4:37 - 4:40

福克斯新闻应该做些什么改变？
4:41 - 4:44

如果他们用机器学习算法
4:44 - 4:46

取代传统的招聘流程呢？
4:46 - 4:47

听起来不错，对吧？
4:47 - 4:49

想想看。
4:49 - 4:51

数据，这些数据到底是什么？
4:51 - 4:56

福克斯新闻在过去21年的申请函
是一个合理的选择。
4:56 - 4:58

很合理。
4:58 - 4:59

那么成功的定义呢？
5:00 - 5:01

合理的选择将是，
5:01 - 5:03

谁在福克斯新闻取得了成功？
5:03 - 5:07

我猜的是，比如在那里呆了四年，
5:07 - 5:08

至少得到过一次晋升的人。
5:09 - 5:10

听起来很合理。
5:10 - 5:13

然后这个算法将会被训练。
5:13 - 5:17

它会被训练去向人们
学习是什么造就了成功，
5:17 - 5:22

什么样的申请函在过去拥有
5:22 - 5:23

这种成功的定义。
5:24 - 5:26

现在想想如果我们把它
5:26 - 5:29

应用到目前的申请者中会发生什么。
5:29 - 5:31

它会过滤掉女性，
5:32 - 5:36

因为她们看起来不像
在过去取得成功的人。
5:40 - 5:42

算法不会让事情变得公平，
5:42 - 5:45

如果你只是轻率地，
盲目地应用算法。
5:45 - 5:46

它们不会让事情变得公平。
5:46 - 5:49

它们只是重复我们过去的做法，
5:49 - 5:50

我们的规律。
5:50 - 5:52

它们使现状自动化。
5:53 - 5:55

如果我们有一个
完美的世界那就太好了，
5:56 - 5:57

但是我们没有。
5:57 - 6:01

我还要补充一点，
大多数公司都没有令人尴尬的诉讼，
6:02 - 6:05

但是这些公司的数据科学家
6:05 - 6:07

被告知要跟随数据，
6:07 - 6:09

关注它的准确性。
6:10 - 6:11

想想这意味着什么。
6:11 - 6:16

因为我们都有偏见，
这意味着他们可以编纂性别歧视
6:16 - 6:18

或者任何其他的偏见。
6:19 - 6:21

思维实验，
6:21 - 6:22

因为我喜欢它们：
6:24 - 6:27

一个完全隔离的社会——
6:28 - 6:32

种族隔离存在于所有的城镇，
所有的社区，
6:32 - 6:34

我们把警察只送到少数族裔的社区
6:34 - 6:36

去寻找犯罪。
6:36 - 6:39

逮捕数据将会是十分有偏见的。
6:40 - 6:42

除此之外，我们还会寻找数据科学家
6:42 - 6:47

并付钱给他们来预测
下一起犯罪会发生在哪里？
6:47 - 6:49

少数族裔的社区。
6:49 - 6:52

或者预测下一个罪犯会是谁？
6:53 - 6:54

少数族裔。
6:56 - 6:59

这些数据科学家们
会吹嘘他们的模型有多好，
6:59 - 7:01

多精确，
7:01 - 7:02

当然他们是对的。
7:04 - 7:09

不过现实并没有那么极端，
但我们确实在许多城市里
7:09 - 7:10

有严重的种族隔离，
7:10 - 7:12

并且我们有大量的证据表明
7:12 - 7:15

警察和司法系统的数据存有偏见。
7:16 - 7:18

而且我们确实预测过热点，
7:18 - 7:20

那些犯罪会发生的地方。
7:20 - 7:24

我们确实会预测个人犯罪，
7:24 - 7:26

个人的犯罪行为。
7:27 - 7:31

新闻机构“人民 (ProPublica)”最近调查了，
7:31 - 7:32

其中一个称为
7:32 - 7:33

“累犯风险”的算法。
7:33 - 7:37

并在佛罗里达州的
宣判期间被法官采用。
7:38 - 7:42

伯纳德，左边的那个黑人，
10分中得了满分。
7:43 - 7:45

在右边的迪伦，
10分中得了3分。
7:45 - 7:48

10分代表高风险。
3分代表低风险。
7:49 - 7:51

他们都因为持有毒品
而被带进了监狱。
7:51 - 7:52

他们都有犯罪记录，
7:52 - 7:55

但是迪伦有一个重罪
7:55 - 7:56

但伯纳德没有。
7:58 - 8:01

这很重要，因为你的分数越高，
8:01 - 8:04

你被判长期服刑的可能性就越大。
8:06 - 8:08

到底发生了什么？
8:09 - 8:10

数据洗钱。
8:11 - 8:15

这是一个技术人员
把丑陋真相隐藏在
8:15 - 8:17

算法黑盒子中的过程，
8:17 - 8:19

并称之为客观；
8:19 - 8:21

称之为精英模式。
8:23 - 8:25

当它们是秘密的，
重要的并具有破坏性的，
8:25 - 8:28

我为这些算法创造了一个术语：
8:28 - 8:30

“杀伤性数学武器”。
8:30 - 8:32

（笑声）
8:32 - 8:35

（鼓掌）
8:35 - 8:37

它们无处不在，也不是一个错误。
8:38 - 8:41

这些是私有公司为了私人目的
8:41 - 8:43

建立的私有算法。
8:43 - 8:46

甚至是我谈到的老师
与公共警察使用的（算法），
8:46 - 8:48

也都是由私人公司所打造的，
8:48 - 8:51

然后卖给政府机构。
8:51 - 8:52

他们称之为“秘密配方（来源）”——
8:52 - 8:55

这就是他们不能告诉我们的原因。
8:55 - 8:57

这也是私人权力。
8:58 - 9:03

他们利用神秘莫测的权威来获利。
9:05 - 9:08

你可能会想，既然所有这些都是私有的
9:08 - 9:09

而且会有竞争，
9:09 - 9:12

也许自由市场会解决这个问题。
9:12 - 9:13

然而并不会。
9:13 - 9:16

在不公平的情况下，
有很多钱可以赚。
9:17 - 9:20

而且，我们不是经济理性的代理人。
9:21 - 9:22

我们都是有偏见的。
9:23 - 9:26

我们都是固执的种族主义者，
虽然我们希望我们不是，
9:26 - 9:28

虽然我们甚至没有意识到。
9:29 - 9:32

总的来说，我们知道这一点，
9:32 - 9:35

因为社会学家会一直通过这些实验
9:35 - 9:37

来证明这一点，
9:37 - 9:40

他们发送了大量的工作申请，
9:40 - 9:43

都是有同样资格的候选人，
有些用白人人名，
9:43 - 9:44

有些用黑人人名，
9:44 - 9:47

然而结果总是令人失望的。
9:48 - 9:49

所以我们是有偏见的，
9:49 - 9:53

我们还通过选择收集到的数据
9:53 - 9:55

来把偏见注入到算法中，
9:55 - 9:57

就像我不选择去想拉面一样——
9:57 - 9:59

我自认为这无关紧要。
9:59 - 10:05

但是，通过信任那些
在过去的实践中获得的数据
10:05 - 10:07

以及通过选择成功的定义，
10:07 - 10:11

我们怎么能指望算法
会是毫无瑕疵的呢？
10:11 - 10:13

我们不能。我们必须检查。
10:14 - 10:16

我们必须检查它们是否公平。
10:16 - 10:19

好消息是，我们可以做到这一点。
10:19 - 10:22

算法是可以被审问的，
10:22 - 10:24

而且每次都能告诉我们真相。
10:24 - 10:27

然后我们可以修复它们。
我们可以让他们变得更好。
10:27 - 10:29

我把它叫做算法审计，
10:29 - 10:31

接下来我会为你们解释。
10:31 - 10:33

首先，数据的完整性检查。
10:34 - 10:37

对于刚才提到过的累犯风险算法，
10:38 - 10:41

数据的完整性检查将意味着
我们不得不接受这个事实，
10:41 - 10:45

在美国，白人和黑人
吸毒的比例是一样的，
10:45 - 10:47

但是黑人更有可能被逮捕——
10:47 - 10:50

取决于区域，可能性是白人的4到5倍。
10:51 - 10:54

这种偏见在其他犯罪类别中
是什么样子的，
10:54 - 10:56

我们又该如何解释呢？
10:56 - 10:59

其次，我们应该考虑成功的定义，
10:59 - 11:01

审计它。
11:01 - 11:03

还记得我们谈论的雇佣算法吗？
11:03 - 11:07

那个呆了四年的人，
然后被提升了一次？
11:07 - 11:08

这的确是一个成功的员工，
11:08 - 11:11

但这也是一名受到公司文化支持的员工。
11:12 - 11:14

也就是说，
这可能会有很大的偏差。
11:14 - 11:16

我们需要把这两件事分开。
11:16 - 11:19

我们应该去看一下乐团盲选试奏，
11:19 - 11:19

举个例子。
11:19 - 11:23

这就是人们在幕后选拔乐手的地方。
11:23 - 11:24

我想要考虑的是
11:24 - 11:28

倾听的人已经
决定了什么是重要的，
11:28 - 11:30

同时他们已经决定了
什么是不重要的，
11:30 - 11:32

他们也不会因此而分心。
11:33 - 11:36

当乐团盲选开始时，
11:36 - 11:39

在管弦乐队中，
女性的数量上升了5倍。
11:40 - 11:42

其次，我们必须考虑准确性。
11:43 - 11:47

这就是针对教师的增值模型
立刻失效的地方。
11:48 - 11:50

当然，没有一个算法是完美的，
11:51 - 11:54

所以我们要考虑每一个算法的误差。
11:55 - 11:59

出现错误的频率有多高，
让这个模型失败的对象是谁？
12:00 - 12:02

失败的代价是什么？
12:02 - 12:05

最后，我们必须考虑
12:06 - 12:08

这个算法的长期效果，
12:09 - 12:11

与正在产生的反馈循环。
12:12 - 12:13

这听起来很抽象，
12:13 - 12:16

但是想象一下
如果脸书的工程师们之前考虑过，
12:16 - 12:21

并决定只向我们展示
我们朋友所发布的东西。
12:22 - 12:25

我还有两条建议，
一条是给数据科学家的。
12:25 - 12:29

数据科学家们：我们不应该
成为真相的仲裁者。
12:30 - 12:33

我们应该成为大社会中
所发生的道德讨论的
12:33 - 12:35

翻译者。
12:36 - 12:38

（掌声）
12:38 - 12:39

然后剩下的人，
12:40 - 12:41

非数据科学家们：
12:41 - 12:43

这不是一个数学测试。
12:44 - 12:45

这是一场政治斗争。
12:47 - 12:50

我们应该要求我们的
算法霸主承担问责。
12:52 - 12:54

（掌声）
12:54 - 12:58

盲目信仰大数据的时代必须结束。
12:58 - 12:59

非常感谢。
12:59 - 13:04

（掌声）

Title:: 盲目信仰大数据的时代必须结束
Speaker:: 凯西·奥尼尔
Description:: 算法决定谁会得到贷款，谁会得到工作面试，谁会得到保险等等—— 但它们不会自动使事情变得公平。身为数学家兼数据科学家的凯西·奥尼尔为算法创造了一个术语，它们是秘密的、重要的和有害的：“杀伤性数学武器”。通过这个演讲了解更多关于这些公式背后不为人知的运作方式吧。

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:18

	Yolanda Zhang approved Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang accepted Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end
	Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end

Show all

Chinese, Simplified subtitles

Revisions

Revision 20 Edited

Yolanda Zhang

盲目信仰大数据的时代必须结束

Revisions

Our website uses cookies

Operating cookies (Required)