盲目信仰大数据的时代必须结束
-
0:01 - 0:03算法无处不在。
-
0:04 - 0:07他们把成功者和失败者区分开来。
-
0:08 - 0:10成功者得到工作
-
0:10 - 0:12或是一个很好的信用卡优惠计划。
-
0:12 - 0:15失败者甚至连面试机会都没有,
-
0:16 - 0:17或者要为保险付更多的钱。
-
0:18 - 0:22我们被不理解的秘密公式打分,
-
0:23 - 0:26却并没有上诉的渠道。
-
0:27 - 0:29这引出了一个问题:
-
0:29 - 0:31如果算法是错误的怎么办?
-
0:33 - 0:35构建一个算法需要两个要素:
-
0:35 - 0:37需要数据,如过去发生的事情,
-
0:37 - 0:38和成功的定义,
-
0:38 - 0:41你正在寻找的,通常希望得到的东西。
-
0:41 - 0:46你可以通过观察,理解来训练算法。
-
0:46 - 0:50这种算法能找出与成功相关的因素。
-
0:50 - 0:52什么情况意味着成功?
-
0:53 - 0:55其实,每个人都使用算法。
-
0:55 - 0:57他们只是没有把它们写成书面代码。
-
0:57 - 0:58举个例子。
-
0:58 - 1:02我每天都用一种算法来
为我的家人做饭。 -
1:02 - 1:04我使用的数据
-
1:04 - 1:06就是我厨房里的原料,
-
1:06 - 1:08我拥有的时间,
-
1:08 - 1:09我的热情,
-
1:09 - 1:11然后我整理了这些数据。
-
1:11 - 1:15我不把那种小包拉面算作食物。
-
1:15 - 1:17(笑声)
-
1:17 - 1:19我对成功的定义是:
-
1:19 - 1:21如果我的孩子们肯吃蔬菜,
这顿饭就是成功的。 -
1:22 - 1:25这和我最小的儿子
负责做饭时的情况有所不同。 -
1:25 - 1:28他说,如果他能吃很多
Nutella巧克力榛子酱就是成功。 -
1:29 - 1:31但我可以选择成功。
-
1:31 - 1:34我负责。我的意见就很重要。
-
1:34 - 1:37这就是算法的第一个规则。
-
1:37 - 1:40算法是嵌入在代码中的观点。
-
1:42 - 1:45这和你认为大多数人对
算法的看法是不同的。 -
1:45 - 1:50他们认为算法是客观、真实和科学的。
-
1:50 - 1:52那是一种营销技巧。
-
1:53 - 1:55这也是一种用算法来
-
1:55 - 1:59恐吓你的营销手段,
-
1:59 - 2:02为了让你信任和恐惧算法
-
2:02 - 2:04因为你信任并害怕数学。
-
2:06 - 2:10当我们盲目信任大数据时,
很多人都可能犯错。 -
2:12 - 2:15这是凯丽·索尔斯。
她是布鲁克林的一名高中校长。 -
2:15 - 2:182011年,她告诉我,
她学校的老师们正在被一个复杂 -
2:18 - 2:20并且隐秘的算法进行打分,
-
2:20 - 2:22这个算法被称为“增值模型"。
-
2:23 - 2:25我告诉她,“先弄清楚这个
公式是什么,然后给我看看。 -
2:25 - 2:27我来给你解释一下。”
-
2:27 - 2:29她说,“我寻求过这个公式,
-
2:29 - 2:32但是教育部的负责人告诉我这是数学,
-
2:32 - 2:34给我我也看不懂。”
-
2:35 - 2:37更糟的还在后面。
-
2:37 - 2:40纽约邮报提出了“信息自由法”的要求,
-
2:40 - 2:43来得到所有老师的名字与他们的分数,
-
2:43 - 2:46并且他们以羞辱教师的方式
发表了这些数据。 -
2:47 - 2:51当我试图用同样的方法来获取公式,
源代码的时候, -
2:51 - 2:53我被告知我没有权力这么做。
-
2:53 - 2:54我被拒绝了。
-
2:54 - 2:55后来我发现,
-
2:55 - 2:58纽约市压根儿没有人能接触到这个公式。
-
2:58 - 3:00没有人能看懂。
-
3:02 - 3:05然后,一个非常聪明的人参与了,
加里·鲁宾斯坦。 -
3:05 - 3:09他从纽约邮报的数据中
找到了665名教师, -
3:09 - 3:11实际上他们有两个分数。
-
3:11 - 3:13如果他们同时教七年级与八年级的数学,
-
3:13 - 3:15就会得到两个评分。
-
3:15 - 3:17他决定把这些数据绘成图表。
-
3:17 - 3:19每个点代表一个教师。
-
3:19 - 3:22(笑声)
-
3:22 - 3:23那是什么?
-
3:23 - 3:24(笑声)
-
3:24 - 3:28它永远不应该被用于个人评估。
-
3:28 - 3:30它几乎是一个随机数生成器。
-
3:30 - 3:33(掌声)
-
3:33 - 3:33但它确实被使用了。
-
3:33 - 3:35这是莎拉·维索斯基。
-
3:35 - 3:37她连同另外205名教师被解雇了,
-
3:37 - 3:40都是来自华盛顿特区的学区,
-
3:40 - 3:43尽管她的校长还有学生的
-
3:43 - 3:44父母都非常推荐她。
-
3:45 - 3:47我知道你们很多人在想什么,
-
3:47 - 3:50尤其是这里的数据科学家,
人工智能专家。 -
3:50 - 3:54你在想,“我可永远不会做出
这样前后矛盾的算法。” -
3:55 - 3:56但是算法可能会出错,
-
3:56 - 4:01即使有良好的意图,
也会产生毁灭性的影响。 -
4:03 - 4:05每个人都能看到一架设计的
-
4:05 - 4:07很糟糕的飞机会坠毁在地,
-
4:07 - 4:09而一个设计糟糕的算法
-
4:10 - 4:14可以持续很长一段时间,
并无声地造成破坏。 -
4:16 - 4:17这是罗杰·艾尔斯。
-
4:17 - 4:19(笑声)
-
4:21 - 4:23他在1996年创办了福克斯新闻。
-
4:23 - 4:26公司有超过20多名女性曾抱怨过性骚扰。
-
4:26 - 4:29她们说她们不被允许在
福克斯新闻有所成就。 -
4:29 - 4:32他去年被赶下台,但我们最近看到
-
4:32 - 4:35问题依然存在。
-
4:36 - 4:37这引出了一个问题:
-
4:37 - 4:40福克斯新闻应该做些什么改变?
-
4:41 - 4:44如果他们用机器学习算法
-
4:44 - 4:46取代传统的招聘流程呢?
-
4:46 - 4:47听起来不错,对吧?
-
4:47 - 4:49想想看。
-
4:49 - 4:51数据,这些数据到底是什么?
-
4:51 - 4:56福克斯新闻在过去21年的申请函
是一个合理的选择。 -
4:56 - 4:58很合理。
-
4:58 - 4:59那么成功的定义呢?
-
5:00 - 5:01合理的选择将是,
-
5:01 - 5:03谁在福克斯新闻取得了成功?
-
5:03 - 5:07我猜的是,比如在那里呆了四年,
-
5:07 - 5:08至少得到过一次晋升的人。
-
5:09 - 5:10听起来很合理。
-
5:10 - 5:13然后这个算法将会被训练。
-
5:13 - 5:17它会被训练去向人们
学习是什么造就了成功, -
5:17 - 5:22什么样的申请函在过去拥有
-
5:22 - 5:23这种成功的定义。
-
5:24 - 5:26现在想想如果我们把它
-
5:26 - 5:29应用到目前的申请者中会发生什么。
-
5:29 - 5:31它会过滤掉女性,
-
5:32 - 5:36因为她们看起来不像
在过去取得成功的人。 -
5:40 - 5:42算法不会让事情变得公平,
-
5:42 - 5:45如果你只是轻率地,
盲目地应用算法。 -
5:45 - 5:46它们不会让事情变得公平。
-
5:46 - 5:49它们只是重复我们过去的做法,
-
5:49 - 5:50我们的规律。
-
5:50 - 5:52它们使现状自动化。
-
5:53 - 5:55如果我们有一个
完美的世界那就太好了, -
5:56 - 5:57但是我们没有。
-
5:57 - 6:01我还要补充一点,
大多数公司都没有令人尴尬的诉讼, -
6:02 - 6:05但是这些公司的数据科学家
-
6:05 - 6:07被告知要跟随数据,
-
6:07 - 6:09关注它的准确性。
-
6:10 - 6:11想想这意味着什么。
-
6:11 - 6:16因为我们都有偏见,
这意味着他们可以编纂性别歧视 -
6:16 - 6:18或者任何其他的偏见。
-
6:19 - 6:21思维实验,
-
6:21 - 6:22因为我喜欢它们:
-
6:24 - 6:27一个完全隔离的社会——
-
6:28 - 6:32种族隔离存在于所有的城镇,
所有的社区, -
6:32 - 6:34我们把警察只送到少数族裔的社区
-
6:34 - 6:36去寻找犯罪。
-
6:36 - 6:39逮捕数据将会是十分有偏见的。
-
6:40 - 6:42除此之外,我们还会寻找数据科学家
-
6:42 - 6:47并付钱给他们来预测
下一起犯罪会发生在哪里? -
6:47 - 6:49少数族裔的社区。
-
6:49 - 6:52或者预测下一个罪犯会是谁?
-
6:53 - 6:54少数族裔。
-
6:56 - 6:59这些数据科学家们
会吹嘘他们的模型有多好, -
6:59 - 7:01多精确,
-
7:01 - 7:02当然他们是对的。
-
7:04 - 7:09不过现实并没有那么极端,
但我们确实在许多城市里 -
7:09 - 7:10有严重的种族隔离,
-
7:10 - 7:12并且我们有大量的证据表明
-
7:12 - 7:15警察和司法系统的数据存有偏见。
-
7:16 - 7:18而且我们确实预测过热点,
-
7:18 - 7:20那些犯罪会发生的地方。
-
7:20 - 7:24我们确实会预测个人犯罪,
-
7:24 - 7:26个人的犯罪行为。
-
7:27 - 7:31新闻机构“人民 (ProPublica)”最近调查了,
-
7:31 - 7:32其中一个称为
-
7:32 - 7:33“累犯风险”的算法。
-
7:33 - 7:37并在佛罗里达州的
宣判期间被法官采用。 -
7:38 - 7:42伯纳德,左边的那个黑人,
10分中得了满分。 -
7:43 - 7:45在右边的迪伦,
10分中得了3分。 -
7:45 - 7:4810分代表高风险。
3分代表低风险。 -
7:49 - 7:51他们都因为持有毒品
而被带进了监狱。 -
7:51 - 7:52他们都有犯罪记录,
-
7:52 - 7:55但是迪伦有一个重罪
-
7:55 - 7:56但伯纳德没有。
-
7:58 - 8:01这很重要,因为你的分数越高,
-
8:01 - 8:04你被判长期服刑的可能性就越大。
-
8:06 - 8:08到底发生了什么?
-
8:09 - 8:10数据洗钱。
-
8:11 - 8:15这是一个技术人员
把丑陋真相隐藏在 -
8:15 - 8:17算法黑盒子中的过程,
-
8:17 - 8:19并称之为客观;
-
8:19 - 8:21称之为精英模式。
-
8:23 - 8:25当它们是秘密的,
重要的并具有破坏性的, -
8:25 - 8:28我为这些算法创造了一个术语:
-
8:28 - 8:30“杀伤性数学武器”。
-
8:30 - 8:32(笑声)
-
8:32 - 8:35(鼓掌)
-
8:35 - 8:37它们无处不在,也不是一个错误。
-
8:38 - 8:41这些是私有公司为了私人目的
-
8:41 - 8:43建立的私有算法。
-
8:43 - 8:46甚至是我谈到的老师
与公共警察使用的(算法), -
8:46 - 8:48也都是由私人公司所打造的,
-
8:48 - 8:51然后卖给政府机构。
-
8:51 - 8:52他们称之为“秘密配方(来源)”——
-
8:52 - 8:55这就是他们不能告诉我们的原因。
-
8:55 - 8:57这也是私人权力。
-
8:58 - 9:03他们利用神秘莫测的权威来获利。
-
9:05 - 9:08你可能会想,既然所有这些都是私有的
-
9:08 - 9:09而且会有竞争,
-
9:09 - 9:12也许自由市场会解决这个问题。
-
9:12 - 9:13然而并不会。
-
9:13 - 9:16在不公平的情况下,
有很多钱可以赚。 -
9:17 - 9:20而且,我们不是经济理性的代理人。
-
9:21 - 9:22我们都是有偏见的。
-
9:23 - 9:26我们都是固执的种族主义者,
虽然我们希望我们不是, -
9:26 - 9:28虽然我们甚至没有意识到。
-
9:29 - 9:32总的来说,我们知道这一点,
-
9:32 - 9:35因为社会学家会一直通过这些实验
-
9:35 - 9:37来证明这一点,
-
9:37 - 9:40他们发送了大量的工作申请,
-
9:40 - 9:43都是有同样资格的候选人,
有些用白人人名, -
9:43 - 9:44有些用黑人人名,
-
9:44 - 9:47然而结果总是令人失望的。
-
9:48 - 9:49所以我们是有偏见的,
-
9:49 - 9:53我们还通过选择收集到的数据
-
9:53 - 9:55来把偏见注入到算法中,
-
9:55 - 9:57就像我不选择去想拉面一样——
-
9:57 - 9:59我自认为这无关紧要。
-
9:59 - 10:05但是,通过信任那些
在过去的实践中获得的数据 -
10:05 - 10:07以及通过选择成功的定义,
-
10:07 - 10:11我们怎么能指望算法
会是毫无瑕疵的呢? -
10:11 - 10:13我们不能。我们必须检查。
-
10:14 - 10:16我们必须检查它们是否公平。
-
10:16 - 10:19好消息是,我们可以做到这一点。
-
10:19 - 10:22算法是可以被审问的,
-
10:22 - 10:24而且每次都能告诉我们真相。
-
10:24 - 10:27然后我们可以修复它们。
我们可以让他们变得更好。 -
10:27 - 10:29我把它叫做算法审计,
-
10:29 - 10:31接下来我会为你们解释。
-
10:31 - 10:33首先,数据的完整性检查。
-
10:34 - 10:37对于刚才提到过的累犯风险算法,
-
10:38 - 10:41数据的完整性检查将意味着
我们不得不接受这个事实, -
10:41 - 10:45在美国,白人和黑人
吸毒的比例是一样的, -
10:45 - 10:47但是黑人更有可能被逮捕——
-
10:47 - 10:50取决于区域,可能性是白人的4到5倍。
-
10:51 - 10:54这种偏见在其他犯罪类别中
是什么样子的, -
10:54 - 10:56我们又该如何解释呢?
-
10:56 - 10:59其次,我们应该考虑成功的定义,
-
10:59 - 11:01审计它。
-
11:01 - 11:03还记得我们谈论的雇佣算法吗?
-
11:03 - 11:07那个呆了四年的人,
然后被提升了一次? -
11:07 - 11:08这的确是一个成功的员工,
-
11:08 - 11:11但这也是一名受到公司文化支持的员工。
-
11:12 - 11:14也就是说,
这可能会有很大的偏差。 -
11:14 - 11:16我们需要把这两件事分开。
-
11:16 - 11:19我们应该去看一下乐团盲选试奏,
-
11:19 - 11:19举个例子。
-
11:19 - 11:23这就是人们在幕后选拔乐手的地方。
-
11:23 - 11:24我想要考虑的是
-
11:24 - 11:28倾听的人已经
决定了什么是重要的, -
11:28 - 11:30同时他们已经决定了
什么是不重要的, -
11:30 - 11:32他们也不会因此而分心。
-
11:33 - 11:36当乐团盲选开始时,
-
11:36 - 11:39在管弦乐队中,
女性的数量上升了5倍。 -
11:40 - 11:42其次,我们必须考虑准确性。
-
11:43 - 11:47这就是针对教师的增值模型
立刻失效的地方。 -
11:48 - 11:50当然,没有一个算法是完美的,
-
11:51 - 11:54所以我们要考虑每一个算法的误差。
-
11:55 - 11:59出现错误的频率有多高,
让这个模型失败的对象是谁? -
12:00 - 12:02失败的代价是什么?
-
12:02 - 12:05最后,我们必须考虑
-
12:06 - 12:08这个算法的长期效果,
-
12:09 - 12:11与正在产生的反馈循环。
-
12:12 - 12:13这听起来很抽象,
-
12:13 - 12:16但是想象一下
如果脸书的工程师们之前考虑过, -
12:16 - 12:21并决定只向我们展示
我们朋友所发布的东西。 -
12:22 - 12:25我还有两条建议,
一条是给数据科学家的。 -
12:25 - 12:29数据科学家们:我们不应该
成为真相的仲裁者。 -
12:30 - 12:33我们应该成为大社会中
所发生的道德讨论的 -
12:33 - 12:35翻译者。
-
12:36 - 12:38(掌声)
-
12:38 - 12:39然后剩下的人,
-
12:40 - 12:41非数据科学家们:
-
12:41 - 12:43这不是一个数学测试。
-
12:44 - 12:45这是一场政治斗争。
-
12:47 - 12:50我们应该要求我们的
算法霸主承担问责。 -
12:52 - 12:54(掌声)
-
12:54 - 12:58盲目信仰大数据的时代必须结束。
-
12:58 - 12:59非常感谢。
-
12:59 - 13:04(掌声)
- Title:
- 盲目信仰大数据的时代必须结束
- Speaker:
- 凯西·奥尼尔
- Description:
-
算法决定谁会得到贷款,谁会得到工作面试,谁会得到保险等等—— 但它们不会自动使事情变得公平。身为数学家兼数据科学家的凯西·奥尼尔为算法创造了一个术语,它们是秘密的、重要的和有害的:“杀伤性数学武器”。通过这个演讲了解更多关于这些公式背后不为人知的运作方式吧。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 13:18
Yolanda Zhang approved Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang accepted Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end | ||
Yolanda Zhang edited Chinese, Simplified subtitles for The era of blind faith in big data must end |