WEBVTT

00:00:01.041 --> 00:00:04.235
大家好 我是乔伊
一位写代码的诗人

00:00:04.235 --> 00:00:09.166
我正努力阻止一股
逐渐凸显的无形力量

00:00:09.166 --> 00:00:12.056
一种我称为 代码的凝视 的力量

00:00:12.056 --> 00:00:15.135
这是我用来定义算法偏见的术语

NOTE Paragraph

00:00:15.429 --> 00:00:19.489
正如人类之间的偏见
算法偏见也会导致不公平

00:00:19.633 --> 00:00:25.809
然而算法就像病毒一样
会以飞快的速度大范围地

00:00:25.809 --> 00:00:27.381
扩散偏见

00:00:27.943 --> 00:00:32.344
算法也将会导致排他的经历和

00:00:32.344 --> 00:00:34.232
歧视性的做法

00:00:34.436 --> 00:00:36.177
给大家举个例子

NOTE Paragraph

00:00:36.980 --> 00:00:39.336
（录像）乔伊·博拉维尼：
嘿 摄像头 我来了

00:00:40.162 --> 00:00:41.656
你可以看到我的脸吗

00:00:42.051 --> 00:00:43.661
没有戴眼镜的脸呢

00:00:43.661 --> 00:00:45.475
你可以看到她的脸

00:00:46.237 --> 00:00:47.802
那么我的脸呢

00:00:51.890 --> 00:00:55.230
我戴上了一个面罩
你可以看到我的面罩吗

NOTE Paragraph

00:00:56.474 --> 00:00:58.773
乔伊·博拉维尼：
这是怎么回事呢

00:00:58.773 --> 00:01:01.988
为什么我坐在一台电脑前

00:01:01.988 --> 00:01:03.632
戴着一个白色的面罩

00:01:03.632 --> 00:01:06.826
尝试着被一个廉价的
网络摄像头检测到

00:01:07.150 --> 00:01:09.611
当我的身份不是写代码的诗人

00:01:09.611 --> 00:01:11.045
与 代码的凝视 较劲的时候

00:01:11.045 --> 00:01:14.275
我是MIT媒体实验室的
一位硕士生

00:01:14.275 --> 00:01:19.262
在那里我有机会参与
各种不同的项目

00:01:19.262 --> 00:01:21.303
包括激励镜子

00:01:21.303 --> 00:01:26.405
一个可以将数字面罩
投射在我的映像上的项目

00:01:26.405 --> 00:01:28.749
在早上的时候
如果我想充满力量

00:01:28.749 --> 00:01:30.237
我可以放上一个狮子的图像

00:01:30.237 --> 00:01:33.757
如果我想要感到积极向上
我也许就会放上一句格言

00:01:33.757 --> 00:01:36.810
我使用通用的人脸识别软件

00:01:36.810 --> 00:01:38.115
来搭建系统

00:01:38.115 --> 00:01:43.352
但是我发现除非我戴上白色的面罩
否则测试很难成功

NOTE Paragraph

00:01:44.282 --> 00:01:48.622
遗憾的是 我以前
也曾遇到过这种问题

00:01:48.622 --> 00:01:52.939
当我在佐治亚理工学院
读计算机科学专业本科的时候

00:01:52.939 --> 00:01:55.124
我曾经在一个
社交机器人上进行实验

00:01:55.124 --> 00:01:58.819
我的任务之一是
让机器人玩躲猫猫

00:01:58.819 --> 00:02:00.592
一个简单的轮换游戏

00:02:00.592 --> 00:02:04.871
在游戏中玩伴盖住他们的脸
然后掀开说“躲猫猫！“

00:02:04.871 --> 00:02:09.334
问题是躲猫猫在我不能
看见你的时候不起作用

00:02:09.334 --> 00:02:11.827
而我的机器人看不见我

00:02:11.827 --> 00:02:15.811
我只好借了我室友的脸
去完成这个项目

00:02:15.811 --> 00:02:17.205
递交了作业

00:02:17.205 --> 00:02:21.018
寻思着总会有人
来解决这个问题的把

NOTE Paragraph

00:02:21.669 --> 00:02:23.656
不久之后

00:02:23.656 --> 00:02:27.855
我在香港参加一次创业比赛

00:02:28.339 --> 00:02:31.073
组织者决定将各位参与者

00:02:31.073 --> 00:02:33.413
带到当地的初创企业参观

00:02:33.413 --> 00:02:36.162
其中一个创业公司
有一个社交机器人

00:02:36.162 --> 00:02:38.088
他们决定进行一个项目演示

00:02:38.088 --> 00:02:41.092
这个项目演示对除我之外的
每个人都有效果

00:02:41.092 --> 00:02:43.039
你恐怕可以猜到

00:02:43.039 --> 00:02:46.028
它不能检测到我的脸

00:02:46.028 --> 00:02:48.463
我问开发师到底发生了什么

00:02:48.463 --> 00:02:54.136
结果是我们使用了同一款
通用面部识别软件

00:02:54.140 --> 00:02:55.794
在地球的另一边

00:02:55.794 --> 00:02:59.660
我意识到算法偏见
传播得如此之快

00:02:59.660 --> 00:03:02.880
只需要从互联网上
下载一些文件

NOTE Paragraph

00:03:03.745 --> 00:03:06.821
那么到底发生了什么
为什么我的脸没有被检测到

00:03:06.825 --> 00:03:10.241
我们需要了解我们
如何教会机器识别

00:03:10.241 --> 00:03:13.618
计算机视觉使用机器学习技术

00:03:13.618 --> 00:03:15.588
来进行面部识别

00:03:15.588 --> 00:03:19.479
所以你要用一系列脸的样本
创建一个训练体系

00:03:19.483 --> 00:03:22.275
这是一张脸 这是一张脸
而这不是一张脸

00:03:22.275 --> 00:03:26.838
慢慢地你可以教电脑
如何识别其它的脸

00:03:26.838 --> 00:03:30.897
然而如果这个训练集
不是那么的多样化

00:03:30.897 --> 00:03:34.204
那些与已建立的标准
偏差较多的脸

00:03:34.204 --> 00:03:35.973
将会难以被检测到

00:03:35.973 --> 00:03:37.884
而这正是我遭遇的问题

NOTE Paragraph

00:03:37.884 --> 00:03:40.280
不过别担心
我们还有好消息

00:03:40.280 --> 00:03:43.085
训练集并不是凭空产生的

00:03:43.085 --> 00:03:44.887
实际上我们可以创造它们

00:03:44.887 --> 00:03:49.087
现在就有机会去创造
全波段光谱的训练集

00:03:49.087 --> 00:03:52.951
可以反映更加饱满的人类面貌

NOTE Paragraph

00:03:52.955 --> 00:03:55.190
现在你看到了在我的例子中

00:03:55.190 --> 00:03:57.177
社交机器人

00:03:57.177 --> 00:04:01.647
使我发现了算法偏见的排他性

00:04:01.647 --> 00:04:06.462
不过算法偏见还会导致
各种歧视性的做法

00:04:07.437 --> 00:04:09.060
美国境内的警察局

00:04:09.060 --> 00:04:13.050
在打击犯罪的过程中

00:04:13.050 --> 00:04:15.232
开始使用面部识别软件

00:04:15.619 --> 00:04:17.732
乔治敦大学法学院
发表了一个报告

00:04:17.732 --> 00:04:24.543
表明在全美两个成年人中就有一个
也就是近1.2亿的人口

00:04:24.543 --> 00:04:27.971
他们的面部信息
被储存在了面部识别网络中


00:04:27.971 --> 00:04:32.547
警察局如今可以访问
这些未被规范的

00:04:32.547 --> 00:04:36.923
使用着未审核准确性的
算法的面部识别网络

00:04:36.923 --> 00:04:40.821
然而我们知道面部识别
并非万无一失

00:04:40.821 --> 00:04:44.938
而持续地给面部标签
还是很有挑战性的

00:04:44.938 --> 00:04:46.584
你也许在Facebook上见过这个

00:04:46.584 --> 00:04:49.792
当我和我的朋友看到其他人
在我们的照片上被错误标注时

00:04:49.792 --> 00:04:52.208
都会捧腹大笑

00:04:52.208 --> 00:04:57.843
但是误认一个犯罪嫌疑人
可不是闹着玩儿的

00:04:57.843 --> 00:05:00.684
对公民自由的侵犯也不容忽视

NOTE Paragraph

00:05:00.684 --> 00:05:03.883
机器学习正被用于面部识别

00:05:03.883 --> 00:05:08.458
但也延伸到了计算机视觉领域之外

00:05:09.266 --> 00:05:13.266
在数据科学家凯西·欧奈尔在她
《数学杀伤性武器》一书中

00:05:13.266 --> 00:05:19.941
叙述了逐渐严重的
新型大规模杀伤性武器

00:05:19.941 --> 00:05:24.348
即 广泛应用而又神秘的
具有破坏性的算法

00:05:24.348 --> 00:05:27.402
正在被越来越多地
运用于决策制定上

00:05:27.402 --> 00:05:30.663
而这些决策影响着
我们生活的方方面面

00:05:30.663 --> 00:05:32.537
谁被录用
又有谁被解雇

00:05:32.537 --> 00:05:34.347
你得到了贷款吗
你买到了保险吗

00:05:34.347 --> 00:05:38.110
你被心目中的理想大学录取了吗

00:05:38.124 --> 00:05:41.617
在同一平台上的同一件产品

00:05:41.617 --> 00:05:44.073
你和我是否支付同样的价格

NOTE Paragraph

00:05:44.073 --> 00:05:47.776
为了实现警情预测
执法机构也开始

00:05:47.776 --> 00:05:50.169
使用起机器学习

00:05:50.169 --> 00:05:53.943
一些法官使用机器生成的
危险评分来决定

00:05:53.943 --> 00:05:58.083
囚犯要在监狱里呆多久

00:05:58.083 --> 00:06:00.591
我们真的应该
仔细思考这些决定

00:06:00.591 --> 00:06:01.787
它们公平吗

00:06:01.787 --> 00:06:04.867
我们已经清楚了 算法偏见

00:06:04.867 --> 00:06:08.109
不一定总能带来公平的结果

NOTE Paragraph

00:06:08.109 --> 00:06:09.683
那我们应该怎么做呢

00:06:10.157 --> 00:06:13.957
我们可以开始思考如何
创造更具有包容性的代码

00:06:13.957 --> 00:06:16.891
并且运用有包容性的编程实践

00:06:16.891 --> 00:06:19.184
这真的要从人开始

00:06:19.708 --> 00:06:21.699
由谁来编程很重要

00:06:21.699 --> 00:06:25.902
我们组建的全光谱团队中
是否包括各种各样的个体

00:06:25.902 --> 00:06:28.287
他们可以弥补彼此的盲区吗

00:06:28.287 --> 00:06:31.831
在技术层面上
我们如何编程很重要

00:06:31.840 --> 00:06:35.571
我们在研发系统的同时
有没有也考虑到公平的因素

00:06:35.571 --> 00:06:38.428
最后一点 我们为什么编程也很重要

00:06:38.785 --> 00:06:43.852
我们用计算机创建的工具
创造了巨大的财富

00:06:43.852 --> 00:06:48.303
现在我们有机会去
创造进一步的平等

00:06:48.303 --> 00:06:51.343
我们应该优先考虑社会变革

00:06:51.343 --> 00:06:53.487
而不是想着事后优化

00:06:54.008 --> 00:06:58.524
所以这三个宗旨
将构成“译码”运动

00:06:58.524 --> 00:06:59.876
由谁来编程很重要

00:07:00.110 --> 00:07:01.603
我们如何编程很重要

00:07:01.797 --> 00:07:03.560
以及我们为什么编程很重要

NOTE Paragraph

00:07:03.764 --> 00:07:06.797
所以就译码来说
我们可以开始考虑

00:07:06.797 --> 00:07:10.181
建立一个我们可以辨识偏见的平台

00:07:10.181 --> 00:07:13.207
通过收集人们与我类似的经历

00:07:13.207 --> 00:07:16.311
不过也要审查现有的软件

00:07:16.311 --> 00:07:20.110
我们也可以创造一些
更有包容性的训练集

00:07:20.110 --> 00:07:23.033
想象一个为了包容性的自拍运动

00:07:23.033 --> 00:07:26.356
在那里 你和我可以帮助
程序员测试以及创造

00:07:26.356 --> 00:07:28.739
更具包容性的训练集

00:07:29.302 --> 00:07:32.180
我们还可以开始更认真地思考

00:07:32.180 --> 00:07:37.509
关于正在发展的科技
造成的社会影响

NOTE Paragraph

00:07:37.509 --> 00:07:40.046
为了开启译码运动

00:07:40.046 --> 00:07:42.827
我发起了算法正义联盟

00:07:42.827 --> 00:07:48.713
在那里任何关心公平的人
可以出力来对抗 代码的凝视

00:07:48.713 --> 00:07:52.033
在codedgaze.com网站
你可以举报偏见

00:07:52.033 --> 00:07:54.502
请求审核 成为测试者

00:07:54.502 --> 00:07:57.297
以及加入正在进行的谈话

00:07:57.297 --> 00:07:59.624
标签就是 代码的凝视

NOTE Paragraph

00:08:00.742 --> 00:08:03.203
我在此邀请各位加入我

00:08:03.203 --> 00:08:06.946
去创造一个让科技为我们
所有人服务的世界

00:08:06.946 --> 00:08:08.993
而不是只服务于部分人

00:08:08.993 --> 00:08:13.499
一个我们珍惜包容和
聚焦社会变革的世界

NOTE Paragraph

00:08:13.499 --> 00:08:14.648
谢谢

NOTE Paragraph

00:08:14.648 --> 00:08:18.999
（掌声）

NOTE Paragraph

00:08:20.873 --> 00:08:23.797
不过我还有一个问题

00:08:23.797 --> 00:08:25.860
你会与我并肩战斗吗

NOTE Paragraph

00:08:25.860 --> 00:08:27.239
（笑声）

NOTE Paragraph

00:08:27.239 --> 00:08:29.650
（掌声）