WEBVTT 00:00:01.041 --> 00:00:04.235 大家好 我是乔伊 一位写代码的诗人 00:00:04.235 --> 00:00:09.166 我正努力阻止一股 逐渐凸显的无形力量 00:00:09.166 --> 00:00:12.056 一种我称为 代码的凝视 的力量 00:00:12.056 --> 00:00:15.135 这是我用来定义算法偏见的术语 NOTE Paragraph 00:00:15.429 --> 00:00:19.489 正如人类之间的偏见 算法偏见也会导致不公平 00:00:19.633 --> 00:00:25.809 然而算法就像病毒一样 会以飞快的速度大范围地 00:00:25.809 --> 00:00:27.381 扩散偏见 00:00:27.943 --> 00:00:32.344 算法也将会导致排他的经历和 00:00:32.344 --> 00:00:34.232 歧视性的做法 00:00:34.436 --> 00:00:36.177 给大家举个例子 NOTE Paragraph 00:00:36.980 --> 00:00:39.336 (录像)乔伊·博拉维尼: 嘿 摄像头 我来了 00:00:40.162 --> 00:00:41.656 你可以看到我的脸吗 00:00:42.051 --> 00:00:43.661 没有戴眼镜的脸呢 00:00:43.661 --> 00:00:45.475 你可以看到她的脸 00:00:46.237 --> 00:00:47.802 那么我的脸呢 00:00:51.890 --> 00:00:55.230 我戴上了一个面罩 你可以看到我的面罩吗 NOTE Paragraph 00:00:56.474 --> 00:00:58.773 乔伊·博拉维尼: 这是怎么回事呢 00:00:58.773 --> 00:01:01.988 为什么我坐在一台电脑前 00:01:01.988 --> 00:01:03.632 戴着一个白色的面罩 00:01:03.632 --> 00:01:06.826 尝试着被一个廉价的 网络摄像头检测到 00:01:07.150 --> 00:01:09.611 当我的身份不是写代码的诗人 00:01:09.611 --> 00:01:11.045 与 代码的凝视 较劲的时候 00:01:11.045 --> 00:01:14.275 我是MIT媒体实验室的 一位硕士生 00:01:14.275 --> 00:01:19.262 在那里我有机会参与 各种不同的项目 00:01:19.262 --> 00:01:21.303 包括激励镜子 00:01:21.303 --> 00:01:26.405 一个可以将数字面罩 投射在我的映像上的项目 00:01:26.405 --> 00:01:28.749 在早上的时候 如果我想充满力量 00:01:28.749 --> 00:01:30.237 我可以放上一个狮子的图像 00:01:30.237 --> 00:01:33.757 如果我想要感到积极向上 我也许就会放上一句格言 00:01:33.757 --> 00:01:36.810 我使用通用的人脸识别软件 00:01:36.810 --> 00:01:38.115 来搭建系统 00:01:38.115 --> 00:01:43.352 但是我发现除非我戴上白色的面罩 否则测试很难成功 NOTE Paragraph 00:01:44.282 --> 00:01:48.622 遗憾的是 我以前 也曾遇到过这种问题 00:01:48.622 --> 00:01:52.939 当我在佐治亚理工学院 读计算机科学专业本科的时候 00:01:52.939 --> 00:01:55.124 我曾经在一个 社交机器人上进行实验 00:01:55.124 --> 00:01:58.819 我的任务之一是 让机器人玩躲猫猫 00:01:58.819 --> 00:02:00.592 一个简单的轮换游戏 00:02:00.592 --> 00:02:04.871 在游戏中玩伴盖住他们的脸 然后掀开说“躲猫猫!“ 00:02:04.871 --> 00:02:09.334 问题是躲猫猫在我不能 看见你的时候不起作用 00:02:09.334 --> 00:02:11.827 而我的机器人看不见我 00:02:11.827 --> 00:02:15.811 我只好借了我室友的脸 去完成这个项目 00:02:15.811 --> 00:02:17.205 递交了作业 00:02:17.205 --> 00:02:21.018 寻思着总会有人 来解决这个问题的把 NOTE Paragraph 00:02:21.669 --> 00:02:23.656 不久之后 00:02:23.656 --> 00:02:27.855 我在香港参加一次创业比赛 00:02:28.339 --> 00:02:31.073 组织者决定将各位参与者 00:02:31.073 --> 00:02:33.413 带到当地的初创企业参观 00:02:33.413 --> 00:02:36.162 其中一个创业公司 有一个社交机器人 00:02:36.162 --> 00:02:38.088 他们决定进行一个项目演示 00:02:38.088 --> 00:02:41.092 这个项目演示对除我之外的 每个人都有效果 00:02:41.092 --> 00:02:43.039 你恐怕可以猜到 00:02:43.039 --> 00:02:46.028 它不能检测到我的脸 00:02:46.028 --> 00:02:48.463 我问开发师到底发生了什么 00:02:48.463 --> 00:02:54.136 结果是我们使用了同一款 通用面部识别软件 00:02:54.140 --> 00:02:55.794 在地球的另一边 00:02:55.794 --> 00:02:59.660 我意识到算法偏见 传播得如此之快 00:02:59.660 --> 00:03:02.880 只需要从互联网上 下载一些文件 NOTE Paragraph 00:03:03.745 --> 00:03:06.821 那么到底发生了什么 为什么我的脸没有被检测到 00:03:06.825 --> 00:03:10.241 我们需要了解我们 如何教会机器识别 00:03:10.241 --> 00:03:13.618 计算机视觉使用机器学习技术 00:03:13.618 --> 00:03:15.588 来进行面部识别 00:03:15.588 --> 00:03:19.479 所以你要用一系列脸的样本 创建一个训练体系 00:03:19.483 --> 00:03:22.275 这是一张脸 这是一张脸 而这不是一张脸 00:03:22.275 --> 00:03:26.838 慢慢地你可以教电脑 如何识别其它的脸 00:03:26.838 --> 00:03:30.897 然而如果这个训练集 不是那么的多样化 00:03:30.897 --> 00:03:34.204 那些与已建立的标准 偏差较多的脸 00:03:34.204 --> 00:03:35.973 将会难以被检测到 00:03:35.973 --> 00:03:37.884 而这正是我遭遇的问题 NOTE Paragraph 00:03:37.884 --> 00:03:40.280 不过别担心 我们还有好消息 00:03:40.280 --> 00:03:43.085 训练集并不是凭空产生的 00:03:43.085 --> 00:03:44.887 实际上我们可以创造它们 00:03:44.887 --> 00:03:49.087 现在就有机会去创造 全波段光谱的训练集 00:03:49.087 --> 00:03:52.951 可以反映更加饱满的人类面貌 NOTE Paragraph 00:03:52.955 --> 00:03:55.190 现在你看到了在我的例子中 00:03:55.190 --> 00:03:57.177 社交机器人 00:03:57.177 --> 00:04:01.647 使我发现了算法偏见的排他性 00:04:01.647 --> 00:04:06.462 不过算法偏见还会导致 各种歧视性的做法 00:04:07.437 --> 00:04:09.060 美国境内的警察局 00:04:09.060 --> 00:04:13.050 在打击犯罪的过程中 00:04:13.050 --> 00:04:15.232 开始使用面部识别软件 00:04:15.619 --> 00:04:17.732 乔治敦大学法学院 发表了一个报告 00:04:17.732 --> 00:04:24.543 表明在全美两个成年人中就有一个 也就是近1.2亿的人口 00:04:24.543 --> 00:04:27.971 他们的面部信息 被储存在了面部识别网络中 00:04:27.971 --> 00:04:32.547 警察局如今可以访问 这些未被规范的 00:04:32.547 --> 00:04:36.923 使用着未审核准确性的 算法的面部识别网络 00:04:36.923 --> 00:04:40.821 然而我们知道面部识别 并非万无一失 00:04:40.821 --> 00:04:44.938 而持续地给面部标签 还是很有挑战性的 00:04:44.938 --> 00:04:46.584 你也许在Facebook上见过这个 00:04:46.584 --> 00:04:49.792 当我和我的朋友看到其他人 在我们的照片上被错误标注时 00:04:49.792 --> 00:04:52.208 都会捧腹大笑 00:04:52.208 --> 00:04:57.843 但是误认一个犯罪嫌疑人 可不是闹着玩儿的 00:04:57.843 --> 00:05:00.684 对公民自由的侵犯也不容忽视 NOTE Paragraph 00:05:00.684 --> 00:05:03.883 机器学习正被用于面部识别 00:05:03.883 --> 00:05:08.458 但也延伸到了计算机视觉领域之外 00:05:09.266 --> 00:05:13.266 在数据科学家凯西·欧奈尔在她 《数学杀伤性武器》一书中 00:05:13.266 --> 00:05:19.941 叙述了逐渐严重的 新型大规模杀伤性武器 00:05:19.941 --> 00:05:24.348 即 广泛应用而又神秘的 具有破坏性的算法 00:05:24.348 --> 00:05:27.402 正在被越来越多地 运用于决策制定上 00:05:27.402 --> 00:05:30.663 而这些决策影响着 我们生活的方方面面 00:05:30.663 --> 00:05:32.537 谁被录用 又有谁被解雇 00:05:32.537 --> 00:05:34.347 你得到了贷款吗 你买到了保险吗 00:05:34.347 --> 00:05:38.110 你被心目中的理想大学录取了吗 00:05:38.124 --> 00:05:41.617 在同一平台上的同一件产品 00:05:41.617 --> 00:05:44.073 你和我是否支付同样的价格 NOTE Paragraph 00:05:44.073 --> 00:05:47.776 为了实现警情预测 执法机构也开始 00:05:47.776 --> 00:05:50.169 使用起机器学习 00:05:50.169 --> 00:05:53.943 一些法官使用机器生成的 危险评分来决定 00:05:53.943 --> 00:05:58.083 囚犯要在监狱里呆多久 00:05:58.083 --> 00:06:00.591 我们真的应该 仔细思考这些决定 00:06:00.591 --> 00:06:01.787 它们公平吗 00:06:01.787 --> 00:06:04.867 我们已经清楚了 算法偏见 00:06:04.867 --> 00:06:08.109 不一定总能带来公平的结果 NOTE Paragraph 00:06:08.109 --> 00:06:09.683 那我们应该怎么做呢 00:06:10.157 --> 00:06:13.957 我们可以开始思考如何 创造更具有包容性的代码 00:06:13.957 --> 00:06:16.891 并且运用有包容性的编程实践 00:06:16.891 --> 00:06:19.184 这真的要从人开始 00:06:19.708 --> 00:06:21.699 由谁来编程很重要 00:06:21.699 --> 00:06:25.902 我们组建的全光谱团队中 是否包括各种各样的个体 00:06:25.902 --> 00:06:28.287 他们可以弥补彼此的盲区吗 00:06:28.287 --> 00:06:31.831 在技术层面上 我们如何编程很重要 00:06:31.840 --> 00:06:35.571 我们在研发系统的同时 有没有也考虑到公平的因素 00:06:35.571 --> 00:06:38.428 最后一点 我们为什么编程也很重要 00:06:38.785 --> 00:06:43.852 我们用计算机创建的工具 创造了巨大的财富 00:06:43.852 --> 00:06:48.303 现在我们有机会去 创造进一步的平等 00:06:48.303 --> 00:06:51.343 我们应该优先考虑社会变革 00:06:51.343 --> 00:06:53.487 而不是想着事后优化 00:06:54.008 --> 00:06:58.524 所以这三个宗旨 将构成“译码”运动 00:06:58.524 --> 00:06:59.876 由谁来编程很重要 00:07:00.110 --> 00:07:01.603 我们如何编程很重要 00:07:01.797 --> 00:07:03.560 以及我们为什么编程很重要 NOTE Paragraph 00:07:03.764 --> 00:07:06.797 所以就译码来说 我们可以开始考虑 00:07:06.797 --> 00:07:10.181 建立一个我们可以辨识偏见的平台 00:07:10.181 --> 00:07:13.207 通过收集人们与我类似的经历 00:07:13.207 --> 00:07:16.311 不过也要审查现有的软件 00:07:16.311 --> 00:07:20.110 我们也可以创造一些 更有包容性的训练集 00:07:20.110 --> 00:07:23.033 想象一个为了包容性的自拍运动 00:07:23.033 --> 00:07:26.356 在那里 你和我可以帮助 程序员测试以及创造 00:07:26.356 --> 00:07:28.739 更具包容性的训练集 00:07:29.302 --> 00:07:32.180 我们还可以开始更认真地思考 00:07:32.180 --> 00:07:37.509 关于正在发展的科技 造成的社会影响 NOTE Paragraph 00:07:37.509 --> 00:07:40.046 为了开启译码运动 00:07:40.046 --> 00:07:42.827 我发起了算法正义联盟 00:07:42.827 --> 00:07:48.713 在那里任何关心公平的人 可以出力来对抗 代码的凝视 00:07:48.713 --> 00:07:52.033 在codedgaze.com网站 你可以举报偏见 00:07:52.033 --> 00:07:54.502 请求审核 成为测试者 00:07:54.502 --> 00:07:57.297 以及加入正在进行的谈话 00:07:57.297 --> 00:07:59.624 标签就是 代码的凝视 NOTE Paragraph 00:08:00.742 --> 00:08:03.203 我在此邀请各位加入我 00:08:03.203 --> 00:08:06.946 去创造一个让科技为我们 所有人服务的世界 00:08:06.946 --> 00:08:08.993 而不是只服务于部分人 00:08:08.993 --> 00:08:13.499 一个我们珍惜包容和 聚焦社会变革的世界 NOTE Paragraph 00:08:13.499 --> 00:08:14.648 谢谢 NOTE Paragraph 00:08:14.648 --> 00:08:18.999 (掌声) NOTE Paragraph 00:08:20.873 --> 00:08:23.797 不过我还有一个问题 00:08:23.797 --> 00:08:25.860 你会与我并肩战斗吗 NOTE Paragraph 00:08:25.860 --> 00:08:27.239 (笑声) NOTE Paragraph 00:08:27.239 --> 00:08:29.650 (掌声)