1 00:00:01,041 --> 00:00:04,235 大家好 我是乔伊 一位写代码的诗人 2 00:00:04,235 --> 00:00:09,166 我正努力阻止一股 逐渐凸显的无形力量 3 00:00:09,166 --> 00:00:12,056 一种我称为 代码的凝视 的力量 4 00:00:12,056 --> 00:00:15,135 这是我用来定义算法偏见的术语 5 00:00:15,429 --> 00:00:19,489 正如人类之间的偏见 算法偏见也会导致不公平 6 00:00:19,633 --> 00:00:25,809 然而算法就像病毒一样 会以飞快的速度大范围地 7 00:00:25,809 --> 00:00:27,381 扩散偏见 8 00:00:27,943 --> 00:00:32,344 算法也将会导致排他的经历和 9 00:00:32,344 --> 00:00:34,232 歧视性的做法 10 00:00:34,436 --> 00:00:36,177 给大家举个例子 11 00:00:36,980 --> 00:00:39,336 (录像)乔伊·博拉维尼: 嘿 摄像头 我来了 12 00:00:40,162 --> 00:00:41,656 你可以看到我的脸吗 13 00:00:42,051 --> 00:00:43,661 没有戴眼镜的脸呢 14 00:00:43,661 --> 00:00:45,475 你可以看到她的脸 15 00:00:46,237 --> 00:00:47,802 那么我的脸呢 16 00:00:51,890 --> 00:00:55,230 我戴上了一个面罩 你可以看到我的面罩吗 17 00:00:56,474 --> 00:00:58,773 乔伊·博拉维尼: 这是怎么回事呢 18 00:00:58,773 --> 00:01:01,988 为什么我坐在一台电脑前 19 00:01:01,988 --> 00:01:03,632 戴着一个白色的面罩 20 00:01:03,632 --> 00:01:06,826 尝试着被一个廉价的 网络摄像头检测到 21 00:01:07,150 --> 00:01:09,611 当我的身份不是写代码的诗人 22 00:01:09,611 --> 00:01:11,045 与 代码的凝视 较劲的时候 23 00:01:11,045 --> 00:01:14,275 我是MIT媒体实验室的 一位硕士生 24 00:01:14,275 --> 00:01:19,262 在那里我有机会参与 各种不同的项目 25 00:01:19,262 --> 00:01:21,303 包括激励镜子 26 00:01:21,303 --> 00:01:26,405 一个可以将数字面罩 投射在我的映像上的项目 27 00:01:26,405 --> 00:01:28,749 在早上的时候 如果我想充满力量 28 00:01:28,749 --> 00:01:30,237 我可以放上一个狮子的图像 29 00:01:30,237 --> 00:01:33,757 如果我想要感到积极向上 我也许就会放上一句格言 30 00:01:33,757 --> 00:01:36,810 我使用通用的人脸识别软件 31 00:01:36,810 --> 00:01:38,115 来搭建系统 32 00:01:38,115 --> 00:01:43,352 但是我发现除非我戴上白色的面罩 否则测试很难成功 33 00:01:44,282 --> 00:01:48,622 遗憾的是 我以前 也曾遇到过这种问题 34 00:01:48,622 --> 00:01:52,939 当我在佐治亚理工学院 读计算机科学专业本科的时候 35 00:01:52,939 --> 00:01:55,124 我曾经在一个 社交机器人上进行实验 36 00:01:55,124 --> 00:01:58,819 我的任务之一是 让机器人玩躲猫猫 37 00:01:58,819 --> 00:02:00,592 一个简单的轮换游戏 38 00:02:00,592 --> 00:02:04,871 在游戏中玩伴盖住他们的脸 然后掀开说“躲猫猫!“ 39 00:02:04,871 --> 00:02:09,334 问题是躲猫猫在我不能 看见你的时候不起作用 40 00:02:09,334 --> 00:02:11,827 而我的机器人看不见我 41 00:02:11,827 --> 00:02:15,811 我只好借了我室友的脸 去完成这个项目 42 00:02:15,811 --> 00:02:17,205 递交了作业 43 00:02:17,205 --> 00:02:21,018 寻思着总会有人 来解决这个问题的把 44 00:02:21,669 --> 00:02:23,656 不久之后 45 00:02:23,656 --> 00:02:27,855 我在香港参加一次创业比赛 46 00:02:28,339 --> 00:02:31,073 组织者决定将各位参与者 47 00:02:31,073 --> 00:02:33,413 带到当地的初创企业参观 48 00:02:33,413 --> 00:02:36,162 其中一个创业公司 有一个社交机器人 49 00:02:36,162 --> 00:02:38,088 他们决定进行一个项目演示 50 00:02:38,088 --> 00:02:41,092 这个项目演示对除我之外的 每个人都有效果 51 00:02:41,092 --> 00:02:43,039 你恐怕可以猜到 52 00:02:43,039 --> 00:02:46,028 它不能检测到我的脸 53 00:02:46,028 --> 00:02:48,463 我问开发师到底发生了什么 54 00:02:48,463 --> 00:02:54,136 结果是我们使用了同一款 通用面部识别软件 55 00:02:54,140 --> 00:02:55,794 在地球的另一边 56 00:02:55,794 --> 00:02:59,660 我意识到算法偏见 传播得如此之快 57 00:02:59,660 --> 00:03:02,880 只需要从互联网上 下载一些文件 58 00:03:03,745 --> 00:03:06,821 那么到底发生了什么 为什么我的脸没有被检测到 59 00:03:06,825 --> 00:03:10,241 我们需要了解我们 如何教会机器识别 60 00:03:10,241 --> 00:03:13,618 计算机视觉使用机器学习技术 61 00:03:13,618 --> 00:03:15,588 来进行面部识别 62 00:03:15,588 --> 00:03:19,479 所以你要用一系列脸的样本 创建一个训练体系 63 00:03:19,483 --> 00:03:22,275 这是一张脸 这是一张脸 而这不是一张脸 64 00:03:22,275 --> 00:03:26,838 慢慢地你可以教电脑 如何识别其它的脸 65 00:03:26,838 --> 00:03:30,897 然而如果这个训练集 不是那么的多样化 66 00:03:30,897 --> 00:03:34,204 那些与已建立的标准 偏差较多的脸 67 00:03:34,204 --> 00:03:35,973 将会难以被检测到 68 00:03:35,973 --> 00:03:37,884 而这正是我遭遇的问题 69 00:03:37,884 --> 00:03:40,280 不过别担心 我们还有好消息 70 00:03:40,280 --> 00:03:43,085 训练集并不是凭空产生的 71 00:03:43,085 --> 00:03:44,887 实际上我们可以创造它们 72 00:03:44,887 --> 00:03:49,087 现在就有机会去创造 全波段光谱的训练集 73 00:03:49,087 --> 00:03:52,951 可以反映更加饱满的人类面貌 74 00:03:52,955 --> 00:03:55,190 现在你看到了在我的例子中 75 00:03:55,190 --> 00:03:57,177 社交机器人 76 00:03:57,177 --> 00:04:01,647 使我发现了算法偏见的排他性 77 00:04:01,647 --> 00:04:06,462 不过算法偏见还会导致 各种歧视性的做法 78 00:04:07,437 --> 00:04:09,060 美国境内的警察局 79 00:04:09,060 --> 00:04:13,050 在打击犯罪的过程中 80 00:04:13,050 --> 00:04:15,232 开始使用面部识别软件 81 00:04:15,619 --> 00:04:17,732 乔治敦大学法学院 发表了一个报告 82 00:04:17,732 --> 00:04:24,543 表明在全美两个成年人中就有一个 也就是近1.2亿的人口 83 00:04:24,543 --> 00:04:27,971 他们的面部信息 被储存在了面部识别网络中 84 00:04:27,971 --> 00:04:32,547 警察局如今可以访问 这些未被规范的 85 00:04:32,547 --> 00:04:36,923 使用着未审核准确性的 算法的面部识别网络 86 00:04:36,923 --> 00:04:40,821 然而我们知道面部识别 并非万无一失 87 00:04:40,821 --> 00:04:44,938 而持续地给面部标签 还是很有挑战性的 88 00:04:44,938 --> 00:04:46,584 你也许在Facebook上见过这个 89 00:04:46,584 --> 00:04:49,792 当我和我的朋友看到其他人 在我们的照片上被错误标注时 90 00:04:49,792 --> 00:04:52,208 都会捧腹大笑 91 00:04:52,208 --> 00:04:57,843 但是误认一个犯罪嫌疑人 可不是闹着玩儿的 92 00:04:57,843 --> 00:05:00,684 对公民自由的侵犯也不容忽视 93 00:05:00,684 --> 00:05:03,883 机器学习正被用于面部识别 94 00:05:03,883 --> 00:05:08,458 但也延伸到了计算机视觉领域之外 95 00:05:09,266 --> 00:05:13,266 在数据科学家凯西·欧奈尔在她 《数学杀伤性武器》一书中 96 00:05:13,266 --> 00:05:19,941 叙述了逐渐严重的 新型大规模杀伤性武器 97 00:05:19,941 --> 00:05:24,348 即 广泛应用而又神秘的 具有破坏性的算法 98 00:05:24,348 --> 00:05:27,402 正在被越来越多地 运用于决策制定上 99 00:05:27,402 --> 00:05:30,663 而这些决策影响着 我们生活的方方面面 100 00:05:30,663 --> 00:05:32,537 谁被录用 又有谁被解雇 101 00:05:32,537 --> 00:05:34,347 你得到了贷款吗 你买到了保险吗 102 00:05:34,347 --> 00:05:38,110 你被心目中的理想大学录取了吗 103 00:05:38,124 --> 00:05:41,617 在同一平台上的同一件产品 104 00:05:41,617 --> 00:05:44,073 你和我是否支付同样的价格 105 00:05:44,073 --> 00:05:47,776 为了实现警情预测 执法机构也开始 106 00:05:47,776 --> 00:05:50,169 使用起机器学习 107 00:05:50,169 --> 00:05:53,943 一些法官使用机器生成的 危险评分来决定 108 00:05:53,943 --> 00:05:58,083 囚犯要在监狱里呆多久 109 00:05:58,083 --> 00:06:00,591 我们真的应该 仔细思考这些决定 110 00:06:00,591 --> 00:06:01,787 它们公平吗 111 00:06:01,787 --> 00:06:04,867 我们已经清楚了 算法偏见 112 00:06:04,867 --> 00:06:08,109 不一定总能带来公平的结果 113 00:06:08,109 --> 00:06:09,683 那我们应该怎么做呢 114 00:06:10,157 --> 00:06:13,957 我们可以开始思考如何 创造更具有包容性的代码 115 00:06:13,957 --> 00:06:16,891 并且运用有包容性的编程实践 116 00:06:16,891 --> 00:06:19,184 这真的要从人开始 117 00:06:19,708 --> 00:06:21,699 由谁来编程很重要 118 00:06:21,699 --> 00:06:25,902 我们组建的全光谱团队中 是否包括各种各样的个体 119 00:06:25,902 --> 00:06:28,287 他们可以弥补彼此的盲区吗 120 00:06:28,287 --> 00:06:31,831 在技术层面上 我们如何编程很重要 121 00:06:31,840 --> 00:06:35,571 我们在研发系统的同时 有没有也考虑到公平的因素 122 00:06:35,571 --> 00:06:38,428 最后一点 我们为什么编程也很重要 123 00:06:38,785 --> 00:06:43,852 我们用计算机创建的工具 创造了巨大的财富 124 00:06:43,852 --> 00:06:48,303 现在我们有机会去 创造进一步的平等 125 00:06:48,303 --> 00:06:51,343 我们应该优先考虑社会变革 126 00:06:51,343 --> 00:06:53,487 而不是想着事后优化 127 00:06:54,008 --> 00:06:58,524 所以这三个宗旨 将构成“译码”运动 128 00:06:58,524 --> 00:06:59,876 由谁来编程很重要 129 00:07:00,110 --> 00:07:01,603 我们如何编程很重要 130 00:07:01,797 --> 00:07:03,560 以及我们为什么编程很重要 131 00:07:03,764 --> 00:07:06,797 所以就译码来说 我们可以开始考虑 132 00:07:06,797 --> 00:07:10,181 建立一个我们可以辨识偏见的平台 133 00:07:10,181 --> 00:07:13,207 通过收集人们与我类似的经历 134 00:07:13,207 --> 00:07:16,311 不过也要审查现有的软件 135 00:07:16,311 --> 00:07:20,110 我们也可以创造一些 更有包容性的训练集 136 00:07:20,110 --> 00:07:23,033 想象一个为了包容性的自拍运动 137 00:07:23,033 --> 00:07:26,356 在那里 你和我可以帮助 程序员测试以及创造 138 00:07:26,356 --> 00:07:28,739 更具包容性的训练集 139 00:07:29,302 --> 00:07:32,180 我们还可以开始更认真地思考 140 00:07:32,180 --> 00:07:37,509 关于正在发展的科技 造成的社会影响 141 00:07:37,509 --> 00:07:40,046 为了开启译码运动 142 00:07:40,046 --> 00:07:42,827 我发起了算法正义联盟 143 00:07:42,827 --> 00:07:48,713 在那里任何关心公平的人 可以出力来对抗 代码的凝视 144 00:07:48,713 --> 00:07:52,033 在codedgaze.com网站 你可以举报偏见 145 00:07:52,033 --> 00:07:54,502 请求审核 成为测试者 146 00:07:54,502 --> 00:07:57,297 以及加入正在进行的谈话 147 00:07:57,297 --> 00:07:59,624 标签就是 代码的凝视 148 00:08:00,742 --> 00:08:03,203 我在此邀请各位加入我 149 00:08:03,203 --> 00:08:06,946 去创造一个让科技为我们 所有人服务的世界 150 00:08:06,946 --> 00:08:08,993 而不是只服务于部分人 151 00:08:08,993 --> 00:08:13,499 一个我们珍惜包容和 聚焦社会变革的世界 152 00:08:13,499 --> 00:08:14,648 谢谢 153 00:08:14,648 --> 00:08:18,999 (掌声) 154 00:08:20,873 --> 00:08:23,797 不过我还有一个问题 155 00:08:23,797 --> 00:08:25,860 你会与我并肩战斗吗 156 00:08:25,860 --> 00:08:27,239 (笑声) 157 00:08:27,239 --> 00:08:29,650 (掌声)