WEBVTT 00:00:13.961 --> 00:00:17.095 大家好,我是乔,一位编码诗人, 00:00:17.119 --> 00:00:22.112 正致力阻止一股正崛起的未知力量, 00:00:22.136 --> 00:00:24.992 我称这种力量为“代码凝视”, 00:00:25.016 --> 00:00:28.325 也是我给“算法偏见”起的别名。 NOTE Paragraph 00:00:28.349 --> 00:00:32.649 算法偏见与人类的偏见一样, 都会产生不公。 00:00:32.673 --> 00:00:38.623 但是,算法就像病毒一样, 会使偏见大规模的传播 00:00:38.623 --> 00:00:40.863 且速度特别快。 00:00:40.863 --> 00:00:44.426 算法偏见也会导致排斥现象 00:00:44.426 --> 00:00:47.426 以及差别对待。 00:00:47.426 --> 00:00:49.487 让我向你展示一下: NOTE Paragraph 00:00:49.580 --> 00:00:50.682 (视频) 00:00:50.682 --> 00:00:53.242 Joy: 你好,镜头! 我的脸在这儿。 00:00:53.242 --> 00:00:55.107 你能识别我的脸吗? 00:00:55.131 --> 00:00:56.756 摘掉眼镜呢? 00:00:58.461 --> 00:01:00.207 你可以识别她的脸。 00:01:01.084 --> 00:01:02.691 但我的脸呢? 00:01:05.584 --> 00:01:06.764 (笑声) 00:01:07.078 --> 00:01:10.657 我带上了面具, 你能识别我的面具吗? NOTE Paragraph 00:01:11.914 --> 00:01:14.279 这到底是怎么一回事? 00:01:14.303 --> 00:01:17.444 为什么我要坐在电脑面前 00:01:17.468 --> 00:01:18.892 戴着白色面具, 00:01:18.916 --> 00:01:22.566 试着让一台廉价的网络摄像机识别我呢? 00:01:22.590 --> 00:01:26.449 当我不作为编码诗人 与代码凝视作斗争时, 00:01:26.449 --> 00:01:29.721 我是MIT媒体实验室的一个研究生, 00:01:29.745 --> 00:01:34.662 我有机会参加各种异想天开的项目, 00:01:34.686 --> 00:01:36.713 包括 Aspire Mirror, 00:01:36.737 --> 00:01:41.871 它是我做的一个项目, 可以将数码面具投射在我的映像上。 00:01:41.895 --> 00:01:44.245 在早晨,如果我想感受充满力量的感觉, 00:01:44.269 --> 00:01:45.703 我可以带上一个狮子面具。 00:01:45.727 --> 00:01:49.223 如果我想给自己打打气, 屏幕上会显示一句名言。 00:01:49.247 --> 00:01:52.236 我使用了通用面部识别软件 00:01:52.260 --> 00:01:53.611 来建立这个系统, 00:01:53.635 --> 00:01:59.412 但是我发现它真的很难测试, 除非我戴一个白色面具。 NOTE Paragraph 00:01:59.722 --> 00:02:04.068 不幸的是, 之前我也遇到过类似的问题。 00:02:04.092 --> 00:02:08.435 当我还是个本科生时, 在佐治亚理工大学学习计算机科学, 00:02:08.459 --> 00:02:10.514 我曾研究社交机器人, 00:02:10.538 --> 00:02:14.315 我的任务之一是和机器人玩躲猫猫, 00:02:14.339 --> 00:02:16.272 一个简单的轮次游戏 00:02:16.296 --> 00:02:20.617 参与者需要先遮住自己的脸, 然后喊“躲猫猫!”露出脸。 00:02:20.741 --> 00:02:25.170 问题是,如果看不见对方 这个游戏就玩不成了。 00:02:25.194 --> 00:02:27.693 我的机器人看不见我。 00:02:27.717 --> 00:02:31.667 但我借用室友的脸完成了这个项目, 00:02:31.691 --> 00:02:33.071 提交了功课, 00:02:33.095 --> 00:02:36.848 想着,总有别人会解决这个问题的。 NOTE Paragraph 00:02:37.499 --> 00:02:39.502 不久之后, 00:02:39.526 --> 00:02:43.685 我在香港参加一个创业竞赛。 00:02:44.169 --> 00:02:46.283 主办方决定带领所有参赛者 00:02:46.283 --> 00:02:49.283 去参观当地的初创企业。 00:02:49.283 --> 00:02:52.022 其中一个有一个社交机器人, 00:02:52.022 --> 00:02:53.934 他们决定做一个演示。 00:02:53.958 --> 00:02:56.938 机器识别了每个人的脸, 终于轮到我了, 00:02:56.962 --> 00:02:58.885 也许你们可以猜到。 00:02:58.909 --> 00:03:01.874 它不能识别我的脸。 00:03:01.898 --> 00:03:04.409 我问开发者到底是怎么回事, 00:03:04.433 --> 00:03:09.966 发现我们用的是 一样的通用面部识别软件。 00:03:09.990 --> 00:03:11.640 绕了半个世界, 00:03:11.664 --> 00:03:14.216 我明白了算法偏见的传播速度 00:03:14.216 --> 00:03:18.710 与从网络下载文件一样快。 NOTE Paragraph 00:03:19.575 --> 00:03:22.651 那到底发生了什么呢? 为什么我的脸不能被识别呢? 00:03:22.675 --> 00:03:26.031 我们必须看看人们 是怎么给机器设置视觉。 00:03:26.055 --> 00:03:29.464 计算机视觉利用机器学习 00:03:29.488 --> 00:03:31.368 来识别人脸。 00:03:31.392 --> 00:03:35.289 你需要创造一个人脸样本训练集。 00:03:35.313 --> 00:03:38.131 这是一张脸。这也是一张脸。 这不是一张脸。 00:03:38.155 --> 00:03:42.674 通过长时间的训练, 你可以教计算机如何识别人脸。 00:03:42.698 --> 00:03:46.687 但是,如果训练集中的脸没有多样化, 00:03:46.711 --> 00:03:50.060 一张与所建范围内的样本 有所不同的脸 00:03:50.084 --> 00:03:51.733 将很难被识别。 00:03:51.757 --> 00:03:53.720 这就是发生在我身上的事情。 NOTE Paragraph 00:03:53.744 --> 00:03:56.126 不用担心,还有一些好消息。 00:03:56.150 --> 00:03:58.921 训练集不是凭空而有的, 00:03:58.945 --> 00:04:00.733 我们可以创造它们。 00:04:00.757 --> 00:04:04.933 所以,我们有机会 去创造一个全面完善的训练集, 00:04:04.957 --> 00:04:08.781 来反应更丰富的人物肖像。 NOTE Paragraph 00:04:08.805 --> 00:04:11.026 你们已经看到了我的例子: 00:04:11.050 --> 00:04:12.818 我是如何通过社交机器人 00:04:12.842 --> 00:04:17.453 发现算法偏见产生排斥现象。 00:04:17.477 --> 00:04:22.292 算法偏见也会导致差别对待。 00:04:23.267 --> 00:04:24.720 在美国, 00:04:24.744 --> 00:04:28.942 警察机关正在使用人脸识别软件 00:04:28.966 --> 00:04:31.425 来打击犯罪。 00:04:31.449 --> 00:04:33.462 乔治敦法学院发表了一份报告: 00:04:33.486 --> 00:04:40.249 美国成年人,大约一亿一千七百万人, 00:04:40.273 --> 00:04:43.807 其中的二分之一的人的脸 在于人脸识别网络中。 00:04:43.831 --> 00:04:48.383 警察机关可以不受约束得 使用这些网络, 00:04:48.407 --> 00:04:52.693 使用尚未被审查过准确性的算法。 00:04:52.717 --> 00:04:56.581 然而,人脸识别并非万无一失, 00:04:56.605 --> 00:05:00.784 准确标明人脸仍旧是个挑战。 00:05:00.808 --> 00:05:02.570 你可能在Facebook上见过这个 00:05:02.594 --> 00:05:05.582 我和我的朋友总是觉得好笑: 当我们看见其他人名 00:05:05.606 --> 00:05:08.064 被错误标识在我们的照片中。 00:05:08.088 --> 00:05:13.679 但是错误识别一个嫌疑犯 可不是闹着玩的事, 00:05:13.703 --> 00:05:16.530 侵犯公民自由也并非儿戏。 NOTE Paragraph 00:05:16.554 --> 00:05:19.759 机器学习正被用于面部识别, 00:05:19.783 --> 00:05:24.288 也被用于计算机视觉之外的领域。 00:05:25.096 --> 00:05:29.112 在《数学毁灭性武器》一书中 (Weapons of Math Destruction") 00:05:29.136 --> 00:05:35.817 作者兼数据科学家Cathy O'Neil 谈论到崛起的数学毁灭性武器—— 00:05:35.841 --> 00:05:40.194 既神秘又具有破坏性的算法 被广泛使用, 00:05:40.218 --> 00:05:43.182 人们越来越依靠它们来做出决定 00:05:43.206 --> 00:05:46.383 影响我们生活的各个方面。 00:05:46.407 --> 00:05:48.277 谁将被雇用或解雇呢? 00:05:48.301 --> 00:05:50.413 你能拿到那笔借贷? 你上的了保险了吗? 00:05:50.437 --> 00:05:53.940 你被心仪的大学录取了吗? 00:05:53.964 --> 00:05:57.473 你我在同一购物平台上 购买的同一产品 00:05:57.497 --> 00:05:59.939 价格是否一样呢? NOTE Paragraph 00:05:59.963 --> 00:06:03.722 执法部门也正开始使用机器学习 00:06:03.746 --> 00:06:06.035 用于预测警务。 00:06:06.059 --> 00:06:09.553 一些法官使用机器生成的 风险分数来判定 00:06:09.577 --> 00:06:13.979 犯人会在监狱里待多久。 00:06:14.003 --> 00:06:16.457 我们必须再三思考这些决策。 00:06:16.481 --> 00:06:17.663 他们真的公平吗? 00:06:17.687 --> 00:06:20.577 正如我们所见那样, 00:06:20.601 --> 00:06:23.975 算法偏见不总能得出公平的结果。 NOTE Paragraph 00:06:23.999 --> 00:06:25.963 那我们可以做些什么呢? 00:06:25.987 --> 00:06:29.667 我们可以开始思考 如何创造更具包容性的代码 00:06:29.691 --> 00:06:32.681 并且采用具有包容性的代码实践。 00:06:32.705 --> 00:06:35.014 编码由人而起。 00:06:35.538 --> 00:06:37.499 谁编写项目代码非常重要。 00:06:37.523 --> 00:06:41.642 我们有与不同的人一起 组建多样性的团队, 00:06:41.666 --> 00:06:44.077 相互检查出对方的盲点吗? 00:06:44.101 --> 00:06:47.646 在技术方面,如何编写代码也非常重要。 00:06:47.670 --> 00:06:51.321 我们在开发系统时是否考虑到了公平性? 00:06:51.345 --> 00:06:54.258 最后,我们编程的原因也很重要。 00:06:54.615 --> 00:06:59.698 我们已使用计算机工具 解锁了巨大财富。 00:06:59.722 --> 00:07:04.169 现在,我们有机会用它 来实现更好的平等, 00:07:04.193 --> 00:07:07.123 前提是,优先考虑社会变革 00:07:07.147 --> 00:07:09.317 而非在事后想到。 00:07:09.838 --> 00:07:14.360 这些也是“译码运动” 的三条准则: (Incoding Movement) 00:07:14.384 --> 00:07:16.036 谁编写代码很重要。 00:07:16.060 --> 00:07:17.603 如何编写项目代码很重要。 00:07:17.627 --> 00:07:19.650 为什么要编写项目代码也很重要。 NOTE Paragraph 00:07:19.674 --> 00:07:22.773 在”译码运动“中,我们可以开始思考 00:07:22.797 --> 00:07:25.961 如何建立能够识别偏见的平台, 00:07:25.985 --> 00:07:29.063 通过收集人们的经历 例如我之前所提到的, 00:07:29.087 --> 00:07:32.157 我们也需要审查现有软件。 00:07:32.181 --> 00:07:35.946 我们也可以开始创造 更具包容性的训练集。 00:07:35.970 --> 00:07:38.773 想象一个”全民自拍“活动 00:07:38.797 --> 00:07:42.192 你我的加入可以帮助开发者 测试和创建 00:07:42.192 --> 00:07:44.569 更具包容性的训练集。 00:07:45.132 --> 00:07:47.960 我们也可以开始从道德上思考 00:07:47.984 --> 00:07:53.375 我们发展的科技的社会影响。 NOTE Paragraph 00:07:53.399 --> 00:07:55.792 为了开展“译码运动”, 00:07:55.816 --> 00:07:58.663 我推出了“算法正义联盟” 00:07:58.687 --> 00:08:04.559 任何一个关心平等的人 都可以帮助打击“代码凝视”。 00:08:04.583 --> 00:08:07.879 在codedgaze.com, 你可以举报算法偏见、 00:08:07.903 --> 00:08:10.348 请求审核、 成为一名测试者、 00:08:10.372 --> 00:08:13.143 参与话题讨论: 00:08:13.167 --> 00:08:15.454 #代码凝视。 NOTE Paragraph 00:08:16.572 --> 00:08:19.059 我邀请您与我一起 00:08:19.083 --> 00:08:22.802 创造一个科技服务全民的世界, 00:08:22.826 --> 00:08:24.723 不仅仅是部分人, 00:08:24.747 --> 00:08:29.395 一个重视包容和社会变革的世界。 NOTE Paragraph 00:08:29.419 --> 00:08:30.594 谢谢。 NOTE Paragraph 00:08:30.618 --> 00:08:35.912 (掌声) NOTE Paragraph 00:08:41.435 --> 00:08:44.649 最后,我有个问题: 00:08:44.649 --> 00:08:47.218 你是否会和我一同战斗? NOTE Paragraph 00:08:47.558 --> 00:08:48.843 (笑声) NOTE Paragraph 00:08:48.843 --> 00:08:50.750 (掌声)