WEBVTT

00:00:13.961 --> 00:00:17.095
大家好，我是乔，一位编码诗人，

00:00:17.119 --> 00:00:22.112
正致力阻止一股正崛起的未知力量，

00:00:22.136 --> 00:00:24.992
我称这种力量为“代码凝视”，

00:00:25.016 --> 00:00:28.325
也是我给“算法偏见”起的别名。

NOTE Paragraph

00:00:28.349 --> 00:00:32.649
算法偏见与人类的偏见一样，
都会产生不公。

00:00:32.673 --> 00:00:38.623
但是，算法就像病毒一样，
会使偏见大规模的传播

00:00:38.623 --> 00:00:40.863
且速度特别快。

00:00:40.863 --> 00:00:44.426
算法偏见也会导致排斥现象

00:00:44.426 --> 00:00:47.426
以及差别对待。

00:00:47.426 --> 00:00:49.487
让我向你展示一下：

NOTE Paragraph

00:00:49.580 --> 00:00:50.682
（视频）

00:00:50.682 --> 00:00:53.242
Joy: 你好，镜头！
我的脸在这儿。

00:00:53.242 --> 00:00:55.107
你能识别我的脸吗？

00:00:55.131 --> 00:00:56.756
摘掉眼镜呢？

00:00:58.461 --> 00:01:00.207
你可以识别她的脸。

00:01:01.084 --> 00:01:02.691
但我的脸呢？

00:01:05.584 --> 00:01:06.764
（笑声）

00:01:07.078 --> 00:01:10.657
我带上了面具，
你能识别我的面具吗？

NOTE Paragraph

00:01:11.914 --> 00:01:14.279
这到底是怎么一回事？

00:01:14.303 --> 00:01:17.444
为什么我要坐在电脑面前

00:01:17.468 --> 00:01:18.892
戴着白色面具，

00:01:18.916 --> 00:01:22.566
试着让一台廉价的网络摄像机识别我呢？

00:01:22.590 --> 00:01:26.449
当我不作为编码诗人
与代码凝视作斗争时，

00:01:26.449 --> 00:01:29.721
我是MIT媒体实验室的一个研究生，

00:01:29.745 --> 00:01:34.662
我有机会参加各种异想天开的项目，

00:01:34.686 --> 00:01:36.713
包括 Aspire Mirror，

00:01:36.737 --> 00:01:41.871
它是我做的一个项目，
可以将数码面具投射在我的映像上。

00:01:41.895 --> 00:01:44.245
在早晨，如果我想感受充满力量的感觉，

00:01:44.269 --> 00:01:45.703
我可以带上一个狮子面具。

00:01:45.727 --> 00:01:49.223
如果我想给自己打打气，
屏幕上会显示一句名言。

00:01:49.247 --> 00:01:52.236
我使用了通用面部识别软件

00:01:52.260 --> 00:01:53.611
来建立这个系统，

00:01:53.635 --> 00:01:59.412
但是我发现它真的很难测试， 
除非我戴一个白色面具。

NOTE Paragraph

00:01:59.722 --> 00:02:04.068
不幸的是，
之前我也遇到过类似的问题。

00:02:04.092 --> 00:02:08.435
当我还是个本科生时，
在佐治亚理工大学学习计算机科学，

00:02:08.459 --> 00:02:10.514
我曾研究社交机器人，

00:02:10.538 --> 00:02:14.315
我的任务之一是和机器人玩躲猫猫，

00:02:14.339 --> 00:02:16.272
一个简单的轮次游戏

00:02:16.296 --> 00:02:20.617
参与者需要先遮住自己的脸，
然后喊“躲猫猫!”露出脸。

00:02:20.741 --> 00:02:25.170
问题是，如果看不见对方
这个游戏就玩不成了。

00:02:25.194 --> 00:02:27.693
我的机器人看不见我。

00:02:27.717 --> 00:02:31.667
但我借用室友的脸完成了这个项目，

00:02:31.691 --> 00:02:33.071
提交了功课，

00:02:33.095 --> 00:02:36.848
想着，总有别人会解决这个问题的。

NOTE Paragraph

00:02:37.499 --> 00:02:39.502
不久之后，

00:02:39.526 --> 00:02:43.685
我在香港参加一个创业竞赛。

00:02:44.169 --> 00:02:46.283
主办方决定带领所有参赛者

00:02:46.283 --> 00:02:49.283
去参观当地的初创企业。

00:02:49.283 --> 00:02:52.022
其中一个有一个社交机器人，

00:02:52.022 --> 00:02:53.934
他们决定做一个演示。

00:02:53.958 --> 00:02:56.938
机器识别了每个人的脸，
终于轮到我了，

00:02:56.962 --> 00:02:58.885
也许你们可以猜到。

00:02:58.909 --> 00:03:01.874
它不能识别我的脸。

00:03:01.898 --> 00:03:04.409
我问开发者到底是怎么回事，

00:03:04.433 --> 00:03:09.966
发现我们用的是
一样的通用面部识别软件。

00:03:09.990 --> 00:03:11.640
绕了半个世界，

00:03:11.664 --> 00:03:14.216
我明白了算法偏见的传播速度

00:03:14.216 --> 00:03:18.710
与从网络下载文件一样快。

NOTE Paragraph

00:03:19.575 --> 00:03:22.651
那到底发生了什么呢？
为什么我的脸不能被识别呢？

00:03:22.675 --> 00:03:26.031
我们必须看看人们
是怎么给机器设置视觉。

00:03:26.055 --> 00:03:29.464
计算机视觉利用机器学习

00:03:29.488 --> 00:03:31.368
来识别人脸。

00:03:31.392 --> 00:03:35.289
你需要创造一个人脸样本训练集。

00:03:35.313 --> 00:03:38.131
这是一张脸。这也是一张脸。
这不是一张脸。

00:03:38.155 --> 00:03:42.674
通过长时间的训练，
你可以教计算机如何识别人脸。

00:03:42.698 --> 00:03:46.687
但是，如果训练集中的脸没有多样化，

00:03:46.711 --> 00:03:50.060
一张与所建范围内的样本
有所不同的脸

00:03:50.084 --> 00:03:51.733
将很难被识别。

00:03:51.757 --> 00:03:53.720
这就是发生在我身上的事情。

NOTE Paragraph

00:03:53.744 --> 00:03:56.126
不用担心，还有一些好消息。

00:03:56.150 --> 00:03:58.921
训练集不是凭空而有的，

00:03:58.945 --> 00:04:00.733
我们可以创造它们。

00:04:00.757 --> 00:04:04.933
所以，我们有机会
去创造一个全面完善的训练集，

00:04:04.957 --> 00:04:08.781
来反应更丰富的人物肖像。

NOTE Paragraph

00:04:08.805 --> 00:04:11.026
你们已经看到了我的例子：

00:04:11.050 --> 00:04:12.818
我是如何通过社交机器人

00:04:12.842 --> 00:04:17.453
发现算法偏见产生排斥现象。

00:04:17.477 --> 00:04:22.292
算法偏见也会导致差别对待。

00:04:23.267 --> 00:04:24.720
在美国，

00:04:24.744 --> 00:04:28.942
警察机关正在使用人脸识别软件

00:04:28.966 --> 00:04:31.425
来打击犯罪。

00:04:31.449 --> 00:04:33.462
乔治敦法学院发表了一份报告：

00:04:33.486 --> 00:04:40.249
美国成年人，大约一亿一千七百万人，

00:04:40.273 --> 00:04:43.807
其中的二分之一的人的脸
在于人脸识别网络中。

00:04:43.831 --> 00:04:48.383
警察机关可以不受约束得
使用这些网络，

00:04:48.407 --> 00:04:52.693
使用尚未被审查过准确性的算法。

00:04:52.717 --> 00:04:56.581
然而，人脸识别并非万无一失，

00:04:56.605 --> 00:05:00.784
准确标明人脸仍旧是个挑战。

00:05:00.808 --> 00:05:02.570
你可能在Facebook上见过这个

00:05:02.594 --> 00:05:05.582
我和我的朋友总是觉得好笑：
当我们看见其他人名

00:05:05.606 --> 00:05:08.064
被错误标识在我们的照片中。

00:05:08.088 --> 00:05:13.679
但是错误识别一个嫌疑犯
可不是闹着玩的事，

00:05:13.703 --> 00:05:16.530
侵犯公民自由也并非儿戏。

NOTE Paragraph

00:05:16.554 --> 00:05:19.759
机器学习正被用于面部识别，

00:05:19.783 --> 00:05:24.288
也被用于计算机视觉之外的领域。

00:05:25.096 --> 00:05:29.112
在《数学毁灭性武器》一书中
(Weapons of Math Destruction")

00:05:29.136 --> 00:05:35.817
作者兼数据科学家Cathy O'Neil 
谈论到崛起的数学毁灭性武器——

00:05:35.841 --> 00:05:40.194
既神秘又具有破坏性的算法
被广泛使用，

00:05:40.218 --> 00:05:43.182
人们越来越依靠它们来做出决定

00:05:43.206 --> 00:05:46.383
影响我们生活的各个方面。

00:05:46.407 --> 00:05:48.277
谁将被雇用或解雇呢？

00:05:48.301 --> 00:05:50.413
你能拿到那笔借贷？
你上的了保险了吗？

00:05:50.437 --> 00:05:53.940
你被心仪的大学录取了吗？

00:05:53.964 --> 00:05:57.473
你我在同一购物平台上
购买的同一产品

00:05:57.497 --> 00:05:59.939
价格是否一样呢？

NOTE Paragraph

00:05:59.963 --> 00:06:03.722
执法部门也正开始使用机器学习

00:06:03.746 --> 00:06:06.035
用于预测警务。

00:06:06.059 --> 00:06:09.553
一些法官使用机器生成的
风险分数来判定

00:06:09.577 --> 00:06:13.979
犯人会在监狱里待多久。

00:06:14.003 --> 00:06:16.457
我们必须再三思考这些决策。

00:06:16.481 --> 00:06:17.663
他们真的公平吗？

00:06:17.687 --> 00:06:20.577
正如我们所见那样，

00:06:20.601 --> 00:06:23.975
算法偏见不总能得出公平的结果。

NOTE Paragraph

00:06:23.999 --> 00:06:25.963
那我们可以做些什么呢？

00:06:25.987 --> 00:06:29.667
我们可以开始思考
如何创造更具包容性的代码

00:06:29.691 --> 00:06:32.681
并且采用具有包容性的代码实践。

00:06:32.705 --> 00:06:35.014
编码由人而起。

00:06:35.538 --> 00:06:37.499
谁编写项目代码非常重要。

00:06:37.523 --> 00:06:41.642
我们有与不同的人一起
组建多样性的团队，

00:06:41.666 --> 00:06:44.077
相互检查出对方的盲点吗？

00:06:44.101 --> 00:06:47.646
在技术方面，如何编写代码也非常重要。

00:06:47.670 --> 00:06:51.321
我们在开发系统时是否考虑到了公平性?

00:06:51.345 --> 00:06:54.258
最后，我们编程的原因也很重要。

00:06:54.615 --> 00:06:59.698
我们已使用计算机工具
解锁了巨大财富。

00:06:59.722 --> 00:07:04.169
现在，我们有机会用它
来实现更好的平等，

00:07:04.193 --> 00:07:07.123
前提是，优先考虑社会变革

00:07:07.147 --> 00:07:09.317
而非在事后想到。

00:07:09.838 --> 00:07:14.360
这些也是“译码运动” 的三条准则：
(Incoding Movement)

00:07:14.384 --> 00:07:16.036
谁编写代码很重要。

00:07:16.060 --> 00:07:17.603
如何编写项目代码很重要。

00:07:17.627 --> 00:07:19.650
为什么要编写项目代码也很重要。

NOTE Paragraph

00:07:19.674 --> 00:07:22.773
在”译码运动“中，我们可以开始思考

00:07:22.797 --> 00:07:25.961
如何建立能够识别偏见的平台，

00:07:25.985 --> 00:07:29.063
通过收集人们的经历
例如我之前所提到的，

00:07:29.087 --> 00:07:32.157
我们也需要审查现有软件。

00:07:32.181 --> 00:07:35.946
我们也可以开始创造
更具包容性的训练集。

00:07:35.970 --> 00:07:38.773
想象一个”全民自拍“活动

00:07:38.797 --> 00:07:42.192
你我的加入可以帮助开发者
测试和创建

00:07:42.192 --> 00:07:44.569
更具包容性的训练集。

00:07:45.132 --> 00:07:47.960
我们也可以开始从道德上思考

00:07:47.984 --> 00:07:53.375
我们发展的科技的社会影响。

NOTE Paragraph

00:07:53.399 --> 00:07:55.792
为了开展“译码运动”，

00:07:55.816 --> 00:07:58.663
我推出了“算法正义联盟”

00:07:58.687 --> 00:08:04.559
任何一个关心平等的人
都可以帮助打击“代码凝视”。

00:08:04.583 --> 00:08:07.879
在codedgaze.com，
你可以举报算法偏见、

00:08:07.903 --> 00:08:10.348
请求审核、
成为一名测试者、

00:08:10.372 --> 00:08:13.143
参与话题讨论：

00:08:13.167 --> 00:08:15.454
#代码凝视。

NOTE Paragraph

00:08:16.572 --> 00:08:19.059
我邀请您与我一起

00:08:19.083 --> 00:08:22.802
创造一个科技服务全民的世界，

00:08:22.826 --> 00:08:24.723
不仅仅是部分人，

00:08:24.747 --> 00:08:29.395
一个重视包容和社会变革的世界。

NOTE Paragraph

00:08:29.419 --> 00:08:30.594
谢谢。

NOTE Paragraph

00:08:30.618 --> 00:08:35.912
（掌声）

NOTE Paragraph

00:08:41.435 --> 00:08:44.649
最后，我有个问题：

00:08:44.649 --> 00:08:47.218
你是否会和我一同战斗?

NOTE Paragraph

00:08:47.558 --> 00:08:48.843
（笑声）

NOTE Paragraph

00:08:48.843 --> 00:08:50.750
（掌声）