WEBVTT

00:00:00.975 --> 00:00:02.571
演算法無所不在。

00:00:04.111 --> 00:00:07.236
它們能把贏家和輸家區分開來。

00:00:08.019 --> 00:00:10.283
贏家能得到工作，

00:00:10.307 --> 00:00:12.050
或是好的信用卡方案。

00:00:12.074 --> 00:00:14.725
輸家連面試的機會都沒有，

00:00:15.590 --> 00:00:17.367
或是他們的保險費比較高。

00:00:18.197 --> 00:00:21.746
我們都被我們不了解的
秘密方程式在評分，

00:00:22.675 --> 00:00:25.892
且那些方程式通常
都沒有申訴體制。

00:00:27.240 --> 00:00:28.536
問題就來了：

00:00:28.560 --> 00:00:31.473
如果演算法是錯的怎麼辦？

NOTE Paragraph

00:00:33.100 --> 00:00:35.140
要建立一個演算法，需要兩樣東西：

00:00:35.164 --> 00:00:37.145
需要資料，資料是過去發生的事，

00:00:37.169 --> 00:00:38.730
還需要對成功的定義，

00:00:38.754 --> 00:00:41.211
也就是你在找的東西、
你想要的東西。

00:00:41.235 --> 00:00:46.272
你透過尋找和計算的方式
來訓練一個演算法。

00:00:46.296 --> 00:00:49.715
演算法會算出什麼和成功有相關性。

00:00:49.739 --> 00:00:52.202
什麼樣的情況會導致成功？

NOTE Paragraph

00:00:52.881 --> 00:00:54.643
其實，人人都在用演算法。

00:00:54.667 --> 00:00:57.385
他們只是沒把演算法寫為程式。

00:00:57.409 --> 00:00:58.757
讓我舉個例子。

00:00:58.781 --> 00:01:02.097
我每天都用演算法
來為我的家庭做飯。

00:01:02.121 --> 00:01:03.597
我用的資料

00:01:04.394 --> 00:01:06.053
是我廚房中的原料、

00:01:06.077 --> 00:01:07.604
我擁有的時間、

00:01:07.628 --> 00:01:08.861
我的野心、

00:01:08.885 --> 00:01:10.594
我把這些資料拿來做策劃。

00:01:10.618 --> 00:01:14.869
我不把那一小包小包的
拉麵條視為是食物。

NOTE Paragraph

00:01:14.893 --> 00:01:16.762
（笑聲）

NOTE Paragraph

00:01:16.786 --> 00:01:18.631
我對成功的定義是：

00:01:18.655 --> 00:01:21.314
如果我的孩子吃了蔬菜，
這頓飯就算成功。

00:01:22.181 --> 00:01:25.035
但如果我的小兒子主導時
一切就不同了。

00:01:25.059 --> 00:01:27.847
他會說，如果能吃到很多
能多益（巧克力榛果醬）就算成功。

00:01:29.179 --> 00:01:31.405
但我能選擇什麼才算成功。

00:01:31.429 --> 00:01:34.136
我是主導的人，我的意見才重要。

00:01:34.160 --> 00:01:36.835
那是演算法的第一條規則。

NOTE Paragraph

00:01:36.859 --> 00:01:40.039
演算法是被嵌入程式中的意見。

00:01:41.562 --> 00:01:45.225
這和你認為大部份人
對演算法的看法很不一樣。

00:01:45.249 --> 00:01:49.753
他們認為演算法是
客觀的、真實的、科學的。

00:01:50.387 --> 00:01:52.086
那是種行銷技倆。

00:01:53.269 --> 00:01:55.394
還有一種行銷技倆是

00:01:55.418 --> 00:01:58.572
用演算法來威脅你，

00:01:58.596 --> 00:02:02.257
讓你相信並懼怕演算法，

00:02:02.281 --> 00:02:04.299
因為你相信並懼怕數學。

00:02:05.567 --> 00:02:10.397
當我們盲目相信大數據時，
很多地方都可能出錯。

NOTE Paragraph

00:02:11.684 --> 00:02:15.057
這位是琦莉索瑞斯，
她是布魯克林的高中校長。

00:02:15.081 --> 00:02:17.667
2011 年，她告訴我，
用來評分她的老師的演算法

00:02:17.691 --> 00:02:20.418
是一種複雜的秘密演算法，

00:02:20.442 --> 00:02:21.931
叫做「加值模型」。

00:02:22.505 --> 00:02:25.597
我告訴她：「找出那方程式
是什麼，給我看，

00:02:25.621 --> 00:02:27.162
我就會解釋給你聽。」

00:02:27.186 --> 00:02:29.327
她說：「嗯，我試過取得方程式了，

00:02:29.351 --> 00:02:32.123
但教育部聯絡人告訴我，
那方程式是數學，

00:02:32.147 --> 00:02:33.693
我也看不懂的。」

NOTE Paragraph

00:02:35.266 --> 00:02:36.604
還有更糟的。

00:02:36.628 --> 00:02:40.158
紐約郵報提出了一項
資訊自由法案的請求，

00:02:40.182 --> 00:02:43.141
取得有所有老師的名字
以及他們的分數，

00:02:43.165 --> 00:02:45.947
郵報把這些都刊出來，
用來羞辱老師。

00:02:47.084 --> 00:02:50.944
當我試著透過同樣的手段
來找出方程式、原始碼，

00:02:50.968 --> 00:02:53.117
我被告知我不可能辦到。

00:02:53.141 --> 00:02:54.377
我被拒絕了。

00:02:54.401 --> 00:02:55.575
我後來發現，

00:02:55.599 --> 00:02:58.465
紐約市中沒有人能取得那方程式。

00:02:58.489 --> 00:02:59.794
沒有人了解它。

00:03:01.929 --> 00:03:05.153
有個很聰明的人介入：
蓋瑞魯賓斯坦。

00:03:05.177 --> 00:03:08.798
他發現紐約郵報資料中
有 665 名老師

00:03:08.822 --> 00:03:10.688
其實有兩個分數。

00:03:10.712 --> 00:03:12.593
如果他們是在教七年級

00:03:12.617 --> 00:03:15.056
及八年級數學，是有可能發生。

00:03:15.080 --> 00:03:16.618
他決定把他們用圖畫出來。

00:03:16.642 --> 00:03:18.635
每一個點代表一個老師。

NOTE Paragraph

00:03:19.104 --> 00:03:21.483
（笑聲）

NOTE Paragraph

00:03:21.507 --> 00:03:23.028
那是什麼？

NOTE Paragraph

00:03:23.052 --> 00:03:24.329
（笑聲）

NOTE Paragraph

00:03:24.353 --> 00:03:27.799
那絕對不該被用來做個人評估用。

00:03:27.823 --> 00:03:29.749
它幾乎就是個隨機數產生器。

NOTE Paragraph

00:03:29.773 --> 00:03:32.719
（掌聲）

NOTE Paragraph

00:03:32.743 --> 00:03:33.905
但它的確被用了。

00:03:33.929 --> 00:03:35.105
這是莎拉薇沙琪，

00:03:35.129 --> 00:03:37.304
她和其他 205 名老師都被開除了，

00:03:37.328 --> 00:03:39.990
都是在華盛頓特區的學區，

00:03:40.014 --> 00:03:42.923
即使她有校長及
學童家長的強力推薦，

00:03:42.947 --> 00:03:44.375
還是被開除了。

NOTE Paragraph

00:03:45.390 --> 00:03:47.422
我很清楚你們在想什麼，

00:03:47.446 --> 00:03:49.537
特別是這裡的資料科學家
及人工智慧專家。

00:03:49.537 --> 00:03:54.183
你們在想：「我絕對不會寫出
那麼不一致的演算法。」

00:03:54.853 --> 00:03:56.536
但演算法是可能出錯的，

00:03:56.560 --> 00:04:01.158
即使出自好意
仍可能產生毀滅性的效應。

00:04:02.531 --> 00:04:04.910
設計得很糟的飛機墜機，

00:04:04.934 --> 00:04:06.935
每個人都會看到；

00:04:06.959 --> 00:04:08.809
可是，設計很糟的演算法，

00:04:10.245 --> 00:04:14.110
可以一直運作很長的時間，
靜靜地製造破壞或混亂。

NOTE Paragraph

00:04:15.748 --> 00:04:17.318
這位是羅傑艾爾斯。

NOTE Paragraph

00:04:17.342 --> 00:04:19.342
（笑聲）

NOTE Paragraph

00:04:20.524 --> 00:04:22.912
他在 1996 年成立了 Fox News。

00:04:23.436 --> 00:04:26.017
有超過二十位女性投訴性騷擾。

00:04:26.041 --> 00:04:29.276
她們說，她們在 Fox News
不被允許成功。

00:04:29.300 --> 00:04:31.820
他去年被攆走了，但我們看到近期

00:04:31.844 --> 00:04:34.514
這個問題仍然存在。

00:04:35.654 --> 00:04:37.054
這就帶來一個問題：

00:04:37.078 --> 00:04:39.962
Fox News 該做什麼才能改過自新？

NOTE Paragraph

00:04:41.245 --> 00:04:44.286
如果他們把僱用的流程換掉，

00:04:44.310 --> 00:04:45.964
換成機器學習演算法呢？

00:04:45.988 --> 00:04:47.583
聽起來很好，對嗎？

00:04:47.607 --> 00:04:48.907
想想看。

00:04:48.931 --> 00:04:51.036
資料，資料會是什麼？

00:04:51.060 --> 00:04:56.007
一個合理的選擇會是 Fox News 
過去 21 年間收到的申請。

00:04:56.031 --> 00:04:57.533
很合理。

00:04:57.557 --> 00:04:59.495
成功的定義呢？

00:04:59.921 --> 00:05:01.245
合理的選擇會是，

00:05:01.269 --> 00:05:03.047
在 Fox News 有誰是成功的？

00:05:03.071 --> 00:05:06.651
我猜是在那邊待了四年、

00:05:06.675 --> 00:05:08.329
且至少升遷過一次的人。

00:05:08.816 --> 00:05:10.377
聽起來很合理。

00:05:10.401 --> 00:05:12.755
接著，演算法就會被訓練。

00:05:12.779 --> 00:05:16.656
它會被訓練來找人，
尋找什麼導致成功，

00:05:17.219 --> 00:05:21.537
在過去怎樣的申請書會導致成功，

00:05:21.561 --> 00:05:22.855
用剛剛的成功定義。

00:05:24.200 --> 00:05:25.975
想想看會發生什麼事，

00:05:25.999 --> 00:05:28.554
如果我們把它用到
目前的一堆申請書上。

00:05:29.119 --> 00:05:30.748
它會把女性過濾掉，

00:05:31.663 --> 00:05:35.593
因為在過去，女性
並不像是會成功的人。

NOTE Paragraph

00:05:39.752 --> 00:05:42.759
如果只是漫不經心、
盲目地運用演算法，

00:05:42.759 --> 00:05:45.007
它們並不會讓事情變公平。

00:05:45.031 --> 00:05:46.513
演算法不會讓事情變公平。

00:05:46.537 --> 00:05:48.665
它們會重覆我們過去的做法，

00:05:48.689 --> 00:05:49.872
我們的模式。

00:05:49.896 --> 00:05:51.835
它們會把現狀給自動化。

00:05:52.718 --> 00:05:55.107
如果我們有個完美的
世界，那就很好了，

00:05:55.905 --> 00:05:57.217
但世界不完美。

00:05:57.241 --> 00:06:01.343
我還要補充，大部份公司
沒有難堪的訴訟，

00:06:02.446 --> 00:06:05.034
但在那些公司中的資料科學家

00:06:05.058 --> 00:06:07.247
被告知要遵從資料，

00:06:07.271 --> 00:06:09.414
著重正確率。

00:06:10.273 --> 00:06:11.654
想想那意味著什麼。

00:06:11.678 --> 00:06:15.705
因為我們都有偏見，那就意味著，
他們可能會把性別偏見

00:06:15.729 --> 00:06:17.565
或其他偏執給寫到程式中，

NOTE Paragraph

00:06:19.488 --> 00:06:20.909
來做個思想實驗，

00:06:20.933 --> 00:06:22.442
因為我喜歡思想實驗：

00:06:23.574 --> 00:06:26.549
一個完全種族隔離的社會，

00:06:28.247 --> 00:06:31.575
所有的城鎮、所有的街坊
都做了種族隔離，

00:06:31.599 --> 00:06:34.636
我們只會針對少數種族
住的街坊派出警力

00:06:34.660 --> 00:06:35.853
來尋找犯罪。

00:06:36.451 --> 00:06:38.670
逮捕的資料會非常偏頗。

00:06:39.851 --> 00:06:42.426
如果再加上，我們
找到了資料科學家，

00:06:42.450 --> 00:06:46.611
付錢給他們，要他們預測下次
犯罪會發生在哪裡，會如何？

00:06:47.275 --> 00:06:48.762
答案：少數種族的街坊。

00:06:49.285 --> 00:06:52.410
或是去預測下一位犯人會是誰？

00:06:52.888 --> 00:06:54.283
答案：少數族裔。

00:06:55.949 --> 00:06:59.490
資料科學家會吹噓他們的的模型

00:06:59.514 --> 00:07:00.811
有多了不起、多精準，

00:07:00.835 --> 00:07:02.134
他們是對的。

NOTE Paragraph

00:07:03.951 --> 00:07:08.566
現實沒那麼極端，但在許多
城鎮和城市中，我們的確有

00:07:08.590 --> 00:07:09.877
嚴重的種族隔離，

00:07:09.901 --> 00:07:11.794
我們有很多證據可證明

00:07:11.818 --> 00:07:14.506
執法和司法資料是偏頗的。

00:07:15.632 --> 00:07:18.447
我們確實預測了熱點，

00:07:18.471 --> 00:07:20.001
犯罪會發生的地方。

00:07:20.401 --> 00:07:24.267
事實上，我們確實預測了
個別的犯罪行為，

00:07:24.291 --> 00:07:26.061
個人的犯罪行為。

00:07:26.972 --> 00:07:30.935
新聞組織 ProPublica 近期調查了

00:07:30.959 --> 00:07:32.983
「累犯風險」演算法之一，

00:07:33.007 --> 00:07:34.170
他們是這麼稱呼它的，

00:07:34.194 --> 00:07:37.388
演算法被用在佛羅里達，
法官在判刑時使用。

00:07:38.411 --> 00:07:41.996
左邊的黑人是伯納，
總分十分，他得了十分。

00:07:43.179 --> 00:07:45.186
右邊的狄倫，十分只得了三分。

00:07:45.210 --> 00:07:47.711
十分就得十分，高風險。
十分只得三分，低風險。

00:07:48.598 --> 00:07:50.983
他們都因為持有藥品而被逮捕。

00:07:51.007 --> 00:07:52.161
他們都有犯罪記錄，

00:07:52.185 --> 00:07:54.991
但狄倫犯過重罪，

00:07:55.015 --> 00:07:56.191
伯納則沒有。

00:07:57.818 --> 00:08:00.884
這很重要，因為你的得分越高，

00:08:00.908 --> 00:08:04.381
你就越可能被判比較長的徒刑。

NOTE Paragraph

00:08:06.294 --> 00:08:07.588
發生了什麼事？

00:08:08.526 --> 00:08:09.858
洗資料。

00:08:10.930 --> 00:08:15.357
它是個流程，即技術專家
用黑箱作業的演算法

00:08:15.381 --> 00:08:17.202
來隱藏醜陋的真相，

00:08:17.226 --> 00:08:18.516
還宣稱是客觀的；

00:08:19.320 --> 00:08:20.888
是精英領導的。

00:08:23.118 --> 00:08:24.857
我為這些秘密、重要、

00:08:24.857 --> 00:08:28.014
又有毀滅性的演算法取了個名字：

00:08:28.038 --> 00:08:30.037
「毀滅性的數學武器」。

NOTE Paragraph

00:08:30.061 --> 00:08:31.625
（笑聲）

NOTE Paragraph

00:08:31.649 --> 00:08:34.703
（掌聲）

NOTE Paragraph

00:08:34.727 --> 00:08:37.081
它們無所不在，且不是個過失。

00:08:37.695 --> 00:08:41.418
私人公司建立私人演算法，

00:08:41.442 --> 00:08:42.834
來達到私人的目的。

00:08:43.214 --> 00:08:46.428
即使是我剛談到
對老師和警方用的演算法，

00:08:46.452 --> 00:08:48.321
也是由私人公司建立的，

00:08:48.345 --> 00:08:50.576
然後再銷售給政府機關。

00:08:50.600 --> 00:08:52.473
他們稱它為「秘方醬料」，

00:08:52.497 --> 00:08:54.625
所以不能跟我們討論它。

00:08:54.649 --> 00:08:56.869
它也是種私人的權力。

00:08:57.924 --> 00:09:02.619
他們透過行使別人
無法理解的權威來獲利。

00:09:05.114 --> 00:09:08.048
你可能會認為，
所有這些都是私人的，

00:09:08.072 --> 00:09:09.230
且有競爭存在，

00:09:09.254 --> 00:09:11.560
也許自由市場會解決這個問題。

00:09:11.584 --> 00:09:12.833
並不會。

00:09:12.857 --> 00:09:15.977
從不公平中可以賺取很多錢。

NOTE Paragraph

00:09:17.127 --> 00:09:20.496
且，我們不是經濟合法代理人。

00:09:21.031 --> 00:09:22.323
我們都有偏見。

00:09:22.960 --> 00:09:26.337
我們都是種族主義的、偏執的，
即使我們也希望不要這樣，

00:09:26.361 --> 00:09:28.380
我們甚至不知道我們是這樣的。

00:09:29.352 --> 00:09:32.433
不過我們確實知道，總的來說，

00:09:32.457 --> 00:09:35.677
因為社會學家不斷地用
他們建立的實驗

00:09:35.701 --> 00:09:37.366
來展現出這一點，

00:09:37.390 --> 00:09:39.958
他們寄出一大堆的工作申請書，

00:09:39.982 --> 00:09:42.483
都有同樣的資格，
但有些用白人人名，

00:09:42.507 --> 00:09:44.213
有些用黑人人名，

00:09:44.237 --> 00:09:46.931
結果總是讓人失望的，總是如此。

NOTE Paragraph

00:09:47.510 --> 00:09:49.281
所以，我們才是有偏見的人，

00:09:49.305 --> 00:09:52.734
且我們把這些偏見注入演算法中，

00:09:52.758 --> 00:09:54.570
做法是選擇要收集哪些資料、

00:09:54.594 --> 00:09:57.337
比如我選擇不要考量拉麵，

00:09:57.361 --> 00:09:58.986
我決定它不重要。

00:09:59.010 --> 00:10:04.694
但透過相信這些資料
真的能了解過去的做法，

00:10:04.718 --> 00:10:06.732
以及透過選擇成功的定義，

00:10:06.756 --> 00:10:10.739
我們如何能冀望產生的演算法未受損？

00:10:10.763 --> 00:10:13.119
不能。我們得要檢查這些演算法。

00:10:14.165 --> 00:10:15.874
我們得要檢查它們是否公平。

NOTE Paragraph

00:10:15.898 --> 00:10:18.609
好消息是，我們可以
檢查它們是否公平。

00:10:18.633 --> 00:10:21.985
演算法可以被審問，

00:10:22.009 --> 00:10:24.043
且它們每次都會告訴我們真相。

00:10:24.067 --> 00:10:26.560
我們可以修正它們，
我們可以把它們變更好。

00:10:26.584 --> 00:10:28.959
我稱這個為演算法稽核，

00:10:28.983 --> 00:10:30.662
我會帶大家來了解它。

NOTE Paragraph

00:10:30.686 --> 00:10:32.882
首先，檢查資料完整性。

00:10:34.132 --> 00:10:36.789
針對我先前說的累犯風險演算法，

00:10:37.582 --> 00:10:41.155
檢查資料完整性就意味著
我們得接受事實，

00:10:41.179 --> 00:10:44.705
事實是，在美國，白人和黑人
抽大麻的比率是一樣的，

00:10:44.729 --> 00:10:47.214
但黑人被逮捕的機率遠高於白人，

00:10:47.238 --> 00:10:50.422
四、五倍高的可能性被捕，
依地區而異。

00:10:51.317 --> 00:10:54.143
在其他犯罪類別中，
那樣的偏見會如何呈現？

00:10:54.167 --> 00:10:55.618
我們要如何處理它？

NOTE Paragraph

00:10:56.162 --> 00:10:59.201
第二，我們要想想成功的定義，

00:10:59.225 --> 00:11:00.606
去稽核它。

00:11:00.630 --> 00:11:03.382
記得我們剛剛談過的僱用演算法嗎？

00:11:03.406 --> 00:11:06.571
待了四年且升遷至少一次？

00:11:06.595 --> 00:11:08.364
那就是個成功員工，

00:11:08.388 --> 00:11:11.467
但那也是個被其文化所支持的員工。

00:11:12.089 --> 00:11:14.015
儘管如此，它也可能很有偏見。

00:11:14.039 --> 00:11:16.104
我們得把這兩件事分開。

00:11:16.128 --> 00:11:18.554
我們應該要把交響樂團的盲眼甄選

00:11:18.578 --> 00:11:19.774
當作參考範例。

00:11:19.798 --> 00:11:22.554
他們的做法是讓試演奏的人
在布幕後演奏。

00:11:22.946 --> 00:11:24.877
我想探討的重點是

00:11:24.901 --> 00:11:28.318
那些在聽並且決定什麼重要的人，

00:11:28.342 --> 00:11:30.371
他們也會決定什麼不重要 ，

00:11:30.395 --> 00:11:32.454
他們不會被不重要的部份給分心。

00:11:32.961 --> 00:11:35.710
當交響樂團開始採用盲眼甄選，

00:11:35.734 --> 00:11:39.178
團內的女性成員數上升五倍。

NOTE Paragraph

00:11:40.253 --> 00:11:42.268
接著，我們要考量正確率。

00:11:43.233 --> 00:11:46.967
這就是老師的加值模型
立刻會出問題的地方。

00:11:47.578 --> 00:11:49.740
當然，沒有演算法是完美的，

00:11:50.620 --> 00:11:54.225
所以我們得要考量
每個演算法的錯誤。

00:11:54.836 --> 00:11:59.195
多常會出現錯誤、這個模型
針對哪些人會發生錯誤？

00:11:59.850 --> 00:12:01.568
發生錯誤的成本多高？

NOTE Paragraph

00:12:02.434 --> 00:12:04.641
最後，我們得要考量

00:12:05.973 --> 00:12:08.159
演算法的長期效應，

00:12:08.866 --> 00:12:11.073
也就是產生出來的反饋迴圈。

00:12:11.586 --> 00:12:12.822
那聽起來很抽象，

00:12:12.846 --> 00:12:15.510
但想像一下，如果臉書的工程師

00:12:16.270 --> 00:12:21.125
決定只讓我們看到朋友的貼文
之前就先考量那一點。

NOTE Paragraph

00:12:21.761 --> 00:12:24.995
我還有兩個訊息要傳遞，
其一是給資料科學家的。

00:12:25.450 --> 00:12:28.619
資料科學家，我們
不應該是真相的仲裁者，

00:12:29.520 --> 00:12:31.607
我們應該是翻譯者，

00:12:31.607 --> 00:12:34.621
翻譯大社會中發生的每個道德討論。

NOTE Paragraph

00:12:35.579 --> 00:12:37.712
（掌聲）

NOTE Paragraph

00:12:37.736 --> 00:12:39.292
至於你們其他人，

00:12:40.011 --> 00:12:41.407
不是資料科學家的人：

00:12:41.431 --> 00:12:42.929
這不是個數學考試。

00:12:43.632 --> 00:12:44.980
這是場政治鬥爭。

00:12:46.587 --> 00:12:50.494
我們得要求為演算法的超載負責。

NOTE Paragraph

00:12:52.118 --> 00:12:53.617
（掌聲）

NOTE Paragraph

00:12:53.641 --> 00:12:57.866
盲目信仰大數據的時代必須要結束。

NOTE Paragraph

00:12:57.890 --> 00:12:59.057
非常謝謝。

NOTE Paragraph

00:12:59.081 --> 00:13:04.384
（掌聲）