0:00:00.975,0:00:02.571
演算法無所不在。

0:00:04.111,0:00:07.236
它們能把贏家和輸家區分開來。

0:00:08.019,0:00:10.283
贏家能得到工作，

0:00:10.307,0:00:12.050
或是好的信用卡方案。

0:00:12.074,0:00:14.725
輸家連面試的機會都沒有，

0:00:15.590,0:00:17.367
或是他們的保險費比較高。

0:00:18.197,0:00:21.746
我們都被我們不了解的[br]秘密方程式在評分，

0:00:22.675,0:00:25.892
且那些方程式通常[br]都沒有申訴體制。

0:00:27.240,0:00:28.536
問題就來了：

0:00:28.560,0:00:31.473
如果演算法是錯的怎麼辦？

0:00:33.100,0:00:35.140
要建立一個演算法，需要兩樣東西：

0:00:35.164,0:00:37.145
需要資料，資料是過去發生的事，

0:00:37.169,0:00:38.730
還需要對成功的定義，

0:00:38.754,0:00:41.211
也就是你在找的東西、[br]你想要的東西。

0:00:41.235,0:00:46.272
你透過尋找和計算的方式[br]來訓練一個演算法。

0:00:46.296,0:00:49.715
演算法會算出什麼和成功有相關性。

0:00:49.739,0:00:52.202
什麼樣的情況會導致成功？

0:00:52.881,0:00:54.643
其實，人人都在用演算法。

0:00:54.667,0:00:57.385
他們只是沒把演算法寫為程式。

0:00:57.409,0:00:58.757
讓我舉個例子。

0:00:58.781,0:01:02.097
我每天都用演算法[br]來為我的家庭做飯。

0:01:02.121,0:01:03.597
我用的資料

0:01:04.394,0:01:06.053
是我廚房中的原料、

0:01:06.077,0:01:07.604
我擁有的時間、

0:01:07.628,0:01:08.861
我的野心、

0:01:08.885,0:01:10.594
我把這些資料拿來做策劃。

0:01:10.618,0:01:14.869
我不把那一小包小包的[br]拉麵條視為是食物。

0:01:14.893,0:01:16.762
（笑聲）

0:01:16.786,0:01:18.631
我對成功的定義是：

0:01:18.655,0:01:21.314
如果我的孩子吃了蔬菜，[br]這頓飯就算成功。

0:01:22.181,0:01:25.035
但如果我的小兒子主導時[br]一切就不同了。

0:01:25.059,0:01:27.847
他會說，如果能吃到很多[br]能多益（巧克力榛果醬）就算成功。

0:01:29.179,0:01:31.405
但我能選擇什麼才算成功。

0:01:31.429,0:01:34.136
我是主導的人，我的意見才重要。

0:01:34.160,0:01:36.835
那是演算法的第一條規則。

0:01:36.859,0:01:40.039
演算法是被嵌入程式中的意見。

0:01:41.562,0:01:45.225
這和你認為大部份人[br]對演算法的看法很不一樣。

0:01:45.249,0:01:49.753
他們認為演算法是[br]客觀的、真實的、科學的。

0:01:50.387,0:01:52.086
那是種行銷技倆。

0:01:53.269,0:01:55.394
還有一種行銷技倆是

0:01:55.418,0:01:58.572
用演算法來威脅你，

0:01:58.596,0:02:02.257
讓你相信並懼怕演算法，

0:02:02.281,0:02:04.299
因為你相信並懼怕數學。

0:02:05.567,0:02:10.397
當我們盲目相信大數據時，[br]很多地方都可能出錯。

0:02:11.684,0:02:15.057
這位是琦莉索瑞斯，[br]她是布魯克林的高中校長。

0:02:15.081,0:02:17.667
2011 年，她告訴我，[br]用來評分她的老師的演算法

0:02:17.691,0:02:20.418
是一種複雜的秘密演算法，

0:02:20.442,0:02:21.931
叫做「加值模型」。

0:02:22.505,0:02:25.597
我告訴她：「找出那方程式[br]是什麼，給我看，

0:02:25.621,0:02:27.162
我就會解釋給你聽。」

0:02:27.186,0:02:29.327
她說：「嗯，我試過取得方程式了，

0:02:29.351,0:02:32.123
但教育部聯絡人告訴我，[br]那方程式是數學，

0:02:32.147,0:02:33.693
我也看不懂的。」

0:02:35.266,0:02:36.604
還有更糟的。

0:02:36.628,0:02:40.158
紐約郵報提出了一項[br]資訊自由法案的請求，

0:02:40.182,0:02:43.141
取得有所有老師的名字[br]以及他們的分數，

0:02:43.165,0:02:45.947
郵報把這些都刊出來，[br]用來羞辱老師。

0:02:47.084,0:02:50.944
當我試著透過同樣的手段[br]來找出方程式、原始碼，

0:02:50.968,0:02:53.117
我被告知我不可能辦到。

0:02:53.141,0:02:54.377
我被拒絕了。

0:02:54.401,0:02:55.575
我後來發現，

0:02:55.599,0:02:58.465
紐約市中沒有人能取得那方程式。

0:02:58.489,0:02:59.794
沒有人了解它。

0:03:01.929,0:03:05.153
有個很聰明的人介入：[br]蓋瑞魯賓斯坦。

0:03:05.177,0:03:08.798
他發現紐約郵報資料中[br]有 665 名老師

0:03:08.822,0:03:10.688
其實有兩個分數。

0:03:10.712,0:03:12.593
如果他們是在教七年級

0:03:12.617,0:03:15.056
及八年級數學，是有可能發生。

0:03:15.080,0:03:16.618
他決定把他們用圖畫出來。

0:03:16.642,0:03:18.635
每一個點代表一個老師。

0:03:19.104,0:03:21.483
（笑聲）

0:03:21.507,0:03:23.028
那是什麼？

0:03:23.052,0:03:24.329
（笑聲）

0:03:24.353,0:03:27.799
那絕對不該被用來做個人評估用。

0:03:27.823,0:03:29.749
它幾乎就是個隨機數產生器。

0:03:29.773,0:03:32.719
（掌聲）

0:03:32.743,0:03:33.905
但它的確被用了。

0:03:33.929,0:03:35.105
這是莎拉薇沙琪，

0:03:35.129,0:03:37.304
她和其他 205 名老師都被開除了，

0:03:37.328,0:03:39.990
都是在華盛頓特區的學區，

0:03:40.014,0:03:42.923
即使她有校長及[br]學童家長的強力推薦，

0:03:42.947,0:03:44.375
還是被開除了。

0:03:45.390,0:03:47.422
我很清楚你們在想什麼，

0:03:47.446,0:03:49.537
特別是這裡的資料科學家[br]及人工智慧專家。

0:03:49.537,0:03:54.183
你們在想：「我絕對不會寫出[br]那麼不一致的演算法。」

0:03:54.853,0:03:56.536
但演算法是可能出錯的，

0:03:56.560,0:04:01.158
即使出自好意[br]仍可能產生毀滅性的效應。

0:04:02.531,0:04:04.910
設計得很糟的飛機墜機，

0:04:04.934,0:04:06.935
每個人都會看到；

0:04:06.959,0:04:08.809
可是，設計很糟的演算法，

0:04:10.245,0:04:14.110
可以一直運作很長的時間，[br]靜靜地製造破壞或混亂。

0:04:15.748,0:04:17.318
這位是羅傑艾爾斯。

0:04:17.342,0:04:19.342
（笑聲）

0:04:20.524,0:04:22.912
他在 1996 年成立了 Fox News。

0:04:23.436,0:04:26.017
有超過二十位女性投訴性騷擾。

0:04:26.041,0:04:29.276
她們說，她們在 Fox News[br]不被允許成功。

0:04:29.300,0:04:31.820
他去年被攆走了，但我們看到近期

0:04:31.844,0:04:34.514
這個問題仍然存在。

0:04:35.654,0:04:37.054
這就帶來一個問題：

0:04:37.078,0:04:39.962
Fox News 該做什麼才能改過自新？

0:04:41.245,0:04:44.286
如果他們把僱用的流程換掉，

0:04:44.310,0:04:45.964
換成機器學習演算法呢？

0:04:45.988,0:04:47.583
聽起來很好，對嗎？

0:04:47.607,0:04:48.907
想想看。

0:04:48.931,0:04:51.036
資料，資料會是什麼？

0:04:51.060,0:04:56.007
一個合理的選擇會是 Fox News [br]過去 21 年間收到的申請。

0:04:56.031,0:04:57.533
很合理。

0:04:57.557,0:04:59.495
成功的定義呢？

0:04:59.921,0:05:01.245
合理的選擇會是，

0:05:01.269,0:05:03.047
在 Fox News 有誰是成功的？

0:05:03.071,0:05:06.651
我猜是在那邊待了四年、

0:05:06.675,0:05:08.329
且至少升遷過一次的人。

0:05:08.816,0:05:10.377
聽起來很合理。

0:05:10.401,0:05:12.755
接著，演算法就會被訓練。

0:05:12.779,0:05:16.656
它會被訓練來找人，[br]尋找什麼導致成功，

0:05:17.219,0:05:21.537
在過去怎樣的申請書會導致成功，

0:05:21.561,0:05:22.855
用剛剛的成功定義。

0:05:24.200,0:05:25.975
想想看會發生什麼事，

0:05:25.999,0:05:28.554
如果我們把它用到[br]目前的一堆申請書上。

0:05:29.119,0:05:30.748
它會把女性過濾掉，

0:05:31.663,0:05:35.593
因為在過去，女性[br]並不像是會成功的人。

0:05:39.752,0:05:42.759
如果只是漫不經心、[br]盲目地運用演算法，

0:05:42.759,0:05:45.007
它們並不會讓事情變公平。

0:05:45.031,0:05:46.513
演算法不會讓事情變公平。

0:05:46.537,0:05:48.665
它們會重覆我們過去的做法，

0:05:48.689,0:05:49.872
我們的模式。

0:05:49.896,0:05:51.835
它們會把現狀給自動化。

0:05:52.718,0:05:55.107
如果我們有個完美的[br]世界，那就很好了，

0:05:55.905,0:05:57.217
但世界不完美。

0:05:57.241,0:06:01.343
我還要補充，大部份公司[br]沒有難堪的訴訟，

0:06:02.446,0:06:05.034
但在那些公司中的資料科學家

0:06:05.058,0:06:07.247
被告知要遵從資料，

0:06:07.271,0:06:09.414
著重正確率。

0:06:10.273,0:06:11.654
想想那意味著什麼。

0:06:11.678,0:06:15.705
因為我們都有偏見，那就意味著，[br]他們可能會把性別偏見

0:06:15.729,0:06:17.565
或其他偏執給寫到程式中，

0:06:19.488,0:06:20.909
來做個思想實驗，

0:06:20.933,0:06:22.442
因為我喜歡思想實驗：

0:06:23.574,0:06:26.549
一個完全種族隔離的社會，

0:06:28.247,0:06:31.575
所有的城鎮、所有的街坊[br]都做了種族隔離，

0:06:31.599,0:06:34.636
我們只會針對少數種族[br]住的街坊派出警力

0:06:34.660,0:06:35.853
來尋找犯罪。

0:06:36.451,0:06:38.670
逮捕的資料會非常偏頗。

0:06:39.851,0:06:42.426
如果再加上，我們[br]找到了資料科學家，

0:06:42.450,0:06:46.611
付錢給他們，要他們預測下次[br]犯罪會發生在哪裡，會如何？

0:06:47.275,0:06:48.762
答案：少數種族的街坊。

0:06:49.285,0:06:52.410
或是去預測下一位犯人會是誰？

0:06:52.888,0:06:54.283
答案：少數族裔。

0:06:55.949,0:06:59.490
資料科學家會吹噓他們的的模型

0:06:59.514,0:07:00.811
有多了不起、多精準，

0:07:00.835,0:07:02.134
他們是對的。

0:07:03.951,0:07:08.566
現實沒那麼極端，但在許多[br]城鎮和城市中，我們的確有

0:07:08.590,0:07:09.877
嚴重的種族隔離，

0:07:09.901,0:07:11.794
我們有很多證據可證明

0:07:11.818,0:07:14.506
執法和司法資料是偏頗的。

0:07:15.632,0:07:18.447
我們確實預測了熱點，

0:07:18.471,0:07:20.001
犯罪會發生的地方。

0:07:20.401,0:07:24.267
事實上，我們確實預測了[br]個別的犯罪行為，

0:07:24.291,0:07:26.061
個人的犯罪行為。

0:07:26.972,0:07:30.935
新聞組織 ProPublica 近期調查了

0:07:30.959,0:07:32.983
「累犯風險」演算法之一，

0:07:33.007,0:07:34.170
他們是這麼稱呼它的，

0:07:34.194,0:07:37.388
演算法被用在佛羅里達，[br]法官在判刑時使用。

0:07:38.411,0:07:41.996
左邊的黑人是伯納，[br]總分十分，他得了十分。

0:07:43.179,0:07:45.186
右邊的狄倫，十分只得了三分。

0:07:45.210,0:07:47.711
十分就得十分，高風險。[br]十分只得三分，低風險。

0:07:48.598,0:07:50.983
他們都因為持有藥品而被逮捕。

0:07:51.007,0:07:52.161
他們都有犯罪記錄，

0:07:52.185,0:07:54.991
但狄倫犯過重罪，

0:07:55.015,0:07:56.191
伯納則沒有。

0:07:57.818,0:08:00.884
這很重要，因為你的得分越高，

0:08:00.908,0:08:04.381
你就越可能被判比較長的徒刑。

0:08:06.294,0:08:07.588
發生了什麼事？

0:08:08.526,0:08:09.858
洗資料。

0:08:10.930,0:08:15.357
它是個流程，即技術專家[br]用黑箱作業的演算法

0:08:15.381,0:08:17.202
來隱藏醜陋的真相，

0:08:17.226,0:08:18.516
還宣稱是客觀的；

0:08:19.320,0:08:20.888
是精英領導的。

0:08:23.118,0:08:24.857
我為這些秘密、重要、

0:08:24.857,0:08:28.014
又有毀滅性的演算法取了個名字：

0:08:28.038,0:08:30.037
「毀滅性的數學武器」。

0:08:30.061,0:08:31.625
（笑聲）

0:08:31.649,0:08:34.703
（掌聲）

0:08:34.727,0:08:37.081
它們無所不在，且不是個過失。

0:08:37.695,0:08:41.418
私人公司建立私人演算法，

0:08:41.442,0:08:42.834
來達到私人的目的。

0:08:43.214,0:08:46.428
即使是我剛談到[br]對老師和警方用的演算法，

0:08:46.452,0:08:48.321
也是由私人公司建立的，

0:08:48.345,0:08:50.576
然後再銷售給政府機關。

0:08:50.600,0:08:52.473
他們稱它為「秘方醬料」，

0:08:52.497,0:08:54.625
所以不能跟我們討論它。

0:08:54.649,0:08:56.869
它也是種私人的權力。

0:08:57.924,0:09:02.619
他們透過行使別人[br]無法理解的權威來獲利。

0:09:05.114,0:09:08.048
你可能會認為，[br]所有這些都是私人的，

0:09:08.072,0:09:09.230
且有競爭存在，

0:09:09.254,0:09:11.560
也許自由市場會解決這個問題。

0:09:11.584,0:09:12.833
並不會。

0:09:12.857,0:09:15.977
從不公平中可以賺取很多錢。

0:09:17.127,0:09:20.496
且，我們不是經濟合法代理人。

0:09:21.031,0:09:22.323
我們都有偏見。

0:09:22.960,0:09:26.337
我們都是種族主義的、偏執的，[br]即使我們也希望不要這樣，

0:09:26.361,0:09:28.380
我們甚至不知道我們是這樣的。

0:09:29.352,0:09:32.433
不過我們確實知道，總的來說，

0:09:32.457,0:09:35.677
因為社會學家不斷地用[br]他們建立的實驗

0:09:35.701,0:09:37.366
來展現出這一點，

0:09:37.390,0:09:39.958
他們寄出一大堆的工作申請書，

0:09:39.982,0:09:42.483
都有同樣的資格，[br]但有些用白人人名，

0:09:42.507,0:09:44.213
有些用黑人人名，

0:09:44.237,0:09:46.931
結果總是讓人失望的，總是如此。

0:09:47.510,0:09:49.281
所以，我們才是有偏見的人，

0:09:49.305,0:09:52.734
且我們把這些偏見注入演算法中，

0:09:52.758,0:09:54.570
做法是選擇要收集哪些資料、

0:09:54.594,0:09:57.337
比如我選擇不要考量拉麵，

0:09:57.361,0:09:58.986
我決定它不重要。

0:09:59.010,0:10:04.694
但透過相信這些資料[br]真的能了解過去的做法，

0:10:04.718,0:10:06.732
以及透過選擇成功的定義，

0:10:06.756,0:10:10.739
我們如何能冀望產生的演算法未受損？

0:10:10.763,0:10:13.119
不能。我們得要檢查這些演算法。

0:10:14.165,0:10:15.874
我們得要檢查它們是否公平。

0:10:15.898,0:10:18.609
好消息是，我們可以[br]檢查它們是否公平。

0:10:18.633,0:10:21.985
演算法可以被審問，

0:10:22.009,0:10:24.043
且它們每次都會告訴我們真相。

0:10:24.067,0:10:26.560
我們可以修正它們，[br]我們可以把它們變更好。

0:10:26.584,0:10:28.959
我稱這個為演算法稽核，

0:10:28.983,0:10:30.662
我會帶大家來了解它。

0:10:30.686,0:10:32.882
首先，檢查資料完整性。

0:10:34.132,0:10:36.789
針對我先前說的累犯風險演算法，

0:10:37.582,0:10:41.155
檢查資料完整性就意味著[br]我們得接受事實，

0:10:41.179,0:10:44.705
事實是，在美國，白人和黑人[br]抽大麻的比率是一樣的，

0:10:44.729,0:10:47.214
但黑人被逮捕的機率遠高於白人，

0:10:47.238,0:10:50.422
四、五倍高的可能性被捕，[br]依地區而異。

0:10:51.317,0:10:54.143
在其他犯罪類別中，[br]那樣的偏見會如何呈現？

0:10:54.167,0:10:55.618
我們要如何處理它？

0:10:56.162,0:10:59.201
第二，我們要想想成功的定義，

0:10:59.225,0:11:00.606
去稽核它。

0:11:00.630,0:11:03.382
記得我們剛剛談過的僱用演算法嗎？

0:11:03.406,0:11:06.571
待了四年且升遷至少一次？

0:11:06.595,0:11:08.364
那就是個成功員工，

0:11:08.388,0:11:11.467
但那也是個被其文化所支持的員工。

0:11:12.089,0:11:14.015
儘管如此，它也可能很有偏見。

0:11:14.039,0:11:16.104
我們得把這兩件事分開。

0:11:16.128,0:11:18.554
我們應該要把交響樂團的盲眼甄選

0:11:18.578,0:11:19.774
當作參考範例。

0:11:19.798,0:11:22.554
他們的做法是讓試演奏的人[br]在布幕後演奏。

0:11:22.946,0:11:24.877
我想探討的重點是

0:11:24.901,0:11:28.318
那些在聽並且決定什麼重要的人，

0:11:28.342,0:11:30.371
他們也會決定什麼不重要 ，

0:11:30.395,0:11:32.454
他們不會被不重要的部份給分心。

0:11:32.961,0:11:35.710
當交響樂團開始採用盲眼甄選，

0:11:35.734,0:11:39.178
團內的女性成員數上升五倍。

0:11:40.253,0:11:42.268
接著，我們要考量正確率。

0:11:43.233,0:11:46.967
這就是老師的加值模型[br]立刻會出問題的地方。

0:11:47.578,0:11:49.740
當然，沒有演算法是完美的，

0:11:50.620,0:11:54.225
所以我們得要考量[br]每個演算法的錯誤。

0:11:54.836,0:11:59.195
多常會出現錯誤、這個模型[br]針對哪些人會發生錯誤？

0:11:59.850,0:12:01.568
發生錯誤的成本多高？

0:12:02.434,0:12:04.641
最後，我們得要考量

0:12:05.973,0:12:08.159
演算法的長期效應，

0:12:08.866,0:12:11.073
也就是產生出來的反饋迴圈。

0:12:11.586,0:12:12.822
那聽起來很抽象，

0:12:12.846,0:12:15.510
但想像一下，如果臉書的工程師

0:12:16.270,0:12:21.125
決定只讓我們看到朋友的貼文[br]之前就先考量那一點。

0:12:21.761,0:12:24.995
我還有兩個訊息要傳遞，[br]其一是給資料科學家的。

0:12:25.450,0:12:28.619
資料科學家，我們[br]不應該是真相的仲裁者，

0:12:29.520,0:12:31.607
我們應該是翻譯者，

0:12:31.607,0:12:34.621
翻譯大社會中發生的每個道德討論。

0:12:35.579,0:12:37.712
（掌聲）

0:12:37.736,0:12:39.292
至於你們其他人，

0:12:40.011,0:12:41.407
不是資料科學家的人：

0:12:41.431,0:12:42.929
這不是個數學考試。

0:12:43.632,0:12:44.980
這是場政治鬥爭。

0:12:46.587,0:12:50.494
我們得要求為演算法的超載負責。

0:12:52.118,0:12:53.617
（掌聲）

0:12:53.641,0:12:57.866
盲目信仰大數據的時代必須要結束。

0:12:57.890,0:12:59.057
非常謝謝。

0:12:59.081,0:13:04.384
（掌聲）