WEBVTT 00:00:00.975 --> 00:00:02.571 演算法無所不在。 00:00:04.111 --> 00:00:07.236 它們能把贏家和輸家區分開來。 00:00:08.019 --> 00:00:10.283 贏家能得到工作, 00:00:10.307 --> 00:00:12.050 或是好的信用卡方案。 00:00:12.074 --> 00:00:14.725 輸家連面試的機會都沒有, 00:00:15.590 --> 00:00:17.367 或是他們的保險費比較高。 00:00:18.197 --> 00:00:21.746 我們都被我們不了解的 秘密方程式在評分, 00:00:22.675 --> 00:00:25.892 且那些方程式通常 都沒有申訴體制。 00:00:27.240 --> 00:00:28.536 問題就來了: 00:00:28.560 --> 00:00:31.473 如果演算法是錯的怎麼辦? NOTE Paragraph 00:00:33.100 --> 00:00:35.140 要建立一個演算法,需要兩樣東西: 00:00:35.164 --> 00:00:37.145 需要資料,資料是過去發生的事, 00:00:37.169 --> 00:00:38.730 還需要對成功的定義, 00:00:38.754 --> 00:00:41.211 也就是你在找的東西、 你想要的東西。 00:00:41.235 --> 00:00:46.272 你透過尋找和計算的方式 來訓練一個演算法。 00:00:46.296 --> 00:00:49.715 演算法會算出什麼和成功有相關性。 00:00:49.739 --> 00:00:52.202 什麼樣的情況會導致成功? NOTE Paragraph 00:00:52.881 --> 00:00:54.643 其實,人人都在用演算法。 00:00:54.667 --> 00:00:57.385 他們只是沒把演算法寫為程式。 00:00:57.409 --> 00:00:58.757 讓我舉個例子。 00:00:58.781 --> 00:01:02.097 我每天都用演算法 來為我的家庭做飯。 00:01:02.121 --> 00:01:03.597 我用的資料 00:01:04.394 --> 00:01:06.053 是我廚房中的原料、 00:01:06.077 --> 00:01:07.604 我擁有的時間、 00:01:07.628 --> 00:01:08.861 我的野心、 00:01:08.885 --> 00:01:10.594 我把這些資料拿來做策劃。 00:01:10.618 --> 00:01:14.869 我不把那一小包小包的 拉麵條視為是食物。 NOTE Paragraph 00:01:14.893 --> 00:01:16.762 (笑聲) NOTE Paragraph 00:01:16.786 --> 00:01:18.631 我對成功的定義是: 00:01:18.655 --> 00:01:21.314 如果我的孩子吃了蔬菜, 這頓飯就算成功。 00:01:22.181 --> 00:01:25.035 但如果我的小兒子主導時 一切就不同了。 00:01:25.059 --> 00:01:27.847 他會說,如果能吃到很多 能多益(巧克力榛果醬)就算成功。 00:01:29.179 --> 00:01:31.405 但我能選擇什麼才算成功。 00:01:31.429 --> 00:01:34.136 我是主導的人,我的意見才重要。 00:01:34.160 --> 00:01:36.835 那是演算法的第一條規則。 NOTE Paragraph 00:01:36.859 --> 00:01:40.039 演算法是被嵌入程式中的意見。 00:01:41.562 --> 00:01:45.225 這和你認為大部份人 對演算法的看法很不一樣。 00:01:45.249 --> 00:01:49.753 他們認為演算法是 客觀的、真實的、科學的。 00:01:50.387 --> 00:01:52.086 那是種行銷技倆。 00:01:53.269 --> 00:01:55.394 還有一種行銷技倆是 00:01:55.418 --> 00:01:58.572 用演算法來威脅你, 00:01:58.596 --> 00:02:02.257 讓你相信並懼怕演算法, 00:02:02.281 --> 00:02:04.299 因為你相信並懼怕數學。 00:02:05.567 --> 00:02:10.397 當我們盲目相信大數據時, 很多地方都可能出錯。 NOTE Paragraph 00:02:11.684 --> 00:02:15.057 這位是琦莉索瑞斯, 她是布魯克林的高中校長。 00:02:15.081 --> 00:02:17.667 2011 年,她告訴我, 用來評分她的老師的演算法 00:02:17.691 --> 00:02:20.418 是一種複雜的秘密演算法, 00:02:20.442 --> 00:02:21.931 叫做「加值模型」。 00:02:22.505 --> 00:02:25.597 我告訴她:「找出那方程式 是什麼,給我看, 00:02:25.621 --> 00:02:27.162 我就會解釋給你聽。」 00:02:27.186 --> 00:02:29.327 她說:「嗯,我試過取得方程式了, 00:02:29.351 --> 00:02:32.123 但教育部聯絡人告訴我, 那方程式是數學, 00:02:32.147 --> 00:02:33.693 我也看不懂的。」 NOTE Paragraph 00:02:35.266 --> 00:02:36.604 還有更糟的。 00:02:36.628 --> 00:02:40.158 紐約郵報提出了一項 資訊自由法案的請求, 00:02:40.182 --> 00:02:43.141 取得有所有老師的名字 以及他們的分數, 00:02:43.165 --> 00:02:45.947 郵報把這些都刊出來, 用來羞辱老師。 00:02:47.084 --> 00:02:50.944 當我試著透過同樣的手段 來找出方程式、原始碼, 00:02:50.968 --> 00:02:53.117 我被告知我不可能辦到。 00:02:53.141 --> 00:02:54.377 我被拒絕了。 00:02:54.401 --> 00:02:55.575 我後來發現, 00:02:55.599 --> 00:02:58.465 紐約市中沒有人能取得那方程式。 00:02:58.489 --> 00:02:59.794 沒有人了解它。 00:03:01.929 --> 00:03:05.153 有個很聰明的人介入: 蓋瑞魯賓斯坦。 00:03:05.177 --> 00:03:08.798 他發現紐約郵報資料中 有 665 名老師 00:03:08.822 --> 00:03:10.688 其實有兩個分數。 00:03:10.712 --> 00:03:12.593 如果他們是在教七年級 00:03:12.617 --> 00:03:15.056 及八年級數學,是有可能發生。 00:03:15.080 --> 00:03:16.618 他決定把他們用圖畫出來。 00:03:16.642 --> 00:03:18.635 每一個點代表一個老師。 NOTE Paragraph 00:03:19.104 --> 00:03:21.483 (笑聲) NOTE Paragraph 00:03:21.507 --> 00:03:23.028 那是什麼? NOTE Paragraph 00:03:23.052 --> 00:03:24.329 (笑聲) NOTE Paragraph 00:03:24.353 --> 00:03:27.799 那絕對不該被用來做個人評估用。 00:03:27.823 --> 00:03:29.749 它幾乎就是個隨機數產生器。 NOTE Paragraph 00:03:29.773 --> 00:03:32.719 (掌聲) NOTE Paragraph 00:03:32.743 --> 00:03:33.905 但它的確被用了。 00:03:33.929 --> 00:03:35.105 這是莎拉薇沙琪, 00:03:35.129 --> 00:03:37.304 她和其他 205 名老師都被開除了, 00:03:37.328 --> 00:03:39.990 都是在華盛頓特區的學區, 00:03:40.014 --> 00:03:42.923 即使她有校長及 學童家長的強力推薦, 00:03:42.947 --> 00:03:44.375 還是被開除了。 NOTE Paragraph 00:03:45.390 --> 00:03:47.422 我很清楚你們在想什麼, 00:03:47.446 --> 00:03:49.537 特別是這裡的資料科學家 及人工智慧專家。 00:03:49.537 --> 00:03:54.183 你們在想:「我絕對不會寫出 那麼不一致的演算法。」 00:03:54.853 --> 00:03:56.536 但演算法是可能出錯的, 00:03:56.560 --> 00:04:01.158 即使出自好意 仍可能產生毀滅性的效應。 00:04:02.531 --> 00:04:04.910 設計得很糟的飛機墜機, 00:04:04.934 --> 00:04:06.935 每個人都會看到; 00:04:06.959 --> 00:04:08.809 可是,設計很糟的演算法, 00:04:10.245 --> 00:04:14.110 可以一直運作很長的時間, 靜靜地製造破壞或混亂。 NOTE Paragraph 00:04:15.748 --> 00:04:17.318 這位是羅傑艾爾斯。 NOTE Paragraph 00:04:17.342 --> 00:04:19.342 (笑聲) NOTE Paragraph 00:04:20.524 --> 00:04:22.912 他在 1996 年成立了 Fox News。 00:04:23.436 --> 00:04:26.017 有超過二十位女性投訴性騷擾。 00:04:26.041 --> 00:04:29.276 她們說,她們在 Fox News 不被允許成功。 00:04:29.300 --> 00:04:31.820 他去年被攆走了,但我們看到近期 00:04:31.844 --> 00:04:34.514 這個問題仍然存在。 00:04:35.654 --> 00:04:37.054 這就帶來一個問題: 00:04:37.078 --> 00:04:39.962 Fox News 該做什麼才能改過自新? NOTE Paragraph 00:04:41.245 --> 00:04:44.286 如果他們把僱用的流程換掉, 00:04:44.310 --> 00:04:45.964 換成機器學習演算法呢? 00:04:45.988 --> 00:04:47.583 聽起來很好,對嗎? 00:04:47.607 --> 00:04:48.907 想想看。 00:04:48.931 --> 00:04:51.036 資料,資料會是什麼? 00:04:51.060 --> 00:04:56.007 一個合理的選擇會是 Fox News 過去 21 年間收到的申請。 00:04:56.031 --> 00:04:57.533 很合理。 00:04:57.557 --> 00:04:59.495 成功的定義呢? 00:04:59.921 --> 00:05:01.245 合理的選擇會是, 00:05:01.269 --> 00:05:03.047 在 Fox News 有誰是成功的? 00:05:03.071 --> 00:05:06.651 我猜是在那邊待了四年、 00:05:06.675 --> 00:05:08.329 且至少升遷過一次的人。 00:05:08.816 --> 00:05:10.377 聽起來很合理。 00:05:10.401 --> 00:05:12.755 接著,演算法就會被訓練。 00:05:12.779 --> 00:05:16.656 它會被訓練來找人, 尋找什麼導致成功, 00:05:17.219 --> 00:05:21.537 在過去怎樣的申請書會導致成功, 00:05:21.561 --> 00:05:22.855 用剛剛的成功定義。 00:05:24.200 --> 00:05:25.975 想想看會發生什麼事, 00:05:25.999 --> 00:05:28.554 如果我們把它用到 目前的一堆申請書上。 00:05:29.119 --> 00:05:30.748 它會把女性過濾掉, 00:05:31.663 --> 00:05:35.593 因為在過去,女性 並不像是會成功的人。 NOTE Paragraph 00:05:39.752 --> 00:05:42.759 如果只是漫不經心、 盲目地運用演算法, 00:05:42.759 --> 00:05:45.007 它們並不會讓事情變公平。 00:05:45.031 --> 00:05:46.513 演算法不會讓事情變公平。 00:05:46.537 --> 00:05:48.665 它們會重覆我們過去的做法, 00:05:48.689 --> 00:05:49.872 我們的模式。 00:05:49.896 --> 00:05:51.835 它們會把現狀給自動化。 00:05:52.718 --> 00:05:55.107 如果我們有個完美的 世界,那就很好了, 00:05:55.905 --> 00:05:57.217 但世界不完美。 00:05:57.241 --> 00:06:01.343 我還要補充,大部份公司 沒有難堪的訴訟, 00:06:02.446 --> 00:06:05.034 但在那些公司中的資料科學家 00:06:05.058 --> 00:06:07.247 被告知要遵從資料, 00:06:07.271 --> 00:06:09.414 著重正確率。 00:06:10.273 --> 00:06:11.654 想想那意味著什麼。 00:06:11.678 --> 00:06:15.705 因為我們都有偏見,那就意味著, 他們可能會把性別偏見 00:06:15.729 --> 00:06:17.565 或其他偏執給寫到程式中, NOTE Paragraph 00:06:19.488 --> 00:06:20.909 來做個思想實驗, 00:06:20.933 --> 00:06:22.442 因為我喜歡思想實驗: 00:06:23.574 --> 00:06:26.549 一個完全種族隔離的社會, 00:06:28.247 --> 00:06:31.575 所有的城鎮、所有的街坊 都做了種族隔離, 00:06:31.599 --> 00:06:34.636 我們只會針對少數種族 住的街坊派出警力 00:06:34.660 --> 00:06:35.853 來尋找犯罪。 00:06:36.451 --> 00:06:38.670 逮捕的資料會非常偏頗。 00:06:39.851 --> 00:06:42.426 如果再加上,我們 找到了資料科學家, 00:06:42.450 --> 00:06:46.611 付錢給他們,要他們預測下次 犯罪會發生在哪裡,會如何? 00:06:47.275 --> 00:06:48.762 答案:少數種族的街坊。 00:06:49.285 --> 00:06:52.410 或是去預測下一位犯人會是誰? 00:06:52.888 --> 00:06:54.283 答案:少數族裔。 00:06:55.949 --> 00:06:59.490 資料科學家會吹噓他們的的模型 00:06:59.514 --> 00:07:00.811 有多了不起、多精準, 00:07:00.835 --> 00:07:02.134 他們是對的。 NOTE Paragraph 00:07:03.951 --> 00:07:08.566 現實沒那麼極端,但在許多 城鎮和城市中,我們的確有 00:07:08.590 --> 00:07:09.877 嚴重的種族隔離, 00:07:09.901 --> 00:07:11.794 我們有很多證據可證明 00:07:11.818 --> 00:07:14.506 執法和司法資料是偏頗的。 00:07:15.632 --> 00:07:18.447 我們確實預測了熱點, 00:07:18.471 --> 00:07:20.001 犯罪會發生的地方。 00:07:20.401 --> 00:07:24.267 事實上,我們確實預測了 個別的犯罪行為, 00:07:24.291 --> 00:07:26.061 個人的犯罪行為。 00:07:26.972 --> 00:07:30.935 新聞組織 ProPublica 近期調查了 00:07:30.959 --> 00:07:32.983 「累犯風險」演算法之一, 00:07:33.007 --> 00:07:34.170 他們是這麼稱呼它的, 00:07:34.194 --> 00:07:37.388 演算法被用在佛羅里達, 法官在判刑時使用。 00:07:38.411 --> 00:07:41.996 左邊的黑人是伯納, 總分十分,他得了十分。 00:07:43.179 --> 00:07:45.186 右邊的狄倫,十分只得了三分。 00:07:45.210 --> 00:07:47.711 十分就得十分,高風險。 十分只得三分,低風險。 00:07:48.598 --> 00:07:50.983 他們都因為持有藥品而被逮捕。 00:07:51.007 --> 00:07:52.161 他們都有犯罪記錄, 00:07:52.185 --> 00:07:54.991 但狄倫犯過重罪, 00:07:55.015 --> 00:07:56.191 伯納則沒有。 00:07:57.818 --> 00:08:00.884 這很重要,因為你的得分越高, 00:08:00.908 --> 00:08:04.381 你就越可能被判比較長的徒刑。 NOTE Paragraph 00:08:06.294 --> 00:08:07.588 發生了什麼事? 00:08:08.526 --> 00:08:09.858 洗資料。 00:08:10.930 --> 00:08:15.357 它是個流程,即技術專家 用黑箱作業的演算法 00:08:15.381 --> 00:08:17.202 來隱藏醜陋的真相, 00:08:17.226 --> 00:08:18.516 還宣稱是客觀的; 00:08:19.320 --> 00:08:20.888 是精英領導的。 00:08:23.118 --> 00:08:24.857 我為這些秘密、重要、 00:08:24.857 --> 00:08:28.014 又有毀滅性的演算法取了個名字: 00:08:28.038 --> 00:08:30.037 「毀滅性的數學武器」。 NOTE Paragraph 00:08:30.061 --> 00:08:31.625 (笑聲) NOTE Paragraph 00:08:31.649 --> 00:08:34.703 (掌聲) NOTE Paragraph 00:08:34.727 --> 00:08:37.081 它們無所不在,且不是個過失。 00:08:37.695 --> 00:08:41.418 私人公司建立私人演算法, 00:08:41.442 --> 00:08:42.834 來達到私人的目的。 00:08:43.214 --> 00:08:46.428 即使是我剛談到 對老師和警方用的演算法, 00:08:46.452 --> 00:08:48.321 也是由私人公司建立的, 00:08:48.345 --> 00:08:50.576 然後再銷售給政府機關。 00:08:50.600 --> 00:08:52.473 他們稱它為「秘方醬料」, 00:08:52.497 --> 00:08:54.625 所以不能跟我們討論它。 00:08:54.649 --> 00:08:56.869 它也是種私人的權力。 00:08:57.924 --> 00:09:02.619 他們透過行使別人 無法理解的權威來獲利。 00:09:05.114 --> 00:09:08.048 你可能會認為, 所有這些都是私人的, 00:09:08.072 --> 00:09:09.230 且有競爭存在, 00:09:09.254 --> 00:09:11.560 也許自由市場會解決這個問題。 00:09:11.584 --> 00:09:12.833 並不會。 00:09:12.857 --> 00:09:15.977 從不公平中可以賺取很多錢。 NOTE Paragraph 00:09:17.127 --> 00:09:20.496 且,我們不是經濟合法代理人。 00:09:21.031 --> 00:09:22.323 我們都有偏見。 00:09:22.960 --> 00:09:26.337 我們都是種族主義的、偏執的, 即使我們也希望不要這樣, 00:09:26.361 --> 00:09:28.380 我們甚至不知道我們是這樣的。 00:09:29.352 --> 00:09:32.433 不過我們確實知道,總的來說, 00:09:32.457 --> 00:09:35.677 因為社會學家不斷地用 他們建立的實驗 00:09:35.701 --> 00:09:37.366 來展現出這一點, 00:09:37.390 --> 00:09:39.958 他們寄出一大堆的工作申請書, 00:09:39.982 --> 00:09:42.483 都有同樣的資格, 但有些用白人人名, 00:09:42.507 --> 00:09:44.213 有些用黑人人名, 00:09:44.237 --> 00:09:46.931 結果總是讓人失望的,總是如此。 NOTE Paragraph 00:09:47.510 --> 00:09:49.281 所以,我們才是有偏見的人, 00:09:49.305 --> 00:09:52.734 且我們把這些偏見注入演算法中, 00:09:52.758 --> 00:09:54.570 做法是選擇要收集哪些資料、 00:09:54.594 --> 00:09:57.337 比如我選擇不要考量拉麵, 00:09:57.361 --> 00:09:58.986 我決定它不重要。 00:09:59.010 --> 00:10:04.694 但透過相信這些資料 真的能了解過去的做法, 00:10:04.718 --> 00:10:06.732 以及透過選擇成功的定義, 00:10:06.756 --> 00:10:10.739 我們如何能冀望產生的演算法未受損? 00:10:10.763 --> 00:10:13.119 不能。我們得要檢查這些演算法。 00:10:14.165 --> 00:10:15.874 我們得要檢查它們是否公平。 NOTE Paragraph 00:10:15.898 --> 00:10:18.609 好消息是,我們可以 檢查它們是否公平。 00:10:18.633 --> 00:10:21.985 演算法可以被審問, 00:10:22.009 --> 00:10:24.043 且它們每次都會告訴我們真相。 00:10:24.067 --> 00:10:26.560 我們可以修正它們, 我們可以把它們變更好。 00:10:26.584 --> 00:10:28.959 我稱這個為演算法稽核, 00:10:28.983 --> 00:10:30.662 我會帶大家來了解它。 NOTE Paragraph 00:10:30.686 --> 00:10:32.882 首先,檢查資料完整性。 00:10:34.132 --> 00:10:36.789 針對我先前說的累犯風險演算法, 00:10:37.582 --> 00:10:41.155 檢查資料完整性就意味著 我們得接受事實, 00:10:41.179 --> 00:10:44.705 事實是,在美國,白人和黑人 抽大麻的比率是一樣的, 00:10:44.729 --> 00:10:47.214 但黑人被逮捕的機率遠高於白人, 00:10:47.238 --> 00:10:50.422 四、五倍高的可能性被捕, 依地區而異。 00:10:51.317 --> 00:10:54.143 在其他犯罪類別中, 那樣的偏見會如何呈現? 00:10:54.167 --> 00:10:55.618 我們要如何處理它? NOTE Paragraph 00:10:56.162 --> 00:10:59.201 第二,我們要想想成功的定義, 00:10:59.225 --> 00:11:00.606 去稽核它。 00:11:00.630 --> 00:11:03.382 記得我們剛剛談過的僱用演算法嗎? 00:11:03.406 --> 00:11:06.571 待了四年且升遷至少一次? 00:11:06.595 --> 00:11:08.364 那就是個成功員工, 00:11:08.388 --> 00:11:11.467 但那也是個被其文化所支持的員工。 00:11:12.089 --> 00:11:14.015 儘管如此,它也可能很有偏見。 00:11:14.039 --> 00:11:16.104 我們得把這兩件事分開。 00:11:16.128 --> 00:11:18.554 我們應該要把交響樂團的盲眼甄選 00:11:18.578 --> 00:11:19.774 當作參考範例。 00:11:19.798 --> 00:11:22.554 他們的做法是讓試演奏的人 在布幕後演奏。 00:11:22.946 --> 00:11:24.877 我想探討的重點是 00:11:24.901 --> 00:11:28.318 那些在聽並且決定什麼重要的人, 00:11:28.342 --> 00:11:30.371 他們也會決定什麼不重要 , 00:11:30.395 --> 00:11:32.454 他們不會被不重要的部份給分心。 00:11:32.961 --> 00:11:35.710 當交響樂團開始採用盲眼甄選, 00:11:35.734 --> 00:11:39.178 團內的女性成員數上升五倍。 NOTE Paragraph 00:11:40.253 --> 00:11:42.268 接著,我們要考量正確率。 00:11:43.233 --> 00:11:46.967 這就是老師的加值模型 立刻會出問題的地方。 00:11:47.578 --> 00:11:49.740 當然,沒有演算法是完美的, 00:11:50.620 --> 00:11:54.225 所以我們得要考量 每個演算法的錯誤。 00:11:54.836 --> 00:11:59.195 多常會出現錯誤、這個模型 針對哪些人會發生錯誤? 00:11:59.850 --> 00:12:01.568 發生錯誤的成本多高? NOTE Paragraph 00:12:02.434 --> 00:12:04.641 最後,我們得要考量 00:12:05.973 --> 00:12:08.159 演算法的長期效應, 00:12:08.866 --> 00:12:11.073 也就是產生出來的反饋迴圈。 00:12:11.586 --> 00:12:12.822 那聽起來很抽象, 00:12:12.846 --> 00:12:15.510 但想像一下,如果臉書的工程師 00:12:16.270 --> 00:12:21.125 決定只讓我們看到朋友的貼文 之前就先考量那一點。 NOTE Paragraph 00:12:21.761 --> 00:12:24.995 我還有兩個訊息要傳遞, 其一是給資料科學家的。 00:12:25.450 --> 00:12:28.619 資料科學家,我們 不應該是真相的仲裁者, 00:12:29.520 --> 00:12:31.607 我們應該是翻譯者, 00:12:31.607 --> 00:12:34.621 翻譯大社會中發生的每個道德討論。 NOTE Paragraph 00:12:35.579 --> 00:12:37.712 (掌聲) NOTE Paragraph 00:12:37.736 --> 00:12:39.292 至於你們其他人, 00:12:40.011 --> 00:12:41.407 不是資料科學家的人: 00:12:41.431 --> 00:12:42.929 這不是個數學考試。 00:12:43.632 --> 00:12:44.980 這是場政治鬥爭。 00:12:46.587 --> 00:12:50.494 我們得要求為演算法的超載負責。 NOTE Paragraph 00:12:52.118 --> 00:12:53.617 (掌聲) NOTE Paragraph 00:12:53.641 --> 00:12:57.866 盲目信仰大數據的時代必須要結束。 NOTE Paragraph 00:12:57.890 --> 00:12:59.057 非常謝謝。 NOTE Paragraph 00:12:59.081 --> 00:13:04.384 (掌聲)