0:00:00.975,0:00:02.571 演算法無所不在。 0:00:04.111,0:00:07.236 它們能把贏家和輸家區分開來。 0:00:08.019,0:00:10.283 贏家能得到工作, 0:00:10.307,0:00:12.050 或是好的信用卡方案。 0:00:12.074,0:00:14.725 輸家連面試的機會都沒有, 0:00:15.590,0:00:17.367 或是他們的保險費比較高。 0:00:18.197,0:00:21.746 我們都被我們不了解的[br]秘密方程式在評分, 0:00:22.675,0:00:25.892 且那些方程式通常[br]都沒有申訴體制。 0:00:27.240,0:00:28.536 問題就來了: 0:00:28.560,0:00:31.473 如果演算法是錯的怎麼辦? 0:00:33.100,0:00:35.140 要建立一個演算法,需要兩樣東西: 0:00:35.164,0:00:37.145 需要資料,資料是過去發生的事, 0:00:37.169,0:00:38.730 還需要對成功的定義, 0:00:38.754,0:00:41.211 也就是你在找的東西、[br]你想要的東西。 0:00:41.235,0:00:46.272 你透過尋找和計算的方式[br]來訓練一個演算法。 0:00:46.296,0:00:49.715 演算法會算出什麼和成功有相關性。 0:00:49.739,0:00:52.202 什麼樣的情況會導致成功? 0:00:52.881,0:00:54.643 其實,人人都在用演算法。 0:00:54.667,0:00:57.385 他們只是沒把演算法寫為程式。 0:00:57.409,0:00:58.757 讓我舉個例子。 0:00:58.781,0:01:02.097 我每天都用演算法[br]來為我的家庭做飯。 0:01:02.121,0:01:03.597 我用的資料 0:01:04.394,0:01:06.053 是我廚房中的原料、 0:01:06.077,0:01:07.604 我擁有的時間、 0:01:07.628,0:01:08.861 我的野心、 0:01:08.885,0:01:10.594 我把這些資料拿來做策劃。 0:01:10.618,0:01:14.869 我不把那一小包小包的[br]拉麵條視為是食物。 0:01:14.893,0:01:16.762 (笑聲) 0:01:16.786,0:01:18.631 我對成功的定義是: 0:01:18.655,0:01:21.314 如果我的孩子吃了蔬菜,[br]這頓飯就算成功。 0:01:22.181,0:01:25.035 但如果我的小兒子主導時[br]一切就不同了。 0:01:25.059,0:01:27.847 他會說,如果能吃到很多[br]能多益(巧克力榛果醬)就算成功。 0:01:29.179,0:01:31.405 但我能選擇什麼才算成功。 0:01:31.429,0:01:34.136 我是主導的人,我的意見才重要。 0:01:34.160,0:01:36.835 那是演算法的第一條規則。 0:01:36.859,0:01:40.039 演算法是被嵌入程式中的意見。 0:01:41.562,0:01:45.225 這和你認為大部份人[br]對演算法的看法很不一樣。 0:01:45.249,0:01:49.753 他們認為演算法是[br]客觀的、真實的、科學的。 0:01:50.387,0:01:52.086 那是種行銷技倆。 0:01:53.269,0:01:55.394 還有一種行銷技倆是 0:01:55.418,0:01:58.572 用演算法來威脅你, 0:01:58.596,0:02:02.257 讓你相信並懼怕演算法, 0:02:02.281,0:02:04.299 因為你相信並懼怕數學。 0:02:05.567,0:02:10.397 當我們盲目相信大數據時,[br]很多地方都可能出錯。 0:02:11.684,0:02:15.057 這位是琦莉索瑞斯,[br]她是布魯克林的高中校長。 0:02:15.081,0:02:17.667 2011 年,她告訴我,[br]用來評分她的老師的演算法 0:02:17.691,0:02:20.418 是一種複雜的秘密演算法, 0:02:20.442,0:02:21.931 叫做「加值模型」。 0:02:22.505,0:02:25.597 我告訴她:「找出那方程式[br]是什麼,給我看, 0:02:25.621,0:02:27.162 我就會解釋給你聽。」 0:02:27.186,0:02:29.327 她說:「嗯,我試過取得方程式了, 0:02:29.351,0:02:32.123 但教育部聯絡人告訴我,[br]那方程式是數學, 0:02:32.147,0:02:33.693 我也看不懂的。」 0:02:35.266,0:02:36.604 還有更糟的。 0:02:36.628,0:02:40.158 紐約郵報提出了一項[br]資訊自由法案的請求, 0:02:40.182,0:02:43.141 取得有所有老師的名字[br]以及他們的分數, 0:02:43.165,0:02:45.947 郵報把這些都刊出來,[br]用來羞辱老師。 0:02:47.084,0:02:50.944 當我試著透過同樣的手段[br]來找出方程式、原始碼, 0:02:50.968,0:02:53.117 我被告知我不可能辦到。 0:02:53.141,0:02:54.377 我被拒絕了。 0:02:54.401,0:02:55.575 我後來發現, 0:02:55.599,0:02:58.465 紐約市中沒有人能取得那方程式。 0:02:58.489,0:02:59.794 沒有人了解它。 0:03:01.929,0:03:05.153 有個很聰明的人介入:[br]蓋瑞魯賓斯坦。 0:03:05.177,0:03:08.798 他發現紐約郵報資料中[br]有 665 名老師 0:03:08.822,0:03:10.688 其實有兩個分數。 0:03:10.712,0:03:12.593 如果他們是在教七年級 0:03:12.617,0:03:15.056 及八年級數學,是有可能發生。 0:03:15.080,0:03:16.618 他決定把他們用圖畫出來。 0:03:16.642,0:03:18.635 每一個點代表一個老師。 0:03:19.104,0:03:21.483 (笑聲) 0:03:21.507,0:03:23.028 那是什麼? 0:03:23.052,0:03:24.329 (笑聲) 0:03:24.353,0:03:27.799 那絕對不該被用來做個人評估用。 0:03:27.823,0:03:29.749 它幾乎就是個隨機數產生器。 0:03:29.773,0:03:32.719 (掌聲) 0:03:32.743,0:03:33.905 但它的確被用了。 0:03:33.929,0:03:35.105 這是莎拉薇沙琪, 0:03:35.129,0:03:37.304 她和其他 205 名老師都被開除了, 0:03:37.328,0:03:39.990 都是在華盛頓特區的學區, 0:03:40.014,0:03:42.923 即使她有校長及[br]學童家長的強力推薦, 0:03:42.947,0:03:44.375 還是被開除了。 0:03:45.390,0:03:47.422 我很清楚你們在想什麼, 0:03:47.446,0:03:49.537 特別是這裡的資料科學家[br]及人工智慧專家。 0:03:49.537,0:03:54.183 你們在想:「我絕對不會寫出[br]那麼不一致的演算法。」 0:03:54.853,0:03:56.536 但演算法是可能出錯的, 0:03:56.560,0:04:01.158 即使出自好意[br]仍可能產生毀滅性的效應。 0:04:02.531,0:04:04.910 設計得很糟的飛機墜機, 0:04:04.934,0:04:06.935 每個人都會看到; 0:04:06.959,0:04:08.809 可是,設計很糟的演算法, 0:04:10.245,0:04:14.110 可以一直運作很長的時間,[br]靜靜地製造破壞或混亂。 0:04:15.748,0:04:17.318 這位是羅傑艾爾斯。 0:04:17.342,0:04:19.342 (笑聲) 0:04:20.524,0:04:22.912 他在 1996 年成立了 Fox News。 0:04:23.436,0:04:26.017 有超過二十位女性投訴性騷擾。 0:04:26.041,0:04:29.276 她們說,她們在 Fox News[br]不被允許成功。 0:04:29.300,0:04:31.820 他去年被攆走了,但我們看到近期 0:04:31.844,0:04:34.514 這個問題仍然存在。 0:04:35.654,0:04:37.054 這就帶來一個問題: 0:04:37.078,0:04:39.962 Fox News 該做什麼才能改過自新? 0:04:41.245,0:04:44.286 如果他們把僱用的流程換掉, 0:04:44.310,0:04:45.964 換成機器學習演算法呢? 0:04:45.988,0:04:47.583 聽起來很好,對嗎? 0:04:47.607,0:04:48.907 想想看。 0:04:48.931,0:04:51.036 資料,資料會是什麼? 0:04:51.060,0:04:56.007 一個合理的選擇會是 Fox News [br]過去 21 年間收到的申請。 0:04:56.031,0:04:57.533 很合理。 0:04:57.557,0:04:59.495 成功的定義呢? 0:04:59.921,0:05:01.245 合理的選擇會是, 0:05:01.269,0:05:03.047 在 Fox News 有誰是成功的? 0:05:03.071,0:05:06.651 我猜是在那邊待了四年、 0:05:06.675,0:05:08.329 且至少升遷過一次的人。 0:05:08.816,0:05:10.377 聽起來很合理。 0:05:10.401,0:05:12.755 接著,演算法就會被訓練。 0:05:12.779,0:05:16.656 它會被訓練來找人,[br]尋找什麼導致成功, 0:05:17.219,0:05:21.537 在過去怎樣的申請書會導致成功, 0:05:21.561,0:05:22.855 用剛剛的成功定義。 0:05:24.200,0:05:25.975 想想看會發生什麼事, 0:05:25.999,0:05:28.554 如果我們把它用到[br]目前的一堆申請書上。 0:05:29.119,0:05:30.748 它會把女性過濾掉, 0:05:31.663,0:05:35.593 因為在過去,女性[br]並不像是會成功的人。 0:05:39.752,0:05:42.759 如果只是漫不經心、[br]盲目地運用演算法, 0:05:42.759,0:05:45.007 它們並不會讓事情變公平。 0:05:45.031,0:05:46.513 演算法不會讓事情變公平。 0:05:46.537,0:05:48.665 它們會重覆我們過去的做法, 0:05:48.689,0:05:49.872 我們的模式。 0:05:49.896,0:05:51.835 它們會把現狀給自動化。 0:05:52.718,0:05:55.107 如果我們有個完美的[br]世界,那就很好了, 0:05:55.905,0:05:57.217 但世界不完美。 0:05:57.241,0:06:01.343 我還要補充,大部份公司[br]沒有難堪的訴訟, 0:06:02.446,0:06:05.034 但在那些公司中的資料科學家 0:06:05.058,0:06:07.247 被告知要遵從資料, 0:06:07.271,0:06:09.414 著重正確率。 0:06:10.273,0:06:11.654 想想那意味著什麼。 0:06:11.678,0:06:15.705 因為我們都有偏見,那就意味著,[br]他們可能會把性別偏見 0:06:15.729,0:06:17.565 或其他偏執給寫到程式中, 0:06:19.488,0:06:20.909 來做個思想實驗, 0:06:20.933,0:06:22.442 因為我喜歡思想實驗: 0:06:23.574,0:06:26.549 一個完全種族隔離的社會, 0:06:28.247,0:06:31.575 所有的城鎮、所有的街坊[br]都做了種族隔離, 0:06:31.599,0:06:34.636 我們只會針對少數種族[br]住的街坊派出警力 0:06:34.660,0:06:35.853 來尋找犯罪。 0:06:36.451,0:06:38.670 逮捕的資料會非常偏頗。 0:06:39.851,0:06:42.426 如果再加上,我們[br]找到了資料科學家, 0:06:42.450,0:06:46.611 付錢給他們,要他們預測下次[br]犯罪會發生在哪裡,會如何? 0:06:47.275,0:06:48.762 答案:少數種族的街坊。 0:06:49.285,0:06:52.410 或是去預測下一位犯人會是誰? 0:06:52.888,0:06:54.283 答案:少數族裔。 0:06:55.949,0:06:59.490 資料科學家會吹噓他們的的模型 0:06:59.514,0:07:00.811 有多了不起、多精準, 0:07:00.835,0:07:02.134 他們是對的。 0:07:03.951,0:07:08.566 現實沒那麼極端,但在許多[br]城鎮和城市中,我們的確有 0:07:08.590,0:07:09.877 嚴重的種族隔離, 0:07:09.901,0:07:11.794 我們有很多證據可證明 0:07:11.818,0:07:14.506 執法和司法資料是偏頗的。 0:07:15.632,0:07:18.447 我們確實預測了熱點, 0:07:18.471,0:07:20.001 犯罪會發生的地方。 0:07:20.401,0:07:24.267 事實上,我們確實預測了[br]個別的犯罪行為, 0:07:24.291,0:07:26.061 個人的犯罪行為。 0:07:26.972,0:07:30.935 新聞組織 ProPublica 近期調查了 0:07:30.959,0:07:32.983 「累犯風險」演算法之一, 0:07:33.007,0:07:34.170 他們是這麼稱呼它的, 0:07:34.194,0:07:37.388 演算法被用在佛羅里達,[br]法官在判刑時使用。 0:07:38.411,0:07:41.996 左邊的黑人是伯納,[br]總分十分,他得了十分。 0:07:43.179,0:07:45.186 右邊的狄倫,十分只得了三分。 0:07:45.210,0:07:47.711 十分就得十分,高風險。[br]十分只得三分,低風險。 0:07:48.598,0:07:50.983 他們都因為持有藥品而被逮捕。 0:07:51.007,0:07:52.161 他們都有犯罪記錄, 0:07:52.185,0:07:54.991 但狄倫犯過重罪, 0:07:55.015,0:07:56.191 伯納則沒有。 0:07:57.818,0:08:00.884 這很重要,因為你的得分越高, 0:08:00.908,0:08:04.381 你就越可能被判比較長的徒刑。 0:08:06.294,0:08:07.588 發生了什麼事? 0:08:08.526,0:08:09.858 洗資料。 0:08:10.930,0:08:15.357 它是個流程,即技術專家[br]用黑箱作業的演算法 0:08:15.381,0:08:17.202 來隱藏醜陋的真相, 0:08:17.226,0:08:18.516 還宣稱是客觀的; 0:08:19.320,0:08:20.888 是精英領導的。 0:08:23.118,0:08:24.857 我為這些秘密、重要、 0:08:24.857,0:08:28.014 又有毀滅性的演算法取了個名字: 0:08:28.038,0:08:30.037 「毀滅性的數學武器」。 0:08:30.061,0:08:31.625 (笑聲) 0:08:31.649,0:08:34.703 (掌聲) 0:08:34.727,0:08:37.081 它們無所不在,且不是個過失。 0:08:37.695,0:08:41.418 私人公司建立私人演算法, 0:08:41.442,0:08:42.834 來達到私人的目的。 0:08:43.214,0:08:46.428 即使是我剛談到[br]對老師和警方用的演算法, 0:08:46.452,0:08:48.321 也是由私人公司建立的, 0:08:48.345,0:08:50.576 然後再銷售給政府機關。 0:08:50.600,0:08:52.473 他們稱它為「秘方醬料」, 0:08:52.497,0:08:54.625 所以不能跟我們討論它。 0:08:54.649,0:08:56.869 它也是種私人的權力。 0:08:57.924,0:09:02.619 他們透過行使別人[br]無法理解的權威來獲利。 0:09:05.114,0:09:08.048 你可能會認為,[br]所有這些都是私人的, 0:09:08.072,0:09:09.230 且有競爭存在, 0:09:09.254,0:09:11.560 也許自由市場會解決這個問題。 0:09:11.584,0:09:12.833 並不會。 0:09:12.857,0:09:15.977 從不公平中可以賺取很多錢。 0:09:17.127,0:09:20.496 且,我們不是經濟合法代理人。 0:09:21.031,0:09:22.323 我們都有偏見。 0:09:22.960,0:09:26.337 我們都是種族主義的、偏執的,[br]即使我們也希望不要這樣, 0:09:26.361,0:09:28.380 我們甚至不知道我們是這樣的。 0:09:29.352,0:09:32.433 不過我們確實知道,總的來說, 0:09:32.457,0:09:35.677 因為社會學家不斷地用[br]他們建立的實驗 0:09:35.701,0:09:37.366 來展現出這一點, 0:09:37.390,0:09:39.958 他們寄出一大堆的工作申請書, 0:09:39.982,0:09:42.483 都有同樣的資格,[br]但有些用白人人名, 0:09:42.507,0:09:44.213 有些用黑人人名, 0:09:44.237,0:09:46.931 結果總是讓人失望的,總是如此。 0:09:47.510,0:09:49.281 所以,我們才是有偏見的人, 0:09:49.305,0:09:52.734 且我們把這些偏見注入演算法中, 0:09:52.758,0:09:54.570 做法是選擇要收集哪些資料、 0:09:54.594,0:09:57.337 比如我選擇不要考量拉麵, 0:09:57.361,0:09:58.986 我決定它不重要。 0:09:59.010,0:10:04.694 但透過相信這些資料[br]真的能了解過去的做法, 0:10:04.718,0:10:06.732 以及透過選擇成功的定義, 0:10:06.756,0:10:10.739 我們如何能冀望產生的演算法未受損? 0:10:10.763,0:10:13.119 不能。我們得要檢查這些演算法。 0:10:14.165,0:10:15.874 我們得要檢查它們是否公平。 0:10:15.898,0:10:18.609 好消息是,我們可以[br]檢查它們是否公平。 0:10:18.633,0:10:21.985 演算法可以被審問, 0:10:22.009,0:10:24.043 且它們每次都會告訴我們真相。 0:10:24.067,0:10:26.560 我們可以修正它們,[br]我們可以把它們變更好。 0:10:26.584,0:10:28.959 我稱這個為演算法稽核, 0:10:28.983,0:10:30.662 我會帶大家來了解它。 0:10:30.686,0:10:32.882 首先,檢查資料完整性。 0:10:34.132,0:10:36.789 針對我先前說的累犯風險演算法, 0:10:37.582,0:10:41.155 檢查資料完整性就意味著[br]我們得接受事實, 0:10:41.179,0:10:44.705 事實是,在美國,白人和黑人[br]抽大麻的比率是一樣的, 0:10:44.729,0:10:47.214 但黑人被逮捕的機率遠高於白人, 0:10:47.238,0:10:50.422 四、五倍高的可能性被捕,[br]依地區而異。 0:10:51.317,0:10:54.143 在其他犯罪類別中,[br]那樣的偏見會如何呈現? 0:10:54.167,0:10:55.618 我們要如何處理它? 0:10:56.162,0:10:59.201 第二,我們要想想成功的定義, 0:10:59.225,0:11:00.606 去稽核它。 0:11:00.630,0:11:03.382 記得我們剛剛談過的僱用演算法嗎? 0:11:03.406,0:11:06.571 待了四年且升遷至少一次? 0:11:06.595,0:11:08.364 那就是個成功員工, 0:11:08.388,0:11:11.467 但那也是個被其文化所支持的員工。 0:11:12.089,0:11:14.015 儘管如此,它也可能很有偏見。 0:11:14.039,0:11:16.104 我們得把這兩件事分開。 0:11:16.128,0:11:18.554 我們應該要把交響樂團的盲眼甄選 0:11:18.578,0:11:19.774 當作參考範例。 0:11:19.798,0:11:22.554 他們的做法是讓試演奏的人[br]在布幕後演奏。 0:11:22.946,0:11:24.877 我想探討的重點是 0:11:24.901,0:11:28.318 那些在聽並且決定什麼重要的人, 0:11:28.342,0:11:30.371 他們也會決定什麼不重要 , 0:11:30.395,0:11:32.454 他們不會被不重要的部份給分心。 0:11:32.961,0:11:35.710 當交響樂團開始採用盲眼甄選, 0:11:35.734,0:11:39.178 團內的女性成員數上升五倍。 0:11:40.253,0:11:42.268 接著,我們要考量正確率。 0:11:43.233,0:11:46.967 這就是老師的加值模型[br]立刻會出問題的地方。 0:11:47.578,0:11:49.740 當然,沒有演算法是完美的, 0:11:50.620,0:11:54.225 所以我們得要考量[br]每個演算法的錯誤。 0:11:54.836,0:11:59.195 多常會出現錯誤、這個模型[br]針對哪些人會發生錯誤? 0:11:59.850,0:12:01.568 發生錯誤的成本多高? 0:12:02.434,0:12:04.641 最後,我們得要考量 0:12:05.973,0:12:08.159 演算法的長期效應, 0:12:08.866,0:12:11.073 也就是產生出來的反饋迴圈。 0:12:11.586,0:12:12.822 那聽起來很抽象, 0:12:12.846,0:12:15.510 但想像一下,如果臉書的工程師 0:12:16.270,0:12:21.125 決定只讓我們看到朋友的貼文[br]之前就先考量那一點。 0:12:21.761,0:12:24.995 我還有兩個訊息要傳遞,[br]其一是給資料科學家的。 0:12:25.450,0:12:28.619 資料科學家,我們[br]不應該是真相的仲裁者, 0:12:29.520,0:12:31.607 我們應該是翻譯者, 0:12:31.607,0:12:34.621 翻譯大社會中發生的每個道德討論。 0:12:35.579,0:12:37.712 (掌聲) 0:12:37.736,0:12:39.292 至於你們其他人, 0:12:40.011,0:12:41.407 不是資料科學家的人: 0:12:41.431,0:12:42.929 這不是個數學考試。 0:12:43.632,0:12:44.980 這是場政治鬥爭。 0:12:46.587,0:12:50.494 我們得要求為演算法的超載負責。 0:12:52.118,0:12:53.617 (掌聲) 0:12:53.641,0:12:57.866 盲目信仰大數據的時代必須要結束。 0:12:57.890,0:12:59.057 非常謝謝。 0:12:59.081,0:13:04.384 (掌聲)