盲目信仰大數據的時代必須要結束
-
0:01 - 0:03演算法無所不在。
-
0:04 - 0:07它們能把贏家和輸家區分開來。
-
0:08 - 0:10贏家能得到工作,
-
0:10 - 0:12或是好的信用卡方案。
-
0:12 - 0:15輸家連面試的機會都沒有,
-
0:16 - 0:17或是他們的保險費比較高。
-
0:18 - 0:22我們都被我們不了解的
秘密方程式在評分, -
0:23 - 0:26且那些方程式通常
都沒有申訴體制。 -
0:27 - 0:29問題就來了:
-
0:29 - 0:31如果演算法是錯的怎麼辦?
-
0:33 - 0:35要建立一個演算法,需要兩樣東西:
-
0:35 - 0:37需要資料,資料是過去發生的事,
-
0:37 - 0:39還需要對成功的定義,
-
0:39 - 0:41也就是你在找的東西、
你想要的東西。 -
0:41 - 0:46你透過尋找和計算的方式
來訓練一個演算法。 -
0:46 - 0:50演算法會算出什麼和成功有相關性。
-
0:50 - 0:52什麼樣的情況會導致成功?
-
0:53 - 0:55其實,人人都在用演算法。
-
0:55 - 0:57他們只是沒把演算法寫為程式。
-
0:57 - 0:59讓我舉個例子。
-
0:59 - 1:02我每天都用演算法
來為我的家庭做飯。 -
1:02 - 1:04我用的資料
-
1:04 - 1:06是我廚房中的原料、
-
1:06 - 1:08我擁有的時間、
-
1:08 - 1:09我的野心、
-
1:09 - 1:11我把這些資料拿來做策劃。
-
1:11 - 1:15我不把那一小包小包的
拉麵條視為是食物。 -
1:15 - 1:17(笑聲)
-
1:17 - 1:19我對成功的定義是:
-
1:19 - 1:21如果我的孩子吃了蔬菜,
這頓飯就算成功。 -
1:22 - 1:25但如果我的小兒子主導時
一切就不同了。 -
1:25 - 1:28他會說,如果能吃到很多
能多益(巧克力榛果醬)就算成功。 -
1:29 - 1:31但我能選擇什麼才算成功。
-
1:31 - 1:34我是主導的人,我的意見才重要。
-
1:34 - 1:37那是演算法的第一條規則。
-
1:37 - 1:40演算法是被嵌入程式中的意見。
-
1:42 - 1:45這和你認為大部份人
對演算法的看法很不一樣。 -
1:45 - 1:50他們認為演算法是
客觀的、真實的、科學的。 -
1:50 - 1:52那是種行銷技倆。
-
1:53 - 1:55還有一種行銷技倆是
-
1:55 - 1:59用演算法來威脅你,
-
1:59 - 2:02讓你相信並懼怕演算法,
-
2:02 - 2:04因為你相信並懼怕數學。
-
2:06 - 2:10當我們盲目相信大數據時,
很多地方都可能出錯。 -
2:12 - 2:15這位是琦莉索瑞斯,
她是布魯克林的高中校長。 -
2:15 - 2:182011 年,她告訴我,
用來評分她的老師的演算法 -
2:18 - 2:20是一種複雜的秘密演算法,
-
2:20 - 2:22叫做「加值模型」。
-
2:23 - 2:26我告訴她:「找出那方程式
是什麼,給我看, -
2:26 - 2:27我就會解釋給你聽。」
-
2:27 - 2:29她說:「嗯,我試過取得方程式了,
-
2:29 - 2:32但教育部聯絡人告訴我,
那方程式是數學, -
2:32 - 2:34我也看不懂的。」
-
2:35 - 2:37還有更糟的。
-
2:37 - 2:40紐約郵報提出了一項
資訊自由法案的請求, -
2:40 - 2:43取得有所有老師的名字
以及他們的分數, -
2:43 - 2:46郵報把這些都刊出來,
用來羞辱老師。 -
2:47 - 2:51當我試著透過同樣的手段
來找出方程式、原始碼, -
2:51 - 2:53我被告知我不可能辦到。
-
2:53 - 2:54我被拒絕了。
-
2:54 - 2:56我後來發現,
-
2:56 - 2:58紐約市中沒有人能取得那方程式。
-
2:58 - 3:00沒有人了解它。
-
3:02 - 3:05有個很聰明的人介入:
蓋瑞魯賓斯坦。 -
3:05 - 3:09他發現紐約郵報資料中
有 665 名老師 -
3:09 - 3:11其實有兩個分數。
-
3:11 - 3:13如果他們是在教七年級
-
3:13 - 3:15及八年級數學,是有可能發生。
-
3:15 - 3:17他決定把他們用圖畫出來。
-
3:17 - 3:19每一個點代表一個老師。
-
3:19 - 3:21(笑聲)
-
3:22 - 3:23那是什麼?
-
3:23 - 3:24(笑聲)
-
3:24 - 3:28那絕對不該被用來做個人評估用。
-
3:28 - 3:30它幾乎就是個隨機數產生器。
-
3:30 - 3:33(掌聲)
-
3:33 - 3:34但它的確被用了。
-
3:34 - 3:35這是莎拉薇沙琪,
-
3:35 - 3:37她和其他 205 名老師都被開除了,
-
3:37 - 3:40都是在華盛頓特區的學區,
-
3:40 - 3:43即使她有校長及
學童家長的強力推薦, -
3:43 - 3:44還是被開除了。
-
3:45 - 3:47我很清楚你們在想什麼,
-
3:47 - 3:50特別是這裡的資料科學家
及人工智慧專家。 -
3:50 - 3:54你們在想:「我絕對不會寫出
那麼不一致的演算法。」 -
3:55 - 3:57但演算法是可能出錯的,
-
3:57 - 4:01即使出自好意
仍可能產生毀滅性的效應。 -
4:03 - 4:05設計得很糟的飛機墜機,
-
4:05 - 4:07每個人都會看到;
-
4:07 - 4:09可是,設計很糟的演算法,
-
4:10 - 4:14可以一直運作很長的時間,
靜靜地製造破壞或混亂。 -
4:16 - 4:17這位是羅傑艾爾斯。
-
4:17 - 4:19(笑聲)
-
4:21 - 4:23他在 1996 年成立了 Fox News。
-
4:23 - 4:26有超過二十位女性投訴性騷擾。
-
4:26 - 4:29她們說,她們在 Fox News
不被允許成功。 -
4:29 - 4:32他去年被攆走了,但我們看到近期
-
4:32 - 4:35這個問題仍然存在。
-
4:36 - 4:37這就帶來一個問題:
-
4:37 - 4:40Fox News 該做什麼才能改過自新?
-
4:41 - 4:44如果他們把僱用的流程換掉,
-
4:44 - 4:46換成機器學習演算法呢?
-
4:46 - 4:48聽起來很好,對嗎?
-
4:48 - 4:49想想看。
-
4:49 - 4:51資料,資料會是什麼?
-
4:51 - 4:56一個合理的選擇會是 Fox News
過去 21 年間收到的申請。 -
4:56 - 4:58很合理。
-
4:58 - 4:59成功的定義呢?
-
5:00 - 5:01合理的選擇會是,
-
5:01 - 5:03在 Fox News 有誰是成功的?
-
5:03 - 5:07我猜是在那邊待了四年、
-
5:07 - 5:08且至少升遷過一次的人。
-
5:09 - 5:10聽起來很合理。
-
5:10 - 5:13接著,演算法就會被訓練。
-
5:13 - 5:17它會被訓練來找人,
尋找什麼導致成功, -
5:17 - 5:22在過去怎樣的申請書會導致成功,
-
5:22 - 5:23用剛剛的成功定義。
-
5:24 - 5:26想想看會發生什麼事,
-
5:26 - 5:29如果我們把它用到
目前的一堆申請書上。 -
5:29 - 5:31它會把女性過濾掉,
-
5:32 - 5:36因為在過去,女性
並不像是會成功的人。 -
5:40 - 5:43如果只是漫不經心、
盲目地運用演算法, -
5:43 - 5:45它們並不會讓事情變公平。
-
5:45 - 5:47演算法不會讓事情變公平。
-
5:47 - 5:49它們會重覆我們過去的做法,
-
5:49 - 5:50我們的模式。
-
5:50 - 5:52它們會把現狀給自動化。
-
5:53 - 5:55如果我們有個完美的
世界,那就很好了, -
5:56 - 5:57但世界不完美。
-
5:57 - 6:01我還要補充,大部份公司
沒有難堪的訴訟, -
6:02 - 6:05但在那些公司中的資料科學家
-
6:05 - 6:07被告知要遵從資料,
-
6:07 - 6:09著重正確率。
-
6:10 - 6:12想想那意味著什麼。
-
6:12 - 6:16因為我們都有偏見,那就意味著,
他們可能會把性別偏見 -
6:16 - 6:18或其他偏執給寫到程式中,
-
6:19 - 6:21來做個思想實驗,
-
6:21 - 6:22因為我喜歡思想實驗:
-
6:24 - 6:27一個完全種族隔離的社會,
-
6:28 - 6:32所有的城鎮、所有的街坊
都做了種族隔離, -
6:32 - 6:35我們只會針對少數種族
住的街坊派出警力 -
6:35 - 6:36來尋找犯罪。
-
6:36 - 6:39逮捕的資料會非常偏頗。
-
6:40 - 6:42如果再加上,我們
找到了資料科學家, -
6:42 - 6:47付錢給他們,要他們預測下次
犯罪會發生在哪裡,會如何? -
6:47 - 6:49答案:少數種族的街坊。
-
6:49 - 6:52或是去預測下一位犯人會是誰?
-
6:53 - 6:54答案:少數族裔。
-
6:56 - 6:59資料科學家會吹噓他們的的模型
-
7:00 - 7:01有多了不起、多精準,
-
7:01 - 7:02他們是對的。
-
7:04 - 7:09現實沒那麼極端,但在許多
城鎮和城市中,我們的確有 -
7:09 - 7:10嚴重的種族隔離,
-
7:10 - 7:12我們有很多證據可證明
-
7:12 - 7:15執法和司法資料是偏頗的。
-
7:16 - 7:18我們確實預測了熱點,
-
7:18 - 7:20犯罪會發生的地方。
-
7:20 - 7:24事實上,我們確實預測了
個別的犯罪行為, -
7:24 - 7:26個人的犯罪行為。
-
7:27 - 7:31新聞組織 ProPublica 近期調查了
-
7:31 - 7:33「累犯風險」演算法之一,
-
7:33 - 7:34他們是這麼稱呼它的,
-
7:34 - 7:37演算法被用在佛羅里達,
法官在判刑時使用。 -
7:38 - 7:42左邊的黑人是伯納,
總分十分,他得了十分。 -
7:43 - 7:45右邊的狄倫,十分只得了三分。
-
7:45 - 7:48十分就得十分,高風險。
十分只得三分,低風險。 -
7:49 - 7:51他們都因為持有藥品而被逮捕。
-
7:51 - 7:52他們都有犯罪記錄,
-
7:52 - 7:55但狄倫犯過重罪,
-
7:55 - 7:56伯納則沒有。
-
7:58 - 8:01這很重要,因為你的得分越高,
-
8:01 - 8:04你就越可能被判比較長的徒刑。
-
8:06 - 8:08發生了什麼事?
-
8:09 - 8:10洗資料。
-
8:11 - 8:15它是個流程,即技術專家
用黑箱作業的演算法 -
8:15 - 8:17來隱藏醜陋的真相,
-
8:17 - 8:19還宣稱是客觀的;
-
8:19 - 8:21是精英領導的。
-
8:23 - 8:25我為這些秘密、重要、
-
8:25 - 8:28又有毀滅性的演算法取了個名字:
-
8:28 - 8:30「毀滅性的數學武器」。
-
8:30 - 8:32(笑聲)
-
8:32 - 8:35(掌聲)
-
8:35 - 8:37它們無所不在,且不是個過失。
-
8:38 - 8:41私人公司建立私人演算法,
-
8:41 - 8:43來達到私人的目的。
-
8:43 - 8:46即使是我剛談到
對老師和警方用的演算法, -
8:46 - 8:48也是由私人公司建立的,
-
8:48 - 8:51然後再銷售給政府機關。
-
8:51 - 8:52他們稱它為「秘方醬料」,
-
8:52 - 8:55所以不能跟我們討論它。
-
8:55 - 8:57它也是種私人的權力。
-
8:58 - 9:03他們透過行使別人
無法理解的權威來獲利。 -
9:05 - 9:08你可能會認為,
所有這些都是私人的, -
9:08 - 9:09且有競爭存在,
-
9:09 - 9:12也許自由市場會解決這個問題。
-
9:12 - 9:13並不會。
-
9:13 - 9:16從不公平中可以賺取很多錢。
-
9:17 - 9:20且,我們不是經濟合法代理人。
-
9:21 - 9:22我們都有偏見。
-
9:23 - 9:26我們都是種族主義的、偏執的,
即使我們也希望不要這樣, -
9:26 - 9:28我們甚至不知道我們是這樣的。
-
9:29 - 9:32不過我們確實知道,總的來說,
-
9:32 - 9:36因為社會學家不斷地用
他們建立的實驗 -
9:36 - 9:37來展現出這一點,
-
9:37 - 9:40他們寄出一大堆的工作申請書,
-
9:40 - 9:42都有同樣的資格,
但有些用白人人名, -
9:43 - 9:44有些用黑人人名,
-
9:44 - 9:47結果總是讓人失望的,總是如此。
-
9:48 - 9:49所以,我們才是有偏見的人,
-
9:49 - 9:53且我們把這些偏見注入演算法中,
-
9:53 - 9:55做法是選擇要收集哪些資料、
-
9:55 - 9:57比如我選擇不要考量拉麵,
-
9:57 - 9:59我決定它不重要。
-
9:59 - 10:05但透過相信這些資料
真的能了解過去的做法, -
10:05 - 10:07以及透過選擇成功的定義,
-
10:07 - 10:11我們如何能冀望產生的演算法未受損?
-
10:11 - 10:13不能。我們得要檢查這些演算法。
-
10:14 - 10:16我們得要檢查它們是否公平。
-
10:16 - 10:19好消息是,我們可以
檢查它們是否公平。 -
10:19 - 10:22演算法可以被審問,
-
10:22 - 10:24且它們每次都會告訴我們真相。
-
10:24 - 10:27我們可以修正它們,
我們可以把它們變更好。 -
10:27 - 10:29我稱這個為演算法稽核,
-
10:29 - 10:31我會帶大家來了解它。
-
10:31 - 10:33首先,檢查資料完整性。
-
10:34 - 10:37針對我先前說的累犯風險演算法,
-
10:38 - 10:41檢查資料完整性就意味著
我們得接受事實, -
10:41 - 10:45事實是,在美國,白人和黑人
抽大麻的比率是一樣的, -
10:45 - 10:47但黑人被逮捕的機率遠高於白人,
-
10:47 - 10:50四、五倍高的可能性被捕,
依地區而異。 -
10:51 - 10:54在其他犯罪類別中,
那樣的偏見會如何呈現? -
10:54 - 10:56我們要如何處理它?
-
10:56 - 10:59第二,我們要想想成功的定義,
-
10:59 - 11:01去稽核它。
-
11:01 - 11:03記得我們剛剛談過的僱用演算法嗎?
-
11:03 - 11:07待了四年且升遷至少一次?
-
11:07 - 11:08那就是個成功員工,
-
11:08 - 11:11但那也是個被其文化所支持的員工。
-
11:12 - 11:14儘管如此,它也可能很有偏見。
-
11:14 - 11:16我們得把這兩件事分開。
-
11:16 - 11:19我們應該要把交響樂團的盲眼甄選
-
11:19 - 11:20當作參考範例。
-
11:20 - 11:23他們的做法是讓試演奏的人
在布幕後演奏。 -
11:23 - 11:25我想探討的重點是
-
11:25 - 11:28那些在聽並且決定什麼重要的人,
-
11:28 - 11:30他們也會決定什麼不重要 ,
-
11:30 - 11:32他們不會被不重要的部份給分心。
-
11:33 - 11:36當交響樂團開始採用盲眼甄選,
-
11:36 - 11:39團內的女性成員數上升五倍。
-
11:40 - 11:42接著,我們要考量正確率。
-
11:43 - 11:47這就是老師的加值模型
立刻會出問題的地方。 -
11:48 - 11:50當然,沒有演算法是完美的,
-
11:51 - 11:54所以我們得要考量
每個演算法的錯誤。 -
11:55 - 11:59多常會出現錯誤、這個模型
針對哪些人會發生錯誤? -
12:00 - 12:02發生錯誤的成本多高?
-
12:02 - 12:05最後,我們得要考量
-
12:06 - 12:08演算法的長期效應,
-
12:09 - 12:11也就是產生出來的反饋迴圈。
-
12:12 - 12:13那聽起來很抽象,
-
12:13 - 12:16但想像一下,如果臉書的工程師
-
12:16 - 12:21決定只讓我們看到朋友的貼文
之前就先考量那一點。 -
12:22 - 12:25我還有兩個訊息要傳遞,
其一是給資料科學家的。 -
12:25 - 12:29資料科學家,我們
不應該是真相的仲裁者, -
12:30 - 12:32我們應該是翻譯者,
-
12:32 - 12:35翻譯大社會中發生的每個道德討論。
-
12:36 - 12:38(掌聲)
-
12:38 - 12:39至於你們其他人,
-
12:40 - 12:41不是資料科學家的人:
-
12:41 - 12:43這不是個數學考試。
-
12:44 - 12:45這是場政治鬥爭。
-
12:47 - 12:50我們得要求為演算法的超載負責。
-
12:52 - 12:54(掌聲)
-
12:54 - 12:58盲目信仰大數據的時代必須要結束。
-
12:58 - 12:59非常謝謝。
-
12:59 - 13:04(掌聲)
- Title:
- 盲目信仰大數據的時代必須要結束
- Speaker:
- 凱西歐尼爾
- Description:
-
演算法決定誰能得到貸款,誰能得到工作面試機會,誰能得到保險,以及其他。但它們並不會自動讓一切變得公平,甚至不怎麼科學。數學家和資料科學家凱西歐尼爾為秘密、重要、又有毀滅性的演算法取了一個名字:「毀滅性的數學武器」。來了解一下這些應該要客觀的方程式背後暗藏了什麼玄機,以及為什麼我們需要建立更好的演算法。
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 13:18
Helen Chang approved Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
Helen Chang edited Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
Helen Chang edited Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
NAN-KUN WU accepted Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
NAN-KUN WU edited Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
Lilian Chiu edited Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
Lilian Chiu edited Chinese, Traditional subtitles for The era of blind faith in big data must end | ||
Lilian Chiu edited Chinese, Traditional subtitles for The era of blind faith in big data must end |