AI: Training Data & Bias
-
0:07 - 0:12機器學習的極限和您輸入的訓練數據程度相同。
-
0:12 - 0:16因此,使用大量的高品質數據在機器學習的過程中至關重要。
-
0:17 - 0:22但如果數據如此重要,是否值得一提這些訓練數據從何而來?
-
0:22 - 0:26一般而言,電腦收集的訓練數據來自像你和我的人類,
-
0:26 - 0:28而我們完全無需付出任何心力。
-
0:28 - 0:31一個線上串流服務可能會追蹤您的觀看清單,接著透過您所輸入的資料辨識模型
-
0:32 - 0:36推薦您接下來可能會喜歡的觀看清單。
-
0:37 - 0:43另一種方式是系統會直接請求您的協助,例如,
一個網站會請您協助識別出路標和照片, -
0:44 - 0:49這時您正在提供訓練數據協助機器看見事物,
並在未來的某天駕駛車輛。 -
0:52 - 0:56醫療研究人員可以利用醫療圖像當作訓練數據來教導
-
0:57 - 1:00電腦如何識別和診斷疾病。
-
1:00 - 1:06在能夠準確地識別疾病前,機器學習需要上百甚至上千張的圖像,
-
1:06 - 1:10以及一位醫生的訓練引導,因為只有醫生知道該如何診斷。
-
1:11 - 1:16即使有了上千個案例,電腦的預測仍有可能出錯。
-
1:16 - 1:21如果X光片的數據只收集男性,那麼電腦的預測可能只對男性有用。
-
1:22 - 1:26它可能因此無法辨識要求檢視疾病的女性的X光片。
-
1:27 - 1:31這個盲點在訓練數據過程中產生的問題叫做偏見。
-
1:31 - 1:36偏見數據有利於某些事物,而對其他事物則不具有優先權或排他性。
-
1:37 - 1:42根據訓練數據的收集方式、收集者的收集方式,以及數據的提供方式,
-
1:42 - 1:45這些訓練數據很有機會含括人為偏見。
-
1:46 - 1:51透過從偏見數據中學習,電腦便可能做出偏見預測,
-
1:51 - 1:54無論在訓練電腦的人是否有察覺到。
-
1:55 - 1:58當您在查看訓練數據時,問問自己兩個問題:
-
1:59 - 2:02這些數據足以準確地訓練一台電腦嗎?
-
2:02 - 2:07以及這些數據是否能夠代表所有可能的情況和用戶,而不存在著偏見?
-
2:07 - 2:11這便是身為人類的您所扮演的關鍵角色。
-
2:11 - 2:14您掌握了提供無偏見數據的主權。
-
2:14 - 2:18這意味著收集來自多方資源的大量案例。
-
2:19 - 2:23記住,當您挑選給予機器學習的數據時,
-
2:23 - 2:27您實際上是在編寫演算法,只是您使用的是訓練數據而非編碼。
-
2:27 - 2:30這些數據即是編碼。
-
2:30 - 2:35您所提供的數據越精準,電腦就將學習得越精準。
![]() |
TranslateByHumans edited Chinese, Traditional (Hong Kong) subtitles for AI: Training Data & Bias |