0:00:07.360,0:00:11.760 機器學習的極限和您輸入的訓練數據程度相同。 0:00:11.800,0:00:15.820 因此,使用大量的高品質數據在機器學習的過程中至關重要。 0:00:16.760,0:00:21.960 但如果數據如此重要,是否值得一提這些訓練數據從何而來? 0:00:22.280,0:00:26.260 一般而言,電腦收集的訓練數據來自像你和我的人類, 0:00:26.260,0:00:27.860 而我們完全無需付出任何心力。 0:00:28.440,0:00:31.480 一個線上串流服務可能會追蹤您的觀看清單,接著透過您所輸入的資料辨識模型 0:00:31.660,0:00:36.000 推薦您接下來可能會喜歡的觀看清單。 0:00:37.420,0:00:43.200 另一種方式是系統會直接請求您的協助,例如,[br]一個網站會請您協助識別出路標和照片, 0:00:43.780,0:00:49.280 這時您正在提供訓練數據協助機器看見事物,[br]並在未來的某天駕駛車輛。 0:00:52.320,0:00:56.440 醫療研究人員可以利用醫療圖像當作訓練數據來教導 0:00:56.520,0:00:59.900 電腦如何識別和診斷疾病。 0:01:00.300,0:01:05.560 在能夠準確地識別疾病前,機器學習需要上百甚至上千張的圖像, 0:01:05.640,0:01:09.920 以及一位醫生的訓練引導,因為只有醫生知道該如何診斷。 0:01:10.520,0:01:15.540 即使有了上千個案例,電腦的預測仍有可能出錯。 0:01:15.880,0:01:20.660 如果X光片的數據只收集男性,那麼電腦的預測可能只對男性有用。 0:01:21.880,0:01:26.300 它可能因此無法辨識要求檢視疾病的女性的X光片。 0:01:26.620,0:01:30.820 這個盲點在訓練數據過程中產生的問題叫做偏見。 0:01:31.260,0:01:36.420 偏見數據有利於某些事物,而對其他事物則不具有優先權或排他性。 0:01:36.780,0:01:41.800 根據訓練數據的收集方式、收集者的收集方式,以及數據的提供方式, 0:01:41.800,0:01:45.340 這些訓練數據很有機會含括人為偏見。 0:01:45.880,0:01:50.700 透過從偏見數據中學習,電腦便可能做出偏見預測, 0:01:50.780,0:01:54.320 無論在訓練電腦的人是否有察覺到。 0:01:54.760,0:01:58.400 當您在查看訓練數據時,問問自己兩個問題: 0:01:58.640,0:02:01.600 這些數據足以準確地訓練一台電腦嗎? 0:02:02.320,0:02:06.860 以及這些數據是否能夠代表所有可能的情況和用戶,而不存在著偏見? 0:02:07.460,0:02:11.040 這便是身為人類的您所扮演的關鍵角色。 0:02:11.160,0:02:14.500 您掌握了提供無偏見數據的主權。 0:02:14.500,0:02:18.160 這意味著收集來自多方資源的大量案例。 0:02:19.300,0:02:22.580 記住,當您挑選給予機器學習的數據時, 0:02:22.580,0:02:26.660 您實際上是在編寫演算法,只是您使用的是訓練數據而非編碼。 0:02:27.100,0:02:29.780 這些數據即是編碼。 0:02:30.180,0:02:34.680 您所提供的數據越精準,電腦就將學習得越精準。