< Return to Video

AI: Training Data & Bias

  • 0:07 - 0:12
    機器學習的極限和您輸入的訓練數據程度相同。
  • 0:12 - 0:16
    因此,使用大量的高品質數據在機器學習的過程中至關重要。
  • 0:17 - 0:22
    但如果數據如此重要,是否值得一提這些訓練數據從何而來?
  • 0:22 - 0:26
    一般而言,電腦收集的訓練數據來自像你和我的人類,
  • 0:26 - 0:28
    而我們完全無需付出任何心力。
  • 0:28 - 0:31
    一個線上串流服務可能會追蹤您的觀看清單,接著透過您所輸入的資料辨識模型
  • 0:32 - 0:36
    推薦您接下來可能會喜歡的觀看清單。
  • 0:37 - 0:43
    另一種方式是系統會直接請求您的協助,例如,
    一個網站會請您協助識別出路標和照片,
  • 0:44 - 0:49
    這時您正在提供訓練數據協助機器看見事物,
    並在未來的某天駕駛車輛。
  • 0:52 - 0:56
    醫療研究人員可以利用醫療圖像當作訓練數據來教導
  • 0:57 - 1:00
    電腦如何識別和診斷疾病。
  • 1:00 - 1:06
    在能夠準確地識別疾病前,機器學習需要上百甚至上千張的圖像,
  • 1:06 - 1:10
    以及一位醫生的訓練引導,因為只有醫生知道該如何診斷。
  • 1:11 - 1:16
    即使有了上千個案例,電腦的預測仍有可能出錯。
  • 1:16 - 1:21
    如果X光片的數據只收集男性,那麼電腦的預測可能只對男性有用。
  • 1:22 - 1:26
    它可能因此無法辨識要求檢視疾病的女性的X光片。
  • 1:27 - 1:31
    這個盲點在訓練數據過程中產生的問題叫做偏見。
  • 1:31 - 1:36
    偏見數據有利於某些事物,而對其他事物則不具有優先權或排他性。
  • 1:37 - 1:42
    根據訓練數據的收集方式、收集者的收集方式,以及數據的提供方式,
  • 1:42 - 1:45
    這些訓練數據很有機會含括人為偏見。
  • 1:46 - 1:51
    透過從偏見數據中學習,電腦便可能做出偏見預測,
  • 1:51 - 1:54
    無論在訓練電腦的人是否有察覺到。
  • 1:55 - 1:58
    當您在查看訓練數據時,問問自己兩個問題:
  • 1:59 - 2:02
    這些數據足以準確地訓練一台電腦嗎?
  • 2:02 - 2:07
    以及這些數據是否能夠代表所有可能的情況和用戶,而不存在著偏見?
  • 2:07 - 2:11
    這便是身為人類的您所扮演的關鍵角色。
  • 2:11 - 2:14
    您掌握了提供無偏見數據的主權。
  • 2:14 - 2:18
    這意味著收集來自多方資源的大量案例。
  • 2:19 - 2:23
    記住,當您挑選給予機器學習的數據時,
  • 2:23 - 2:27
    您實際上是在編寫演算法,只是您使用的是訓練數據而非編碼。
  • 2:27 - 2:30
    這些數據即是編碼。
  • 2:30 - 2:35
    您所提供的數據越精準,電腦就將學習得越精準。
Title:
AI: Training Data & Bias
Description:

more » « less
Video Language:
English
Team:
Code.org
Project:
How AI Works
Duration:
02:41

Chinese, Traditional (Hong Kong) subtitles

Revisions