< Return to Video

AI: Training Data & Bias

  • 0:07 - 0:12
    机器学习的极限和您输入的训练数据程度相同。
  • 0:12 - 0:16
    因此,使用大量的高质量数据在机器学习的过程中至关重要。
  • 0:17 - 0:22
    但如果数据如此重要,是否值得一提这些训练数据从何而来?
  • 0:22 - 0:26
    一般而言,计算机收集的训练数据来自像你和我的人类,
  • 0:26 - 0:28
    而我们完全无需付出任何心力。
  • 0:28 - 0:31
    一个流媒体服务器可能会追踪您的观看清单,接着透过您所输入的资料辨识模型
  • 0:32 - 0:36
    推荐您接下来可能会喜欢的观看清单。
  • 0:37 - 0:43
    另一种方式是系统会直接请求您的协助,例如,
    一个网站会请您协助识别出路标和照片,
  • 0:44 - 0:49
    这时您正在提供训练数据协助机器看见事物,
    并在未来的某天驾驶车辆。
  • 0:52 - 0:56
    医疗研究人员可以利用医疗图像当作训练数据来教导
  • 0:57 - 1:00
    计算机如何识别和诊断疾病。
  • 1:00 - 1:06
    在能够准确地识别疾病前,机器学习需要上百甚至上千张的图像,
  • 1:06 - 1:10
    以及一位医生的训练引导,因为只有医生知道该如何诊断。
  • 1:11 - 1:16
    即使有了上千个案例,计算机的预测仍有可能出错。
  • 1:16 - 1:21
    如果X光片的数据只收集男性,那么计算机的预测可能只对男性有用。
  • 1:22 - 1:26
    它可能因此无法辨识要求检视疾病的女性的X光片。
  • 1:27 - 1:31
    这个盲点在训练数据过程中产生的问题叫做偏见。
  • 1:31 - 1:36
    偏见数据有利于某些事物,而对其他事物则不具有优先权或排他性。
  • 1:37 - 1:42
    根据训练数据的收集方式、收集者的收集方式,以及数据的提供方式,
  • 1:42 - 1:45
    这些训练数据很有机会含括人为偏见。
  • 1:46 - 1:51
    透过从偏见数据中学习,计算机便可能做出偏见预测,
  • 1:51 - 1:54
    无论在训练计算机的人是否有察觉到。
  • 1:55 - 1:58
    当您在查看训练数据时,问问自己两个问题:
  • 1:59 - 2:02
    这些数据足以准确地训练一台计算机吗?
  • 2:02 - 2:07
    以及这些数据是否能够代表所有可能的情况和用户,而不存在着偏见?
  • 2:07 - 2:11
    这便是身为人类的您所扮演的关键角色。
  • 2:11 - 2:14
    您掌握了提供无偏见数据的主权。
  • 2:14 - 2:18
    这意味着收集来自多方资源的大量案例。
  • 2:19 - 2:23
    记住,当您挑选给予机器学习的数据时,
  • 2:23 - 2:27
    您实际上是在写算法,只是您使用的是训练数据而非编码。
  • 2:27 - 2:30
    这些数据即是编码。
  • 2:30 - 2:35
    您所提供的数据越精准,计算机就将学习得越精准。
Title:
AI: Training Data & Bias
Description:

more » « less
Video Language:
English
Team:
Code.org
Project:
How AI Works
Duration:
02:41

Chinese, Simplified subtitles

Revisions Compare revisions