AI: Training Data & Bias
-
0:07 - 0:12机器学习的极限和您输入的训练数据程度相同。
-
0:12 - 0:16因此,使用大量的高质量数据在机器学习的过程中至关重要。
-
0:17 - 0:22但如果数据如此重要,是否值得一提这些训练数据从何而来?
-
0:22 - 0:26一般而言,计算机收集的训练数据来自像你和我的人类,
-
0:26 - 0:28而我们完全无需付出任何心力。
-
0:28 - 0:31一个流媒体服务器可能会追踪您的观看清单,接着透过您所输入的资料辨识模型
-
0:32 - 0:36推荐您接下来可能会喜欢的观看清单。
-
0:37 - 0:43另一种方式是系统会直接请求您的协助,例如,
一个网站会请您协助识别出路标和照片, -
0:44 - 0:49这时您正在提供训练数据协助机器看见事物,
并在未来的某天驾驶车辆。 -
0:52 - 0:56医疗研究人员可以利用医疗图像当作训练数据来教导
-
0:57 - 1:00计算机如何识别和诊断疾病。
-
1:00 - 1:06在能够准确地识别疾病前,机器学习需要上百甚至上千张的图像,
-
1:06 - 1:10以及一位医生的训练引导,因为只有医生知道该如何诊断。
-
1:11 - 1:16即使有了上千个案例,计算机的预测仍有可能出错。
-
1:16 - 1:21如果X光片的数据只收集男性,那么计算机的预测可能只对男性有用。
-
1:22 - 1:26它可能因此无法辨识要求检视疾病的女性的X光片。
-
1:27 - 1:31这个盲点在训练数据过程中产生的问题叫做偏见。
-
1:31 - 1:36偏见数据有利于某些事物,而对其他事物则不具有优先权或排他性。
-
1:37 - 1:42根据训练数据的收集方式、收集者的收集方式,以及数据的提供方式,
-
1:42 - 1:45这些训练数据很有机会含括人为偏见。
-
1:46 - 1:51透过从偏见数据中学习,计算机便可能做出偏见预测,
-
1:51 - 1:54无论在训练计算机的人是否有察觉到。
-
1:55 - 1:58当您在查看训练数据时,问问自己两个问题:
-
1:59 - 2:02这些数据足以准确地训练一台计算机吗?
-
2:02 - 2:07以及这些数据是否能够代表所有可能的情况和用户,而不存在着偏见?
-
2:07 - 2:11这便是身为人类的您所扮演的关键角色。
-
2:11 - 2:14您掌握了提供无偏见数据的主权。
-
2:14 - 2:18这意味着收集来自多方资源的大量案例。
-
2:19 - 2:23记住,当您挑选给予机器学习的数据时,
-
2:23 - 2:27您实际上是在写算法,只是您使用的是训练数据而非编码。
-
2:27 - 2:30这些数据即是编码。
-
2:30 - 2:35您所提供的数据越精准,计算机就将学习得越精准。
| TranslateByHumans edited Chinese, Simplified subtitles for AI: Training Data & Bias | ||
| TranslateByHumans edited Chinese, Simplified subtitles for AI: Training Data & Bias |