Chinese, Simplified subtitles

← K-Fold Cross Validation - Intro to Machine Learning

Get Embed Code
4 Languages

Showing Revision 6 created 09/17/2016 by Udacity Robot.

  1. Katie 你告诉大家关于训练和测试集的内容
  2. 我希望大家也做了一些练习
  3. — 是的吗? — 是的
  4. 现在我要讨论的内容是将其稍微推广了一下
  5. 叫做交叉验证
  6. 在进入交叉验证之前 我们先来讨论一下
  7. 将数据集分拆为训练和测试数据的问题
  8. 假设这就是你的数据
  9. 用 Katie 教你的方法来做
  10. 现在你要说出哪个部分的数据是测试 哪个是训练
  11. 你进入的困境是希望将两个集合都做到最大化
  12. 你希望在训练集中有尽可能多的数据点
  13. 以获得最佳学习结果 同时也希望测试集中有最大数量的数据项
  14. 来获得最佳验证
  15. 但显然这里需要进行折衷 每当你从训练集中取出一个数据点拿去测试
  16. 训练集中就会少一个数据点
  17. 所以 我们要重新设定这个折衷
  18. 这就是涉及到交叉验证的地方
  19. 基本要点是将数据集平分到相同大小的 k 个容器内
  20. 例如有 200 个数据点
  21. 有十个容器
  22. 很快便可得出
  23. 每个容器内有多少个数据点呢?
  24. 很明显 是 20
  25. 所以 10 个容器内分别有 20 个数据点
  26. 就是这样
  27. 然而在 Katie 讲述的操作中 你只是挑选其中一个容器
  28. 作为测试容器 另一个作为训练容器
  29. 在 k 折交叉验证中 你将运行 k 次单独的学习试验
  30. 在每次试验中 你将从这 k 个子集中挑选一个作为测试集
  31. 剩下 k-1 个容器放在一起作为训练集
  32. 然后训练你的机器学习算法
  33. 与以前一样 将在测试集上测试性能
  34. 交叉验证中的要点是这个操作会运行多次
  35. 在此例中为十次 然后将十个不同的测试集
  36. 对于十个不同的保留集的表现进行平均
  37. 就是将这 k 次试验的测试结果取平均值
  38. 显然 这会花更多的计算时间 因为你要运行
  39. k 次单独的学习试验
  40. 但学习算法的评估将更加准确
  41. 从某种程度上讲 你差不多使用了全部数据进行训练
  42. 以及全部数据进行测试 很酷
  43. 比如我们提一个问题
  44. 假设你可以选择按照 Katie 讲述的静态训练测试方法来操作
  45. 也可以按照 10 折交叉验证来操作
  46. 你实际关心的是将训练时间降至最低
  47. 使用机器学习算法进行训练后将运行时间降至最低
  48. 忽略训练时间 将查准率提至最高
  49. 在这三种情形下 你可以挑选训练/测试或者
  50. 10 折交叉验证
  51. 告诉我你的最佳猜测
  52. 你会选择哪一种?
  53. 对于每个最短的训练时间
  54. 请在右边选择两者之一