Chinese, Simplified subtitles

← Box Plots - Data Analysis with R

Get Embed Code
6 Languages

Showing Revision 3 created 08/29/2016 by Udacity Robot.

  1. 我们来使用另一种可视化来帮助我们观察变量的分布
  2. 叫做箱线图
  3. 如果你不熟悉箱线图 可在讲师注释中查找资源
  4. 那儿也有优达学城统计课程的链接
  5. 你可以测试一下自己的知识
  6. 你可能记起以前我们按性别划分好友数
  7. 使用琢面包裹创建成对直方图 代码就像这样
  8. 我们不用这些直方图 而是按性别生成好友数箱线图
  9. 这样可以快速看到分布之间的差异
  10. 特别是我们将要看到两个组中位数之间的差异
  11. 还要记住
  12. 当我们传递单个变量时 qplot 函数会自动生成直方图 (/g)
  13. 所以我们需要添加一个参数
  14. 告诉 qplot 我们需要不同类型的图形
  15. 做法是使用叫做箱线图的 geom
  16. 现在我要使用与以前相同的数据集
  17. 所以我们要保留这个和 qplot
  18. 箱线图的差别是 y 轴将为好友数
  19. 另一方面 x 轴将是
  20. 我们的类别变量男性和女性 或者性别
  21. 注意我们使用连续变量 好友数为 y
  22. 分组或者类别变量为 x
  23. 对于箱线图将始终是这样的
  24. 这里我忘掉一个括号 我来重新调整代码格式
  25. 让它看起来整洁一些 就这样了
  26. 运行此代码 可以看到我们获得两个箱线图
  27. 我们放大来仔细观察 此处和此处的箱体
  28. 涵盖了值的中间 50% 或者称为内四分位范围
  29. 我知道这些箱体很难观察
  30. 因为我们的这幅图中有很多异常值
  31. 所有这些小点点都是我们数据中的异常值
  32. 我们还可以看到 y 轴捕获全部好友数
  33. 从 0 一直到 5000
  34. 所以我们在图中没有遗漏任何用户数据
  35. 最后 这条水平线 你可能开始时并没有注意到
  36. 是两个箱线图的中位数 你可能在怀疑
  37. 异常值怎么就实际成了异常值 好的
  38. 通常我们认为异常值是
  39. 位于中位数 IQR 的 1.5倍以外
  40. 所以 这些图中有很多异常值 我们来调整代码
  41. 仅关注这两个箱体 我们在下一个编程练习中要让你来做这个工作
  42. 看看你是否可以修改代码来进行调整