Return to Video

Outliers

  • 0:00 - 0:03
    ♪ [音乐] ♪
  • 0:11 - 0:14
    理解数据
  • 0:17 - 0:18
    异常值
  • 0:18 - 0:19
    - [Thomas] 什么是“异常值”?
  • 0:19 - 0:23
    你很可能直觉上
    已经知道它是什么了
  • 0:23 - 0:27
    就像高中班里那个
    两米零八的大个子
  • 0:27 - 0:31
    就像体格只有别人一半
    却比人家吃得还多的那个小个子
  • 0:31 - 0:33
    异常值就是那些
  • 0:33 - 0:36
    与我们通常所见的规律
    不相符的值
  • 0:36 - 0:39
    现在回头看一下
    我们的数据组
  • 0:39 - 0:40
    不知你还记不记得
    我们在研究
  • 0:40 - 0:45
    教师的颜值得分
    与学生评价分之间的关系
  • 0:45 - 0:48
    外表出色的教师
  • 0:48 - 0:50
    往往得到的评价分更高
  • 0:50 - 0:52
    这个点是异常值吗?
  • 0:52 - 0:53
    这个点
  • 0:53 - 0:56
    代表了一名教师
    虽然颜值得分特别高
  • 0:56 - 0:58
    学生评价得分却很低
  • 0:58 - 1:02
    看来在这个例子里
    学生不是完全看脸的
  • 1:02 - 1:04
    仅仅一个异常值
    也可能带来很大的影响
  • 1:04 - 1:08
    我们可以在数据中
    去除或添加几个点
  • 1:08 - 1:11
    看看这对回归线
    会造成什么影响
  • 1:11 - 1:12
    我来演示一下
  • 1:12 - 1:14
    单击右键
    或按住 control 键并单击
  • 1:14 - 1:17
    可以将一个点
    从回归分析图中去掉
  • 1:17 - 1:22
    让我们去掉这个异常值
    看看会发生什么情况
  • 1:22 - 1:24
    虚线是之前的回归线
  • 1:24 - 1:27
    实线是新回归线
  • 1:27 - 1:28
    可以看出回归线变陡了
  • 1:28 - 1:29
    这不难理解
  • 1:29 - 1:33
    因为我们去掉了一个
    把该线向下拽的异常值
  • 1:33 - 1:35
    你还可以在下方看见
  • 1:35 - 1:39
    斜率的值
    从0.2变成了0.3
  • 1:39 - 1:41
    去掉一个异常值
  • 1:41 - 1:44
    让我们在颜值
    和评价得分之间
  • 1:44 - 1:47
    发现了比之前
    更紧密的联系
  • 1:47 - 1:49
    你也许还记得
    在上一节课的视频中
  • 1:49 - 1:55
    我们在一道习题中预测了
    当颜值得分从2变成7时
  • 1:55 - 1:58
    评价得分的变化
  • 1:58 - 2:00
    当时的斜率是0.2
  • 2:00 - 2:04
    预测的评价得分增加值为1分
  • 2:04 - 2:06
    用这条新的回归线
  • 2:06 - 2:10
    我们的预测变成了
    评价得分将会有1.5分的增加
  • 2:10 - 2:11
    比之前高出了50%
  • 2:11 - 2:14
    这就是异常值的威力
  • 2:14 - 2:17
    那位长得很帅
    但教得很差的老师
  • 2:17 - 2:19
    对我们的模型造成了很大影响
  • 2:19 - 2:23
    重点是
    回归有时对异常值较敏感
  • 2:23 - 2:24
    想把异常值重新添加回来
  • 2:24 - 2:27
    点击 undo 键就可以了
  • 2:27 - 2:30
    此外我们还可以添加数据:
  • 2:30 - 2:32
    点击图表中
    任意一个空白处即可
  • 2:32 - 2:35
    每一次调整后
    回归线都会移动
  • 2:35 - 2:39
    新的回归线显示为实线
  • 2:39 - 2:42
    旧的显示为虚线
  • 2:42 - 2:43
    现在你来试试看
  • 2:43 - 2:46
    我想让你尝试两个操作
  • 2:46 - 2:50
    首先,去掉一个点
    使变量间的关联减弱
  • 2:50 - 2:54
    回归线应该会变得更平
    斜率应该减小
  • 2:54 - 2:59
    然后再添加几个数据点
    让关联增强
  • 2:59 - 3:02
    现在请暂停视频
    动手试试看
  • 3:02 - 3:03
    - [讲解员] 请点击链接
  • 3:03 - 3:05
    查看这条视频中的数据
    找到答案
  • 3:05 - 3:08
    在下方的视频描述中
    也能找到链接
  • 3:08 - 3:10
    如果你现在就想知道答案
  • 3:10 - 3:12
    请继续观看
  • 3:12 - 3:16
    刚才添加和移除数据点
    还有点儿意思吧
  • 3:16 - 3:18
    多摆弄数据,建立直觉
    对你的学习有帮助
  • 3:18 - 3:20
    现在我们来讲一下第一题
  • 3:21 - 3:24
    怎样才能去掉一个点
    使变量间的联系减弱
  • 3:24 - 3:27
    举例来说
    去掉这一点
  • 3:30 - 3:32
    回归线就会变得较为平缓
  • 3:32 - 3:36
    斜率从0.2降低至0.14
  • 3:37 - 3:41
    那怎样才能使关联增强呢?
  • 3:42 - 3:44
    让我们回头看看
    原始数据组
  • 3:44 - 3:46
    这里斜率为0.2
  • 3:46 - 3:50
    如果在右上角添加一个点
  • 3:50 - 3:52
    斜率就会增大
  • 3:53 - 3:55
    我也可以在左下角添加一个点
  • 3:55 - 3:57
    斜率会再次增大
  • 3:57 - 3:59
    在这两个区域添加的点越多
  • 3:59 - 4:02
    关联就会变得越强
  • 4:02 - 4:04
    见识过了异常值的威力之后
  • 4:04 - 4:08
    你接下来可能想问:
    能不能干脆把异常值去掉?
  • 4:08 - 4:11
    不要忘了
    我们学习回归的目的
  • 4:11 - 4:14
    通常是想对现实做出预测
  • 4:14 - 4:15
    在现实生活中
  • 4:15 - 4:20
    确实有130磅重的人
    能吃掉60根热狗
  • 4:20 - 4:23
    因此,你如果想通过体重
    预测一个人能吃多少热狗
  • 4:23 - 4:28
    不假思索地移除异常值
    可能会降低预测的准确度
  • 4:28 - 4:29
    不过在某些情况下
  • 4:29 - 4:32
    去掉异常值
    可能是正确的选择
  • 4:32 - 4:36
    如果你想预测的是
    下次开烧烤聚会的时候
  • 4:36 - 4:39
    一个人一般能吃几根热狗
  • 4:39 - 4:43
    那把小林尊(注:日本大胃王)
    包括进来就会严重干扰预测
  • 4:43 - 4:45
    在这种情况下
    他显然是个异常值
  • 4:45 - 4:48
    不应该包括在模型内
  • 4:51 - 4:53
    你可能注意到了
    我们去掉异常值的时候
  • 4:53 - 4:57
    还有别的东西也变了——
    这几个奇怪的数字
  • 4:57 - 4:59
    它们代表什么呢?
  • 4:59 - 5:01
    那就是我们接下来要学习的
  • 5:04 - 5:06
    - [讲解员] 祝贺你!
  • 5:06 - 5:08
    你离成为数据忍者
    又近了一步!
  • 5:09 - 5:11
    想要成为线性回归大师
  • 5:11 - 5:12
    请点击链接
  • 5:12 - 5:15
    做一做关于p值、残差等内容的
    系列练习
  • 5:15 - 5:17
    把你遇到的各路数据组
  • 5:17 - 5:19
    统统斩于马下
  • 5:19 - 5:20
    你也可以到我们的
  • 5:20 - 5:23
    “理解数据”播放列表中
    探索一下其他技能
  • 5:23 - 5:27
    ♪ [音乐] ♪
Title:
Outliers
Description:

more » « less
Video Language:
English
Team:
Marginal Revolution University
Project:
Understanding Data
Duration:
05:28

Chinese, Simplified subtitles

Revisions Compare revisions