Outliers
-
0:00 - 0:03♪ [音乐] ♪
-
0:11 - 0:14理解数据
-
0:17 - 0:18异常值
-
0:18 - 0:19- [Thomas] 什么是“异常值”?
-
0:19 - 0:23你很可能直觉上
已经知道它是什么了 -
0:23 - 0:27就像高中班里那个
两米零八的大个子 -
0:27 - 0:31就像体格只有别人一半
却比人家吃得还多的那个小个子 -
0:31 - 0:33异常值就是那些
-
0:33 - 0:36与我们通常所见的规律
不相符的值 -
0:36 - 0:39现在回头看一下
我们的数据组 -
0:39 - 0:40不知你还记不记得
我们在研究 -
0:40 - 0:45教师的颜值得分
与学生评价分之间的关系 -
0:45 - 0:48外表出色的教师
-
0:48 - 0:50往往得到的评价分更高
-
0:50 - 0:52这个点是异常值吗?
-
0:52 - 0:53这个点
-
0:53 - 0:56代表了一名教师
虽然颜值得分特别高 -
0:56 - 0:58学生评价得分却很低
-
0:58 - 1:02看来在这个例子里
学生不是完全看脸的 -
1:02 - 1:04仅仅一个异常值
也可能带来很大的影响 -
1:04 - 1:08我们可以在数据中
去除或添加几个点 -
1:08 - 1:11看看这对回归线
会造成什么影响 -
1:11 - 1:12我来演示一下
-
1:12 - 1:14单击右键
或按住 control 键并单击 -
1:14 - 1:17可以将一个点
从回归分析图中去掉 -
1:17 - 1:22让我们去掉这个异常值
看看会发生什么情况 -
1:22 - 1:24虚线是之前的回归线
-
1:24 - 1:27实线是新回归线
-
1:27 - 1:28可以看出回归线变陡了
-
1:28 - 1:29这不难理解
-
1:29 - 1:33因为我们去掉了一个
把该线向下拽的异常值 -
1:33 - 1:35你还可以在下方看见
-
1:35 - 1:39斜率的值
从0.2变成了0.3 -
1:39 - 1:41去掉一个异常值
-
1:41 - 1:44让我们在颜值
和评价得分之间 -
1:44 - 1:47发现了比之前
更紧密的联系 -
1:47 - 1:49你也许还记得
在上一节课的视频中 -
1:49 - 1:55我们在一道习题中预测了
当颜值得分从2变成7时 -
1:55 - 1:58评价得分的变化
-
1:58 - 2:00当时的斜率是0.2
-
2:00 - 2:04预测的评价得分增加值为1分
-
2:04 - 2:06用这条新的回归线
-
2:06 - 2:10我们的预测变成了
评价得分将会有1.5分的增加 -
2:10 - 2:11比之前高出了50%
-
2:11 - 2:14这就是异常值的威力
-
2:14 - 2:17那位长得很帅
但教得很差的老师 -
2:17 - 2:19对我们的模型造成了很大影响
-
2:19 - 2:23重点是
回归有时对异常值较敏感 -
2:23 - 2:24想把异常值重新添加回来
-
2:24 - 2:27点击 undo 键就可以了
-
2:27 - 2:30此外我们还可以添加数据:
-
2:30 - 2:32点击图表中
任意一个空白处即可 -
2:32 - 2:35每一次调整后
回归线都会移动 -
2:35 - 2:39新的回归线显示为实线
-
2:39 - 2:42旧的显示为虚线
-
2:42 - 2:43现在你来试试看
-
2:43 - 2:46我想让你尝试两个操作
-
2:46 - 2:50首先,去掉一个点
使变量间的关联减弱 -
2:50 - 2:54回归线应该会变得更平
斜率应该减小 -
2:54 - 2:59然后再添加几个数据点
让关联增强 -
2:59 - 3:02现在请暂停视频
动手试试看 -
3:02 - 3:03- [讲解员] 请点击链接
-
3:03 - 3:05查看这条视频中的数据
找到答案 -
3:05 - 3:08在下方的视频描述中
也能找到链接 -
3:08 - 3:10如果你现在就想知道答案
-
3:10 - 3:12请继续观看
-
3:12 - 3:16刚才添加和移除数据点
还有点儿意思吧 -
3:16 - 3:18多摆弄数据,建立直觉
对你的学习有帮助 -
3:18 - 3:20现在我们来讲一下第一题
-
3:21 - 3:24怎样才能去掉一个点
使变量间的联系减弱 -
3:24 - 3:27举例来说
去掉这一点 -
3:30 - 3:32回归线就会变得较为平缓
-
3:32 - 3:36斜率从0.2降低至0.14
-
3:37 - 3:41那怎样才能使关联增强呢?
-
3:42 - 3:44让我们回头看看
原始数据组 -
3:44 - 3:46这里斜率为0.2
-
3:46 - 3:50如果在右上角添加一个点
-
3:50 - 3:52斜率就会增大
-
3:53 - 3:55我也可以在左下角添加一个点
-
3:55 - 3:57斜率会再次增大
-
3:57 - 3:59在这两个区域添加的点越多
-
3:59 - 4:02关联就会变得越强
-
4:02 - 4:04见识过了异常值的威力之后
-
4:04 - 4:08你接下来可能想问:
能不能干脆把异常值去掉? -
4:08 - 4:11不要忘了
我们学习回归的目的 -
4:11 - 4:14通常是想对现实做出预测
-
4:14 - 4:15在现实生活中
-
4:15 - 4:20确实有130磅重的人
能吃掉60根热狗 -
4:20 - 4:23因此,你如果想通过体重
预测一个人能吃多少热狗 -
4:23 - 4:28不假思索地移除异常值
可能会降低预测的准确度 -
4:28 - 4:29不过在某些情况下
-
4:29 - 4:32去掉异常值
可能是正确的选择 -
4:32 - 4:36如果你想预测的是
下次开烧烤聚会的时候 -
4:36 - 4:39一个人一般能吃几根热狗
-
4:39 - 4:43那把小林尊(注:日本大胃王)
包括进来就会严重干扰预测 -
4:43 - 4:45在这种情况下
他显然是个异常值 -
4:45 - 4:48不应该包括在模型内
-
4:51 - 4:53你可能注意到了
我们去掉异常值的时候 -
4:53 - 4:57还有别的东西也变了——
这几个奇怪的数字 -
4:57 - 4:59它们代表什么呢?
-
4:59 - 5:01那就是我们接下来要学习的
-
5:04 - 5:06- [讲解员] 祝贺你!
-
5:06 - 5:08你离成为数据忍者
又近了一步! -
5:09 - 5:11想要成为线性回归大师
-
5:11 - 5:12请点击链接
-
5:12 - 5:15做一做关于p值、残差等内容的
系列练习 -
5:15 - 5:17把你遇到的各路数据组
-
5:17 - 5:19统统斩于马下
-
5:19 - 5:20你也可以到我们的
-
5:20 - 5:23“理解数据”播放列表中
探索一下其他技能 -
5:23 - 5:27♪ [音乐] ♪
- Title:
- Outliers
- Description:
-
- Video Language:
- English
- Team:
- Marginal Revolution University
- Project:
- Understanding Data
- Duration:
- 05:28
YIJUN HE edited Chinese, Simplified subtitles for Outliers | ||
YIJUN HE approved Chinese, Simplified subtitles for Outliers | ||
YIJUN HE edited Chinese, Simplified subtitles for Outliers | ||
YIJUN HE edited Chinese, Simplified subtitles for Outliers | ||
YIJUN HE edited Chinese, Simplified subtitles for Outliers | ||
YIJUN HE edited Chinese, Simplified subtitles for Outliers | ||
YIJUN HE edited Chinese, Simplified subtitles for Outliers | ||
YIJUN HE edited Chinese, Simplified subtitles for Outliers |