♪ [音乐] ♪
理解数据
线性回归简介
- [Thomas Stratmann] 大家好!
在接下来的一系列视频中
我们将向你介绍一个
炫酷的新工具
来帮助你理解数据
那就是“线性回归”
假设你有这么一种理论
你发现外貌出众的人
好像总能得到特殊的优待
你在想
“还有什么地方
也能看到这种现象呢?”
对教授来说
这种现象也存在吗?
有没有可能
外貌出众的老师
也会得到特别优待呢?
学生们会不会
对这些老师更好
给他们打更高的
学生评价分?
如果确实如此
外貌对评价分的影响
是很大还是很小呢?
假设有位教师刚刚开始
到一所大学上班
- [背景男声] 同学们,早啊
- 仅从他的外貌
我们能对他的学生评价分
做出怎样的预测?
由于评价分会影响到加薪
如果这个理论属实
老师们可能会
采取一些令人惊讶的手段
来提高他们的得分
- [Lloyd Christmas] 耶!
- 如果你想弄清楚
更出众的外貌是否真的会
带来更高的评价分
你会怎样
检验这个假说呢?
你可以收集数据
首先,让学生从1到10
给老师的外貌打分
由此你可以得出
这位老师的颜值平均分
然后你可以从
25名学生那里
收集这位老师的
教学评价分
我们通过散点图
来观察这两个变量
我们用横轴表示外貌
纵轴表示教学评价分
例如,这一点代表着
Peate 教授
- [Bib Fortuna] 你好哇!
- 他得到了3分的外貌分
8.425的教学评价分
这边特别靠右的是
Helmchen 教授
- [Ben Stiller, "Zoolander"]
帅到不像话!
- 他的外貌得分非常高
但教学评价分却很低
你能看出规律吗?
当我们沿x轴从左向右移动
从难看向好看移动
评价分呈现出上升趋势
对了,我们在这个系列视频中
使用的数据
不是编造出来的
而是来自于德克萨斯大学的
真实调查
另外你可能不知道
“pulchritude”只不过是
“颜值”的另一种
比较高端、学术的说法
有些时候
用散点图很难判断出
两个变量之间的确切关系
尤其是随着我们
从左向右移动
数值的波动很大的时候
对付这种波动的
一种方法是
画一条直线
穿过这团数据
让这条直线
尽可能贴切地描述这些数据
专业的说法叫做“线性回归”
以后我们会讲到
这条线是怎么画出来的
不过今天我们可以先假设
这条线已经尽可能
贴近数据了
那么这条线能
告诉我们什么呢?
首先,我们立刻就能看出
这条线是向上还是向下倾斜
在我们的数据组中
这条线向上倾斜
这也就验证了
我们之前通过观察散点图
得出的假说
向上倾斜意味着
外貌和评价分存在正相关
换句话说
平均说来
好看的老师
得到的评价分更高
其他数据组
可能显示出更强的正相关
也有可能显示出负相关
也有可能根本没有相关性
线也未必都是直线
必要时可以弯曲
以便更好贴合数据
这条线也给我们提供了
一种预测结果的方法
对一个给定的外貌得分
我们可以直接从线上读出
评价分的预测值
再回头看一下新来的老师
- [Lloyd] 眼熟吗?
- 我们可以准确预测出
他的评价分
你可能想说“等一下!”
“我们能相信这个预测吗?”
颜值这个变量
究竟能多么准确地
预测评价分呢?
线性回归给我们提供了
能用来回答这些问题的
一些实用的方法
我们在以后的视频中
再来探讨
在得出任何
肯定的结论之前
我们还得当心几个陷阱
想象这样一种情况
我们所看到的关联背后
其实是被我们忽略掉的
第三个变量在起作用
例如课程的难度
可能导致了
外貌得分与教学评价分
之间的正相关
教简单的导论课的老师
总能得到高评价分
教级别更高、更难的课的老师
就容易得到差评
而年轻的老师
可能会被安排去上导论课
那么如果学生认为
年轻的老师更有吸引力
外貌得分与教学评价分
就会呈现正相关
但实际上是课程难度
这个被我们忽视了的变量
在影响着评价分
而不是外貌
在那种情况下
一切的美化打扮都是徒劳的
相关性被错误地
当成了因果关系
- [Lloyd] 等一下…
在后面的视频中
我们会进一步探讨这个问题
另外,会不会有其他重要的变量
同时影响着
外貌得分和评价分呢?
为了更清晰地分辨
外貌对评价分的影响
像技术,种族,性别
英语是不是母语
都可能是你需要考虑的因素
等我们讲到多元回归时
就能把其他
可能影响
这种相关性的因素考虑进去
同时度量外貌
对教学评价的影响
下节课,我们要
亲自分析一下这些数据
从而更好地理解
这条线的含义
- [讲解员] 祝贺你!
你离成为数据'忍者"
又近了一步!
不过,要想熟练掌握所学内容
你还需要做些习题
来磨练技艺
准备好迎接下一个挑战了吗?
请点击“下一个视频”
还在观看?
请观看边际革命大学的
其他热门视频
不仅理解数据
而且理解你的世界
♪ [音乐] ♪