WEBVTT 00:00:00.107 --> 00:00:03.926 ♪ [音乐] ♪ 00:00:11.532 --> 00:00:14.532 理解数据 00:00:15.794 --> 00:00:18.794 线性回归简介 00:00:20.880 --> 00:00:22.077 - [Thomas Stratmann] 大家好! 00:00:22.077 --> 00:00:24.268 在接下来的一系列视频中 00:00:24.268 --> 00:00:27.598 我们将向你介绍一个 炫酷的新工具 00:00:27.598 --> 00:00:30.414 来帮助你理解数据 00:00:30.414 --> 00:00:32.691 那就是“线性回归” 00:00:32.885 --> 00:00:34.668 假设你有这么一种理论 00:00:34.668 --> 00:00:37.249 你发现外貌出众的人 00:00:37.249 --> 00:00:39.567 好像总能得到特殊的优待 00:00:39.567 --> 00:00:40.718 你在想 00:00:40.718 --> 00:00:44.138 “还有什么地方 也能看到这种现象呢?” 00:00:44.138 --> 00:00:46.057 对教授来说 这种现象也存在吗? 00:00:46.057 --> 00:00:48.259 有没有可能 外貌出众的老师 00:00:48.259 --> 00:00:50.400 也会得到特别优待呢? 00:00:50.400 --> 00:00:53.899 学生们会不会 对这些老师更好 00:00:53.899 --> 00:00:57.489 给他们打更高的 学生评价分? 00:00:57.866 --> 00:00:59.356 如果确实如此 00:00:59.356 --> 00:01:01.757 外貌对评价分的影响 00:01:01.757 --> 00:01:03.873 是很大还是很小呢? 00:01:04.159 --> 00:01:07.759 假设有位教师刚刚开始 到一所大学上班 00:01:07.759 --> 00:01:08.839 - [背景男声] 同学们,早啊 00:01:08.839 --> 00:01:12.100 - 仅从他的外貌 我们能对他的学生评价分 00:01:12.100 --> 00:01:13.951 做出怎样的预测? 00:01:13.951 --> 00:01:17.456 由于评价分会影响到加薪 00:01:17.456 --> 00:01:19.331 如果这个理论属实 00:01:19.331 --> 00:01:22.999 老师们可能会 采取一些令人惊讶的手段 00:01:22.999 --> 00:01:24.599 来提高他们的得分 00:01:24.599 --> 00:01:25.731 - [Lloyd Christmas] 耶! 00:01:25.731 --> 00:01:27.461 - 如果你想弄清楚 00:01:27.461 --> 00:01:31.461 更出众的外貌是否真的会 带来更高的评价分 00:01:31.461 --> 00:01:34.450 你会怎样 检验这个假说呢? 00:01:34.956 --> 00:01:36.762 你可以收集数据 00:01:36.762 --> 00:01:39.855 首先,让学生从1到10 00:01:39.855 --> 00:01:41.586 给老师的外貌打分 00:01:41.586 --> 00:01:45.237 由此你可以得出 这位老师的颜值平均分 00:01:45.237 --> 00:01:48.122 然后你可以从 25名学生那里 00:01:48.122 --> 00:01:50.421 收集这位老师的 教学评价分 00:01:50.421 --> 00:01:52.583 我们通过散点图 00:01:52.583 --> 00:01:54.738 来观察这两个变量 00:01:54.981 --> 00:01:57.419 我们用横轴表示外貌 00:01:57.852 --> 00:02:00.589 纵轴表示教学评价分 00:02:01.223 --> 00:02:04.903 例如,这一点代表着 Peate 教授 00:02:04.903 --> 00:02:06.423 - [Bib Fortuna] 你好哇! 00:02:06.423 --> 00:02:08.811 - 他得到了3分的外貌分 00:02:08.811 --> 00:02:11.866 8.425的教学评价分 00:02:12.084 --> 00:02:14.958 这边特别靠右的是 Helmchen 教授 00:02:14.958 --> 00:02:16.797 - [Ben Stiller, "Zoolander"] 帅到不像话! 00:02:16.797 --> 00:02:18.721 - 他的外貌得分非常高 00:02:18.721 --> 00:02:21.132 但教学评价分却很低 00:02:21.132 --> 00:02:22.393 你能看出规律吗? 00:02:22.393 --> 00:02:25.533 当我们沿x轴从左向右移动 00:02:25.533 --> 00:02:27.963 从难看向好看移动 00:02:27.963 --> 00:02:31.186 评价分呈现出上升趋势 00:02:31.870 --> 00:02:35.574 对了,我们在这个系列视频中 使用的数据 00:02:35.574 --> 00:02:37.103 不是编造出来的 00:02:37.103 --> 00:02:41.387 而是来自于德克萨斯大学的 真实调查 00:02:41.387 --> 00:02:44.483 另外你可能不知道 “pulchritude”只不过是 00:02:44.483 --> 00:02:48.410 “颜值”的另一种 比较高端、学术的说法 00:02:48.410 --> 00:02:49.564 有些时候 00:02:49.564 --> 00:02:55.594 用散点图很难判断出 两个变量之间的确切关系 00:02:55.594 --> 00:02:58.814 尤其是随着我们 从左向右移动 00:02:58.814 --> 00:03:01.998 数值的波动很大的时候 00:03:02.000 --> 00:03:04.908 对付这种波动的 一种方法是 00:03:04.908 --> 00:03:08.144 画一条直线 穿过这团数据 00:03:08.144 --> 00:03:09.625 让这条直线 00:03:09.625 --> 00:03:12.973 尽可能贴切地描述这些数据 00:03:13.295 --> 00:03:17.181 专业的说法叫做“线性回归” 00:03:17.669 --> 00:03:20.888 以后我们会讲到 这条线是怎么画出来的 00:03:20.888 --> 00:03:22.958 不过今天我们可以先假设 00:03:22.958 --> 00:03:26.846 这条线已经尽可能 贴近数据了 00:03:27.087 --> 00:03:30.076 那么这条线能 告诉我们什么呢? 00:03:30.076 --> 00:03:32.596 首先,我们立刻就能看出 00:03:32.596 --> 00:03:35.358 这条线是向上还是向下倾斜 00:03:36.107 --> 00:03:39.827 在我们的数据组中 这条线向上倾斜 00:03:40.794 --> 00:03:42.137 这也就验证了 00:03:42.137 --> 00:03:46.097 我们之前通过观察散点图 得出的假说 00:03:46.097 --> 00:03:47.877 向上倾斜意味着 00:03:47.877 --> 00:03:53.026 外貌和评价分存在正相关 00:03:53.544 --> 00:03:54.647 换句话说 00:03:54.647 --> 00:03:55.738 平均说来 00:03:55.738 --> 00:03:59.768 好看的老师 得到的评价分更高 00:03:59.768 --> 00:04:04.399 其他数据组 可能显示出更强的正相关 00:04:04.399 --> 00:04:07.420 也有可能显示出负相关 00:04:07.857 --> 00:04:10.764 也有可能根本没有相关性 00:04:11.158 --> 00:04:13.903 线也未必都是直线 00:04:14.389 --> 00:04:17.814 必要时可以弯曲 以便更好贴合数据 00:04:17.814 --> 00:04:21.602 这条线也给我们提供了 一种预测结果的方法 00:04:21.602 --> 00:04:23.699 对一个给定的外貌得分 00:04:23.699 --> 00:04:28.429 我们可以直接从线上读出 评价分的预测值 00:04:28.429 --> 00:04:30.229 再回头看一下新来的老师 00:04:30.229 --> 00:04:31.297 - [Lloyd] 眼熟吗? 00:04:31.297 --> 00:04:34.109 - 我们可以准确预测出 他的评价分 00:04:34.683 --> 00:04:36.879 你可能想说“等一下!” 00:04:36.879 --> 00:04:38.749 “我们能相信这个预测吗?” 00:04:39.233 --> 00:04:40.755 颜值这个变量 00:04:40.755 --> 00:04:44.455 究竟能多么准确地 预测评价分呢? 00:04:44.844 --> 00:04:46.530 线性回归给我们提供了 00:04:46.530 --> 00:04:49.770 能用来回答这些问题的 一些实用的方法 00:04:49.770 --> 00:04:52.039 我们在以后的视频中 再来探讨 00:04:52.838 --> 00:04:55.439 在得出任何 肯定的结论之前 00:04:55.439 --> 00:04:58.340 我们还得当心几个陷阱 00:04:58.833 --> 00:05:00.430 想象这样一种情况 00:05:00.430 --> 00:05:02.739 我们所看到的关联背后 00:05:02.739 --> 00:05:07.450 其实是被我们忽略掉的 第三个变量在起作用 00:05:07.450 --> 00:05:09.965 例如课程的难度 00:05:09.965 --> 00:05:11.156 可能导致了 00:05:11.156 --> 00:05:15.645 外貌得分与教学评价分 之间的正相关 00:05:16.052 --> 00:05:19.256 教简单的导论课的老师 总能得到高评价分 00:05:19.256 --> 00:05:23.382 教级别更高、更难的课的老师 就容易得到差评 00:05:23.660 --> 00:05:28.088 而年轻的老师 可能会被安排去上导论课 00:05:28.088 --> 00:05:32.565 那么如果学生认为 年轻的老师更有吸引力 00:05:32.565 --> 00:05:34.855 外貌得分与教学评价分 00:05:34.855 --> 00:05:37.383 就会呈现正相关 00:05:37.861 --> 00:05:42.308 但实际上是课程难度 这个被我们忽视了的变量 00:05:42.308 --> 00:05:43.997 在影响着评价分 00:05:43.997 --> 00:05:45.848 而不是外貌 00:05:46.346 --> 00:05:50.367 在那种情况下 一切的美化打扮都是徒劳的 00:05:50.367 --> 00:05:53.620 相关性被错误地 当成了因果关系 00:05:53.620 --> 00:05:54.900 - [Lloyd] 等一下… 00:05:54.900 --> 00:05:58.166 在后面的视频中 我们会进一步探讨这个问题 00:05:58.922 --> 00:06:02.069 另外,会不会有其他重要的变量 00:06:02.069 --> 00:06:06.151 同时影响着 外貌得分和评价分呢? 00:06:06.626 --> 00:06:09.915 为了更清晰地分辨 外貌对评价分的影响 00:06:09.915 --> 00:06:14.577 像技术,种族,性别 英语是不是母语 00:06:14.577 --> 00:06:18.994 都可能是你需要考虑的因素 00:06:19.408 --> 00:06:21.378 等我们讲到多元回归时 00:06:21.378 --> 00:06:23.027 就能把其他 00:06:23.027 --> 00:06:26.739 可能影响 这种相关性的因素考虑进去 00:06:26.739 --> 00:06:28.368 同时度量外貌 00:06:28.368 --> 00:06:30.737 对教学评价的影响 00:06:31.762 --> 00:06:35.329 下节课,我们要 亲自分析一下这些数据 00:06:35.329 --> 00:06:39.070 从而更好地理解 这条线的含义 00:06:41.169 --> 00:06:42.445 - [讲解员] 祝贺你! 00:06:42.445 --> 00:06:45.247 你离成为数据'忍者" 又近了一步! 00:06:45.568 --> 00:06:47.139 不过,要想熟练掌握所学内容 00:06:47.139 --> 00:06:48.700 你还需要做些习题 00:06:48.700 --> 00:06:50.404 来磨练技艺 00:06:50.865 --> 00:06:53.976 准备好迎接下一个挑战了吗? 请点击“下一个视频” 00:06:54.313 --> 00:06:55.364 还在观看? 00:06:55.598 --> 00:06:58.325 不仅理解数据 而且理解你的世界 00:06:58.325 --> 00:07:01.642 请观看边际革命大学的 其他热门视频 00:07:02.001 --> 00:07:05.901 ♪ [音乐] ♪