WEBVTT 00:00:00.107 --> 00:00:03.926 ♪ [音乐] ♪ 00:00:20.880 --> 00:00:22.077 - [Thomas Stratmann] 大家好! 00:00:22.077 --> 00:00:24.268 在接下来的一系列视频中 00:00:24.268 --> 00:00:26.858 我们将向你介绍一个 炫酷的新工具 00:00:26.858 --> 00:00:30.414 来帮助你理解数据 00:00:30.414 --> 00:00:31.981 那就是“线性回归” 00:00:32.885 --> 00:00:34.668 假设你有这么一种理论 00:00:34.668 --> 00:00:37.249 你发现外貌出众的人 00:00:37.249 --> 00:00:39.067 好像总能得到特殊的优待 00:00:39.642 --> 00:00:40.878 你在想 00:00:40.878 --> 00:00:43.798 “还有什么地方 也能看到这种现象呢?” 00:00:44.132 --> 00:00:45.637 对教师来说 这种现象也存在吗? 00:00:45.637 --> 00:00:48.259 有没有可能 外貌出众的老师 00:00:48.259 --> 00:00:50.010 也会得到特别优待呢? 00:00:50.350 --> 00:00:53.899 学生们会不会 对这些老师更好 00:00:53.899 --> 00:00:57.209 给他们打更高的学生评价分? 00:00:57.866 --> 00:01:00.467 如果确实如此 外貌对评价分的影响 00:01:00.467 --> 00:01:03.573 是很大还是很小呢? 00:01:04.159 --> 00:01:07.519 假设有位教师刚刚开始 到一所大学上班 00:01:07.519 --> 00:01:08.759 - [男人] 老兄,早啊 00:01:08.759 --> 00:01:11.810 - 仅从他的外貌 我们能对他的学生评价分 00:01:11.810 --> 00:01:13.371 做出怎样的预测? 00:01:13.940 --> 00:01:17.216 由于评价分能影响加薪 00:01:17.671 --> 00:01:21.709 如果这个理论属实 老师们可能会 00:01:21.709 --> 00:01:24.519 采取一些令人惊讶的手段 来提高他们的得分 00:01:24.519 --> 00:01:25.731 - [Lloyd Christmas] 耶! 00:01:25.731 --> 00:01:27.461 - 如果你想弄清楚 00:01:27.461 --> 00:01:30.801 更出众的外貌是否真的会 带来更高的评价分 00:01:31.441 --> 00:01:34.450 你会怎样检验这个假说呢? 00:01:34.956 --> 00:01:36.552 你可以收集数据 00:01:36.761 --> 00:01:40.025 首先,让学生从1到10 00:01:40.025 --> 00:01:42.076 给老师的外貌打分 00:01:42.076 --> 00:01:44.807 由此你可以得出 这位老师的颜值平均分 00:01:45.229 --> 00:01:48.552 然后你可以从25名学生处 00:01:48.552 --> 00:01:50.421 收集这位老师的教学评价分 00:01:50.421 --> 00:01:53.273 我们通过散点图 00:01:53.273 --> 00:01:54.738 来同时查看这两个变量 00:01:54.981 --> 00:01:57.419 我们用横轴表示外貌 00:01:57.852 --> 00:02:00.589 纵轴表示教学评价分 00:02:01.223 --> 00:02:04.903 例如,这一点代表着 Peate 教授 00:02:04.903 --> 00:02:06.423 - [Bib Fortuna] De wana wanga. 00:02:06.423 --> 00:02:08.811 - 他得到了3分的外貌分 00:02:08.811 --> 00:02:11.866 8.425的教学评价分 00:02:12.084 --> 00:02:14.958 这边的是 Helmchen 教授 00:02:14.958 --> 00:02:16.797 - [Ben Stiller, "Zoolander"] 帅到不像话! 00:02:16.797 --> 00:02:18.721 - 他的外貌得分非常高 00:02:18.721 --> 00:02:20.872 但评价分没那么高 00:02:21.101 --> 00:02:22.283 你能看出规律吗? 00:02:22.283 --> 00:02:25.533 当我们沿x轴从左向右移动 00:02:25.533 --> 00:02:27.963 从难看向好看移动 00:02:27.963 --> 00:02:31.186 评价分呈现出上升趋势 00:02:31.870 --> 00:02:35.174 对了,我们在这个系列视频中 使用的数据 00:02:35.174 --> 00:02:38.923 不是编造出来的 而是来自于 00:02:38.923 --> 00:02:40.897 在德克萨斯大学做过的 真实研究 00:02:41.337 --> 00:02:46.023 另外你可能不知道 “pulchritude”只不过是 00:02:46.023 --> 00:02:47.880 “颜值”的另一种 比较高端、学术的说法 00:02:48.405 --> 00:02:51.474 有些时候 00:02:51.474 --> 00:02:55.594 用散点图很难判断出 两个变量之间的确切关系 00:02:55.594 --> 00:02:59.104 尤其是随着我们 从左向右移动 00:02:59.104 --> 00:03:01.318 数值的波动很大的时候 00:03:02.000 --> 00:03:04.908 处理这种波动的一种方法是 00:03:04.908 --> 00:03:08.144 画一条直线 穿过这团数据 00:03:08.144 --> 00:03:10.775 让这条直线 00:03:10.775 --> 00:03:12.613 尽可能贴切地概括这些数据 00:03:13.295 --> 00:03:17.181 专业的说法叫做“线性回归” 00:03:17.669 --> 00:03:20.888 以后我们会讲到 这条线是怎么画出来的 00:03:20.888 --> 00:03:24.278 不过今天我们可以先假设 00:03:24.278 --> 00:03:26.456 这条线已经尽量地贴合了数据 00:03:27.087 --> 00:03:29.536 那么这条线能告诉我们什么呢? 00:03:30.067 --> 00:03:32.596 首先,我们立刻就能看出 00:03:32.596 --> 00:03:35.358 这条线是向上还是向下倾斜 00:03:36.107 --> 00:03:39.827 在我们的数据组中 这条线向上倾斜 00:03:40.794 --> 00:03:43.807 这也就验证了 00:03:43.807 --> 00:03:45.587 我们之前通过观察散点图 得出的假说 00:03:46.070 --> 00:03:50.237 向上倾斜就意味着 00:03:50.237 --> 00:03:53.026 外貌和评价分正相关 00:03:53.544 --> 00:03:55.907 换句话说 00:03:55.907 --> 00:03:59.469 平均说来 好看的老师得到的评价分更高 00:03:59.768 --> 00:04:03.939 其他数据组 可能显示出更强的正相关 00:04:04.377 --> 00:04:07.420 也有可能显示出负相关 00:04:07.857 --> 00:04:10.764 也有可能根本没有相关性 00:04:11.158 --> 00:04:13.903 线也未必要是直线 00:04:14.389 --> 00:04:17.304 必要时可以弯曲 以便更好贴合数据 00:04:17.770 --> 00:04:21.262 这条线也给我们提供了 一种预测结果的方法 00:04:21.579 --> 00:04:25.569 对一个给定的外貌得分 00:04:25.569 --> 00:04:28.429 我们可以直接从线上读出 评价分的预测值 00:04:28.429 --> 00:04:30.229 再回头看一下新来的老师 00:04:30.229 --> 00:04:31.297 - [Lloyd] 眼熟吗? 00:04:31.297 --> 00:04:34.109 - 我们可以准确预测出 他的评价分 00:04:34.683 --> 00:04:36.749 你可能想说“等一下!” 00:04:37.019 --> 00:04:38.749 “我们能相信这个预测吗?” 00:04:39.233 --> 00:04:41.665 我们的外貌变量 00:04:41.665 --> 00:04:43.515 究竟能多么准确地 预测评价分呢? 00:04:44.844 --> 00:04:47.890 线性回归给我们提供了 00:04:47.890 --> 00:04:49.770 能用来回答这些问题的 一些实用的方法 00:04:49.770 --> 00:04:52.039 我们在以后的视频中 再来探讨 00:04:52.838 --> 00:04:55.439 在得出任何肯定的结论之前 00:04:55.439 --> 00:04:58.340 我们还得当心几个陷阱 00:04:58.833 --> 00:05:00.430 想象这样一种情况 00:05:00.430 --> 00:05:03.639 我们所看到的关联背后 00:05:03.639 --> 00:05:06.900 其实是被我们忽略掉的 第三个变量在起作用 00:05:07.344 --> 00:05:09.965 例如课程的难度 00:05:09.965 --> 00:05:12.456 可能导致了 00:05:12.456 --> 00:05:15.645 外貌得分与教学评价分 之间的正相关 00:05:16.052 --> 00:05:18.956 简单的导论课 总能得到高评价分 00:05:19.228 --> 00:05:22.972 级别更高、更难的课 容易得到差评 00:05:23.660 --> 00:05:27.668 而年轻的老师 可能会被安排去上导论课 00:05:28.080 --> 00:05:32.095 那么如果学生认为 年轻的老师更有吸引力 00:05:32.095 --> 00:05:34.335 外貌得分与教学评价分 00:05:34.335 --> 00:05:37.383 就会呈现正相关 00:05:37.861 --> 00:05:40.388 但实际上是课程难度 00:05:40.388 --> 00:05:43.537 这个被我们忽视了的变量 在影响着评价分 00:05:43.537 --> 00:05:45.848 而不是外貌 00:05:46.346 --> 00:05:49.807 在那种情况下 一切的掩饰都是徒劳 00:05:50.289 --> 00:05:53.620 相关性被错误地 当成了因果关系 00:05:53.620 --> 00:05:54.900 - [Lloyd] 等一下… 00:05:54.900 --> 00:05:58.166 在后面的视频中 我们会进一步探讨这个问题 00:05:58.922 --> 00:06:02.069 另外,会不会有其他重要的变量 00:06:02.069 --> 00:06:05.781 同时影响着外貌得分和评价分呢? 00:06:06.626 --> 00:06:09.575 为了把外貌对评价分的影响 更清楚地剥离出来 00:06:09.846 --> 00:06:14.577 技能,种族,性别 老师的母语是否为英语 00:06:14.577 --> 00:06:18.994 都是你可能需要考虑的因素 00:06:19.408 --> 00:06:21.758 等我们讲到复回归 00:06:21.758 --> 00:06:24.477 就能在考虑到其他 00:06:24.477 --> 00:06:26.219 可能干扰这种关联的因素 的前提下 00:06:26.219 --> 00:06:28.368 度量外貌 00:06:28.368 --> 00:06:30.737 对教学评价的影响 00:06:31.762 --> 00:06:35.509 接下来我们要 动手摆弄摆弄这些数据 00:06:35.509 --> 00:06:39.070 从而更好地理解 这条线的含义 00:06:41.169 --> 00:06:42.445 - [讲解员] 祝贺你! 00:06:42.445 --> 00:06:45.247 你离成为数据忍者 又近了一步! 00:06:45.568 --> 00:06:47.139 不过,要想熟练掌握所学内容 00:06:47.139 --> 00:06:48.700 你还需要做些习题 00:06:48.700 --> 00:06:50.404 来磨练技艺 00:06:50.865 --> 00:06:53.976 准备好迎接下一项任务了吗? 请点击“下一个视频” 00:06:54.313 --> 00:06:55.364 还在观看? 00:06:55.598 --> 00:06:58.325 想要理解数据 进而理解你的世界 00:06:58.325 --> 00:07:01.642 请观看边际革命大学的 其他热门视频 99:59:59.999 --> 99:59:59.999 ♪ [音乐] ♪