0:00:00.107,0:00:03.926 ♪ [音乐] ♪ 0:00:11.532,0:00:14.532 理解数据 0:00:15.794,0:00:18.794 线性回归简介 0:00:20.880,0:00:22.077 - [Thomas Stratmann] 大家好! 0:00:22.077,0:00:24.268 在接下来的一系列视频中 0:00:24.268,0:00:27.598 我们将向你介绍一个[br]炫酷的新工具 0:00:27.598,0:00:30.414 来帮助你理解数据 0:00:30.414,0:00:32.691 那就是“线性回归” 0:00:32.885,0:00:34.668 假设你有这么一种理论 0:00:34.668,0:00:37.249 你发现外貌出众的人 0:00:37.249,0:00:39.567 好像总能得到特殊的优待 0:00:39.567,0:00:40.718 你在想 0:00:40.718,0:00:44.138 “还有什么地方[br]也能看到这种现象呢?” 0:00:44.138,0:00:46.057 对教授来说[br]这种现象也存在吗? 0:00:46.057,0:00:48.259 有没有可能[br]外貌出众的老师 0:00:48.259,0:00:50.400 也会得到特别优待呢? 0:00:50.400,0:00:53.899 学生们会不会[br]对这些老师更好 0:00:53.899,0:00:57.489 给他们打更高的[br]学生评价分? 0:00:57.866,0:00:59.356 如果确实如此 0:00:59.356,0:01:01.757 外貌对评价分的影响 0:01:01.757,0:01:03.873 是很大还是很小呢? 0:01:04.159,0:01:07.759 假设有位教师刚刚开始[br]到一所大学上班 0:01:07.759,0:01:08.839 - [背景男声] 同学们,早啊 0:01:08.839,0:01:12.100 - 仅从他的外貌[br]我们能对他的学生评价分 0:01:12.100,0:01:13.951 做出怎样的预测? 0:01:13.951,0:01:17.456 由于评价分会影响到加薪 0:01:17.456,0:01:19.331 如果这个理论属实[br] 0:01:19.331,0:01:22.999 老师们可能会[br]采取一些令人惊讶的手段 0:01:22.999,0:01:24.599 来提高他们的得分 0:01:24.599,0:01:25.731 - [Lloyd Christmas] 耶! 0:01:25.731,0:01:27.461 - 如果你想弄清楚 0:01:27.461,0:01:31.461 更出众的外貌是否真的会[br]带来更高的评价分 0:01:31.461,0:01:34.450 你会怎样[br]检验这个假说呢? 0:01:34.956,0:01:36.762 你可以收集数据 0:01:36.762,0:01:39.855 首先,让学生从1到10 0:01:39.855,0:01:41.586 给老师的外貌打分 0:01:41.586,0:01:45.237 由此你可以得出[br]这位老师的颜值平均分 0:01:45.237,0:01:48.122 然后你可以从[br]25名学生那里 0:01:48.122,0:01:50.421 收集这位老师的[br]教学评价分 0:01:50.421,0:01:52.583 我们通过散点图 0:01:52.583,0:01:54.738 来观察这两个变量 0:01:54.981,0:01:57.419 我们用横轴表示外貌 0:01:57.852,0:02:00.589 纵轴表示教学评价分 0:02:01.223,0:02:04.903 例如,这一点代表着[br]Peate 教授 0:02:04.903,0:02:06.423 - [Bib Fortuna] 你好哇! 0:02:06.423,0:02:08.811 - 他得到了3分的外貌分 0:02:08.811,0:02:11.866 8.425的教学评价分 0:02:12.084,0:02:14.958 这边特别靠右的是[br]Helmchen 教授 0:02:14.958,0:02:16.797 - [Ben Stiller, "Zoolander"][br]帅到不像话! 0:02:16.797,0:02:18.721 - 他的外貌得分非常高 0:02:18.721,0:02:21.132 但教学评价分却很低 0:02:21.132,0:02:22.393 你能看出规律吗? 0:02:22.393,0:02:25.533 当我们沿x轴从左向右移动 0:02:25.533,0:02:27.963 从难看向好看移动 0:02:27.963,0:02:31.186 评价分呈现出上升趋势 0:02:31.870,0:02:35.574 对了,我们在这个系列视频中[br]使用的数据 0:02:35.574,0:02:37.103 不是编造出来的[br] 0:02:37.103,0:02:41.387 而是来自于德克萨斯大学的[br]真实调查 0:02:41.387,0:02:44.483 另外你可能不知道[br]“pulchritude”只不过是 0:02:44.483,0:02:48.410 “颜值”的另一种[br]比较高端、学术的说法 0:02:48.410,0:02:49.564 有些时候 0:02:49.564,0:02:55.594 用散点图很难判断出[br]两个变量之间的确切关系 0:02:55.594,0:02:58.814 尤其是随着我们[br]从左向右移动 0:02:58.814,0:03:01.998 数值的波动很大的时候 0:03:02.000,0:03:04.908 对付这种波动的[br]一种方法是 0:03:04.908,0:03:08.144 画一条直线[br]穿过这团数据 0:03:08.144,0:03:09.625 让这条直线 0:03:09.625,0:03:12.973 尽可能贴切地描述这些数据 0:03:13.295,0:03:17.181 专业的说法叫做“线性回归” 0:03:17.669,0:03:20.888 以后我们会讲到[br]这条线是怎么画出来的 0:03:20.888,0:03:22.958 不过今天我们可以先假设 0:03:22.958,0:03:26.846 这条线已经尽可能[br]贴近数据了 0:03:27.087,0:03:30.076 那么这条线能[br]告诉我们什么呢? 0:03:30.076,0:03:32.596 首先,我们立刻就能看出 0:03:32.596,0:03:35.358 这条线是向上还是向下倾斜 0:03:36.107,0:03:39.827 在我们的数据组中[br]这条线向上倾斜 0:03:40.794,0:03:42.137 这也就验证了 0:03:42.137,0:03:46.097 我们之前通过观察散点图[br]得出的假说 0:03:46.097,0:03:47.877 向上倾斜意味着 0:03:47.877,0:03:53.026 外貌和评价分存在正相关 0:03:53.544,0:03:54.647 换句话说 0:03:54.647,0:03:55.738 平均说来 0:03:55.738,0:03:59.768 好看的老师[br]得到的评价分更高 0:03:59.768,0:04:04.399 其他数据组[br]可能显示出更强的正相关 0:04:04.399,0:04:07.420 也有可能显示出负相关 0:04:07.857,0:04:10.764 也有可能根本没有相关性 0:04:11.158,0:04:13.903 线也未必都是直线 0:04:14.389,0:04:17.814 必要时可以弯曲[br]以便更好贴合数据 0:04:17.814,0:04:21.602 这条线也给我们提供了[br]一种预测结果的方法 0:04:21.602,0:04:23.699 对一个给定的外貌得分 0:04:23.699,0:04:28.429 我们可以直接从线上读出[br]评价分的预测值 0:04:28.429,0:04:30.229 再回头看一下新来的老师 0:04:30.229,0:04:31.297 - [Lloyd] 眼熟吗? 0:04:31.297,0:04:34.109 - 我们可以准确预测出[br]他的评价分 0:04:34.683,0:04:36.879 你可能想说“等一下!” 0:04:36.879,0:04:38.749 “我们能相信这个预测吗?” 0:04:39.233,0:04:40.755 颜值这个变量 0:04:40.755,0:04:43.515 究竟能多么准确地[br]预测评价分呢? 0:04:44.844,0:04:46.790 线性回归给我们提供了 0:04:46.790,0:04:49.770 能用来回答这些问题的[br]一些实用的方法 0:04:49.770,0:04:52.039 我们在以后的视频中[br]再来探讨 0:04:52.838,0:04:55.439 在得出任何肯定的结论之前 0:04:55.439,0:04:58.340 我们还得当心几个陷阱 0:04:58.833,0:05:00.430 想象这样一种情况 0:05:00.430,0:05:03.639 我们所看到的关联背后 0:05:03.639,0:05:06.900 其实是被我们忽略掉的[br]第三个变量在起作用 0:05:07.344,0:05:09.965 例如课程的难度 0:05:09.965,0:05:11.156 可能导致了 0:05:11.156,0:05:15.645 外貌得分与教学评价分[br]之间的正相关 0:05:16.052,0:05:19.256 教简单的导论课的老师[br]总能得到高评价分 0:05:19.256,0:05:22.972 教级别更高、更难的课的老师[br]就容易得到差评 0:05:23.660,0:05:27.668 而年轻的老师[br]可能会被安排去上导论课 0:05:28.080,0:05:32.095 那么如果学生认为[br]年轻的老师更有吸引力 0:05:32.095,0:05:34.335 外貌得分与教学评价分 0:05:34.335,0:05:37.383 就会呈现正相关 0:05:37.861,0:05:41.788 但实际上是课程难度[br]这个被我们忽视了的变量 0:05:41.788,0:05:43.537 在影响着评价分 0:05:43.537,0:05:45.848 而不是外貌 0:05:46.346,0:05:50.097 在那种情况下[br]一切的修饰都是徒劳的 0:05:50.289,0:05:53.620 相关性被错误地[br]当成了因果关系 0:05:53.620,0:05:54.900 - [Lloyd] 等一下… 0:05:54.900,0:05:58.166 在后面的视频中[br]我们会进一步探讨这个问题 0:05:58.922,0:06:02.069 另外,会不会有其他重要的变量 0:06:02.069,0:06:06.151 同时影响着外貌得分和评价分呢? 0:06:06.626,0:06:09.575 为了更清晰地分辨[br]外貌对评价分的影响 0:06:09.846,0:06:14.577 像技术,种族,性别[br]英语是不是母语 0:06:14.577,0:06:18.994 都可能是你需要考虑的因素 0:06:19.408,0:06:21.378 等我们讲到多元回归时 0:06:21.378,0:06:23.027 就能把其他[br] 0:06:23.027,0:06:26.219 可能影响[br]这种相关性的因素考虑进去 0:06:26.219,0:06:28.368 同时度量外貌 0:06:28.368,0:06:30.737 对教学评价的影响 0:06:31.762,0:06:35.509 下节课,我们要[br]亲自分析一下这些数据 0:06:35.509,0:06:39.070 从而更好地理解[br]这条线的含义 0:06:41.169,0:06:42.445 - [讲解员] 祝贺你! 0:06:42.445,0:06:45.247 你离成为数据'忍者"[br]又近了一步! 0:06:45.568,0:06:47.139 不过,要想熟练掌握所学内容 0:06:47.139,0:06:48.700 你还需要做些习题 0:06:48.700,0:06:50.404 来磨练技艺 0:06:50.865,0:06:53.976 准备好迎接下一个挑战了吗?[br]请点击“下一个视频” 0:06:54.313,0:06:55.364 还在观看? 0:06:55.598,0:06:58.325 想要理解数据[br]进而理解你的世界 0:06:58.325,0:07:01.642 请观看边际革命大学的[br]其他热门视频 0:07:02.001,0:07:05.901 ♪ [音乐] ♪