1 00:00:00,107 --> 00:00:03,926 ♪ [音乐] ♪ 2 00:00:20,880 --> 00:00:22,077 - [Thomas Stratmann] 大家好! 3 00:00:22,077 --> 00:00:24,268 在接下来的一系列视频中 4 00:00:24,268 --> 00:00:26,858 我们将向你介绍一个 炫酷的新工具 5 00:00:26,858 --> 00:00:30,414 来帮助你理解数据 6 00:00:30,414 --> 00:00:31,981 那就是“线性回归” 7 00:00:32,885 --> 00:00:34,668 假设你有这么一种理论 8 00:00:34,668 --> 00:00:37,249 你发现外貌出众的人 9 00:00:37,249 --> 00:00:39,067 好像总能得到特殊的优待 10 00:00:39,642 --> 00:00:40,878 你在想 11 00:00:40,878 --> 00:00:43,798 “还有什么地方 也能看到这种现象呢?” 12 00:00:44,132 --> 00:00:45,637 对教师来说 这种现象也存在吗? 13 00:00:45,637 --> 00:00:48,259 有没有可能 外貌出众的老师 14 00:00:48,259 --> 00:00:50,010 也会得到特别优待呢? 15 00:00:50,350 --> 00:00:53,899 学生们会不会 对这些老师更好 16 00:00:53,899 --> 00:00:57,209 给他们打更高的学生评价分? 17 00:00:57,866 --> 00:01:00,467 如果确实如此 外貌对评价分的影响 18 00:01:00,467 --> 00:01:03,573 是很大还是很小呢? 19 00:01:04,159 --> 00:01:07,519 假设有位教师刚刚开始 到一所大学上班 20 00:01:07,519 --> 00:01:08,759 - [男人] 老兄,早啊 21 00:01:08,759 --> 00:01:11,810 - 仅从他的外貌 我们能对他的学生评价分 22 00:01:11,810 --> 00:01:13,371 做出怎样的预测? 23 00:01:13,940 --> 00:01:17,216 由于评价分能影响加薪 24 00:01:17,671 --> 00:01:21,709 如果这个理论属实 老师们可能会 25 00:01:21,709 --> 00:01:24,519 采取一些令人惊讶的手段 来提高他们的得分 26 00:01:24,519 --> 00:01:25,731 - [Lloyd Christmas] 耶! 27 00:01:25,731 --> 00:01:27,461 - 如果你想弄清楚 28 00:01:27,461 --> 00:01:30,801 更出众的外貌是否真的会 带来更高的评价分 29 00:01:31,441 --> 00:01:34,450 你会怎样检验这个假说呢? 30 00:01:34,956 --> 00:01:36,552 你可以收集数据 31 00:01:36,761 --> 00:01:40,025 首先,让学生从1到10 32 00:01:40,025 --> 00:01:42,076 给老师的外貌打分 33 00:01:42,076 --> 00:01:44,807 由此你可以得出 这位老师的颜值平均分 34 00:01:45,229 --> 00:01:48,552 然后你可以从25名学生处 35 00:01:48,552 --> 00:01:50,421 收集这位老师的教学评价分 36 00:01:50,421 --> 00:01:53,273 我们通过散点图 37 00:01:53,273 --> 00:01:54,738 来同时查看这两个变量 38 00:01:54,981 --> 00:01:57,419 我们用横轴表示外貌 39 00:01:57,852 --> 00:02:00,589 纵轴表示教学评价分 40 00:02:01,223 --> 00:02:04,903 例如,这一点代表着 Peate 教授 41 00:02:04,903 --> 00:02:06,423 - [Bib Fortuna] De wana wanga. 42 00:02:06,423 --> 00:02:08,811 - 他得到了3分的外貌分 43 00:02:08,811 --> 00:02:11,866 8.425的教学评价分 44 00:02:12,084 --> 00:02:14,958 这边的是 Helmchen 教授 45 00:02:14,958 --> 00:02:16,797 - [Ben Stiller, "Zoolander"] 帅到不像话! 46 00:02:16,797 --> 00:02:18,721 - 他的外貌得分非常高 47 00:02:18,721 --> 00:02:20,872 但评价分没那么高 48 00:02:21,101 --> 00:02:22,283 你能看出规律吗? 49 00:02:22,283 --> 00:02:25,533 当我们沿x轴从左向右移动 50 00:02:25,533 --> 00:02:27,963 从难看向好看移动 51 00:02:27,963 --> 00:02:31,186 评价分呈现出上升趋势 52 00:02:31,870 --> 00:02:35,174 对了,我们在这个系列视频中 使用的数据 53 00:02:35,174 --> 00:02:38,923 不是编造出来的 而是来自于 54 00:02:38,923 --> 00:02:40,897 在德克萨斯大学做过的 真实研究 55 00:02:41,337 --> 00:02:46,023 另外你可能不知道 “pulchritude”只不过是 56 00:02:46,023 --> 00:02:47,880 “颜值”的另一种 比较高端、学术的说法 57 00:02:48,405 --> 00:02:51,474 有些时候 58 00:02:51,474 --> 00:02:55,594 用散点图很难判断出 两个变量之间的确切关系 59 00:02:55,594 --> 00:02:59,104 尤其是随着我们 从左向右移动 60 00:02:59,104 --> 00:03:01,318 数值的波动很大的时候 61 00:03:02,000 --> 00:03:04,908 处理这种波动的一种方法是 62 00:03:04,908 --> 00:03:08,144 画一条直线 穿过这团数据 63 00:03:08,144 --> 00:03:10,775 让这条直线 64 00:03:10,775 --> 00:03:12,613 尽可能贴切地概括这些数据 65 00:03:13,295 --> 00:03:17,181 专业的说法叫做“线性回归” 66 00:03:17,669 --> 00:03:20,888 以后我们会讲到 这条线是怎么画出来的 67 00:03:20,888 --> 00:03:24,278 不过今天我们可以先假设 68 00:03:24,278 --> 00:03:26,456 这条线已经尽量地贴合了数据 69 00:03:27,087 --> 00:03:29,536 那么这条线能告诉我们什么呢? 70 00:03:30,067 --> 00:03:32,596 首先,我们立刻就能看出 71 00:03:32,596 --> 00:03:35,358 这条线是向上还是向下倾斜 72 00:03:36,107 --> 00:03:39,827 在我们的数据组中 这条线向上倾斜 73 00:03:40,794 --> 00:03:43,807 这也就验证了 74 00:03:43,807 --> 00:03:45,587 我们之前通过观察散点图 得出的假说 75 00:03:46,070 --> 00:03:50,237 向上倾斜就意味着 76 00:03:50,237 --> 00:03:53,026 外貌和评价分正相关 77 00:03:53,544 --> 00:03:55,907 换句话说 78 00:03:55,907 --> 00:03:59,469 平均说来 好看的老师得到的评价分更高 79 00:03:59,768 --> 00:04:03,939 其他数据组 可能显示出更强的正相关 80 00:04:04,377 --> 00:04:07,420 也有可能显示出负相关 81 00:04:07,857 --> 00:04:10,764 也有可能根本没有相关性 82 00:04:11,158 --> 00:04:13,903 线也未必要是直线 83 00:04:14,389 --> 00:04:17,304 必要时可以弯曲 以便更好贴合数据 84 00:04:17,770 --> 00:04:21,262 这条线也给我们提供了 一种预测结果的方法 85 00:04:21,579 --> 00:04:25,569 对一个给定的外貌得分 86 00:04:25,569 --> 00:04:28,429 我们可以直接从线上读出 评价分的预测值 87 00:04:28,429 --> 00:04:30,229 再回头看一下新来的老师 88 00:04:30,229 --> 00:04:31,297 - [Lloyd] 眼熟吗? 89 00:04:31,297 --> 00:04:34,109 - 我们可以准确预测出 他的评价分 90 00:04:34,683 --> 00:04:36,749 你可能想说“等一下!” 91 00:04:37,019 --> 00:04:38,749 “我们能相信这个预测吗?” 92 00:04:39,233 --> 00:04:41,665 我们的外貌变量 93 00:04:41,665 --> 00:04:43,515 究竟能多么准确地 预测评价分呢? 94 00:04:44,844 --> 00:04:47,890 线性回归给我们提供了 95 00:04:47,890 --> 00:04:49,770 能用来回答这些问题的 一些实用的方法 96 00:04:49,770 --> 00:04:52,039 我们在以后的视频中 再来探讨 97 00:04:52,838 --> 00:04:55,439 在得出任何肯定的结论之前 98 00:04:55,439 --> 00:04:58,340 我们还得当心几个陷阱 99 00:04:58,833 --> 00:05:00,430 想象这样一种情况 100 00:05:00,430 --> 00:05:03,639 我们所看到的关联背后 101 00:05:03,639 --> 00:05:06,900 其实是被我们忽略掉的 第三个变量在起作用 102 00:05:07,344 --> 00:05:09,965 例如课程的难度 103 00:05:09,965 --> 00:05:12,456 可能导致了 104 00:05:12,456 --> 00:05:15,645 外貌得分与教学评价分 之间的正相关 105 00:05:16,052 --> 00:05:18,956 简单的导论课 总能得到高评价分 106 00:05:19,228 --> 00:05:22,972 级别更高、更难的课 容易得到差评 107 00:05:23,660 --> 00:05:27,668 而年轻的老师 可能会被安排去上导论课 108 00:05:28,080 --> 00:05:32,095 那么如果学生认为 年轻的老师更有吸引力 109 00:05:32,095 --> 00:05:34,335 外貌得分与教学评价分 110 00:05:34,335 --> 00:05:37,383 就会呈现正相关 111 00:05:37,861 --> 00:05:40,388 但实际上是课程难度 112 00:05:40,388 --> 00:05:43,537 这个被我们忽视了的变量 在影响着评价分 113 00:05:43,537 --> 00:05:45,848 而不是外貌 114 00:05:46,346 --> 00:05:49,807 在那种情况下 一切的掩饰都是徒劳 115 00:05:50,289 --> 00:05:53,620 相关性被错误地 当成了因果关系 116 00:05:53,620 --> 00:05:54,900 - [Lloyd] 等一下… 117 00:05:54,900 --> 00:05:58,166 在后面的视频中 我们会进一步探讨这个问题 118 00:05:58,922 --> 00:06:02,069 另外,会不会有其他重要的变量 119 00:06:02,069 --> 00:06:05,781 同时影响着外貌得分和评价分呢? 120 00:06:06,626 --> 00:06:09,575 为了把外貌对评价分的影响 更清楚地剥离出来 121 00:06:09,846 --> 00:06:14,577 技能,种族,性别 老师的母语是否为英语 122 00:06:14,577 --> 00:06:18,994 都是你可能需要考虑的因素 123 00:06:19,408 --> 00:06:21,758 等我们讲到复回归 124 00:06:21,758 --> 00:06:24,477 就能在考虑到其他 125 00:06:24,477 --> 00:06:26,219 可能干扰这种关联的因素 的前提下 126 00:06:26,219 --> 00:06:28,368 度量外貌 127 00:06:28,368 --> 00:06:30,737 对教学评价的影响 128 00:06:31,762 --> 00:06:35,509 接下来我们要 动手摆弄摆弄这些数据 129 00:06:35,509 --> 00:06:39,070 从而更好地理解 这条线的含义 130 00:06:41,169 --> 00:06:42,445 - [讲解员] 祝贺你! 131 00:06:42,445 --> 00:06:45,247 你离成为数据忍者 又近了一步! 132 00:06:45,568 --> 00:06:47,139 不过,要想熟练掌握所学内容 133 00:06:47,139 --> 00:06:48,700 你还需要做些习题 134 00:06:48,700 --> 00:06:50,404 来磨练技艺 135 00:06:50,865 --> 00:06:53,976 准备好迎接下一项任务了吗? 请点击“下一个视频” 136 00:06:54,313 --> 00:06:55,364 还在观看? 137 00:06:55,598 --> 00:06:58,325 想要理解数据 进而理解你的世界 138 00:06:58,325 --> 00:07:01,642 请观看边际革命大学的 其他热门视频 139 99:59:59,999 --> 99:59:59,999 ♪ [音乐] ♪