1 00:00:00,107 --> 00:00:03,926 ♪ [音乐] ♪ 2 00:00:11,532 --> 00:00:14,532 理解数据 3 00:00:15,794 --> 00:00:18,794 线性回归简介 4 00:00:20,880 --> 00:00:22,077 - [Thomas Stratmann] 大家好! 5 00:00:22,077 --> 00:00:24,268 在接下来的一系列视频中 6 00:00:24,268 --> 00:00:27,598 我们将向你介绍一个 炫酷的新工具 7 00:00:27,598 --> 00:00:30,414 来帮助你理解数据 8 00:00:30,414 --> 00:00:32,691 那就是“线性回归” 9 00:00:32,885 --> 00:00:34,668 假设你有这么一种理论 10 00:00:34,668 --> 00:00:37,249 你发现外貌出众的人 11 00:00:37,249 --> 00:00:39,567 好像总能得到特殊的优待 12 00:00:39,567 --> 00:00:40,718 你在想 13 00:00:40,718 --> 00:00:44,138 “还有什么地方 也能看到这种现象呢?” 14 00:00:44,138 --> 00:00:46,057 对教授来说 这种现象也存在吗? 15 00:00:46,057 --> 00:00:48,259 有没有可能 外貌出众的老师 16 00:00:48,259 --> 00:00:50,400 也会得到特别优待呢? 17 00:00:50,400 --> 00:00:53,899 学生们会不会 对这些老师更好 18 00:00:53,899 --> 00:00:57,489 给他们打更高的 学生评价分? 19 00:00:57,866 --> 00:00:59,356 如果确实如此 20 00:00:59,356 --> 00:01:01,757 外貌对评价分的影响 21 00:01:01,757 --> 00:01:03,873 是很大还是很小呢? 22 00:01:04,159 --> 00:01:07,759 假设有位教师刚刚开始 到一所大学上班 23 00:01:07,759 --> 00:01:08,839 - [背景男声] 同学们,早啊 24 00:01:08,839 --> 00:01:12,100 - 仅从他的外貌 我们能对他的学生评价分 25 00:01:12,100 --> 00:01:13,951 做出怎样的预测? 26 00:01:13,951 --> 00:01:17,456 由于评价分会影响到加薪 27 00:01:17,456 --> 00:01:19,331 如果这个理论属实 28 00:01:19,331 --> 00:01:22,999 老师们可能会 采取一些令人惊讶的手段 29 00:01:22,999 --> 00:01:24,599 来提高他们的得分 30 00:01:24,599 --> 00:01:25,731 - [Lloyd Christmas] 耶! 31 00:01:25,731 --> 00:01:27,461 - 如果你想弄清楚 32 00:01:27,461 --> 00:01:31,461 更出众的外貌是否真的会 带来更高的评价分 33 00:01:31,461 --> 00:01:34,450 你会怎样 检验这个假说呢? 34 00:01:34,956 --> 00:01:36,762 你可以收集数据 35 00:01:36,762 --> 00:01:39,855 首先,让学生从1到10 36 00:01:39,855 --> 00:01:41,586 给老师的外貌打分 37 00:01:41,586 --> 00:01:45,237 由此你可以得出 这位老师的颜值平均分 38 00:01:45,237 --> 00:01:48,122 然后你可以从 25名学生那里 39 00:01:48,122 --> 00:01:50,421 收集这位老师的 教学评价分 40 00:01:50,421 --> 00:01:52,583 我们通过散点图 41 00:01:52,583 --> 00:01:54,738 来观察这两个变量 42 00:01:54,981 --> 00:01:57,419 我们用横轴表示外貌 43 00:01:57,852 --> 00:02:00,589 纵轴表示教学评价分 44 00:02:01,223 --> 00:02:04,903 例如,这一点代表着 Peate 教授 45 00:02:04,903 --> 00:02:06,423 - [Bib Fortuna] 你好哇! 46 00:02:06,423 --> 00:02:08,811 - 他得到了3分的外貌分 47 00:02:08,811 --> 00:02:11,866 8.425的教学评价分 48 00:02:12,084 --> 00:02:14,958 这边特别靠右的是 Helmchen 教授 49 00:02:14,958 --> 00:02:16,797 - [Ben Stiller, "Zoolander"] 帅到不像话! 50 00:02:16,797 --> 00:02:18,721 - 他的外貌得分非常高 51 00:02:18,721 --> 00:02:21,132 但教学评价分却很低 52 00:02:21,132 --> 00:02:22,393 你能看出规律吗? 53 00:02:22,393 --> 00:02:25,533 当我们沿x轴从左向右移动 54 00:02:25,533 --> 00:02:27,963 从难看向好看移动 55 00:02:27,963 --> 00:02:31,186 评价分呈现出上升趋势 56 00:02:31,870 --> 00:02:35,574 对了,我们在这个系列视频中 使用的数据 57 00:02:35,574 --> 00:02:37,103 不是编造出来的 58 00:02:37,103 --> 00:02:41,387 而是来自于德克萨斯大学的 真实调查 59 00:02:41,387 --> 00:02:44,483 另外你可能不知道 “pulchritude”只不过是 60 00:02:44,483 --> 00:02:48,410 “颜值”的另一种 比较高端、学术的说法 61 00:02:48,410 --> 00:02:49,564 有些时候 62 00:02:49,564 --> 00:02:55,594 用散点图很难判断出 两个变量之间的确切关系 63 00:02:55,594 --> 00:02:58,814 尤其是随着我们 从左向右移动 64 00:02:58,814 --> 00:03:01,998 数值的波动很大的时候 65 00:03:02,000 --> 00:03:04,908 对付这种波动的 一种方法是 66 00:03:04,908 --> 00:03:08,144 画一条直线 穿过这团数据 67 00:03:08,144 --> 00:03:09,625 让这条直线 68 00:03:09,625 --> 00:03:12,973 尽可能贴切地描述这些数据 69 00:03:13,295 --> 00:03:17,181 专业的说法叫做“线性回归” 70 00:03:17,669 --> 00:03:20,888 以后我们会讲到 这条线是怎么画出来的 71 00:03:20,888 --> 00:03:22,958 不过今天我们可以先假设 72 00:03:22,958 --> 00:03:26,846 这条线已经尽可能 贴近数据了 73 00:03:27,087 --> 00:03:30,076 那么这条线能 告诉我们什么呢? 74 00:03:30,076 --> 00:03:32,596 首先,我们立刻就能看出 75 00:03:32,596 --> 00:03:35,358 这条线是向上还是向下倾斜 76 00:03:36,107 --> 00:03:39,827 在我们的数据组中 这条线向上倾斜 77 00:03:40,794 --> 00:03:42,137 这也就验证了 78 00:03:42,137 --> 00:03:46,097 我们之前通过观察散点图 得出的假说 79 00:03:46,097 --> 00:03:47,877 向上倾斜意味着 80 00:03:47,877 --> 00:03:53,026 外貌和评价分存在正相关 81 00:03:53,544 --> 00:03:54,647 换句话说 82 00:03:54,647 --> 00:03:55,738 平均说来 83 00:03:55,738 --> 00:03:59,768 好看的老师得到的评价分更高 84 00:03:59,768 --> 00:04:03,939 在其他数据组 可能显示出更强的正相关 85 00:04:04,377 --> 00:04:07,420 也有可能显示出负相关 86 00:04:07,857 --> 00:04:10,764 也有可能根本没有相关性 87 00:04:11,158 --> 00:04:13,903 线也未必都是直线 88 00:04:14,389 --> 00:04:17,304 必要时可以弯曲 以便更好贴合数据 89 00:04:17,770 --> 00:04:21,262 这条线也给我们提供了 一种预测结果的方法 90 00:04:21,579 --> 00:04:23,779 对一个给定的外貌得分 91 00:04:23,779 --> 00:04:28,429 我们可以直接从线上读出 评价分的预测值 92 00:04:28,429 --> 00:04:30,229 再回头看一下新来的老师 93 00:04:30,229 --> 00:04:31,297 - [Lloyd] 眼熟吗? 94 00:04:31,297 --> 00:04:34,109 - 我们可以准确预测出 他的评价分 95 00:04:34,683 --> 00:04:36,749 你可能想说“等一下!” 96 00:04:37,019 --> 00:04:38,749 “我们能相信这个预测吗?” 97 00:04:39,233 --> 00:04:41,665 我们的外貌变量 98 00:04:41,665 --> 00:04:43,515 究竟能多么准确地 预测评价分呢? 99 00:04:44,844 --> 00:04:46,790 线性回归给我们提供了 100 00:04:46,790 --> 00:04:49,770 能用来回答这些问题的 一些实用的方法 101 00:04:49,770 --> 00:04:52,039 我们在以后的视频中 再来探讨 102 00:04:52,838 --> 00:04:55,439 在得出任何肯定的结论之前 103 00:04:55,439 --> 00:04:58,340 我们还得当心几个陷阱 104 00:04:58,833 --> 00:05:00,430 想象这样一种情况 105 00:05:00,430 --> 00:05:03,639 我们所看到的关联背后 106 00:05:03,639 --> 00:05:06,900 其实是被我们忽略掉的 第三个变量在起作用 107 00:05:07,344 --> 00:05:09,965 例如课程的难度 108 00:05:09,965 --> 00:05:11,156 可能导致了 109 00:05:11,156 --> 00:05:15,645 外貌得分与教学评价分 之间的正相关 110 00:05:16,052 --> 00:05:19,256 教简单的导论课的老师 总能得到高评价分 111 00:05:19,256 --> 00:05:22,972 教级别更高、更难的课的老师 就容易得到差评 112 00:05:23,660 --> 00:05:27,668 而年轻的老师 可能会被安排去上导论课 113 00:05:28,080 --> 00:05:32,095 那么如果学生认为 年轻的老师更有吸引力 114 00:05:32,095 --> 00:05:34,335 外貌得分与教学评价分 115 00:05:34,335 --> 00:05:37,383 就会呈现正相关 116 00:05:37,861 --> 00:05:41,788 但实际上是课程难度 这个被我们忽视了的变量 117 00:05:41,788 --> 00:05:43,537 在影响着评价分 118 00:05:43,537 --> 00:05:45,848 而不是外貌 119 00:05:46,346 --> 00:05:50,097 在那种情况下 一切的修饰都是徒劳的 120 00:05:50,289 --> 00:05:53,620 相关性被错误地 当成了因果关系 121 00:05:53,620 --> 00:05:54,900 - [Lloyd] 等一下… 122 00:05:54,900 --> 00:05:58,166 在后面的视频中 我们会进一步探讨这个问题 123 00:05:58,922 --> 00:06:02,069 另外,会不会有其他重要的变量 124 00:06:02,069 --> 00:06:06,151 同时影响着外貌得分和评价分呢? 125 00:06:06,626 --> 00:06:09,575 为了更清晰地分辨 外貌对评价分的影响 126 00:06:09,846 --> 00:06:14,577 像技术,种族,性别 英语是不是母语 127 00:06:14,577 --> 00:06:18,994 都可能是你需要考虑的因素 128 00:06:19,408 --> 00:06:21,378 等我们讲到多元回归时 129 00:06:21,378 --> 00:06:23,027 就能把其他 130 00:06:23,027 --> 00:06:26,219 可能影响 这种相关性的因素考虑进去 131 00:06:26,219 --> 00:06:28,368 同时度量外貌 132 00:06:28,368 --> 00:06:30,737 对教学评价的影响 133 00:06:31,762 --> 00:06:35,509 下节课,我们要 亲自分析一下这些数据 134 00:06:35,509 --> 00:06:39,070 从而更好地理解 这条线的含义 135 00:06:41,169 --> 00:06:42,445 - [讲解员] 祝贺你! 136 00:06:42,445 --> 00:06:45,247 你离成为数据'忍者" 又近了一步! 137 00:06:45,568 --> 00:06:47,139 不过,要想熟练掌握所学内容 138 00:06:47,139 --> 00:06:48,700 你还需要做些习题 139 00:06:48,700 --> 00:06:50,404 来磨练技艺 140 00:06:50,865 --> 00:06:53,976 准备好迎接下一个挑战了吗? 请点击“下一个视频” 141 00:06:54,313 --> 00:06:55,364 还在观看? 142 00:06:55,598 --> 00:06:58,325 想要理解数据 进而理解你的世界 143 00:06:58,325 --> 00:07:01,642 请观看边际革命大学的 其他热门视频 144 00:07:02,001 --> 00:07:05,901 ♪ [音乐] ♪