WEBVTT

00:00:00.239 --> 00:00:05.110
- [讲解员] 从因到果之路
黑暗又凶险

00:00:05.572 --> 00:00:08.974
但我们拥有
计量经济学的强大武器

00:00:09.941 --> 00:00:14.824
请看，这就是威力最强的
随机分配之剑

00:00:14.824 --> 00:00:18.108
它直逼因果问题的核心

00:00:22.971 --> 00:00:27.737
我们先来看看我们手中
最强大也最昂贵的武器 --

00:00:27.737 --> 00:00:29.558
随机试验

00:00:29.558 --> 00:00:30.828
- [学生] 太棒了

NOTE Paragraph

00:00:30.828 --> 00:00:34.839
- 每种计量方法的使命
都始于因果问题

00:00:34.893 --> 00:00:37.842
清晰的问题
才能带来清晰的答案

00:00:38.955 --> 00:00:42.709
而随机试验能够提供
最清晰的答案

00:00:43.623 --> 00:00:47.592
我们来看看
随机试验是如何

00:00:47.712 --> 00:00:51.328
对因果问题给出
格外有说服力的答案的

00:00:52.012 --> 00:00:55.528
- [Josh] 正如一把精心打磨的宝剑

00:00:55.528 --> 00:00:57.805
随机试验直指因果问题的核心

00:00:57.805 --> 00:01:00.912
它能用来创造
深具说服力的同类比较

00:01:01.092 --> 00:01:03.921
但就像其他精心制造的武器一样

00:01:03.921 --> 00:01:07.195
随机试验十分昂贵
运用起来耗时也很久

00:01:08.041 --> 00:01:11.555
- 随机试验起源于医学研究

00:01:11.555 --> 00:01:16.362
当时被称为随机化临床试验
简称 RCT

00:01:17.245 --> 00:01:21.359
美国食品药品监督管理局规定

00:01:21.359 --> 00:01:24.932
制药厂必须证明

00:01:24.932 --> 00:01:26.331
新药和新疗法的安全性和有效性

00:01:26.981 --> 00:01:30.025
他们的做法就是
开展一系列 RCT

00:01:30.440 --> 00:01:35.275
所以我们说随机试验测量的是
“治疗”效果，或处理效应

00:01:35.936 --> 00:01:38.269
说不定你就曾参与过

00:01:38.269 --> 00:01:39.733
另外一种随机试验 --

00:01:39.733 --> 00:01:43.102
硅谷公司用来比较
不同营销策略的

00:01:43.102 --> 00:01:45.699
A/B试验

00:01:45.699 --> 00:01:50.480
例如，亚马逊会对搜索结果
进行随机化处理

00:01:50.480 --> 00:01:51.624
从而不断进行随机试验

00:01:51.624 --> 00:01:53.071
- [女声] 哦
- [男声] 有意思

00:01:53.071 --> 00:01:56.553
- 随机试验在教育学研究中
也有着重要的作用

00:01:56.553 --> 00:01:59.679
它们被用于解答一个

00:01:59.679 --> 00:02:01.718
我这个当老师的
尤其关心的因果问题

00:02:01.718 --> 00:02:04.519
课堂上应该允许

00:02:04.519 --> 00:02:06.584
使用笔记本电脑等电子设备吗？

00:02:07.210 --> 00:02:09.883
许多人认为这些电子设备
能够辅助课堂学习

00:02:09.883 --> 00:02:13.833
但另一些人认为它们会让学生分心
我也这么想

00:02:14.216 --> 00:02:15.433
谁说得对呢？

00:02:21.543 --> 00:02:23.776
为了回答这个问题

00:02:23.776 --> 00:02:26.760
西点军校（美国一所军官培训学校）的
计量大师们

00:02:26.760 --> 00:02:30.734
设计了一个随机试验

00:02:30.734 --> 00:02:33.209
这群大师把西点军校的学员

00:02:33.209 --> 00:02:36.426
随机分配到遵循不同班规的
经济学班级里

00:02:37.207 --> 00:02:39.183
和美国大部分高校不同的是

00:02:39.183 --> 00:02:42.034
西点军校通常不允许
学生使用电子设备

00:02:42.735 --> 00:02:45.501
为了进行这次试验
一部分学生

00:02:45.501 --> 00:02:48.851
留在了这种传统的
不允许使用高科技的班级里

00:02:48.851 --> 00:02:51.852
笔记本电脑，平板电脑和手机
统统不准用

00:02:53.325 --> 00:02:55.909
这些学生构成了控制组
或者叫基线组

00:02:55.909 --> 00:02:59.506
另一组学生被允许使用电子设备

00:02:59.506 --> 00:03:02.762
他们是实验组
处在与对照组不同的环境中

00:03:03.179 --> 00:03:05.962
这场试验中
实验组接受的“处理”

00:03:05.962 --> 00:03:08.247
是笔记本和平板电脑
在课堂上的无限制使用

00:03:09.274 --> 00:03:11.763
每个因果问题都有清晰的结果 --

00:03:11.763 --> 00:03:16.080
即事前定义的
我们希望影响的变量

00:03:16.080 --> 00:03:18.546
在西点军校电子设备的研究中

00:03:18.546 --> 00:03:20.328
结果变量是期末考试成绩

00:03:20.433 --> 00:03:23.650
这项研究力图回答以下问题：

00:03:23.650 --> 00:03:27.520
用考试成绩来衡量的话
课堂上使用电子设备

00:03:27.520 --> 00:03:29.654
对学习造成的因果效应有多大？

00:03:30.236 --> 00:03:33.154
- [讲解员] 西点军校的经济学学生

00:03:33.154 --> 00:03:36.323
被随机分配到了实验组和控制组

00:03:36.323 --> 00:03:39.987
随机试验为“其余条件不变”的比较
创造了条件

00:03:39.987 --> 00:03:44.371
让我们得以通过组间比较
得出因果关系结论

00:03:44.682 --> 00:03:49.017
随机试验之所以
能够揭示因果关系

00:03:49.017 --> 00:03:52.677
是因为统计学里的一个性质
即“大数定理”

00:03:52.677 --> 00:03:55.045
统计学家和数学家

00:03:55.045 --> 00:03:57.478
发现关于自然世界的
重要且稳定的性质时

00:03:57.478 --> 00:04:00.761
会把这种性质称为定理

00:04:01.628 --> 00:04:04.529
大数定理告诉我们
当参与随机分配的组足够大

00:04:04.529 --> 00:04:07.962
各组中的学生

00:04:07.962 --> 00:04:10.012
各方面的平均水平
一定会很相近

00:04:10.626 --> 00:04:14.162
这就意味着
随机分配到各组的学生

00:04:14.162 --> 00:04:17.862
应该具有相似的家庭背景
学习动力和能力

00:04:18.748 --> 00:04:22.444
至少在理论上
我们可以跟选择性偏差说再见了

00:04:22.862 --> 00:04:26.044
实际上
参与随机分配的组

00:04:26.044 --> 00:04:28.478
未必大到能让大数法则
发挥作用的程度

00:04:28.711 --> 00:04:31.995
研究者们也有可能
在随机分配环节上犯错

00:04:32.312 --> 00:04:35.245
在这样高技术含量的研究活动中

00:04:35.245 --> 00:04:37.478
即便是经验丰富的大师
也要当心这种差错

00:04:37.989 --> 00:04:39.774
因此我们进行平衡性检验

00:04:39.774 --> 00:04:42.740
比较各组中学生的背景变量

00:04:42.740 --> 00:04:45.006
确保它们确实相近

NOTE Paragraph

00:04:46.588 --> 00:04:49.004
- [讲解员] 这是西点试验的
平衡检验结果

00:04:49.627 --> 00:04:51.932
这个表格有两列

00:04:51.932 --> 00:04:54.688
一列显示了控制组的数据

00:04:54.688 --> 00:04:57.021
另一列是实验组的数据

00:04:57.825 --> 00:05:01.759
各行显示的是几个
我们希望能平衡的变量 --

00:05:01.759 --> 00:05:06.255
性别，年龄，种族和高中绩点等

00:05:07.232 --> 00:05:09.271
第一行告诉我们

00:05:09.271 --> 00:05:11.687
每组学员中女性的占比

00:05:11.687 --> 00:05:16.387
控制组为17%
实验组为20%

00:05:17.962 --> 00:05:21.194
Kamal，你觉得绩点看起来平衡吗？

00:05:21.731 --> 00:05:25.028
- [Kamal] 控制组的
平均绩点是2.87

00:05:25.028 --> 00:05:29.381
实验组是2.82，相当接近

00:05:29.615 --> 00:05:34.031
- [讲解员] 好在这两组各方面都很相近

00:05:34.031 --> 00:05:35.566
- 样本需要大到什么程度

00:05:35.566 --> 00:05:37.499
才能使大数定理发挥作用呢？

00:05:37.743 --> 00:05:39.102
- [讲解员] 西点军校的研究中

00:05:39.102 --> 00:05:42.680
每组包括250名学员

00:05:42.680 --> 00:05:44.999
这个数字基本上
可以确定是足够大的了

00:05:44.999 --> 00:05:47.809
并没有什么硬性规定
或者快速判定的法则

00:05:47.809 --> 00:05:51.266
在另一个视频中
你会学到

00:05:51.266 --> 00:05:54.633
如何用正式的统计检验
去证实组间平衡的假说

00:05:54.633 --> 00:05:55.850
- [男声] 令人激动

00:06:00.220 --> 00:06:01.987
- 这张表格中的核心问题

00:06:02.022 --> 00:06:04.222
在于处理效应的估计结果

00:06:04.505 --> 00:06:07.324
记住，这项研究中的处理

00:06:07.324 --> 00:06:09.323
是在课堂上使用电子设备的许可

00:06:09.571 --> 00:06:13.638
处理效应是控制组和对照组
平均值相比较的结果

00:06:15.103 --> 00:06:17.746
允许课堂上使用电子设备的那组

00:06:17.746 --> 00:06:21.756
期末考试的平均成绩

00:06:21.756 --> 00:06:24.455
比控制组的高出了
0.28个标准差

00:06:26.026 --> 00:06:27.982
这个效应有多大呢？

00:06:28.275 --> 00:06:31.643
社会科学家以标准差为单位
衡量考试成绩

00:06:31.643 --> 00:06:34.875
因为使用这种单位
便于进行跨研究比较

00:06:35.143 --> 00:06:38.642
以往针对课堂学习的大量研究表明

00:06:38.642 --> 00:06:40.760
0.28是一个相当大的数字

00:06:41.025 --> 00:06:45.515
成绩下降0.28个标准差相当于

00:06:45.515 --> 00:06:48.426
把一个成绩中游的学生
塞进班级的倒数前三分之一

00:06:49.338 --> 00:06:51.524
我们能确定地说

00:06:51.524 --> 00:06:52.893
这些大结果是有意义的吗？

00:06:52.893 --> 00:06:55.709
毕竟我们比较的是

00:06:55.709 --> 00:06:57.607
通过一次随机分配
得到的实验组和对照组

00:06:57.607 --> 00:07:00.711
说不定重新随机分配
就会得到不同的结果

00:07:00.711 --> 00:07:03.774
- 因此我们要对
因果效应估计量的抽样方差

00:07:03.774 --> 00:07:05.974
进行量化

00:07:06.276 --> 00:07:08.028
- 抽样方差是什么？

00:07:08.781 --> 00:07:10.858
- [讲解员] 抽样方差告诉我们

00:07:10.858 --> 00:07:15.554
某一具体的统计学结果
有多大可能性只是巧合

00:07:15.554 --> 00:07:18.858
而不是反映了基本关系

00:07:19.725 --> 00:07:23.282
抽样方差由一个数字表示

00:07:23.282 --> 00:07:26.706
这个数字被称为
因果效应估计结果的标准误

NOTE Paragraph

00:07:26.706 --> 00:07:29.338
- [学生嘟囔] 我没听懂
- 她在说什么呀...?

00:07:29.338 --> 00:07:32.989
- 稍安勿躁，我们以后
会详细讲解这个重要概念

00:07:32.989 --> 00:07:34.023
- [学生] 太好了

00:07:34.023 --> 00:07:36.498
- 记住，标准误越小

00:07:36.498 --> 00:07:38.747
结果就越确凿

00:07:38.963 --> 00:07:42.180
另一方面
相比于我们想估计的效应

00:07:42.180 --> 00:07:44.568
标准误如果较大

00:07:44.568 --> 00:07:47.435
那如果我们再做一次试验

00:07:47.435 --> 00:07:49.991
得到不同结果的可能性就很大

00:07:50.333 --> 00:07:54.284
你可以把标准误看成

00:07:54.284 --> 00:07:56.574
判断我们能否信赖
得出的结果的一种方式

00:07:56.574 --> 00:07:57.631
- [学生] 好吧

00:07:57.631 --> 00:08:01.147
- [讲解员] 在这项研究中
标准误是0.1

00:08:01.768 --> 00:08:04.654
- 现阶段我们只需要记住
一条简单的经验法则

00:08:04.759 --> 00:08:06.748
当处理效应的估计结果

00:08:06.753 --> 00:08:08.586
大于其标准误的两倍时

00:08:08.586 --> 00:08:12.103
这个非零结果只是偶然的可能性

00:08:12.103 --> 00:08:13.975
非常低
大约只有二十分之一

00:08:14.855 --> 00:08:18.290
因为这种可能性很低
我们把这种

00:08:18.290 --> 00:08:21.052
是其标准误两倍及以上的估计量

00:08:21.052 --> 00:08:23.352
称为是“统计显著”的

00:08:24.431 --> 00:08:28.149
- Camilla 西点军校这项研究里

00:08:28.149 --> 00:08:29.859
处理效应是否统计显著？

00:08:30.728 --> 00:08:35.934
- 标注误为0.10
处理效应为0.28

00:08:35.934 --> 00:08:40.359
0.28大于0.10的两倍
统计显著

00:08:40.445 --> 00:08:41.613
- 回答正确

00:08:41.613 --> 00:08:45.959
因此，在 Econ 101 的课堂上

00:08:45.959 --> 00:08:50.093
使用电子设备导致的学习损失
不仅大，而且还统计显著

00:08:50.093 --> 00:08:51.249
- [男声] 有趣

00:08:56.775 --> 00:08:59.987
- 随机试验通常
能为因果关系问题

00:08:59.987 --> 00:09:01.407
给出最有说服力的答案

00:09:01.407 --> 00:09:04.462
工具箱里如果有这个武器
我们就使用

00:09:05.204 --> 00:09:07.435
随机分配让我们能确保

00:09:07.435 --> 00:09:09.567
其他条件的确是一致的

00:09:10.114 --> 00:09:12.633
但随机试验有时很难组织

00:09:12.633 --> 00:09:15.084
它们可能很昂贵又很耗时

00:09:15.084 --> 00:09:18.000
甚至有时被认为是不道德的

00:09:18.404 --> 00:09:21.420
因此大师们找到了
其他有说服力的做法

00:09:21.420 --> 00:09:25.170
这些其他做法试图
效仿随机试验对因果关系的揭示

00:09:25.170 --> 00:09:28.404
但又希望能不像专门的实验那样

00:09:28.404 --> 00:09:31.370
费时，费力，费钱

00:09:31.461 --> 00:09:34.794
这些替代工具常被用于

00:09:34.794 --> 00:09:37.016
实际生活中
近似随机分配的场景下

00:09:39.016 --> 00:09:42.556
- [讲解员] 你已踏上了
成为计量经济学大师的旅程

00:09:42.556 --> 00:09:44.451
做几道练习题

00:09:44.451 --> 00:09:47.387
来确保自己掌握了所学知识吧

00:09:47.387 --> 00:09:50.870
如果你已经做好准备
请点击进入下一条视频

00:09:50.870 --> 00:09:53.517
欢迎浏览 MRU 的网站

00:09:53.517 --> 00:09:56.591
获取更多课程和教师资源等材料