- [讲解员] 从因到果之路
黑暗又凶险

但我们拥有
计量经济学的强大武器

请看，这就是威力最强的
随机分配之剑

它直逼因果问题的核心

我们先来看看我们手中
最强大也最昂贵的武器 --

随机试验

- [学生] 太棒了

- 每种计量方法的使命
都始于因果问题

清晰的问题
才能带来清晰的答案

而随机试验能够提供
最清晰的答案

我们来看看
随机试验是如何

对因果问题给出
格外有说服力的答案的

- [Josh] 正如一把精心打磨的宝剑

随机试验直指因果问题的核心

它能用来创造
深具说服力的同类比较

但就像其他精心制造的武器一样

随机试验十分昂贵
运用起来耗时也很久

- 随机试验起源于医学研究

当时被称为随机化临床试验
简称 RCT

美国食品药品监督管理局规定

制药厂必须证明

新药和新疗法的安全性和有效性

他们的做法就是
开展一系列 RCT

所以我们说随机试验测量的是
“治疗”效果，或处理效应

说不定你就曾参与过

另外一种随机试验 --

硅谷公司用来比较
不同营销策略的

A/B试验

例如，亚马逊会对搜索结果
进行随机化处理

从而不断进行随机试验

- [女声] 哦
- [男声] 有意思

- 随机试验在教育学研究中
也有着重要的作用

它们被用于解答一个

我这个当老师的
尤其关心的因果问题

课堂上应该允许

使用笔记本电脑等电子设备吗？

许多人认为这些电子设备
能够辅助课堂学习

但另一些人认为它们会让学生分心
我也这么想

谁说得对呢？

为了回答这个问题

西点军校（美国一所军官培训学校）的
计量大师们

设计了一个随机试验

这群大师把西点军校的学员

随机分配到遵循不同班规的
经济学班级里

和美国大部分高校不同的是

西点军校通常不允许
学生使用电子设备

为了进行这次试验
一部分学生

留在了这种传统的
不允许使用高科技的班级里

笔记本电脑，平板电脑和手机
统统不准用

这些学生构成了控制组
或者叫基线组

另一组学生被允许使用电子设备

他们是实验组
处在与对照组不同的环境中

这场试验中
实验组接受的“处理”

是笔记本和平板电脑
在课堂上的无限制使用

每个因果问题都有清晰的结果 --

即事前定义的
我们希望影响的变量

在西点军校电子设备的研究中

结果变量是期末考试成绩

这项研究力图回答以下问题：

用考试成绩来衡量的话
课堂上使用电子设备

对学习造成的因果效应有多大？

- [讲解员] 西点军校的经济学学生

被随机分配到了实验组和控制组

随机试验为“其余条件不变”的比较
创造了条件

让我们得以通过组间比较
得出因果关系结论

随机试验之所以
能够揭示因果关系

是因为统计学里的一个性质
即“大数定理”

统计学家和数学家

发现关于自然世界的
重要且稳定的性质时

会把这种性质称为定理

大数定理告诉我们
当参与随机分配的组足够大

各组中的学生

各方面的平均水平
一定会很相近

这就意味着
随机分配到各组的学生

应该具有相似的家庭背景
学习动力和能力

至少在理论上
我们可以跟选择性偏差说再见了

实际上
参与随机分配的组

未必大到能让大数法则
发挥作用的程度

研究者们也有可能
在随机分配环节上犯错

在这样高技术含量的研究活动中

即便是经验丰富的大师
也要当心这种差错

因此我们进行平衡性检验

比较各组中学生的背景变量

确保它们确实相近

- [讲解员] 这是西点试验的
平衡检验结果

这个表格有两列

一列显示了控制组的数据

另一列是实验组的数据

各行显示的是几个
我们希望能平衡的变量 --

性别，年龄，种族和高中绩点等

第一行告诉我们

每组学员中女性的占比

控制组为17%
实验组为20%

Kamal，你觉得绩点看起来平衡吗？

- [Kamal] 控制组的
平均绩点是2.87

实验组是2.82，相当接近

- [讲解员] 好在这两组各方面都很相近

- 样本需要大到什么程度

才能使大数定理发挥作用呢？

- [讲解员] 西点军校的研究中

每组包括250名学员

这个数字基本上
可以确定是足够大的了

并没有什么硬性规定
或者快速判定的法则

在另一个视频中
你会学到

如何用正式的统计检验
去证实组间平衡的假说

- [男声] 令人激动

- 这张表格中的核心问题

在于处理效应的估计结果

记住，这项研究中的处理

是在课堂上使用电子设备的许可

处理效应是控制组和对照组
平均值相比较的结果

允许课堂上使用电子设备的那组

期末考试的平均成绩

比控制组的高出了
0.28个标准差

这个效应有多大呢？

社会科学家以标准差为单位
衡量考试成绩

因为使用这种单位
便于进行跨研究比较

以往针对课堂学习的大量研究表明

0.28是一个相当大的数字

成绩下降0.28个标准差相当于

把一个成绩中游的学生
塞进班级的倒数前三分之一

我们能确定地说

这些大结果是有意义的吗？

毕竟我们比较的是

通过一次随机分配
得到的实验组和对照组

说不定重新随机分配
就会得到不同的结果

- 因此我们要对
因果效应估计量的抽样方差

进行量化

- 抽样方差是什么？

- [讲解员] 抽样方差告诉我们

某一具体的统计学结果
有多大可能性只是巧合

而不是反映了基本关系

抽样方差由一个数字表示

这个数字被称为
因果效应估计结果的标准误

- [学生嘟囔] 我没听懂
- 她在说什么呀...?

- 稍安勿躁，我们以后
会详细讲解这个重要概念

- [学生] 太好了

- 记住，标准误越小

结果就越确凿

另一方面
相比于我们想估计的效应

标准误如果较大

那如果我们再做一次试验

得到不同结果的可能性就很大

你可以把标准误看成

判断我们能否信赖
得出的结果的一种方式

- [学生] 好吧

- [讲解员] 在这项研究中
标准误是0.1

- 现阶段我们只需要记住
一条简单的经验法则

当处理效应的估计结果

大于其标准误的两倍时

这个非零结果只是偶然的可能性

非常低
大约只有二十分之一

因为这种可能性很低
我们把这种

是其标准误两倍及以上的估计量

称为是“统计显著”的

- Camilla 西点军校这项研究里

处理效应是否统计显著？

- 标注误为0.10
处理效应为0.28

0.28大于0.10的两倍
统计显著

- 回答正确

因此，在 Econ 101 的课堂上

使用电子设备导致的学习损失
不仅大，而且还统计显著

- [男声] 有趣

- 随机试验通常
能为因果关系问题

给出最有说服力的答案

工具箱里如果有这个武器
我们就使用

随机分配让我们能确保

其他条件的确是一致的

但随机试验有时很难组织

它们可能很昂贵又很耗时

甚至有时被认为是不道德的

因此大师们找到了
其他有说服力的做法

这些其他做法试图
效仿随机试验对因果关系的揭示

但又希望能不像专门的实验那样

费时，费力，费钱

这些替代工具常被用于

实际生活中
近似随机分配的场景下

- [讲解员] 你已踏上了
成为计量经济学大师的旅程

做几道练习题

来确保自己掌握了所学知识吧

如果你已经做好准备
请点击进入下一条视频

欢迎浏览 MRU 的网站

获取更多课程和教师资源等材料