♪ [音乐] ♪
[讲解员] 欢迎观看《诺贝尔对话》
本集中,Josh Angrist
和Guido Imbens
与Isaiah Andrews就机器学习
在应用计量经济学中的角色
展开讨论和争辩
- [Isaiah] 有很多议题
两位大致上都同意
但我想换个或许两位各有看法的话题
我想听听你们对机器学习的看法
还有就经济学而言
这方面在当前和未来的进展
- [Guido] 我看过一些
专利之类的数据
但并无相关出版文献
我看到有人做了搜索演算法的实验
不过问题在于
该实验是关于排序与改变排序的
所以当中显然存在许多异质性
比方说若要搜寻的是
小甜甜布兰妮的照片
(Britney Spears)
那结果排序不重要
因为还要自行判断吻合的目标
是排第一、第二,还是第三都无所谓
但若要找的是最好的计量经济学专书
结果排序是第一还是第十,差别就很大
因为这关系到点阅率
有监于此…
- [Josh] 为什么需要
机器学习来发现这点?
这似乎我自己来就行了
- [Guido] 所以总的来说…
- [Josh] 这有很多可能性
- 因为设想到事物的诸多特性
你会想了解造成异质性的驱力及其影响
- 但你只是在预测
某种意义上来说,这是在解决营销问题
- 不,这有因果关系
- 这是因果关系,但缺乏科学内涵
不妨这样想
- 不是的,在医疗界也有类似的例子
你若对部分族群接受特定疗法的功效感兴趣
因此进行研究实验
这当中牵涉各种特性
因此需要系统性地搜寻…
- 没错,但我有疑虑是个体因果关系的假设
以及机器学习的洞察实用性
考量到我丰富的执教经验
包括一所公费资助的特许私校
校方实际上可视需要自由安排课程
有些特许学校的教学成效卓著
而在产生这类结果的数据集中包含许多共变量
包括基线分数、家庭背景、家长教育程度
学生性别和种族
一旦我将其中的数个项目整合后
便会产生高维空间
我对那种疗效研究的对应班级特征绝对有兴趣
比如是否对出身低收入家庭者较有利
但令我较难信服的应用是
非常高维的这类资料
我发现例如高收入家庭的非白人儿童
但基线分数落在第三个四分位数
且只在公立学校念到三年级而非六年级
因此衍生高维分析
条件陈述也很复杂
我认为刚才那种排序有两大问题
首先是分析难以执行
也不明白这样做的理由
我还知道有些替代模型就有几乎同样的作用
这就完全不同了
对吧?因为机器学习
无法指出真正重要的预测因子
只能找出不错的预测因子
所以我认为就社会科学而言,情况有些不同
- [Guido] 我想你提到的
社会科学应用
是效果异质性显著的例子
- [Josh] 若可填补模型空间可能会有
- 不是这样的!
我想就多数那些干扰因子来讲
你会期望对所有人来说,效果意涵是一样的
或许当中存在些许强度差异
不过许多教育上的论辩
认为这对大家都有好处
并非只对某些人不好,对其他人就有益
当然其中会有一小部分不好
程度上会有落差
但得有非常庞大的数据集才能发现
我同意这类例子的分析难度不低
但我想还有很多异质性更高的情境
- 我不否认有那种可能
我认为你所举的例子,本质上是营销案例
不,这就组织机构是有其意涵的
亦即实际上是否得顾虑…
- 好吧,那我得读那篇论文了
所以感觉上
- 某部份我们仍有意见分歧
- 没错
并非全然达成共识
我也感觉到了
- 这方面我们实际上有不同看法
是因为并非切身相关
[笑声]
现在气氛好一点了
热络起来好啊
Josh,听来你的意思是
你并非全盘否认这类分析可能有的应用价值
而是对当前应用抱持保留的态度
- 这说得通
- 我是很有信心的
[笑声]
- 就此而言
我认为Josh说的有道理
即使是机器学习大放异彩的预测模型用例
还是存在许多异质性
你不太在意这其中的细节对吧?
- [Guido] 是的
并无牵涉政策角度之类的
机器学习更擅长辨识数字纪录之类的
而非建构复杂的模型
但是有很多社会科学,很多的经济应用
事实上,我们很了解所属变数间的关联
这些关联有很多是单调(monotone)的
教育会提升收入
不分是人口特性
任何教育程度都一样
直到获得博士学位
研究所教育也一样吗?
[笑声]
合理的范围内还不至于大幅下滑
许多情况下,这类机器学习的方法表现亮眼
这些关联中包含许多非单调性的多模性
这些数据是很有力的