0:00:00.012,0:00:01.054
♪ [音乐] ♪

0:00:03.620,0:00:05.700
[讲解员] 欢迎观看《诺贝尔对话》

0:00:07.000,0:00:10.043
本集中，Josh Angrist[br]和Guido Imbens

0:00:10.043,0:00:14.716
与Isaiah Andrews就机器学习[br]在应用计量经济学中的角色

0:00:14.717,0:00:16.587
展开讨论和争辩

0:00:18.264,0:00:21.223
- [Isaiah] 有很多议题[br]两位大致上都同意

0:00:21.224,0:00:24.240
但我想换个或许两位各有看法的话题

0:00:24.240,0:00:26.883
我想听听你们对机器学习的看法

0:00:26.883,0:00:29.900
还有就经济学而言[br]这方面在当前和未来的进展

0:00:30.073,0:00:33.715
- [Guido] 我看过一些[br]专利之类的数据

0:00:33.716,0:00:34.978
但并无相关出版文献

0:00:36.106,0:00:39.312
我看到有人做了搜索演算法的实验

0:00:39.668,0:00:41.176
不过问题在于

0:00:42.829,0:00:45.623
该实验是关于排序与改变排序的

0:00:45.837,0:00:50.559
所以当中显然存在许多异质性

0:00:52.161,0:00:56.031
比方说若要搜寻的是

0:00:57.831,0:01:00.617
小甜甜布兰妮的照片[br]（Britney Spears）

0:01:00.617,0:01:05.500
那结果排序不重要[br]因为还要自行判断吻合的目标

0:01:06.136,0:01:09.717
是排第一、第二，还是第三都无所谓

0:01:10.091,0:01:12.491
但若要找的是最好的计量经济学专书

0:01:13.139,0:01:18.196
结果排序是第一还是第十，差别就很大

0:01:18.544,0:01:20.923
因为这关系到点阅率

0:01:21.829,0:01:23.417
有监于此…

0:01:23.417,0:01:27.259
- [Josh] 为什么需要[br]机器学习来发现这点？

0:01:27.260,0:01:29.195
这似乎我自己来就行了

0:01:29.195,0:01:30.435
- [Guido] 所以总的来说…

0:01:30.435,0:01:32.100
- [Josh] 这有很多可能性

0:01:32.101,0:01:37.257
- 因为设想到事物的诸多特性

0:01:37.681,0:01:43.287
你会想了解造成异质性的驱力及其影响

0:01:43.323,0:01:45.008
- 但你只是在预测

0:01:45.008,0:01:47.665
某种意义上来说，这是在解决营销问题

0:01:47.666,0:01:49.191
- 不，这有因果关系

0:01:49.274,0:01:51.911
- 这是因果关系，但缺乏科学内涵

0:01:51.911,0:01:53.141
不妨这样想

0:01:53.664,0:01:57.307
- 不是的，在医疗界也有类似的例子

0:01:57.857,0:02:01.942
你若对部分族群接受特定疗法的功效感兴趣

0:02:01.951,0:02:03.705
因此进行研究实验

0:02:03.828,0:02:07.887
这当中牵涉各种特性[br]因此需要系统性地搜寻…

0:02:07.888,0:02:13.730
- 没错，但我有疑虑是个体因果关系的假设

0:02:13.999,0:02:17.024
以及机器学习的洞察实用性

0:02:17.259,0:02:20.045
考量到我丰富的执教经验

0:02:20.046,0:02:24.109
包括一所公费资助的特许私校

0:02:25.225,0:02:29.399
校方实际上可视需要自由安排课程

0:02:29.529,0:02:33.390
有些特许学校的教学成效卓著

0:02:33.789,0:02:37.662
而在产生这类结果的数据集中包含许多共变量

0:02:37.663,0:02:43.207
包括基线分数、家庭背景、家长教育程度

0:02:43.343,0:02:45.800
学生性别和种族

0:02:45.930,0:02:49.795
一旦我将其中的数个项目整合后

0:02:49.795,0:02:51.900
便会产生高维空间

0:02:52.244,0:02:56.402
我对那种疗效研究的对应班级特征绝对有兴趣

0:02:56.457,0:03:02.046
比如是否对出身低收入家庭者较有利

0:03:02.409,0:03:06.042
但令我较难信服的应用是

0:03:07.273,0:03:09.872
非常高维的这类资料

0:03:09.872,0:03:14.971
我发现例如高收入家庭的非白人儿童

0:03:14.971,0:03:17.800
但基线分数落在第三个四分位数

0:03:18.166,0:03:22.928
且只在公立学校念到三年级而非六年级

0:03:22.929,0:03:25.715
因此衍生高维分析

0:03:25.716,0:03:28.016
条件陈述也很复杂

0:03:28.223,0:03:30.675
我认为刚才那种排序有两大问题

0:03:30.676,0:03:34.000
首先是分析难以执行

0:03:34.600,0:03:36.412
也不明白这样做的理由

0:03:36.591,0:03:41.139
我还知道有些替代模型就有几乎同样的作用

0:03:41.671,0:03:42.877
这就完全不同了

0:03:43.115,0:03:48.636
对吧？因为机器学习[br]无法指出真正重要的预测因子

0:03:48.637,0:03:51.020
只能找出不错的预测因子

0:03:51.486,0:03:57.586
所以我认为就社会科学而言，情况有些不同

0:03:57.785,0:04:00.983
- [Guido] 我想你提到的[br]社会科学应用

0:04:01.522,0:04:08.100
是效果异质性显著的例子

0:04:09.783,0:04:13.410
- [Josh] 若可填补模型空间可能会有

0:04:13.411,0:04:15.685
- 不是这样的！

0:04:15.739,0:04:18.786
我想就多数那些干扰因子来讲

0:04:18.787,0:04:22.765
你会期望对所有人来说，效果意涵是一样的

0:04:24.358,0:04:26.913
或许当中存在些许强度差异

0:04:26.914,0:04:31.596
不过许多教育上的论辩[br]认为这对大家都有好处

0:04:34.169,0:04:37.385
并非只对某些人不好，对其他人就有益

0:04:37.471,0:04:40.812
当然其中会有一小部分不好

0:04:40.869,0:04:43.884
程度上会有落差

0:04:43.948,0:04:46.955
但得有非常庞大的数据集才能发现

0:04:47.135,0:04:51.415
我同意这类例子的分析难度不低

0:04:51.700,0:04:56.457
但我想还有很多异质性更高的情境

0:04:57.250,0:04:59.102
- 我不否认有那种可能

0:04:59.102,0:05:04.918
我认为你所举的例子，本质上是营销案例

0:05:06.315,0:05:10.630
不，这就组织机构是有其意涵的

0:05:10.631,0:05:14.393
亦即实际上是否得顾虑…

0:05:15.469,0:05:17.900
- 好吧，那我得读那篇论文了

0:05:18.336,0:05:21.008
所以感觉上

0:05:21.467,0:05:23.996
- 某部份我们仍有意见分歧[br]- 没错

0:05:23.996,0:05:25.440
并非全然达成共识

0:05:25.440,0:05:27.200
我也感觉到了

0:05:27.200,0:05:30.833
- 这方面我们实际上有不同看法[br]是因为并非切身相关

0:05:30.833,0:05:32.334
[笑声]

0:05:33.049,0:05:34.763
现在气氛好一点了

0:05:35.820,0:05:37.883
热络起来好啊

0:05:38.016,0:05:39.691
Josh，听来你的意思是

0:05:39.692,0:05:45.236
你并非全盘否认这类分析可能有的应用价值

0:05:45.237,0:05:49.487
而是对当前应用抱持保留的态度

0:05:49.917,0:05:51.589
- 这说得通[br]- 我是很有信心的

0:05:51.981,0:05:53.663
[笑声]

0:05:54.156,0:05:55.189
- 就此而言

0:05:55.189,0:05:56.751
我认为Josh说的有道理

0:05:57.987,0:06:04.974
即使是机器学习大放异彩的预测模型用例

0:06:04.992,0:06:06.952
还是存在许多异质性

0:06:07.300,0:06:10.411
你不太在意这其中的细节对吧？

0:06:10.769,0:06:11.836
- [Guido] 是的

0:06:11.836,0:06:15.000
并无牵涉政策角度之类的

0:06:15.128,0:06:20.089
机器学习更擅长辨识数字纪录之类的

0:06:20.090,0:06:24.000
而非建构复杂的模型

0:06:24.400,0:06:28.079
但是有很多社会科学，很多的经济应用

0:06:28.222,0:06:31.905
事实上，我们很了解所属变数间的关联

0:06:31.906,0:06:34.700
这些关联有很多是单调（monotone）的

0:06:37.126,0:06:39.376
教育会提升收入

0:06:39.697,0:06:41.950
不分是人口特性

0:06:41.950,0:06:44.930
任何教育程度都一样

0:06:44.930,0:06:46.076
直到获得博士学位

0:06:46.077,0:06:47.956
研究所教育也一样吗？

0:06:47.956,0:06:49.227
[笑声]

0:06:49.227,0:06:55.605
合理的范围内还不至于大幅下滑

0:06:56.044,0:06:59.692
许多情况下，这类机器学习的方法表现亮眼

0:07:00.100,0:07:04.900
这些关联中包含许多非单调性的多模性

0:07:05.300,0:07:08.456
就这些关联性来说，机器学习是很有力的工具

0:07:08.921,0:07:11.787
不过我仍坚信

0:07:12.472,0:07:17.608
经济学家能从这些方法中获益良多

0:07:17.609,0:07:21.700
对未来前景影响甚钜

0:07:21.889,0:07:22.979
♪ [音乐] ♪

0:07:23.382,0:07:25.912
- [Isaiah] 机器学习在这方面[br]似乎还有很多有趣的议题

0:07:25.912,0:07:30.908
所以可否请Guido就当前既有的应用

0:07:30.908,0:07:32.598
再举些例子？

0:07:32.628,0:07:34.150
其中一个例子就是

0:07:34.673,0:07:39.565
我们目前舍弃一般的因果关系[br]转向寻求个别化的估计

0:07:41.492,0:07:43.426
来预测因果关系

0:07:43.427,0:07:47.569
这方面机器学习的演算非常有用

0:07:47.932,0:07:51.503
以往的传统途径是内核方法

0:07:51.504,0:07:53.936
理论上成效不错

0:07:53.937,0:07:57.294
不过有些人辩解道这已经是最好的了

0:07:57.548,0:07:59.579
不过此法的实务表现不甚理想

0:08:00.900,0:08:02.971
Stefan Wager[br]和 Susan Athey

0:08:02.979,0:08:06.644
两位学者持续耕耘的[br]随机与因果森林这类推断法

0:08:06.916,0:08:09.429
应用非常广泛

0:08:09.548,0:08:15.562
这些方法在这类情境中[br]推断基于共变项的因果效应

0:08:15.563,0:08:19.151
效果其实很不错

0:08:20.604,0:08:23.818
我想这些推断方法才刚起步

0:08:23.819,0:08:25.700
但很多情况下

0:08:27.351,0:08:31.600
这些演算法在搜索广泛空间时

0:08:31.721,0:08:37.021
以及找出适合的函数方面帮助很大

0:08:37.267,0:08:40.948
其运作方式是我们无法事先备妥的

0:08:41.500,0:08:43.015
就因果推论而言

0:08:43.016,0:08:47.295
我并不清楚机器学习的洞见[br]是否有吸引我关注的例子

0:08:47.767,0:08:51.209
我知道一些很可能会误导的例子

0:08:51.210,0:08:53.781
因此我和 Brigham Frandsen[br]合作过一些相关研究

0:08:54.022,0:08:59.897
例如，在需要界定共变量的工具变量问题中

0:09:00.187,0:09:03.456
使用随机森林来建立共变量效应模型

0:09:04.288,0:09:08.200
对此，你不会对其功能形式有特别强烈的感受

0:09:08.201,0:09:12.915
因此或许需作决策曲线分析[br]并对弹性曲线拟合分析持开放的态度

0:09:12.916,0:09:16.757
这会引导你进入一种[br]模型中包含许多非线性的情况

0:09:17.312,0:09:19.933
这对工具变量来说很危险

0:09:19.933,0:09:22.893
因为任何所排除的非线性

0:09:23.226,0:09:25.839
都有可能导致因果效应的谬误

0:09:25.839,0:09:29.292
我想我和Brigham已就这点提出有力证明

0:09:29.292,0:09:35.159
所用的例子是我和Bill Evans[br]合着的论文中所用的两项分析工具

0:09:35.160,0:09:38.754
其中若将两阶段最小二乘法

0:09:38.755,0:09:42.366
换成某种随机森林分析法

0:09:42.900,0:09:46.807
便会得出精算过的虚假推估

0:09:48.962,0:09:51.942
我认为这是一大警讯

0:09:51.943,0:09:54.665
考量我使用简单分析工具

0:09:54.666,0:09:58.975
就自身研究兴趣的案例中[br]所得到的这些验证过的见解

0:09:59.268,0:10:01.093
让我对此有所怀疑

0:10:02.862,0:10:06.276
非线性和工具变量并不是很契合

0:10:06.331,0:10:09.981
- 不是的，这听起来好像变成更复杂的层面

0:10:10.052,0:10:11.802
- 我们谈的是工具变量...[br]- 是的

0:10:12.536,0:10:14.091
...所以才设法厘清

0:10:14.395,0:10:15.899
[笑声]

0:10:15.907,0:10:17.289
有道理

0:10:17.289,0:10:18.410
♪ [音乐] ♪

0:10:18.410,0:10:22.132
- [Guido] 身为<i>Econometrica</i>的编辑[br]我收到很多相关领域的论文

0:10:22.640,0:10:26.823
不过其动机并不明确

0:10:27.578,0:10:29.523
事实上是无从得知

0:10:29.759,0:10:34.919
这些投稿论文并非传统的[br]半母数估计的那种论文

0:10:35.315,0:10:37.045
这是一大问题

0:10:38.496,0:10:42.337
相关的一个问题是计量经济学有种惯例

0:10:42.664,0:10:46.560
那就是非常专注于[br]形式变量渐近后的趋近结果

0:10:48.800,0:10:53.311
很多论文是作者提出一种方法后

0:10:53.312,0:10:59.420
然后以一种非常标准化的方式建构出渐近的特性

0:11:00.896,0:11:02.078
- 那样不好吗？

0:11:02.815,0:11:09.040
我想这多少会排挤掉许多框架外的研究

0:11:09.040,0:11:13.585
毕竟机器学习的相关文献[br]很多是比较偏向演算法的

0:11:13.808,0:11:18.433
是基于演算法而得出预测

0:11:18.744,0:11:23.458
结果证明这种方式的成效[br]优于非参数内核回归

0:11:23.650,0:11:24.682
长期以来

0:11:24.683,0:11:28.643
计量经济学都在处理非参数[br]大家用的都是内核回归

0:11:29.037,0:11:31.202
这很适合用来证明定理

0:11:31.210,0:11:34.684
可藉此得出置信区间、一致性和渐近正态性

0:11:34.684,0:11:36.920
一切都很棒，但却不太实用

0:11:37.260,0:11:40.760
机器学习的研究方式却好很多

0:11:40.844,0:11:42.557
但又不会有这样的问题…

0:11:42.557,0:11:45.871
我不认为因为机器学习，所以理论是薄弱的

0:11:45.871,0:11:47.141
[笑声]

0:11:47.141,0:11:52.394
不，我的意思是机器学习更擅于预测

0:11:52.394,0:11:54.500
-机器学习是更好的曲线拟合工具

0:11:54.864,0:11:57.704
但机器学习的研究分析方式

0:11:57.705,0:12:00.458
因为并非证明事物的形式

0:12:01.486,0:12:06.279
一开始无法为计量经济学期刊所轻易接受

0:12:06.857,0:12:11.174
Breiman研发回归树的时候也是不符正统

0:12:12.920,0:12:18.400
我想他当时投稿计量经济学期刊[br]也必定遇到不少困难

0:12:19.967,0:12:23.656
我认为我们画地自限

0:12:24.663,0:12:27.830
因此难有突破

0:12:27.924,0:12:31.154
毕竟很多机器学习的方法实际上很实用

0:12:31.163,0:12:34.000
我认为总的来说

0:12:34.908,0:12:40.168
计算机科学家在相关研究文献上[br]贡献了大量的这类演算法

0:12:40.582,0:12:43.887
也提出诸多很实用的演算法

0:12:43.887,0:12:48.964
而这也会影响我们进行实证研究的方式

0:12:49.750,0:12:52.067
不过我们对此尚未完全内化

0:12:52.068,0:12:57.748
因为我们仍相当专注于[br]获得点估计和标准误差

0:12:58.485,0:13:00.214
还有P值

0:13:00.270,0:13:06.183
某种程度上，我们得摆脱局限[br]以善用机器学习的能力

0:13:06.491,0:13:10.702
以及相关文献的有益贡献

0:13:11.396,0:13:13.548
- 我一方面颇能理解你的观点

0:13:13.548,0:13:16.850
也就是传统的计量经济学框架

0:13:16.850,0:13:23.612
是在类似趋近的设定下[br]提出一种方法来证明极限定理

0:13:24.237,0:13:27.057
因此论文出版有所局限

0:13:27.273,0:13:28.710
且在某种意义上

0:13:28.711,0:13:33.211
藉由放宽对论文学理论述的想像

0:13:33.485,0:13:38.299
机器学习的研究文献[br]就很多问题都有很实用的见解

0:13:38.300,0:13:41.085
而且目前对计量经济学也有重大影响

0:13:41.434,0:13:47.548
有个我很感兴趣的问题是你如何定位理论…

0:13:48.611,0:13:51.255
你是否认为理论部分毫无价值可言？

0:13:51.600,0:13:56.748
因为见到机器学习工具的产出时，我常有个疑问

0:13:56.772,0:14:01.653
你所提到的几种方式[br]实际上都已开发出推论结果

0:14:02.535,0:14:05.559
我想知道的是不确定性量化之类的方法

0:14:05.560,0:14:08.000
我有自身的先验

0:14:08.000,0:14:10.888
我有既定的观点，并观察到事务的结果

0:14:10.889,0:14:12.301
那要怎样就此更新呢？

0:14:12.302,0:14:13.333
而在某种意义上

0:14:13.334,0:14:17.145
若身处事物常态分布的世界，我也清楚怎样处理

0:14:17.146,0:14:18.305
但此处却不然

0:14:18.305,0:14:20.859
因此我想知道你对此有何看法

0:14:20.860,0:14:26.426
- 我不认为这些结果并无特别之处

0:14:26.427,0:14:30.161
但这类结果通常很难达成

0:14:30.162,0:14:32.162
我们可能无法办到

0:14:32.489,0:14:34.942
可能得分阶段来做

0:14:34.943,0:14:36.505
得有人率先提出

0:14:36.506,0:14:42.230
“看，我有个特定功能的有趣演算法

0:14:42.231,0:14:44.699
且以特定标准而言

0:14:45.479,0:14:49.804
这种演算法在这组数据集的功效良好

0:14:50.896,0:14:52.602
所以我们应该提出来

0:14:52.602,0:14:59.463
未来也许有人会有办法[br]在特定条件下以此进行推论

0:14:59.463,0:15:03.800
然后发现达成条件不是很实际，那就再研究

0:15:03.903,0:15:10.535
我觉得当我们过去始终认为[br]所投入的类型必须有所限制时

0:15:10.536,0:15:13.185
这是在自我设限

0:15:13.185,0:15:14.502
就某种意义而言

0:15:15.700,0:15:21.716
这又回到Josh和我[br]对局部平均处理效应的看法

0:15:21.909,0:15:25.174
以前人们并非这样看待这个问题的