♪ [音乐] ♪ [讲解员] 欢迎观看《诺贝尔对话》 本集中,Josh Angrist 和Guido Imbens 与Isaiah Andrews就机器学习 在应用计量经济学中的角色 展开讨论和争辩 - [Isaiah] 有很多议题 两位大致上都同意 但我想换个或许两位各有看法的话题 我想听听你们对机器学习的看法 还有就经济学而言 这方面在当前和未来的进展 - [Guido] 我看过一些 专利之类的数据 但并无相关出版文献 我看到有人做了搜索演算法的实验 不过问题在于 该实验是关于排序与改变排序的 所以当中显然存在许多异质性 比方说若要搜寻的是 小甜甜布兰妮的照片 (Britney Spears) 那结果排序不重要 因为还要自行判断吻合的目标 是排第一、第二,还是第三都无所谓 但若要找的是最好的计量经济学专书 结果排序是第一还是第十,差别就很大 因为这关系到点阅率 有监于此… - [Josh] 为什么需要 机器学习来发现这点? 这似乎我自己来就行了 - [Guido] 所以总的来说… - [Josh] 这有很多可能性 - 因为设想到事物的诸多特性 你会想了解造成异质性的驱力及其影响 - 但你只是在预测 某种意义上来说,这是在解决营销问题 - 不,这有因果关系 - 这是因果关系,但缺乏科学内涵 不妨这样想 - 不是的,在医疗界也有类似的例子 你若对部分族群接受特定疗法的功效感兴趣 因此进行研究实验 这当中牵涉各种特性 因此需要系统性地搜寻… - 没错,但我有疑虑是个体因果关系的假设 以及机器学习的洞察实用性 考量到我丰富的执教经验 包括一所公费资助的特许私校 校方实际上可视需要自由安排课程 有些特许学校的教学成效卓著 而在产生这类结果的数据集中包含许多共变量 包括基线分数、家庭背景、家长教育程度 学生性别和种族 一旦我将其中的数个项目整合后 便会产生高维空间 我对那种疗效研究的对应班级特征绝对有兴趣 比如是否对出身低收入家庭者较有利 但令我较难信服的应用是 非常高维的这类资料 我发现例如高收入家庭的非白人儿童 但基线分数落在第三个四分位数 且只在公立学校念到三年级而非六年级 因此衍生高维分析 条件陈述也很复杂 我认为刚才那种排序有两大问题 首先是分析难以执行 也不明白这样做的理由 我还知道有些替代模型就有几乎同样的作用 这就完全不同了 对吧?因为机器学习 无法指出真正重要的预测因子 只能找出不错的预测因子 所以我认为就社会科学而言,情况有些不同 - [Guido] 我想你提到的 社会科学应用 是效果异质性显著的例子 - [Josh] 若可填补模型空间可能会有 - 不是这样的! 我想就多数那些干扰因子来讲 你会期望对所有人来说,效果意涵是一样的 或许当中存在些许强度差异 不过许多教育上的论辩 认为这对大家都有好处 并非只对某些人不好,对其他人就有益 当然其中会有一小部分不好 程度上会有落差 但得有非常庞大的数据集才能发现 我同意这类例子的分析难度不低 但我想还有很多异质性更高的情境 - 我不否认有那种可能 我认为你所举的例子,本质上是营销案例 不,这就组织机构是有其意涵的 亦即实际上是否得顾虑… - 好吧,那我得读那篇论文了 所以感觉上 - 某部份我们仍有意见分歧 - 没错 并非全然达成共识 我也感觉到了 - 这方面我们实际上有不同看法 是因为并非切身相关 [笑声] 现在气氛好一点了 热络起来好啊 Josh,听来你的意思是 你并非全盘否认这类分析可能有的应用价值 而是对当前应用抱持保留的态度 - 这说得通 - 我是很有信心的 [笑声] - 就此而言 我认为Josh说的有道理 即使是机器学习大放异彩的预测模型用例 还是存在许多异质性 你不太在意这其中的细节对吧? - [Guido] 是的 并无牵涉政策角度之类的 机器学习更擅长辨识数字纪录之类的 而非建构复杂的模型 但是有很多社会科学,很多的经济应用 事实上,我们很了解所属变数间的关联 这些关联有很多是单调(monotone)的 教育会提升收入 不分是人口特性 任何教育程度都一样 直到获得博士学位 研究所教育也一样吗? [笑声] 合理的范围内还不至于大幅下滑 许多情况下,这类机器学习的方法表现亮眼 这些关联中包含许多非单调性的多模性 这些数据是很有力的