WEBVTT 00:00:00.012 --> 00:00:01.054 ♪ [音乐] ♪ 00:00:03.620 --> 00:00:05.700 [讲解员] 欢迎观看《诺贝尔对话》 00:00:07.000 --> 00:00:10.043 本集中,Josh Angrist 和Guido Imbens 00:00:10.043 --> 00:00:14.716 与Isaiah Andrews就机器学习 在应用计量经济学中的角色 00:00:14.717 --> 00:00:16.587 展开讨论和争辩 00:00:18.264 --> 00:00:21.223 - [Isaiah] 有很多议题 两位大致上都同意 00:00:21.224 --> 00:00:24.240 但我想换个或许两位各有看法的话题 00:00:24.240 --> 00:00:26.883 我想听听你们对机器学习的看法 00:00:26.883 --> 00:00:29.900 还有就经济学而言 这方面在当前和未来的进展 00:00:30.073 --> 00:00:33.715 - [Guido] 我看过一些 专利之类的数据 00:00:33.716 --> 00:00:34.978 但并无相关出版文献 00:00:36.106 --> 00:00:39.312 我看到有人做了搜索演算法的实验 00:00:39.668 --> 00:00:41.176 不过问题在于 00:00:42.829 --> 00:00:45.623 该实验是关于排序与改变排序的 00:00:45.837 --> 00:00:50.559 所以当中显然存在许多异质性 00:00:52.161 --> 00:00:56.031 比方说若要搜寻的是 00:00:57.831 --> 00:01:00.617 小甜甜布兰妮的照片 (Britney Spears) 00:01:00.617 --> 00:01:05.500 那结果排序不重要 因为还要自行判断吻合的目标 00:01:06.136 --> 00:01:09.717 是排第一、第二,还是第三都无所谓 00:01:10.091 --> 00:01:12.491 但若要找的是最好的计量经济学专书 00:01:13.139 --> 00:01:18.196 结果排序是第一还是第十,差别就很大 00:01:18.544 --> 00:01:20.923 因为这关系到点阅率 00:01:21.829 --> 00:01:23.417 有监于此… 00:01:23.417 --> 00:01:27.259 - [Josh] 为什么需要 机器学习来发现这点? 00:01:27.260 --> 00:01:29.195 这似乎我自己来就行了 00:01:29.195 --> 00:01:30.435 - [Guido] 所以总的来说… 00:01:30.435 --> 00:01:32.100 - [Josh] 这有很多可能性 00:01:32.101 --> 00:01:37.257 - 因为设想到事物的诸多特性 00:01:37.681 --> 00:01:43.287 你会想了解造成异质性的驱力及其影响 00:01:43.323 --> 00:01:45.008 - 但你只是在预测 00:01:45.008 --> 00:01:47.665 某种意义上来说,这是在解决营销问题 00:01:47.666 --> 00:01:49.191 - 不,这有因果关系 00:01:49.274 --> 00:01:51.911 - 这是因果关系,但缺乏科学内涵 00:01:51.911 --> 00:01:53.141 不妨这样想 00:01:53.664 --> 00:01:57.307 - 不是的,在医疗界也有类似的例子 00:01:57.857 --> 00:02:01.942 你若对部分族群接受特定疗法的功效感兴趣 00:02:01.951 --> 00:02:03.705 因此进行研究实验 00:02:03.828 --> 00:02:07.887 这当中牵涉各种特性 因此需要系统性地搜寻… 00:02:07.888 --> 00:02:13.730 - 没错,但我有疑虑是个体因果关系的假设 00:02:13.999 --> 00:02:17.024 以及机器学习的洞察实用性 00:02:17.259 --> 00:02:20.045 考量到我丰富的执教经验 00:02:20.046 --> 00:02:24.109 包括一所公费资助的特许私校 00:02:25.225 --> 00:02:29.399 校方实际上可视需要自由安排课程 00:02:29.529 --> 00:02:33.390 有些特许学校的教学成效卓著 00:02:33.789 --> 00:02:37.662 而在产生这类结果的数据集中包含许多共变量 00:02:37.663 --> 00:02:43.207 包括基线分数、家庭背景、家长教育程度 00:02:43.343 --> 00:02:45.800 学生性别和种族 00:02:45.930 --> 00:02:49.795 一旦我将其中的数个项目整合后 00:02:49.795 --> 00:02:51.900 便会产生高维空间 00:02:52.244 --> 00:02:56.402 我对那种疗效研究的对应班级特征绝对有兴趣 00:02:56.457 --> 00:03:02.046 比如是否对出身低收入家庭者较有利 00:03:02.409 --> 00:03:06.042 但令我较难信服的应用是 00:03:07.273 --> 00:03:09.872 非常高维的这类资料 00:03:09.872 --> 00:03:14.971 我发现例如高收入家庭的非白人儿童 00:03:14.971 --> 00:03:17.800 但基线分数落在第三个四分位数 00:03:18.166 --> 00:03:22.928 且只在公立学校念到三年级而非六年级 00:03:22.929 --> 00:03:25.715 因此衍生高维分析 00:03:25.716 --> 00:03:28.016 条件陈述也很复杂 00:03:28.223 --> 00:03:30.675 我认为刚才那种排序有两大问题 00:03:30.676 --> 00:03:34.000 首先是分析难以执行 00:03:34.600 --> 00:03:36.412 也不明白这样做的理由 00:03:36.591 --> 00:03:41.139 我还知道有些替代模型就有几乎同样的作用 00:03:41.671 --> 00:03:42.877 这就完全不同了 00:03:43.115 --> 00:03:48.636 对吧?因为机器学习 无法指出真正重要的预测因子 00:03:48.637 --> 00:03:51.020 只能找出不错的预测因子 00:03:51.486 --> 00:03:57.586 所以我认为就社会科学而言,情况有些不同 00:03:57.785 --> 00:04:00.983 - [Guido] 我想你提到的 社会科学应用 00:04:01.522 --> 00:04:08.100 是效果异质性显著的例子 00:04:09.783 --> 00:04:13.410 - [Josh] 若可填补模型空间可能会有 00:04:13.411 --> 00:04:15.685 - 不是这样的! 00:04:15.739 --> 00:04:18.786 我想就多数那些干扰因子来讲 00:04:18.787 --> 00:04:22.765 你会期望对所有人来说,效果意涵是一样的 00:04:24.358 --> 00:04:26.913 或许当中存在些许强度差异 00:04:26.914 --> 00:04:31.596 不过许多教育上的论辩 认为这对大家都有好处 00:04:34.169 --> 00:04:37.385 并非只对某些人不好,对其他人就有益 00:04:37.471 --> 00:04:40.812 当然其中会有一小部分不好 00:04:40.869 --> 00:04:43.884 程度上会有落差 00:04:43.948 --> 00:04:46.955 但得有非常庞大的数据集才能发现 00:04:47.135 --> 00:04:51.415 我同意这类例子的分析难度不低 00:04:51.700 --> 00:04:56.457 但我想还有很多异质性更高的情境 00:04:57.250 --> 00:04:59.102 - 我不否认有那种可能 00:04:59.102 --> 00:05:04.918 我认为你所举的例子,本质上是营销案例 00:05:06.315 --> 00:05:10.630 不,这就组织机构是有其意涵的 00:05:10.631 --> 00:05:14.393 亦即实际上是否得顾虑… 00:05:15.469 --> 00:05:17.900 - 好吧,那我得读那篇论文了 00:05:18.336 --> 00:05:21.008 所以感觉上 00:05:21.467 --> 00:05:23.996 - 某部份我们仍有意见分歧 - 没错 00:05:23.996 --> 00:05:25.440 并非全然达成共识 00:05:25.440 --> 00:05:27.200 我也感觉到了 00:05:27.200 --> 00:05:30.833 - 这方面我们实际上有不同看法 是因为并非切身相关 00:05:30.833 --> 00:05:32.334 [笑声] 00:05:33.049 --> 00:05:34.763 现在气氛好一点了 00:05:35.820 --> 00:05:37.883 热络起来好啊 00:05:38.016 --> 00:05:39.691 Josh,听来你的意思是 00:05:39.692 --> 00:05:45.236 你并非全盘否认这类分析可能有的应用价值 00:05:45.237 --> 00:05:49.487 而是对当前应用抱持保留的态度 00:05:49.917 --> 00:05:51.589 - 这说得通 - 我是很有信心的 00:05:51.981 --> 00:05:53.663 [笑声] 00:05:54.156 --> 00:05:55.189 - 就此而言 00:05:55.189 --> 00:05:56.751 我认为Josh说的有道理 00:05:57.987 --> 00:06:04.974 即使是机器学习大放异彩的预测模型用例 00:06:04.992 --> 00:06:06.952 还是存在许多异质性 00:06:07.300 --> 00:06:10.411 你不太在意这其中的细节对吧? 00:06:10.769 --> 00:06:11.836 - [Guido] 是的 00:06:11.836 --> 00:06:15.000 并无牵涉政策角度之类的 00:06:15.128 --> 00:06:20.089 机器学习更擅长辨识数字纪录之类的 00:06:20.090 --> 00:06:24.000 而非建构复杂的模型 00:06:24.400 --> 00:06:28.079 但是有很多社会科学,很多的经济应用 00:06:28.222 --> 00:06:31.905 事实上,我们很了解所属变数间的关联 00:06:31.906 --> 00:06:34.700 这些关联有很多是单调(monotone)的 00:06:37.126 --> 00:06:39.376 教育会提升收入 00:06:39.697 --> 00:06:41.950 不分是人口特性 00:06:41.950 --> 00:06:44.930 任何教育程度都一样 00:06:44.930 --> 00:06:46.076 直到获得博士学位 00:06:46.077 --> 00:06:47.956 研究所教育也一样吗? 00:06:47.956 --> 00:06:49.227 [笑声] 00:06:49.227 --> 00:06:55.605 合理的范围内还不至于大幅下滑 00:06:56.044 --> 00:06:59.692 许多情况下,这类机器学习的方法表现亮眼 00:07:00.100 --> 00:07:04.900 这些关联中包含许多非单调性的多模性 00:07:05.300 --> 00:07:08.456 就这些关联性来说,机器学习是很有力的工具 00:07:08.921 --> 00:07:11.787 不过我仍坚信 00:07:12.472 --> 00:07:17.608 经济学家能从这些方法中获益良多 00:07:17.609 --> 00:07:21.700 对未来前景影响甚钜 00:07:21.889 --> 00:07:22.979 ♪ [音乐] ♪ 00:07:23.382 --> 00:07:25.912 - [Isaiah] 机器学习在这方面 似乎还有很多有趣的议题 00:07:25.912 --> 00:07:30.908 所以可否请Guido就当前既有的应用 00:07:30.908 --> 00:07:32.598 再举些例子? 00:07:32.628 --> 00:07:34.150 其中一个例子就是 00:07:34.673 --> 00:07:39.565 我们目前舍弃一般的因果关系 转向寻求个别化的估计 00:07:41.492 --> 00:07:43.426 来预测因果关系 00:07:43.427 --> 00:07:47.569 这方面机器学习的演算非常有用 00:07:47.932 --> 00:07:51.503 以往的传统途径是内核方法 00:07:51.504 --> 00:07:53.936 理论上成效不错 00:07:53.937 --> 00:07:57.294 不过有些人辩解道这已经是最好的了 00:07:57.548 --> 00:07:59.579 不过此法的实务表现不甚理想 00:08:00.900 --> 00:08:02.971 Stefan Wager 和 Susan Athey 00:08:02.979 --> 00:08:06.644 两位学者持续耕耘的 随机与因果森林这类推断法 00:08:06.916 --> 00:08:09.429 应用非常广泛 00:08:09.548 --> 00:08:15.562 这些方法在这类情境中 推断基于共变项的因果效应 00:08:15.563 --> 00:08:19.151 效果其实很不错 00:08:20.604 --> 00:08:23.818 我想这些推断方法才刚起步 00:08:23.819 --> 00:08:25.700 但很多情况下 00:08:27.351 --> 00:08:31.600 这些演算法在搜索广泛空间时 00:08:31.721 --> 00:08:37.021 以及找出适合的函数方面帮助很大 00:08:37.267 --> 00:08:40.948 其运作方式是我们无法事先备妥的 00:08:41.500 --> 00:08:43.015 就因果推论而言 00:08:43.016 --> 00:08:47.295 我并不清楚机器学习的洞见 是否有吸引我关注的例子 00:08:47.767 --> 00:08:51.209 我知道一些很可能会误导的例子 00:08:51.210 --> 00:08:53.781 因此我和 Brigham Frandsen 合作过一些相关研究 00:08:54.022 --> 00:08:59.897 例如,在需要界定共变量的工具变量问题中 00:09:00.187 --> 00:09:03.456 使用随机森林来建立共变量效应模型 00:09:04.288 --> 00:09:08.200 对此,你不会对其功能形式有特别强烈的感受 00:09:08.201 --> 00:09:12.915 因此或许需作决策曲线分析 并对弹性曲线拟合分析持开放的态度 00:09:12.916 --> 00:09:16.757 这会引导你进入一种 模型中包含许多非线性的情况 00:09:17.312 --> 00:09:19.933 这对工具变量来说很危险 00:09:19.933 --> 00:09:22.893 因为任何所排除的非线性 00:09:23.226 --> 00:09:25.839 都有可能导致因果效应的谬误 00:09:25.839 --> 00:09:29.292 我想我和Brigham已就这点提出有力证明 00:09:29.292 --> 00:09:35.159 所用的例子是我和Bill Evans 合着的论文中所用的两项分析工具 00:09:35.160 --> 00:09:38.754 其中若将两阶段最小二乘法 00:09:38.755 --> 00:09:42.366 换成某种随机森林分析法 00:09:42.900 --> 00:09:46.807 便会得出精算过的虚假推估 00:09:48.962 --> 00:09:51.942 我认为这是一大警讯 00:09:51.943 --> 00:09:54.665 考量我使用简单分析工具 00:09:54.666 --> 00:09:58.975 就自身研究兴趣的案例中 所得到的这些验证过的见解 00:09:59.268 --> 00:10:01.093 让我对此有所怀疑 00:10:02.870 --> 00:10:06.284 非线性和工具变量并不是很契合