1 00:00:00,012 --> 00:00:01,054 ♪ [音乐] ♪ 2 00:00:03,620 --> 00:00:05,700 [讲解员] 欢迎观看《诺贝尔对话》 3 00:00:07,000 --> 00:00:10,043 本集中,Josh Angrist 和Guido Imbens 4 00:00:10,043 --> 00:00:14,716 与Isaiah Andrews就机器学习 在应用计量经济学中的角色 5 00:00:14,717 --> 00:00:16,587 展开讨论和争辩 6 00:00:18,264 --> 00:00:21,223 - [Isaiah] 有很多议题 两位大致上都同意 7 00:00:21,224 --> 00:00:24,240 但我想换个或许两位各有看法的话题 8 00:00:24,240 --> 00:00:26,883 我想听听你们对机器学习的看法 9 00:00:26,883 --> 00:00:29,900 还有就经济学而言 这方面在当前和未来的进展 10 00:00:30,073 --> 00:00:33,715 - [Guido] 我看过一些 专利之类的数据 11 00:00:33,716 --> 00:00:34,978 但并无相关出版文献 12 00:00:36,106 --> 00:00:39,312 我看到有人做了搜索演算法的实验 13 00:00:39,668 --> 00:00:41,176 不过问题在于 14 00:00:42,829 --> 00:00:45,623 该实验是关于排序与改变排序的 15 00:00:45,837 --> 00:00:50,559 所以当中显然存在许多异质性 16 00:00:52,161 --> 00:00:56,031 比方说若要搜寻的是 17 00:00:57,831 --> 00:01:00,617 小甜甜布兰妮的照片 (Britney Spears) 18 00:01:00,617 --> 00:01:05,500 那结果排序不重要 因为还要自行判断吻合的目标 19 00:01:06,136 --> 00:01:09,717 是排第一、第二,还是第三都无所谓 20 00:01:10,091 --> 00:01:12,491 但若要找的是最好的计量经济学专书 21 00:01:13,139 --> 00:01:18,196 结果排序是第一还是第十,差别就很大 22 00:01:18,544 --> 00:01:20,923 因为这关系到点阅率 23 00:01:21,829 --> 00:01:23,417 有监于此… 24 00:01:23,417 --> 00:01:27,259 - [Josh] 为什么需要 机器学习来发现这点? 25 00:01:27,260 --> 00:01:29,195 这似乎我自己来就行了 26 00:01:29,195 --> 00:01:30,435 - [Guido] 所以总的来说… 27 00:01:30,435 --> 00:01:32,100 - [Josh] 这有很多可能性 28 00:01:32,101 --> 00:01:37,257 - 因为设想到事物的诸多特性 29 00:01:37,681 --> 00:01:43,287 你会想了解造成异质性的驱力及其影响 30 00:01:43,323 --> 00:01:45,008 - 但你只是在预测 31 00:01:45,008 --> 00:01:47,665 某种意义上来说,这是在解决营销问题 32 00:01:47,666 --> 00:01:49,191 - 不,这有因果关系 33 00:01:49,274 --> 00:01:51,911 - 这是因果关系,但缺乏科学内涵 34 00:01:51,911 --> 00:01:53,141 不妨这样想 35 00:01:53,664 --> 00:01:57,307 - 不是的,在医疗界也有类似的例子 36 00:01:57,857 --> 00:02:01,942 你若对部分族群接受特定疗法的功效感兴趣 37 00:02:01,951 --> 00:02:03,705 因此进行研究实验 38 00:02:03,828 --> 00:02:07,887 这当中牵涉各种特性 因此需要系统性地搜寻… 39 00:02:07,888 --> 00:02:13,730 - 没错,但我有疑虑是个体因果关系的假设 40 00:02:13,999 --> 00:02:17,024 以及机器学习的洞察实用性 41 00:02:17,259 --> 00:02:20,045 考量到我丰富的执教经验 42 00:02:20,046 --> 00:02:24,109 包括一所公费资助的特许私校 43 00:02:25,225 --> 00:02:29,399 校方实际上可视需要自由安排课程 44 00:02:29,529 --> 00:02:33,390 有些特许学校的教学成效卓著 45 00:02:33,789 --> 00:02:37,662 而在产生这类结果的数据集中包含许多共变量 46 00:02:37,663 --> 00:02:43,207 包括基线分数、家庭背景、家长教育程度 47 00:02:43,343 --> 00:02:45,800 学生性别和种族 48 00:02:45,930 --> 00:02:49,795 一旦我将其中的数个项目整合后 49 00:02:49,795 --> 00:02:51,900 便会产生高维空间 50 00:02:52,244 --> 00:02:56,402 我对那种疗效研究的对应班级特征绝对有兴趣 51 00:02:56,457 --> 00:03:02,046 比如是否对出身低收入家庭者较有利 52 00:03:02,409 --> 00:03:06,042 但令我较难信服的应用是 53 00:03:07,273 --> 00:03:09,872 非常高维的这类资料 54 00:03:09,872 --> 00:03:14,971 我发现例如高收入家庭的非白人儿童 55 00:03:14,971 --> 00:03:17,800 但基线分数落在第三个四分位数 56 00:03:18,166 --> 00:03:22,928 且只在公立学校念到三年级而非六年级 57 00:03:22,929 --> 00:03:25,715 因此衍生高维分析 58 00:03:25,716 --> 00:03:28,016 条件陈述也很复杂 59 00:03:28,223 --> 00:03:30,675 我认为刚才那种排序有两大问题 60 00:03:30,676 --> 00:03:34,000 首先是分析难以执行 61 00:03:34,600 --> 00:03:36,412 也不明白这样做的理由 62 00:03:36,591 --> 00:03:41,139 我还知道有些替代模型就有几乎同样的作用 63 00:03:41,671 --> 00:03:42,877 这就完全不同了 64 00:03:43,115 --> 00:03:48,636 对吧?因为机器学习 无法指出真正重要的预测因子 65 00:03:48,637 --> 00:03:51,020 只能找出不错的预测因子 66 00:03:51,486 --> 00:03:57,586 所以我认为就社会科学而言,情况有些不同 67 00:03:57,785 --> 00:04:00,983 - [Guido] 我想你提到的 社会科学应用 68 00:04:01,522 --> 00:04:08,100 是效果异质性显著的例子 69 00:04:09,783 --> 00:04:13,410 - [Josh] 若可填补模型空间可能会有 70 00:04:13,411 --> 00:04:15,685 - 不是这样的! 71 00:04:15,739 --> 00:04:18,786 我想就多数那些干扰因子来讲 72 00:04:18,787 --> 00:04:22,765 你会期望对所有人来说,效果意涵是一样的 73 00:04:24,358 --> 00:04:26,913 或许当中存在些许强度差异 74 00:04:26,914 --> 00:04:31,596 不过许多教育上的论辩 认为这对大家都有好处 75 00:04:34,169 --> 00:04:37,385 并非只对某些人不好,对其他人就有益 76 00:04:37,471 --> 00:04:40,812 当然其中会有一小部分不好 77 00:04:40,869 --> 00:04:43,884 程度上会有落差 78 00:04:43,948 --> 00:04:46,955 但得有非常庞大的数据集才能发现 79 00:04:47,135 --> 00:04:51,415 我同意这类例子的分析难度不低 80 00:04:51,700 --> 00:04:56,457 但我想还有很多异质性更高的情境 81 00:04:57,250 --> 00:04:59,102 - 我不否认有那种可能 82 00:04:59,102 --> 00:05:04,918 我认为你所举的例子,本质上是营销案例 83 00:05:06,315 --> 00:05:10,630 不,这就组织机构是有其意涵的 84 00:05:10,631 --> 00:05:14,393 亦即实际上是否得顾虑… 85 00:05:15,469 --> 00:05:17,900 - 好吧,那我得读那篇论文了 86 00:05:18,336 --> 00:05:21,008 所以感觉上 87 00:05:21,467 --> 00:05:23,996 - 某部份我们仍有意见分歧 - 没错 88 00:05:23,996 --> 00:05:25,440 并非全然达成共识 89 00:05:25,440 --> 00:05:27,200 我也感觉到了 90 00:05:27,200 --> 00:05:30,833 - 这方面我们实际上有不同看法 是因为并非切身相关 91 00:05:30,833 --> 00:05:32,334 [笑声] 92 00:05:33,049 --> 00:05:34,763 现在气氛好一点了 93 00:05:35,820 --> 00:05:37,883 热络起来好啊 94 00:05:38,016 --> 00:05:39,691 Josh,听来你的意思是 95 00:05:39,692 --> 00:05:45,236 你并非全盘否认这类分析可能有的应用价值 96 00:05:45,237 --> 00:05:49,487 而是对当前应用抱持保留的态度 97 00:05:49,917 --> 00:05:51,589 - 这说得通 - 我是很有信心的 98 00:05:51,981 --> 00:05:53,663 [笑声] 99 00:05:54,156 --> 00:05:55,189 - 就此而言 100 00:05:55,189 --> 00:05:56,751 我认为Josh说的有道理 101 00:05:57,987 --> 00:06:04,974 即使是机器学习大放异彩的预测模型用例 102 00:06:04,992 --> 00:06:06,952 还是存在许多异质性 103 00:06:07,300 --> 00:06:10,411 你不太在意这其中的细节对吧? 104 00:06:10,769 --> 00:06:11,836 - [Guido] 是的 105 00:06:11,836 --> 00:06:15,000 并无牵涉政策角度之类的 106 00:06:15,128 --> 00:06:20,089 机器学习更擅长辨识数字纪录之类的 107 00:06:20,090 --> 00:06:24,000 而非建构复杂的模型 108 00:06:24,400 --> 00:06:28,079 但是有很多社会科学,很多的经济应用 109 00:06:28,222 --> 00:06:31,905 事实上,我们很了解所属变数间的关联 110 00:06:31,906 --> 00:06:34,700 这些关联有很多是单调(monotone)的 111 00:06:37,126 --> 00:06:39,376 教育会提升收入 112 00:06:39,697 --> 00:06:41,950 不分是人口特性 113 00:06:41,950 --> 00:06:44,930 任何教育程度都一样 114 00:06:44,930 --> 00:06:46,076 直到获得博士学位 115 00:06:46,077 --> 00:06:47,956 研究所教育也一样吗? 116 00:06:47,956 --> 00:06:49,227 [笑声] 117 00:06:49,227 --> 00:06:55,605 合理的范围内还不至于大幅下滑 118 00:06:56,044 --> 00:06:59,692 许多情况下,这类机器学习的方法表现亮眼 119 00:07:00,100 --> 00:07:04,900 这些关联中包含许多非单调性的多模性 120 00:07:05,300 --> 00:07:08,456 就这些关联性来说,机器学习是很有力的工具 121 00:07:08,921 --> 00:07:11,787 不过我仍坚信 122 00:07:12,472 --> 00:07:17,608 经济学家能从这些方法中获益良多 123 00:07:17,609 --> 00:07:21,700 对未来前景影响甚钜 124 00:07:21,889 --> 00:07:22,979 ♪ [音乐] ♪ 125 00:07:23,382 --> 00:07:25,912 - [Isaiah] 机器学习在这方面 似乎还有很多有趣的议题 126 00:07:25,912 --> 00:07:30,908 所以可否请Guido就当前既有的应用 127 00:07:30,908 --> 00:07:32,598 再举些例子? 128 00:07:32,628 --> 00:07:34,150 其中一个例子就是 129 00:07:34,673 --> 00:07:39,565 我们目前舍弃一般的因果关系 转向寻求个别化的估计 130 00:07:41,492 --> 00:07:43,426 来预测因果关系 131 00:07:43,427 --> 00:07:47,569 这方面机器学习的演算非常有用 132 00:07:47,932 --> 00:07:51,503 以往的传统途径是内核方法 133 00:07:51,504 --> 00:07:53,936 理论上成效不错 134 00:07:53,937 --> 00:07:57,294 不过有些人辩解道这已经是最好的了 135 00:07:57,548 --> 00:07:59,579 不过此法的实务表现不甚理想 136 00:08:00,900 --> 00:08:02,971 Stefan Wager 和 Susan Athey 137 00:08:02,979 --> 00:08:06,644 两位学者持续耕耘的 随机与因果森林这类推断法 138 00:08:06,916 --> 00:08:09,429 应用非常广泛 139 00:08:09,548 --> 00:08:15,562 这些方法在这类情境中 推断基于共变项的因果效应 140 00:08:15,563 --> 00:08:19,151 效果其实很不错 141 00:08:20,604 --> 00:08:23,818 我想这些推断方法才刚起步 142 00:08:23,819 --> 00:08:25,700 但很多情况下 143 00:08:27,351 --> 00:08:31,600 这些演算法在搜索广泛空间时 144 00:08:31,721 --> 00:08:37,021 以及找出适合的函数方面帮助很大 145 00:08:37,267 --> 00:08:40,948 其运作方式是我们无法事先备妥的 146 00:08:41,500 --> 00:08:43,015 就因果推论而言 147 00:08:43,016 --> 00:08:47,295 我并不清楚机器学习的洞见 是否有吸引我关注的例子 148 00:08:47,767 --> 00:08:51,209 我知道一些很可能会误导的例子 149 00:08:51,210 --> 00:08:53,781 因此我和 Brigham Frandsen 合作过一些相关研究 150 00:08:54,022 --> 00:08:59,897 例如,在需要界定共变量的工具变量问题中 151 00:09:00,187 --> 00:09:03,456 使用随机森林来建立共变量效应模型 152 00:09:04,288 --> 00:09:08,200 对此,你不会对其功能形式有特别强烈的感受 153 00:09:08,201 --> 00:09:12,915 因此或许需作决策曲线分析 并对弹性曲线拟合分析持开放的态度 154 00:09:12,916 --> 00:09:16,757 这会引导你进入一种 模型中包含许多非线性的情况 155 00:09:17,312 --> 00:09:19,933 这对工具变量来说很危险 156 00:09:19,933 --> 00:09:22,893 因为任何所排除的非线性 157 00:09:23,226 --> 00:09:25,839 都有可能导致因果效应的谬误 158 00:09:25,839 --> 00:09:29,292 我想我和Brigham已就这点提出有力证明 159 00:09:29,292 --> 00:09:35,159 所用的例子是我和Bill Evans 合着的论文中所用的两项分析工具 160 00:09:35,160 --> 00:09:38,754 其中若将两阶段最小二乘法 161 00:09:38,755 --> 00:09:42,366 换成某种随机森林分析法 162 00:09:42,900 --> 00:09:46,807 便会得出精算过的虚假推估 163 00:09:48,962 --> 00:09:51,942 我认为这是一大警讯 164 00:09:51,943 --> 00:09:54,665 考量我使用简单分析工具 165 00:09:54,666 --> 00:09:58,975 就自身研究兴趣的案例中 所得到的这些验证过的见解 166 00:09:59,268 --> 00:10:01,093 让我对此有所怀疑 167 00:10:02,870 --> 00:10:06,284 非线性和工具变量并不是很契合