1 00:00:00,000 --> 00:00:03,394 ♪ (música) ♪ 2 00:00:03,394 --> 00:00:05,633 [Narradora] Bienvenidos a Conversaciones Nobel. 3 00:00:06,992 --> 00:00:10,103 En este episodio, Josh Angrist y Guido Imbens 4 00:00:10,103 --> 00:00:13,446 están reunidos con Isaiah Andrews para debatir y discrepar 5 00:00:13,446 --> 00:00:15,221 sobre el papel del aprendizaje automático 6 00:00:15,221 --> 00:00:16,816 en la econometría aplicada. 7 00:00:17,894 --> 00:00:19,896 [Isaiah] Bien, por supuesto que hay muchos temas 8 00:00:19,896 --> 00:00:21,465 en los que ustedes están muy de acuerdo, 9 00:00:21,465 --> 00:00:22,595 pero me gustaría pasar a uno 10 00:00:22,595 --> 00:00:24,365 sobre el que tal vez opinen algo distinto. 11 00:00:24,365 --> 00:00:26,103 Me gustaría escuchar algunas de sus opiniones 12 00:00:26,103 --> 00:00:27,319 sobre el aprendizaje automático 13 00:00:27,319 --> 00:00:30,257 y el papel que desempeña y desempeñará en la economía. 14 00:00:30,257 --> 00:00:31,858 [Guido] He consultado algunos datos, 15 00:00:31,858 --> 00:00:33,349 como los datos privados. 16 00:00:33,349 --> 00:00:35,306 Vemos que no hay ningún documento publicado allí. 17 00:00:36,835 --> 00:00:39,609 Se hizo un experimento sobre algún algoritmo de búsqueda 18 00:00:40,300 --> 00:00:41,810 y la cuestión era... 19 00:00:42,581 --> 00:00:45,492 se trataba de clasificar cosas y cambiar la clasificación. 20 00:00:45,990 --> 00:00:47,163 Y estaba más o menos claro 21 00:00:47,163 --> 00:00:50,271 que iba a haber mucha heterogeneidad. 22 00:00:52,110 --> 00:00:55,864 Si buscas, digamos, 23 00:00:58,122 --> 00:01:00,640 una foto de Britney Spears, 24 00:01:00,640 --> 00:01:02,505 realmente no importa dónde la clasifiques 25 00:01:02,505 --> 00:01:05,214 porque vas a encontrar lo que estás buscando, 26 00:01:06,196 --> 00:01:07,580 ya sea que la clasifiques 27 00:01:07,580 --> 00:01:09,744 en primera, segunda o tercera posición. 28 00:01:10,270 --> 00:01:12,346 Pero si estás buscando el mejor libro de econometría, 29 00:01:14,094 --> 00:01:16,510 ya sea que pongas tu libro en el primer lugar o en el décimo, 30 00:01:16,510 --> 00:01:18,340 eso va a suponer una gran diferencia 31 00:01:18,340 --> 00:01:19,835 en la frecuencia 32 00:01:19,835 --> 00:01:21,286 con la que la gente hará clic en él. 33 00:01:22,060 --> 00:01:23,312 Así que ahí... 34 00:01:23,312 --> 00:01:24,326 [Josh] ¿Por qué necesito 35 00:01:24,326 --> 00:01:27,314 el aprendizaje automático para descubrir eso? 36 00:01:27,314 --> 00:01:29,463 Porque parece que puedo descubrirlo de forma sencilla. 37 00:01:29,463 --> 00:01:30,517 [Guido] En general... 38 00:01:30,517 --> 00:01:32,233 [Josh] Había un montón de posibles... 39 00:01:32,233 --> 00:01:34,233 [Guido]...quieres pensar que los artículos 40 00:01:34,233 --> 00:01:37,920 tienen un montón de características, 41 00:01:37,920 --> 00:01:38,940 que quieres entender 42 00:01:38,940 --> 00:01:43,650 lo que impulsa la heterogeneidad en el efecto de... 43 00:01:43,669 --> 00:01:44,876 [Josh] Pero solo estás prediciendo. 44 00:01:44,876 --> 00:01:46,570 En cierto sentido, 45 00:01:46,570 --> 00:01:47,793 estás resolviendo un problema de marketing. 46 00:01:47,793 --> 00:01:49,210 [Guido] No, es un efecto causal, 47 00:01:49,210 --> 00:01:51,738 [Josh] Es causal, pero no tiene contenido científico. 48 00:01:51,738 --> 00:01:52,809 Piensa en... 49 00:01:53,669 --> 00:01:55,456 [Guido] No, pero hay cosas similares 50 00:01:55,456 --> 00:01:57,243 en el ámbito médico. 51 00:01:57,693 --> 00:01:59,312 Si haces un experimento, 52 00:01:59,312 --> 00:02:02,492 puedes estar muy interesado en si el tratamiento funciona 53 00:02:02,492 --> 00:02:03,821 para algunos grupos o no. 54 00:02:03,821 --> 00:02:05,946 Y tienes un montón de características individuales, 55 00:02:05,946 --> 00:02:08,109 y quieres buscar sistemáticamente... 56 00:02:08,109 --> 00:02:09,883 [Josh] Sí. Tengo mis dudas sobre esa... 57 00:02:09,883 --> 00:02:12,588 esa especie de idea de que hay un efecto causal personal 58 00:02:12,588 --> 00:02:13,902 que me debería importar 59 00:02:13,902 --> 00:02:15,164 y que el aprendizaje automático 60 00:02:15,164 --> 00:02:17,103 puede descubrirlo de alguna manera que sea útil. 61 00:02:17,517 --> 00:02:18,678 Así que piensa en... 62 00:02:18,678 --> 00:02:20,182 He trabajado mucho en las escuelas, 63 00:02:20,182 --> 00:02:22,358 yendo a, digamos, una escuela chárter, 64 00:02:22,358 --> 00:02:24,498 una escuela privada financiada con fondos públicos, 65 00:02:24,780 --> 00:02:27,392 efectivamente, que es libre de estructurar 66 00:02:27,392 --> 00:02:29,587 su propio plan de estudios en función del contexto. 67 00:02:29,587 --> 00:02:30,938 Algunos tipos de escuelas chárter 68 00:02:30,938 --> 00:02:33,379 consiguen un rendimiento espectacular 69 00:02:33,959 --> 00:02:36,321 y en el conjunto de datos que produce ese resultado, 70 00:02:36,321 --> 00:02:37,968 tengo un montón de covariables. 71 00:02:37,968 --> 00:02:39,584 Tengo las puntuaciones de referencia 72 00:02:39,584 --> 00:02:41,321 y los antecedentes familiares, 73 00:02:41,321 --> 00:02:45,524 la educación de los padres, el sexo del niño, la raza del niño. 74 00:02:46,600 --> 00:02:49,758 Y, bueno, en cuanto reúno media docena de ellas, 75 00:02:49,758 --> 00:02:51,751 tengo un espacio de muy alta dimensión. 76 00:02:52,391 --> 00:02:55,394 Sin duda, me interesan las características del curso 77 00:02:55,394 --> 00:02:56,803 de ese efecto del tratamiento 78 00:02:56,803 --> 00:02:58,688 como; por ejemplo, si es mejor para las personas 79 00:02:58,688 --> 00:03:02,540 que provienen de familias con menores ingresos. 80 00:03:02,540 --> 00:03:05,656 Me cuesta creer que haya una aplicación 81 00:03:07,456 --> 00:03:09,970 para la versión de muy alta dimensión, 82 00:03:09,970 --> 00:03:12,499 en la que descubrí que para los niños no blancos 83 00:03:12,499 --> 00:03:15,280 que tienen ingresos familiares altos 84 00:03:15,280 --> 00:03:17,747 pero puntuaciones de referencia en el tercer cuartil 85 00:03:17,747 --> 00:03:20,535 y que solo fueron a la escuela pública 86 00:03:20,535 --> 00:03:23,128 en el tercer grado pero no en el sexto. 87 00:03:23,128 --> 00:03:25,681 Así que eso es lo que produce ese análisis de alta dimensión. 88 00:03:25,681 --> 00:03:27,938 Es una declaración condicional muy elaborada. 89 00:03:28,328 --> 00:03:30,702 Hay dos cosas que están mal, en mi opinión. 90 00:03:30,702 --> 00:03:32,418 En primer lugar, no lo veo como... 91 00:03:32,418 --> 00:03:34,492 No puedo imaginar por qué es algo procesable. 92 00:03:34,492 --> 00:03:36,518 No sé por qué querrías actuar sobre ello. 93 00:03:36,518 --> 00:03:39,381 Y también sé que hay algún modelo alternativo 94 00:03:39,381 --> 00:03:42,856 que encaja casi igual de bien, que lo invierte todo. 95 00:03:42,978 --> 00:03:44,591 Porque el aprendizaje automático 96 00:03:44,591 --> 00:03:48,473 no me dice que este es realmente el predictor que importa, 97 00:03:48,473 --> 00:03:50,779 solo me dice que este es un buen predictor. 98 00:03:51,396 --> 00:03:54,875 Así que creo, que hay algo diferente 99 00:03:54,875 --> 00:03:57,688 en el contexto de las ciencias sociales. 100 00:03:57,688 --> 00:04:00,270 [Guido] Creo que las aplicaciones de las ciencias sociales 101 00:04:00,270 --> 00:04:03,922 de las que hablas son aquellas en las que, creo, 102 00:04:03,922 --> 00:04:07,923 no hay una gran cantidad de heterogeneidad en los efectos. 103 00:04:09,760 --> 00:04:13,610 [Josh] Bueno, podría haberla si me permites llenar ese espacio. 104 00:04:13,610 --> 00:04:15,648 [Guido] No... ni siquiera entonces. 105 00:04:15,648 --> 00:04:18,506 Creo que para muchas de esas intervenciones, 106 00:04:18,506 --> 00:04:22,840 se espera que el efecto sea del mismo signo para todos. 107 00:04:23,550 --> 00:04:27,320 Puede haber pequeñas diferencias en la magnitud, pero no es... 108 00:04:27,576 --> 00:04:29,968 Porque muchas de estas diferencias educativas 109 00:04:29,968 --> 00:04:31,612 son buenas para todos. 110 00:04:31,612 --> 00:04:35,932 No es que sean malas para algunas personas 111 00:04:35,932 --> 00:04:37,408 y buenas para otras 112 00:04:37,408 --> 00:04:39,797 y luego hay unos pocos casos en los que son malas. 113 00:04:40,189 --> 00:04:43,633 Pero puede haber algo de variación en la magnitud, 114 00:04:43,633 --> 00:04:44,808 pero se necesitarían 115 00:04:44,808 --> 00:04:47,190 conjuntos de datos muy muy grandes para encontrarlos. 116 00:04:47,190 --> 00:04:48,985 Estoy de acuerdo en que, en esos casos, 117 00:04:48,985 --> 00:04:51,393 probablemente no serían muy procesables de todos modos. 118 00:04:51,881 --> 00:04:54,150 Pero creo que hay muchos otros escenarios 119 00:04:54,150 --> 00:04:56,483 donde hay mucha más heterogeneidad. 120 00:04:57,046 --> 00:04:59,164 [Josh] Bueno, estoy abierto a esa posibilidad 121 00:04:59,164 --> 00:05:00,977 y creo que el ejemplo que has dado 122 00:05:00,977 --> 00:05:04,857 es esencialmente un ejemplo de marketing. 123 00:05:05,938 --> 00:05:09,714 [Guido] No, esos tienen implicaciones respecto a ello 124 00:05:09,714 --> 00:05:11,596 y esa es la organización, 125 00:05:11,596 --> 00:05:13,708 si tienes que preocuparte por la... 126 00:05:15,358 --> 00:05:17,857 [Josh] Bueno, necesito ver ese documento. 127 00:05:18,289 --> 00:05:21,490 [Isaiah] Así que, la sensación que tengo es que... 128 00:05:21,490 --> 00:05:23,371 [Josh] Todavía estamos en desacuerdo en algo. 129 00:05:23,371 --> 00:05:25,735 - [Isaiah] Sí. - [Josh] No coincidimos en todo. 130 00:05:25,735 --> 00:05:27,393 [Isaiah] Tengo esa sensación. [risas] 131 00:05:27,393 --> 00:05:29,470 [Josh] En realidad, hemos discrepado en esto 132 00:05:29,470 --> 00:05:30,729 porque no estaba para discutir. 133 00:05:30,729 --> 00:05:33,144 [risas] 134 00:05:33,144 --> 00:05:35,600 [Guido] ¿Se está poniendo algo caluroso aquí? 135 00:05:35,720 --> 00:05:37,854 [Isaiah] Caluroso. Es bueno que esté caluroso. 136 00:05:37,854 --> 00:05:39,501 La sensación que tengo es, Josh, 137 00:05:39,501 --> 00:05:41,951 que no estás diciendo que estás seguro 138 00:05:41,951 --> 00:05:44,159 de que no hay manera de que haya una aplicación 139 00:05:44,159 --> 00:05:45,667 en la que estas cosas sean útiles. 140 00:05:45,667 --> 00:05:47,169 Estás diciendo que no estás convencido 141 00:05:47,169 --> 00:05:49,444 con las aplicaciones existentes hasta la fecha. 142 00:05:49,907 --> 00:05:51,665 - Me parece bien. - [Guido] Estoy muy seguro. 143 00:05:51,858 --> 00:05:54,179 [risas] 144 00:05:54,179 --> 00:05:55,270 [Josh] En este caso. 145 00:05:55,270 --> 00:05:56,791 [Guido] Creo que Josh tiene razón 146 00:05:57,737 --> 00:06:00,101 en que incluso en los casos de predicción, 147 00:06:01,601 --> 00:06:03,757 donde muchos de los métodos de aprendizaje automático 148 00:06:03,757 --> 00:06:06,517 realmente se destacan es donde hay un montón de heterogeneidad. 149 00:06:06,785 --> 00:06:10,400 [Josh] No te importan mucho los detalles, ¿verdad? 150 00:06:10,400 --> 00:06:11,480 [Guido] Sí. 151 00:06:11,480 --> 00:06:14,752 [Josh] No tiene un ángulo normativo o algo así. 152 00:06:14,752 --> 00:06:17,535 [Guido] El reconocimiento de dígitos escritos a mano 153 00:06:17,535 --> 00:06:18,721 y demás... 154 00:06:18,721 --> 00:06:23,861 lo hace mucho mejor que construir un modelo complicado. 155 00:06:24,201 --> 00:06:26,925 Pero muchas de las ciencias sociales, 156 00:06:26,925 --> 00:06:28,454 muchas de las aplicaciones económicas, 157 00:06:28,454 --> 00:06:29,610 en realidad, sabemos mucho 158 00:06:29,610 --> 00:06:32,670 sobre la relación entre sus variables. 159 00:06:32,670 --> 00:06:34,761 Muchas de las relaciones son estrictamente monótonas. 160 00:06:35,399 --> 00:06:39,266 La educación va a aumentar los ingresos de la gente, 161 00:06:39,836 --> 00:06:41,916 sin importar las características demográficas, 162 00:06:41,916 --> 00:06:44,763 sin importar el nivel de educación que se tenga. 163 00:06:44,763 --> 00:06:46,325 [Isaiah] Hasta que lleguen a un doctorado. 164 00:06:46,325 --> 00:06:48,126 [Josh] ¿Eso se aplica a la escuela de posgrado? 165 00:06:48,126 --> 00:06:49,218 [risas] 166 00:06:49,218 --> 00:06:50,593 [Guido] En un rango razonable. 167 00:06:50,593 --> 00:06:55,592 No va a bajar mucho. 168 00:06:55,592 --> 00:06:58,178 En muchos de los entornos en los que se destacan 169 00:06:58,178 --> 00:07:00,209 estos métodos de aprendizaje automático, 170 00:07:00,209 --> 00:07:02,810 hay mucha falta de monotonicidad, 171 00:07:02,810 --> 00:07:04,912 una especie de multimodalidad en estas relaciones 172 00:07:05,357 --> 00:07:08,475 y van a ser muy poderosos. 173 00:07:08,701 --> 00:07:11,426 Pero sigo sosteniendo lo mismo. 174 00:07:12,538 --> 00:07:17,530 Estos métodos tienen mucho para ofrecerles a los economistas 175 00:07:17,530 --> 00:07:21,465 y serán una gran parte del futuro. 176 00:07:21,629 --> 00:07:23,183 APLICACIONES DEL APRENDIZAJE AUTOMÁTICO 177 00:07:23,183 --> 00:07:24,814 [Isaiah] Parece que hay algo interesante por decir 178 00:07:24,814 --> 00:07:26,139 sobre el aprendizaje automático. 179 00:07:26,139 --> 00:07:27,412 Así que, Guido, me preguntaba 180 00:07:27,412 --> 00:07:29,416 ¿podrías dar tal vez algunos de los ejemplos 181 00:07:29,416 --> 00:07:30,694 que estás pensando 182 00:07:30,694 --> 00:07:32,507 con las aplicaciones que salen en el momento? 183 00:07:32,507 --> 00:07:35,779 [Guido] Un área es donde en lugar de buscar 184 00:07:35,779 --> 00:07:37,235 efectos causales promedio 185 00:07:37,235 --> 00:07:39,684 estamos buscando estimaciones individualizadas, 186 00:07:39,684 --> 00:07:43,212 predicciones de efectos causales, 187 00:07:43,212 --> 00:07:45,856 y allí, los algoritmos de aprendizaje automático 188 00:07:45,856 --> 00:07:47,384 han sido muy eficaces. 189 00:07:47,958 --> 00:07:49,892 Hasta ahora, hemos hecho estas cosas 190 00:07:49,892 --> 00:07:51,458 utilizando los métodos de Kernel, 191 00:07:51,458 --> 00:07:53,846 y teóricamente, funcionan muy bien, 192 00:07:53,846 --> 00:07:56,226 y hay quienes comentan que, formalmente, 193 00:07:56,226 --> 00:07:57,575 no se puede hacer nada mejor. 194 00:07:57,575 --> 00:07:59,422 Pero en la práctica, no funcionan muy bien. 195 00:08:00,963 --> 00:08:03,570 Las cosas aleatorias de tipo bosque causal 196 00:08:03,570 --> 00:08:05,833 en las que Stefan Wager y Susan Athey 197 00:08:05,833 --> 00:08:09,310 han estado trabajando se utilizan muy ampliamente. 198 00:08:09,537 --> 00:08:11,895 Han sido muy eficaces en estos entornos 199 00:08:11,895 --> 00:08:14,998 para obtener efectos causales 200 00:08:14,998 --> 00:08:19,118 que varían según las covariables. 201 00:08:19,118 --> 00:08:23,665 Creo que esto es solo el comienzo de estos métodos. 202 00:08:23,665 --> 00:08:25,605 Pero en muchos casos, 203 00:08:27,201 --> 00:08:29,572 estos algoritmos son muy eficaces, 204 00:08:29,572 --> 00:08:31,481 como en la búsqueda en grandes espacios 205 00:08:31,481 --> 00:08:36,908 y encontrar las funciones que se ajustan muy bien 206 00:08:37,228 --> 00:08:40,444 en formas que realmente no podíamos hacer antes. 207 00:08:41,511 --> 00:08:42,866 [Josh] No conozco ningún ejemplo 208 00:08:42,866 --> 00:08:45,379 en el que el aprendizaje automático haya generado conocimientos 209 00:08:45,379 --> 00:08:47,260 sobre un efecto causal que me interese. 210 00:08:47,619 --> 00:08:49,133 Y sí conozco ejemplos 211 00:08:49,133 --> 00:08:51,106 en los que es potencialmente muy engañoso. 212 00:08:51,485 --> 00:08:53,487 He trabajado con Brigham Frandsen 213 00:08:53,487 --> 00:08:55,916 utilizando, por ejemplo, bosques aleatorios 214 00:08:55,916 --> 00:08:57,943 para modelar los efectos de las covariables 215 00:08:57,943 --> 00:08:59,885 en un problema de variables instrumentales 216 00:09:00,155 --> 00:09:03,328 en el que hay que condicionar las covariables. 217 00:09:04,270 --> 00:09:06,456 Y no tienes un sentimiento muy fuerte 218 00:09:06,456 --> 00:09:08,130 sobre la forma funcional para eso, 219 00:09:08,130 --> 00:09:09,845 así que tal vez se debería curvar... 220 00:09:10,565 --> 00:09:12,814 estar abierto a un ajuste flexible de la curva. 221 00:09:12,977 --> 00:09:14,484 Y eso te lleva a un camino 222 00:09:14,484 --> 00:09:16,617 donde hay un montón de no linealidades en el modelo, 223 00:09:17,407 --> 00:09:19,857 y eso es muy peligroso con el VI 224 00:09:19,857 --> 00:09:22,698 porque cualquier tipo de no linealidad excluida 225 00:09:22,698 --> 00:09:25,945 genera potencialmente un efecto causal espurio 226 00:09:25,945 --> 00:09:29,384 y Brigham y yo lo mostramos, creo que muy convincentemente, 227 00:09:29,384 --> 00:09:32,104 en el caso de dos instrumentos 228 00:09:32,684 --> 00:09:34,963 que vienen de un trabajo mío con Bill Evans, 229 00:09:34,963 --> 00:09:37,295 donde, si se reemplaza... 230 00:09:37,295 --> 00:09:40,896 un estimador tradicional de mínimos cuadrados en dos etapas 231 00:09:40,896 --> 00:09:42,676 con algún tipo de bosque aleatorio, 232 00:09:42,676 --> 00:09:46,745 se obtienen estimaciones sin sentido muy precisas. 233 00:09:48,887 --> 00:09:51,560 Creo que eso es una gran advertencia. 234 00:09:51,560 --> 00:09:53,381 A la vista de esos resultados, 235 00:09:53,571 --> 00:09:55,332 en un ejemplo que me interese 236 00:09:55,332 --> 00:09:57,353 en el que los instrumentos sean muy simples 237 00:09:57,353 --> 00:10:01,149 y crea que son válidos, sería escéptico al respecto. 238 00:10:02,280 --> 00:10:06,258 La no linealidad y el VI no se mezclan muy cómodamente. 239 00:10:06,258 --> 00:10:09,191 [Guido] No, parece que eso ya es más complicado... 240 00:10:09,621 --> 00:10:11,914 - [Josh] Bueno, es VI... - [Guido] Sí. 241 00:10:11,914 --> 00:10:13,554 [Josh] pero luego trabajamos en eso. 242 00:10:13,554 --> 00:10:15,456 [risas] 243 00:10:15,456 --> 00:10:16,862 [Guido] Está bien. 244 00:10:16,862 --> 00:10:18,645 OPORTUNIDADES PARA PUBLICAR EN REVISTAS 245 00:10:18,645 --> 00:10:20,470 [Guido] Como editor de Econometrica, 246 00:10:20,470 --> 00:10:22,575 muchos de estos trabajos llegan a mi escritorio, 247 00:10:22,755 --> 00:10:26,659 pero la motivación no es clara 248 00:10:27,461 --> 00:10:29,706 y, de hecho, realmente no existe. 249 00:10:29,883 --> 00:10:34,875 No son... artículos fundacionales de tipo semiparamétrico. 250 00:10:35,515 --> 00:10:37,790 Así que, ese es un gran problema. 251 00:10:37,947 --> 00:10:41,364 Un problema relacionado es que, en econometría, 252 00:10:41,364 --> 00:10:43,726 tenemos la tradición de estar muy centrados 253 00:10:43,726 --> 00:10:46,448 en estos resultados asintóticos formales. 254 00:10:46,757 --> 00:10:50,040 Tenemos muchos artículos 255 00:10:50,730 --> 00:10:53,244 en los que la gente propone un método 256 00:10:53,244 --> 00:10:55,689 y luego establece las propiedades asintóticas 257 00:10:56,472 --> 00:10:59,345 de una manera muy estandarizada. 258 00:11:00,696 --> 00:11:01,954 [Josh] ¿Es eso malo? 259 00:11:02,202 --> 00:11:06,186 [Guido] Bueno, creo que les ha cerrado la puerta 260 00:11:06,186 --> 00:11:08,215 a muchos trabajos que no encajan 261 00:11:08,215 --> 00:11:11,328 en la literatura del aprendizaje automático, 262 00:11:11,328 --> 00:11:13,247 donde muchas cosas son más algorítmicas. 263 00:11:13,927 --> 00:11:18,323 La gente tenía algoritmos para hacer predicciones 264 00:11:18,714 --> 00:11:22,490 que resultaron funcionar mucho mejor que, por ejemplo, 265 00:11:22,490 --> 00:11:23,865 la regresión Kernel no paramétrica. 266 00:11:23,865 --> 00:11:25,128 Durante mucho tiempo, 267 00:11:25,128 --> 00:11:26,920 en econometría hicimos toda la no paramétrica 268 00:11:26,920 --> 00:11:28,753 y usamos la regresión Kernel. 269 00:11:29,178 --> 00:11:30,969 Y eso fue genial para probar teoremas. 270 00:11:30,969 --> 00:11:32,637 Podías obtener intervalos de confianza, 271 00:11:32,637 --> 00:11:34,567 consistencia, normalidad asintótica 272 00:11:34,567 --> 00:11:36,875 y todo iba genial, pero no era muy útil. 273 00:11:37,101 --> 00:11:39,326 Y las cosas que hicieron en el aprendizaje automático 274 00:11:39,326 --> 00:11:40,805 son mucho, mucho mejores. 275 00:11:41,540 --> 00:11:42,766 Pero no tenían el problema... 276 00:11:42,766 --> 00:11:44,961 [Josh] Ese no es mi problema con el aprendizaje automático, 277 00:11:44,961 --> 00:11:46,983 que la teoría sea débil. [risas] 278 00:11:47,730 --> 00:11:50,768 [Guido] No, pero estoy diciendo que, en cuanto a la predicción, 279 00:11:51,138 --> 00:11:52,359 lo hace mucho mejor. 280 00:11:52,359 --> 00:11:54,590 [Josh] Sí, es una mejor herramienta de ajuste de curvas. 281 00:11:54,590 --> 00:11:58,655 [Guido] Pero lo hizo de una manera que no habría hecho 282 00:11:58,655 --> 00:12:02,399 que esos trabajos fueran inicialmente fáciles de incorporar 283 00:12:02,399 --> 00:12:04,291 en las revistas de econometría, 284 00:12:04,291 --> 00:12:06,715 porque no estaba probando el tipo de cosas... 285 00:12:06,990 --> 00:12:09,842 Cuando Breiman hacía sus árboles de regresión... 286 00:12:09,842 --> 00:12:11,235 simplemente no encajaban. 287 00:12:11,477 --> 00:12:15,815 Creo que le habría sido muy difícil publicar estas cosas 288 00:12:15,815 --> 00:12:18,183 en las revistas de econometría. 289 00:12:20,124 --> 00:12:23,426 Creo que nos hemos limitado demasiado 290 00:12:23,457 --> 00:12:27,467 y nos hemos cerrado 291 00:12:27,615 --> 00:12:29,816 a muchos de estos métodos de aprendizaje automático 292 00:12:29,816 --> 00:12:31,117 que son realmente muy útiles. 293 00:12:31,292 --> 00:12:33,625 Es decir, creo, en general, 294 00:12:33,625 --> 00:12:36,614 que la literatura, los ingenieros de sistemas 295 00:12:36,614 --> 00:12:39,070 han presentado una gran cantidad de estos algoritmos, 296 00:12:40,776 --> 00:12:42,635 han propuesto una gran cantidad de algoritmos 297 00:12:42,635 --> 00:12:44,076 que realmente son muy útiles 298 00:12:44,076 --> 00:12:48,792 y que están afectando la forma en que haremos el trabajo empírico. 299 00:12:49,674 --> 00:12:52,140 Pero no lo hemos interiorizado del todo 300 00:12:52,140 --> 00:12:54,500 porque todavía estamos muy centrados 301 00:12:54,500 --> 00:12:56,276 en obtener estimaciones puntuales 302 00:12:56,276 --> 00:12:59,967 y obtener errores estándar y obtener valores P 303 00:13:00,247 --> 00:13:02,956 de una manera que necesitamos superar 304 00:13:02,956 --> 00:13:08,257 para aprovechar plenamente la fuerza, los beneficios 305 00:13:08,257 --> 00:13:10,564 de la literatura de aprendizaje automático. 306 00:13:11,374 --> 00:13:14,070 [Isaiah] Por un lado, creo que entiendo tu punto de vista 307 00:13:14,070 --> 00:13:16,738 de que el marco tradicional de la econometría 308 00:13:16,738 --> 00:13:19,734 de proponer un método, demostrar un teorema límite 309 00:13:19,734 --> 00:13:23,403 bajo alguna historia asintótica, y otra, y otra y otra... 310 00:13:24,429 --> 00:13:26,969 ...y luego publicar el documento, es restrictivo, 311 00:13:26,969 --> 00:13:28,805 y que, en cierto sentido, 312 00:13:28,805 --> 00:13:30,301 al pensar más ampliamente 313 00:13:30,301 --> 00:13:31,862 sobre cómo podría ser un documento de métodos, 314 00:13:31,862 --> 00:13:33,578 podemos escribir, en cierto sentido, 315 00:13:33,578 --> 00:13:35,339 desde luego que la literatura de aprendizaje automático 316 00:13:35,339 --> 00:13:36,430 ha encontrado un montón de cosas 317 00:13:36,430 --> 00:13:38,269 que parecen funcionar bastante bien para una serie de problemas 318 00:13:38,269 --> 00:13:40,984 y ahora están influyendo sustancialmente en la economía. 319 00:13:41,530 --> 00:13:43,339 Supongo que una pregunta que me interesa 320 00:13:43,339 --> 00:13:46,278 es cómo piensas en el papel de... 321 00:13:48,754 --> 00:13:50,990 ¿Crees que no hay valor en la parte de la teoría? 322 00:13:50,990 --> 00:13:52,174 Porque supongo 323 00:13:52,174 --> 00:13:54,118 que una pregunta que a menudo me hago 324 00:13:54,118 --> 00:13:55,729 al ver el resultado 325 00:13:55,729 --> 00:13:57,273 de una herramienta de aprendizaje automático... 326 00:13:57,273 --> 00:13:59,397 y, en realidad, varios de los métodos de los que hablaste 327 00:13:59,397 --> 00:14:01,759 tienen resultados inferenciales desarrollados para ellos, 328 00:14:01,759 --> 00:14:03,918 algo que siempre me pregunto, 329 00:14:03,918 --> 00:14:05,642 una especie de cuantificación de la incertidumbre 330 00:14:05,642 --> 00:14:06,735 y simplemente... 331 00:14:06,735 --> 00:14:07,801 Tengo mi... 332 00:14:07,801 --> 00:14:09,743 vengo al mundo con mi punto de vista, 333 00:14:09,743 --> 00:14:11,000 veo el resultado de esta cosa. 334 00:14:11,000 --> 00:14:12,633 ¿Cómo debo actualizarlo en función de eso? 335 00:14:12,633 --> 00:14:14,341 Y en cierto sentido, si estoy en un mundo 336 00:14:14,341 --> 00:14:16,250 donde las cosas se distribuyen normalmente, 337 00:14:16,250 --> 00:14:17,271 sé cómo hacerlo. 338 00:14:17,271 --> 00:14:18,350 Aquí no lo sé. 339 00:14:18,350 --> 00:14:21,160 Así que, me interesa escuchar lo que piensas al respecto. 340 00:14:21,389 --> 00:14:24,106 [Guido] No veo esto como si fuera a decir 341 00:14:24,106 --> 00:14:26,384 que estos resultados no son interesantes, 342 00:14:26,384 --> 00:14:27,712 pero habrá un montón de casos 343 00:14:27,712 --> 00:14:29,317 en los que va a ser increíblemente difícil 344 00:14:29,317 --> 00:14:30,340 obtener esos resultados 345 00:14:30,340 --> 00:14:32,435 y puede que no seamos capaces de llegar allí 346 00:14:32,435 --> 00:14:34,894 y puede que tengamos que hacerlo en etapas, 347 00:14:34,894 --> 00:14:36,472 donde primero alguien dice: 348 00:14:36,472 --> 00:14:40,744 "Oye, tengo este algoritmo interesante 349 00:14:40,744 --> 00:14:42,370 para hacer algo", 350 00:14:42,370 --> 00:14:46,507 y funciona bien según cierto criterio 351 00:14:47,695 --> 00:14:49,868 en este conjunto de datos en particular, 352 00:14:50,998 --> 00:14:52,663 y debemos ponerlo en conocimiento. 353 00:14:53,587 --> 00:14:55,276 Y tal vez alguien descubra una forma 354 00:14:55,276 --> 00:14:58,500 en la que más tarde se pueda seguir haciendo inferencia 355 00:14:58,500 --> 00:14:59,569 bajo algunas condiciones, 356 00:14:59,569 --> 00:15:01,800 y tal vez no sean condiciones particularmente realistas. 357 00:15:01,800 --> 00:15:03,889 Entonces, podemos ir más allá. 358 00:15:03,889 --> 00:15:08,443 Pero creo que hemos estado restringiendo demasiado las cosas 359 00:15:08,443 --> 00:15:09,681 donde dijimos: 360 00:15:09,681 --> 00:15:13,151 "Este es el tipo de cosas que tenemos que hacer". 361 00:15:13,151 --> 00:15:16,261 Y en cierto sentido, eso se remonta 362 00:15:16,261 --> 00:15:19,993 a la forma en que Josh y yo pensamos 363 00:15:19,993 --> 00:15:22,020 respecto del efecto del tratamiento local promedio. 364 00:15:22,020 --> 00:15:24,052 Esa no era la forma en que la gente pensaba 365 00:15:24,052 --> 00:15:25,285 en estos problemas anteriormente. 366 00:15:25,285 --> 00:15:28,513 Había una sensación de que algunas personas 367 00:15:28,513 --> 00:15:30,570 decían que la forma de hacer estas cosas; 368 00:15:30,570 --> 00:15:33,722 es decir, primero, lo que te interesa estimar 369 00:15:34,142 --> 00:15:37,255 y luego hacer lo mejor que puedas en la estimación. 370 00:15:38,029 --> 00:15:43,936 Y lo que ustedes hacen es hacerlo al revés. 371 00:15:44,430 --> 00:15:46,743 Ustedes dicen: "Aquí tengo un estimador 372 00:15:47,393 --> 00:15:50,726 y ahora voy a averiguar qué está estimando". 373 00:15:50,726 --> 00:15:53,883 Y supongo que vas a decir por qué crees que es interesante 374 00:15:53,883 --> 00:15:56,615 o tal vez por qué no es interesante y eso no está bien. 375 00:15:56,615 --> 00:15:58,504 No está permitido hacerlo de esa manera. 376 00:15:58,813 --> 00:16:01,791 Y creo que deberíamos ser un poco más flexibles 377 00:16:02,181 --> 00:16:06,579 a la hora de pensar en cómo ver los problemas 378 00:16:06,579 --> 00:16:11,206 porque creo que nos hemos perdido algunas cosas por no hacer eso. 379 00:16:11,206 --> 00:16:12,993 ¡ISAIAH ANDREWS ARBITRA! 380 00:16:12,993 --> 00:16:15,660 [Josh] Así que, has escuchado nuestros puntos de vista, Isaiah, 381 00:16:15,660 --> 00:16:18,268 y has visto que no estamos de acuerdo en algunos puntos. 382 00:16:18,413 --> 00:16:22,500 ¿Por qué no nos arbitras esta disputa? [risas] 383 00:16:22,500 --> 00:16:25,190 [Isaiah] Oh, qué amable eres al hacerme una pequeña pregunta. 384 00:16:25,190 --> 00:16:26,490 [risas] 385 00:16:26,508 --> 00:16:28,840 Así que supongo que, por un lado, 386 00:16:28,840 --> 00:16:35,240 estoy muy de acuerdo con algo que Guido dijo antes de... [risas] 387 00:16:35,711 --> 00:16:36,815 Así que, un aspecto 388 00:16:36,815 --> 00:16:38,937 en el que el asunto del aprendizaje automático 389 00:16:38,937 --> 00:16:40,200 parece relativamente claro 390 00:16:40,200 --> 00:16:42,489 es en los entornos donde nos interesa 391 00:16:42,489 --> 00:16:45,110 alguna versión de un problema de predicción no paramétrica. 392 00:16:45,110 --> 00:16:46,799 Así que estoy interesado en la estimación 393 00:16:46,799 --> 00:16:49,729 de una expectativa condicional o probabilidad condicional, 394 00:16:49,942 --> 00:16:52,490 y en el pasado, tal vez habría utilizado un Kernel... 395 00:16:52,490 --> 00:16:53,696 Habría utilizado una regresión Kernel 396 00:16:53,696 --> 00:16:57,105 o habría utilizado una regresión en serie, o algo por el estilo. 397 00:16:57,475 --> 00:16:59,225 Parece que, en este momento, 398 00:16:59,225 --> 00:17:00,595 tenemos una idea bastante clara 399 00:17:00,595 --> 00:17:02,884 de que, en una amplia gama de aplicaciones, 400 00:17:03,064 --> 00:17:04,560 los métodos de aprendizaje automático 401 00:17:04,560 --> 00:17:05,750 parecen funcionar mejor 402 00:17:05,750 --> 00:17:08,536 para estimar las funciones de media condicional, 403 00:17:08,536 --> 00:17:10,150 o las probabilidades condicionales, 404 00:17:10,150 --> 00:17:12,208 o varios otros objetos no paramétricos 405 00:17:12,208 --> 00:17:15,323 que los métodos no paramétricos más tradicionales 406 00:17:15,323 --> 00:17:17,327 que se estudiaron en econometría y estadística, 407 00:17:17,327 --> 00:17:19,435 especialmente en entornos de alta dimensión. 408 00:17:19,480 --> 00:17:22,141 [Josh] ¿Así que, estás pensando en la puntuación de propensión 409 00:17:22,141 --> 00:17:23,167 o algo así? 410 00:17:23,167 --> 00:17:25,221 - [Isaiah] Sí, exactamente. - [Guido] Funciones de molestia. 411 00:17:25,221 --> 00:17:27,569 [Isaiah] Sí, cosas como las puntuaciones de propensión. 412 00:17:28,008 --> 00:17:30,407 Incluso objetos de interés más directo, 413 00:17:30,407 --> 00:17:32,250 como los efectos del tratamiento promedio condicional, 414 00:17:32,250 --> 00:17:33,320 que son la diferencia 415 00:17:33,320 --> 00:17:35,189 de dos funciones de expectativa condicional, 416 00:17:35,189 --> 00:17:36,431 potencialmente cosas así. 417 00:17:36,611 --> 00:17:40,190 Por supuesto, incluso allí la teoría... 418 00:17:40,420 --> 00:17:43,596 La inferencia de la teoría de cómo interpretar, 419 00:17:43,596 --> 00:17:45,950 cómo hacer declaraciones de muestras grandes 420 00:17:45,950 --> 00:17:47,740 sobre algunas de estas cosas están menos desarrolladas 421 00:17:47,740 --> 00:17:49,435 dependiendo del estimador de aprendizaje automático 422 00:17:49,435 --> 00:17:50,608 que se utilice. 423 00:17:50,608 --> 00:17:53,184 Y así, creo que algo que es complicado 424 00:17:53,184 --> 00:17:54,846 es que podemos tener estos métodos, 425 00:17:54,846 --> 00:17:55,884 que funcionan mucho... 426 00:17:55,884 --> 00:17:57,981 que parecen funcionar mucho mejor para algunos fines, 427 00:17:57,981 --> 00:18:00,223 pero que tenemos que ser un poco cuidadosos 428 00:18:00,223 --> 00:18:01,364 en cómo los incorporamos 429 00:18:01,364 --> 00:18:03,441 o cómo interpretamos las declaraciones resultantes. 430 00:18:03,441 --> 00:18:05,769 Pero, por supuesto, esa es un área muy, muy activa 431 00:18:05,769 --> 00:18:08,255 ahora mismo en la que la gente está haciendo un gran trabajo. 432 00:18:08,255 --> 00:18:12,299 Así que, espero ver mucho más en el futuro. 433 00:18:13,161 --> 00:18:14,818 Un problema con el aprendizaje automático 434 00:18:14,818 --> 00:18:16,663 que siempre parece un peligro es... 435 00:18:16,663 --> 00:18:18,459 o que a veces es un peligro 436 00:18:18,459 --> 00:18:20,306 y que a veces ha llevado 437 00:18:20,306 --> 00:18:22,213 a aplicaciones que han tenido menos sentido 438 00:18:22,213 --> 00:18:23,894 es cuando la gente empieza 439 00:18:23,894 --> 00:18:27,252 con un método que les entusiasma mucho 440 00:18:27,252 --> 00:18:28,506 en lugar de una pregunta. 441 00:18:28,572 --> 00:18:30,406 Así que empezar con una pregunta 442 00:18:30,406 --> 00:18:33,469 donde aquí está el objeto que me interesa, 443 00:18:33,469 --> 00:18:35,430 aquí está el parámetro de interés, 444 00:18:35,430 --> 00:18:39,242 déjame pensar en cómo identificaría esa cosa, 445 00:18:39,242 --> 00:18:41,566 cómo recuperaría esa cosa si tuviera una tonelada de datos. 446 00:18:41,790 --> 00:18:44,145 Vaya, aquí hay una función de expectativa condicional, 447 00:18:44,145 --> 00:18:46,797 permítanme incorporar un estimador de aprendizaje automático para eso, 448 00:18:46,797 --> 00:18:48,565 eso parece muy muy sensato. 449 00:18:48,895 --> 00:18:50,276 Mientras que, ya sabes, 450 00:18:50,276 --> 00:18:52,782 si hago una regresión de la cantidad sobre el precio 451 00:18:53,189 --> 00:18:54,564 y digo que he utilizado 452 00:18:54,564 --> 00:18:56,230 un método de aprendizaje automático, 453 00:18:56,370 --> 00:18:58,169 tal vez estoy satisfecho de que eso resuelva 454 00:18:58,169 --> 00:19:00,312 el problema de endogeneidad que normalmente nos preocupa allí; 455 00:19:00,312 --> 00:19:01,617 tal vez no lo estoy. 456 00:19:01,617 --> 00:19:05,179 Pero, de nuevo, allí la forma de abordarlo 457 00:19:05,179 --> 00:19:06,484 parece relativamente clara. 458 00:19:06,484 --> 00:19:09,747 Es encontrar tu objeto de interés y pensar en... 459 00:19:09,747 --> 00:19:11,446 [Guido] Es simplemente incorporar la economía. 460 00:19:11,446 --> 00:19:12,661 [Isaiah] Exactamente. 461 00:19:12,661 --> 00:19:14,227 [Guido] Y pensar en la heterogeneidad, 462 00:19:14,227 --> 00:19:15,299 pero aprovechar 463 00:19:15,299 --> 00:19:17,245 el poder de los métodos de aprendizaje automático 464 00:19:17,245 --> 00:19:20,177 para algunos de los componentes. 465 00:19:20,177 --> 00:19:21,224 [Isaiah] Precisamente. 466 00:19:21,224 --> 00:19:22,260 Exactamente. 467 00:19:22,260 --> 00:19:25,411 Así que la cuestión de interés es la misma de siempre, 468 00:19:25,411 --> 00:19:26,785 pero ahora tenemos mejores métodos 469 00:19:26,785 --> 00:19:28,481 para estimar algunas partes de esto. 470 00:19:29,150 --> 00:19:32,659 Lo que parece más difícil de pronosticar 471 00:19:32,659 --> 00:19:35,253 es que, obviamente, ocurren muchas cosas 472 00:19:35,253 --> 00:19:37,305 dentro de la literatura de aprendizaje automático 473 00:19:37,305 --> 00:19:40,180 y las formas limitadas de incorporarlo 474 00:19:40,180 --> 00:19:41,689 a las que he hecho referencia hasta ahora 475 00:19:41,689 --> 00:19:43,141 son una parte limitada de eso. 476 00:19:43,141 --> 00:19:45,380 Así que, creo que hay muchas otras preguntas interesantes 477 00:19:45,380 --> 00:19:48,336 sobre dónde... ¿a dónde va esta interacción? 478 00:19:48,336 --> 00:19:49,541 ¿Qué más podemos aprender? 479 00:19:49,541 --> 00:19:52,959 Y eso es algo en lo que creo que hay mucho trabajo en curso, 480 00:19:52,959 --> 00:19:54,417 lo que parece muy prometedor, 481 00:19:54,417 --> 00:19:56,430 y no tengo ni idea de cuál es la respuesta. 482 00:19:56,606 --> 00:20:00,810 [Guido] No, estoy totalmente de acuerdo con eso, 483 00:20:00,810 --> 00:20:03,526 pero eso lo hace muy emocionante. 484 00:20:03,823 --> 00:20:05,996 Y creo que hay un montón de trabajo por hacer allí. 485 00:20:05,996 --> 00:20:07,290 Muy bien. 486 00:20:07,290 --> 00:20:08,894 Entonces, Isaiah está de acuerdo conmigo en eso. 487 00:20:08,894 --> 00:20:10,307 [risas] 488 00:20:10,307 --> 00:20:11,729 [Isaiah] Yo no he dicho eso en sí. 489 00:20:11,729 --> 00:20:13,246 [risas] 490 00:20:13,246 --> 00:20:14,585 ♪ (música) ♪ 491 00:20:14,585 --> 00:20:16,708 [Narradora] Si desea ver más de Conversaciones Nobel, 492 00:20:16,708 --> 00:20:17,748 haga clic aquí. 493 00:20:17,986 --> 00:20:20,900 O si quiere aprender más sobre econometría, 494 00:20:20,900 --> 00:20:23,300 eche un vistazo a la serie Mastering Econometrics de Josh. 495 00:20:23,307 --> 00:20:26,373 Si quiere saber más sobre Guido, Josh e Isaiah, 496 00:20:26,373 --> 00:20:28,337 consulte los enlaces en la descripción. 497 00:20:28,337 --> 00:20:31,657 ♪ (música) ♪