1 00:00:00,000 --> 00:00:03,138 ♪ (música) ♪ 2 00:00:03,394 --> 00:00:05,633 - [Narradora] Bienvenidos a Nobel Conversations. 3 00:00:06,992 --> 00:00:10,093 En este episodio, Josh Angrist y Guido Imbens 4 00:00:10,093 --> 00:00:13,366 se reúnen con Isaiah Andrews para discutir y discrepar 5 00:00:13,366 --> 00:00:15,221 sobre el papel del aprendizaje automático 6 00:00:15,221 --> 00:00:16,816 en la econometría aplicada. 7 00:00:17,894 --> 00:00:19,896 - [Isaiah] Bien. Por supuesto que hay muchos temas 8 00:00:19,896 --> 00:00:21,465 en los que ustedes están muy de acuerdo, 9 00:00:21,465 --> 00:00:22,595 pero me gustaría pasar a uno 10 00:00:22,595 --> 00:00:24,365 sobre el que tal vez opinen algo distinto. 11 00:00:24,365 --> 00:00:26,103 Me gustaría escuchar algunas de sus opiniones 12 00:00:26,103 --> 00:00:27,319 sobre el aprendizaje automático 13 00:00:27,319 --> 00:00:30,257 y el papel que desempeña y desempeñará en la economía. 14 00:00:30,257 --> 00:00:31,858 - [Guido] He consultado algunos datos, 15 00:00:31,858 --> 00:00:33,349 como los datos privados. 16 00:00:33,349 --> 00:00:35,306 Vemos que no hay ningún documento publicado allí. 17 00:00:35,975 --> 00:00:39,426 Se hizo un experimento sobre algún algoritmo de búsqueda 18 00:00:39,426 --> 00:00:41,081 y la cuestión era... 19 00:00:42,581 --> 00:00:45,492 se trataba de clasificar cosas y cambiar la clasificación. 20 00:00:45,990 --> 00:00:47,163 Y estaba más o menos claro 21 00:00:47,163 --> 00:00:50,271 que iba a haber mucha heterogeneidad. 22 00:00:51,117 --> 00:00:55,864 Si buscas, digamos, 23 00:00:58,122 --> 00:01:00,640 una foto de Britney Spears, 24 00:01:00,640 --> 00:01:02,505 realmente no importa dónde la clasifiques 25 00:01:02,505 --> 00:01:05,214 porque vas a encontrar lo que estás buscando, 26 00:01:05,736 --> 00:01:07,058 ya sea que la clasifiques 27 00:01:07,058 --> 00:01:09,744 en primera, segunda o tercera posición. 28 00:01:10,027 --> 00:01:12,346 Pero si estás buscando el mejor libro de econometría, 29 00:01:12,346 --> 00:01:16,510 si pones tu libro en primer lugar o en el décimo, 30 00:01:16,510 --> 00:01:18,140 eso va a suponer una gran diferencia 31 00:01:18,140 --> 00:01:19,835 en la frecuencia 32 00:01:19,835 --> 00:01:21,286 con la que la gente hará clic en él. 33 00:01:22,089 --> 00:01:23,312 Así que ahí-- 34 00:01:23,312 --> 00:01:24,326 [Josh] ¿Por qué necesito 35 00:01:24,326 --> 00:01:27,314 el aprendizaje automático para descubrir eso? 36 00:01:27,314 --> 00:01:29,463 Porque parece que puedo descubrirlo de forma sencilla. 37 00:01:29,463 --> 00:01:30,517 - [Guido] En general-- 38 00:01:30,517 --> 00:01:32,233 - [Josh] Había un montón de posibles-- 39 00:01:32,233 --> 00:01:34,233 - [Guido]...quieres pensar que los artículos 40 00:01:34,233 --> 00:01:37,092 tienen montón de características, 41 00:01:37,092 --> 00:01:38,940 que quieres entender 42 00:01:38,940 --> 00:01:43,650 lo que impulsa la heterogeneidad en el efecto de-- 43 00:01:43,669 --> 00:01:44,876 - Pero solo estás prediciendo. 44 00:01:44,876 --> 00:01:46,057 En cierto sentido, 45 00:01:46,057 --> 00:01:47,793 estás resolviendo un problema de marketing. 46 00:01:47,793 --> 00:01:49,210 - No, es un efecto causal, 47 00:01:49,210 --> 00:01:51,738 - Es causal, pero no tiene contenido científico. 48 00:01:51,738 --> 00:01:52,809 Piensa en-- 49 00:01:53,669 --> 00:01:57,243 - No, pero hay cosas similares en el ámbito médico. 50 00:01:57,693 --> 00:01:59,312 Si haces un experimento, 51 00:01:59,312 --> 00:02:02,492 puedes estar muy interesado en si el tratamiento funciona 52 00:02:02,492 --> 00:02:03,821 para algunos grupos o no. 53 00:02:03,821 --> 00:02:05,946 Y tienes un montón de características individuales, 54 00:02:05,946 --> 00:02:08,109 y quieres buscar sistemáticamente-- 55 00:02:08,109 --> 00:02:09,883 - Sí. Tengo mis dudas sobre esa... 56 00:02:09,883 --> 00:02:12,588 esa especie de idea de que hay un efecto causal personal 57 00:02:12,588 --> 00:02:13,902 que me debería importar 58 00:02:13,902 --> 00:02:15,164 y que el aprendizaje automático 59 00:02:15,164 --> 00:02:17,103 puede descubrirlo de alguna manera que sea útil. 60 00:02:17,517 --> 00:02:18,678 Así que piensa en-- 61 00:02:18,678 --> 00:02:20,182 he trabajado mucho en las escuelas, 62 00:02:20,182 --> 00:02:22,358 yendo a, digamos, una escuela chárter, 63 00:02:22,358 --> 00:02:24,498 una escuela privada financiada con fondos públicos, 64 00:02:24,780 --> 00:02:27,392 efectivamente, que es libre de estructurar 65 00:02:27,392 --> 00:02:29,587 su propio plan de estudios en función del contexto. 66 00:02:29,587 --> 00:02:30,938 Algunos tipos de escuelas chárter 67 00:02:30,938 --> 00:02:33,379 consiguen un rendimiento espectacular 68 00:02:33,379 --> 00:02:36,321 y en el conjunto de datos que produce ese resultado, 69 00:02:36,321 --> 00:02:37,968 tengo un montón de covariables. 70 00:02:37,968 --> 00:02:39,584 Tengo las puntuaciones de referencia 71 00:02:39,584 --> 00:02:41,321 y los antecedentes familiares, 72 00:02:41,321 --> 00:02:45,524 la educación de los padres, el sexo del niño, la raza del niño. 73 00:02:46,060 --> 00:02:49,758 Y, bueno, en cuanto reúno media docena de ellas, 74 00:02:49,758 --> 00:02:51,751 tengo un espacio de muy alta dimensión. 75 00:02:52,391 --> 00:02:55,394 Sin duda, me interesan las características del curso 76 00:02:55,394 --> 00:02:56,803 de ese efecto del tratamiento, 77 00:02:56,803 --> 00:02:58,688 como por ejemplo, si es mejor para las personas 78 00:02:58,688 --> 00:03:02,054 que provienen de familias con menores ingresos. 79 00:03:02,377 --> 00:03:05,656 Me cuesta creer que haya una aplicación 80 00:03:05,656 --> 00:03:09,970 para la versión de muy alta dimensión, 81 00:03:09,970 --> 00:03:12,499 en la que descubrí que para los niños no blancos 82 00:03:12,499 --> 00:03:15,028 que tienen ingresos familiares altos 83 00:03:15,028 --> 00:03:17,747 pero puntuaciones de referencia en el tercer cuartil 84 00:03:17,747 --> 00:03:20,535 y que solo fueron a la escuela pública 85 00:03:20,535 --> 00:03:23,128 en el tercer grado pero no en el sexto. 86 00:03:23,128 --> 00:03:25,681 Así que eso es lo que produce ese análisis de alta dimensión. 87 00:03:25,681 --> 00:03:27,938 Es una declaración condicional muy elaborada. 88 00:03:27,938 --> 00:03:30,702 Hay dos cosas que están mal, en mi opinión. 89 00:03:30,702 --> 00:03:32,418 En primer lugar, no lo veo como-- 90 00:03:32,418 --> 00:03:34,492 no puedo imaginar por qué es algo procesable. 91 00:03:34,492 --> 00:03:36,518 No sé por qué querrías actuar sobre ello. 92 00:03:36,518 --> 00:03:39,381 Y también sé que hay algún modelo alternativo 93 00:03:39,381 --> 00:03:42,856 que encaja casi igual de bien, que lo invierte todo. 94 00:03:42,978 --> 00:03:44,591 Porque el aprendizaje automático 95 00:03:44,591 --> 00:03:48,473 no me dice que este es realmente el predictor que importa, 96 00:03:48,473 --> 00:03:50,779 solo me dice que este es un buen predictor. 97 00:03:51,396 --> 00:03:54,875 Así que creo, que hay algo diferente 98 00:03:54,875 --> 00:03:57,688 en el contexto de las ciencias sociales. 99 00:03:57,688 --> 00:04:00,270 - [Guido] Creo que las aplicaciones de las ciencias sociales 100 00:04:00,270 --> 00:04:03,922 de las que hablas son aquellas en las que, creo, 101 00:04:03,922 --> 00:04:07,923 no hay una gran cantidad de heterogeneidad en los efectos. 102 00:04:09,760 --> 00:04:13,610 - [Josh] Bueno, podría haberla si me permites llenar ese espacio. 103 00:04:13,610 --> 00:04:15,648 - No... ni siquiera entonces. 104 00:04:15,648 --> 00:04:18,506 Creo que para muchas de esas intervenciones, 105 00:04:18,506 --> 00:04:22,840 se espera que el efecto sea del mismo signo para todos. 106 00:04:23,055 --> 00:04:27,320 Puede haber pequeñas diferencias en la magnitud, pero no es... 107 00:04:27,576 --> 00:04:29,968 Porque muchas de estas diferencias educativas 108 00:04:29,968 --> 00:04:31,612 son buenas para todos. 109 00:04:31,612 --> 00:04:35,932 No es que sean malas para algunas personas 110 00:04:35,932 --> 00:04:37,408 y buenas para otras 111 00:04:37,408 --> 00:04:39,797 y en algunos pequeños casos pueden ser malas. 112 00:04:40,189 --> 00:04:43,633 Pero puede haber algo de variación en la magnitud, 113 00:04:43,633 --> 00:04:44,808 pero se necesitarían 114 00:04:44,808 --> 00:04:47,019 conjuntos de datos muy muy grandes para encontrarlos. 115 00:04:47,019 --> 00:04:48,985 Estoy de acuerdo en que, en esos casos, 116 00:04:48,985 --> 00:04:51,393 probablemente no serían muy procesables de todos modos. 117 00:04:51,881 --> 00:04:54,075 Pero creo que hay muchos otros escenarios 118 00:04:54,075 --> 00:04:56,483 donde hay mucha más heterogeneidad. 119 00:04:56,736 --> 00:04:59,164 - Bueno, estoy abierto a esa posibilidad 120 00:04:59,164 --> 00:05:00,977 y creo que el ejemplo que has dado 121 00:05:00,977 --> 00:05:04,857 es esencialmente un ejemplo de marketing. 122 00:05:05,938 --> 00:05:09,714 - No, esos tienen implicaciones para ello 123 00:05:09,714 --> 00:05:11,596 y esa es la organización, 124 00:05:11,596 --> 00:05:15,358 si tienes que preocuparte por la-- 125 00:05:15,358 --> 00:05:17,857 - Bueno, necesito ver ese documento. 126 00:05:18,289 --> 00:05:21,490 - Así que, la sensación que tengo es que... 127 00:05:21,490 --> 00:05:23,371 - Todavía no estamos de acuerdo en algo. 128 00:05:23,371 --> 00:05:25,735 - Sí. - No hemos coincidido en todo. 129 00:05:25,735 --> 00:05:27,393 - Tengo esa sensación. [risas] 130 00:05:27,393 --> 00:05:29,047 - En realidad, hemos discrepado en esto 131 00:05:29,047 --> 00:05:30,729 porque no estaba para discutir. 132 00:05:30,729 --> 00:05:33,144 [risas] 133 00:05:33,144 --> 00:05:35,060 - ¿Se está poniendo algo caluroso aquí? 134 00:05:35,720 --> 00:05:37,854 - Caluroso. Es bueno que esté caluroso. 135 00:05:37,854 --> 00:05:39,501 La sensación que tengo es, Josh, 136 00:05:39,501 --> 00:05:41,951 que no estás diciendo que estás seguro 137 00:05:41,951 --> 00:05:44,159 de que no hay manera de que haya una aplicación 138 00:05:44,159 --> 00:05:45,667 en la que estas cosas sean útiles. 139 00:05:45,667 --> 00:05:47,169 Estás diciendo que no estás convencido 140 00:05:47,169 --> 00:05:49,444 con las aplicaciones existentes hasta la fecha. 141 00:05:49,907 --> 00:05:51,665 - Me parece bien. - Estoy muy seguro. 142 00:05:51,858 --> 00:05:54,179 [risas] 143 00:05:54,179 --> 00:05:55,270 - En este caso. 144 00:05:55,270 --> 00:05:56,541 - Creo que Josh tiene razón 145 00:05:56,541 --> 00:06:00,101 en que incluso en los casos de predicción, 146 00:06:00,101 --> 00:06:03,757 donde muchos de los métodos de aprendizaje automática 147 00:06:03,757 --> 00:06:06,517 realmente se destacan es donde hay un montón de heterogeneidad. 148 00:06:06,785 --> 00:06:10,400 - No te importan mucho los detalles, ¿verdad? 149 00:06:10,400 --> 00:06:11,480 - [Guido] Sí. 150 00:06:11,480 --> 00:06:14,752 - No tiene un ángulo normativo o algo así. 151 00:06:14,752 --> 00:06:17,535 - El reconocimiento de dígitos escritos a mano 152 00:06:17,535 --> 00:06:18,569 y demás... 153 00:06:18,721 --> 00:06:23,861 lo hace mucho mejor que construir un modelo complicado. 154 00:06:24,201 --> 00:06:26,925 Pero muchas de las ciencias sociales, 155 00:06:26,925 --> 00:06:28,454 muchas de las aplicaciones económicas, 156 00:06:28,454 --> 00:06:29,610 en realidad sabemos mucho 157 00:06:29,610 --> 00:06:32,067 sobre la relación entre sus variables. 158 00:06:32,067 --> 00:06:34,572 Muchas de las relaciones son estrictamente monótonas. 159 00:06:35,399 --> 00:06:39,266 La educación va a aumentar los ingresos de la gente, 160 00:06:39,266 --> 00:06:41,916 sin importar las características demográficas, 161 00:06:41,916 --> 00:06:44,763 sin importar el nivel de educación que se tenga. 162 00:06:44,763 --> 00:06:46,325 - Hasta que lleguen a un doctorado. 163 00:06:46,325 --> 00:06:48,126 - ¿Eso se aplica a la escuela de posgrado? 164 00:06:48,126 --> 00:06:49,218 [risas] 165 00:06:49,218 --> 00:06:50,593 - En un rango razonable. 166 00:06:50,593 --> 00:06:55,472 No va a bajar mucho. 167 00:06:55,472 --> 00:06:58,178 En muchos de los entornos en los que se destacan 168 00:06:58,178 --> 00:07:00,209 estos métodos de aprendizaje automático, 169 00:07:00,209 --> 00:07:02,081 hay mucha falta de monotonicidad, 170 00:07:02,081 --> 00:07:04,598 una especie de multimodalidad en estas relaciones 171 00:07:04,598 --> 00:07:08,475 y van a ser muy poderosos. 172 00:07:08,701 --> 00:07:11,426 Pero sigo sosteniendo lo mismo. 173 00:07:11,426 --> 00:07:17,530 Estos métodos tienen mucho para ofrecerles a los economistas 174 00:07:17,530 --> 00:07:21,465 y serán una gran parte del futuro. 175 00:07:21,629 --> 00:07:23,183 APLICACIONES DEL APRENDIZAJE AUTOMÁTICO 176 00:07:23,183 --> 00:07:24,814 Parece que hay algo interesante por decir 177 00:07:24,814 --> 00:07:26,139 sobre el aprendizaje automático. 178 00:07:26,139 --> 00:07:27,412 Así que, Guido, me preguntaba 179 00:07:27,412 --> 00:07:29,416 ¿podría dar tal vez algunos de los ejemplos 180 00:07:29,416 --> 00:07:30,694 que está pensando 181 00:07:30,694 --> 00:07:32,507 con las aplicaciones que salen en el momento? 182 00:07:32,507 --> 00:07:35,779 - Un área es donde en lugar de buscar 183 00:07:35,779 --> 00:07:37,235 efectos causales promedio 184 00:07:37,235 --> 00:07:39,684 estamos buscando estimaciones individualizadas, 185 00:07:39,684 --> 00:07:43,212 predicciones de efectos causales, 186 00:07:43,212 --> 00:07:45,856 y allí, los algoritmos de aprendizaje automático 187 00:07:45,856 --> 00:07:47,384 han sido muy eficaces. 188 00:07:47,958 --> 00:07:49,892 Hasta ahora, hemos hecho estas cosas 189 00:07:49,892 --> 00:07:51,458 utilizando métodos de kernel, 190 00:07:51,458 --> 00:07:53,846 y teóricamente, funcionan muy bien, 191 00:07:53,846 --> 00:07:56,226 y hay quienes comentan que, formalmente, 192 00:07:56,226 --> 00:07:57,575 no se puede hacer nada mejor. 193 00:07:57,575 --> 00:07:59,422 Pero en la práctica, no funcionan muy bien. 194 00:07:59,643 --> 00:08:03,057 Las cosas aleatorias de tipo bosque causal 195 00:08:03,057 --> 00:08:05,833 en las que Stefan Wager y Susan Athey 196 00:08:05,833 --> 00:08:09,310 han estado trabajando se utilizan muy ampliamente. 197 00:08:09,537 --> 00:08:11,895 Han sido muy eficaces en estos entornos 198 00:08:11,895 --> 00:08:14,998 para obtener efectos causales 199 00:08:14,998 --> 00:08:19,118 que varían según las covariables. 200 00:08:19,118 --> 00:08:23,665 Creo que esto es solo el comienzo de estos métodos. 201 00:08:23,665 --> 00:08:25,605 Pero en muchos casos, 202 00:08:27,201 --> 00:08:29,572 estos algoritmos son muy eficaces, 203 00:08:29,572 --> 00:08:31,481 como en la búsqueda en grandes espacios 204 00:08:31,481 --> 00:08:36,908 y encontrar las funciones que se ajustan muy bien 205 00:08:36,908 --> 00:08:40,444 en formas que realmente no podíamos hacer antes. 206 00:08:41,511 --> 00:08:42,866 - No conozco ningún ejemplo 207 00:08:42,866 --> 00:08:45,379 en el que el aprendizaje automático haya generado conocimientos 208 00:08:45,379 --> 00:08:47,260 sobre un efecto causal que me interese. 209 00:08:47,619 --> 00:08:49,133 Y sí conozco ejemplos 210 00:08:49,133 --> 00:08:51,106 en los que es potencialmente muy engañoso. 211 00:08:51,485 --> 00:08:53,487 He trabajado con Brigham Frandsen 212 00:08:53,487 --> 00:08:55,916 utilizando, por ejemplo, bosques aleatorios 213 00:08:55,916 --> 00:08:57,943 para modelar los efectos de las covariables 214 00:08:57,943 --> 00:08:59,775 en un problema de variables instrumentales 215 00:08:59,775 --> 00:09:03,328 en el que hay que condicionar las covariables.