WEBVTT 00:00:00.000 --> 00:00:03.394 ♪ (música) ♪ 00:00:03.394 --> 00:00:05.633 [Narradora] Bienvenidos a Conversaciones Nobel. 00:00:06.992 --> 00:00:10.103 En este episodio, Josh Angrist y Guido Imbens 00:00:10.103 --> 00:00:13.446 están reunidos con Isaiah Andrews para debatir y discrepar 00:00:13.446 --> 00:00:15.221 sobre el papel del aprendizaje automático 00:00:15.221 --> 00:00:16.816 en la econometría aplicada. 00:00:17.894 --> 00:00:19.896 [Isaiah] Bien, por supuesto que hay muchos temas 00:00:19.896 --> 00:00:21.465 en los que ustedes están muy de acuerdo, 00:00:21.465 --> 00:00:22.595 pero me gustaría pasar a uno 00:00:22.595 --> 00:00:24.365 sobre el que tal vez opinen algo distinto. 00:00:24.365 --> 00:00:26.103 Me gustaría escuchar algunas de sus opiniones 00:00:26.103 --> 00:00:27.319 sobre el aprendizaje automático 00:00:27.319 --> 00:00:30.257 y el papel que desempeña y desempeñará en la economía. 00:00:30.257 --> 00:00:31.858 [Guido] He consultado algunos datos, 00:00:31.858 --> 00:00:33.349 como los datos privados. 00:00:33.349 --> 00:00:35.306 Vemos que no hay ningún documento publicado allí. 00:00:36.835 --> 00:00:39.609 Se hizo un experimento sobre algún algoritmo de búsqueda 00:00:40.300 --> 00:00:41.810 y la cuestión era... 00:00:42.581 --> 00:00:45.492 se trataba de clasificar cosas y cambiar la clasificación. 00:00:45.990 --> 00:00:47.163 Y estaba más o menos claro 00:00:47.163 --> 00:00:50.271 que iba a haber mucha heterogeneidad. 00:00:52.110 --> 00:00:55.864 Si buscas, digamos, 00:00:58.122 --> 00:01:00.640 una foto de Britney Spears, 00:01:00.640 --> 00:01:02.505 realmente no importa dónde la clasifiques 00:01:02.505 --> 00:01:05.214 porque vas a encontrar lo que estás buscando, 00:01:06.196 --> 00:01:07.580 ya sea que la clasifiques 00:01:07.580 --> 00:01:09.744 en primera, segunda o tercera posición. 00:01:10.270 --> 00:01:12.346 Pero si estás buscando el mejor libro de econometría, 00:01:14.094 --> 00:01:16.510 ya sea que pongas tu libro en el primer lugar o en el décimo, 00:01:16.510 --> 00:01:18.340 eso va a suponer una gran diferencia 00:01:18.340 --> 00:01:19.835 en la frecuencia 00:01:19.835 --> 00:01:21.286 con la que la gente hará clic en él. 00:01:22.060 --> 00:01:23.312 Así que ahí... 00:01:23.312 --> 00:01:24.326 [Josh] ¿Por qué necesito 00:01:24.326 --> 00:01:27.314 el aprendizaje automático para descubrir eso? 00:01:27.314 --> 00:01:29.463 Porque parece que puedo descubrirlo de forma sencilla. 00:01:29.463 --> 00:01:30.517 [Guido] En general... 00:01:30.517 --> 00:01:32.233 [Josh] Había un montón de posibles... 00:01:32.233 --> 00:01:34.233 [Guido]...quieres pensar que los artículos 00:01:34.233 --> 00:01:37.920 tienen un montón de características, 00:01:37.920 --> 00:01:38.940 que quieres entender 00:01:38.940 --> 00:01:43.650 lo que impulsa la heterogeneidad en el efecto de... 00:01:43.669 --> 00:01:44.876 [Josh] Pero solo estás prediciendo. 00:01:44.876 --> 00:01:46.570 En cierto sentido, 00:01:46.570 --> 00:01:47.793 estás resolviendo un problema de marketing. 00:01:47.793 --> 00:01:49.210 [Guido] No, es un efecto causal, 00:01:49.210 --> 00:01:51.738 [Josh] Es causal, pero no tiene contenido científico. 00:01:51.738 --> 00:01:52.809 Piensa en... 00:01:53.669 --> 00:01:55.456 [Guido] No, pero hay cosas similares 00:01:55.456 --> 00:01:57.243 en el ámbito médico. 00:01:57.693 --> 00:01:59.312 Si haces un experimento, 00:01:59.312 --> 00:02:02.492 puedes estar muy interesado en si el tratamiento funciona 00:02:02.492 --> 00:02:03.821 para algunos grupos o no. 00:02:03.821 --> 00:02:05.946 Y tienes un montón de características individuales, 00:02:05.946 --> 00:02:08.109 y quieres buscar sistemáticamente... 00:02:08.109 --> 00:02:09.883 [Josh] Sí. Tengo mis dudas sobre esa... 00:02:09.883 --> 00:02:12.588 esa especie de idea de que hay un efecto causal personal 00:02:12.588 --> 00:02:13.902 que me debería importar 00:02:13.902 --> 00:02:15.164 y que el aprendizaje automático 00:02:15.164 --> 00:02:17.103 puede descubrirlo de alguna manera que sea útil. 00:02:17.517 --> 00:02:18.678 Así que piensa en... 00:02:18.678 --> 00:02:20.182 He trabajado mucho en las escuelas, 00:02:20.182 --> 00:02:22.358 yendo a, digamos, una escuela chárter, 00:02:22.358 --> 00:02:24.498 una escuela privada financiada con fondos públicos, 00:02:24.780 --> 00:02:27.392 efectivamente, que es libre de estructurar 00:02:27.392 --> 00:02:29.587 su propio plan de estudios en función del contexto. 00:02:29.587 --> 00:02:30.938 Algunos tipos de escuelas chárter 00:02:30.938 --> 00:02:33.379 consiguen un rendimiento espectacular 00:02:33.959 --> 00:02:36.321 y en el conjunto de datos que produce ese resultado, 00:02:36.321 --> 00:02:37.968 tengo un montón de covariables. 00:02:37.968 --> 00:02:39.584 Tengo las puntuaciones de referencia 00:02:39.584 --> 00:02:41.321 y los antecedentes familiares, 00:02:41.321 --> 00:02:45.524 la educación de los padres, el sexo del niño, la raza del niño. 00:02:46.600 --> 00:02:49.758 Y, bueno, en cuanto reúno media docena de ellas, 00:02:49.758 --> 00:02:51.751 tengo un espacio de muy alta dimensión. 00:02:52.391 --> 00:02:55.394 Sin duda, me interesan las características del curso 00:02:55.394 --> 00:02:56.803 de ese efecto del tratamiento 00:02:56.803 --> 00:02:58.688 como; por ejemplo, si es mejor para las personas 00:02:58.688 --> 00:03:02.540 que provienen de familias con menores ingresos. 00:03:02.540 --> 00:03:05.656 Me cuesta creer que haya una aplicación 00:03:07.456 --> 00:03:09.970 para la versión de muy alta dimensión, 00:03:09.970 --> 00:03:12.499 en la que descubrí que para los niños no blancos 00:03:12.499 --> 00:03:15.280 que tienen ingresos familiares altos 00:03:15.280 --> 00:03:17.747 pero puntuaciones de referencia en el tercer cuartil 00:03:17.747 --> 00:03:20.535 y que solo fueron a la escuela pública 00:03:20.535 --> 00:03:23.128 en el tercer grado pero no en el sexto. 00:03:23.128 --> 00:03:25.681 Así que eso es lo que produce ese análisis de alta dimensión. 00:03:25.681 --> 00:03:27.938 Es una declaración condicional muy elaborada. 00:03:28.328 --> 00:03:30.702 Hay dos cosas que están mal, en mi opinión. 00:03:30.702 --> 00:03:32.418 En primer lugar, no lo veo como... 00:03:32.418 --> 00:03:34.492 No puedo imaginar por qué es algo procesable. 00:03:34.492 --> 00:03:36.518 No sé por qué querrías actuar sobre ello. 00:03:36.518 --> 00:03:39.381 Y también sé que hay algún modelo alternativo 00:03:39.381 --> 00:03:42.856 que encaja casi igual de bien, que lo invierte todo. 00:03:42.978 --> 00:03:44.591 Porque el aprendizaje automático 00:03:44.591 --> 00:03:48.473 no me dice que este es realmente el predictor que importa, 00:03:48.473 --> 00:03:50.779 solo me dice que este es un buen predictor. 00:03:51.396 --> 00:03:54.875 Así que creo, que hay algo diferente 00:03:54.875 --> 00:03:57.688 en el contexto de las ciencias sociales. 00:03:57.688 --> 00:04:00.270 [Guido] Creo que las aplicaciones de las ciencias sociales 00:04:00.270 --> 00:04:03.922 de las que hablas son aquellas en las que, creo, 00:04:03.922 --> 00:04:07.923 no hay una gran cantidad de heterogeneidad en los efectos. 00:04:09.760 --> 00:04:13.610 [Josh] Bueno, podría haberla si me permites llenar ese espacio. 00:04:13.610 --> 00:04:15.648 [Guido] No... ni siquiera entonces. 00:04:15.648 --> 00:04:18.506 Creo que para muchas de esas intervenciones, 00:04:18.506 --> 00:04:22.840 se espera que el efecto sea del mismo signo para todos. 00:04:23.550 --> 00:04:27.320 Puede haber pequeñas diferencias en la magnitud, pero no es... 00:04:27.576 --> 00:04:29.968 Porque muchas de estas diferencias educativas 00:04:29.968 --> 00:04:31.612 son buenas para todos. 00:04:31.612 --> 00:04:35.932 No es que sean malas para algunas personas 00:04:35.932 --> 00:04:37.408 y buenas para otras 00:04:37.408 --> 00:04:39.797 y luego hay unos pocos casos en los que son malas. 00:04:40.189 --> 00:04:43.633 Pero puede haber algo de variación en la magnitud, 00:04:43.633 --> 00:04:44.808 pero se necesitarían 00:04:44.808 --> 00:04:47.190 conjuntos de datos muy muy grandes para encontrarlos. 00:04:47.190 --> 00:04:48.985 Estoy de acuerdo en que, en esos casos, 00:04:48.985 --> 00:04:51.393 probablemente no serían muy procesables de todos modos. 00:04:51.881 --> 00:04:54.150 Pero creo que hay muchos otros escenarios 00:04:54.150 --> 00:04:56.483 donde hay mucha más heterogeneidad. 00:04:57.046 --> 00:04:59.164 [Josh] Bueno, estoy abierto a esa posibilidad 00:04:59.164 --> 00:05:00.977 y creo que el ejemplo que has dado 00:05:00.977 --> 00:05:04.857 es esencialmente un ejemplo de marketing. 00:05:05.938 --> 00:05:09.714 [Guido] No, esos tienen implicaciones respecto a ello 00:05:09.714 --> 00:05:11.596 y esa es la organización, 00:05:11.596 --> 00:05:13.708 si tienes que preocuparte por la... 00:05:15.358 --> 00:05:17.857 [Josh] Bueno, necesito ver ese documento. 00:05:18.289 --> 00:05:21.490 [Isaiah] Así que, la sensación que tengo es que... 00:05:21.490 --> 00:05:23.371 [Josh] Todavía estamos en desacuerdo en algo. 00:05:23.371 --> 00:05:25.735 - [Isaiah] Sí. - [Josh] No coincidimos en todo. 00:05:25.735 --> 00:05:27.393 [Isaiah] Tengo esa sensación. [risas] 00:05:27.393 --> 00:05:29.470 [Josh] En realidad, hemos discrepado en esto 00:05:29.470 --> 00:05:30.729 porque no estaba para discutir. 00:05:30.729 --> 00:05:33.144 [risas] 00:05:33.144 --> 00:05:35.600 [Guido] ¿Se está poniendo algo caluroso aquí? 00:05:35.720 --> 00:05:37.854 [Isaiah] Caluroso. Es bueno que esté caluroso. 00:05:37.854 --> 00:05:39.501 La sensación que tengo es, Josh, 00:05:39.501 --> 00:05:41.951 que no estás diciendo que estás seguro 00:05:41.951 --> 00:05:44.159 de que no hay manera de que haya una aplicación 00:05:44.159 --> 00:05:45.667 en la que estas cosas sean útiles. 00:05:45.667 --> 00:05:47.169 Estás diciendo que no estás convencido 00:05:47.169 --> 00:05:49.444 con las aplicaciones existentes hasta la fecha. 00:05:49.907 --> 00:05:51.665 - Me parece bien. - [Guido] Estoy muy seguro. 00:05:51.858 --> 00:05:54.179 [risas] 00:05:54.179 --> 00:05:55.270 [Josh] En este caso. 00:05:55.270 --> 00:05:56.791 [Guido] Creo que Josh tiene razón 00:05:57.737 --> 00:06:00.101 en que incluso en los casos de predicción, 00:06:01.601 --> 00:06:03.757 donde muchos de los métodos de aprendizaje automático 00:06:03.757 --> 00:06:06.517 realmente se destacan es donde hay un montón de heterogeneidad. 00:06:06.785 --> 00:06:10.400 [Josh] No te importan mucho los detalles, ¿verdad? 00:06:10.400 --> 00:06:11.480 [Guido] Sí. 00:06:11.480 --> 00:06:14.752 [Josh] No tiene un ángulo normativo o algo así. 00:06:14.752 --> 00:06:17.535 [Guido] El reconocimiento de dígitos escritos a mano 00:06:17.535 --> 00:06:18.721 y demás... 00:06:18.721 --> 00:06:23.861 lo hace mucho mejor que construir un modelo complicado. 00:06:24.201 --> 00:06:26.925 Pero muchas de las ciencias sociales, 00:06:26.925 --> 00:06:28.454 muchas de las aplicaciones económicas, 00:06:28.454 --> 00:06:29.610 en realidad, sabemos mucho 00:06:29.610 --> 00:06:32.670 sobre la relación entre sus variables. 00:06:32.670 --> 00:06:34.761 Muchas de las relaciones son estrictamente monótonas. 00:06:35.399 --> 00:06:39.266 La educación va a aumentar los ingresos de la gente, 00:06:39.836 --> 00:06:41.916 sin importar las características demográficas, 00:06:41.916 --> 00:06:44.763 sin importar el nivel de educación que se tenga. 00:06:44.763 --> 00:06:46.325 [Isaiah] Hasta que lleguen a un doctorado. 00:06:46.325 --> 00:06:48.126 [Josh] ¿Eso se aplica a la escuela de posgrado? 00:06:48.126 --> 00:06:49.218 [risas] 00:06:49.218 --> 00:06:50.593 [Guido] En un rango razonable. 00:06:50.593 --> 00:06:55.592 No va a bajar mucho. 00:06:55.592 --> 00:06:58.178 En muchos de los entornos en los que se destacan 00:06:58.178 --> 00:07:00.209 estos métodos de aprendizaje automático, 00:07:00.209 --> 00:07:02.810 hay mucha falta de monotonicidad, 00:07:02.810 --> 00:07:04.912 una especie de multimodalidad en estas relaciones 00:07:05.357 --> 00:07:08.475 y van a ser muy poderosos. 00:07:08.701 --> 00:07:11.426 Pero sigo sosteniendo lo mismo. 00:07:12.538 --> 00:07:17.530 Estos métodos tienen mucho para ofrecerles a los economistas 00:07:17.530 --> 00:07:21.465 y serán una gran parte del futuro. 00:07:21.629 --> 00:07:23.183 APLICACIONES DEL APRENDIZAJE AUTOMÁTICO 00:07:23.183 --> 00:07:24.814 [Isaiah] Parece que hay algo interesante por decir 00:07:24.814 --> 00:07:26.139 sobre el aprendizaje automático. 00:07:26.139 --> 00:07:27.412 Así que, Guido, me preguntaba 00:07:27.412 --> 00:07:29.416 ¿podrías dar tal vez algunos de los ejemplos 00:07:29.416 --> 00:07:30.694 que estás pensando 00:07:30.694 --> 00:07:32.507 con las aplicaciones que salen en el momento? 00:07:32.507 --> 00:07:35.779 [Guido] Un área es donde en lugar de buscar 00:07:35.779 --> 00:07:37.235 efectos causales promedio 00:07:37.235 --> 00:07:39.684 estamos buscando estimaciones individualizadas, 00:07:39.684 --> 00:07:43.212 predicciones de efectos causales, 00:07:43.212 --> 00:07:45.856 y allí, los algoritmos de aprendizaje automático 00:07:45.856 --> 00:07:47.384 han sido muy eficaces. 00:07:47.958 --> 00:07:49.892 Hasta ahora, hemos hecho estas cosas 00:07:49.892 --> 00:07:51.458 utilizando los métodos de Kernel, 00:07:51.458 --> 00:07:53.846 y teóricamente, funcionan muy bien, 00:07:53.846 --> 00:07:56.226 y hay quienes comentan que, formalmente, 00:07:56.226 --> 00:07:57.575 no se puede hacer nada mejor. 00:07:57.575 --> 00:07:59.422 Pero en la práctica, no funcionan muy bien. 00:08:00.963 --> 00:08:03.570 Las cosas aleatorias de tipo bosque causal 00:08:03.570 --> 00:08:05.833 en las que Stefan Wager y Susan Athey 00:08:05.833 --> 00:08:09.310 han estado trabajando se utilizan muy ampliamente. 00:08:09.537 --> 00:08:11.895 Han sido muy eficaces en estos entornos 00:08:11.895 --> 00:08:14.998 para obtener efectos causales 00:08:14.998 --> 00:08:19.118 que varían según las covariables. 00:08:19.118 --> 00:08:23.665 Creo que esto es solo el comienzo de estos métodos. 00:08:23.665 --> 00:08:25.605 Pero en muchos casos, 00:08:27.201 --> 00:08:29.572 estos algoritmos son muy eficaces, 00:08:29.572 --> 00:08:31.481 como en la búsqueda en grandes espacios 00:08:31.481 --> 00:08:36.908 y encontrar las funciones que se ajustan muy bien 00:08:37.228 --> 00:08:40.444 en formas que realmente no podíamos hacer antes. 00:08:41.511 --> 00:08:42.866 [Josh] No conozco ningún ejemplo 00:08:42.866 --> 00:08:45.379 en el que el aprendizaje automático haya generado conocimientos 00:08:45.379 --> 00:08:47.260 sobre un efecto causal que me interese. 00:08:47.619 --> 00:08:49.133 Y sí conozco ejemplos 00:08:49.133 --> 00:08:51.106 en los que es potencialmente muy engañoso. 00:08:51.485 --> 00:08:53.487 He trabajado con Brigham Frandsen 00:08:53.487 --> 00:08:55.916 utilizando, por ejemplo, bosques aleatorios 00:08:55.916 --> 00:08:57.943 para modelar los efectos de las covariables 00:08:57.943 --> 00:08:59.885 en un problema de variables instrumentales 00:09:00.155 --> 00:09:03.328 en el que hay que condicionar las covariables. 00:09:04.270 --> 00:09:06.456 Y no tienes un sentimiento muy fuerte 00:09:06.456 --> 00:09:08.130 sobre la forma funcional para eso, 00:09:08.130 --> 00:09:09.845 así que tal vez se debería curvar... 00:09:10.565 --> 00:09:12.814 estar abierto a un ajuste flexible de la curva. 00:09:12.977 --> 00:09:14.484 Y eso te lleva a un camino 00:09:14.484 --> 00:09:16.617 donde hay un montón de no linealidades en el modelo, 00:09:17.407 --> 00:09:19.857 y eso es muy peligroso con el VI 00:09:19.857 --> 00:09:22.698 porque cualquier tipo de no linealidad excluida 00:09:22.698 --> 00:09:25.945 genera potencialmente un efecto causal espurio 00:09:25.945 --> 00:09:29.384 y Brigham y yo lo mostramos, creo que muy convincentemente, 00:09:29.384 --> 00:09:32.104 en el caso de dos instrumentos 00:09:32.684 --> 00:09:34.963 que vienen de un trabajo mío con Bill Evans, 00:09:34.963 --> 00:09:37.295 donde, si se reemplaza... 00:09:37.295 --> 00:09:40.896 un estimador tradicional de mínimos cuadrados en dos etapas 00:09:40.896 --> 00:09:42.676 con algún tipo de bosque aleatorio, 00:09:42.676 --> 00:09:46.745 se obtienen estimaciones sin sentido muy precisas. 00:09:48.887 --> 00:09:51.560 Creo que eso es una gran advertencia. 00:09:51.560 --> 00:09:53.381 A la vista de esos resultados, 00:09:53.571 --> 00:09:55.332 en un ejemplo que me interese 00:09:55.332 --> 00:09:57.353 en el que los instrumentos sean muy simples 00:09:57.353 --> 00:10:01.149 y crea que son válidos, sería escéptico al respecto. 00:10:02.280 --> 00:10:06.258 La no linealidad y el VI no se mezclan muy cómodamente. 00:10:06.258 --> 00:10:09.191 [Guido] No, parece que eso ya es más complicado... 00:10:09.621 --> 00:10:11.914 [Josh] Bueno, es VI... [Guido] Sí. 00:10:11.914 --> 00:10:13.554 [Josh] pero luego trabajamos en eso. 00:10:13.554 --> 00:10:15.456 [risas] 00:10:15.456 --> 00:10:16.862 [Guido] Está bien. 00:10:16.862 --> 00:10:18.645 OPORTUNIDADES PARA PUBLICAR EN REVISTAS 00:10:18.645 --> 00:10:20.470 [Guido] Como editor de Econometrica, 00:10:20.470 --> 00:10:22.575 muchos de estos trabajos llegan a mi escritorio, 00:10:22.755 --> 00:10:26.659 pero la motivación no es clara 00:10:27.461 --> 00:10:29.706 y, de hecho, realmente no existe. 00:10:29.883 --> 00:10:34.875 No son... artículos fundacionales de tipo semiparamétrico. 00:10:35.515 --> 00:10:37.790 Así que, ese es un gran problema. 00:10:37.947 --> 00:10:41.364 Un problema relacionado es que, en econometría, 00:10:41.364 --> 00:10:43.726 tenemos la tradición de estar muy centrados 00:10:43.726 --> 00:10:46.448 en estos resultados asintóticos formales. 00:10:46.757 --> 00:10:50.040 Tenemos muchos artículos 00:10:50.730 --> 00:10:53.244 en los que la gente propone un método 00:10:53.244 --> 00:10:55.689 y luego establece las propiedades asintóticas 00:10:56.472 --> 00:10:59.345 de una manera muy estandarizada. 00:11:00.696 --> 00:11:01.954 [Josh] ¿Es eso malo? 00:11:02.202 --> 00:11:06.186 [Guido] Bueno, creo que les ha cerrado la puerta 00:11:06.186 --> 00:11:08.215 a muchos trabajos que no encajan 00:11:08.215 --> 00:11:11.328 en la literatura del aprendizaje automático, 00:11:11.328 --> 00:11:13.247 donde muchas cosas son más algorítmicas. 00:11:13.927 --> 00:11:18.323 La gente tenía algoritmos para hacer predicciones 00:11:18.714 --> 00:11:22.490 que resultaron funcionar mucho mejor que, por ejemplo, 00:11:22.490 --> 00:11:23.865 la regresión Kernel no paramétrica. 00:11:23.865 --> 00:11:25.128 Durante mucho tiempo, 00:11:25.128 --> 00:11:26.920 en econometría hicimos toda la no paramétrica 00:11:26.920 --> 00:11:28.753 y usamos la regresión Kernel. 00:11:29.178 --> 00:11:30.969 Y eso fue genial para probar teoremas. 00:11:30.969 --> 00:11:32.637 Podías obtener intervalos de confianza, 00:11:32.637 --> 00:11:34.567 consistencia, normalidad asintótica 00:11:34.567 --> 00:11:36.875 y todo iba genial, pero no era muy útil. 00:11:37.101 --> 00:11:39.326 Y las cosas que hicieron en el aprendizaje automático 00:11:39.326 --> 00:11:40.805 son mucho, mucho mejores. 00:11:41.540 --> 00:11:42.766 Pero no tenían el problema... 00:11:42.766 --> 00:11:44.961 [Josh] Ese no es mi problema con el aprendizaje automático, 00:11:44.961 --> 00:11:46.983 que la teoría sea débil. [risas] 00:11:47.730 --> 00:11:50.768 [Guido] No, pero estoy diciendo que, en cuanto a la predicción, 00:11:51.138 --> 00:11:52.359 lo hace mucho mejor. 00:11:52.359 --> 00:11:54.590 [Josh] Sí, es una mejor herramienta de ajuste de curvas. 00:11:54.590 --> 00:11:58.655 [Guido] Pero lo hizo de una manera que no habría hecho 00:11:58.655 --> 00:12:02.399 que esos trabajos fueran inicialmente fáciles de incorporar 00:12:02.399 --> 00:12:04.291 en las revistas de econometría, 00:12:04.291 --> 00:12:06.715 porque no estaba probando el tipo de cosas... 00:12:06.990 --> 00:12:09.842 Cuando Breiman hacía sus árboles de regresión... 00:12:09.842 --> 00:12:11.235 simplemente no encajaban. 00:12:11.477 --> 00:12:15.815 Creo que le habría sido muy difícil publicar estas cosas 00:12:15.815 --> 00:12:18.183 en las revistas de econometría. 00:12:20.124 --> 00:12:23.426 Creo que nos hemos limitado demasiado 00:12:23.457 --> 00:12:27.467 y nos hemos cerrado 00:12:27.615 --> 00:12:29.816 a muchos de estos métodos de aprendizaje automático 00:12:29.816 --> 00:12:31.117 que son realmente muy útiles. 00:12:31.292 --> 00:12:33.625 Es decir, creo, en general, 00:12:33.625 --> 00:12:36.614 que la literatura, los ingenieros de sistemas 00:12:36.614 --> 00:12:39.070 han presentado una gran cantidad de estos algoritmos, 00:12:40.776 --> 00:12:42.635 han propuesto una gran cantidad de algoritmos 00:12:42.635 --> 00:12:44.076 que realmente son muy útiles 00:12:44.076 --> 00:12:48.792 y que están afectando la forma en que haremos el trabajo empírico. 00:12:49.674 --> 00:12:52.140 Pero no lo hemos interiorizado del todo 00:12:52.140 --> 00:12:54.500 porque todavía estamos muy centrados 00:12:54.500 --> 00:12:56.276 en obtener estimaciones puntuales 00:12:56.276 --> 00:12:59.967 y obtener errores estándar y obtener valores P 00:13:00.247 --> 00:13:02.956 de una manera que necesitamos superar 00:13:02.956 --> 00:13:08.257 para aprovechar plenamente la fuerza, los beneficios 00:13:08.257 --> 00:13:10.564 de la literatura de aprendizaje automático. 00:13:11.374 --> 00:13:14.070 [Isaiah] Por un lado, creo que entiendo tu punto de vista 00:13:14.070 --> 00:13:16.738 de que el marco tradicional de la econometría 00:13:16.738 --> 00:13:19.734 de proponer un método, demostrar un teorema límite 00:13:19.734 --> 00:13:23.403 bajo alguna historia asintótica, y otra, y otra y otra... 00:13:24.429 --> 00:13:26.969 ...y luego publicar el documento, es restrictivo, 00:13:26.969 --> 00:13:28.805 y que, en cierto sentido, 00:13:28.805 --> 00:13:30.301 al pensar más ampliamente 00:13:30.301 --> 00:13:31.862 sobre cómo podría ser un documento de métodos, 00:13:31.862 --> 00:13:33.578 podemos escribir, en cierto sentido, 00:13:33.578 --> 00:13:35.339 desde luego que la literatura de aprendizaje automático 00:13:35.339 --> 00:13:36.430 ha encontrado un montón de cosas 00:13:36.430 --> 00:13:38.269 que parecen funcionar bastante bien para una serie de problemas 00:13:38.269 --> 00:13:40.984 y ahora están influyendo sustancialmente en la economía. 00:13:41.530 --> 00:13:43.339 Supongo que una pregunta que me interesa 00:13:43.339 --> 00:13:46.278 es cómo piensas en el papel de... 00:13:48.754 --> 00:13:50.990 ¿Crees que no hay valor en la parte de la teoría? 00:13:50.990 --> 00:13:52.174 Porque supongo 00:13:52.174 --> 00:13:54.118 que una pregunta que a menudo me hago 00:13:54.118 --> 00:13:55.729 al ver el resultado 00:13:55.729 --> 00:13:57.273 de una herramienta de aprendizaje automático... 00:13:57.273 --> 00:13:59.397 y, en realidad, varios de los métodos de los que hablaste 00:13:59.397 --> 00:14:01.759 tienen resultados inferenciales desarrollados para ellos, 00:14:01.759 --> 00:14:03.918 algo que siempre me pregunto, 00:14:03.918 --> 00:14:05.642 una especie de cuantificación de la incertidumbre 00:14:05.642 --> 00:14:06.735 y simplemente... 00:14:06.735 --> 00:14:07.801 Tengo mi... 00:14:07.801 --> 00:14:09.743 vengo al mundo con mi punto de vista, 00:14:09.743 --> 00:14:11.000 veo el resultado de esta cosa. 00:14:11.000 --> 00:14:12.633 ¿Cómo debo actualizarlo en función de eso? 00:14:12.633 --> 00:14:14.341 Y en cierto sentido, si estoy en un mundo 00:14:14.341 --> 00:14:16.250 donde las cosas se distribuyen normalmente, 00:14:16.250 --> 00:14:17.271 sé cómo hacerlo. 00:14:17.271 --> 00:14:18.350 Aquí no lo sé. 00:14:18.350 --> 00:14:21.160 Así que, me interesa escuchar lo que piensas al respecto. 00:14:21.389 --> 00:14:24.106 [Guido] No veo esto como si fuera a decir 00:14:24.106 --> 00:14:26.384 que estos resultados no son interesantes, 00:14:26.384 --> 00:14:27.712 pero habrá un montón de casos 00:14:27.712 --> 00:14:29.317 en los que va a ser increíblemente difícil 00:14:29.317 --> 00:14:30.340 obtener esos resultados 00:14:30.340 --> 00:14:32.435 y puede que no seamos capaces de llegar allí 00:14:32.435 --> 00:14:34.894 y puede que tengamos que hacerlo en etapas, 00:14:34.894 --> 00:14:36.472 donde primero alguien dice: 00:14:36.472 --> 00:14:40.744 "Oye, tengo este algoritmo interesante 00:14:40.744 --> 00:14:42.370 para hacer algo", 00:14:42.370 --> 00:14:46.507 y funciona bien según cierto criterio 00:14:47.695 --> 00:14:49.868 en este conjunto de datos en particular, 00:14:50.998 --> 00:14:52.663 y debemos ponerlo en conocimiento. 00:14:53.587 --> 00:14:55.276 Y tal vez alguien descubra una forma 00:14:55.276 --> 00:14:58.500 en la que más tarde se pueda seguir haciendo inferencia 00:14:58.500 --> 00:14:59.569 bajo algunas condiciones, 00:14:59.569 --> 00:15:01.800 y tal vez no sean condiciones particularmente realistas. 00:15:01.800 --> 00:15:03.889 Entonces, podemos ir más allá. 00:15:03.889 --> 00:15:08.443 Pero creo que hemos estado restringiendo demasiado las cosas 00:15:08.443 --> 00:15:09.681 donde dijimos: 00:15:09.681 --> 00:15:13.151 "Este es el tipo de cosas que tenemos que hacer". 00:15:13.151 --> 00:15:16.261 Y en cierto sentido, eso se remonta 00:15:16.261 --> 00:15:19.993 a la forma en que Josh y yo pensamos 00:15:19.993 --> 00:15:22.020 respecto del efecto del tratamiento local promedio. 00:15:22.020 --> 00:15:24.052 Esa no era la forma en que la gente pensaba 00:15:24.052 --> 00:15:25.285 en estos problemas anteriormente. 00:15:25.285 --> 00:15:28.513 Había una sensación de que algunas personas 00:15:28.513 --> 00:15:30.570 decían que la forma de hacer estas cosas; 00:15:30.570 --> 00:15:33.722 es decir, primero, lo que te interesa estimar 00:15:34.142 --> 00:15:37.255 y luego hacer lo mejor que puedas en la estimación. 00:15:38.029 --> 00:15:43.936 Y lo que ustedes hacen es hacerlo al revés. 00:15:44.430 --> 00:15:46.743 Ustedes dicen: "Aquí tengo un estimador 00:15:47.393 --> 00:15:50.726 y ahora voy a averiguar qué está estimando". 00:15:50.726 --> 00:15:53.883 Y supongo que vas a decir por qué crees que es interesante 00:15:53.883 --> 00:15:56.615 o tal vez por qué no es interesante y eso no está bien. 00:15:56.615 --> 00:15:58.504 No está permitido hacerlo de esa manera. 00:15:58.813 --> 00:16:01.791 Y creo que deberíamos ser un poco más flexibles 00:16:02.181 --> 00:16:06.579 a la hora de pensar en cómo ver los problemas 00:16:06.579 --> 00:16:11.206 porque creo que nos hemos perdido algunas cosas por no hacer eso. 00:16:11.206 --> 00:16:12.993 ¡ISAIAH ANDREWS ARBITRA! 00:16:12.993 --> 00:16:15.660 [Josh] Así que, has escuchado nuestros puntos de vista, Isaiah, 00:16:15.660 --> 00:16:18.268 y has visto que no estamos de acuerdo en algunos puntos. 00:16:18.413 --> 00:16:22.500 ¿Por qué no nos arbitras esta disputa? [risas] 00:16:22.500 --> 00:16:25.190 [Isaiah] Oh, qué amable eres al hacerme una pequeña pregunta. 00:16:25.190 --> 00:16:26.490 [risas] 00:16:26.508 --> 00:16:28.840 Así que supongo que, por un lado, 00:16:28.840 --> 00:16:35.240 estoy muy de acuerdo con algo que Guido dijo antes de... [risas] 00:16:35.711 --> 00:16:36.815 Así que, un aspecto 00:16:36.815 --> 00:16:38.937 en el que el asunto del aprendizaje automático 00:16:38.937 --> 00:16:40.200 parece relativamente claro 00:16:40.200 --> 00:16:42.489 es en los entornos donde nos interesa 00:16:42.489 --> 00:16:45.110 alguna versión de un problema de predicción no paramétrica. 00:16:45.110 --> 00:16:46.799 Así que estoy interesado en la estimación 00:16:46.799 --> 00:16:49.729 de una expectativa condicional o probabilidad condicional, 00:16:49.942 --> 00:16:52.490 y en el pasado, tal vez habría utilizado un Kernel... 00:16:52.490 --> 00:16:53.696 Habría utilizado una regresión Kernel 00:16:53.696 --> 00:16:57.105 o habría utilizado una regresión en serie, o algo por el estilo. 00:16:57.475 --> 00:16:59.225 Parece que, en este momento, 00:16:59.225 --> 00:17:00.595 tenemos una idea bastante clara 00:17:00.595 --> 00:17:02.884 de que, en una amplia gama de aplicaciones, 00:17:03.064 --> 00:17:04.560 los métodos de aprendizaje automático 00:17:04.560 --> 00:17:05.750 parecen funcionar mejor 00:17:05.750 --> 00:17:08.536 para estimar las funciones de media condicional, 00:17:08.536 --> 00:17:10.150 o las probabilidades condicionales, 00:17:10.150 --> 00:17:12.208 o varios otros objetos no paramétricos 00:17:12.208 --> 00:17:15.323 que los métodos no paramétricos más tradicionales 00:17:15.323 --> 00:17:17.327 que se estudiaron en econometría y estadística, 00:17:17.327 --> 00:17:19.435 especialmente en entornos de alta dimensión. 00:17:19.480 --> 00:17:22.141 [Josh] ¿Así que, estás pensando en la puntuación de propensión 00:17:22.141 --> 00:17:23.167 o algo así? 00:17:23.167 --> 00:17:25.221 - [Isaiah] Sí, exactamente. - [Guido] Funciones de molestia. 00:17:25.221 --> 00:17:27.569 [Isaiah] Sí, cosas como las puntuaciones de propensión. 00:17:28.008 --> 00:17:30.407 Incluso objetos de interés más directo, 00:17:30.407 --> 00:17:32.250 como los efectos del tratamiento promedio condicional, 00:17:32.250 --> 00:17:33.320 que son la diferencia 00:17:33.320 --> 00:17:35.189 de dos funciones de expectativa condicional, 00:17:35.189 --> 00:17:36.431 potencialmente cosas así. 00:17:36.611 --> 00:17:40.190 Por supuesto, incluso allí, la teoría... 00:17:40.420 --> 00:17:43.596 La inferencia de la teoría de cómo interpretar, 00:17:43.596 --> 00:17:45.950 cómo hacer declaraciones de muestras grandes 00:17:45.950 --> 00:17:47.740 sobre algunas de estas cosas están menos desarrolladas 00:17:47.740 --> 00:17:49.435 dependiendo del estimador de aprendizaje automático 00:17:49.435 --> 00:17:50.608 que se utilice. 00:17:50.608 --> 00:17:53.184 Y así, creo que algo que es complicado 00:17:53.184 --> 00:17:54.846 es que podemos tener estos métodos, 00:17:54.846 --> 00:17:55.884 que funcionan mucho... 00:17:55.884 --> 00:17:57.981 que parecen funcionar mucho mejor para algunos fines, 00:17:57.981 --> 00:18:00.223 pero que tenemos que ser un poco cuidadosos 00:18:00.223 --> 00:18:01.364 en cómo los incorporamos 00:18:01.364 --> 00:18:03.441 o cómo interpretamos las declaraciones resultantes. 00:18:03.441 --> 00:18:05.769 Pero, por supuesto, esa es un área muy, muy activa 00:18:05.769 --> 00:18:08.255 ahora mismo en la que la gente está haciendo un gran trabajo. 00:18:08.255 --> 00:18:12.299 Así que, espero ver mucho más en el futuro. 00:18:13.161 --> 00:18:14.818 Un problema con el aprendizaje automático 00:18:14.818 --> 00:18:16.663 que siempre parece un peligro es... 00:18:16.663 --> 00:18:18.459 o que a veces es un peligro 00:18:18.459 --> 00:18:20.306 y que a veces ha llevado 00:18:20.306 --> 00:18:22.213 a aplicaciones que han tenido menos sentido 00:18:22.213 --> 00:18:23.894 es cuando la gente empieza 00:18:23.894 --> 00:18:27.252 con un método que les entusiasma mucho 00:18:27.252 --> 00:18:28.506 en lugar de una pregunta. 00:18:28.572 --> 00:18:30.406 Así que empezar con una pregunta 00:18:30.406 --> 00:18:33.469 donde aquí está el objeto que me interesa, 00:18:33.469 --> 00:18:35.430 aquí está el parámetro de interés, 00:18:35.430 --> 00:18:39.242 déjame pensar en cómo identificaría esa cosa, 00:18:39.242 --> 00:18:41.566 cómo recuperaría esa cosa si tuviera una tonelada de datos. 00:18:41.790 --> 00:18:44.145 Vaya, aquí hay una función de expectativa condicional, 00:18:44.145 --> 00:18:46.797 permítanme incorporar un estimador de aprendizaje automático para eso, 00:18:46.797 --> 00:18:48.565 eso parece muy muy sensato. 00:18:48.895 --> 00:18:50.276 Mientras que, ya sabes, 00:18:50.276 --> 00:18:52.782 si hago una regresión de la cantidad sobre el precio 00:18:53.189 --> 00:18:54.564 y digo que he utilizado 00:18:54.564 --> 00:18:56.230 un método de aprendizaje automático, 00:18:56.370 --> 00:18:58.169 tal vez estoy satisfecho de que eso resuelva 00:18:58.169 --> 00:19:00.312 el problema de endogeneidad que normalmente nos preocupa allí; 00:19:00.312 --> 00:19:01.617 tal vez no lo estoy. 00:19:01.617 --> 00:19:05.179 Pero, de nuevo, allí la forma de abordarlo 00:19:05.179 --> 00:19:06.484 parece relativamente clara. 00:19:06.484 --> 00:19:09.747 Es encontrar tu objeto de interés y pensar en... 00:19:09.747 --> 00:19:11.446 [Guido] Es simplemente incorporar la economía. 00:19:11.446 --> 00:19:12.661 [Isaiah] Exactamente. 00:19:12.661 --> 00:19:14.227 [Guido] Y pensar en la heterogeneidad, 00:19:14.227 --> 00:19:15.299 pero aprovechar 00:19:15.299 --> 00:19:17.245 el poder de los métodos de aprendizaje automático 00:19:17.245 --> 00:19:20.177 para algunos de los componentes. 00:19:20.177 --> 00:19:21.224 [Isaiah] Precisamente. 00:19:21.224 --> 00:19:22.260 Exactamente. 00:19:22.260 --> 00:19:25.411 Así que la cuestión de interés es la misma de siempre, 00:19:25.411 --> 00:19:26.785 pero ahora tenemos mejores métodos 00:19:26.785 --> 00:19:28.481 para estimar algunas partes de esto. 00:19:29.150 --> 00:19:32.659 Lo que parece más difícil de pronosticar 00:19:32.659 --> 00:19:35.253 es que, obviamente, ocurren muchas cosas 00:19:35.253 --> 00:19:37.305 dentro de la literatura de aprendizaje automático 00:19:37.305 --> 00:19:40.180 y las formas limitadas de incorporarlo 00:19:40.180 --> 00:19:41.689 a las que he hecho referencia hasta ahora 00:19:41.689 --> 00:19:43.141 son una parte limitada de eso. 00:19:43.141 --> 00:19:45.380 Así que, creo que hay muchas otras preguntas interesantes 00:19:45.380 --> 00:19:48.336 sobre dónde... ¿a dónde va esta interacción? 00:19:48.336 --> 00:19:49.541 ¿Qué más podemos aprender? 00:19:49.541 --> 00:19:52.959 Y eso es algo en lo que creo que hay mucho trabajo en curso, 00:19:52.959 --> 00:19:54.417 lo que parece muy prometedor, 00:19:54.417 --> 00:19:56.430 y no tengo ni idea de cuál es la respuesta. 00:19:56.606 --> 00:20:00.810 [Guido] No, estoy totalmente de acuerdo con eso, 00:20:00.810 --> 00:20:03.526 pero eso lo hace muy emocionante. 00:20:03.823 --> 00:20:05.996 Y creo que hay un montón de trabajo por hacer allí. 00:20:05.996 --> 00:20:07.290 Muy bien. 00:20:07.290 --> 00:20:08.894 Entonces, Isaiah está de acuerdo conmigo en eso. 00:20:08.894 --> 00:20:10.307 [risas] 00:20:10.307 --> 00:20:11.729 [Isaiah] Yo no he dicho eso en sí. 00:20:11.729 --> 00:20:13.246 [risas] 00:20:13.246 --> 00:20:14.585 ♪ (música) ♪ 00:20:14.585 --> 00:20:16.708 [Narradora] Si desea ver más de Conversaciones Nobel, 00:20:16.708 --> 00:20:17.748 haga clic aquí. 00:20:17.986 --> 00:20:20.900 O si quiere aprender más sobre econometría, 00:20:20.900 --> 00:20:23.300 eche un vistazo a la serie Mastering Econometrics de Josh. 00:20:23.307 --> 00:20:26.373 Si quiere saber más sobre Guido, Josh e Isaiah, 00:20:26.373 --> 00:20:28.337 consulte los enlaces en la descripción. 00:20:28.337 --> 00:20:31.657 ♪ (música) ♪