♪ (música) ♪ - [Narradora] Bienvenidos a Nobel Conversations. En este episodio, Josh Angrist y Guido Imbens están reunidos con Isaiah Andrews para discutir y discrepar sobre el papel del aprendizaje automático en la econometría aplicada. - [Isaiah] Bien. Por supuesto que hay muchos temas en los que ustedes están muy de acuerdo, pero me gustaría pasar a uno sobre el que tal vez opinen algo distinto. Me gustaría escuchar algunas de sus opiniones sobre el aprendizaje automático y el papel que desempeña y desempeñará en la economía. - [Guido] He consultado algunos datos, como los datos privados. Vemos que no hay ningún documento publicado allí. Se hizo un experimento sobre algún algoritmo de búsqueda y la cuestión era... se trataba de clasificar cosas y cambiar la clasificación. Y estaba más o menos claro que iba a haber mucha heterogeneidad. Si buscas, digamos, una foto de Britney Spears, realmente no importa dónde la clasifiques porque vas a encontrar lo que estás buscando, ya sea que la clasifiques en primera, segunda o tercera posición. Pero si estás buscando el mejor libro de econometría, ya sea que pongas tu libro en el primer lugar o en el décimo, eso va a suponer una gran diferencia en la frecuencia con la que la gente hará clic en él. Así que ahí-- [Josh] ¿Por qué necesito el aprendizaje automático para descubrir eso? Porque parece que puedo descubrirlo de forma sencilla. - [Guido] En general-- - [Josh] Había un montón de posibles-- - [Guido]...quieres pensar que los artículos tienen montón de características, que quieres entender lo que impulsa la heterogeneidad en el efecto de-- - Pero solo estás prediciendo. En cierto sentido, estás resolviendo un problema de marketing. - No, es un efecto causal, - Es causal, pero no tiene contenido científico. Piensa en-- - No, pero hay cosas similares en el ámbito médico. Si haces un experimento, puedes estar muy interesado en si el tratamiento funciona para algunos grupos o no. Y tienes un montón de características individuales, y quieres buscar sistemáticamente-- - Sí. Tengo mis dudas sobre esa... esa especie de idea de que hay un efecto causal personal que me debería importar y que el aprendizaje automático puede descubrirlo de alguna manera que sea útil. Así que piensa en-- he trabajado mucho en las escuelas, yendo a, digamos, una escuela chárter, una escuela privada financiada con fondos públicos, efectivamente, que es libre de estructurar su propio plan de estudios en función del contexto. Algunos tipos de escuelas chárter consiguen un rendimiento espectacular y en el conjunto de datos que produce ese resultado, tengo un montón de covariables. Tengo las puntuaciones de referencia y los antecedentes familiares, la educación de los padres, el sexo del niño, la raza del niño. Y, bueno, en cuanto reúno media docena de ellas, tengo un espacio de muy alta dimensión. Sin duda, me interesan las características del curso de ese efecto del tratamiento, como por ejemplo, si es mejor para las personas que provienen de familias con menores ingresos. Me cuesta creer que haya una aplicación para la versión de muy alta dimensión, en la que descubrí que para los niños no blancos que tienen ingresos familiares altos pero puntuaciones de referencia en el tercer cuartil y que solo fueron a la escuela pública en el tercer grado pero no en el sexto. Así que eso es lo que produce ese análisis de alta dimensión. Es una declaración condicional muy elaborada. Hay dos cosas que están mal, en mi opinión. En primer lugar, no lo veo como-- no puedo imaginar por qué es algo procesable. No sé por qué querrías actuar sobre ello. Y también sé que hay algún modelo alternativo que encaja casi igual de bien, que lo invierte todo. Porque el aprendizaje automático no me dice que este es realmente el predictor que importa, solo me dice que este es un buen predictor. Así que creo, que hay algo diferente en el contexto de las ciencias sociales. - [Guido] Creo que las aplicaciones de las ciencias sociales de las que hablas son aquellas en las que, creo, no hay una gran cantidad de heterogeneidad en los efectos. - [Josh] Bueno, podría haberla si me permites llenar ese espacio. - No... ni siquiera entonces. Creo que para muchas de esas intervenciones, se espera que el efecto sea del mismo signo para todos. Puede haber pequeñas diferencias en la magnitud, pero no es... Porque muchas de estas diferencias educativas son buenas para todos. No es que sean malas para algunas personas y buenas para otras y luego hay unos pocos casos en los que son malas. Pero puede haber algo de variación en la magnitud, pero se necesitarían conjuntos de datos muy muy grandes para encontrarlos. Estoy de acuerdo en que, en esos casos, probablemente no serían muy procesables de todos modos. Pero creo que hay muchos otros escenarios donde hay mucha más heterogeneidad. - Bueno, estoy abierto a esa posibilidad y creo que el ejemplo que has dado es esencialmente un ejemplo de marketing. - No, esos tienen implicaciones respecto a ello y esa es la organización, si tienes que preocuparte por la-- - Bueno, necesito ver ese documento. - Así que, la sensación que tengo es que... - Todavía estamos en desacuerdo en algo. - Sí. - No hemos coincidido en todo. - Tengo esa sensación. [risas] - En realidad, hemos discrepado en esto porque no estaba para discutir. [risas] - ¿Se está poniendo algo caluroso aquí? - Caluroso. Es bueno que esté caluroso. La sensación que tengo es, Josh, que no estás diciendo que estás seguro de que no hay manera de que haya una aplicación en la que estas cosas sean útiles. Estás diciendo que no estás convencido con las aplicaciones existentes hasta la fecha. - Me parece bien. - Estoy muy seguro. [risas] - En este caso. - Creo que Josh tiene razón en que incluso en los casos de predicción, donde muchos de los métodos de aprendizaje automático realmente se destacan es donde hay un montón de heterogeneidad. - No te importan mucho los detalles, ¿verdad? - [Guido] Sí. - No tiene un ángulo normativo o algo así. - El reconocimiento de dígitos escritos a mano y demás... lo hace mucho mejor que construir un modelo complicado. Pero muchas de las ciencias sociales, muchas de las aplicaciones económicas, en realidad sabemos mucho sobre la relación entre sus variables. Muchas de las relaciones son estrictamente monótonas. La educación va a aumentar los ingresos de la gente, sin importar las características demográficas, sin importar el nivel de educación que se tenga. - Hasta que lleguen a un doctorado. - ¿Eso se aplica a la escuela de posgrado? [risas] - En un rango razonable. No va a bajar mucho. En muchos de los entornos en los que se destacan estos métodos de aprendizaje automático, hay mucha falta de monotonicidad, una especie de multimodalidad en estas relaciones y van a ser muy poderosos. Pero sigo sosteniendo lo mismo. Estos métodos tienen mucho para ofrecerles a los economistas y serán una gran parte del futuro. APLICACIONES DEL APRENDIZAJE AUTOMÁTICO Parece que hay algo interesante por decir sobre el aprendizaje automático. Así que, Guido, me preguntaba ¿podrías dar tal vez algunos de los ejemplos que estás pensando con las aplicaciones que salen en el momento? - Un área es donde en lugar de buscar efectos causales promedio estamos buscando estimaciones individualizadas, predicciones de efectos causales, y allí, los algoritmos de aprendizaje automático han sido muy eficaces. Hasta ahora, hemos hecho estas cosas utilizando métodos de kernel, y teóricamente, funcionan muy bien, y hay quienes comentan que, formalmente, no se puede hacer nada mejor. Pero en la práctica, no funcionan muy bien. Las cosas aleatorias de tipo bosque causal en las que Stefan Wager y Susan Athey han estado trabajando se utilizan muy ampliamente. Han sido muy eficaces en estos entornos para obtener efectos causales que varían según las covariables. Creo que esto es solo el comienzo de estos métodos. Pero en muchos casos, estos algoritmos son muy eficaces, como en la búsqueda en grandes espacios y encontrar las funciones que se ajustan muy bien en formas que realmente no podíamos hacer antes. - No conozco ningún ejemplo en el que el aprendizaje automático haya generado conocimientos sobre un efecto causal que me interese. Y sí conozco ejemplos en los que es potencialmente muy engañoso. He trabajado con Brigham Frandsen utilizando, por ejemplo, bosques aleatorios para modelar los efectos de las covariables en un problema de variables instrumentales en el que hay que condicionar las covariables. Y no tienes un sentimiento muy fuerte sobre la forma funcional para eso, así que tal vez se debería curvar... estar abierto a un ajuste flexible de la curva. Y eso te lleva a un camino donde hay un montón de no linealidades en el modelo, y eso es muy peligroso con el VI porque cualquier tipo de no linealidad excluida genera potencialmente un efecto causal espurio y Brigham y yo lo mostramos, creo que muy convincentemente, en el caso de dos instrumentos que vienen de un trabajo mío con Bill Evans, donde si se reemplaza... un estimador tradicional de mínimos cuadrados en dos etapas con algún tipo de bosque aleatorio, se obtienen estimaciones sin sentido muy precisas. Creo que eso es una gran advertencia. A la vista de esos resultados, en un ejemplo que me interese en el que los instrumentos sean muy simples y crea que son válidos, sería escéptico al respecto. La no linealidad y el VI no se mezclan muy cómodamente. - No, parece que eso ya es más complicado... - Bueno, es VI-- - Sí. - ...pero luego trabajamos en eso. [risas] - Está bien. OPORTUNIDADES PARA PUBLICAR EN REVISTAS - [Guido] Como editor de Econometrica, muchos de estos trabajos llegan a mi escritorio, pero la motivación no es clara y, de hecho, realmente no existe. No son... artículos fundacionales de tipo semiparamétrico. Así que, ese es un gran problema. Un problema relacionado es que, en econometría, tenemos la tradición de estar muy centrados en estos resultados asintóticos formales. Tenemos muchos artículos en los que la gente propone un método y luego establece las propiedades asintóticas de una manera muy estandarizada. - ¿Es eso malo? - Bueno, creo que les ha cerrado la puerta a muchos trabajos que no encajan en la literatura del aprendizaje automático, donde muchas cosas son más algorítmicas. La gente tenía algoritmos para hacer predicciones que resultaron funcionar mucho mejor que, por ejemplo, la regresión kernel no paramétrica. Durante mucho tiempo, en econometría hicimos toda la no paramétrica y usamos la regresión kernel. Y eso fue genial para probar teoremas. Podías obtener intervalos de confianza, consistencia, normalidad asintótica y todo iba genial, pero no era muy útil. Y las cosas que hicieron en el aprendizaje automático son mucho, mucho mejores. Pero no tenían el problema... - Ese no es mi problema con el aprendizaje automático, que la teoría sea débil. [risas] - No, pero estoy diciendo que en cuanto a la predicción, lo hace mucho mejor. - Sí, es una mejor herramienta de ajuste de curvas. - Pero lo hizo de una manera que no habría hecho que esos trabajos fueran inicialmente fáciles de incorporar en las revistas de econometría, porque no estaba probando el tipo de cosas... Cuando Breiman hacía sus árboles de regresión... simplemente no encajaban. Creo que le habría sido muy difícil publicar estas cosas en las revistas de econometría. Creo que nos hemos limitado demasiado y nos hemos cerrado a muchos de estos métodos de aprendizaje automático que son realmente muy útiles. Es decir, creo, en general, que la literatura, los ingenieros de sistemas han presentado una gran cantidad de estos algoritmos, han propuesto una gran cantidad de algoritmos que realmente son muy útiles y que están afectando la forma en que haremos el trabajo empírico. Pero no lo hemos interiorizado del todo porque todavía estamos muy centrados en obtener estimaciones puntuales y obtener errores estándar y obtener valores P de una manera que necesitamos superar para aprovechar plenamente la fuerza, los beneficios de la literatura de aprendizaje automático. - Por un lado, creo que entiendo tu punto de vista de que el marco tradicional de la econometría de proponer un método, demostrar un teorema límite bajo alguna historia asintótica, y otra, y otra y otra... ...y luego publicar el documento, es restrictivo, y que, en cierto sentido, al pensar más ampliamente sobre cómo podría ser un documento de métodos, podemos escribir, en cierto sentido, desde luego que la literatura de aprendizaje automático ha encontrado un montón de cosas que parecen funcionar bastante bien para una serie de problemas y ahora están influyendo sustancialmente en la economía. Supongo que una pregunta que me interesa es cómo piensas en el papel de... ¿Crees que no hay valor en la parte de la teoría? Porque supongo que una pregunta que a menudo me hago al ver el resultado de una herramienta de aprendizaje automático-- y en realidad, varios de los métodos de los que hablaste tienen resultados inferenciales desarrollados para ellos-- algo que siempre me pregunto, una especie de cuantificación de la incertidumbre y simplemente... Tengo mi... vengo al mundo con mi punto de vista, veo el resultado de esta cosa. ¿Cómo debo actualizar en función de eso? Y en cierto sentido, si estoy en un mundo donde las cosas se distribuyen normalmente, sé cómo hacerlo. Aquí no lo sé. Así que, me interesa escuchar lo que piensas al respecto. - No veo esto como si fuera decir que estos resultados no son interesantes, pero habrá un montón de casos en los que va a ser increíblemente difícil obtener esos resultados y puede que no seamos capaces de llegar allí y puede que tengamos que hacerlo en etapas, donde primero alguien dice "Oye, tengo este algoritmo interesante para hacer algo", y funciona bien según cierto criterio en este conjunto de datos en particular, y debemos ponerlo en conocimiento. Y tal vez alguien descubra una forma en la que más tarde se pueda seguir haciendo inferencia bajo algunas condiciones, y tal vez no sean condiciones particularmente realistas. Entonces, podemos ir más allá. Pero creo que hemos estado restringiendo demasiado las cosas donde dijimos: "Este es el tipo de cosas que tenemos que hacer". Y en cierto sentido, eso se remonta a la forma en que Josh y yo pensamos respecto del efecto del tratamiento promedio local. Esa no era la forma en que la gente pensaba en estos problemas anteriormente. Había una sensación de que algunas personas decían que la forma de hacer estas cosas es decir primero lo que te interesa estimar y luego hacer lo mejor que puedas en la estimación. Y lo que ustedes hacen es hacerlo al revés. Ustedes dicen: "Aquí tengo un estimador y ahora voy a averiguar qué está estimando". Y supongo que vas a decir por qué crees que es interesante o tal vez por qué no es interesante y eso no está bien. No está permitido hacerlo de esa manera. Y creo que deberíamos ser un poco más flexibles a la hora de pensar en cómo ver los problemas porque creo que nos hemos perdido algunas cosas por no hacer eso. ¡ISAIAH ANDREWS ARBITRA! - [Josh] Así que, has escuchado nuestros puntos de vista, Isaiah, y has visto que no estamos de acuerdo en algunos puntos. ¿Por qué no nos arbitras esta disputa? [risas] - Oh, qué amable eres al hacerme una pequeña pregunta. [risas] Así que supongo que, por un lado, estoy muy de acuerdo con algo que Guido dijo antes de... [risas] Así que, un aspecto en la que el asunto del aprendizaje automático parece relativamente claro es en los entornos donde nos interesa alguna versión de un problema de predicción no paramétrica. Así que estoy interesado en la estimación de una expectativa condicional o probabilidad condicional, y en el pasado, tal vez habría utilizado un kernel... Habría utilizado una regresión kernel o habría utilizado una regresión en serie, o algo por el estilo. Parece que, en este momento, tenemos una idea bastante clara de que, en una amplia gama de aplicaciones, los métodos de aprendizaje automático parecen funcionar mejor para estimar las funciones de media condicional, o las probabilidades condicionales, o varios otros objetos no paramétricos que los métodos no paramétricos más tradicionales que se estudiaron en econometría y estadística, especialmente en entornos de alta dimensión. - ¿Así que, estás pensando en la puntuación de propensión o algo así? - Sí, exactamente. - Funciones de molestia. - Sí, cosas como las puntuaciones de propensión. Incluso objetos de interés más directo, como los efectos del tratamiento promedio condicional, que son la diferencia de dos funciones de expectativa condicional, potencialmente cosas así. Por supuesto, incluso allí, la teoría... para la inferencia de la teoría de cómo interpretar, cómo hacer declaraciones de muestras grandes sobre algunas de estas cosas están menos desarrolladas dependiendo del estimador de aprendizaje automático utilizado. Y así, creo que algo que es complicado es que podemos tener estos métodos, que funcionan mucho... que parecen funcionar mucho mejor para algunos fines, pero que tenemos que ser un poco cuidadosos en cómo los incorporamos o cómo interpretamos las declaraciones resultantes. Pero, por supuesto, esa es un área muy, muy activa ahora mismo donde la gente está haciendo toneladas de gran trabajo. Así que espero ver mucho más en el futuro. Un problema con el aprendizaje automático que siempre parece un peligro es... o que a veces es un peligro y que a veces ha llevado a aplicaciones que han tenido menos sentido es cuando la gente empieza con un método que les entusiasma mucho en lugar de una pregunta. Así que empezar con una pregunta donde aquí está el objeto que me interesa, aquí está el parámetro de interés-- déjame pensar en cómo identificaría esa cosa, cómo recuperaría esa cosa si tuviera una tonelada de datos. Oh, aquí hay una función de expectativa condicional, permítanme conectar un estimador de aprendizaje automático para eso-- eso parece muy muy sensato. Mientras que, ya sabes, si hago una regresión de la cantidad sobre el precio y digo que he utilizado un método de aprendizaje automático, tal vez estoy satisfecho de que eso resuelva el problema de endogeneidad que normalmente nos preocupa allí-- tal vez no lo estoy. Pero, de nuevo, es algo en lo que la forma de abordarlo parece relativamente clara. Es encontrar tu objeto de interés y pensar en... - Solo trae la economía. - Exactamente. - Y pensar en la heterogeneidad, pero aprovechar el poder de los métodos de aprendizaje automático para algunos de los componentes. - Precisamente. Exactamente. Así que la cuestión de interés es la misma que siempre ha sido, pero ahora tenemos mejores métodos para estimar algunas piezas de esto. El lugar que parece más difícil de pronosticar es, obviamente, hay una gran cantidad en la literatura de aprendizaje automático y las formas limitadas de enchufar que he referido hasta ahora son una pieza limitada de eso. Así que creo que hay todo tipo de otras preguntas interesantes sobre dónde... dónde va esta interacción? ¿Qué más podemos aprender? Y eso es algo en lo que creo que hay una tonelada en marcha, que parece muy prometedor, y no tengo ni idea de cuál es la respuesta. - No, estoy totalmente de acuerdo con eso, pero eso lo hace muy emocionante. Y creo que solo hay un poco de trabajo por hacer allí. Muy bien. Así que Isaiah está de acuerdo conmigo allí. [risas] - Yo no he dicho que por sí mismo. ♪ [música] ♪ - [Narradora] Si desea ver más de Nobel Conversations, haga clic aquí. O si quieres aprender más sobre econometría, echa un vistazo a la serie Mastering Econometrics de Josh. Si quiere saber más sobre Guido, Josh e Isaiah, consulte los enlaces en la descripción.