♪ (música) ♪
[Narradora] Bienvenidos
a Conversaciones Nobel.
En este episodio,
Josh Angrist y Guido Imbens
están reunidos con Isaiah Andrews
para debatir y discrepar
sobre el papel
del aprendizaje automático
en la econometría aplicada.
[Isaiah] Bien, por supuesto
que hay muchos temas
en los que ustedes
están muy de acuerdo,
pero me gustaría pasar a uno
sobre el que tal vez
opinen algo distinto.
Me gustaría escuchar
algunas de sus opiniones
sobre el aprendizaje automático
y el papel que desempeña
y desempeñará en la economía.
[Guido] He consultado
algunos datos,
como los datos privados.
Vemos que no hay
ningún documento publicado allí.
Se hizo un experimento
sobre algún algoritmo de búsqueda
y la cuestión era...
se trataba de clasificar cosas
y cambiar la clasificación.
Y estaba más o menos claro
que iba a haber
mucha heterogeneidad.
Si buscas, digamos,
una foto de Britney Spears,
realmente no importa
dónde la clasifiques
porque vas a encontrar
lo que estás buscando,
ya sea que la clasifiques
en primera, segunda
o tercera posición.
Pero si estás buscando
el mejor libro de econometría,
ya sea que pongas tu libro
en el primer lugar o en el décimo,
eso va a suponer
una gran diferencia
en la frecuencia
con la que la gente
hará clic en él.
Así que ahí...
[Josh] ¿Por qué necesito
el aprendizaje automático
para descubrir eso?
Porque parece que puedo descubrirlo
de forma sencilla.
[Guido] En general...
[Josh] Había
un montón de posibles...
[Guido]...quieres pensar
que los artículos
tienen un montón
de características,
que quieres entender
lo que impulsa la heterogeneidad
en el efecto de...
[Josh] Pero solo estás prediciendo.
En cierto sentido,
estás resolviendo
un problema de marketing.
[Guido] No, es un efecto causal,
[Josh] Es causal, pero no tiene
contenido científico.
Piensa en...
[Guido] No,
pero hay cosas similares
en el ámbito médico.
Si haces un experimento,
puedes estar muy interesado
en si el tratamiento funciona
para algunos grupos o no.
Y tienes un montón
de características individuales,
y quieres buscar sistemáticamente...
[Josh] Sí.
Tengo mis dudas sobre esa...
esa especie de idea de que hay
un efecto causal personal
que me debería importar
y que el aprendizaje automático
puede descubrirlo
de alguna manera que sea útil.
Así que piensa en...
He trabajado mucho en las escuelas,
yendo a, digamos,
una escuela chárter,
una escuela privada
financiada con fondos públicos,
efectivamente,
que es libre de estructurar
su propio plan de estudios
en función del contexto.
Algunos tipos de escuelas chárter
consiguen
un rendimiento espectacular
y en el conjunto de datos
que produce ese resultado,
tengo un montón de covariables.
Tengo
las puntuaciones de referencia
y los antecedentes familiares,
la educación de los padres,
el sexo del niño, la raza del niño.
Y, bueno, en cuanto reúno
media docena de ellas,
tengo un espacio
de muy alta dimensión.
Sin duda, me interesan
las características del curso
de ese efecto del tratamiento
como; por ejemplo, si es mejor
para las personas
que provienen de familias
con menores ingresos.
Me cuesta creer
que haya una aplicación
para la versión
de muy alta dimensión,
en la que descubrí
que para los niños no blancos
que tienen
ingresos familiares altos
pero puntuaciones de referencia
en el tercer cuartil
y que solo fueron
a la escuela pública
en el tercer grado
pero no en el sexto.
Así que eso es lo que produce
ese análisis de alta dimensión.
Es una declaración condicional
muy elaborada.
Hay dos cosas que están mal,
en mi opinión.
En primer lugar, no lo veo como...
No puedo imaginar
por qué es algo procesable.
No sé por qué
querrías actuar sobre ello.
Y también sé que hay
algún modelo alternativo
que encaja casi igual de bien,
que lo invierte todo.
Porque el aprendizaje automático
no me dice que este es realmente
el predictor que importa,
solo me dice que este es
un buen predictor.
Así que creo,
que hay algo diferente
en el contexto
de las ciencias sociales.
[Guido] Creo que las aplicaciones
de las ciencias sociales
de las que hablas
son aquellas en las que, creo,
no hay una gran cantidad
de heterogeneidad en los efectos.
[Josh] Bueno, podría haberla
si me permites llenar ese espacio.
[Guido] No... ni siquiera entonces.
Creo que para muchas
de esas intervenciones,
se espera que el efecto
sea del mismo signo para todos.
Puede haber pequeñas diferencias
en la magnitud, pero no es...
Porque muchas de estas
diferencias educativas
son buenas para todos.
No es que sean malas
para algunas personas
y buenas para otras
y luego hay unos pocos casos
en los que son malas.
Pero puede haber algo
de variación en la magnitud,
pero se necesitarían
conjuntos de datos
muy muy grandes para encontrarlos.
Estoy de acuerdo en que,
en esos casos,
probablemente no serían
muy procesables de todos modos.
Pero creo que hay
muchos otros escenarios
donde hay mucha más heterogeneidad.
[Josh] Bueno, estoy abierto
a esa posibilidad
y creo que el ejemplo que has dado
es esencialmente
un ejemplo de marketing.
[Guido] No, esos tienen
implicaciones respecto a ello
y esa es la organización,
si tienes que preocuparte por la...
[Josh] Bueno, necesito
ver ese documento.
[Isaiah] Así que, la sensación
que tengo es que...
[Josh] Todavía estamos
en desacuerdo en algo.
- [Isaiah] Sí.
- [Josh] No coincidimos en todo.
[Isaiah] Tengo esa sensación.
[risas]
[Josh] En realidad,
hemos discrepado en esto
porque no estaba para discutir.
[risas]
[Guido] ¿Se está poniendo
algo caluroso aquí?
[Isaiah] Caluroso.
Es bueno que esté caluroso.
La sensación que tengo es, Josh,
que no estás diciendo
que estás seguro
de que no hay manera
de que haya una aplicación
en la que estas cosas sean útiles.
Estás diciendo
que no estás convencido
con las aplicaciones existentes
hasta la fecha.
- Me parece bien.
- [Guido] Estoy muy seguro.
[risas]
[Josh] En este caso.
[Guido] Creo que Josh tiene razón
en que incluso
en los casos de predicción,
donde muchos de los métodos
de aprendizaje automático
realmente se destacan es donde hay
un montón de heterogeneidad.
[Josh] No te importan mucho
los detalles, ¿verdad?
[Guido] Sí.
[Josh] No tiene
un ángulo normativo o algo así.
[Guido] El reconocimiento
de dígitos escritos a mano
y demás...
lo hace mucho mejor
que construir un modelo complicado.
Pero muchas
de las ciencias sociales,
muchas
de las aplicaciones económicas,
en realidad, sabemos mucho
sobre la relación
entre sus variables.
Muchas de las relaciones
son estrictamente monótonas.
La educación va a aumentar
los ingresos de la gente,
sin importar
las características demográficas,
sin importar el nivel
de educación que se tenga.
[Isaiah] Hasta que lleguen
a un doctorado.
[Josh] ¿Eso se aplica
a la escuela de posgrado?
[risas]
[Guido] En un rango razonable.
No va a bajar mucho.
En muchos de los entornos
en los que se destacan
estos métodos
de aprendizaje automático,
hay mucha falta de monotonicidad,
una especie de multimodalidad
en estas relaciones
y van a ser muy poderosos.
Pero sigo sosteniendo lo mismo.
Estos métodos tienen mucho
para ofrecerles a los economistas
y serán una gran parte del futuro.
APLICACIONES
DEL APRENDIZAJE AUTOMÁTICO
[Isaiah] Parece que hay
algo interesante por decir
sobre el aprendizaje automático.
Así que, Guido, me preguntaba
¿podrías dar tal vez
algunos de los ejemplos
que estás pensando
con las aplicaciones
que salen en el momento?
[Guido] Un área
es donde en lugar de buscar
efectos causales promedio
estamos buscando
estimaciones individualizadas,
predicciones de efectos causales,
y allí, los algoritmos
de aprendizaje automático
han sido muy eficaces.
Hasta ahora,
hemos hecho estas cosas
utilizando los métodos de Kernel,
y teóricamente, funcionan muy bien,
y hay quienes comentan
que, formalmente,
no se puede hacer nada mejor.
Pero en la práctica,
no funcionan muy bien.
Las cosas aleatorias
de tipo bosque causal
en las que Stefan Wager
y Susan Athey
han estado trabajando
se utilizan muy ampliamente.
Han sido muy eficaces
en estos entornos
para obtener efectos causales
que varían según las covariables.
Creo que esto es solo el comienzo
de estos métodos.
Pero en muchos casos,
estos algoritmos son muy eficaces,
como en la búsqueda
en grandes espacios
y encontrar las funciones
que se ajustan muy bien
en formas que realmente
no podíamos hacer antes.
[Josh] No conozco ningún ejemplo
en el que el aprendizaje automático
haya generado conocimientos
sobre un efecto causal
que me interese.
Y sí conozco ejemplos
en los que es potencialmente
muy engañoso.
He trabajado con Brigham Frandsen
utilizando, por ejemplo,
bosques aleatorios
para modelar los efectos
de las covariables
en un problema
de variables instrumentales
en el que hay que condicionar
las covariables.
Y no tienes
un sentimiento muy fuerte
sobre la forma funcional para eso,
así que tal vez
se debería curvar...
estar abierto
a un ajuste flexible de la curva.
Y eso te lleva a un camino
donde hay un montón
de no linealidades en el modelo,
y eso es muy peligroso con el VI
porque cualquier tipo
de no linealidad excluida
genera potencialmente
un efecto causal espurio
y Brigham y yo lo mostramos,
creo que muy convincentemente,
en el caso de dos instrumentos
que vienen de un trabajo mío
con Bill Evans,
donde, si se reemplaza...
un estimador tradicional
de mínimos cuadrados en dos etapas
con algún tipo de bosque aleatorio,
se obtienen estimaciones
sin sentido muy precisas.
Creo que eso
es una gran advertencia.
A la vista de esos resultados,
en un ejemplo que me interese
en el que los instrumentos
sean muy simples
y crea que son válidos,
sería escéptico al respecto.
La no linealidad y el VI
no se mezclan muy cómodamente.
[Guido] No, parece que eso
ya es más complicado...
- [Josh] Bueno, es VI...
- [Guido] Sí.
[Josh] pero luego
trabajamos en eso.
[risas]
[Guido] Está bien.
OPORTUNIDADES
PARA PUBLICAR EN REVISTAS
[Guido] Como editor
de Econometrica,
muchos de estos trabajos
llegan a mi escritorio,
pero la motivación no es clara
y, de hecho, realmente no existe.
No son... artículos fundacionales
de tipo semiparamétrico.
Así que, ese es un gran problema.
Un problema relacionado
es que, en econometría,
tenemos la tradición
de estar muy centrados
en estos resultados
asintóticos formales.
Tenemos muchos artículos
en los que la gente
propone un método
y luego establece
las propiedades asintóticas
de una manera muy estandarizada.
[Josh] ¿Es eso malo?
[Guido] Bueno, creo
que les ha cerrado la puerta
a muchos trabajos que no encajan
en la literatura
del aprendizaje automático,
donde muchas cosas
son más algorítmicas.
La gente tenía algoritmos
para hacer predicciones
que resultaron funcionar
mucho mejor que, por ejemplo,
la regresión Kernel no paramétrica.
Durante mucho tiempo,
en econometría
hicimos toda la no paramétrica
y usamos la regresión Kernel.
Y eso fue genial
para probar teoremas.
Podías obtener
intervalos de confianza,
consistencia, normalidad asintótica
y todo iba genial,
pero no era muy útil.
Y las cosas que hicieron
en el aprendizaje automático
son mucho, mucho mejores.
Pero no tenían el problema...
[Josh] Ese no es mi problema
con el aprendizaje automático,
que la teoría sea débil.
[risas]
[Guido] No, pero estoy diciendo
que, en cuanto a la predicción,
lo hace mucho mejor.
[Josh] Sí, es una mejor herramienta
de ajuste de curvas.
[Guido] Pero lo hizo de una manera
que no habría hecho
que esos trabajos fueran
inicialmente fáciles de incorporar
en las revistas de econometría,
porque no estaba probando
el tipo de cosas...
Cuando Breiman hacía
sus árboles de regresión...
simplemente no encajaban.
Creo que le habría sido muy difícil
publicar estas cosas
en las revistas de econometría.
Creo que nos hemos limitado
demasiado
y nos hemos cerrado
a muchos de estos métodos
de aprendizaje automático
que son realmente muy útiles.
Es decir, creo, en general,
que la literatura,
los ingenieros de sistemas
han presentado una gran cantidad
de estos algoritmos,
han propuesto
una gran cantidad de algoritmos
que realmente son muy útiles
y que están afectando la forma
en que haremos el trabajo empírico.
Pero no lo hemos interiorizado
del todo
porque todavía
estamos muy centrados
en obtener estimaciones puntuales
y obtener errores estándar
y obtener valores P
de una manera
que necesitamos superar
para aprovechar plenamente
la fuerza, los beneficios
de la literatura
de aprendizaje automático.
[Isaiah] Por un lado, creo
que entiendo tu punto de vista
de que el marco tradicional
de la econometría
de proponer un método,
demostrar un teorema límite
bajo alguna historia asintótica,
y otra, y otra y otra...
...y luego publicar
el documento, es restrictivo,
y que, en cierto sentido,
al pensar más ampliamente
sobre cómo podría ser
un documento de métodos,
podemos escribir, en cierto sentido,
desde luego que la literatura
de aprendizaje automático
ha encontrado un montón de cosas
que parecen funcionar bastante
bien para una serie de problemas
y ahora están influyendo
sustancialmente en la economía.
Supongo que una pregunta
que me interesa
es cómo piensas en el papel de...
¿Crees que no hay valor
en la parte de la teoría?
Porque supongo
que una pregunta
que a menudo me hago
al ver el resultado
de una herramienta
de aprendizaje automático...
y, en realidad, varios
de los métodos de los que hablaste
tienen resultados inferenciales
desarrollados para ellos,
algo que siempre me pregunto,
una especie de cuantificación
de la incertidumbre
y simplemente...
Tengo mi...
vengo al mundo
con mi punto de vista,
veo el resultado de esta cosa.
¿Cómo debo actualizarlo
en función de eso?
Y en cierto sentido,
si estoy en un mundo
donde las cosas
se distribuyen normalmente,
sé cómo hacerlo.
Aquí no lo sé.
Así que, me interesa escuchar
lo que piensas al respecto.
[Guido] No veo esto
como si fuera a decir
que estos resultados
no son interesantes,
pero habrá un montón de casos
en los que va a ser
increíblemente difícil
obtener esos resultados
y puede que no seamos capaces
de llegar allí
y puede que tengamos
que hacerlo en etapas,
donde primero alguien dice:
"Oye, tengo
este algoritmo interesante
para hacer algo",
y funciona bien
según cierto criterio
en este conjunto de datos
en particular,
y debemos ponerlo en conocimiento.
Y tal vez alguien
descubra una forma
en la que más tarde
se pueda seguir haciendo inferencia
bajo algunas condiciones,
y tal vez no sean condiciones
particularmente realistas.
Entonces, podemos ir más allá.
Pero creo que hemos estado
restringiendo demasiado las cosas
donde dijimos:
"Este es el tipo de cosas
que tenemos que hacer".
Y en cierto sentido, eso se remonta
a la forma en que Josh
y yo pensamos
respecto del efecto
del tratamiento local promedio.
Esa no era la forma
en que la gente pensaba
en estos problemas anteriormente.
Había una sensación
de que algunas personas
decían que la forma
de hacer estas cosas;
es decir, primero,
lo que te interesa estimar
y luego hacer lo mejor
que puedas en la estimación.
Y lo que ustedes hacen
es hacerlo al revés.
Ustedes dicen:
"Aquí tengo un estimador
y ahora voy a averiguar
qué está estimando".
Y supongo que vas a decir
por qué crees que es interesante
o tal vez por qué no es interesante
y eso no está bien.
No está permitido
hacerlo de esa manera.
Y creo que deberíamos ser
un poco más flexibles
a la hora de pensar
en cómo ver los problemas
porque creo que nos hemos perdido
algunas cosas por no hacer eso.
¡ISAIAH ANDREWS ARBITRA!
[Josh] Así que, has escuchado
nuestros puntos de vista, Isaiah,
y has visto que no estamos
de acuerdo en algunos puntos.
¿Por qué no nos arbitras
esta disputa? [risas]
[Isaiah] Oh, qué amable eres
al hacerme una pequeña pregunta.
[risas]
Así que supongo que, por un lado,
estoy muy de acuerdo con algo
que Guido dijo antes de... [risas]
Así que, un aspecto
en el que el asunto
del aprendizaje automático
parece relativamente claro
es en los entornos
donde nos interesa
alguna versión de un problema
de predicción no paramétrica.
Así que estoy interesado
en la estimación
de una expectativa condicional
o probabilidad condicional,
y en el pasado, tal vez
habría utilizado un Kernel...
Habría utilizado
una regresión Kernel
o habría utilizado una regresión
en serie, o algo por el estilo.
Parece que, en este momento,
tenemos una idea bastante clara
de que,
en una amplia gama de aplicaciones,
los métodos
de aprendizaje automático
parecen funcionar mejor
para estimar las funciones
de media condicional,
o las probabilidades condicionales,
o varios otros objetos
no paramétricos
que los métodos no paramétricos
más tradicionales
que se estudiaron
en econometría y estadística,
especialmente en entornos
de alta dimensión.
[Josh] ¿Así que, estás pensando
en la puntuación de propensión
o algo así?
- [Isaiah] Sí, exactamente.
- [Guido] Funciones de molestia.
[Isaiah] Sí, cosas como
las puntuaciones de propensión.
Incluso objetos
de interés más directo,
como los efectos del tratamiento
promedio condicional,
que son la diferencia
de dos funciones
de expectativa condicional,
potencialmente cosas así.
Por supuesto,
incluso allí la teoría...
La inferencia de la teoría
de cómo interpretar,
cómo hacer declaraciones
de muestras grandes
sobre algunas de estas cosas
están menos desarrolladas
dependiendo del estimador
de aprendizaje automático
que se utilice.
Y así, creo que algo
que es complicado
es que podemos tener estos métodos,
que funcionan mucho...
que parecen funcionar mucho mejor
para algunos fines,
pero que tenemos que ser
un poco cuidadosos
en cómo los incorporamos
o cómo interpretamos
las declaraciones resultantes.
Pero, por supuesto,
esa es un área muy, muy activa
ahora mismo en la que la gente
está haciendo un gran trabajo.
Así que, espero ver
mucho más en el futuro.
Un problema
con el aprendizaje automático
que siempre parece un peligro es...
o que a veces es un peligro
y que a veces ha llevado
a aplicaciones
que han tenido menos sentido
es cuando la gente empieza
con un método
que les entusiasma mucho
en lugar de una pregunta.
Así que empezar con una pregunta
donde aquí está el objeto
que me interesa,
aquí está el parámetro de interés,
déjame pensar
en cómo identificaría esa cosa,
cómo recuperaría esa cosa
si tuviera una tonelada de datos.
Vaya, aquí hay una función
de expectativa condicional,
permítanme incorporar un estimador
de aprendizaje automático para eso,
eso parece muy muy sensato.
Mientras que, ya sabes,
si hago una regresión
de la cantidad sobre el precio
y digo que he utilizado
un método
de aprendizaje automático,
tal vez estoy satisfecho
de que eso resuelva
el problema de endogeneidad
que normalmente nos preocupa allí;
tal vez no lo estoy.
Pero, de nuevo, allí
la forma de abordarlo
parece relativamente clara.
Es encontrar tu objeto de interés
y pensar en...
[Guido] Es simplemente incorporar
la economía.
[Isaiah] Exactamente.
[Guido] Y pensar
en la heterogeneidad,
pero aprovechar
el poder de los métodos
de aprendizaje automático
para algunos de los componentes.
[Isaiah] Precisamente.
Exactamente.
Así que la cuestión de interés
es la misma de siempre,
pero ahora tenemos mejores métodos
para estimar
algunas partes de esto.
Lo que parece
más difícil de pronosticar
es que, obviamente,
ocurren muchas cosas
dentro de la literatura
de aprendizaje automático
y las formas limitadas
de incorporarlo
a las que he hecho referencia
hasta ahora
son una parte limitada de eso.
Así que, creo que hay
muchas otras preguntas interesantes
sobre dónde...
¿a dónde va esta interacción?
¿Qué más podemos aprender?
Y eso es algo en lo que creo
que hay mucho trabajo en curso,
lo que parece muy prometedor,
y no tengo ni idea
de cuál es la respuesta.
[Guido] No, estoy totalmente
de acuerdo con eso,
pero eso lo hace muy emocionante.
Y creo que hay un montón
de trabajo por hacer allí.
Muy bien.
Entonces, Isaiah
está de acuerdo conmigo en eso.
[risas]
[Isaiah] Yo no he dicho eso en sí.
[risas]
♪ (música) ♪
[Narradora] Si desea ver más
de Conversaciones Nobel,
haga clic aquí.
O si quiere aprender más
sobre econometría,
eche un vistazo a la serie
Mastering Econometrics de Josh.
Si quiere saber más
sobre Guido, Josh e Isaiah,
consulte los enlaces
en la descripción.
♪ (música) ♪