♪ (música) ♪

- [Narradora] Bienvenidos
a Nobel Conversations.

En este episodio,
Josh Angrist y Guido Imbens

se reúnen con Isaiah Andrews
para discutir y discrepar

sobre el papel
del aprendizaje automático

en la econometría aplicada.

- [Isaiah] Bien. Por supuesto
que hay muchos temas

en los que ustedes
están muy de acuerdo,

pero me gustaría pasar a uno

sobre el que tal vez
opinen algo distinto.

Me gustaría escuchar
algunas de sus opiniones

sobre el aprendizaje automático

y el papel que desempeña
y desempeñará en la economía.

- [Guido] He consultado
algunos datos,

como los datos privados.

Vemos que no hay
ningún documento publicado allí.

Se hizo un experimento
sobre algún algoritmo de búsqueda

y la cuestión era...

se trataba de clasificar cosas
y cambiar la clasificación.

Y estaba más o menos claro

que iba a haber
mucha heterogeneidad.

Si buscas, digamos,

una foto de Britney Spears,

realmente no importa
dónde la clasifiques

porque vas a encontrar
lo que estás buscando,

ya sea que la clasifiques

en primera, segunda
o tercera posición.

Pero si estás buscando
el mejor libro de econometría,

si pones tu libro en primer lugar
o en el décimo,

eso va a suponer
una gran diferencia

en la frecuencia

con la que la gente
hará clic en él.

Así que ahí--

[Josh] ¿Por qué necesito

el aprendizaje automático
para descubrir eso?

Porque parece que puedo descubrirlo
de forma sencilla.

- [Guido] En general--

- [Josh] Había
un montón de posibles--

- [Guido]...quieres pensar
que los artículos

tienen montón de características,

que quieres entender

lo que impulsa la heterogeneidad
en el efecto de--

- Pero solo estás prediciendo.

En cierto sentido,

estás resolviendo
un problema de marketing.

- No, es un efecto causal,

- Es causal, pero no tiene
contenido científico.

Piensa en--

- No, pero hay cosas similares
en el ámbito médico.

Si haces un experimento,

puedes estar muy interesado
en si el tratamiento funciona

para algunos grupos o no.

Y tienes un montón
de características individuales,

y quieres buscar sistemáticamente--

- Sí. Tengo mis dudas sobre esa...

esa especie de idea de que hay
un efecto causal personal

que me debería importar

y que el aprendizaje automático

puede descubrirlo
de alguna manera que sea útil.

Así que piensa en--

he trabajado mucho en las escuelas,

yendo a, digamos,
una escuela chárter,

una escuela privada
financiada con fondos públicos,

efectivamente,
que es libre de estructurar

su propio plan de estudios
en función del contexto.

Algunos tipos de escuelas chárter

consiguen
un rendimiento espectacular

y en el conjunto de datos
que produce ese resultado,

tengo un montón de covariables.

Tengo
las puntuaciones de referencia

y los antecedentes familiares,

la educación de los padres,
el sexo del niño, la raza del niño.

Y, bueno, en cuanto reúno
media docena de ellas,

tengo un espacio
de muy alta dimensión.

Sin duda, me interesan
las características del curso

de ese efecto del tratamiento,

como por ejemplo, si es mejor
para las personas

que provienen de familias
con menores ingresos.

Me cuesta creer
que haya una aplicación

para la versión
de muy alta dimensión,

en la que descubrí
que para los niños no blancos

que tienen
ingresos familiares altos

pero puntuaciones de referencia
en el tercer cuartil

y que solo fueron
a la escuela pública

en el tercer grado
pero no en el sexto.

Así que eso es lo que produce
ese análisis de alta dimensión.

Es una declaración condicional
muy elaborada.

Hay dos cosas que están mal,
en mi opinión.

En primer lugar, no lo veo como--

no puedo imaginar
por qué es algo procesable.

No sé por qué
querrías actuar sobre ello.

Y también sé que hay
algún modelo alternativo

que encaja casi igual de bien,
que lo invierte todo.

Porque el aprendizaje automático

no me dice que este es realmente
el predictor que importa,

solo me dice
que este es un buen predictor.

Así que creo,
que hay algo diferente

en el contexto
de las ciencias sociales.

- [Guido] Creo que las aplicaciones
de las ciencias sociales

de las que hablas
son aquellas en las que, creo,

no hay una gran cantidad
de heterogeneidad en los efectos.

- [Josh] Bueno, podría haberla
si me permites llenar ese espacio.

- No... ni siquiera entonces.

Creo que para muchas
de esas intervenciones,

se espera que el efecto
sea del mismo signo para todos.

Puede haber pequeñas diferencias
en la magnitud, pero no es...

Porque muchas de estas
diferencias educativas

son buenas para todos.

No es que sean malas
para algunas personas

y buenas para otras

y en algunos pequeños casos
pueden ser malas.

Pero puede haber
algo de variación en la magnitud,

pero se necesitarían

conjuntos de datos
muy muy grandes para encontrarlos.

Estoy de acuerdo en que,
en esos casos,

probablemente no serían
muy procesables de todos modos.

Pero creo que hay
muchos otros escenarios

donde hay mucha más heterogeneidad.

- Bueno, estoy abierto
a esa posibilidad

y creo que el ejemplo que has dado

es esencialmente
un ejemplo de marketing.

- No, esos tienen
implicaciones para ello

y esa es la organización,

si tienes que preocuparte por la--

- Bueno, necesito
ver ese documento.

- Así que, la sensación
que tengo es que...

- Todavía no estamos de acuerdo
en algo.

- Sí.
- No hemos coincidido en todo.

- Tengo esa sensación.
[risas]

- En realidad,
hemos discrepado en esto

porque no estaba para discutir.

[risas]

- ¿Se está poniendo
algo caluroso aquí?

- Caluroso.
Es bueno que esté caluroso.

La sensación que tengo es, Josh,

que no estás diciendo
que estás seguro

de que no hay manera
de que haya una aplicación

en la que estas cosas sean útiles.

Estás diciendo
que no estás convencido

con las aplicaciones existentes
hasta la fecha.

- Me parece bien.
- Estoy muy seguro.

[risas]

- En este caso.

- Creo que Josh tiene razón

en que incluso
en los casos de predicción,

donde muchos de los métodos
de aprendizaje automática

realmente se destacan es donde hay
un montón de heterogeneidad.

- No te importan mucho
los detalles, ¿verdad?

- [Guido] Sí.

- No tiene un ángulo normativo
o algo así.

- El reconocimiento
de dígitos escritos a mano

y demás...

lo hace mucho mejor
que construir un modelo complicado.

Pero muchas
de las ciencias sociales,

muchas
de las aplicaciones económicas,

en realidad sabemos mucho

sobre la relación
entre sus variables.

Muchas de las relaciones
son estrictamente monótonas.

La educación va a aumentar
los ingresos de la gente,

sin importar
las características demográficas,

sin importar
el nivel de educación que se tenga.

- Hasta que lleguen a un doctorado.

- ¿Eso se aplica
a la escuela de posgrado?

[risas]

- En un rango razonable.

No va a bajar mucho.

En muchos de los entornos
en los que se destacan

estos métodos
de aprendizaje automático,

hay mucha falta de monotonicidad,

una especie de multimodalidad
en estas relaciones

y van a ser muy poderosos.

Pero sigo sosteniendo lo mismo.

Estos métodos tienen mucho
para ofrecerles a los economistas

y serán una gran parte del futuro.

APLICACIONES
DEL APRENDIZAJE AUTOMÁTICO

Parece que hay
algo interesante por decir

sobre el aprendizaje automático.

Así que, Guido, me preguntaba

¿podría dar tal vez
algunos de los ejemplos

que está pensando

con las aplicaciones
que salen en el momento?

- Un área
es donde en lugar de buscar

efectos causales promedio

estamos buscando
estimaciones individualizadas,

predicciones de efectos causales,

y allí, los algoritmos
de aprendizaje automático

han sido muy eficaces.

Hasta ahora,
hemos hecho estas cosas

utilizando métodos de kernel,

y teóricamente, funcionan muy bien,

y hay quienes comentan
que, formalmente,

no se puede hacer nada mejor.

Pero en la práctica,
no funcionan muy bien.

Las cosas aleatorias
de tipo bosque causal

en las que Stefan Wager
y Susan Athey

han estado trabajando
se utilizan muy ampliamente.

Han sido muy eficaces
en estos entornos

para obtener efectos causales

que varían según las covariables.

Creo que esto es solo el comienzo
de estos métodos.

Pero en muchos casos,

estos algoritmos son muy eficaces,

como en la búsqueda
en grandes espacios

y encontrar las funciones
que se ajustan muy bien

en formas que realmente
no podíamos hacer antes.

- No conozco ningún ejemplo

en el que el aprendizaje automático
haya generado conocimientos

sobre un efecto causal
que me interese.

Y sí conozco ejemplos

en los que es potencialmente
muy engañoso.

He trabajado con Brigham Frandsen

utilizando, por ejemplo,
bosques aleatorios

para modelar
los efectos de las covariables

en un problema
de variables instrumentales

en el que hay que condicionar
las covariables.

Y no tienes
un sentimiento muy fuerte

sobre la forma funcional para eso,

así que tal vez
se debería curvar...

estar abierto
a un ajuste flexible de la curva.

Y eso te lleva a un camino

donde hay un montón
de no linealidades en el modelo,

y eso es muy peligroso con el IV

porque cualquier tipo
de no linealidad excluida

genera potencialmente
un efecto causal espurio

y Brigham y yo lo mostramos,
creo que muy convincentemente,

en el caso de dos instrumentos

que vienen de un trabajo mío
con Bill Evans,

donde si se reemplaza...

un estimador tradicional
de mínimos cuadrados en dos etapas

con algún tipo de bosque aleatorio,

se obtienen estimaciones
sin sentido muy precisas.

Creo que eso
es una gran advertencia.

A la vista de esos resultados,

en un ejemplo que me interese

en el que los instrumentos
sean muy simples

y crea que son válidos,
sería escéptico al respecto.

La no linealidad y el IV
no se mezclan muy cómodamente.

- No, parece que eso
ya es más complicado...

- Bueno, es IV--
- Sí.

- ...pero luego trabajamos en eso.
[risas]

- Está bien.

OPORTUNIDADES
PARA PUBLICAR EN REVISTAS

- [Guido] Como editor
de Econometrica,

muchos de estos trabajos
llegan a mi escritorio,

pero la motivación no es clara

y, de hecho, realmente no existe.

No son... artículos fundacionales
de tipo semiparamétrico.

Así que, ese es un gran problema.

Un problema relacionado
es que, en econometría,

tenemos la tradición
de estar muy centrados

en estos resultados
asintóticos formales.

Tenemos muchos artículos

en los que la gente
propone un método

y luego establece
las propiedades asintóticas

de una manera muy estandarizada.

- ¿Es eso malo?

- Bueno,
creo que ha cerrado la puerta

a muchos trabajos que no encajan

en la literatura
del aprendizaje automático,

muchas cosas son más algorítmicas.

La gente tenía algoritmos
para hacer predicciones

que resultaron funcionar
mucho mejor que, por ejemplo,

la regresión kernel no paramétrica.

Durante mucho tiempo,

en econometría
hicimos toda la no paramétrica

y usamos la regresión kernel.

Y eso fue genial
para probar teoremas.

Podías obtener
intervalos de confianza,

consistencia,
normalidad asintótica

y todo iba genial,
pero no era muy útil.

Y las cosas que hicieron
en el aprendizaje automático

son mucho, mucho mejores.

Pero no tenían el problema...

- Ese no es mi problema
con el aprendizaje automático,

que la teoría sea débil.
[risas]

- No, pero estoy diciendo
que en cuanto a la predicción,

lo hace mucho mejor.

- Sí, es una mejor herramienta
de ajuste de curvas.

- Pero lo hizo de una manera
que no habría hecho

que esos trabajos fueran
inicialmente fáciles de introducir

en las revistas de econometría,

porque no estaba probando
el tipo de cosas...

Cuando Breiman
hacía sus árboles de regresión...

simplemente no encajaban.

Creo que le habría sido muy difícil
publicar estas cosas

en las revistas de econometría.

Creo que nos hemos limitado
demasiado

y nos hemos cerrado

a muchos de estos métodos
de aprendizaje automático

que son realmente muy útiles.

Es decir, creo, en general,

que la literatura,
los científicos de la computación,

han presentado una gran cantidad
de estos algoritmos

han propuesto
una gran cantidad de algoritmos

que realmente son muy útiles

y que están afectando la forma
en que haremos el trabajo empírico.

Pero no lo hemos interiorizado
del todo

porque todavía
estamos muy centrados

en obtener estimaciones puntuales

y obtener errores estándar
y obtener valores P

de una manera
que necesitamos superar

para aprovechar plenamente
la fuerza, los beneficios

de la literatura
de aprendizaje automático.

- Por un lado, creo que entiendo
tu punto de vista

de que el marco tradicional
de la econometría

de proponer un método,
demostrar un teorema límite

bajo alguna historia asintótica,
y otra, y otra y otra...

...y luego publicar el documento
es restrictivo,

y que, en cierto sentido,

al pensar más ampliamente

sobre cómo podría ser
un documento de métodos,

podemos escribir, en cierto sentido,

desde luego que la literatura
de aprendizaje automático

ha encontrado
un montón de cosas

que parecen funcionar bastante
bien para una serie de problemas

y ahora están influyendo
sustancialmente en la economía.

Supongo que una pregunta
que me interesa

es cómo piensas en el papel de...

¿Crees que no hay valor
en la parte de la teoría?

Porque supongo

que una pregunta
que a menudo me hago

al ver el resultado

de una herramienta
de aprendizaje automático--

y en realidad, varios de los métodos
de los que hablaste

tienen resultados inferenciales
desarrollados para ellos--

algo que siempre me pregunto,

una especie de cuantificación
de la incertidumbre

y simplemente...

Tengo mi...

vengo al mundo con mi punto de vista,

veo el resultado de esta cosa.

¿Cómo debo actualizar
en función de eso?

Y en cierto sentido,
si estoy en un mundo

donde las cosas
se distribuyen normalmente,

sé cómo hacerlo.

Aquí no.

Así que me interesa escuchar
lo que piensas al respecto.