-
♪ (música) ♪
-
- [Narradora] Bienvenidos
a Nobel Conversations.
-
En este episodio,
Josh Angrist y Guido Imbens
-
se reúnen con Isaiah Andrews
para discutir y discrepar
-
sobre el papel
del aprendizaje automático
-
en la econometría aplicada.
-
- [Isaiah] Bien. Por supuesto
que hay muchos temas
-
en los que ustedes
están muy de acuerdo,
-
pero me gustaría pasar a uno
-
sobre el que tal vez
opinen algo distinto.
-
Me gustaría escuchar
algunas de sus opiniones
-
sobre el aprendizaje automático
-
y el papel que desempeña
y desempeñará en la economía.
-
- [Guido] He consultado
algunos datos,
-
como los datos privados.
-
Vemos que no hay
ningún documento publicado allí.
-
Se hizo un experimento
sobre algún algoritmo de búsqueda
-
y la cuestión era...
-
se trataba de clasificar cosas
y cambiar la clasificación.
-
Y estaba más o menos claro
-
que iba a haber
mucha heterogeneidad.
-
Si buscas, digamos,
-
una foto de Britney Spears,
-
realmente no importa
dónde la clasifiques
-
porque vas a encontrar
lo que estás buscando,
-
ya sea que la clasifiques
-
en primera, segunda
o tercera posición.
-
Pero si estás buscando
el mejor libro de econometría,
-
si pones tu libro en primer lugar
o en el décimo,
-
eso va a suponer
una gran diferencia
-
en la frecuencia
-
con la que la gente
hará clic en él.
-
Así que ahí--
-
[Josh] ¿Por qué necesito
-
el aprendizaje automático
para descubrir eso?
-
Porque parece que puedo descubrirlo
de forma sencilla.
-
- [Guido] En general--
-
- [Josh] Había
un montón de posibles--
-
- [Guido]...quieres pensar
que los artículos
-
tienen montón de características,
-
que quieres entender
-
lo que impulsa la heterogeneidad
en el efecto de--
-
- Pero solo estás prediciendo.
-
En cierto sentido,
-
estás resolviendo
un problema de marketing.
-
- No, es un efecto causal,
-
- Es causal, pero no tiene
contenido científico.
-
Piensa en--
-
- No, pero hay cosas similares
en el ámbito médico.
-
Si haces un experimento,
-
puedes estar muy interesado
en si el tratamiento funciona
-
para algunos grupos o no.
-
Y tienes un montón
de características individuales,
-
y quieres buscar sistemáticamente--
-
- Sí. Tengo mis dudas sobre esa...
-
esa especie de idea de que hay
un efecto causal personal
-
que me debería importar
-
y que el aprendizaje automático
-
puede descubrirlo
de alguna manera que sea útil.
-
Así que piensa en--
-
he trabajado mucho en las escuelas,
-
yendo a, digamos,
una escuela chárter,
-
una escuela privada
financiada con fondos públicos,
-
efectivamente,
que es libre de estructurar
-
su propio plan de estudios
en función del contexto.
-
Algunos tipos de escuelas chárter
-
consiguen
un rendimiento espectacular
-
y en el conjunto de datos
que produce ese resultado,
-
tengo un montón de covariables.
-
Tengo
las puntuaciones de referencia
-
y los antecedentes familiares,
-
la educación de los padres,
el sexo del niño, la raza del niño.
-
Y, bueno, en cuanto reúno
media docena de ellas,
-
tengo un espacio
de muy alta dimensión.
-
Sin duda, me interesan
las características del curso
-
de ese efecto del tratamiento,
-
como por ejemplo, si es mejor
para las personas
-
que provienen de familias
con menores ingresos.
-
Me cuesta creer
que haya una aplicación
-
para la versión
de muy alta dimensión,
-
en la que descubrí
que para los niños no blancos
-
que tienen
ingresos familiares altos
-
pero puntuaciones de referencia
en el tercer cuartil
-
y que solo fueron
a la escuela pública
-
en el tercer grado
pero no en el sexto.
-
Así que eso es lo que produce
ese análisis de alta dimensión.
-
Es una declaración condicional
muy elaborada.
-
Hay dos cosas que están mal,
en mi opinión.
-
En primer lugar, no lo veo como--
-
no puedo imaginar
por qué es algo procesable.
-
No sé por qué
querrías actuar sobre ello.
-
Y también sé que hay
algún modelo alternativo
-
que encaja casi igual de bien,
que lo invierte todo.
-
Porque el aprendizaje automático
-
no me dice que este es realmente
el predictor que importa,
-
solo me dice
que este es un buen predictor.
-
Así que creo,
que hay algo diferente
-
en el contexto
de las ciencias sociales.
-
- [Guido] Creo que las aplicaciones
de las ciencias sociales
-
de las que hablas
son aquellas en las que, creo,
-
no hay una gran cantidad
de heterogeneidad en los efectos.
-
- [Josh] Bueno, podría haberla
si me permites llenar ese espacio.
-
- No... ni siquiera entonces.
-
Creo que para muchas
de esas intervenciones,
-
se espera que el efecto
sea del mismo signo para todos.
-
Puede haber pequeñas diferencias
en la magnitud, pero no es...
-
Porque muchas de estas
diferencias educativas
-
son buenas para todos.
-
No es que sean malas
para algunas personas
-
y buenas para otras
-
y en algunos pequeños casos
pueden ser malas.
-
Pero puede haber
algo de variación en la magnitud,
-
pero se necesitarían
-
conjuntos de datos
muy muy grandes para encontrarlos.
-
Estoy de acuerdo en que,
en esos casos,
-
probablemente no serían
muy procesables de todos modos.
-
Pero creo que hay
muchos otros escenarios
-
donde hay mucha más heterogeneidad.
-
- Bueno, estoy abierto
a esa posibilidad
-
y creo que el ejemplo que has dado
-
es esencialmente
un ejemplo de marketing.
-
- No, esos tienen
implicaciones para ello
-
y esa es la organización,
-
si tienes que preocuparte por la--
-
- Bueno, necesito
ver ese documento.
-
- Así que, la sensación
que tengo es que...
-
- Todavía no estamos de acuerdo
en algo.
-
- Sí.
- No hemos coincidido en todo.
-
- Tengo esa sensación.
[risas]
-
- En realidad,
hemos discrepado en esto
-
porque no estaba para discutir.
-
[risas]
-
- ¿Se está poniendo
algo caluroso aquí?
-
- Caluroso.
Es bueno que esté caluroso.
-
La sensación que tengo es, Josh,
-
que no estás diciendo
que estás seguro
-
de que no hay manera
de que haya una aplicación
-
en la que estas cosas sean útiles.
-
Estás diciendo
que no estás convencido
-
con las aplicaciones existentes
hasta la fecha.
-
- Me parece bien.
- Estoy muy seguro.
-
[risas]
-
- En este caso.
-
- Creo que Josh tiene razón
-
en que incluso
en los casos de predicción,
-
donde muchos de los métodos
de aprendizaje automática
-
realmente se destacan es donde hay
un montón de heterogeneidad.
-
- No te importan mucho
los detalles, ¿verdad?
-
- [Guido] Sí.
-
- No tiene un ángulo normativo
o algo así.
-
- El reconocimiento
de dígitos escritos a mano
-
y demás...
-
lo hace mucho mejor
que construir un modelo complicado.
-
Pero muchas
de las ciencias sociales,
-
muchas
de las aplicaciones económicas,
-
en realidad sabemos mucho
-
sobre la relación
entre sus variables.
-
Muchas de las relaciones
son estrictamente monótonas.
-
La educación va a aumentar
los ingresos de la gente,
-
sin importar
las características demográficas,
-
sin importar
el nivel de educación que se tenga.
-
- Hasta que lleguen a un doctorado.
-
- ¿Eso se aplica
a la escuela de posgrado?
-
[risas]
-
- En un rango razonable.
-
No va a bajar mucho.
-
En muchos de los entornos
en los que se destacan
-
estos métodos
de aprendizaje automático,
-
hay mucha falta de monotonicidad,
-
una especie de multimodalidad
en estas relaciones
-
y van a ser muy poderosos.
-
Pero sigo sosteniendo lo mismo.
-
Estos métodos tienen mucho
para ofrecerles a los economistas
-
y serán una gran parte del futuro.
-
APLICACIONES
DEL APRENDIZAJE AUTOMÁTICO
-
Parece que hay
algo interesante por decir
-
sobre el aprendizaje automático.
-
Así que, Guido, me preguntaba
-
¿podría dar tal vez
algunos de los ejemplos
-
que está pensando
-
con las aplicaciones
que salen en el momento?
-
- Un área
es donde en lugar de buscar
-
efectos causales promedio
-
estamos buscando
estimaciones individualizadas,
-
predicciones de efectos causales,
-
y allí, los algoritmos
de aprendizaje automático
-
han sido muy eficaces.
-
Hasta ahora,
hemos hecho estas cosas
-
utilizando métodos de kernel,
-
y teóricamente, funcionan muy bien,
-
y hay quienes comentan
que, formalmente,
-
no se puede hacer nada mejor.
-
Pero en la práctica,
no funcionan muy bien.
-
Las cosas aleatorias
de tipo bosque causal
-
en las que Stefan Wager
y Susan Athey
-
han estado trabajando
se utilizan muy ampliamente.
-
Han sido muy eficaces
en estos entornos
-
para obtener efectos causales
-
que varían según las covariables.
-
Creo que esto es solo el comienzo
de estos métodos.
-
Pero en muchos casos,
-
estos algoritmos son muy eficaces,
-
como en la búsqueda
en grandes espacios
-
y encontrar las funciones
que se ajustan muy bien
-
en formas que realmente
no podíamos hacer antes.
-
- No conozco ningún ejemplo
-
en el que el aprendizaje automático
haya generado conocimientos
-
sobre un efecto causal
que me interese.
-
Y sí conozco ejemplos
-
en los que es potencialmente
muy engañoso.
-
He trabajado con Brigham Frandsen
-
utilizando, por ejemplo,
bosques aleatorios
-
para modelar
los efectos de las covariables
-
en un problema
de variables instrumentales
-
en el que hay que condicionar
las covariables.
-
Y no tienes
un sentimiento muy fuerte
-
sobre la forma funcional para eso,
-
así que tal vez
se debería curvar...
-
estar abierto
a un ajuste flexible de la curva.
-
Y eso te lleva a un camino
-
donde hay un montón
de no linealidades en el modelo,
-
y eso es muy peligroso con el IV
-
porque cualquier tipo
de no linealidad excluida
-
genera potencialmente
un efecto causal espurio
-
y Brigham y yo lo mostramos,
creo que muy convincentemente,
-
en el caso de dos instrumentos
-
que vienen de un trabajo mío
con Bill Evans,
-
donde si se reemplaza...
-
un estimador tradicional
de mínimos cuadrados en dos etapas
-
con algún tipo de bosque aleatorio,
-
se obtienen estimaciones
sin sentido muy precisas.
-
Creo que eso
es una gran advertencia.
-
A la vista de esos resultados,
-
en un ejemplo que me interese
-
en el que los instrumentos
sean muy simples
-
y crea que son válidos,
sería escéptico al respecto.
-
La no linealidad y el IV
no se mezclan muy cómodamente.
-
- No, parece que eso
ya es más complicado...
-
- Bueno, es IV--
- Sí.
-
- ...pero luego trabajamos en eso.
[risas]
-
- Está bien.
-
OPORTUNIDADES
PARA PUBLICAR EN REVISTAS
-
- [Guido] Como editor
de Econometrica,
-
muchos de estos trabajos
llegan a mi escritorio,
-
pero la motivación no es clara
-
y, de hecho, realmente no existe.
-
No son... artículos fundacionales
de tipo semiparamétrico.
-
Así que, ese es un gran problema.
-
Un problema relacionado
es que, en econometría,
-
tenemos la tradición
de estar muy centrados
-
en estos resultados
asintóticos formales.
-
Tenemos muchos artículos
-
en los que la gente
propone un método
-
y luego establece
las propiedades asintóticas
-
de una manera muy estandarizada.
-
- ¿Es eso malo?
-
- Bueno,
creo que ha cerrado la puerta
-
a muchos trabajos que no encajan
-
en la literatura
del aprendizaje automático,
-
muchas cosas son más algorítmicas.
-
La gente tenía algoritmos
para hacer predicciones
-
que resultaron funcionar
mucho mejor que, por ejemplo,
-
la regresión kernel no paramétrica.
-
Durante mucho tiempo,
-
en econometría
hicimos toda la no paramétrica
-
y usamos la regresión kernel.
-
Y eso fue genial
para probar teoremas.
-
Podías obtener
intervalos de confianza,
-
consistencia,
normalidad asintótica
-
y todo iba genial,
pero no era muy útil.
-
Y las cosas que hicieron
en el aprendizaje automático
-
son mucho, mucho mejores.
-
Pero no tenían el problema...
-
- Ese no es mi problema
con el aprendizaje automático,
-
que la teoría sea débil.
[risas]
-
- No, pero estoy diciendo
que en cuanto a la predicción,
-
lo hace mucho mejor.
-
- Sí, es una mejor herramienta
de ajuste de curvas.
-
- Pero lo hizo de una manera
que no habría hecho
-
que esos trabajos fueran
inicialmente fáciles de introducir
-
en las revistas de econometría,
-
porque no estaba probando
el tipo de cosas...
-
Cuando Breiman
hacía sus árboles de regresión...
-
simplemente no encajaban.
-
Creo que le habría sido muy difícil
publicar estas cosas
-
en las revistas de econometría.
-
Creo que nos hemos limitado
demasiado
-
y nos hemos cerrado
-
a muchos de estos métodos
de aprendizaje automático
-
que son realmente muy útiles.
-
Es decir, creo, en general,
-
que la literatura,
los científicos de la computación,
-
han presentado una gran cantidad
de estos algoritmos
-
han propuesto
una gran cantidad de algoritmos
-
que realmente son muy útiles
-
y que están afectando la forma
en que haremos el trabajo empírico.
-
Pero no lo hemos interiorizado
del todo
-
porque todavía
estamos muy centrados
-
en obtener estimaciones puntuales
-
y obtener errores estándar
y obtener valores P
-
de una manera
que necesitamos superar
-
para aprovechar plenamente
la fuerza, los beneficios
-
de la literatura
de aprendizaje automático.
-
- Por un lado, creo que entiendo
tu punto de vista
-
de que el marco tradicional
de la econometría
-
de proponer un método,
demostrar un teorema límite
-
bajo alguna historia asintótica,
y otra, y otra y otra...
-
...y luego publicar el documento
es restrictivo,
-
y que, en cierto sentido,
-
al pensar más ampliamente
-
sobre cómo podría ser
un documento de métodos,
-
podemos escribir, en cierto sentido,
-
desde luego que la literatura
de aprendizaje automático
-
ha encontrado
un montón de cosas
-
que parecen funcionar bastante
bien para una serie de problemas
-
y ahora están influyendo
sustancialmente en la economía.
-
Supongo que una pregunta
que me interesa
-
es cómo piensas en el papel de...
-
¿Crees que no hay valor
en la parte de la teoría?
-
Porque supongo
-
que una pregunta
que a menudo me hago
-
al ver el resultado
-
de una herramienta
de aprendizaje automático--
-
y en realidad, varios de los métodos
de los que hablaste
-
tienen resultados inferenciales
desarrollados para ellos--
-
algo que siempre me pregunto,
-
una especie de cuantificación
de la incertidumbre
-
y simplemente...
-
Tengo mi...
-
vengo al mundo
con mi punto de vista,
-
veo el resultado de esta cosa.
-
¿Cómo debo actualizar
en función de eso?
-
Y en cierto sentido,
si estoy en un mundo
-
donde las cosas
se distribuyen normalmente,
-
sé cómo hacerlo.
-
Aquí no.
-
Así que me interesa escuchar
lo que piensas al respecto.
-
Not Synced
- No veo esto como si fuera decir
-
Not Synced
que estos resultados
no son interesantes,
-
Not Synced
pero habrá un montón de casos
-
Not Synced
en los que va a ser
increíblemente difícil
-
Not Synced
obtener esos resultados
-
Not Synced
y puede que no seamos capaces
de llegar allí
-
Not Synced
y puede que tengamos que hacerlo
en etapas donde primero alguien dice
-
Not Synced
"Oye, tengo este algoritmo interesante
para hacer algo",
-
Not Synced
y funciona bien por algún criterio
en este conjunto de datos en particular,
-
Not Synced
y debemos ponerlo ahí.
-
Not Synced
Y tal vez alguien descubra una forma
-
Not Synced
en la que más tarde
se pueda seguir haciendo inferencia
-
Not Synced
bajo algunas condiciones,
-
Not Synced
y tal vez no sean condiciones
particularmente realistas.
-
Not Synced
Entonces, podemos ir más allá.
-
Not Synced
Pero creo que hemos estado restringiendo demasiado las cosas donde dijimos:
-
Not Synced
"Este es el tipo de cosas que tenemos que hacer".
-
Not Synced
Y en cierto sentido, eso se remonta
a la forma en que Josh y yo
-
Not Synced
pensamos en las cosas
para el efecto del tratamiento promedio local.
-
Not Synced
Esa no era la forma
en que la gente pensaba
-
Not Synced
en estos problemas anteriormente.
-
Not Synced
Había una sensación
-
Not Synced
de que algunas personas
decían que la forma de hacer estas cosas
-
Not Synced
es decir primero lo que te interesa estimar y luego hacer lo mejor que puedas en la estimación.
-
Not Synced
Y lo que ustedes hacen
es hacerlo al revés.
-
Not Synced
Ustedes dicen: "Aquí tengo
un estimador
-
Not Synced
y ahora voy a averiguar
lo que está estimando".
-
Not Synced
Y supongo que vas a decir
por qué crees que es interesante
-
Not Synced
o tal vez por qué no es interesante
y eso no está bien.
-
Not Synced
No está permitido
hacerlo de esa manera.
-
Not Synced
Y creo que deberíamos ser
un poco más flexibles
-
Not Synced
a la hora de pensar
en cómo ver los problemas
-
Not Synced
porque creo que nos hemos perdido
algunas cosas por no hacer eso.
-
Not Synced
♪ (música) ♪
-
Not Synced
- [Josh] Así que has escuchado
nuestros puntos de vista, Isaiah,
-
Not Synced
y has visto que no estamos de acuerdo en algunos puntos.
-
Not Synced
¿Por qué no nos arbitras
esta disputa? [risas]
-
Not Synced
- Oh, es tan amable de tu parte el hacerme una pequeña pregunta. [risas]
-
Not Synced
Así que supongo que, por un lado,
-
Not Synced
estoy muy de acuerdo con algo
que Guido dijo antes de... [risas]
-
Not Synced
Así que una cosa
en la que el asunto del aprendizaje automático
-
Not Synced
parece relativamente claro
-
Not Synced
es en los entornos
donde nos interesa
-
Not Synced
alguna versión de un problema
de predicción no paramétrica.
-
Not Synced
Así que estoy interesado
en la estimación de una expectativa condicional o probabilidad condicional,
-
Not Synced
y en el pasado,
tal vez habría utilizado un kernel...
-
Not Synced
Habría utilizado
una regresión kernel
-
Not Synced
o habría utilizado una regresión
en serie, o algo por el estilo.
-
Not Synced
Parece que, en este momento,
-
Not Synced
tenemos una idea bastante clara
-
Not Synced
de que,
en una amplia gama de aplicaciones,
-
Not Synced
los métodos de aprendizaje automático
-
Not Synced
parecen funcionar mejor
-
Not Synced
para estimar las funciones
de media condicional,
-
Not Synced
o las probabilidades condicionales,
-
Not Synced
o varios otros objetos no paramétricos
-
Not Synced
que los métodos no paramétricos
más tradicionales
-
Not Synced
que se estudiaron
en econometría y estadística,
-
Not Synced
especialmente en entornos
-
Not Synced
de alta dimensión.
-
Not Synced
- ¿Así que, estás pensando
en la puntuación de propensión
-
Not Synced
o algo así?
-
Not Synced
- Sí, exactamente.
- Funciones de molestia.
-
Not Synced
- Sí, cosas
como las puntuaciones de propensión.
-
Not Synced
Incluso objetos
de interés más directo,
-
Not Synced
como los efectos de tratamiento promedio condicional,
-
Not Synced
que son la diferencia de dos funciones
de expectativa condicional,
-
Not Synced
potencialmente cosas así.
-
Not Synced
Por supuesto, incluso allí,
la teoría...
-
Not Synced
para la inferencia de la teoría
de cómo interpretar,
-
Not Synced
cómo hacer declaraciones
de muestras grandes
-
Not Synced
sobre algunas de estas cosas
están menos desarrolladas
-
Not Synced
dependiendo del estimador
de aprendizaje automático utilizado.
-
Not Synced
Y así, creo que algo
que es complicado
-
Not Synced
es que podemos tener
estos métodos,
-
Not Synced
que funcionan mucho...
-
Not Synced
que parecen funcionar mucho mejor
para algunos fines,
-
Not Synced
pero que tenemos que ser
un poco cuidadosos
-
Not Synced
en cómo los incorporamos
-
Not Synced
o cómo interpretamos
las declaraciones resultantes.