WEBVTT

00:00:00.000 --> 00:00:03.138
♪ (música) ♪

00:00:03.394 --> 00:00:05.633
- [Narradora] Bienvenidos
a Nobel Conversations.

00:00:06.992 --> 00:00:10.093
En este episodio,
Josh Angrist y Guido Imbens

00:00:10.093 --> 00:00:13.366
están reunidos con Isaiah Andrews
para discutir y discrepar

00:00:13.366 --> 00:00:15.221
sobre el papel
del aprendizaje automático

00:00:15.221 --> 00:00:16.816
en la econometría aplicada.

00:00:17.894 --> 00:00:19.896
- [Isaiah] Bien. Por supuesto
que hay muchos temas

00:00:19.896 --> 00:00:21.465
en los que ustedes
están muy de acuerdo,

00:00:21.465 --> 00:00:22.595
pero me gustaría pasar a uno

00:00:22.595 --> 00:00:24.365
sobre el que tal vez
opinen algo distinto.

00:00:24.365 --> 00:00:26.103
Me gustaría escuchar
algunas de sus opiniones

00:00:26.103 --> 00:00:27.319
sobre el aprendizaje automático

00:00:27.319 --> 00:00:30.257
y el papel que desempeña
y desempeñará en la economía.

00:00:30.257 --> 00:00:31.858
- [Guido] He consultado
algunos datos,

00:00:31.858 --> 00:00:33.349
como los datos privados.

00:00:33.349 --> 00:00:35.306
Vemos que no hay
ningún documento publicado allí.

00:00:35.975 --> 00:00:39.426
Se hizo un experimento
sobre algún algoritmo de búsqueda

00:00:39.426 --> 00:00:41.081
y la cuestión era...

00:00:42.581 --> 00:00:45.492
se trataba de clasificar cosas
y cambiar la clasificación.

00:00:45.990 --> 00:00:47.163
Y estaba más o menos claro

00:00:47.163 --> 00:00:50.271
que iba a haber
mucha heterogeneidad.

00:00:51.117 --> 00:00:55.864
Si buscas, digamos,

00:00:58.122 --> 00:01:00.640
una foto de Britney Spears,

00:01:00.640 --> 00:01:02.505
realmente no importa
dónde la clasifiques

00:01:02.505 --> 00:01:05.214
porque vas a encontrar
lo que estás buscando,

00:01:05.736 --> 00:01:07.058
ya sea que la clasifiques

00:01:07.058 --> 00:01:09.744
en primera, segunda
o tercera posición.

00:01:10.027 --> 00:01:12.346
Pero si estás buscando
el mejor libro de econometría,

00:01:12.346 --> 00:01:16.510
ya sea que pongas tu libro
en el primer lugar o en el décimo,

00:01:16.510 --> 00:01:18.140
eso va a suponer
una gran diferencia

00:01:18.140 --> 00:01:19.835
en la frecuencia

00:01:19.835 --> 00:01:21.286
con la que la gente
hará clic en él.

00:01:22.089 --> 00:01:23.312
Así que ahí--

00:01:23.312 --> 00:01:24.326
[Josh] ¿Por qué necesito

00:01:24.326 --> 00:01:27.314
el aprendizaje automático
para descubrir eso?

00:01:27.314 --> 00:01:29.463
Porque parece que puedo descubrirlo
de forma sencilla.

00:01:29.463 --> 00:01:30.517
- [Guido] En general--

00:01:30.517 --> 00:01:32.233
- [Josh] Había
un montón de posibles--

00:01:32.233 --> 00:01:34.233
- [Guido]...quieres pensar
que los artículos

00:01:34.233 --> 00:01:37.092
tienen montón de características,

00:01:37.092 --> 00:01:38.940
que quieres entender

00:01:38.940 --> 00:01:43.650
lo que impulsa la heterogeneidad
en el efecto de--

00:01:43.669 --> 00:01:44.876
- Pero solo estás prediciendo.

00:01:44.876 --> 00:01:46.057
En cierto sentido,

00:01:46.057 --> 00:01:47.793
estás resolviendo
un problema de marketing.

00:01:47.793 --> 00:01:49.210
- No, es un efecto causal,

00:01:49.210 --> 00:01:51.738
- Es causal, pero no tiene
contenido científico.

00:01:51.738 --> 00:01:52.809
Piensa en--

00:01:53.669 --> 00:01:57.243
- No, pero hay cosas similares
en el ámbito médico.

00:01:57.693 --> 00:01:59.312
Si haces un experimento,

00:01:59.312 --> 00:02:02.492
puedes estar muy interesado
en si el tratamiento funciona

00:02:02.492 --> 00:02:03.821
para algunos grupos o no.

00:02:03.821 --> 00:02:05.946
Y tienes un montón
de características individuales,

00:02:05.946 --> 00:02:08.109
y quieres buscar sistemáticamente--

00:02:08.109 --> 00:02:09.883
- Sí. Tengo mis dudas sobre esa...

00:02:09.883 --> 00:02:12.588
esa especie de idea de que hay
un efecto causal personal

00:02:12.588 --> 00:02:13.902
que me debería importar

00:02:13.902 --> 00:02:15.164
y que el aprendizaje automático

00:02:15.164 --> 00:02:17.103
puede descubrirlo
de alguna manera que sea útil.

00:02:17.517 --> 00:02:18.678
Así que piensa en--

00:02:18.678 --> 00:02:20.182
he trabajado mucho en las escuelas,

00:02:20.182 --> 00:02:22.358
yendo a, digamos,
una escuela chárter,

00:02:22.358 --> 00:02:24.498
una escuela privada
financiada con fondos públicos,

00:02:24.780 --> 00:02:27.392
efectivamente,
que es libre de estructurar

00:02:27.392 --> 00:02:29.587
su propio plan de estudios
en función del contexto.

00:02:29.587 --> 00:02:30.938
Algunos tipos de escuelas chárter

00:02:30.938 --> 00:02:33.379
consiguen
un rendimiento espectacular

00:02:33.379 --> 00:02:36.321
y en el conjunto de datos
que produce ese resultado,

00:02:36.321 --> 00:02:37.968
tengo un montón de covariables.

00:02:37.968 --> 00:02:39.584
Tengo
las puntuaciones de referencia

00:02:39.584 --> 00:02:41.321
y los antecedentes familiares,

00:02:41.321 --> 00:02:45.524
la educación de los padres,
el sexo del niño, la raza del niño.

00:02:46.060 --> 00:02:49.758
Y, bueno, en cuanto reúno
media docena de ellas,

00:02:49.758 --> 00:02:51.751
tengo un espacio
de muy alta dimensión.

00:02:52.391 --> 00:02:55.394
Sin duda, me interesan
las características del curso

00:02:55.394 --> 00:02:56.803
de ese efecto del tratamiento,

00:02:56.803 --> 00:02:58.688
como por ejemplo, si es mejor
para las personas

00:02:58.688 --> 00:03:02.054
que provienen de familias
con menores ingresos.

00:03:02.377 --> 00:03:05.656
Me cuesta creer
que haya una aplicación

00:03:05.656 --> 00:03:09.970
para la versión
de muy alta dimensión,

00:03:09.970 --> 00:03:12.499
en la que descubrí
que para los niños no blancos

00:03:12.499 --> 00:03:15.028
que tienen
ingresos familiares altos

00:03:15.028 --> 00:03:17.747
pero puntuaciones de referencia
en el tercer cuartil

00:03:17.747 --> 00:03:20.535
y que solo fueron
a la escuela pública

00:03:20.535 --> 00:03:23.128
en el tercer grado
pero no en el sexto.

00:03:23.128 --> 00:03:25.681
Así que eso es lo que produce
ese análisis de alta dimensión.

00:03:25.681 --> 00:03:27.938
Es una declaración condicional
muy elaborada.

00:03:27.938 --> 00:03:30.702
Hay dos cosas que están mal,
en mi opinión.

00:03:30.702 --> 00:03:32.418
En primer lugar, no lo veo como--

00:03:32.418 --> 00:03:34.492
no puedo imaginar
por qué es algo procesable.

00:03:34.492 --> 00:03:36.518
No sé por qué
querrías actuar sobre ello.

00:03:36.518 --> 00:03:39.381
Y también sé que hay
algún modelo alternativo

00:03:39.381 --> 00:03:42.856
que encaja casi igual de bien,
que lo invierte todo.

00:03:42.978 --> 00:03:44.591
Porque el aprendizaje automático

00:03:44.591 --> 00:03:48.473
no me dice que este es realmente
el predictor que importa,

00:03:48.473 --> 00:03:50.779
solo me dice
que este es un buen predictor.

00:03:51.396 --> 00:03:54.875
Así que creo,
que hay algo diferente

00:03:54.875 --> 00:03:57.688
en el contexto
de las ciencias sociales.

00:03:57.688 --> 00:04:00.270
- [Guido] Creo que las aplicaciones
de las ciencias sociales

00:04:00.270 --> 00:04:03.922
de las que hablas
son aquellas en las que, creo,

00:04:03.922 --> 00:04:07.923
no hay una gran cantidad
de heterogeneidad en los efectos.

00:04:09.760 --> 00:04:13.610
- [Josh] Bueno, podría haberla
si me permites llenar ese espacio.

00:04:13.610 --> 00:04:15.648
- No... ni siquiera entonces.

00:04:15.648 --> 00:04:18.506
Creo que para muchas
de esas intervenciones,

00:04:18.506 --> 00:04:22.840
se espera que el efecto
sea del mismo signo para todos.

00:04:23.055 --> 00:04:27.320
Puede haber pequeñas diferencias
en la magnitud, pero no es...

00:04:27.576 --> 00:04:29.968
Porque muchas de estas
diferencias educativas

00:04:29.968 --> 00:04:31.612
son buenas para todos.

00:04:31.612 --> 00:04:35.932
No es que sean malas
para algunas personas

00:04:35.932 --> 00:04:37.408
y buenas para otras

00:04:37.408 --> 00:04:39.797
y luego hay unos pocos casos
en los que son malas.

00:04:40.189 --> 00:04:43.633
Pero puede haber
algo de variación en la magnitud,

00:04:43.633 --> 00:04:44.808
pero se necesitarían

00:04:44.808 --> 00:04:47.019
conjuntos de datos
muy muy grandes para encontrarlos.

00:04:47.019 --> 00:04:48.985
Estoy de acuerdo en que,
en esos casos,

00:04:48.985 --> 00:04:51.393
probablemente no serían
muy procesables de todos modos.

00:04:51.881 --> 00:04:54.075
Pero creo que hay
muchos otros escenarios

00:04:54.075 --> 00:04:56.483
donde hay mucha más heterogeneidad.

00:04:56.736 --> 00:04:59.164
- Bueno, estoy abierto
a esa posibilidad

00:04:59.164 --> 00:05:00.977
y creo que el ejemplo que has dado

00:05:00.977 --> 00:05:04.857
es esencialmente
un ejemplo de marketing.

00:05:05.938 --> 00:05:09.714
- No, esos tienen
implicaciones respecto a ello

00:05:09.714 --> 00:05:11.596
y esa es la organización,

00:05:11.596 --> 00:05:15.358
si tienes que preocuparte por la--

00:05:15.358 --> 00:05:17.857
- Bueno, necesito
ver ese documento.

00:05:18.289 --> 00:05:21.490
- Así que, la sensación
que tengo es que...

00:05:21.490 --> 00:05:23.371
- Todavía estamos en desacuerdo
en algo.

00:05:23.371 --> 00:05:25.735
- Sí.
- No hemos coincidido en todo.

00:05:25.735 --> 00:05:27.393
- Tengo esa sensación.
[risas]

00:05:27.393 --> 00:05:29.047
- En realidad,
hemos discrepado en esto

00:05:29.047 --> 00:05:30.729
porque no estaba para discutir.

00:05:30.729 --> 00:05:33.144
[risas]

00:05:33.144 --> 00:05:35.060
- ¿Se está poniendo
algo caluroso aquí?

00:05:35.720 --> 00:05:37.854
- Caluroso.
Es bueno que esté caluroso.

00:05:37.854 --> 00:05:39.501
La sensación que tengo es, Josh,

00:05:39.501 --> 00:05:41.951
que no estás diciendo
que estás seguro

00:05:41.951 --> 00:05:44.159
de que no hay manera
de que haya una aplicación

00:05:44.159 --> 00:05:45.667
en la que estas cosas sean útiles.

00:05:45.667 --> 00:05:47.169
Estás diciendo
que no estás convencido

00:05:47.169 --> 00:05:49.444
con las aplicaciones existentes
hasta la fecha.

00:05:49.907 --> 00:05:51.665
- Me parece bien.
- Estoy muy seguro.

00:05:51.858 --> 00:05:54.179
[risas]

00:05:54.179 --> 00:05:55.270
- En este caso.

00:05:55.270 --> 00:05:56.541
- Creo que Josh tiene razón

00:05:56.541 --> 00:06:00.101
en que incluso
en los casos de predicción,

00:06:00.101 --> 00:06:03.757
donde muchos de los métodos
de aprendizaje automático

00:06:03.757 --> 00:06:06.517
realmente se destacan es donde hay
un montón de heterogeneidad.

00:06:06.785 --> 00:06:10.400
- No te importan mucho
los detalles, ¿verdad?

00:06:10.400 --> 00:06:11.480
- [Guido] Sí.

00:06:11.480 --> 00:06:14.752
- No tiene un ángulo normativo
o algo así.

00:06:14.752 --> 00:06:17.535
- El reconocimiento
de dígitos escritos a mano

00:06:17.535 --> 00:06:18.569
y demás...

00:06:18.721 --> 00:06:23.861
lo hace mucho mejor
que construir un modelo complicado.

00:06:24.201 --> 00:06:26.925
Pero muchas
de las ciencias sociales,

00:06:26.925 --> 00:06:28.454
muchas
de las aplicaciones económicas,

00:06:28.454 --> 00:06:29.610
en realidad sabemos mucho

00:06:29.610 --> 00:06:32.067
sobre la relación
entre sus variables.

00:06:32.067 --> 00:06:34.572
Muchas de las relaciones
son estrictamente monótonas.

00:06:35.399 --> 00:06:39.266
La educación va a aumentar
los ingresos de la gente,

00:06:39.266 --> 00:06:41.916
sin importar
las características demográficas,

00:06:41.916 --> 00:06:44.763
sin importar
el nivel de educación que se tenga.

00:06:44.763 --> 00:06:46.325
- Hasta que lleguen a un doctorado.

00:06:46.325 --> 00:06:48.126
- ¿Eso se aplica
a la escuela de posgrado?

00:06:48.126 --> 00:06:49.218
[risas]

00:06:49.218 --> 00:06:50.593
- En un rango razonable.

00:06:50.593 --> 00:06:55.472
No va a bajar mucho.

00:06:55.472 --> 00:06:58.178
En muchos de los entornos
en los que se destacan

00:06:58.178 --> 00:07:00.209
estos métodos
de aprendizaje automático,

00:07:00.209 --> 00:07:02.081
hay mucha falta de monotonicidad,

00:07:02.081 --> 00:07:04.598
una especie de multimodalidad
en estas relaciones

00:07:04.598 --> 00:07:08.475
y van a ser muy poderosos.

00:07:08.701 --> 00:07:11.426
Pero sigo sosteniendo lo mismo.

00:07:11.426 --> 00:07:17.530
Estos métodos tienen mucho
para ofrecerles a los economistas

00:07:17.530 --> 00:07:21.465
y serán una gran parte del futuro.

00:07:21.629 --> 00:07:23.183
APLICACIONES
DEL APRENDIZAJE AUTOMÁTICO

00:07:23.183 --> 00:07:24.814
Parece que hay
algo interesante por decir

00:07:24.814 --> 00:07:26.139
sobre el aprendizaje automático.

00:07:26.139 --> 00:07:27.412
Así que, Guido, me preguntaba

00:07:27.412 --> 00:07:29.416
¿podrías dar tal vez
algunos de los ejemplos

00:07:29.416 --> 00:07:30.694
que estás pensando

00:07:30.694 --> 00:07:32.507
con las aplicaciones
que salen en el momento?

00:07:32.507 --> 00:07:35.779
- Un área
es donde en lugar de buscar

00:07:35.779 --> 00:07:37.235
efectos causales promedio

00:07:37.235 --> 00:07:39.684
estamos buscando
estimaciones individualizadas,

00:07:39.684 --> 00:07:43.212
predicciones de efectos causales,

00:07:43.212 --> 00:07:45.856
y allí, los algoritmos
de aprendizaje automático

00:07:45.856 --> 00:07:47.384
han sido muy eficaces.

00:07:47.958 --> 00:07:49.892
Hasta ahora,
hemos hecho estas cosas

00:07:49.892 --> 00:07:51.458
utilizando métodos de kernel,

00:07:51.458 --> 00:07:53.846
y teóricamente, funcionan muy bien,

00:07:53.846 --> 00:07:56.226
y hay quienes comentan
que, formalmente,

00:07:56.226 --> 00:07:57.575
no se puede hacer nada mejor.

00:07:57.575 --> 00:07:59.422
Pero en la práctica,
no funcionan muy bien.

00:07:59.643 --> 00:08:03.057
Las cosas aleatorias
de tipo bosque causal

00:08:03.057 --> 00:08:05.833
en las que Stefan Wager
y Susan Athey

00:08:05.833 --> 00:08:09.310
han estado trabajando
se utilizan muy ampliamente.

00:08:09.537 --> 00:08:11.895
Han sido muy eficaces
en estos entornos

00:08:11.895 --> 00:08:14.998
para obtener efectos causales

00:08:14.998 --> 00:08:19.118
que varían según las covariables.

00:08:19.118 --> 00:08:23.665
Creo que esto es solo el comienzo
de estos métodos.

00:08:23.665 --> 00:08:25.605
Pero en muchos casos,

00:08:27.201 --> 00:08:29.572
estos algoritmos son muy eficaces,

00:08:29.572 --> 00:08:31.481
como en la búsqueda
en grandes espacios

00:08:31.481 --> 00:08:36.908
y encontrar las funciones
que se ajustan muy bien

00:08:36.908 --> 00:08:40.444
en formas que realmente
no podíamos hacer antes.

00:08:41.511 --> 00:08:42.866
- No conozco ningún ejemplo

00:08:42.866 --> 00:08:45.379
en el que el aprendizaje automático
haya generado conocimientos

00:08:45.379 --> 00:08:47.260
sobre un efecto causal
que me interese.

00:08:47.619 --> 00:08:49.133
Y sí conozco ejemplos

00:08:49.133 --> 00:08:51.106
en los que es potencialmente
muy engañoso.

00:08:51.485 --> 00:08:53.487
He trabajado con Brigham Frandsen

00:08:53.487 --> 00:08:55.916
utilizando, por ejemplo,
bosques aleatorios

00:08:55.916 --> 00:08:57.943
para modelar
los efectos de las covariables

00:08:57.943 --> 00:08:59.775
en un problema
de variables instrumentales

00:08:59.775 --> 00:09:03.328
en el que hay que condicionar
las covariables.

00:09:03.710 --> 00:09:06.456
Y no tienes
un sentimiento muy fuerte

00:09:06.456 --> 00:09:08.066
sobre la forma funcional para eso,

00:09:08.066 --> 00:09:09.845
así que tal vez
se debería curvar...

00:09:09.845 --> 00:09:12.814
estar abierto
a un ajuste flexible de la curva.

00:09:12.977 --> 00:09:14.484
Y eso te lleva a un camino

00:09:14.484 --> 00:09:16.617
donde hay un montón
de no linealidades en el modelo,

00:09:16.617 --> 00:09:20.063
y eso es muy peligroso con el VI

00:09:20.063 --> 00:09:22.698
porque cualquier tipo
de no linealidad excluida

00:09:22.698 --> 00:09:25.785
genera potencialmente
un efecto causal espurio

00:09:25.785 --> 00:09:29.104
y Brigham y yo lo mostramos,
creo que muy convincentemente,

00:09:29.104 --> 00:09:31.734
en el caso de dos instrumentos

00:09:31.734 --> 00:09:34.963
que vienen de un trabajo mío
con Bill Evans,

00:09:34.963 --> 00:09:37.295
donde si se reemplaza...

00:09:37.295 --> 00:09:40.896
un estimador tradicional
de mínimos cuadrados en dos etapas

00:09:40.896 --> 00:09:42.676
con algún tipo de bosque aleatorio,

00:09:42.676 --> 00:09:46.745
se obtienen estimaciones
sin sentido muy precisas.

00:09:47.336 --> 00:09:51.056
Creo que eso
es una gran advertencia.

00:09:51.348 --> 00:09:53.381
A la vista de esos resultados,

00:09:53.381 --> 00:09:55.332
en un ejemplo que me interese

00:09:55.332 --> 00:09:57.009
en el que los instrumentos
sean muy simples

00:09:57.009 --> 00:10:01.149
y crea que son válidos,
sería escéptico al respecto.

00:10:02.280 --> 00:10:06.668
La no linealidad y el VI
no se mezclan muy cómodamente.

00:10:06.668 --> 00:10:09.191
- No, parece que eso
ya es más complicado...

00:10:09.191 --> 00:10:11.653
- Bueno, es VI--
- Sí.

00:10:11.653 --> 00:10:15.456
- ...pero luego trabajamos en eso.
[risas]

00:10:15.456 --> 00:10:16.862
- Está bien.

00:10:16.862 --> 00:10:18.645
OPORTUNIDADES
PARA PUBLICAR EN REVISTAS

00:10:18.645 --> 00:10:20.047
- [Guido] Como editor
de Econometrica,

00:10:20.047 --> 00:10:22.235
muchos de estos trabajos
llegan a mi escritorio,

00:10:22.235 --> 00:10:26.659
pero la motivación no es clara

00:10:27.461 --> 00:10:29.706
y, de hecho, realmente no existe.

00:10:29.883 --> 00:10:34.875
No son... artículos fundacionales
de tipo semiparamétrico.

00:10:35.515 --> 00:10:37.079
Así que, ese es un gran problema.

00:10:37.947 --> 00:10:40.934
Un problema relacionado
es que, en econometría,

00:10:40.934 --> 00:10:43.436
tenemos la tradición
de estar muy centrados

00:10:43.436 --> 00:10:46.448
en estos resultados
asintóticos formales.

00:10:46.757 --> 00:10:50.073
Tenemos muchos artículos

00:10:50.073 --> 00:10:53.244
en los que la gente
propone un método

00:10:53.244 --> 00:10:55.379
y luego establece
las propiedades asintóticas

00:10:55.379 --> 00:10:59.260
de una manera muy estandarizada.

00:11:00.696 --> 00:11:01.954
- ¿Es eso malo?

00:11:02.202 --> 00:11:06.186
- Bueno,
creo que les ha cerrado la puerta

00:11:06.186 --> 00:11:07.834
a muchos trabajos
que no encajan

00:11:07.834 --> 00:11:11.328
en la literatura
del aprendizaje automático,

00:11:11.328 --> 00:11:13.247
donde muchas cosas
son más algorítmicas.

00:11:13.927 --> 00:11:18.714
La gente tenía algoritmos
para hacer predicciones

00:11:18.714 --> 00:11:22.049
que resultaron funcionar
mucho mejor que, por ejemplo,

00:11:22.049 --> 00:11:23.629
la regresión kernel no paramétrica.

00:11:23.865 --> 00:11:25.128
Durante mucho tiempo,

00:11:25.128 --> 00:11:26.920
en econometría
hicimos toda la no paramétrica

00:11:26.920 --> 00:11:28.753
y usamos la regresión kernel.

00:11:29.178 --> 00:11:30.969
Y eso fue genial
para probar teoremas.

00:11:30.969 --> 00:11:32.637
Podías obtener
intervalos de confianza,

00:11:32.637 --> 00:11:34.567
consistencia,
normalidad asintótica

00:11:34.567 --> 00:11:36.875
y todo iba genial,
pero no era muy útil.

00:11:37.101 --> 00:11:39.326
Y las cosas que hicieron
en el aprendizaje automático

00:11:39.326 --> 00:11:40.805
son mucho, mucho mejores.

00:11:41.054 --> 00:11:42.766
Pero no tenían el problema...

00:11:42.766 --> 00:11:44.961
- Ese no es mi problema
con el aprendizaje automático,

00:11:44.961 --> 00:11:46.983
que la teoría sea débil.
[risas]

00:11:47.073 --> 00:11:50.721
- No, pero estoy diciendo
que en cuanto a la predicción,

00:11:50.768 --> 00:11:52.359
lo hace mucho mejor.

00:11:52.570 --> 00:11:54.590
- Sí, es una mejor herramienta
de ajuste de curvas.

00:11:54.590 --> 00:11:58.655
- Pero lo hizo de una manera
que no habría hecho

00:11:58.655 --> 00:12:02.399
que esos trabajos fueran
inicialmente fáciles de incorporar

00:12:02.399 --> 00:12:04.291
en las revistas de econometría,

00:12:04.291 --> 00:12:06.715
porque no estaba probando
el tipo de cosas...

00:12:06.990 --> 00:12:09.842
Cuando Breiman
hacía sus árboles de regresión...

00:12:09.842 --> 00:12:11.235
simplemente no encajaban.

00:12:11.477 --> 00:12:15.815
Creo que le habría sido muy difícil
publicar estas cosas

00:12:15.815 --> 00:12:18.183
en las revistas de econometría.

00:12:20.124 --> 00:12:23.426
Creo que nos hemos limitado
demasiado

00:12:23.457 --> 00:12:27.467
y nos hemos cerrado

00:12:27.615 --> 00:12:29.816
a muchos de estos métodos
de aprendizaje automático

00:12:29.816 --> 00:12:31.117
que son realmente muy útiles.

00:12:31.292 --> 00:12:33.625
Es decir, creo, en general,

00:12:33.625 --> 00:12:36.614
que la literatura,
los ingenieros de sistemas

00:12:36.614 --> 00:12:40.038
han presentado una gran cantidad
de estos algoritmos,

00:12:40.370 --> 00:12:42.635
han propuesto
una gran cantidad de algoritmos

00:12:42.635 --> 00:12:44.465
que realmente son muy útiles

00:12:44.465 --> 00:12:48.792
y que están afectando la forma
en que haremos el trabajo empírico.

00:12:49.194 --> 00:12:52.014
Pero no lo hemos interiorizado
del todo

00:12:52.014 --> 00:12:54.050
porque todavía
estamos muy centrados

00:12:54.050 --> 00:12:56.276
en obtener estimaciones puntuales

00:12:56.276 --> 00:12:59.967
y obtener errores estándar
y obtener valores P

00:12:59.967 --> 00:13:02.796
de una manera
que necesitamos superar

00:13:02.796 --> 00:13:08.257
para aprovechar plenamente
la fuerza, los beneficios

00:13:08.257 --> 00:13:10.564
de la literatura
de aprendizaje automático.

00:13:11.374 --> 00:13:14.184
- Por un lado, creo que entiendo
tu punto de vista

00:13:14.184 --> 00:13:16.738
de que el marco tradicional
de la econometría

00:13:16.738 --> 00:13:19.734
de proponer un método,
demostrar un teorema límite

00:13:19.734 --> 00:13:23.403
bajo alguna historia asintótica,
y otra, y otra y otra...

00:13:23.659 --> 00:13:26.969
...y luego publicar el documento,
es restrictivo,

00:13:26.969 --> 00:13:28.805
y que, en cierto sentido,

00:13:28.805 --> 00:13:30.301
al pensar más ampliamente

00:13:30.301 --> 00:13:31.862
sobre cómo podría ser
un documento de métodos,

00:13:31.862 --> 00:13:33.578
podemos escribir, en cierto sentido,

00:13:33.578 --> 00:13:35.129
desde luego que la literatura
de aprendizaje automático

00:13:35.129 --> 00:13:36.220
ha encontrado
un montón de cosas

00:13:36.220 --> 00:13:38.269
que parecen funcionar bastante
bien para una serie de problemas

00:13:38.269 --> 00:13:41.053
y ahora están influyendo
sustancialmente en la economía.

00:13:41.391 --> 00:13:43.339
Supongo que una pregunta
que me interesa

00:13:43.339 --> 00:13:46.278
es cómo piensas en el papel de...

00:13:46.792 --> 00:13:50.990
¿Crees que no hay valor
en la parte de la teoría?

00:13:50.990 --> 00:13:52.174
Porque supongo

00:13:52.174 --> 00:13:54.118
que una pregunta
que a menudo me hago

00:13:54.118 --> 00:13:55.729
al ver el resultado

00:13:55.729 --> 00:13:57.273
de una herramienta
de aprendizaje automático--

00:13:57.273 --> 00:13:59.397
y en realidad, varios de los métodos
de los que hablaste

00:13:59.397 --> 00:14:01.759
tienen resultados inferenciales
desarrollados para ellos--

00:14:01.759 --> 00:14:03.918
algo que siempre me pregunto,

00:14:03.918 --> 00:14:05.642
una especie de cuantificación
de la incertidumbre

00:14:05.642 --> 00:14:06.735
y simplemente...

00:14:06.735 --> 00:14:07.801
Tengo mi...

00:14:07.801 --> 00:14:09.743
vengo al mundo
con mi punto de vista,

00:14:09.743 --> 00:14:11.072
veo el resultado de esta cosa.

00:14:11.072 --> 00:14:12.633
¿Cómo debo actualizar
en función de eso?

00:14:12.633 --> 00:14:14.341
Y en cierto sentido,
si estoy en un mundo

00:14:14.341 --> 00:14:16.025
donde las cosas
se distribuyen normalmente,

00:14:16.025 --> 00:14:17.191
sé cómo hacerlo.

00:14:17.191 --> 00:14:18.350
Aquí no lo sé.

00:14:18.350 --> 00:14:21.016
Así que, me interesa escuchar
lo que piensas al respecto.

00:14:21.389 --> 00:14:24.106
- No veo esto como si fuera decir

00:14:24.106 --> 00:14:26.384
que estos resultados
no son interesantes,

00:14:26.384 --> 00:14:27.712
pero habrá un montón de casos

00:14:27.712 --> 00:14:29.317
en los que va a ser
increíblemente difícil

00:14:29.317 --> 00:14:30.340
obtener esos resultados

00:14:30.340 --> 00:14:32.435
y puede que no seamos capaces
de llegar allí

00:14:32.435 --> 00:14:34.894
y puede que tengamos
que hacerlo en etapas,

00:14:34.894 --> 00:14:36.472
donde primero alguien dice

00:14:36.472 --> 00:14:40.744
"Oye, tengo
este algoritmo interesante

00:14:40.744 --> 00:14:42.370
para hacer algo",

00:14:42.370 --> 00:14:46.507
y funciona bien
según cierto criterio

00:14:46.520 --> 00:14:49.753
en este conjunto de datos
en particular,

00:14:50.998 --> 00:14:52.663
y debemos ponerlo en conocimiento.

00:14:53.587 --> 00:14:55.276
Y tal vez alguien
descubra una forma

00:14:55.276 --> 00:14:58.050
en la que más tarde
se pueda seguir haciendo inferencia

00:14:58.050 --> 00:14:59.249
bajo algunas condiciones,

00:14:59.249 --> 00:15:02.052
y tal vez no sean condiciones
particularmente realistas.

00:15:02.052 --> 00:15:03.671
Entonces, podemos ir más allá.

00:15:03.889 --> 00:15:08.293
Pero creo que hemos estado
restringiendo demasiado las cosas

00:15:08.293 --> 00:15:09.541
donde dijimos:

00:15:09.541 --> 00:15:13.151
"Este es el tipo de cosas
que tenemos que hacer".

00:15:13.151 --> 00:15:16.261
Y en cierto sentido, eso se remonta

00:15:16.261 --> 00:15:19.993
a la forma en que Josh
y yo pensamos

00:15:19.993 --> 00:15:22.063
respecto del efecto
del tratamiento promedio local.

00:15:22.063 --> 00:15:23.782
Esa no era la forma
en que la gente pensaba

00:15:23.782 --> 00:15:25.175
en estos problemas anteriormente.

00:15:25.175 --> 00:15:28.513
Había una sensación
de que algunas personas

00:15:28.513 --> 00:15:30.570
decían que la forma
de hacer estas cosas

00:15:30.570 --> 00:15:33.722
es decir primero
lo que te interesa estimar

00:15:33.722 --> 00:15:37.255
y luego hacer lo mejor
que puedas en la estimación.

00:15:37.519 --> 00:15:43.936
Y lo que ustedes hacen
es hacerlo al revés.

00:15:44.177 --> 00:15:46.415
Ustedes dicen: "Aquí tengo
un estimador

00:15:46.415 --> 00:15:50.726
y ahora voy a averiguar
qué está estimando".

00:15:50.726 --> 00:15:53.883
Y supongo que vas a decir
por qué crees que es interesante

00:15:53.883 --> 00:15:56.615
o tal vez por qué no es interesante
y eso no está bien.

00:15:56.615 --> 00:15:58.504
No está permitido
hacerlo de esa manera.

00:15:58.813 --> 00:16:01.791
Y creo que deberíamos ser
un poco más flexibles

00:16:01.791 --> 00:16:06.579
a la hora de pensar
en cómo ver los problemas

00:16:06.579 --> 00:16:11.206
porque creo que nos hemos perdido
algunas cosas por no hacer eso.

00:16:11.206 --> 00:16:12.993
¡ISAIAH ANDREWS ARBITRA!

00:16:12.993 --> 00:16:15.066
- [Josh] Así que, has escuchado
nuestros puntos de vista, Isaiah,

00:16:15.066 --> 00:16:18.268
y has visto que no estamos
de acuerdo en algunos puntos.

00:16:18.413 --> 00:16:22.091
¿Por qué no nos arbitras
esta disputa? [risas]

00:16:22.455 --> 00:16:25.019
- Oh, qué amable eres
al hacerme una pequeña pregunta.

00:16:25.019 --> 00:16:26.259
[risas]

00:16:26.508 --> 00:16:28.084
Así que supongo que, por un lado,

00:16:28.084 --> 00:16:35.024
estoy muy de acuerdo con algo
que Guido dijo antes de... [risas]

00:16:35.711 --> 00:16:36.815
Así que, un aspecto

00:16:36.815 --> 00:16:38.937
en la que el asunto
del aprendizaje automático

00:16:38.937 --> 00:16:40.200
parece relativamente claro

00:16:40.200 --> 00:16:42.489
es en los entornos
donde nos interesa

00:16:42.489 --> 00:16:45.110
alguna versión de un problema
de predicción no paramétrica.

00:16:45.110 --> 00:16:46.799
Así que estoy interesado
en la estimación

00:16:46.799 --> 00:16:49.729
de una expectativa condicional
o probabilidad condicional,

00:16:49.942 --> 00:16:52.049
y en el pasado, tal vez
habría utilizado un kernel...

00:16:52.049 --> 00:16:53.576
Habría utilizado
una regresión kernel

00:16:53.576 --> 00:16:57.105
o habría utilizado una regresión
en serie, o algo por el estilo.

00:16:57.475 --> 00:16:59.225
Parece que, en este momento,

00:16:59.225 --> 00:17:00.595
tenemos una idea bastante clara

00:17:00.595 --> 00:17:02.784
de que,
en una amplia gama de aplicaciones,

00:17:02.784 --> 00:17:04.062
los métodos
de aprendizaje automático

00:17:04.062 --> 00:17:05.530
parecen funcionar mejor

00:17:05.530 --> 00:17:08.536
para estimar las funciones
de media condicional,

00:17:08.536 --> 00:17:10.094
o las probabilidades condicionales,

00:17:10.094 --> 00:17:12.168
o varios otros objetos
no paramétricos

00:17:12.168 --> 00:17:15.323
que los métodos no paramétricos
más tradicionales

00:17:15.323 --> 00:17:17.327
que se estudiaron
en econometría y estadística,

00:17:17.327 --> 00:17:19.435
especialmente en entornos
de alta dimensión.

00:17:19.480 --> 00:17:22.141
- ¿Así que, estás pensando
en la puntuación de propensión

00:17:22.141 --> 00:17:23.167
o algo así?

00:17:23.167 --> 00:17:25.073
- Sí, exactamente.
- Funciones de molestia.

00:17:25.085 --> 00:17:27.248
- Sí, cosas como
las puntuaciones de propensión.

00:17:27.248 --> 00:17:30.077
Incluso objetos
de interés más directo,

00:17:30.077 --> 99:59:59.999
como los efectos
del tratamiento promedio condicional,

99:59:59.999 --> 99:59:59.999
que son la diferencia de dos funciones
de expectativa condicional,

99:59:59.999 --> 99:59:59.999
potencialmente cosas así.

99:59:59.999 --> 99:59:59.999
Por supuesto, incluso allí,
la teoría...

99:59:59.999 --> 99:59:59.999
para la inferencia de la teoría
de cómo interpretar,

99:59:59.999 --> 99:59:59.999
cómo hacer declaraciones
de muestras grandes

99:59:59.999 --> 99:59:59.999
sobre algunas de estas cosas
están menos desarrolladas

99:59:59.999 --> 99:59:59.999
dependiendo del estimador
de aprendizaje automático utilizado.

99:59:59.999 --> 99:59:59.999
Y así, creo que algo
que es complicado

99:59:59.999 --> 99:59:59.999
es que podemos tener
estos métodos,

99:59:59.999 --> 99:59:59.999
que funcionan mucho...

99:59:59.999 --> 99:59:59.999
que parecen funcionar mucho mejor
para algunos fines,

99:59:59.999 --> 99:59:59.999
pero que tenemos que ser
un poco cuidadosos

99:59:59.999 --> 99:59:59.999
en cómo los incorporamos

99:59:59.999 --> 99:59:59.999
o cómo interpretamos
las declaraciones resultantes.

99:59:59.999 --> 99:59:59.999
Pero, por supuesto,
esa es un área muy, muy activa

99:59:59.999 --> 99:59:59.999
ahora mismo donde la gente
está haciendo toneladas de gran trabajo.

99:59:59.999 --> 99:59:59.999
Así que espero ver
mucho más en el futuro.

99:59:59.999 --> 99:59:59.999
Un problema
con el aprendizaje automático

99:59:59.999 --> 99:59:59.999
que siempre parece un peligro es...

99:59:59.999 --> 99:59:59.999
o que a veces es un peligro

99:59:59.999 --> 99:59:59.999
y que a veces ha llevado

99:59:59.999 --> 99:59:59.999
a aplicaciones
que han tenido menos sentido

99:59:59.999 --> 99:59:59.999
es cuando la gente empieza
con un método que les entusiasma mucho en lugar de una pregunta.

99:59:59.999 --> 99:59:59.999
Así que empezar con una pregunta

99:59:59.999 --> 99:59:59.999
donde aquí está el objeto
que me interesa,

99:59:59.999 --> 99:59:59.999
aquí está el parámetro de interés--

99:59:59.999 --> 99:59:59.999
déjame pensar
en cómo identificaría esa cosa,

99:59:59.999 --> 99:59:59.999
cómo recuperaría esa cosa
si tuviera una tonelada de datos.

99:59:59.999 --> 99:59:59.999
Oh, aquí hay una función
de expectativa condicional,

99:59:59.999 --> 99:59:59.999
permítanme conectar
un estimador de aprendizaje automático para eso--

99:59:59.999 --> 99:59:59.999
eso parece muy muy sensato.

99:59:59.999 --> 99:59:59.999
Mientras que, ya sabes,
si hago una regresión de la cantidad sobre el precio

99:59:59.999 --> 99:59:59.999
y digo que he utilizado
un método de aprendizaje automático,

99:59:59.999 --> 99:59:59.999
tal vez estoy satisfecho
de que eso resuelva

99:59:59.999 --> 99:59:59.999
el problema de endogeneidad
que normalmente nos preocupa allí--

99:59:59.999 --> 99:59:59.999
tal vez no lo estoy.

99:59:59.999 --> 99:59:59.999
Pero, de nuevo,
es algo en lo que la forma de abordarlo

99:59:59.999 --> 99:59:59.999
parece relativamente clara.

99:59:59.999 --> 99:59:59.999
Es encontrar tu objeto de interés
y pensar en...

99:59:59.999 --> 99:59:59.999
- Solo trae la economía.
- Exactamente.

99:59:59.999 --> 99:59:59.999
- Y pensar en la heterogeneidad,
pero aprovechar

99:59:59.999 --> 99:59:59.999
el poder de los métodos
de aprendizaje automático

99:59:59.999 --> 99:59:59.999
para algunos de los componentes.

99:59:59.999 --> 99:59:59.999
- Precisamente.

99:59:59.999 --> 99:59:59.999
Exactamente.

99:59:59.999 --> 99:59:59.999
Así que la cuestión de interés
es la misma que siempre ha sido,

99:59:59.999 --> 99:59:59.999
pero ahora tenemos mejores métodos
para estimar algunas piezas de esto.

99:59:59.999 --> 99:59:59.999
El lugar que parece
más difícil de pronosticar

99:59:59.999 --> 99:59:59.999
es, obviamente, hay una gran cantidad en la literatura de aprendizaje automático

99:59:59.999 --> 99:59:59.999
y las formas limitadas de enchufar
que he referido hasta ahora son una pieza limitada de eso.

99:59:59.999 --> 99:59:59.999
Así que creo
que hay todo tipo de otras preguntas interesantes sobre dónde... dónde va esta interacción?

99:59:59.999 --> 99:59:59.999
¿Qué más podemos aprender?

99:59:59.999 --> 99:59:59.999
Y eso es algo
en lo que creo que hay una tonelada en marcha, que parece muy prometedor, y no tengo ni idea de cuál es la respuesta.

99:59:59.999 --> 99:59:59.999
- No, estoy totalmente de acuerdo con eso,

99:59:59.999 --> 99:59:59.999
pero eso lo hace muy emocionante.

99:59:59.999 --> 99:59:59.999
Y creo que solo hay un poco de trabajo por hacer allí.

99:59:59.999 --> 99:59:59.999
Muy bien. Así que Isaiah está de acuerdo conmigo allí. [risas]

99:59:59.999 --> 99:59:59.999
- Yo no he dicho que por sí mismo. ♪ [música] ♪

99:59:59.999 --> 99:59:59.999
- [Narradora] Si desea ver más
de Nobel Conversations,

99:59:59.999 --> 99:59:59.999
haga clic aquí.

99:59:59.999 --> 99:59:59.999
O si quieres aprender más
sobre econometría,

99:59:59.999 --> 99:59:59.999
echa un vistazo
a la serie Mastering Econometrics de Josh.

99:59:59.999 --> 99:59:59.999
Si quiere saber más
sobre Guido, Josh e Isaiah,

99:59:59.999 --> 99:59:59.999
consulte los enlaces
en la descripción.