WEBVTT 00:00:00.000 --> 00:00:03.138 ♪ (música) ♪ 00:00:03.394 --> 00:00:05.633 - [Narradora] Bienvenidos a Nobel Conversations. 00:00:06.992 --> 00:00:10.093 En este episodio, Josh Angrist y Guido Imbens 00:00:10.093 --> 00:00:13.366 se reúnen con Isaiah Andrews para discutir y discrepar 00:00:13.366 --> 00:00:15.221 sobre el papel del aprendizaje automático 00:00:15.221 --> 00:00:16.816 en la econometría aplicada. 00:00:17.894 --> 00:00:19.896 - [Isaiah] Bien. Por supuesto que hay muchos temas 00:00:19.896 --> 00:00:21.465 en los que ustedes están muy de acuerdo, 00:00:21.465 --> 00:00:22.595 pero me gustaría pasar a uno 00:00:22.595 --> 00:00:24.365 sobre el que tal vez opinen algo distinto. 00:00:24.365 --> 00:00:26.103 Me gustaría escuchar algunas de sus opiniones 00:00:26.103 --> 00:00:27.319 sobre el aprendizaje automático 00:00:27.319 --> 00:00:30.257 y el papel que desempeña y desempeñará en la economía. 00:00:30.257 --> 00:00:31.858 - [Guido] He consultado algunos datos, 00:00:31.858 --> 00:00:33.349 como los datos privados. 00:00:33.349 --> 00:00:35.306 Vemos que no hay ningún documento publicado allí. 00:00:35.975 --> 00:00:39.426 Se hizo un experimento sobre algún algoritmo de búsqueda 00:00:39.426 --> 00:00:41.081 y la cuestión era... 00:00:42.581 --> 00:00:45.492 se trataba de clasificar cosas y cambiar la clasificación. 00:00:45.990 --> 00:00:47.163 Y estaba más o menos claro 00:00:47.163 --> 00:00:50.271 que iba a haber mucha heterogeneidad. 00:00:51.117 --> 00:00:55.864 Si buscas, digamos, 00:00:58.122 --> 00:01:00.640 una foto de Britney Spears, 00:01:00.640 --> 00:01:02.505 realmente no importa dónde la clasifiques 00:01:02.505 --> 00:01:05.214 porque vas a encontrar lo que estás buscando, 00:01:05.736 --> 00:01:07.058 ya sea que la clasifiques 00:01:07.058 --> 00:01:09.744 en primera, segunda o tercera posición. 00:01:10.027 --> 00:01:12.346 Pero si estás buscando el mejor libro de econometría, 00:01:12.346 --> 00:01:16.510 si pones tu libro en primer lugar o en el décimo, 00:01:16.510 --> 00:01:18.140 eso va a suponer una gran diferencia 00:01:18.140 --> 00:01:19.835 en la frecuencia 00:01:19.835 --> 00:01:21.286 con la que la gente hará clic en él. 00:01:22.089 --> 00:01:23.312 Así que ahí-- 00:01:23.312 --> 00:01:24.326 [Josh] ¿Por qué necesito 00:01:24.326 --> 00:01:27.314 el aprendizaje automático para descubrir eso? 00:01:27.314 --> 00:01:29.463 Porque parece que puedo descubrirlo de forma sencilla. 00:01:29.463 --> 00:01:30.517 - [Guido] En general-- 00:01:30.517 --> 00:01:32.233 - [Josh] Había un montón de posibles-- 00:01:32.233 --> 00:01:34.233 - [Guido]...quieres pensar que los artículos 00:01:34.233 --> 00:01:37.092 tienen montón de características, 00:01:37.092 --> 00:01:38.940 que quieres entender 00:01:38.940 --> 00:01:43.650 lo que impulsa la heterogeneidad en el efecto de-- 00:01:43.669 --> 00:01:44.876 - Pero solo estás prediciendo. 00:01:44.876 --> 00:01:46.057 En cierto sentido, 00:01:46.057 --> 00:01:47.793 estás resolviendo un problema de marketing. 00:01:47.793 --> 00:01:49.210 - No, es un efecto causal, 00:01:49.210 --> 00:01:51.738 - Es causal, pero no tiene contenido científico. 00:01:51.738 --> 00:01:52.809 Piensa en-- 00:01:53.669 --> 00:01:57.243 - No, pero hay cosas similares en el ámbito médico. 00:01:57.693 --> 00:01:59.312 Si haces un experimento, 00:01:59.312 --> 00:02:02.492 puedes estar muy interesado en si el tratamiento funciona 00:02:02.492 --> 00:02:03.821 para algunos grupos o no. 00:02:03.821 --> 00:02:05.946 Y tienes un montón de características individuales, 00:02:05.946 --> 00:02:08.109 y quieres buscar sistemáticamente-- 00:02:08.109 --> 00:02:09.883 - Sí. Tengo mis dudas sobre esa... 00:02:09.883 --> 00:02:12.588 esa especie de idea de que hay un efecto causal personal 00:02:12.588 --> 00:02:13.902 que me debería importar 00:02:13.902 --> 00:02:15.164 y que el aprendizaje automático 00:02:15.164 --> 00:02:17.103 puede descubrirlo de alguna manera que sea útil. 00:02:17.517 --> 00:02:18.678 Así que piensa en-- 00:02:18.678 --> 00:02:20.182 he trabajado mucho en las escuelas, 00:02:20.182 --> 00:02:22.358 yendo a, digamos, una escuela chárter, 00:02:22.358 --> 00:02:24.498 una escuela privada financiada con fondos públicos, 00:02:24.780 --> 00:02:27.392 efectivamente, que es libre de estructurar 00:02:27.392 --> 00:02:29.587 su propio plan de estudios en función del contexto. 00:02:29.587 --> 00:02:30.938 Algunos tipos de escuelas chárter 00:02:30.938 --> 00:02:33.379 consiguen un rendimiento espectacular 00:02:33.379 --> 00:02:36.321 y en el conjunto de datos que produce ese resultado, 00:02:36.321 --> 00:02:37.968 tengo un montón de covariables. 00:02:37.968 --> 00:02:39.584 Tengo las puntuaciones de referencia 00:02:39.584 --> 00:02:41.321 y los antecedentes familiares, 00:02:41.321 --> 00:02:45.524 la educación de los padres, el sexo del niño, la raza del niño. 00:02:46.060 --> 00:02:49.758 Y, bueno, en cuanto reúno media docena de ellas, 00:02:49.758 --> 00:02:51.751 tengo un espacio de muy alta dimensión. 00:02:52.391 --> 00:02:55.394 Sin duda, me interesan las características del curso 00:02:55.394 --> 00:02:56.803 de ese efecto del tratamiento, 00:02:56.803 --> 00:02:58.688 como por ejemplo, si es mejor para las personas 00:02:58.688 --> 00:03:02.054 que provienen de familias con menores ingresos. 00:03:02.377 --> 00:03:05.656 Me cuesta creer que haya una aplicación 00:03:05.656 --> 00:03:09.970 para la versión de muy alta dimensión, 00:03:09.970 --> 00:03:12.499 en la que descubrí que para los niños no blancos 00:03:12.499 --> 00:03:15.028 que tienen ingresos familiares altos 00:03:15.028 --> 00:03:17.747 pero puntuaciones de referencia en el tercer cuartil 00:03:17.747 --> 00:03:20.535 y que solo fueron a la escuela pública 00:03:20.535 --> 00:03:23.128 en el tercer grado pero no en el sexto. 00:03:23.128 --> 00:03:25.681 Así que eso es lo que produce ese análisis de alta dimensión. 00:03:25.681 --> 00:03:27.938 Es una declaración condicional muy elaborada. 00:03:27.938 --> 00:03:30.702 Hay dos cosas que están mal, en mi opinión. 00:03:30.702 --> 00:03:32.418 En primer lugar, no lo veo como-- 00:03:32.418 --> 00:03:34.492 no puedo imaginar por qué es algo procesable. 00:03:34.492 --> 00:03:36.518 No sé por qué querrías actuar sobre ello. 00:03:36.518 --> 00:03:39.381 Y también sé que hay algún modelo alternativo 00:03:39.381 --> 00:03:42.856 que encaja casi igual de bien, que lo invierte todo. 00:03:42.978 --> 00:03:44.591 Porque el aprendizaje automático 00:03:44.591 --> 00:03:48.473 no me dice que este es realmente el predictor que importa, 00:03:48.473 --> 00:03:50.779 solo me dice que este es un buen predictor. 00:03:51.396 --> 00:03:54.875 Así que creo, que hay algo diferente 00:03:54.875 --> 00:03:57.688 en el contexto de las ciencias sociales. 00:03:57.688 --> 00:04:00.270 - [Guido] Creo que las aplicaciones de las ciencias sociales 00:04:00.270 --> 00:04:03.922 de las que hablas son aquellas en las que, creo, 00:04:03.922 --> 00:04:07.923 no hay una gran cantidad de heterogeneidad en los efectos. 00:04:09.760 --> 00:04:13.610 - [Josh] Bueno, podría haberla si me permites llenar ese espacio. 00:04:13.610 --> 00:04:15.648 - No... ni siquiera entonces. 00:04:15.648 --> 00:04:18.506 Creo que para muchas de esas intervenciones, 00:04:18.506 --> 00:04:22.840 se espera que el efecto sea del mismo signo para todos. 00:04:23.055 --> 00:04:27.320 Puede haber pequeñas diferencias en la magnitud, pero no es... 00:04:27.576 --> 00:04:29.968 Porque muchas de estas diferencias educativas 00:04:29.968 --> 00:04:31.612 son buenas para todos. 00:04:31.612 --> 00:04:35.932 No es que sean malas para algunas personas 00:04:35.932 --> 00:04:37.408 y buenas para otras 00:04:37.408 --> 00:04:39.797 y en algunos pequeños casos pueden ser malas. 00:04:40.189 --> 00:04:43.633 Pero puede haber algo de variación en la magnitud, 00:04:43.633 --> 00:04:44.808 pero se necesitarían 00:04:44.808 --> 00:04:47.019 conjuntos de datos muy muy grandes para encontrarlos. 00:04:47.019 --> 00:04:48.985 Estoy de acuerdo en que, en esos casos, 00:04:48.985 --> 00:04:51.393 probablemente no serían muy procesables de todos modos. 00:04:51.881 --> 00:04:54.075 Pero creo que hay muchos otros escenarios 00:04:54.075 --> 00:04:56.483 donde hay mucha más heterogeneidad. 00:04:56.736 --> 00:04:59.164 - Bueno, estoy abierto a esa posibilidad 00:04:59.164 --> 00:05:00.977 y creo que el ejemplo que has dado 00:05:00.977 --> 00:05:04.857 es esencialmente un ejemplo de marketing. 00:05:05.938 --> 00:05:09.714 - No, esos tienen implicaciones para ello 00:05:09.714 --> 00:05:11.596 y esa es la organización, 00:05:11.596 --> 00:05:15.358 si tienes que preocuparte por la-- 00:05:15.358 --> 00:05:17.857 - Bueno, necesito ver ese documento. 00:05:18.289 --> 00:05:21.490 - Así que, la sensación que tengo es que... 00:05:21.490 --> 00:05:23.371 - Todavía no estamos de acuerdo en algo. 00:05:23.371 --> 00:05:25.735 - Sí. - No hemos coincidido en todo. 00:05:25.735 --> 00:05:27.393 - Tengo esa sensación. [risas] 00:05:27.393 --> 00:05:29.047 - En realidad, hemos discrepado en esto 00:05:29.047 --> 00:05:30.729 porque no estaba para discutir. 00:05:30.729 --> 00:05:33.144 [risas] 00:05:33.144 --> 00:05:35.060 - ¿Se está poniendo algo caluroso aquí? 00:05:35.720 --> 00:05:37.854 - Caluroso. Es bueno que esté caluroso. 00:05:37.854 --> 00:05:39.501 La sensación que tengo es, Josh, 00:05:39.501 --> 00:05:41.951 que no estás diciendo que estás seguro 00:05:41.951 --> 00:05:44.159 de que no hay manera de que haya una aplicación 00:05:44.159 --> 00:05:45.667 en la que estas cosas sean útiles. 00:05:45.667 --> 00:05:47.169 Estás diciendo que no estás convencido 00:05:47.169 --> 00:05:49.444 con las aplicaciones existentes hasta la fecha. 00:05:49.907 --> 00:05:53.907 - Es justo. 99:59:59.999 --> 99:59:59.999 - Estoy muy seguro. 99:59:59.999 --> 99:59:59.999 [risas] 99:59:59.999 --> 99:59:59.999 - En este caso. 99:59:59.999 --> 99:59:59.999 - Creo que Josh tiene un punto que incluso en los casos de predicción donde muchos de los métodos de aprendizaje de la máquina realmente brillan es donde hay un montón de heterogeneidad. 99:59:59.999 --> 99:59:59.999 - No te importan mucho los detalles, ¿verdad? 99:59:59.999 --> 99:59:59.999 - [Guido] Sí. 99:59:59.999 --> 99:59:59.999 - No tiene un ángulo de política o algo así. 99:59:59.999 --> 99:59:59.999 99:59:59.999 --> 99:59:59.999 99:59:59.999 --> 99:59:59.999