1 00:00:00,000 --> 00:00:03,138 ♪ (música) ♪ 2 00:00:03,394 --> 00:00:05,633 - [Narradora] Bienvenidos a Nobel Conversations. 3 00:00:06,992 --> 00:00:10,093 En este episodio, Josh Angrist y Guido Imbens 4 00:00:10,093 --> 00:00:13,366 se reúnen con Isaiah Andrews para discutir y discrepar 5 00:00:13,366 --> 00:00:15,221 sobre el papel del aprendizaje automático 6 00:00:15,221 --> 00:00:16,816 en la econometría aplicada. 7 00:00:17,894 --> 00:00:19,896 - [Isaiah] Bien. Por supuesto que hay muchos temas 8 00:00:19,896 --> 00:00:21,465 en los que ustedes están muy de acuerdo, 9 00:00:21,465 --> 00:00:22,595 pero me gustaría pasar a uno 10 00:00:22,595 --> 00:00:24,365 sobre el que tal vez opinen algo distinto. 11 00:00:24,365 --> 00:00:26,103 Me gustaría escuchar algunas de sus opiniones 12 00:00:26,103 --> 00:00:27,319 sobre el aprendizaje automático 13 00:00:27,319 --> 00:00:30,257 y el papel que desempeña y desempeñará en la economía. 14 00:00:30,257 --> 00:00:31,858 - [Guido] He consultado algunos datos, 15 00:00:31,858 --> 00:00:33,349 como los datos privados. 16 00:00:33,349 --> 00:00:35,306 Vemos que no hay ningún documento publicado allí. 17 00:00:35,975 --> 00:00:39,426 Se hizo un experimento sobre algún algoritmo de búsqueda 18 00:00:39,426 --> 00:00:41,081 y la cuestión era... 19 00:00:42,581 --> 00:00:45,492 se trataba de clasificar cosas y cambiar la clasificación. 20 00:00:45,990 --> 00:00:47,163 Y estaba más o menos claro 21 00:00:47,163 --> 00:00:50,271 que iba a haber mucha heterogeneidad. 22 00:00:51,117 --> 00:00:55,864 Si buscas, digamos, 23 00:00:58,122 --> 00:01:00,640 una foto de Britney Spears, 24 00:01:00,640 --> 00:01:02,505 realmente no importa dónde la clasifiques 25 00:01:02,505 --> 00:01:05,214 porque vas a encontrar lo que estás buscando, 26 00:01:05,736 --> 00:01:07,058 ya sea que la clasifiques 27 00:01:07,058 --> 00:01:09,744 en primera, segunda o tercera posición. 28 00:01:10,027 --> 00:01:12,346 Pero si estás buscando el mejor libro de econometría, 29 00:01:12,346 --> 00:01:16,510 si pones tu libro en primer lugar o en el décimo, 30 00:01:16,510 --> 00:01:18,140 eso va a suponer una gran diferencia 31 00:01:18,140 --> 00:01:19,835 en la frecuencia 32 00:01:19,835 --> 00:01:21,286 con la que la gente hará clic en él. 33 00:01:22,089 --> 00:01:23,312 Así que ahí-- 34 00:01:23,312 --> 00:01:24,326 [Josh] ¿Por qué necesito 35 00:01:24,326 --> 00:01:27,314 el aprendizaje automático para descubrir eso? 36 00:01:27,314 --> 00:01:29,463 Porque parece que puedo descubrirlo de forma sencilla. 37 00:01:29,463 --> 00:01:30,517 - [Guido] En general-- 38 00:01:30,517 --> 00:01:32,233 - [Josh] Había un montón de posibles-- 39 00:01:32,233 --> 00:01:34,233 - [Guido]...quieres pensar que los artículos 40 00:01:34,233 --> 00:01:37,092 tienen montón de características, 41 00:01:37,092 --> 00:01:38,940 que quieres entender 42 00:01:38,940 --> 00:01:43,650 lo que impulsa la heterogeneidad en el efecto de-- 43 00:01:43,669 --> 00:01:44,876 - Pero solo estás prediciendo. 44 00:01:44,876 --> 00:01:46,057 En cierto sentido, 45 00:01:46,057 --> 00:01:47,793 estás resolviendo un problema de marketing. 46 00:01:47,793 --> 00:01:49,210 - No, es un efecto causal, 47 00:01:49,210 --> 00:01:51,738 - Es causal, pero no tiene contenido científico. 48 00:01:51,738 --> 00:01:52,809 Piensa en-- 49 00:01:53,669 --> 00:01:57,243 - No, pero hay cosas similares en el ámbito médico. 50 00:01:57,693 --> 00:01:59,312 Si haces un experimento, 51 00:01:59,312 --> 00:02:02,492 puedes estar muy interesado en si el tratamiento funciona 52 00:02:02,492 --> 00:02:03,821 para algunos grupos o no. 53 00:02:03,821 --> 00:02:05,946 Y tienes un montón de características individuales, 54 00:02:05,946 --> 00:02:08,109 y quieres buscar sistemáticamente-- 55 00:02:08,109 --> 00:02:09,883 - Sí. Tengo mis dudas sobre esa... 56 00:02:09,883 --> 00:02:12,588 esa especie de idea de que hay un efecto causal personal 57 00:02:12,588 --> 00:02:13,902 que me debería importar 58 00:02:13,902 --> 00:02:15,164 y que el aprendizaje automático 59 00:02:15,164 --> 00:02:17,103 puede descubrirlo de alguna manera que sea útil. 60 00:02:17,517 --> 00:02:18,678 Así que piensa en-- 61 00:02:18,678 --> 00:02:20,182 he trabajado mucho en las escuelas, 62 00:02:20,182 --> 00:02:22,358 yendo a, digamos, una escuela chárter, 63 00:02:22,358 --> 00:02:24,498 una escuela privada financiada con fondos públicos, 64 00:02:24,780 --> 00:02:27,392 efectivamente, que es libre de estructurar 65 00:02:27,392 --> 00:02:29,587 su propio plan de estudios en función del contexto. 66 00:02:29,587 --> 00:02:30,938 Algunos tipos de escuelas chárter 67 00:02:30,938 --> 00:02:33,379 consiguen un rendimiento espectacular 68 00:02:33,379 --> 00:02:36,321 y en el conjunto de datos que produce ese resultado, 69 00:02:36,321 --> 00:02:37,968 tengo un montón de covariables. 70 00:02:37,968 --> 00:02:39,584 Tengo las puntuaciones de referencia 71 00:02:39,584 --> 00:02:41,321 y los antecedentes familiares, 72 00:02:41,321 --> 00:02:45,524 la educación de los padres, el sexo del niño, la raza del niño. 73 00:02:46,060 --> 00:02:49,758 Y, bueno, en cuanto reúno media docena de ellas, 74 00:02:49,758 --> 00:02:51,751 tengo un espacio de muy alta dimensión. 75 00:02:52,391 --> 00:02:55,394 Sin duda, me interesan las características del curso 76 00:02:55,394 --> 00:02:56,803 de ese efecto del tratamiento, 77 00:02:56,803 --> 00:02:58,688 como por ejemplo, si es mejor para las personas 78 00:02:58,688 --> 00:03:02,054 que provienen de familias con menores ingresos. 79 00:03:02,377 --> 00:03:05,656 Me cuesta creer que haya una aplicación 80 00:03:05,656 --> 00:03:09,970 para la versión de muy alta dimensión, 81 00:03:09,970 --> 00:03:12,499 en la que descubrí que para los niños no blancos 82 00:03:12,499 --> 00:03:15,028 que tienen ingresos familiares altos 83 00:03:15,028 --> 00:03:17,747 pero puntuaciones de referencia en el tercer cuartil 84 00:03:17,747 --> 00:03:20,535 y que solo fueron a la escuela pública 85 00:03:20,535 --> 00:03:23,128 en el tercer grado pero no en el sexto. 86 00:03:23,128 --> 00:03:25,681 Así que eso es lo que produce ese análisis de alta dimensión. 87 00:03:25,681 --> 00:03:27,938 Es una declaración condicional muy elaborada. 88 00:03:27,938 --> 00:03:30,702 Hay dos cosas que están mal, en mi opinión. 89 00:03:30,702 --> 00:03:32,418 En primer lugar, no lo veo como-- 90 00:03:32,418 --> 00:03:34,492 no puedo imaginar por qué es algo procesable. 91 00:03:34,492 --> 00:03:36,518 No sé por qué querrías actuar sobre ello. 92 00:03:36,518 --> 00:03:39,381 Y también sé que hay algún modelo alternativo 93 00:03:39,381 --> 00:03:42,856 que encaja casi igual de bien, que lo invierte todo. 94 00:03:42,978 --> 00:03:44,591 Porque el aprendizaje automático 95 00:03:44,591 --> 00:03:48,473 no me dice que este es realmente el predictor que importa, 96 00:03:48,473 --> 00:03:50,779 solo me dice que este es un buen predictor. 97 00:03:51,396 --> 00:03:54,875 Así que creo, que hay algo diferente 98 00:03:54,875 --> 00:03:57,688 en el contexto de las ciencias sociales. 99 00:03:57,688 --> 00:04:00,270 - [Guido] Creo que las aplicaciones de las ciencias sociales 100 00:04:00,270 --> 00:04:03,922 de las que hablas son aquellas en las que, creo, 101 00:04:03,922 --> 00:04:07,923 no hay una gran cantidad de heterogeneidad en los efectos. 102 00:04:09,760 --> 00:04:13,610 - [Josh] Bueno, podría haberla si me permites llenar ese espacio. 103 00:04:13,610 --> 00:04:15,648 - No... ni siquiera entonces. 104 00:04:15,648 --> 00:04:18,506 Creo que para muchas de esas intervenciones, 105 00:04:18,506 --> 00:04:22,840 se espera que el efecto sea del mismo signo para todos. 106 00:04:23,055 --> 00:04:27,320 Puede haber pequeñas diferencias en la magnitud, pero no es... 107 00:04:27,576 --> 00:04:29,968 Porque muchas de estas diferencias educativas 108 00:04:29,968 --> 00:04:31,612 son buenas para todos. 109 00:04:31,612 --> 00:04:35,932 No es que sean malas para algunas personas 110 00:04:35,932 --> 00:04:37,408 y buenas para otras 111 00:04:37,408 --> 00:04:39,797 y en algunos pequeños casos pueden ser malas. 112 00:04:40,189 --> 00:04:43,633 Pero puede haber algo de variación en la magnitud, 113 00:04:43,633 --> 00:04:44,808 pero se necesitarían 114 00:04:44,808 --> 00:04:47,019 conjuntos de datos muy muy grandes para encontrarlos. 115 00:04:47,019 --> 00:04:48,985 Estoy de acuerdo en que, en esos casos, 116 00:04:48,985 --> 00:04:51,393 probablemente no serían muy procesables de todos modos. 117 00:04:51,881 --> 00:04:54,075 Pero creo que hay muchos otros escenarios 118 00:04:54,075 --> 00:04:56,483 donde hay mucha más heterogeneidad. 119 00:04:56,736 --> 00:04:59,164 - Bueno, estoy abierto a esa posibilidad 120 00:04:59,164 --> 00:05:00,977 y creo que el ejemplo que has dado 121 00:05:00,977 --> 00:05:04,857 es esencialmente un ejemplo de marketing. 122 00:05:05,938 --> 00:05:09,714 - No, esos tienen implicaciones para ello 123 00:05:09,714 --> 00:05:11,596 y esa es la organización, 124 00:05:11,596 --> 00:05:15,358 si tienes que preocuparte por la-- 125 00:05:15,358 --> 00:05:17,857 - Bueno, necesito ver ese documento. 126 00:05:18,289 --> 00:05:21,490 - Así que, la sensación que tengo es que... 127 00:05:21,490 --> 00:05:23,371 - Todavía no estamos de acuerdo en algo. 128 00:05:23,371 --> 00:05:25,735 - Sí. - No hemos coincidido en todo. 129 00:05:25,735 --> 00:05:27,393 - Tengo esa sensación. [risas] 130 00:05:27,393 --> 00:05:29,047 - En realidad, hemos discrepado en esto 131 00:05:29,047 --> 00:05:30,729 porque no estaba para discutir. 132 00:05:30,729 --> 00:05:33,144 [risas] 133 00:05:33,144 --> 00:05:35,060 - ¿Se está poniendo algo caluroso aquí? 134 00:05:35,720 --> 00:05:37,854 - Caluroso. Es bueno que esté caluroso. 135 00:05:37,854 --> 00:05:39,501 La sensación que tengo es, Josh, 136 00:05:39,501 --> 00:05:41,951 que no estás diciendo que estás seguro 137 00:05:41,951 --> 00:05:44,159 de que no hay manera de que haya una aplicación 138 00:05:44,159 --> 00:05:45,667 en la que estas cosas sean útiles. 139 00:05:45,667 --> 00:05:47,169 Estás diciendo que no estás convencido 140 00:05:47,169 --> 00:05:49,444 con las aplicaciones existentes hasta la fecha. 141 00:05:49,907 --> 00:05:53,907 - Es justo. 142 99:59:59,999 --> 99:59:59,999 - Estoy muy seguro. 143 99:59:59,999 --> 99:59:59,999 [risas] 144 99:59:59,999 --> 99:59:59,999 - En este caso. 145 99:59:59,999 --> 99:59:59,999 - Creo que Josh tiene un punto que incluso en los casos de predicción donde muchos de los métodos de aprendizaje de la máquina realmente brillan es donde hay un montón de heterogeneidad. 146 99:59:59,999 --> 99:59:59,999 - No te importan mucho los detalles, ¿verdad? 147 99:59:59,999 --> 99:59:59,999 - [Guido] Sí. 148 99:59:59,999 --> 99:59:59,999 - No tiene un ángulo de política o algo así. 149 99:59:59,999 --> 99:59:59,999 150 99:59:59,999 --> 99:59:59,999 151 99:59:59,999 --> 99:59:59,999