¿Qué hemos aprendido de 5 millones de libros?
-
0:00 - 0:02Erez Lieberman Aiden: Todo el mundo sabe
-
0:02 - 0:05que una imagen vale más que mil palabras.
-
0:07 - 0:09Pero en Harvard
-
0:09 - 0:12nos preguntábamos si realmente es verdad.
-
0:12 - 0:14(Risas)
-
0:14 - 0:18Así que reunimos a un equipo de expertos
-
0:18 - 0:20de Harvard, del MIT
-
0:20 - 0:23de "The American Heritage Dictionary", de la Enciclopedia Británica
-
0:23 - 0:25e incluso de nuestros patrocinadores:
-
0:25 - 0:28Google.
-
0:28 - 0:30Y meditamos sobre esto
-
0:30 - 0:32durante unos 4 años
-
0:32 - 0:37hasta llegar a una conclusión sorprendente.
-
0:37 - 0:40Damas y caballeros: una imagen no vale más que mil palabras.
-
0:40 - 0:42De hecho, hallamos que algunas imágenes
-
0:42 - 0:47valen 500.000 millones de palabras.
-
0:47 - 0:49Jean-Baptiste Michel: ¿Cómo llegamos a esta conclusión?
-
0:49 - 0:51Erez y yo estábamos pensando formas
-
0:51 - 0:53de ver el panorama general de la cultura humana
-
0:53 - 0:56y de la historia humana: su cambio en el tiempo.
-
0:56 - 0:58Se han escrito muchos libros en los últimos años.
-
0:58 - 1:00Así que estábamos pensando que la mejor forma de aprender de ellos
-
1:00 - 1:02es leyendo estos millones de libros.
-
1:02 - 1:05Por supuesto, si existe una escala de lo impresionante,
-
1:05 - 1:08ese tiene que estar posicionado muy, muy arriba.
-
1:08 - 1:10Pero el problema es que hay un eje X
-
1:10 - 1:12que es el eje de lo práctico.
-
1:12 - 1:14Este está muy, muy abajo.
-
1:14 - 1:17(Aplausos)
-
1:17 - 1:20Ahora bien, la gente suele usar un enfoque alternativo:
-
1:20 - 1:22tener pocas fuentes y leerlas con mucho cuidado.
-
1:22 - 1:24Esto es muy práctico pero no tan impresionante.
-
1:24 - 1:27Lo que realmente queremos
-
1:27 - 1:30es llegar a lo impresionante y práctico.
-
1:30 - 1:33Y resulta que había una empresa del otro lado del río llamada Google
-
1:33 - 1:35que hace unos años había comenzado un proyecto de digitalización
-
1:35 - 1:37que podría permitir este enfoque.
-
1:37 - 1:39Ellos han digitalizado millones de libros.
-
1:39 - 1:42Eso significa que uno podría usar métodos computacionales
-
1:42 - 1:44para leer todos los libros con el clic de un botón.
-
1:44 - 1:47Eso es muy práctico y sumamente impresionante.
-
1:48 - 1:50ELA: Ahora les voy a contar un poco de dónde vienen los libros.
-
1:50 - 1:53Desde la noche de los tiempos existen autores.
-
1:53 - 1:56Estos autores se han esforzado por escribir libros.
-
1:56 - 1:58Y eso se volvió considerablemente más fácil
-
1:58 - 2:00con el desarrollo de la imprenta hace algunos siglos.
-
2:00 - 2:03Desde entonces, los autores han tenido
-
2:03 - 2:05129 millones de ocasiones
-
2:05 - 2:07para publicar libros.
-
2:07 - 2:09Y si esos libros no se perdieron en la historia
-
2:09 - 2:11entonces están en alguna biblioteca
-
2:11 - 2:14y muchos de esos libros han sido recuperados de las bibliotecas
-
2:14 - 2:16y digitalizados por Google
-
2:16 - 2:18que ha escaneado 15 millones de libros hasta la fecha.
-
2:18 - 2:21Pero cuando Google digitaliza un libro lo pone en un formato muy bueno.
-
2:21 - 2:23Ahora tenemos los datos y tenemos metadatos.
-
2:23 - 2:26Tenemos información sobre cosas como el lugar de publicación
-
2:26 - 2:28el autor, fecha de publicación.
-
2:28 - 2:31Y recorremos todos esos registros,
-
2:31 - 2:35excluyendo todo lo que no tenga la más alta calidad.
-
2:35 - 2:37Lo que nos queda
-
2:37 - 2:40es una colección de 5 millones de libros
-
2:40 - 2:43500.000 millones de palabras,
-
2:43 - 2:45una cadena de caracteres mil veces más larga
-
2:45 - 2:48que el genoma humano;
-
2:48 - 2:50un texto que, de escribirlo,
-
2:50 - 2:52se extendería desde aquí hasta la luna ida y vuelta
-
2:52 - 2:5410 veces más...
-
2:54 - 2:58un verdadero fragmento de nuestro genoma cultural.
-
2:58 - 3:00Por supuesto lo que hicimos
-
3:00 - 3:03frente a tal extravagante hipérbole...
-
3:03 - 3:05(Risas)
-
3:05 - 3:08fue hacer lo que cualquier investigador que se respete
-
3:08 - 3:11habría hecho.
-
3:11 - 3:13Tomamos una página de XKDC,
-
3:13 - 3:15y dijimos: "Háganse a un lado.
-
3:15 - 3:17Vamos a intentar con la ciencia".
-
3:17 - 3:19(Risas)
-
3:19 - 3:21JM: Ahora, por supuesto, estábamos pensando:
-
3:21 - 3:23primero pongamos los datos allí
-
3:23 - 3:25para que la gente haga ciencia con eso.
-
3:25 - 3:27Ahora estamos pensando: ¿qué datos podemos liberar?
-
3:27 - 3:29Por supuesto, uno quiere tomar los libros
-
3:29 - 3:31y liberar el texto completo de estos 5 millones de libros.
-
3:31 - 3:33Pero Google, y Jon Orwant en particular,
-
3:33 - 3:35nos explicaron una pequeña ecuación:
-
3:35 - 3:385 millones de autores
-
3:38 - 3:41y 5 millones de demandantes, genera demandas masivas.
-
3:41 - 3:43Por eso aunque sea muy, muy impresionante
-
3:43 - 3:46de nuevo, es completamente impráctico.
-
3:46 - 3:48(Risas)
-
3:48 - 3:50Pero, de nuevo, cedimos
-
3:50 - 3:53y adoptamos un enfoque muy práctico, un poco menos impresionante.
-
3:53 - 3:55Dijimos: bueno, en vez de liberar todo el texto
-
3:55 - 3:57vamos a liberar estadísticas sobre los libros.
-
3:57 - 3:59Tomemos, por ejemplo, "un destello de felicidad".
-
3:59 - 4:01Tiene 4 palabras; lo denominamos cuatro-grama.
-
4:01 - 4:03Les vamos a contar cuántas veces aparece un cuatro-grama particular
-
4:03 - 4:05en libros en 1801, 1802, 1803,
-
4:05 - 4:07en cada año hasta 2008.
-
4:07 - 4:09Eso nos da series temporales
-
4:09 - 4:11de la frecuencia con que esta oración particular se usó en el tiempo.
-
4:11 - 4:14Hacemos eso para todas las palabras y frases que aparecen en esos libros
-
4:14 - 4:17y eso nos da una gran tabla de 2.000 millones de líneas
-
4:17 - 4:19que nos cuentan formas en las que fue cambiando la cultura.
-
4:19 - 4:21ELA: Esos dos millones de líneas
-
4:21 - 4:23se denominan 2 millones de n-gramas.
-
4:23 - 4:25¿Qué nos dicen?
-
4:25 - 4:27Los n-gramas individuales miden las tendencias culturales.
-
4:27 - 4:29Les daré un ejemplo.
-
4:29 - 4:31Supongamos que soy muy próspero
-
4:31 - 4:33y mañana quiero contarles lo bien que me fue.
-
4:33 - 4:36Podría decir: "Ayer prosperé".
-
4:36 - 4:39En inglés, prosperé ¿es 'throve' o 'thrived'?
-
4:39 - 4:42¿Cuál debería usar?
-
4:42 - 4:44¿Cómo saberlo?
-
4:44 - 4:46Desde hace unos 6 meses
-
4:46 - 4:48la vanguardia en este campo
-
4:48 - 4:50dice que, por ejemplo,
-
4:50 - 4:52uno tiene que ir a ese psicólogo de pelo fabuloso
-
4:52 - 4:54y decirle:
-
4:54 - 4:57"Steve, eres experto en verbos irregulares.
-
4:57 - 4:59¿Qué debería hacer?"
-
4:59 - 5:01Y él dirá: "Bueno la mayoría de la gente dice 'thrive'
-
5:01 - 5:04pero alguna gente dice 'throve'".
-
5:04 - 5:06Y también sabían, más o menos,
-
5:06 - 5:09que si retrocedieran en el tiempo 200 años
-
5:09 - 5:12y le preguntaran a este estadista de pelo fabuloso,
-
5:12 - 5:15(Risas)
-
5:15 - 5:17"Tom, ¿cómo debería decir?"
-
5:17 - 5:19Diría: "Bueno, en mis tiempos era 'throve'
-
5:19 - 5:22pero había 'thrived'".
-
5:22 - 5:24Por eso ahora voy a mostrar los datos en crudo.
-
5:24 - 5:28Dos filas de esta tabla de 2.000 millones de entradas.
-
5:28 - 5:30Lo que están viendo es la frecuencia año por año
-
5:30 - 5:33de 'thrived' y 'throve' en el tiempo.
-
5:34 - 5:36Estas son sólo 2
-
5:36 - 5:39de 2.000 millones de filas.
-
5:39 - 5:41Así que el set de datos entero
-
5:41 - 5:44es mil millones de veces más impresionante que esta diapositiva.
-
5:44 - 5:46(Risas)
-
5:46 - 5:50(Aplausos)
-
5:50 - 5:52JM: Ahora bien, hay muchas otras imágenes que valen 500.000 millones de palabras.
-
5:52 - 5:54Por ejemplo, ésta.
-
5:54 - 5:56Si uno toma el caso de la gripe,
-
5:56 - 5:58verá picos en el tiempo en el que se sabía
-
5:58 - 6:01de la muerte por grandes epidemias de gripe en todo el mundo.
-
6:01 - 6:04ELA: Si todavía no están convencidos,
-
6:04 - 6:06los niveles del mar están subiendo,
-
6:06 - 6:09y también el CO2 en la atmósfera y la temperatura del planeta.
-
6:09 - 6:12JM: Puede ser que también deseen echar un vistazo a estos n-gramas,
-
6:12 - 6:15para decirle a Nietzsche que Dios no está muerto,
-
6:15 - 6:18aunque, estamos de acuerdo, necesitaría un mejor publicista.
-
6:18 - 6:20(Risas)
-
6:20 - 6:23ELA: Con este tipo de cosas se puede llegar a conceptos bastante abstractos.
-
6:23 - 6:25Por ejemplo, tenemos la historia
-
6:25 - 6:27del año 1950.
-
6:27 - 6:29En general para la gran mayoría de la historia
-
6:29 - 6:31a nadie le importa un comino 1950.
-
6:31 - 6:33En 1700, en 1800, en 1900,
-
6:33 - 6:36a nadie le importa.
-
6:37 - 6:39Entre los años 30 y 40
-
6:39 - 6:41a nadie le importa.
-
6:41 - 6:43De repente, a mediados de los 40,
-
6:43 - 6:45empezó a desatarse un rumor.
-
6:45 - 6:47La gente se dio cuenta que venía 1950
-
6:47 - 6:49y quizá era algo genial.
-
6:49 - 6:52(Risas)
-
6:52 - 6:55Pero nada cautivó el interés de la gente en 1950
-
6:55 - 6:58tanto como el año 1950.
-
6:58 - 7:01(Risas)
-
7:01 - 7:03La gente iba por ahí obsesionada.
-
7:03 - 7:05No podía parar de pensar
-
7:05 - 7:08en todo lo que hicieron en 1950
-
7:08 - 7:11todas las cosas que planeaban hacer en 1950
-
7:11 - 7:16todos los sueños que querían cumplir en 1950.
-
7:16 - 7:18De hecho, 1950 fue tan fascinante
-
7:18 - 7:20que en los años sucesivos
-
7:20 - 7:23la gente siguió hablando de las cosas sorprendentes que sucedieron
-
7:23 - 7:25en el 51, 52, 53.
-
7:25 - 7:27Finalmente, en 1954,
-
7:27 - 7:29alguien despertó y se dio cuenta
-
7:29 - 7:33que 1950 ya estaba un poco pasado de moda.
-
7:33 - 7:35(Risas)
-
7:35 - 7:37Y, así porque sí, estalló la burbuja.
-
7:37 - 7:39(Risas)
-
7:39 - 7:41Y la historia de 1950
-
7:41 - 7:43es la historia de cada año que tenemos registrado
-
7:43 - 7:46con un pequeño giro, porque ahora contamos con estos lindos gráficos.
-
7:46 - 7:49Y, porque los tenemos, podemos medir cosas.
-
7:49 - 7:51Podemos decir: "Bueno, ¿a qué velocidad estalla la burbuja?"
-
7:51 - 7:54Y resulta que podemos medir con mucha precisión.
-
7:54 - 7:57Se derivaron ecuaciones, se hicieron gráficos,
-
7:57 - 7:59y el resultado neto
-
7:59 - 8:02es que hallamos que la burbuja estalla cada vez más rápidamente
-
8:02 - 8:04con cada año que pasa.
-
8:04 - 8:09Estamos perdiendo interés por el pasado más rápidamente.
-
8:09 - 8:11JM: Ahora un pequeño consejo de carrera.
-
8:11 - 8:13Para los que buscan ser famosos
-
8:13 - 8:15podemos aprender de los 25 personajes políticos más famosos:
-
8:15 - 8:17autores, actores, etc.
-
8:17 - 8:20Si quieren llegar a ser famosos desde temprano, deberían ser actores
-
8:20 - 8:22porque empiezan a tener fama al final de los ventipico...
-
8:22 - 8:24todavía son jóvenes, es genial.
-
8:24 - 8:26Ahora, si pueden esperar un poquito, deberían ser autores
-
8:26 - 8:28porque entonces alcanzarían grandes alturas
-
8:28 - 8:30como Mark Twain, por ejemplo, que es sumamente famoso.
-
8:30 - 8:32Pero si quieren llegar realmente a la cima
-
8:32 - 8:34deberían demorar la gratificación
-
8:34 - 8:36y, claro, ser políticos.
-
8:36 - 8:38En este caso se harán famosos al final de los 50 y tantos
-
8:38 - 8:40y se volverán muy, muy famosos en lo sucesivo.
-
8:40 - 8:43Los científicos suelen hacerse famosos cuando son mucho mayores.
-
8:43 - 8:45Por ejemplo, los biólogos y los físicos
-
8:45 - 8:47suelen ser casi tan famosos como los actores.
-
8:47 - 8:50Un error que no deben cometer es ser matemáticos.
-
8:50 - 8:52(Risas)
-
8:52 - 8:54Si lo hacen
-
8:54 - 8:57podrían pensar: "Oh, genial. Voy a hacer mi mejor trabajo a los ventipico".
-
8:57 - 8:59Pero adivinen qué; a nadie le importará.
-
8:59 - 9:02(Risas)
-
9:02 - 9:04ELA: Hay notas más preocupantes
-
9:04 - 9:06entre los n-gramas.
-
9:06 - 9:08Por ejemplo, esta es la trayectoria de Marc Chagall,
-
9:08 - 9:10un artista nacido en 1887.
-
9:10 - 9:13Parece la trayectoria normal de un famoso.
-
9:13 - 9:17Se hace cada vez más y más famoso
-
9:17 - 9:19salvo que miremos en alemán.
-
9:19 - 9:21Si miramos en alemán vamos a notar algo muy extraño,
-
9:21 - 9:23algo casi nunca visto
-
9:23 - 9:25y es que se vuelve sumamente famoso
-
9:25 - 9:27y de repente se desploma
-
9:27 - 9:30cayendo al punto más bajo entre 1933 y 1945,
-
9:30 - 9:33y después se recupera.
-
9:33 - 9:35Por supuesto, lo que vemos
-
9:35 - 9:38es que, de hecho, Marc Chagall era un artista judío
-
9:38 - 9:40en la Alemania nazi.
-
9:40 - 9:42Estas señales
-
9:42 - 9:44son tan fuertes, en realidad,
-
9:44 - 9:47que no hace falta saber que alguien fue censurado.
-
9:47 - 9:49Podemos averiguarlo
-
9:49 - 9:51mediante procesamiento básico de señales.
-
9:51 - 9:53Esta es una manera simple de hacerlo.
-
9:53 - 9:55Una expectativa razonable
-
9:55 - 9:57es que la fama de alguien en un período dado de tiempo
-
9:57 - 9:59debería ser aproximadamente el promedio de su fama antes
-
9:59 - 10:01y su fama después de eso.
-
10:01 - 10:03Es más o menos lo que esperamos.
-
10:03 - 10:06Comparamos eso con la fama que observamos
-
10:06 - 10:08y dividimos una por otra
-
10:08 - 10:10para producir algo que llamamos «índice de represión».
-
10:10 - 10:13Si el índice de represión es muy, muy, muy pequeño
-
10:13 - 10:15podrían estar reprimiéndote.
-
10:15 - 10:18Si es muy grande, quizá uno se está beneficiando de la propaganda.
-
10:19 - 10:21JM: Ahora bien, podemos mirar
-
10:21 - 10:24la distribución de los índices de represión en poblaciones enteras.
-
10:24 - 10:26Así, por ejemplo, aquí...
-
10:26 - 10:28este índice de represión es para 5.000 personas
-
10:28 - 10:30calculado sobre libros de inglés, donde no hay represión conocida,
-
10:30 - 10:32sería algo así, bastante centrado en el uno.
-
10:32 - 10:34Lo que uno espera es básicamente lo que observa.
-
10:34 - 10:36Esta es la distribución como se ve en Alemania...
-
10:36 - 10:38muy diferente, está desplazada a la izquierda.
-
10:38 - 10:41Se habla de la gente 2 veces menos de lo que se debería.
-
10:41 - 10:43Pero aún más importante, la distribución es mucho más amplia.
-
10:43 - 10:46Hay muchas personas que terminan en el extremo izquierdo de esta distribución;
-
10:46 - 10:49gente de la que se habla unas 10 veces menos de lo que se debería.
-
10:49 - 10:51Pero también mucha gente en el extremo derecho
-
10:51 - 10:53que parece beneficiarse de la propaganda.
-
10:53 - 10:56Esta imagen muestra el sello de la censura en el libro registrado.
-
10:56 - 10:58ELA: «Culturomía»,
-
10:58 - 11:00así denominamos al método.
-
11:00 - 11:02Es una especie de genómica,
-
11:02 - 11:04salvo que la genómica hace foco en la biología
-
11:04 - 11:07mediante la ventana de la secuencia de bases del genoma humano.
-
11:07 - 11:09La «culturomía» es similar.
-
11:09 - 11:12Es la aplicación del análisis de grandes volúmenes de datos
-
11:12 - 11:14al estudio de la cultura humana.
-
11:14 - 11:16Aquí, en vez de mirar bajo la lente del genoma,
-
11:16 - 11:19lo hacemos mediante la digitalización de registros históricos.
-
11:19 - 11:21Lo genial de la «culturomía»
-
11:21 - 11:23es que todos podemos practicarla.
-
11:23 - 11:25¿Por qué podemos todos?
-
11:25 - 11:27Todo el mundo puede hacerlo porque tres muchachos
-
11:27 - 11:30Jon Orwant, Matt Gray y Will Brockman en Google,
-
11:30 - 11:32vieron el prototipo del visor de n-gramas
-
11:32 - 11:34y dijeron: "Es algo muy divertido.
-
11:34 - 11:37Tenemos que dejarlo disponible para la gente".
-
11:37 - 11:39Así que en dos semanas -dos semanas antes de que salga nuestro artículo-
-
11:39 - 11:42programaron una versión del visor de n-gramas para el público en general.
-
11:42 - 11:45De ese modo, Uds también pueden escribir la palabra o frase que les interese
-
11:45 - 11:47y ver su n-grama de inmediato;
-
11:47 - 11:49también explorar ejemplos de los distintos libros
-
11:49 - 11:51en los que aparece el n-grama.
-
11:51 - 11:53JM: El primer día lo usaron más de un millón de veces
-
11:53 - 11:55y esta es realmente la mejor de todas las consultas.
-
11:55 - 11:58La gente quiere dar lo mejor de sí, en inglés se dice 'best'.
-
11:58 - 12:01Pero resulta que en el siglo XVIII esto no importaba para nada.
-
12:01 - 12:04En inglés, no decían "dar lo mejor de sí" usando 'best' sino 'beft'.
-
12:04 - 12:07Por supuesto, se debe a un error.
-
12:07 - 12:09No es que se esforzaran en ser mediocres,
-
12:09 - 12:12sino que la S se solía escribir como una F.
-
12:12 - 12:15Pero claro, Google no advirtió esto en ese momento
-
12:15 - 12:18por eso lo informamos en el artículo científico que escribimos.
-
12:18 - 12:20Pero resulta que esto nos recuerda
-
12:20 - 12:22que, aunque es muy divertido,
-
12:22 - 12:24al interpretar estos gráficos hay que tener mucho cuidado
-
12:24 - 12:27y adoptar las normas básicas de la ciencia.
-
12:27 - 12:30ELA: La gente ha estado usando esto para todo tipo de cosas.
-
12:30 - 12:37(Risas)
-
12:37 - 12:39En realidad no vamos a hablar
-
12:39 - 12:42sino a mostrarles diapositivas y quedarnos en silencio.
-
12:42 - 12:45Esta persona estaba interesada en la historia de la frustración.
-
12:45 - 12:48Hay varios tipos de frustración.
-
12:48 - 12:51Si nos damos con el pie en algo, es con 1A: "Ay".
-
12:51 - 12:53Si la Tierra es aniquilada por la Vogons
-
12:53 - 12:55para hacer espacio para una autopista interestelar
-
12:55 - 12:57eso es con 8A: "Aaaaaaaay".
-
12:57 - 12:59Esta persona estudia todos los "Ay"
-
12:59 - 13:01que tienen de 1 a 8 aes.
-
13:01 - 13:03Y resulta que
-
13:03 - 13:05los "ay" menos frecuentes
-
13:05 - 13:08son, por supuesto, los correspondientes a las cosas más frustrantes
-
13:08 - 13:11salvo, curiosamente, en los años 80.
-
13:11 - 13:13Pensamos que podría tener algo que ver con Reagan.
-
13:13 - 13:15(Risas)
-
13:15 - 13:18JM: Hay muchos usos para estos datos
-
13:18 - 13:21pero la conclusión es que el registro histórico se está digitalizando.
-
13:21 - 13:23Google ha empezado a digitalizar 15 millones de libros.
-
13:23 - 13:25Eso representa el 12% de todos los libros publicados en la historia.
-
13:25 - 13:28Es un fragmento considerable de la cultura humana.
-
13:28 - 13:31La cultura tiene más cosas: hay manuscritos, hay periódicos,
-
13:31 - 13:33hay cosas que no tienen texto, como el arte y las pinturas.
-
13:33 - 13:35Todo está en nuestras computadoras,
-
13:35 - 13:37en las computadores del mundo.
-
13:37 - 13:40Y cuando eso suceda va a transformar nuestra manera
-
13:40 - 13:42de entender nuestro pasado, nuestro presente y la cultura humana.
-
13:42 - 13:44Muchas gracias.
-
13:44 - 13:47(Aplausos)
- Title:
- ¿Qué hemos aprendido de 5 millones de libros?
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
¿Has jugado con el visor de n-gramas de Google Labs? Es una herramienta adictiva que te permite buscar palabras e ideas en una base de datos de 5 millones de libros a través de los siglos. Erez Lieberman Aiden y Michel Jean-Baptiste nos muestran cómo funciona y algunas de las cosas sorprendentes que podemos aprender partiendo de 500.000 millones de palabras.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48