WEBVTT 00:00:00.000 --> 00:00:02.000 Erez Lieberman Aiden: Todos sabemos 00:00:02.000 --> 00:00:05.000 que uma imagem vale mais que mil palavras 00:00:07.000 --> 00:00:09.000 Mas nós em Harvard 00:00:09.000 --> 00:00:12.000 questionámos se isso seria mesmo verdade. 00:00:12.000 --> 00:00:14.000 (Risos) 00:00:14.000 --> 00:00:18.000 Então, juntámos uma equipa de peritos, 00:00:18.000 --> 00:00:20.000 que abrangiam Harvard, o MIT, 00:00:20.000 --> 00:00:23.000 o The American Heritage Dictionary, a The Encyclopedia Britannica 00:00:23.000 --> 00:00:25.000 e até os nossos orgulhosos patrocinadores, 00:00:25.000 --> 00:00:28.000 a Google. 00:00:28.000 --> 00:00:30.000 Debruçámo-nos sobre esta questão 00:00:30.000 --> 00:00:32.000 durante cerca de quatro anos. 00:00:32.000 --> 00:00:37.000 E chegámos a uma conclusão surpreendente. 00:00:37.000 --> 00:00:40.000 Meus senhores, uma imagem não vale mais que mil palavras. 00:00:40.000 --> 00:00:42.000 Na verdade, encontrámos algumas imagens 00:00:42.000 --> 00:00:47.000 que valem 500 mil milhões de palavras. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 Jean-Baptiste Michel: Como chegámos a esta conclusão? 00:00:49.000 --> 00:00:51.000 O Erez e eu pensámos em como obter 00:00:51.000 --> 00:00:53.000 um panorama geral da cultura humana e da história humana: 00:00:53.000 --> 00:00:56.000 uma mudança através dos tempos. 00:00:56.000 --> 00:00:58.000 Ao longo dos anos, escreveram-se muitos livros. 00:00:58.000 --> 00:01:00.000 Pensámos que a melhor maneira de aprender com eles 00:01:00.000 --> 00:01:02.000 seia ler todos esses milhões de livros. 00:01:02.000 --> 00:01:05.000 Claro que, se houvesse uma escala de como isso seria fantástico, 00:01:05.000 --> 00:01:08.000 isso iria ficar num patamar muitíssimo elevado. 00:01:08.000 --> 00:01:10.000 O problema é que há um eixo de XX para isso, 00:01:10.000 --> 00:01:12.000 que é o eixo prático. 00:01:12.000 --> 00:01:14.000 Este está num patamar muito, muito baixo. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (Aplausos) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 As pessoas têm tendência a usar uma abordagem alternativa, 00:01:20.000 --> 00:01:22.000 que é pegar em algumas fontes e lê-las cuidadosamente. 00:01:22.000 --> 00:01:24.000 Isto é extremamente prático, mas não muito fantástico. 00:01:24.000 --> 00:01:27.000 O que realmente se pretende 00:01:27.000 --> 00:01:30.000 é chegar à parte fantástica mas prática deste espaço. 00:01:30.000 --> 00:01:33.000 Acontece que havia uma empresa do outro lado do rio chamada Google 00:01:33.000 --> 00:01:35.000 que tinha iniciado um projecto de digitalização há alguns anos 00:01:35.000 --> 00:01:37.000 que talvez permitisse esta abordagem. 00:01:37.000 --> 00:01:39.000 Eles tinham digitalizado milhões de livros. 00:01:39.000 --> 00:01:42.000 Isso significava que se podiam usar métodos informáticos 00:01:42.000 --> 00:01:44.000 para ler todos os livros com o clique de um botão. 00:01:44.000 --> 00:01:47.000 Isto é muito prático e extremamente fantástico. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 ELA: Deixem-me falar-vos um pouco sobre de onde vêm os livros. 00:01:50.000 --> 00:01:53.000 Desde tempos imemoriais que existem autores. 00:01:53.000 --> 00:01:56.000 Estes autores têm-se esforçado em escrever livros. 00:01:56.000 --> 00:01:58.000 E isto tornou-se consideravelmente mais fácil 00:01:58.000 --> 00:02:00.000 com o desenvolvimento da imprensa há alguns séculos. 00:02:00.000 --> 00:02:03.000 Desde então, os autores conseguiram 00:02:03.000 --> 00:02:05.000 em 129 milhões de ocasiões distintas, 00:02:05.000 --> 00:02:07.000 publicar livros. 00:02:07.000 --> 00:02:09.000 Agora se esses livros não se perderam para a história 00:02:09.000 --> 00:02:11.000 então estão algures numa biblioteca, 00:02:11.000 --> 00:02:14.000 e muitos desses livros têm sido recuperados das bibliotecas 00:02:14.000 --> 00:02:16.000 e digitalizados pela Google, 00:02:16.000 --> 00:02:18.000 que já digitalizou 15 milhões de livros até agora. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 Quando a Google digitaliza um livro, põe-no num formato catita. 00:02:21.000 --> 00:02:23.000 Agora nós temos os dados e temos ainda metadados. 00:02:23.000 --> 00:02:26.000 Temos informação sobre coisas como onde foi publicado, 00:02:26.000 --> 00:02:28.000 quem foi o autor, quando foi publicado. 00:02:28.000 --> 00:02:31.000 E o que fazemos é verificar todos esses registos 00:02:31.000 --> 00:02:35.000 e excluir tudo aquilo que não são dados da mais alta qualidade. 00:02:35.000 --> 00:02:37.000 Aquilo que nos resta 00:02:37.000 --> 00:02:40.000 é uma colecção de cinco milhões de livros, 00:02:40.000 --> 00:02:43.000 500 mil milhões de palavras, 00:02:43.000 --> 00:02:45.000 uma cadeia de caracteres mil vezes mais longa 00:02:45.000 --> 00:02:48.000 que o genoma humano... 00:02:48.000 --> 00:02:50.000 um texto que, se fosse escrito por extenso, 00:02:50.000 --> 00:02:52.000 iria daqui até à Lua e voltava 00:02:52.000 --> 00:02:54.000 mais de dez vezes... 00:02:54.000 --> 00:02:58.000 um autêntico fragmento do nosso genoma cultural. 00:02:58.000 --> 00:03:00.000 Claro que aquilo que fizemos 00:03:00.000 --> 00:03:03.000 perante tamanha hipérbole... 00:03:03.000 --> 00:03:05.000 (Risos) 00:03:05.000 --> 00:03:08.000 foi aquilo que qualquer pesquisador que se preze 00:03:08.000 --> 00:03:11.000 teria feito. 00:03:11.000 --> 00:03:13.000 Inspirámo-nos no XKDC, 00:03:13.000 --> 00:03:15.000 e dissemos: «Afastem-se. 00:03:15.000 --> 00:03:17.000 Vamos tentar fazer ciência.» NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (Risos) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 JM: Claro que pensávamos assim, 00:03:21.000 --> 00:03:23.000 primeiro vamos por os dados lá fora 00:03:23.000 --> 00:03:25.000 para que as pessoas façam ciência com eles. 00:03:25.000 --> 00:03:27.000 E agora pensávamos, que dados podemos publicar? 00:03:27.000 --> 00:03:29.000 Claro que se queria pegar nos livros 00:03:29.000 --> 00:03:31.000 e publicar o texto completo destes cinco milhões de livros. 00:03:31.000 --> 00:03:33.000 Mas a Google, e o Jon Orwant em particular, 00:03:33.000 --> 00:03:35.000 mostrou-nos uma pequena equação a aprender. 00:03:35.000 --> 00:03:38.000 Então temos cinco milhões, ou seja, cinco milhões de autores 00:03:38.000 --> 00:03:41.000 e cinco milhões de queixosos são um processo legal monstruoso. 00:03:41.000 --> 00:03:43.000 Então, embora isso fosse realmente fantástico 00:03:43.000 --> 00:03:46.000 mais uma vez, é extremamente pouco prático. 00:03:46.000 --> 00:03:48.000 (Risos) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 Mais uma vez, tivemos de ceder mais ou menos, 00:03:50.000 --> 00:03:53.000 e seguimos a abordagem muito prática, que é menos fantástica. 00:03:53.000 --> 00:03:55.000 Dissemos: "Em vez de publicarmos o texto completo, 00:03:55.000 --> 00:03:57.000 vamos publicar estatísticas sobre os livros. 00:03:57.000 --> 00:03:59.000 Tome-se como exemplo "Um brilho de felicidade". 00:03:59.000 --> 00:04:01.000 São quatro palavras, o que chamamos de quatro-grama. 00:04:01.000 --> 00:04:03.000 Nós vamos dizer-vos quantas vezes um quatro-grama em particular 00:04:03.000 --> 00:04:05.000 apareceu em livros em 1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 até 2008. 00:04:07.000 --> 00:04:09.000 Isso dá-nos uma série temporal 00:04:09.000 --> 00:04:11.000 de quantas vezes esta frase em particular foi utilizada ao longo dos tempos. 00:04:11.000 --> 00:04:14.000 Fazemos isso para todas as palavras e frases que surgem nestes livros, 00:04:14.000 --> 00:04:17.000 e isso dá-nos uma enorme tabela de dois mil milhões de linhas 00:04:17.000 --> 00:04:19.000 que nos dizem como a cultura tem vindo a mudar. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 ELA: A estes dois mil milhões de linhas, 00:04:21.000 --> 00:04:23.000 chamamos dois mil milhões de n-gramas. 00:04:23.000 --> 00:04:25.000 O que é que eles nos dizem? 00:04:25.000 --> 00:04:27.000 Bem, os n-gramas individuais medem tendências culturais. 00:04:27.000 --> 00:04:29.000 Deixem-me dar-vos um exemplo. 00:04:29.000 --> 00:04:31.000 Vamos supôr que estou a prosperar, 00:04:31.000 --> 00:04:33.000 e que amanhã quero contar como me saí bem. 00:04:33.000 --> 00:04:36.000 Então posso dizer: "Ontem, eu vicejei." 00:04:36.000 --> 00:04:39.000 Em alternativa, podia dizer: "Ontem, eu prosperei". 00:04:39.000 --> 00:04:42.000 Então qual é que devo utilizar? 00:04:42.000 --> 00:04:44.000 Como é que se sabe? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 Há cerca de seis meses atrás, 00:04:46.000 --> 00:04:48.000 o topo de gama neste campo 00:04:48.000 --> 00:04:50.000 seria dirigir-se, por exemplo, 00:04:50.000 --> 00:04:52.000 a este psicólogo com um cabelo extraordinário 00:04:52.000 --> 00:04:54.000 e dizer: 00:04:54.000 --> 00:04:57.000 "Steve, és perito nos verbos irregulares. 00:04:57.000 --> 00:04:59.000 "O que é que devo fazer?" 00:04:59.000 --> 00:05:01.000 E ele responderia: "Bem, muitos dizem prosperei, 00:05:01.000 --> 00:05:04.000 "mas alguns dizem vicejei." 00:05:04.000 --> 00:05:06.000 E ficariam a saber, mais ou menos, 00:05:06.000 --> 00:05:09.000 que se recuassem 200 anos 00:05:09.000 --> 00:05:12.000 e perguntassem a este estadista com um cabelo igualmente extraordinário: 00:05:12.000 --> 00:05:15.000 (Risos) 00:05:15.000 --> 00:05:17.000 "Tom, o que é que eu devo dizer?" 00:05:17.000 --> 00:05:19.000 Ele diria: "No meu tempo, a maior parte das pessoas vicejava, 00:05:19.000 --> 00:05:22.000 "mas alguns prosperavam." 00:05:22.000 --> 00:05:24.000 O que agora vos vou mostrar são dados brutos. 00:05:24.000 --> 00:05:28.000 Duas linhas desta tabela com dois mil milhões de entradas. 00:05:28.000 --> 00:05:30.000 O que estão a ver é a frequência por ano 00:05:30.000 --> 00:05:33.000 de "prosperei" e "vicejei" ao longo do tempo. 00:05:34.000 --> 00:05:36.000 Estas são apenas duas 00:05:36.000 --> 00:05:39.000 de dois mil milhões de linhas. 00:05:39.000 --> 00:05:41.000 O conjunto total dos dados 00:05:41.000 --> 00:05:44.000 é mil milhões de vezes mais fantástico do que este slide. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (Risos) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (Aplausos) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 JM: Há realmente muitas imagens que valem mais que 500 mil milhões de palavras. 00:05:52.000 --> 00:05:54.000 Por exemplo, esta. 00:05:54.000 --> 00:05:56.000 Se pegarmos em "gripe", 00:05:56.000 --> 00:05:58.000 verão picos no tempo em que sabiam 00:05:58.000 --> 00:06:01.000 que grandes epidemias de gripe estavam a matar pessoas por todo o globo. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 ELA: Se ainda não estão convencidos, 00:06:04.000 --> 00:06:06.000 os níveis do mar estão a subir, 00:06:06.000 --> 00:06:09.000 assim como o CO2 na atmosfera e a temperatura da Terra. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 JM: Talvez queiram prestar atenção a este n-grama em particular, 00:06:12.000 --> 00:06:15.000 para dizer a Nietzsche que Deus não está morto, 00:06:15.000 --> 00:06:18.000 embora possam concordar que precisa de um relações públicas melhor. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (Risos) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 ELA: Podem obter conceitos bastante abstractos com este tipo de análise. 00:06:23.000 --> 00:06:25.000 Por exemplo, vou contar-vos a história 00:06:25.000 --> 00:06:27.000 do ano de 1950. 00:06:27.000 --> 00:06:29.000 Durante grande parte da história, 00:06:29.000 --> 00:06:31.000 ninguém ligou nenhuma a 1950. 00:06:31.000 --> 00:06:33.000 Em 1700, em 1800, em 1900, 00:06:33.000 --> 00:06:36.000 ninguém se preocupou. 00:06:37.000 --> 00:06:39.000 Durante as décadas de 30 e 40, 00:06:39.000 --> 00:06:41.000 ninguém se preocupou. 00:06:41.000 --> 00:06:43.000 De repente, a meio da década de 40, 00:06:43.000 --> 00:06:45.000 começou a haver um burburinho. 00:06:45.000 --> 00:06:47.000 As pessoas perceberam que 1950 ia acontecer, 00:06:47.000 --> 00:06:49.000 e podia ser uma coisa em grande. 00:06:49.000 --> 00:06:52.000 (Risos) 00:06:52.000 --> 00:06:55.000 Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 00:06:55.000 --> 00:06:58.000 como o ano de 1950. 00:06:58.000 --> 00:07:01.000 (Risos) 00:07:01.000 --> 00:07:03.000 As pessoas andavam obececadas. 00:07:03.000 --> 00:07:05.000 Não conseguiam parar de falar 00:07:05.000 --> 00:07:08.000 sobre tudo o que tinham feito em 1950, 00:07:08.000 --> 00:07:11.000 tudo o que planeavam fazer em 1950, 00:07:11.000 --> 00:07:16.000 todos os sonhos que queriam alcançar em 1950. 00:07:16.000 --> 00:07:18.000 Na verdade, 1950 era tão fascinante 00:07:18.000 --> 00:07:20.000 que, durante anos depois, 00:07:20.000 --> 00:07:23.000 as pessoas continuaram a falar das coisas maravilhosas que tinham acontecido, 00:07:23.000 --> 00:07:25.000 em 51, 52, 53. 00:07:25.000 --> 00:07:27.000 Finalmente em 1954, 00:07:27.000 --> 00:07:29.000 houve alguém que acordou e percebeu 00:07:29.000 --> 00:07:33.000 que 1950 se tinha tornado numa coisa fora de moda. 00:07:33.000 --> 00:07:35.000 (Risos) 00:07:35.000 --> 00:07:37.000 Assim, de repente, rebentou a bolha. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (Risos) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 A história de 1950 00:07:41.000 --> 00:07:43.000 é a história de cada ano que temos registado, 00:07:43.000 --> 00:07:46.000 com uma ligeira diferença, porque agora temos estes gráficos catitas. 00:07:46.000 --> 00:07:49.000 Como temos estes gráficos catitas, podemos comparar coisas. 00:07:49.000 --> 00:07:51.000 Podemos dizer: "Quão depressa rebenta a bolha?" 00:07:51.000 --> 00:07:54.000 Acontece que conseguimos medir isso com muita precisão. 00:07:54.000 --> 00:07:57.000 Foram obtidas equações, foram produzidos gráficos, 00:07:57.000 --> 00:07:59.000 e o resultado final 00:07:59.000 --> 00:08:02.000 é que descobrimos 00:08:02.000 --> 00:08:04.000 a cada ano que passa. 00:08:04.000 --> 00:08:09.000 Estamos a perder interesse no passado cada vez mais rapidamente. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 JM: Agora, um pouco de orientação profissional. 00:08:11.000 --> 00:08:13.000 Para os que querem ser famosos, 00:08:13.000 --> 00:08:15.000 podemos aprender com os 25 políticos mais famosos, 00:08:15.000 --> 00:08:17.000 autores, atores, etc.. 00:08:17.000 --> 00:08:20.000 Se quiserem ser famosos cedo, devem tornar-se atores, 00:08:20.000 --> 00:08:22.000 porque a fama começa a aumentar no final dos vinte anos... 00:08:22.000 --> 00:08:24.000 ainda são jovens, isso é óptimo. 00:08:24.000 --> 00:08:26.000 Se puderem esperar um bocadinho, devem ser autores, 00:08:26.000 --> 00:08:28.000 porque então podem chegar longe, 00:08:28.000 --> 00:08:30.000 como Mark Twain, por exemplo: extremamente famoso. 00:08:30.000 --> 00:08:32.000 Mas se quiserem alcançar mesmo o topo, 00:08:32.000 --> 00:08:34.000 não devem esperar resultados imediatos 00:08:34.000 --> 00:08:36.000 e devem tornarem-se políticos, claro. 00:08:36.000 --> 00:08:38.000 Aqui começarão a ser famosos no final dos 50, 00:08:38.000 --> 00:08:40.000 e tornar-se-ão muito, muito famosos depois disso. 00:08:40.000 --> 00:08:43.000 Os cientistas também têm tendência a tornar-se famosos quando são mais muito mais velhos. 00:08:43.000 --> 00:08:45.000 Por exemplo, biológos e físicos 00:08:45.000 --> 00:08:47.000 podem ser tão famosos como atores. 00:08:47.000 --> 00:08:50.000 Um erro que não devem cometer é tornarem-se matemáticos. 00:08:50.000 --> 00:08:52.000 (Risos) 00:08:52.000 --> 00:08:54.000 Se o fizerem, podem pensar: 00:08:54.000 --> 00:08:57.000 "Ótimo. Vou fazer o meu melhor trabalho quando tiver 20 anos." 00:08:57.000 --> 00:08:59.000 Mas, adivinhem, ninguém vai querer saber. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (Risos) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 Há notas mais sóbrias 00:09:04.000 --> 00:09:06.000 por entre os n-gramas. 00:09:06.000 --> 00:09:08.000 Por exemplo, esta é a trajetória de Marc Chagall, 00:09:08.000 --> 00:09:10.000 um artista nascido em 1887. 00:09:10.000 --> 00:09:13.000 Parece-se com a trajetória normal de uma pessoa famosa. 00:09:13.000 --> 00:09:17.000 Ele torna-se cada vez mais famoso, 00:09:17.000 --> 00:09:19.000 exceto se virem em alemão. 00:09:19.000 --> 00:09:21.000 Se virem em alemão, veem algo completamente bizarro, 00:09:21.000 --> 00:09:23.000 algo que quase nunca se observa, 00:09:23.000 --> 00:09:25.000 que é ele tornar-se extremamente famoso 00:09:25.000 --> 00:09:27.000 e então de repente cai vertiginosamente, 00:09:27.000 --> 00:09:30.000 atravessando o ponto mais baixo entre 1933 e 1945, 00:09:30.000 --> 00:09:33.000 antes de recuperar nos anos seguintes. 00:09:33.000 --> 00:09:35.000 E claro o que observamos 00:09:35.000 --> 00:09:38.000 é o facto de Marc Chagall ser um artista judeu 00:09:38.000 --> 00:09:40.000 na Alemanha nazi. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 Estes sinais 00:09:42.000 --> 00:09:44.000 na realidade são tão fortes 00:09:44.000 --> 00:09:47.000 que não precisamos de saber que alguém foi censurado. 00:09:47.000 --> 00:09:49.000 Podemos chegar a essa conclusão 00:09:49.000 --> 00:09:51.000 através do processamento bastante básico de sinais. 00:09:51.000 --> 00:09:53.000 Aqui está uma forma simples de o fazer. 00:09:53.000 --> 00:09:55.000 Uma expectativa razoável 00:09:55.000 --> 00:09:57.000 é a de que a fama de alguém num dado período de tempo 00:09:57.000 --> 00:09:59.000 deverá ser sensivelmete a média da sua fama antes 00:09:59.000 --> 00:10:01.000 e da sua fama depois desse período. 00:10:01.000 --> 00:10:03.000 Isso é mais ou menos aquilo que se espera. 00:10:03.000 --> 00:10:06.000 Comparamos isso com a fama que observamos. 00:10:06.000 --> 00:10:08.000 Depois é só dividir uma pela outra 00:10:08.000 --> 00:10:10.000 para obter algo a que chamamos "índice de supressão". 00:10:10.000 --> 00:10:13.000 Se o índice de supressão for muito, muito, muito baixo, 00:10:13.000 --> 00:10:15.000 então quase de certeza estão a ser reprimidos. 00:10:15.000 --> 00:10:18.000 Se for muito alto, então talvez estejam a beneficiar com a propaganda. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 JM: Pode mesmo ver-se 00:10:21.000 --> 00:10:24.000 a distribuição de índices de supressão em populações inteiras. 00:10:24.000 --> 00:10:26.000 Por exemplo, aqui... 00:10:26.000 --> 00:10:28.000 este índice de supressão é de cinco mil pessoas 00:10:28.000 --> 00:10:30.000 escolhidas em livros em inglês onde não há supressão explícita... 00:10:30.000 --> 00:10:32.000 seria como este, centrado numa pessoa. 00:10:32.000 --> 00:10:34.000 O que se espera é aquilo que se observa. 00:10:34.000 --> 00:10:36.000 Esta é a distribuição conforme observada na Alemanha... 00:10:36.000 --> 00:10:38.000 muito diferente, desvia-se para a esquerda. 00:10:38.000 --> 00:10:41.000 As pessoas falaram sobre isto duas vezes menos do que se esperaria. 00:10:41.000 --> 00:10:43.000 Mas muito mais importante, a distribuição é muito mais alargada. 00:10:43.000 --> 00:10:46.000 Há muitas pessoas que acabaram na extrema esquerda nesta distribuição 00:10:46.000 --> 00:10:49.000 de quem se falou menos dez vezes do que seria de esperar. 00:10:49.000 --> 00:10:51.000 Mas também muitas pessoas na extrema direita 00:10:51.000 --> 00:10:53.000 parecem beneficiar com a propaganda. 00:10:53.000 --> 00:10:56.000 Esta imagem é a marca distintiva da censura no registo dos livros. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 "Culturómica" 00:10:58.000 --> 00:11:00.000 é o que chamamos a este método. 00:11:00.000 --> 00:11:02.000 É como genómica. 00:11:02.000 --> 00:11:04.000 Excepto que a genómica é uma lente sobre a biologia 00:11:04.000 --> 00:11:07.000 através da janela da sequência de bases no genoma humano. 00:11:07.000 --> 00:11:09.000 A culturómica é parecida. 00:11:09.000 --> 00:11:12.000 É a aplicação da análise da recolha de dados em larga escala 00:11:12.000 --> 00:11:14.000 ao estudo da cultura humana. 00:11:14.000 --> 00:11:16.000 Aqui, em vez de ser através da lente de um genoma, 00:11:16.000 --> 00:11:19.000 através da lente de peças digitalizadas do registo histórico. 00:11:19.000 --> 00:11:21.000 O que é genial sobre a culturómica 00:11:21.000 --> 00:11:23.000 é que todos a podem fazer. 00:11:23.000 --> 00:11:25.000 Porque é que todos a podem fazer? 00:11:25.000 --> 00:11:27.000 Todos a podem fazer porque três indivíduos, 00:11:27.000 --> 00:11:30.000 Jon Orwant, Matt Gray e Will Brockman na Google, 00:11:30.000 --> 00:11:32.000 viram o protótipo do NGram Viewer, 00:11:32.000 --> 00:11:34.000 e disseram: "Isto é tão divertido. 00:11:34.000 --> 00:11:37.000 "Temos de tornar isto acessível às pessoas." 00:11:37.000 --> 00:11:39.000 Então em apenas duas semanas — as duas semanas anteriores à publicação do nosso artigo — 00:11:39.000 --> 00:11:42.000 fizeram o código para uma versão do NGram Viewer para o público em geral. 00:11:42.000 --> 00:11:45.000 Agora podemos escrever qualquer palavra ou frase em que estejamos interessados 00:11:45.000 --> 00:11:47.000 e vemos imediatamente o seu n-grama... 00:11:47.000 --> 00:11:49.000 assim como vemos exemplos de todos os diferentes livros 00:11:49.000 --> 00:11:51.000 onde surge o nosso n-grama. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 Isto foi utilizado mais de um milhão de vezes no primeiro dia, 00:11:53.000 --> 00:11:55.000 o que é a melhor de todas as pesquisas. 00:11:55.000 --> 00:11:58.000 As pessoas querem ser o seu melhor, causar a melhor impressão que conseguirem. 00:11:58.000 --> 00:12:01.000 Mas acontece que no século XVIII, as pessoas não se preocupavam com isso. 00:12:01.000 --> 00:12:04.000 Elas não queriam ser o seu melhor, queriam ser o seu milhor. 00:12:04.000 --> 00:12:07.000 O que aconteceu foi, claro está, apenas um erro. 00:12:07.000 --> 00:12:09.000 Não que é que se esforçassem pela mediocridade, 00:12:09.000 --> 00:12:12.000 é só porque o E era escrito de forma diferente, como um I. 00:12:12.000 --> 00:12:15.000 Claro que a Google não se apercebeu disto na altura, 00:12:15.000 --> 00:12:18.000 e então nós referimos isto no artigo científico que escrevemos. 00:12:18.000 --> 00:12:20.000 Mas acontece que isto é apenas um lembrete 00:12:20.000 --> 00:12:22.000 de que, embora seja tudo muito divertido, 00:12:22.000 --> 00:12:24.000 quando se interpretam estes gráficos, temos de ser cuidadosos 00:12:24.000 --> 00:12:27.000 e há que adotar os procedimentos científicos de base. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 ELA: As pessoas têm utilizado isto para toda a espécie de diversão. 00:12:30.000 --> 00:12:37.000 (Risos) 00:12:37.000 --> 00:12:39.000 Na verdade, nem precisamos de vos dizer, 00:12:39.000 --> 00:12:42.000 vamos apenas mostrar-vos todos os slides e ficar calados. 00:12:42.000 --> 00:12:45.000 Esta pessoa estava interessada na história da frustração. 00:12:45.000 --> 00:12:48.000 Há vários tipos de frustração. 00:12:48.000 --> 00:12:51.000 Se baterem com um dedo do pé, isso é um «argh» com um A. 00:12:51.000 --> 00:12:53.000 Se o planeta Terra for aniquilado pelos Vogons 00:12:53.000 --> 00:12:55.000 para criar um desvio interestelar, 00:12:55.000 --> 00:12:57.000 isso é um «aaaaaaaargh» com oito As. 00:12:57.000 --> 00:12:59.000 Esta pessoa estuda todos os «arghs», 00:12:59.000 --> 00:13:01.000 entre um a oito As. 00:13:01.000 --> 00:13:03.000 e acontece 00:13:03.000 --> 00:13:05.000 que os «arghs» menos frequentes 00:13:05.000 --> 00:13:08.000 são, claro, aqueles que correspondem a coisas mais frustrantes... 00:13:08.000 --> 00:13:11.000 excepto, por incrível que pareça, nos princípios dos anos 80. 00:13:11.000 --> 00:13:13.000 Pensamos que talvez tenha algo a ver com Reagan. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (Risos) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 JM: Há muitas utilizações para estes dados, 00:13:18.000 --> 00:13:21.000 mas o mais importante é que o registo histórico está a ser digitalizado. 00:13:21.000 --> 00:13:23.000 A Google começou a digitalizar 15 milhões de livros. 00:13:23.000 --> 00:13:25.000 São 12% de todos os livros já publicados. 00:13:25.000 --> 00:13:28.000 É um pedaço considerável da cultura humana. 00:13:28.000 --> 00:13:31.000 Há muito mais na cultura: há manuscritos, há jornais, 00:13:31.000 --> 00:13:33.000 há coisas que não são textos, como arte e quadros. 00:13:33.000 --> 00:13:35.000 Tudo isto está nos nossos computadores, 00:13:35.000 --> 00:13:37.000 nos computadores de todo o mundo. 00:13:37.000 --> 00:13:40.000 Quando isso acontece, irá transformar a forma como 00:13:40.000 --> 00:13:42.000 percebemos o nosso passado, o nosso presente e a nossa cultura humana. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 Muito obrigado. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (Aplausos)