Erez Lieberman Aiden: Todos sabemos que uma imagem vale mais que mil palavras Mas nós em Harvard questionámos se isso seria mesmo verdade. (Risos) Então, juntámos uma equipa de peritos, que vieram de Harvard, do MIT, do The American Heritage Dictionary, da The Encyclopedia Britannica e até dos nossos orgulhosos patrocinadores, a Google. Debruçámo-nos sobre esta questão durante cerca de quatro anos. E chegámos a uma conclusão surpreendente. Meus senhores, uma imagem não vale mais que mil palavras. Na verdade, encontrámos imagens que valem 500 mil milhões de palavras. Jean-Baptiste Michel: Como chegámos a esta conclusão? O Erez e eu pensámos em como obter um panorama geral da cultura humana e da história humana: as mudanças através dos tempos. Ao longo dos anos, escreveram-se muitos livros. Pensámos que a melhor maneira de aprender com eles seria ler todos esses milhões de livros. Claro que, se houvesse uma escala de como isso seria fantástico, isso iria para a um patamar muitíssimo elevado. O problema é que há um eixo X para isso, que é o eixo prático. O que o coloca num patamar muito baixo (Aplausos) As pessoas têm tendência a usar uma abordagem alternativa, que é pegar nalgumas fontes e lê-las cuidadosamente. Isto é extremamente prático, mas não muito fantástico. O que realmente se pretende é chegar à parte fantástica mas prática deste espaço. Acontece que havia uma empresa do outro lado do rio chamada Google que iniciara um projeto de digitalização há uns anos que talvez permitisse essa abordagem. Tinham digitalizado milhões de livros. Isso significava que se podiam usar métodos informáticos para ler todos os livros com o clique de um botão. Isto é muito prático e extremamente fantástico. ELA: Vou falar-vos um pouco de onde vêm os livros. Desde tempos imemoriais que existem autores. Esses autores têm-se esforçado por escrever livros. Isso tornou-se muito mais fácil com o desenvolvimento da imprensa há uns séculos. Desde então, os autores tiveram 129 milhões de ocasiões diferentes para publicar livros, Se esses livros não se perderam na história estão algures numa biblioteca, e muitos desses livros têm sido recuperados das bibliotecas e digitalizados pela Google, que já digitalizou 15 milhões de livros até agora. Quando a Google digitaliza um livro, põe-no num formato catita. Agora, temos os dados e temos ainda metadados. Temos informação sobre onde foi publicado, quem foi o autor, quando foi publicado, etc. Verificamos todos esses arquivos e excluímos tudo o que não seja da mais alta qualidade. Aquilo que nos resta é uma coleção de cinco milhões de livros, 500 mil milhões de palavras, uma cadeia de caracteres mil vezes mais longa que o genoma humano, um texto que, se fosse escrito por extenso, iria daqui até à Lua e voltava mais de dez vezes, um autêntico fragmento do nosso genoma cultural. Claro que aquilo que fizemos perante tamanha hipérbole... (Risos) ... foi aquilo que teria feito qualquer pesquisador que se preze. Inspirámo-nos no XKDC, e dissemos: "Afastem-se. Vamos tentar fazer ciência." (Risos) JM: Claro que estávamos a pensar em publicar primeiro os dados para que as pessoas pudessem fazer ciência. Mas depois pensámos: ""Que dados podemos publicar?" Claro que queríamos pegar nos livros e publicar o texto completo destes cinco milhões de livros. Mas a Google, e o Jon Orwant em particular, ensinou-nos uma pequena equação. Temos cinco milhões de autores, ou seja, cinco milhões de processos judiciais, uma coisa monstruosa. Assim, embora isso fosse fantástico mais uma vez, era impraticável. (Risos) Mais uma vez, tivemos de ceder e seguimos a abordagem prática, que era menos fantástica. Dissemos: "Em vez de publicarmos o texto completo, vamos publicar estatísticas sobre os livros. Por exemplo, "Um brilho de felicidade". São quatro palavras, a que chamamos um quatro-grama. Vamos dizer-vos quantas vezes um determinado quatro-grama apareceu em livros em 1801, 1802, 1803... até 2008. Isso dá-nos uma série temporal de quantas vezes foi utilizada essa frase. Fazemos isso para todas as palavras e frases que surgem nesses livros. Isso dá-nos uma enorme tabela de dois mil milhões de linhas que nos dizem como a cultura tem vindo a mudar. ELA: Chamamos a esses dois mil milhões de linhas, dois mil milhões de n-gramas. O que é que eles nos dizem? Os n-gramas individuais medem tendências culturais. Vou dar-vos um exemplo. Vamos supôr que estou a prosperar, e que amanhã quero contar como me saí bem. Posso dizer: "Ontem, eu vicejei." Em alternativa, podia dizer: "Ontem, eu prosperei. "Então qual é que devo utilizar? "Como é que hei de saber?" Há cerca de seis meses, o topo de gama neste campo seria dirigir-se, por exemplo, a um psicólogo com um cabelo fabuloso e dizer: "Steve, és perito em verbos. "O que é que devo fazer?" E ele responderia: "Muitos dizem 'prosperei', "mas alguns dizem 'vicejei'." Também ficariam a saber, mais ou menos, que, se recuassem 200 anos, e perguntassem a este estadista com um cabelo igualmente fabuloso: (Risos) "Tom, o que é que eu devo dizer?" Ele diria: "No meu tempo, a maior parte das pessoas vicejava, "mas alguns prosperavam." Agora vou mostrar-vos dados brutos. Duas linhas desta tabela com dois mil milhões de entradas. Estão a ver a frequência, ano a ano, de "prosperei" e "vicejei" ao longo do tempo. Estas são apenas duas de dois mil milhões de linhas. O conjunto total dos dados é mil milhões de vezes mais fantástico do que este slide. (Risos) (Aplausos) JM: Há muitas imagens que valem mais que 500 mil milhões de palavras. Por exemplo, esta. Se pegarmos em "gripe", verão picos na época em que se sabia que grandes epidemias de gripe matavam pessoas em todo o globo. ELA: Se ainda não estão convencidos, os níveis do mar estão a subir, assim como o CO2 na atmosfera e a temperatura da Terra. JM: Talvez queiram prestar atenção a este n-grama em particular, para dizer a Nietzsche que Deus não está morto, embora concordem que Ele precisa de um relações públicas melhor. (Risos) ELA: Podemos obter conceitos bastante abstratos com este tipo de análise. Por exemplo, vou contar-vos a história do ano de 1950. Durante grande parte da história, ninguém ligou nenhuma a 1950. Em 1700, em 1800, em 1900, ninguém se preocupou. Durante os anos 30 e 40, ninguém se preocupou. De repente, a meio dos anos 40, começa a haver um burburinho. As pessoas percebem que 1950 vai acontecer, e pode ser uma coisa em grande. (Risos) Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 do que o ano de 1950. (Risos) As pessoas andavam obcecadas. Não conseguiam deixar de falar sobre tudo o que tinham feito em 1950, tudo o que planeavam fazer em 1950, todos os sonhos que queriam alcançar em 1950. Na verdade, 1950 foi tão fascinante que, anos depois, as pessoas continuavam a falar das coisas maravilhosas que tinham acontecido, em 1951, 1952, 1953. Finalmente, em 1954, houve alguém que acordou e percebeu que 1950 se tinha tornado numa coisa do passado. (Risos) E de repente, rebentou a bolha. (Risos) A história de 1950 é a história de cada ano que temos registado, com uma ligeira diferença, porque agora temos estes gráficos catitas. Como temos estes gráficos catitas, podemos comparar coisas. Podemos dizer: "Quão depressa rebenta a bolha?" Acontece que conseguimos medir isso com muita precisão. Derivaram-se equações, produziram-se gráficos, e como resultado final descobrimos que a bolha rebenta cada vez mais depressa, de ano para ano. Estamos a perder interesse no passado cada vez mais rapidamente. JM: Agora, um pouco de orientação profissional. Os que querem ser famosos, podem aprender com os 25 políticos mais famosos, autores, atores, etc.. Se quiserem ser famosos cedo, devem tornar-se atores, porque a fama começa a aumentar no final dos vinte anos, ainda são jovens, isso é ótimo. Se puderem esperar um bocadinho, devem ser autores, porque então podem chegar longe, como Mark Twain, por exemplo, extremamente famoso. Mas se quiserem alcançar mesmo o topo, não devem esperar resultados imediatos e, claro, devem tornarem-se políticos. Aqui começarão a ser famosos no final dos 50 anos e tornar-se-ão muito famosos depois disso. Os cientistas também ficam famosos quando são muito mais velhos. Por exemplo, os biológos e os físicos podem ser tão famosos como os atores. Um erro que não devem fazer é tornarem-se matemáticos. (Risos) Se o fizerem, podem pensar: "Ótimo. Vou fazer o meu melhor trabalho aos 20 anos." Mas, calculem, ninguém vai querer saber. (Risos) Há notas mais sóbrias entre os n-gramas. Por exemplo, esta é a trajetória de Marc Chagall, um artista nascido em 1887. Parece-se com a trajetória normal de uma pessoa famosa. Torna-se cada vez mais famoso, exceto se procurarem em alemão. Se procurarem em alemão, verão uma coisa bizarra, uma coisa que habitualmente não se observa. Ele torna-se extremamente famoso e, de repente, cai vertiginosamente, atravessando o ponto mais baixo entre 1933 e 1945, antes de recuperar nos anos seguintes. O que aqui observamos é o facto de Marc Chagall ser um artista judeu na Alemanha nazi. Estes sinais na realidade são tão fortes que não precisamos de saber que alguém foi censurado. Podemos chegar a essa conclusão através do tratamento básico de sinais. Esta é uma forma simples de o fazer. Uma expetativa razoável é a de que a fama de alguém num dado período de tempo deverá ser sensivelmete a média da sua fama antes e da sua fama depois desse período. Isso é mais ou menos aquilo que se espera. Comparamos isso com a fama que observamos. Depois é só dividir uma pela outra para obter uma coisa a que chamamos "índice de supressão". Se o índice de supressão for muito, muito baixo, quase de certeza estão a ser reprimidos. Se for muito alto, então talvez estejam a beneficiar com a propaganda. JM: Podemos mesmo ver a distribuição de índices de supressão em populações inteiras. Por exemplo, aqui... este índice de supressão é de cinco mil pessoas escolhidas em livros em inglês onde não há supressão explícita... seria como este, centrado numa pessoa. O que se espera é aquilo que se observa. Esta é a distribuição conforme observada na Alemanha — muito diferente, desvia-se para a esquerda. As pessoas falaram sobre isto duas vezes menos do que o esperado. Mas muito mais importante, a distribuição é mais alargada. Há muitas pessoas que acabam na extrema esquerda nesta distribuição de quem se falou menos dez vezes do que seria de esperar. Mas também muita gente na extrema direita parece beneficiar com a propaganda. Esta imagem é a marca distintiva da censura no registo dos livros. ELA: "Culturómica" é o que chamamos a este método. É como genómica. Excepto que a genómica é uma lente sobre a biologia através da janela da sequência de bases no genoma humano. A culturómica é parecida. É a aplicação da análise da recolha de dados em larga escala ao estudo da cultura humana. Aqui, em vez de ser através da lente de um genoma, é através da lente de peças digitalizadas do registo histórico. O que é genial na culturómica é que todos a podem fazer. Porque é que todos a podem fazer? Todos a podem fazer porque três indivíduos, Jon Orwant, Matt Gray e Will Brockman na Google, viram o protótipo do NGram Viewer, e disseram: "Isto é muito divertido. "Temos de tornar isto acessível às pessoas." Em apenas duas semanas — as duas semanas anteriores à publicação do nosso artigo — fizeram o código para uma versão do NGram Viewer para o público em geral. Agora podemos escrever qualquer palavra ou frase em que estejamos interessados e vemos imediatamente o seu n-grama, assim como vemos exemplos de todos os diversos livros onde surge esse n-grama. Isto foi utilizado mais de um milhão de vezes no primeiro dia, o que é a melhor de todas as pesquisas. As pessoas querem ser o seu melhor, mostrar o seu melhor. Mas acontece que, no século XVIII, as pessoas não se preocupavam com isso. Não queriam ser o seu melhor, queriam ser o seu "milhor". Claro que o que aconteceu foi apenas um erro. Não que é que se esforçassem pela mediocridade, é só porque o "e" escrevia-se de forma diferente, como um "i". A Google não se apercebeu disso na altura, e nós referimos isso no artigo científico que escrevemos. Acontece que isto é apenas um lembrete de que, embora seja tudo muito divertido, quando interpretamos estes gráficos, temos de ser cuidadosos. Há que adotar os procedimentos científicos de base. ELA: As pessoas têm usado isto para todo o tipo de diversão. (Risos) Na verdade, nem é preciso dizer, vamos apenas mostrar-vos todos os slides e ficar calados. Esta pessoa estava interessada na história da frustração. Há vários tipos de frustração. Se baterem com um dedo do pé, isso é um "ai" com um A. Se o planeta Terra for aniquilado pelos Vogons para criar um desvio interestelar, isso é um "aaaaaaaai" com oito A's. Esta pessoa estuda todos os "ais", entre um a oito A's. Acontece que os "ais" menos frequentes são os que correspondem a coisas mais frustrantes, excepto, por incrível que pareça, nos princípios dos anos 80. Talvez tenha alguma coisa a ver com Reagan. (Risos) JM: Há muitas utilizações para estes dados, mas o mais importante é que o registo histórico está a ser digitalizado. A Google começou a digitalizar 15 milhões de livros. São 12% de todos os livros já publicados. É um pedaço considerável da cultura humana. Há muito mais na cultura, há manuscritos, há jornais, há coisas que não são textos, como arte e quadros. Tudo isto está nos nossos computadores, nos computadores de todo o mundo. Quando isso acontece, irá transformar a forma como entendemos o nosso passado, o nosso presente e a nossa cultura humana. Muito obrigado. (Aplausos)