Erez Lieberman Aiden: Todos sabemos que uma imagem vale mais que mil palavras Mas nós em Harvard questionámos se isso seria mesmo verdade. (Risos) Então, juntámos uma equipa de peritos, que vieram de Harvard, do MIT, do The American Heritage Dictionary, da The Encyclopedia Britannica e até dos nossos orgulhosos patrocinadores, a Google. (Risos) Debruçámo-nos sobre esta questão durante cerca de quatro anos. E chegámos a uma conclusão surpreendente. Meus senhores, uma imagem não vale mais que mil palavras. Na verdade, encontrámos imagens que valem 500 mil milhões de palavras. Jean-Baptiste Michel: Como chegámos a esta conclusão? O Erez e eu pensámos em como obter um panorama geral da cultura humana e da história humana: as mudanças através dos tempos. Ao longo dos anos, escreveram-se muitos livros. Pensámos que a melhor maneira de aprender com eles seria ler todos esses milhões de livros. Se houvesse uma escala de como isso seria fantástico, isso seria classificado a um nível muitoelevado. O problema é que há um eixo X para isso, que é o eixo da prática, o que o colocaria num patamar muito baixo (Aplausos) As pessoas têm tendência a usar uma abordagem alternativa, que é pegar nalgumas fontes e lê-las cuidadosamente. É extremamente prático, mas não muito fantástico. O que realmente se pretende é chegar à parte fantástica mas prática deste espaço. Acontece que havia uma empresa do outro lado do rio chamada Google que iniciara um projeto de digitalização há uns anos que talvez permitisse essa abordagem. Tinham digitalizado milhões de livros. Isso significava que se podiam usar métodos informáticos para ler todos os livros com o clique de um botão. Isto é muito prático e extremamente fantástico. ELA: Vou falar-vos de onde vêm os livros. Desde tempos imemoriais que existem autores. Esses autores têm-se esforçado por escrever livros. Isso tornou-se muito mais fácil com o desenvolvimento da imprensa há uns séculos. Desde então, os autores tiveram 129 milhões de ocasiões diferentes para publicar livros, Se esses livros não se perderam na história estão algures numa biblioteca, e muitos desses livros têm sido recuperados das bibliotecas e digitalizados pela Google, que já digitalizou 15 milhões de livros até agora. Quando a Google digitaliza um livro, põe-no num formato catita. Agora, temos os dados e temos ainda metadados. Temos informação sobre onde foi publicado, quem foi o autor, quando foi publicado, etc. Verificamos todos esses arquivos e excluímos tudo o que não seja da mais alta qualidade. Aquilo que nos resta é uma coleção de cinco milhões de livros, 500 mil milhões de palavras, uma cadeia de caracteres mil vezes mais longa que o genoma humano, um texto que, se fosse escrito por extenso, iria daqui até à Lua e voltava mais de dez vezes, um autêntico fragmento do nosso genoma cultural. Claro que aquilo que fizemos perante tamanha hipérbole... (Risos) ... foi aquilo que teria feito qualquer pesquisador que se preze. Inspirámo-nos no XKDC, e dissemos: "Afastem-se. Vamos tentar fazer ciência." (Risos) JM: Claro que estávamos a pensar em publicar primeiro os dados para que as pessoas pudessem fazer ciência. Mas depois pensámos: ""Que dados podemos publicar?" Claro que queríamos pegar nos livros e publicar o texto completo de todos os livros. Mas a Google, e o Jon Orwant em particular, ensinou-nos uma pequena equação. Temos cinco milhões de autores, ou seja, cinco milhões de processos judiciais, uma coisa monstruosa. Assim, embora isso fosse fantástico mais uma vez, era impraticável. (Risos) Mais uma vez, tivemos de ceder e seguimos a abordagem prática, que era menos fantástica. Em vez de publicarmos o texto completo, íamos publicar estatísticas sobre os livros. Por exemplo, "Um brilho de felicidade". São quatro palavras, a que chamamos um quatro-grama. Íamos dizer quantas vezes um determinado quatro-grama aparecia em livros em 1801, 1802, 1803... até 2008. Isso dá-nos uma série temporal de quantas vezes foi utilizada essa frase. Fazemos isso para todas as palavras e frases que surgem nesses livros. Isso dá-nos uma enorme tabela de dois mil milhões de linhas que nos dizem como a cultura tem vindo a mudar. ELA: Chamamos a esses dois mil milhões de linhas, dois mil milhões de n-gramas. O que é que eles nos dizem? Os n-gramas individuais medem tendências culturais. Vou dar-vos um exemplo. Vamos supôr que estou a prosperar, e que amanhã quero contar como me saí bem. Posso dizer: "Ontem, eu vicejei." Em alternativa, podia dizer: "Ontem, eu prosperei. "Então qual é que devo utilizar? "Como é que hei de saber?" Há cerca de seis meses, o topo de gama neste campo seria dirigir-se, por exemplo, a um psicólogo com um cabelo fabuloso e dizer: "Steve, és perito em verbos. "O que é que devo fazer?" E ele responderia: "Muitos dizem 'prosperei', "mas alguns dizem 'vicejei'." Também ficariam a saber, mais ou menos, que, se recuassem 200 anos, e perguntassem a este estadista com um cabelo igualmente fabuloso: (Risos) "Tom, o que é que eu devo dizer?" Ele diria: "No meu tempo, a maior parte das pessoas vicejava, "mas alguns prosperavam." Agora vou mostrar-vos dados brutos. Duas linhas desta tabela com dois mil milhões de entradas. Estão a ver a frequência, ano a ano, de "prosperei" e "vicejei" ao longo do tempo. Estas são apenas duas entre dois mil milhões de linhas. O conjunto total dos dados é mil milhões de vezes mais fantástico do que este slide. (Risos) (Aplausos) JM: Há muitas imagens que valem mais que 500 mil milhões de palavras. Por exemplo, esta. Se pegarmos em "gripe", verão picos na época em que se sabia que grandes epidemias de gripe matavam pessoas em todo o globo. ELA: Se ainda não estão convencidos, os níveis do mar estão a subir, assim como o CO2 na atmosfera e a temperatura da Terra. JM: Talvez queiram prestar atenção a este n-grama em particular, e dizer a Nietzsche que Deus não está morto, embora concordem que Ele precisa de um relações públicas melhor. (Risos) ELA: Podemos obter conceitos bastante abstratos com este tipo de análise. Por exemplo, vou contar-vos a história do ano de 1950. Durante grande parte da história, ninguém ligou nenhuma a 1950. Em 1700, em 1800, em 1900, ninguém se preocupou. Durante os anos 30 e 40, ninguém se preocupou. De repente, a meio dos anos 40, começa a haver um burburinho. As pessoas percebem que 1950 vai acontecer, e pode ser uma coisa em grande. (Risos) Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 do que o ano de 1950. (Risos) As pessoas andavam obcecadas. Não conseguiam deixar de falar sobre tudo o que tinham feito em 1950, tudo o que planeavam fazer em 1950, todos os sonhos que queriam alcançar em 1950. Na verdade, 1950 foi tão fascinante que, anos depois, as pessoas continuavam a falar das coisas maravilhosas que tinham acontecido em 1951, 1952, 1953. Finalmente, em 1954, houve alguém que acordou e percebeu que 1950 se tinha tornado numa coisa do passado. (Risos) E de repente, rebentou a bolha. (Risos) A história de 1950 é a história de cada ano que temos registado, com uma ligeira diferença, porque agora temos estes gráficos catitas. Como temos estes gráficos catitas, podemos comparar coisas. Podemos dizer: "Quão depressa rebenta a bolha?" Acontece que conseguimos medir isso com muita precisão. Derivaram-se equações, produziram-se gráficos, e como resultado final descobrimos que a bolha rebenta cada vez mais depressa, de ano para ano. Estamos a perder interesse no passado cada vez mais rapidamente. JM: Agora, um pouco de orientação profissional. Os que querem ser famosos, podem aprender com os 25 políticos mais famosos, autores, atores, etc.. Se quiserem ser famosos cedo, devem tornar-se atores, porque a fama começa a aumentar no final dos vinte anos, ainda são jovens, isso é ótimo. Se podem esperar um pouco, devem ser autores, porque então podem chegar longe, como Mark Twain, por exemplo, extremamente famoso. Mas se quiserem alcançar mesmo o topo, não devem esperar resultados imediatos e, claro, devem tornarem-se políticos. Começarão a ser famosos no final dos 50 anos e tornar-se-ão muito famosos depois disso. Os cientistas também ficam famosos quando são muito mais velhos. Por exemplo, os biológos e os físicos podem ser tão famosos como os atores. Um erro que não devem fazer é tornarem-se matemáticos. (Risos) Se o fizerem, podem pensar: "Ótimo. Vou fazer o meu melhor trabalho aos 20 anos." Mas, calculem, ninguém vai querer saber. (Risos) ELA: Há notas mais sóbrias entre os n-gramas. Por exemplo, esta é a trajetória de Marc Chagall, um artista nascido em 1887. Parece-se com a trajetória normal de uma pessoa famosa. Torna-se cada vez mais famoso, exceto se procurarem em alemão. Se procurarem em alemão, verão uma coisa bizarra, uma coisa que habitualmente não se observa. Ele torna-se extremamente famoso e, de repente, cai vertiginosamente, atravessando o ponto mais baixo entre 1933 e 1945, antes de recuperar nos anos seguintes. O que aqui observamos é o facto de Marc Chagall ser um artista judeu na Alemanha nazi. Na realidade, estes sinais são tão fortes que não precisamos de saber que alguém foi censurado. Podemos chegar a essa conclusão através do tratamento básico de sinais. Esta é uma forma simples de o fazer. Uma expetativa razoável é a de que a fama de alguém num dado período de tempo deverá ser sensivelmente a média da sua fama antes e da sua fama posterior. Isso é aquilo que se espera. Comparamos isso com a fama que observamos. Depois é só dividir uma pela outra para obter uma coisa a que chamamos "índice de supressão". Se o índice de supressão for muito, muito baixo, quase de certeza estão a ser censurados. Se for muito alto, então talvez estejam a beneficiar com a propaganda. JM: Podemos mesmo ver a distribuição de índices de supressão em populações inteiras. Por exemplo, aqui... este índice de supressão é de cinco mil pessoas escolhidas em livros em inglês onde não há supressão explícita... seria como este, centrado numa pessoa. O que se espera é aquilo que se observa. Esta é a distribuição observada na Alemanha — desvia-se para a esquerda. As pessoas falaram disso duas vezes menos do que o esperado. Mais importante, a distribuição é mais alargada. Há muitas pessoas que acabam na ponta esquerda na distribuição de quem se falou menos dez vezes do que seria de esperar. Mas também muita gente na ponta direita parece beneficiar com a propaganda. Esta imagem é a marca distintiva da censura no registo dos livros. ELA: "Culturómica" é o que chamamos a este método. É como genómica. Excepto que a genómica é uma lente sobre a biologia através da janela da sequência de bases no genoma humano. A culturómica é parecida. É a aplicação da análise da recolha de dados em larga escala ao estudo da cultura humana. Aqui, em vez de ser através da lente de um genoma, é através da lente de peças digitalizadas do registo histórico. O que é genial na culturómica é que todos a podem fazer. Porque é que todos a podem fazer? Todos a podem fazer porque três indivíduos, Jon Orwant, Matt Gray e Will Brockman na Google, viram o protótipo do NGram Viewer, e disseram: "Isto é muito divertido. "Temos de tornar isto acessível às pessoas." Nas duas semanas antes da publicação do nosso artigo fizeram o código para a versão pública do NGram Viewer. Podemos escrever qualquer palavra ou frase em que estamos interessados e vemos imediatamente o seu n-grama, assim como vemos exemplos de todos os diversos livros onde surge esse n-grama. JBM: Isto foi usado mais de um milhão de vezes no primeiro dia, o que é a melhor de todas as pesquisas. Todos querem o seu melhor, mostrar o seu melhor. Acontece que, no século XVIII, isso não acontecia. Não queriam ser o seu melhor, queriam ser o seu "milhor". Claro que o que aconteceu foi apenas um erro. Não que é que se esforçassem pela mediocridade, é só porque o "e" escrevia-se de forma diferente, como um "i". A Google não se apercebeu disso na altura, e nós referimos isso no artigo científico que escrevemos. Acontece que isto é apenas um lembrete de que, embora seja tudo muito divertido, quando interpretamos gráficos, temos de ser cuidadosos. Há que adotar os procedimentos científicos de base. ELA: As pessoas têm usado isto para todo o tipo de diversão. (Risos) Na verdade, nem é preciso falar, vamos apenas mostrar-vos todos os slides e ficar calados. Esta pessoa estava interessada na história da frustração. Há vários tipos de frustração. Se baterem com um dedo do pé, isso é um "ai" com um A. Se o planeta Terra for aniquilado pelos Vogons para criar um desvio interestelar, isso é um "aaaaaaaai" com oito A's. Esta pessoa estuda todos os "ais", entre um a oito A's. Acontece que os "ais" menos frequentes são os que correspondem a coisas mais frustrantes, excepto, por incrível que pareça, nos princípios dos anos 80. Talvez tenha alguma coisa a ver com Reagan. (Risos) JM: Há muitas utilizações para estes dados, mas o mais importante é que está a ser digitalizado o registo histórico. A Google começou a digitalizar 15 milhões de livros. São 12% de todos os livros já publicados. É um pedaço considerável da cultura humana. Há muito mais na cultura, há manuscritos, há jornais, há coisas que não são textos, como arte e quadros. Tudo isto está nos nossos computadores, nos computadores de todo o mundo. Quando isso acontece, irá transformar a forma como entendemos o passado, o presente e a cultura humana. Muito obrigado. (Aplausos)