Erez Lieberman Aiden: Todos sabemos
que uma imagem vale mais que mil palavras
Mas nós em Harvard
perguntávamo-nos se isto era realmente verdade.
(Risos)
Então juntámos uma equipa de peritos,
abrangendo desde Harvard, o MIT,
The American Heritage Dictionary, The Encyclopedia Britannica
e até os nossos orgulhosos patrocinadores,
a Google.
E debruçámo-nos sobre esta questão
durante cerca de quatro anos.
E chegámos a uma conclusão surpreendente.
Senhoras e senhores, uma imagem não vale mais do que mil palavras.
Na realidade, encontrámos algumas imagens
que valem 500 mil milhões de palavras.
Jean-Baptiste Michel: Então como chegámos a esta conclusão?
Eu e o Erez estavámos a pensar em como
obter um panorama geral da cultura humana
e da história humana: mudança através dos tempos.
Foram escritos tantos livros ao longo dos anos.
E pensámos, bem a melhor maneira de aprender com eles
é ler todos estes milhões de livros.
Claro que, se houver uma escala de como isso é fantástico,
isso tem de ficar num patamar muito, muito elevado.
O problema é que há um eixo dos xx para isso,
que é o eixo prático.
Este está num patamar muito, muito baixo.
(Aplausos)
As pessoas têm tendência a usar uma abordagem alternativa,
que é pegar em algumas fontes e lê-las cuidadosamente.
Isto é extremamente prático, mas não muito fantástico.
O que realmente se pretende
é chegar à parte fantástica mas prática deste espaço.
Acontece que havia uma empresa do outro lado do rio chamada Google
que tinha iniciado um projecto de digitalização há alguns anos
que talvez permitisse esta abordagem.
Eles tinham digitalizado milhões de livros.
Isso significava que se podia usar métodos computacionais
para ler todos os livros com o clique de um botão.
Isto é muito prático e extremamente fantástico.
ELA: Deixem-me falar-vos um pouco sobre de onde vêm os livros.
Desde tempos imemoriais que existem autores.
Estes autores têm-se esforçado em escrever livros.
E isto tornou-se consideravelmente mais fácil
com o desenvolvimento da imprensa há alguns séculos atrás.
Desde então, os autores conseguiram
em 129 milhões de ocasiões distintas,
publicar livros.
Agora se esses livros não se perderam para a história
então estão algures numa biblioteca,
e muitos desses livros têm sido recuperados das bibliotecas
e digitalizados pela Google,
que já digitalizou quinze milhões de livros até agora.
Quando a Google digitaliza um livro, põe-no num formato mesmo catita.
Agora nós temos os dados e temos ainda metadados.
Temos informação sobre coisas como onde foi publicado,
quem foi o autor, quando foi publicado.
E o que fazemos é verificar todos esses registos
e excluir tudo aquilo que não é dados da mais alta qualidade.
Aquilo que nos resta
é uma colecção de cinco milhões de livros,
500 mil milhões de palavras,
uma cadeia de caracteres mil vezes mais longa
que o genoma humano...
um texto que, se fosse escrito por extenso,
iria daqui até à Lua e voltava
mais de dez vezes...
um autêntico fragmento do nosso genoma cultural.
Claro que aquilo que fizemos
perante tamanha hipérbole...
(Risos)
foi aquilo que qualquer pesquisador que se preze
teria feito.
Inspirámo-nos no XKDC,
e dissemos: «Afastem-se.
Vamos tentar fazer ciência.»
(Risos)
JM: Claro que pensávamos assim,
primeiro vamos por os dados lá fora
para que as pessoas façam ciência com eles.
E agora pensávamos, que dados podemos publicar?
Claro que se queria pegar nos livros
e publicar o texto completo destes cinco milhões de livros.
Mas a Google, e o Jon Orwant em particular,
mostrou-nos uma pequena equação a aprender.
Então temos cinco milhões, ou seja, cinco milhões de autores
e cinco milhões de queixosos são um processo legal monstruoso.
Então, embora isso fosse realmente fantástico
mais uma vez, é extremamente pouco prático.
(Risos)
Mais uma vez, tivemos de ceder mais ou menos,
e seguimos a abordagem muito prática, que é menos fantástica.
Dissemos: bem em vez de publicarmos o texto completo,
vamos publicar estatísticas sobre os livros.
Tome-se como exemplo «Um brilho de felicidade».
São quatro palavras; o que chamamos de quatro-grama.
Nós vamos dizer-vos quantas vezes um quatro-grama em particular
apareceu em livros em 1801, 1802, 1803,
até 2008.
Isso dá-nos uma série temporal
de quantas vezes esta frase em particular foi utilizada ao longo dos tempos.
Fazemos isso para todas as palavras e frases que surgem nestes livros,
e isso dá-nos uma enorme tabela de dois mil milhões de linhas
que nos dizem como a cultura tem vindo a mudar.
ELA: A estes dois mil milhões de linhas,
chamamos dois mil milhões de n-gramas.
O que é que eles nos dizem?
Bem, os n-gramas individuais medem tendências culturais.
Deixem-me dar-vos um exemplo.
Vamos supôr que estou a prosperar,
e que amanhã vos quero contar como me saí bem.
E então posso dizer «Ontem, eu vicejei.»
Em alternativa, podia dizer «Ontem, eu prosperei.»
Então qual é que devo utilizar?
Como é que se sabe?
Há cerca de seis meses atrás,
o topo de gama neste campo
seria dirigir-se, por exemplo,
a este psicólogo com um cabelo extraordinário
e dizer
«Steve, és perito nos verbos irregulares.
O que é que devo fazer?»
E ele responderia «Bem, muitos dizem prosperei,
mas alguns dizem vicejei.»
E ficariam a saber, mais ou menos,
que se voltassem 200 anos atrás
e perguntassem a este estadista com um cabelo igualmente extraordinário,
(Risos)
«Tom, o que é que eu devo dizer?»
Ele diria «Bem, no meu tempo a maior parte das pessoas vicejava,
mas alguns prosperavam.»
O que agora vos vou mostrar são dados brutos.
Duas linhas desta tabela com dois mil milhões de entradas.
O que estão a ver é a frequência por ano
de 'prosperei' e vicejei' ao longo do tempo.
Estas são apenas duas
de dois mil milhões de linhas.
O conjunto total dos dados
é mil milhões de vezes mais fantástico do que este slide.
(Risos)
(Aplausos)
JM: Há realmente muitas imagens que valem mais que 500 mil milhões de palavras.
Por exemplo, esta.
Se pegarmos em influenza,
verão picos no tempo onde sabiam que
grandes epidemias de gripe estavam a matar pessoas por todo o globo.
ELA: Se ainda não estão convencidos,
os níveis do mar estão a subir,
assim como o CO2 na atmosfera e a temperatura da Terra.
JM: Talvez queiram prestar atenção a este n-grama em particular,
para dizer a Nietzsche que Deus não está morto,
embora possam concordar que precisa de um relações públicas melhor.
(Risos)
ELA: Podem obter conceitos bastante abstractos com este tipo de análise.
Por exemplo, deixem-me contar-vos a história
do ano de 1950.
Durante grande parte da história,
ninguém ligou nenhuma a 1950.
Em 1700, em 1800, em 1900,
ninguém se preocupou.
Durante as décadas de 30 e 40,
ninguém se preocupou.
De repente, a meio da década de 40,
começou a haver um burburinho.
As pessoas perceberam que 1950 ia acontecer,
e podia ser algo em grande.
(Risos)
Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950
como o ano de 1950.
(Risos)
As pessoas andavam obececadas.
Não conseguiam parar de falar
sobre tudo o que tinham feito em 1950,
tudo o que planeavam fazer em 1950,
todos os sonhos que queriam alcançar em 1950.
Na verdade, 1950 era tão fascinante
que durante anos depois,
as pessoas continuaram a falar sobre as coisas maravilhosas que tinha acontecido,
em 51, 52, 53.
Finalmente em 1954,
houve alguém que acordou e percebeu
que 1950 se tinha tornado em algo fora de moda.
(Risos)
E assim de repente, rebentou a bolha.
(Risos)
E a história de 1950
é a história de cada ano que temos registado,
com uma ligeira diferença, porque agora temos estes gráficos catitas.
E como temos estes gráficos catitas, podemos comparar coisas.
Podemos dizer: «Quão depressa rebenta a bolha?»
E acontece que conseguimos medir isso com muita precisão.
Foram obtidas equações, foram produzidos gráficos,
e o resultado final
é que descobrimos
a cada ano que passa.
Estamos a perder interesse no passado cada vez mais rapidamente.
JM: E agora um pouco de orientação profissional.
Para aqueles de vós que querem ser famosos,
podemos aprender com os 25 políticos mais famosos,
autores, actores e assim por diante.
Então se quiserem ser famosos cedo, devem tornar-se actores,
porque a fama começa a aumentar no final dos vossos vinte anos...
ainda são jovens, isso é óptimo.
Se puderem esperar um bocadinho, devem ser autores,
porque então podem chegar longe,
como Mark Twain, por exemplo: extremamente famoso.
mas se quiserem alcançar mesmo o topo,
não devem esperar resultados imediatos
e devem tornarem-se políticos, pois claro.
Aqui começarão a ser famosos no final dos vossos cinquenta,
e tornar-se-ão muito, muito famosos depois disso.
Os cientistas também têm tendência a tornar-se famosos quando são mais muito mais velhos.
Por exemplo, biológos e físicos
podem ser tão famosos como actores.
Um erro que não devem cometer é tornarem-se matemáticos.
(Risos)
Se o fizerem,
podem pensar «Óptimo. Vou fazer o meu melhor trabalho quando tiver 20 anos.»
Mas, adivinhem, ninguém vai querer saber.
(Risos)
Há notas mais sóbrias
por entre os n-gramas.
Por exemplo, aqui está a trajectória de Marc Chagall,
um artista nascido em 1887.
E que se parece com a trajectória normal de uma pessoa famosa.
Ele torna-se cada vez mais famoso,
excepto se virem em alemão.
Se virem em alemão, vêem algo completamente bizarro,
algo que quase nunca se observa,
que é ele tornar-se extremamente famoso
e então de repente cai vertiginosamente,
atravessando o ponto mais baixo entre 1933 e 1945,
antes de recuperar nos anos seguintes.
E claro o que observamos
é o facto de Marc Chagall ser um artista judeu
na Alemanha nazi.
Estes sinais
na realidade são tão fortes
que não precisamos de saber que alguém foi censurado.
Podemos chegar a essa conclusão
através do processamento bastante básico de sinais.
Aqui está uma forma simples de o fazer.
Uma expectativa razoável
é a de que a fama de alguém num dado período de tempo
deverá ser sensivelmete a média da sua fama antes
e da sua fama depois desse período.
Isso é mais ou menos aquilo que se espera.
E comparamos isso com a fama que observamos.
E depois é só dividir uma pela outra
para obter algo a que chamamos de índice de supressão.
Se o índice de supressão for muito, muito, muito baixo,
então quase de certeza estão a ser reprimidos.
Se for muito alto, então talvez estejam a beneficiar com a propaganda.
JM: Pode mesmo ver-se
a distribuição de índices de supressão em populações inteiras.
Por exemplo, aqui...
este índice de supressão é de cinco mil pessoas
escolhidas em livros em inglês onde não há supressão explícita...
seria como este, centrado basicamente numa pessoa.
O que se espera é basicamente aquilo que se observa.
Esta é a distribuição conforme observada na Alemanha...
muito diferente, desvia-se para a esquerda.
As pessoas falaram sobre isto duas vezes menos do que se esperaria.
Mas muito mais importante, a distribuição é muito mais alargada.
Há muitas pessoas que acabaram na extrema esquerda nesta distribuição
de quem se falou menos dez vezes do que seria de esperar.
Mas também muitas pessoas na extrema direita
parecem beneficiar com a propaganda.
Esta imagem é a marca distintiva da censura no registo dos livros.
Culturómica
é o que chamamos a este método.
É como genómica.
Excepto que a genómica é uma lente sobre a biologia
através da janela da sequência de bases no genoma humano.
A culturómica é parecida.
É a aplicação da análise da recolha de dados em larga escala
ao estudo da cultura humana.
Aqui, em vez de ser através da lente de um genoma,
através da lente de peças digitalizadas do registo histórico.
O que é genial sobre a culturómica
é que todos a podem fazer.
Porque é que todos a podem fazer?
Todos a podem fazer porque três indivíduos,
Jon Orwant, Matt Gray e Will Brockman na Google,
viram o protótipo do NGram Viewer,
e disseram: «Isto é tão divertido.
Temos de tornar isto acessível às pessoas.»
E então em apenas duas semanas - as duas semanas anteriores à publicação do nosso artigo -
fizeram o código para uma versão do NGram Viewer para o público em geral.
E agora vocês podem escrever qualquer palavra ou frase em que estejam interessados
e ver imediatamente o seu n-grama...
assim como ver exemplos de todos os diferentes livros
onde surge o vosso n-grama.
Isto foi utilizado mais de um milhão de vezes no primeiro dia,
o que é a melhor de todas as pesquisas, na verdade.
As pessoas querem ser o seu melhor, causar a melhor impressão que conseguirem.
Mas acontece que no século XVIII, as pessoas não se preocupavam com isso.
Elas não queriam ser o seu melhor, queriam ser o seu milhor.
O que aconteceu foi, claro está, apenas um erro.
Não que é que se esforçassem pela mediocridade,
é só porque o E era escrito de forma diferente, como um I.
Claro que a Google não se apercebeu disto na altura,
e então nós referimos isto no artigo científico que escrevemos.
Mas acontece que isto é apenas um lembrete
de que, embora seja tudo muito divertido,
quando se interpretam estes gráficos, temos de ser cuidadosos
e há que adoptar os procedimentos científicos de base.
ELA: As pessoas têm utilizado isto para toda a espécie de diversão.
(Risos)
Na verdade, nem precisamos de vos dizer,
vamos apenas mostrar-vos todos os slides e ficar calados.
Esta pessoa estava interessada na história da frustração.
Há vários tipos de frustração.
Se baterem com um dedo do pé, isso é um «argh» com um A.
Se o planeta Terra for aniquilado pelos Vogons
para criar um desvio interestelar,
isso é um «aaaaaaaargh» com oito As.
Esta pessoa estuda todos os «arghs»,
entre um a oito As.
e acontece
que os «arghs» menos frequentes
são, claro, aqueles que correspondem a coisas mais frustrantes...
excepto, por incrível que pareça, nos princípios dos anos oitenta.
Pensamos que talvez tenha algo a ver com Reagan.
(Risos)
JM: Há muitas utilizações para estes dados,
mas o mais importante é que o registo histórico está a ser digitalizado.
A Google começou a digitalizar 15 milhões de livros.
São 12 por cento de todos os livros alguma vez publicados.
É um pedaço considerável da cultura humana.
Há muito mais na cultura: há manuscritos, há jornais,
há coisas que não são textos, como arte e quadros.
Tudo isto está nos nossos computadores,
nos computadores de todo o mundo.
E quando isso acontece, irá transformar a forma como
percebemos o nosso passado, o nosso presente e a nossa cultura humana.
Muito obrigado.
(Aplausos)