Erez Lieberman Aiden:
Todos sabemos que uma imagem
vale mais que mil palavras
Mas nós em Harvard
questionámos se isso seria mesmo verdade.
(Risos)
Então, juntámos uma equipa de peritos,
que vieram de Harvard, do MIT,
do The American Heritage Dictionary,
da The Encyclopedia Britannica
e até dos nossos orgulhosos
patrocinadores, a Google.
(Risos)
Debruçámo-nos sobre esta questão
durante cerca de quatro anos.
E chegámos a uma conclusão surpreendente.
Meus senhores, uma imagem
não vale mais que mil palavras.
Na verdade, encontrámos imagens
que valem 500 mil milhões de palavras.
Jean-Baptiste Michel:
Como chegámos a esta conclusão?
O Erez e eu pensámos em como obter
um panorama geral da cultura humana
e da história humana:
as mudanças através dos tempos.
Ao longo dos anos,
escreveram-se muitos livros.
Pensámos que a melhor maneira
de aprender com eles
seria ler todos esses milhões de livros.
Se houvesse uma escala
de como isso seria fantástico,
isso seria classificado
a um nível muito elevado.
O problema é que há
um eixo X para isso,
que é o eixo da prática,
o que o colocaria num patamar muito baixo
(Aplausos)
As pessoas têm tendência a usar
uma abordagem alternativa,
que é pegar nalgumas fontes
e lê-las cuidadosamente.
É extremamente prático,
mas não muito fantástico.
O que realmente se pretende
é chegar à parte fantástica
mas prática deste espaço.
Acontece que havia uma empresa
do outro lado do rio chamada Google
que iniciara um projeto
de digitalização há uns anos
que talvez permitisse essa abordagem.
Tinham digitalizado milhões de livros.
Isso significava que se podiam
usar métodos informáticos
para ler todos os livros
com o clique de um botão.
Isto é muito prático
e extremamente fantástico.
ELA: Vou falar-vos de onde vêm os livros.
Desde tempos imemoriais
que existem autores.
Esses autores têm-se esforçado
por escrever livros.
Isso tornou-se muito mais fácil
com o desenvolvimento
da imprensa há uns séculos.
Desde então, os autores tiveram
129 milhões de ocasiões diferentes
para publicar livros,
Se esses livros
não se perderam na história
estão algures numa biblioteca,
e muitos desses livros
têm sido recuperados das bibliotecas
e digitalizados pela Google,
que já digitalizou
15 milhões de livros até agora.
Quando a Google digitaliza um livro,
põe-no num formato catita.
Agora, temos os dados
e temos ainda metadados.
Temos informação sobre onde foi publicado,
quem foi o autor,
quando foi publicado, etc.
Verificamos todos esses arquivos
e excluímos tudo o que não seja
da mais alta qualidade.
Aquilo que nos resta
é uma coleção de cinco milhões de livros,
500 mil milhões de palavras,
uma cadeia de caracteres
mil vezes mais longa
que o genoma humano,
um texto que,
se fosse escrito por extenso,
iria daqui até à Lua e voltava
mais de dez vezes,
um autêntico fragmento
do nosso genoma cultural.
Claro que aquilo que fizemos
perante tamanha hipérbole...
(Risos)
... foi aquilo que teria feito
qualquer pesquisador que se preze.
Inspirámo-nos no XKDC, e dissemos:
"Afastem-se. Vamos tentar fazer ciência."
(Risos)
JM: Claro que estávamos a pensar
em publicar primeiro os dados
para que as pessoas
pudessem fazer ciência.
Mas depois pensámos:
""Que dados podemos publicar?"
Claro que queríamos pegar nos livros
e publicar o texto completo
de todos os livros.
Mas a Google,
e o Jon Orwant em particular,
ensinou-nos uma pequena equação.
Temos cinco milhões de autores, ou seja,
cinco milhões de processos judiciais,
uma coisa monstruosa.
Assim, embora isso fosse fantástico
mais uma vez, era impraticável.
(Risos)
Mais uma vez, tivemos de ceder
e seguimos a abordagem prática,
que era menos fantástica.
Em vez de publicarmos
o texto completo,
íamos publicar estatísticas
sobre os livros.
Por exemplo,
"Um brilho de felicidade".
São quatro palavras,
a que chamamos um quatro-grama.
Íamos dizer quantas vezes
um determinado quatro-grama
aparecia em livros em 1801,
1802, 1803... até 2008.
Isso dá-nos uma série temporal
de quantas vezes foi utilizada essa frase.
Fazemos isso para todas as palavras
e frases que surgem nesses livros.
Isso dá-nos uma enorme tabela
de dois mil milhões de linhas
que nos dizem como a cultura
tem vindo a mudar.
ELA: Chamamos a esses
dois mil milhões de linhas,
dois mil milhões de n-gramas.
O que é que eles nos dizem?
Os n-gramas individuais
medem tendências culturais.
Vou dar-vos um exemplo.
Vamos supor que estou a prosperar,
e que amanhã quero contar
como me saí bem.
Posso dizer: "Ontem, eu vicejei."
Em alternativa, podia dizer:
"Ontem, eu prosperei.
"Então qual é que devo utilizar?
"Como é que hei de saber?"
Há cerca de seis meses,
o topo de gama neste campo
seria dirigir-se, por exemplo,
a um psicólogo com um cabelo fabuloso
e dizer:
"Steve, és perito em verbos.
"O que é que devo fazer?"
E ele responderia:
"Muitos dizem 'prosperei',
"mas alguns dizem 'vicejei'."
Também ficariam a saber, mais ou menos,
que, se recuassem 200 anos,
e perguntassem a este estadista
com um cabelo igualmente fabuloso:
(Risos)
"Tom, o que é que eu devo dizer?"
Ele diria: "No meu tempo,
a maior parte das pessoas vicejava,
"mas alguns prosperavam."
Agora vou mostrar-vos dados brutos.
Duas linhas desta tabela
com dois mil milhões de entradas.
Estão a ver a frequência, ano a ano,
de "prosperei" e "vicejei"
ao longo do tempo.
Estas são apenas duas
entre dois mil milhões de linhas.
O conjunto total dos dados
é mil milhões de vezes mais fantástico
do que este slide.
(Risos)
(Aplausos)
JM: Há muitas imagens que valem mais
que 500 mil milhões de palavras.
Por exemplo, esta.
Se pegarmos em "gripe",
verão picos na época em que se sabia
que grandes epidemias de gripe
matavam pessoas em todo o globo.
ELA: Se ainda não estão convencidos,
os níveis do mar estão a subir,
assim como o CO2 na atmosfera
e a temperatura da Terra.
JM: Talvez queiram prestar atenção
a este n-grama em particular,
e dizer a Nietzsche
que Deus não está morto,
embora concordem que Ele precisa
de um relações públicas melhor.
(Risos)
ELA: Podemos obter conceitos bastante
abstratos com este tipo de análise.
Por exemplo, vou contar-vos
a história do ano de 1950.
Durante grande parte da história,
ninguém ligou nenhuma a 1950.
Em 1700, em 1800, em 1900,
ninguém se preocupou.
Durante os anos 30 e 40,
ninguém se preocupou.
De repente, a meio dos anos 40,
começa a haver um burburinho.
As pessoas percebem
que 1950 vai acontecer,
e pode ser uma coisa em grande.
(Risos)
Mas nada fez com que as pessoas
se interessassem mais pelo ano de 1950
do que o ano de 1950.
(Risos)
As pessoas andavam obcecadas.
Não conseguiam deixar de falar
sobre tudo o que tinham feito em 1950,
tudo o que planeavam fazer em 1950,
todos os sonhos
que queriam alcançar em 1950.
Na verdade, 1950 foi tão fascinante
que, anos depois,
as pessoas continuavam a falar
das coisas maravilhosas
que tinham acontecido
em 1951, 1952, 1953.
Finalmente, em 1954,
houve alguém que acordou e percebeu
que 1950 se tinha tornado
numa coisa do passado.
(Risos)
E de repente, rebentou a bolha.
(Risos)
A história de 1950
é a história de cada ano
que temos registado,
com uma ligeira diferença, porque agora
temos estes gráficos catitas.
Como temos estes gráficos catitas,
podemos comparar coisas.
Podemos dizer:
"Quão depressa rebenta a bolha?"
Acontece que conseguimos medir isso
com muita precisão.
Derivaram-se equações,
produziram-se gráficos,
e como resultado final
descobrimos que a bolha rebenta
cada vez mais depressa,
de ano para ano.
Estamos a perder interesse no passado
cada vez mais rapidamente.
JM: Agora, um pouco
de orientação profissional.
Os que querem ser famosos,
podem aprender
com os 25 políticos mais famosos,
autores, atores, etc..
Se quiserem ser famosos cedo,
devem tornar-se atores,
porque a fama começa a aumentar
no final dos vinte anos,
ainda são jovens, isso é ótimo.
Se podem esperar um pouco,
devem ser autores,
porque então podem chegar longe,
como Mark Twain, por exemplo,
extremamente famoso.
Mas se quiserem alcançar mesmo o topo,
não devem esperar resultados imediatos
e, claro, devem tornarem-se políticos.
Começarão a ser famosos
no final dos 50 anos
e tornar-se-ão
muito famosos depois disso.
Os cientistas também ficam famosos
quando são muito mais velhos.
Por exemplo, os biólogos e os físicos
podem ser tão famosos como os atores.
Um erro que não devem fazer
é tornarem-se matemáticos.
(Risos)
Se o fizerem, podem pensar:
"Ótimo. Vou fazer o meu melhor trabalho
aos 20 anos."
Mas, calculem, ninguém vai querer saber.
(Risos)
ELA: Há notas mais sóbrias
entre os n-gramas.
Por exemplo, esta é
a trajetória de Marc Chagall,
um artista nascido em 1887.
Parece-se com a trajetória normal
de uma pessoa famosa.
Torna-se cada vez mais famoso,
exceto se procurarem em alemão.
Se procurarem em alemão,
verão uma coisa bizarra,
uma coisa que habitualmente
não se observa.
Ele torna-se extremamente famoso
e, de repente, cai vertiginosamente,
atravessando o ponto mais baixo
entre 1933 e 1945,
antes de recuperar nos anos seguintes.
O que aqui observamos
é o facto de Marc Chagall
ser um artista judeu
na Alemanha nazi.
Na realidade, estes sinais são tão fortes
que não precisamos de saber
que alguém foi censurado.
Podemos chegar a essa conclusão
através do tratamento básico de sinais.
Esta é uma forma simples de o fazer.
Uma expetativa razoável
é a de que a fama de alguém
num dado período de tempo
deverá ser sensivelmente
a média da sua fama antes
e da sua fama posterior.
Isso é aquilo que se espera.
Comparamos isso com a fama
que observamos.
Depois é só dividir uma pela outra
para obter uma coisa a que chamamos
"índice de supressão".
Se o índice de supressão
for muito, muito baixo,
quase de certeza estão a ser censurados.
Se for muito alto, então talvez estejam
a beneficiar com a propaganda.
JM: Podemos mesmo ver
a distribuição de índices de supressão
em populações inteiras.
Por exemplo, aqui...
este índice de supressão
é de cinco mil pessoas
escolhidas em livros em inglês
onde não há supressão explícita...
seria como este, centrado numa pessoa.
O que se espera é aquilo que se observa.
Esta é a distribuição
observada na Alemanha
— desvia-se para a esquerda.
As pessoas falaram disso
duas vezes menos do que o esperado.
Mais importante,
a distribuição é mais alargada.
Há muitas pessoas que acabam
na ponta esquerda na distribuição
de quem se falou menos dez vezes
do que seria de esperar.
Mas também muita gente
na ponta direita
parece beneficiar com a propaganda.
Esta imagem é a marca distintiva
da censura no registo dos livros.
ELA: "Culturómica"
é o que chamamos a este método.
É como genómica.
Exceto que a genómica
é uma lente sobre a biologia
através da janela da sequência
de bases no genoma humano.
A culturómica é parecida.
É a aplicação da análise da recolha
de dados em larga escala
ao estudo da cultura humana.
Aqui, em vez de ser
através da lente de um genoma,
é através da lente de peças digitalizadas
do registo histórico.
O que é genial na culturómica
é que todos a podem fazer.
Porque é que todos a podem fazer?
Todos a podem fazer
porque três indivíduos,
Jon Orwant, Matt Gray
e Will Brockman na Google,
viram o protótipo do NGram Viewer,
e disseram: "Isto é muito divertido.
"Temos de tornar isto
acessível às pessoas."
Nas duas semanas antes
da publicação do nosso artigo
fizeram o código para a versão pública
do NGram Viewer.
Podemos escrever qualquer palavra
ou frase em que estamos interessados
e vemos imediatamente o seu n-grama,
assim como vemos exemplos
de todos os diversos livros
onde surge esse n-grama.
JBM: Isto foi usado mais de um milhão
de vezes no primeiro dia,
o que é a melhor de todas as pesquisas.
Todos querem o seu melhor,
mostrar o seu melhor.
Acontece que, no século XVIII,
isso não acontecia.
Não queriam ser o seu melhor,
queriam ser o seu "milhor".
Claro que o que aconteceu
foi apenas um erro.
Não que é que se esforçassem
pela mediocridade,
é só porque o "e" escrevia-se
de forma diferente, como um "i".
A Google não se apercebeu disso na altura,
e nós referimos isso no artigo científico
que escrevemos.
Acontece que isto é apenas um lembrete
de que, embora seja tudo muito divertido,
quando interpretamos gráficos,
temos de ser cuidadosos.
Há que adotar os procedimentos
científicos de base.
ELA: As pessoas têm usado isto
para todo o tipo de diversão.
(Risos)
Na verdade, nem é preciso falar,
vamos apenas mostrar-vos
todos os slides e ficar calados.
Esta pessoa estava interessada
na história da frustração.
Há vários tipos de frustração.
Se baterem com um dedo do pé,
isso é um "ai" com um A.
Se o planeta Terra for aniquilado
pelos Vogons
para criar um desvio interestelar,
isso é um "aaaaaaaai" com oito A's.
Esta pessoa estuda todos os "ais",
entre um a oito A's.
Acontece que os "ais" menos frequentes
são os que correspondem
a coisas mais frustrantes,
exceto, por incrível que pareça,
nos princípios dos anos 80.
Talvez tenha alguma coisa
a ver com Reagan.
(Risos)
JM: Há muitas utilizações
para estes dados,
mas o mais importante é que está
a ser digitalizado o registo histórico.
A Google começou a digitalizar
15 milhões de livros.
São 12% de todos os livros já publicados.
É um pedaço considerável
da cultura humana.
Há muito mais na cultura,
há manuscritos, há jornais,
há coisas que não são textos,
como arte e quadros.
Tudo isto está nos nossos computadores,
nos computadores de todo o mundo.
Quando isso acontece,
irá transformar a forma
como entendemos o passado,
o presente e a cultura humana.
Muito obrigado.
(Aplausos)