Erez Lieberman Aiden: Todos sabemos
que uma imagem vale mais que mil palavras
Mas nós em Harvard
questionámos se isso seria mesmo verdade.
(Risos)
Então, juntámos uma equipa de peritos,
que abrangiam Harvard, o MIT,
o The American Heritage Dictionary,
a The Encyclopedia Britannica
e até os nossos orgulhosos patrocinadores,
a Google.
Debruçámo-nos sobre esta questão
durante cerca de quatro anos.
E chegámos a uma conclusão surpreendente.
Meus senhores, uma imagem
não vale mais que mil palavras.
Na verdade, encontrámos algumas imagens
que valem 500 mil milhões de palavras.
Jean-Baptiste Michel:
Como chegámos a esta conclusão?
O Erez e eu pensámos em como obter
um panorama geral da cultura humana
e da história humana:
uma mudança através dos tempos.
Ao longo dos anos,
escreveram-se muitos livros.
Pensámos que a melhor maneira
de aprender com eles
seia ler todos esses milhões de livros.
Claro que, se houvesse uma escala
de como isso seria fantástico,
isso iria ficar num patamar
muitíssimo elevado.
O problema é que há
um eixo de XX para isso,
que é o eixo prático.
Este está num patamar muito, muito baixo.
(Aplausos)
As pessoas têm tendência a usar
uma abordagem alternativa,
que é pegar em algumas fontes
e lê-las cuidadosamente.
Isto é extremamente prático,
mas não muito fantástico.
O que realmente se pretende
é chegar à parte fantástica
mas prática deste espaço.
Acontece que havia uma empresa
do outro lado do rio chamada Google
que tinha iniciado um projecto
de digitalização há alguns anos
que talvez permitisse esta abordagem.
Eles tinham digitalizado
milhões de livros.
Isso significava que se podiam
usar métodos informáticos
para ler todos os livros
com o clique de um botão.
Isto é muito prático
e extremamente fantástico.
ELA: Deixem-me falar-vos um pouco
sobre de onde vêm os livros.
Desde tempos imemoriais
que existem autores.
Estes autores têm-se esforçado
em escrever livros.
E isto tornou-se
consideravelmente mais fácil
com o desenvolvimento da imprensa
há alguns séculos.
Desde então, os autores conseguiram
em 129 milhões de ocasiões distintas,
publicar livros.
Agora se esses livros
não se perderam para a história
então estão algures numa biblioteca,
e muitos desses livros
têm sido recuperados das bibliotecas
e digitalizados pela Google,
que já digitalizou
15 milhões de livros até agora.
Quando a Google digitaliza um livro,
põe-no num formato catita.
Agora nós temos os dados
e temos ainda metadados.
Temos informação sobre coisas
como onde foi publicado,
quem foi o autor, quando foi publicado.
E o que fazemos é verificar
todos esses registos
e excluir tudo aquilo que não são
dados da mais alta qualidade.
Aquilo que nos resta
é uma colecção de cinco milhões de livros,
500 mil milhões de palavras,
uma cadeia de caracteres
mil vezes mais longa
que o genoma humano...
um texto que,
se fosse escrito por extenso,
iria daqui até à Lua e voltava
mais de dez vezes...
um autêntico fragmento
do nosso genoma cultural.
Claro que aquilo que fizemos
perante tamanha hipérbole...
(Risos)
foi aquilo que qualquer pesquisador
que se preze
teria feito.
Inspirámo-nos no XKDC,
e dissemos: «Afastem-se.
Vamos tentar fazer ciência.»
(Risos)
JM: Claro que pensávamos assim,
primeiro vamos por os dados lá fora
para que as pessoas
façam ciência com eles.
E agora pensávamos,
que dados podemos publicar?
Claro que se queria pegar nos livros
e publicar o texto completo
destes cinco milhões de livros.
Mas a Google,
e o Jon Orwant em particular,
mostrou-nos uma pequena equação
a aprender.
Então temos cinco milhões,
ou seja, cinco milhões de autores
e cinco milhões de queixosos
são um processo legal monstruoso.
Então, embora isso fosse
realmente fantástico
mais uma vez,
é extremamente pouco prático.
(Risos)
Mais uma vez, tivemos de ceder
mais ou menos,
e seguimos a abordagem muito prática,
que é menos fantástica.
Dissemos: "Em vez de publicarmos
o texto completo,
vamos publicar estatísticas
sobre os livros.
Tome-se como exemplo
"Um brilho de felicidade".
São quatro palavras,
o que chamamos de quatro-grama.
Nós vamos dizer-vos quantas vezes
um quatro-grama em particular
apareceu em livros em 1801, 1802, 1803,
até 2008.
Isso dá-nos uma série temporal
de quantas vezes esta frase em particular
foi utilizada ao longo dos tempos.
Fazemos isso para todas as palavras e frases
que surgem nestes livros,
e isso dá-nos uma enorme tabela
de dois mil milhões de linhas
que nos dizem como a cultura
tem vindo a mudar.
ELA: A estes dois mil milhões de linhas,
chamamos dois mil milhões de n-gramas.
O que é que eles nos dizem?
Bem, os n-gramas individuais
medem tendências culturais.
Deixem-me dar-vos um exemplo.
Vamos supôr que estou a prosperar,
e que amanhã quero contar
como me saí bem.
Então posso dizer: "Ontem, eu vicejei."
Em alternativa, podia dizer:
"Ontem, eu prosperei".
Então qual é que devo utilizar?
Como é que se sabe?
Há cerca de seis meses atrás,
o topo de gama neste campo
seria dirigir-se, por exemplo,
a este psicólogo
com um cabelo extraordinário
e dizer:
"Steve, és perito nos verbos irregulares.
"O que é que devo fazer?"
E ele responderia:
"Bem, muitos dizem prosperei,
"mas alguns dizem vicejei."
E ficariam a saber, mais ou menos,
que se recuassem 200 anos
e perguntassem a este estadista
com um cabelo igualmente extraordinário:
(Risos)
"Tom, o que é que eu devo dizer?"
Ele diria: "No meu tempo,
a maior parte das pessoas vicejava,
"mas alguns prosperavam."
O que agora vos vou mostrar
são dados brutos.
Duas linhas desta tabela
com dois mil milhões de entradas.
O que estão a ver é a frequência por ano
de "prosperei" e "vicejei"
ao longo do tempo.
Estas são apenas duas
de dois mil milhões de linhas.
O conjunto total dos dados
é mil milhões de vezes mais fantástico
do que este slide.
(Risos)
(Aplausos)
JM: Há realmente muitas imagens
que valem mais que 500 mil milhões de palavras.
Por exemplo, esta.
Se pegarmos em "gripe",
verão picos no tempo em que sabiam
que grandes epidemias de gripe
estavam a matar pessoas por todo o globo.
ELA: Se ainda não estão convencidos,
os níveis do mar estão a subir,
assim como o CO2 na atmosfera
e a temperatura da Terra.
JM: Talvez queiram prestar atenção
a este n-grama em particular,
para dizer a Nietzsche
que Deus não está morto,
embora possam concordar que precisa
de um relações públicas melhor.
(Risos)
ELA: Podem obter conceitos bastante
abstractos com este tipo de análise.
Por exemplo, vou contar-vos a história
do ano de 1950.
Durante grande parte da história,
ninguém ligou nenhuma a 1950.
Em 1700, em 1800, em 1900,
ninguém se preocupou.
Durante as décadas de 30 e 40,
ninguém se preocupou.
De repente, a meio da década de 40,
começou a haver um burburinho.
As pessoas perceberam
que 1950 ia acontecer,
e podia ser uma coisa em grande.
(Risos)
Mas nada fez com que as pessoas
se interessassem mais pelo ano de 1950
como o ano de 1950.
(Risos)
As pessoas andavam obececadas.
Não conseguiam parar de falar
sobre tudo o que tinham feito em 1950,
tudo o que planeavam fazer em 1950,
todos os sonhos
que queriam alcançar em 1950.
Na verdade, 1950 era tão fascinante
que, durante anos depois,
as pessoas continuaram a falar
das coisas maravilhosas que tinham acontecido,
em 51, 52, 53.
Finalmente em 1954,
houve alguém que acordou e percebeu
que 1950 se tinha tornado
numa coisa fora de moda.
(Risos)
Assim, de repente, rebentou a bolha.
(Risos)
A história de 1950
é a história de cada ano
que temos registado,
com uma ligeira diferença, porque agora
temos estes gráficos catitas.
Como temos estes gráficos catitas,
podemos comparar coisas.
Podemos dizer:
"Quão depressa rebenta a bolha?"
Acontece que conseguimos medir isso
com muita precisão.
Foram obtidas equações,
foram produzidos gráficos,
e o resultado final
é que descobrimos
a cada ano que passa.
Estamos a perder interesse no passado
cada vez mais rapidamente.
JM: Agora, um pouco
de orientação profissional.
Para os que querem ser famosos,
podemos aprender
com os 25 políticos mais famosos,
autores, atores, etc..
Se quiserem ser famosos cedo,
devem tornar-se atores,
porque a fama começa a aumentar
no final dos vinte anos...
ainda são jovens, isso é óptimo.
Se puderem esperar um bocadinho,
devem ser autores,
porque então podem chegar longe,
como Mark Twain, por exemplo:
extremamente famoso.
Mas se quiserem alcançar mesmo o topo,
não devem esperar resultados imediatos
e devem tornarem-se políticos, claro.
Aqui começarão a ser famosos
no final dos 50,
e tornar-se-ão muito,
muito famosos depois disso.
Os cientistas também têm tendência a tornar-se famosos quando são mais muito mais velhos.
Por exemplo, biológos e físicos
podem ser tão famosos como atores.
Um erro que não devem cometer
é tornarem-se matemáticos.
(Risos)
Se o fizerem, podem pensar:
"Ótimo. Vou fazer o meu melhor trabalho
quando tiver 20 anos."
Mas, adivinhem, ninguém vai querer saber.
(Risos)
Há notas mais sóbrias
por entre os n-gramas.
Por exemplo, esta é
a trajetória de Marc Chagall,
um artista nascido em 1887.
Parece-se com a trajetória normal
de uma pessoa famosa.
Ele torna-se cada vez mais famoso,
exceto se virem em alemão.
Se virem em alemão,
veem algo completamente bizarro,
algo que quase nunca se observa,
que é ele tornar-se extremamente famoso
e então de repente cai vertiginosamente,
atravessando o ponto mais baixo
entre 1933 e 1945,
antes de recuperar nos anos seguintes.
E claro o que observamos
é o facto de Marc Chagall
ser um artista judeu
na Alemanha nazi.
Estes sinais
na realidade são tão fortes
que não precisamos de saber
que alguém foi censurado.
Podemos chegar a essa conclusão
através do processamento
bastante básico de sinais.
Aqui está uma forma simples de o fazer.
Uma expectativa razoável
é a de que a fama de alguém
num dado período de tempo
deverá ser sensivelmete
a média da sua fama antes
e da sua fama depois desse período.
Isso é mais ou menos aquilo que se espera.
Comparamos isso com a fama
que observamos.
Depois é só dividir uma pela outra
para obter algo a que chamamos
"índice de supressão".
Se o índice de supressão
for muito, muito, muito baixo,
então quase de certeza
estão a ser reprimidos.
Se for muito alto, então talvez estejam
a beneficiar com a propaganda.
JM: Pode mesmo ver-se
a distribuição de índices de supressão
em populações inteiras.
Por exemplo, aqui...
este índice de supressão
é de cinco mil pessoas
escolhidas em livros em inglês
onde não há supressão explícita...
seria como este, centrado numa pessoa.
O que se espera é aquilo que se observa.
Esta é a distribuição conforme
observada na Alemanha...
muito diferente,
desvia-se para a esquerda.
As pessoas falaram sobre isto duas vezes menos
do que se esperaria.
Mas muito mais importante,
a distribuição é muito mais alargada.
Há muitas pessoas que acabaram
na extrema esquerda nesta distribuição
de quem se falou menos dez vezes
do que seria de esperar.
Mas também muitas pessoas
na extrema direita
parecem beneficiar com a propaganda.
Esta imagem é a marca distintiva
da censura no registo dos livros.
"Culturómica"
é o que chamamos a este método.
É como genómica.
Excepto que a genómica
é uma lente sobre a biologia
através da janela da sequência
de bases no genoma humano.
A culturómica é parecida.
É a aplicação da análise da recolha
de dados em larga escala
ao estudo da cultura humana.
Aqui, em vez de ser
através da lente de um genoma,
através da lente de peças digitalizadas
do registo histórico.
O que é genial sobre a culturómica
é que todos a podem fazer.
Porque é que todos a podem fazer?
Todos a podem fazer
porque três indivíduos,
Jon Orwant, Matt Gray
e Will Brockman na Google,
viram o protótipo do NGram Viewer,
e disseram: "Isto é tão divertido.
"Temos de tornar isto acessível às pessoas."
Então em apenas duas semanas
— as duas semanas anteriores à publicação do nosso artigo —
fizeram o código para uma versão
do NGram Viewer para o público em geral.
Agora podemos escrever qualquer palavra
ou frase em que estejamos interessados
e vemos imediatamente o seu n-grama...
assim como vemos exemplos
de todos os diferentes livros
onde surge o nosso n-grama.
Isto foi utilizado mais de um milhão
de vezes no primeiro dia,
o que é a melhor de todas as pesquisas.
As pessoas querem ser o seu melhor,
causar a melhor impressão que conseguirem.
Mas acontece que no século XVIII,
as pessoas não se preocupavam com isso.
Elas não queriam ser o seu melhor,
queriam ser o seu milhor.
O que aconteceu foi, claro está,
apenas um erro.
Não que é que se esforçassem
pela mediocridade,
é só porque o E era escrito
de forma diferente, como um I.
Claro que a Google
não se apercebeu disto na altura,
e então nós referimos isto no artigo científico
que escrevemos.
Mas acontece que isto é apenas um lembrete
de que, embora seja tudo muito divertido,
quando se interpretam estes gráficos,
temos de ser cuidadosos
e há que adotar
os procedimentos científicos de base.
ELA: As pessoas têm utilizado isto
para toda a espécie de diversão.
(Risos)
Na verdade, nem precisamos de vos dizer,
vamos apenas mostrar-vos
todos os slides e ficar calados.
Esta pessoa estava interessada
na história da frustração.
Há vários tipos de frustração.
Se baterem com um dedo do pé,
isso é um «argh» com um A.
Se o planeta Terra for aniquilado
pelos Vogons
para criar um desvio interestelar,
isso é um «aaaaaaaargh» com oito As.
Esta pessoa estuda todos os «arghs»,
entre um a oito As.
e acontece
que os «arghs» menos frequentes
são, claro, aqueles que correspondem
a coisas mais frustrantes...
excepto, por incrível que pareça,
nos princípios dos anos 80.
Pensamos que talvez tenha
algo a ver com Reagan.
(Risos)
JM: Há muitas utilizações
para estes dados,
mas o mais importante é que
o registo histórico está a ser digitalizado.
A Google começou a digitalizar
15 milhões de livros.
São 12% de todos os livros já publicados.
É um pedaço considerável da cultura humana.
Há muito mais na cultura:
há manuscritos, há jornais,
há coisas que não são textos,
como arte e quadros.
Tudo isto está nos nossos computadores,
nos computadores de todo o mundo.
Quando isso acontece,
irá transformar a forma como
percebemos o nosso passado,
o nosso presente e a nossa cultura humana.
Muito obrigado.
(Aplausos)