O que aprendemos com cinco milhões de livros
-
0:00 - 0:01Erez Lieberman Aiden:
-
0:01 - 0:06Todos sabemos que uma imagem
vale mais que mil palavras -
0:08 - 0:09Mas nós em Harvard
-
0:09 - 0:12questionámos se isso seria mesmo verdade.
-
0:12 - 0:14(Risos)
-
0:14 - 0:17Então, juntámos uma equipa de peritos,
-
0:17 - 0:20que vieram de Harvard, do MIT,
-
0:20 - 0:23do The American Heritage Dictionary,
da The Encyclopedia Britannica -
0:23 - 0:27e até dos nossos orgulhosos
patrocinadores, a Google. -
0:27 - 0:29(Risos)
-
0:29 - 0:31Debruçámo-nos sobre esta questão
-
0:31 - 0:33durante cerca de quatro anos.
-
0:33 - 0:37E chegámos a uma conclusão surpreendente.
-
0:37 - 0:40Meus senhores, uma imagem
não vale mais que mil palavras. -
0:40 - 0:43Na verdade, encontrámos imagens
-
0:43 - 0:47que valem 500 mil milhões de palavras.
-
0:47 - 0:50Jean-Baptiste Michel:
Como chegámos a esta conclusão? -
0:50 - 0:52O Erez e eu pensámos em como obter
-
0:52 - 0:55um panorama geral da cultura humana
e da história humana: -
0:55 - 0:57as mudanças através dos tempos.
-
0:57 - 0:59Ao longo dos anos,
escreveram-se muitos livros. -
0:59 - 1:01Pensámos que a melhor maneira
de aprender com eles -
1:01 - 1:03seria ler todos esses milhões de livros.
-
1:03 - 1:06Se houvesse uma escala
de como isso seria fantástico, -
1:06 - 1:09isso seria classificado
a um nível muito elevado. -
1:09 - 1:11O problema é que há
um eixo X para isso, -
1:11 - 1:13que é o eixo da prática,
-
1:13 - 1:15o que o colocaria num patamar muito baixo
-
1:15 - 1:17(Aplausos)
-
1:18 - 1:21As pessoas têm tendência a usar
uma abordagem alternativa, -
1:21 - 1:23que é pegar nalgumas fontes
e lê-las cuidadosamente. -
1:23 - 1:25É extremamente prático,
mas não muito fantástico. -
1:25 - 1:28O que realmente se pretende
-
1:28 - 1:30é chegar à parte fantástica
mas prática deste espaço. -
1:30 - 1:34Acontece que havia uma empresa
do outro lado do rio chamada Google -
1:34 - 1:36que iniciara um projeto
de digitalização há uns anos -
1:36 - 1:38que talvez permitisse essa abordagem.
-
1:38 - 1:40Tinham digitalizado milhões de livros.
-
1:40 - 1:42Isso significava que se podiam
usar métodos informáticos -
1:42 - 1:45para ler todos os livros
com o clique de um botão. -
1:45 - 1:48Isto é muito prático
e extremamente fantástico. -
1:48 - 1:51ELA: Vou falar-vos de onde vêm os livros.
-
1:51 - 1:54Desde tempos imemoriais
que existem autores. -
1:54 - 1:57Esses autores têm-se esforçado
por escrever livros. -
1:57 - 1:59Isso tornou-se muito mais fácil
-
1:59 - 2:01com o desenvolvimento
da imprensa há uns séculos. -
2:01 - 2:03Desde então, os autores tiveram
-
2:03 - 2:06129 milhões de ocasiões diferentes
-
2:06 - 2:08para publicar livros,
-
2:08 - 2:10Se esses livros
não se perderam na história -
2:10 - 2:12estão algures numa biblioteca,
-
2:12 - 2:15e muitos desses livros
têm sido recuperados das bibliotecas -
2:15 - 2:17e digitalizados pela Google,
-
2:17 - 2:19que já digitalizou
15 milhões de livros até agora. -
2:19 - 2:22Quando a Google digitaliza um livro,
põe-no num formato catita. -
2:22 - 2:24Agora, temos os dados
e temos ainda metadados. -
2:24 - 2:27Temos informação sobre onde foi publicado,
-
2:27 - 2:29quem foi o autor,
quando foi publicado, etc. -
2:29 - 2:32Verificamos todos esses arquivos
-
2:32 - 2:35e excluímos tudo o que não seja
da mais alta qualidade. -
2:35 - 2:37Aquilo que nos resta
-
2:37 - 2:41é uma coleção de cinco milhões de livros,
-
2:41 - 2:44500 mil milhões de palavras,
-
2:44 - 2:47uma cadeia de caracteres
mil vezes mais longa -
2:47 - 2:49que o genoma humano,
-
2:49 - 2:51um texto que,
se fosse escrito por extenso, -
2:51 - 2:53iria daqui até à Lua e voltava
-
2:53 - 2:55mais de dez vezes,
-
2:55 - 2:58um autêntico fragmento
do nosso genoma cultural. -
2:59 - 3:01Claro que aquilo que fizemos
-
3:01 - 3:03perante tamanha hipérbole...
-
3:03 - 3:06(Risos)
-
3:06 - 3:08... foi aquilo que teria feito
-
3:08 - 3:11qualquer pesquisador que se preze.
-
3:11 - 3:14Inspirámo-nos no XKDC, e dissemos:
-
3:14 - 3:17"Afastem-se. Vamos tentar fazer ciência."
-
3:17 - 3:19(Risos)
-
3:20 - 3:21JM: Claro que estávamos a pensar
-
3:21 - 3:23em publicar primeiro os dados
-
3:23 - 3:25para que as pessoas
pudessem fazer ciência. -
3:25 - 3:28Mas depois pensámos:
""Que dados podemos publicar?" -
3:28 - 3:29Claro que queríamos pegar nos livros
-
3:29 - 3:32e publicar o texto completo
de todos os livros. -
3:32 - 3:34Mas a Google,
e o Jon Orwant em particular, -
3:34 - 3:36ensinou-nos uma pequena equação.
-
3:36 - 3:38Temos cinco milhões de autores, ou seja,
-
3:38 - 3:41cinco milhões de processos judiciais,
uma coisa monstruosa. -
3:41 - 3:44Assim, embora isso fosse fantástico
-
3:44 - 3:46mais uma vez, era impraticável.
-
3:47 - 3:48(Risos)
-
3:49 - 3:51Mais uma vez, tivemos de ceder
-
3:51 - 3:54e seguimos a abordagem prática,
que era menos fantástica. -
3:54 - 3:55Em vez de publicarmos
o texto completo, -
3:55 - 3:58íamos publicar estatísticas
sobre os livros. -
3:58 - 3:59Por exemplo,
"Um brilho de felicidade". -
3:59 - 4:02São quatro palavras,
a que chamamos um quatro-grama. -
4:02 - 4:05Íamos dizer quantas vezes
um determinado quatro-grama -
4:05 - 4:07aparecia em livros em 1801,
1802, 1803... até 2008. -
4:07 - 4:09Isso dá-nos uma série temporal
-
4:09 - 4:11de quantas vezes foi utilizada essa frase.
-
4:11 - 4:15Fazemos isso para todas as palavras
e frases que surgem nesses livros. -
4:15 - 4:17Isso dá-nos uma enorme tabela
de dois mil milhões de linhas -
4:17 - 4:20que nos dizem como a cultura
tem vindo a mudar. -
4:20 - 4:22ELA: Chamamos a esses
dois mil milhões de linhas, -
4:22 - 4:24dois mil milhões de n-gramas.
-
4:24 - 4:25O que é que eles nos dizem?
-
4:25 - 4:27Os n-gramas individuais
medem tendências culturais. -
4:27 - 4:29Vou dar-vos um exemplo.
-
4:29 - 4:31Vamos supor que estou a prosperar,
-
4:31 - 4:33e que amanhã quero contar
como me saí bem. -
4:33 - 4:36Posso dizer: "Ontem, eu vicejei."
-
4:36 - 4:40Em alternativa, podia dizer:
"Ontem, eu prosperei. -
4:40 - 4:42"Então qual é que devo utilizar?
-
4:42 - 4:44"Como é que hei de saber?"
-
4:44 - 4:46Há cerca de seis meses,
-
4:46 - 4:48o topo de gama neste campo
-
4:48 - 4:50seria dirigir-se, por exemplo,
-
4:50 - 4:53a um psicólogo com um cabelo fabuloso
-
4:53 - 4:54e dizer:
-
4:55 - 4:58"Steve, és perito em verbos.
-
4:58 - 4:59"O que é que devo fazer?"
-
4:59 - 5:02E ele responderia:
"Muitos dizem 'prosperei', -
5:02 - 5:04"mas alguns dizem 'vicejei'."
-
5:04 - 5:07Também ficariam a saber, mais ou menos,
-
5:07 - 5:09que, se recuassem 200 anos,
-
5:09 - 5:12e perguntassem a este estadista
com um cabelo igualmente fabuloso: -
5:12 - 5:15(Risos)
-
5:15 - 5:17"Tom, o que é que eu devo dizer?"
-
5:17 - 5:20Ele diria: "No meu tempo,
a maior parte das pessoas vicejava, -
5:20 - 5:22"mas alguns prosperavam."
-
5:22 - 5:25Agora vou mostrar-vos dados brutos.
-
5:25 - 5:28Duas linhas desta tabela
com dois mil milhões de entradas. -
5:28 - 5:31Estão a ver a frequência, ano a ano,
-
5:31 - 5:34de "prosperei" e "vicejei"
ao longo do tempo. -
5:35 - 5:37Estas são apenas duas
-
5:37 - 5:39entre dois mil milhões de linhas.
-
5:39 - 5:41O conjunto total dos dados
-
5:41 - 5:45é mil milhões de vezes mais fantástico
do que este slide. -
5:45 - 5:47(Risos)
-
5:47 - 5:50(Aplausos)
-
5:50 - 5:53JM: Há muitas imagens que valem mais
que 500 mil milhões de palavras. -
5:53 - 5:54Por exemplo, esta.
-
5:54 - 5:56Se pegarmos em "gripe",
-
5:56 - 5:58verão picos na época em que se sabia
-
5:58 - 6:01que grandes epidemias de gripe
matavam pessoas em todo o globo. -
6:02 - 6:04ELA: Se ainda não estão convencidos,
-
6:04 - 6:06os níveis do mar estão a subir,
-
6:06 - 6:09assim como o CO2 na atmosfera
e a temperatura da Terra. -
6:09 - 6:12JM: Talvez queiram prestar atenção
a este n-grama em particular, -
6:12 - 6:15e dizer a Nietzsche
que Deus não está morto, -
6:15 - 6:18embora concordem que Ele precisa
de um relações públicas melhor. -
6:18 - 6:20(Risos)
-
6:20 - 6:24ELA: Podemos obter conceitos bastante
abstratos com este tipo de análise. -
6:24 - 6:27Por exemplo, vou contar-vos
a história do ano de 1950. -
6:27 - 6:30Durante grande parte da história,
-
6:30 - 6:31ninguém ligou nenhuma a 1950.
-
6:31 - 6:34Em 1700, em 1800, em 1900,
-
6:34 - 6:36ninguém se preocupou.
-
6:38 - 6:41Durante os anos 30 e 40,
ninguém se preocupou. -
6:41 - 6:43De repente, a meio dos anos 40,
-
6:43 - 6:45começa a haver um burburinho.
-
6:45 - 6:48As pessoas percebem
que 1950 vai acontecer, -
6:48 - 6:50e pode ser uma coisa em grande.
-
6:50 - 6:52(Risos)
-
6:52 - 6:56Mas nada fez com que as pessoas
se interessassem mais pelo ano de 1950 -
6:56 - 6:59do que o ano de 1950.
-
6:59 - 7:01(Risos)
-
7:01 - 7:04As pessoas andavam obcecadas.
-
7:04 - 7:05Não conseguiam deixar de falar
-
7:05 - 7:08sobre tudo o que tinham feito em 1950,
-
7:08 - 7:12tudo o que planeavam fazer em 1950,
-
7:12 - 7:16todos os sonhos
que queriam alcançar em 1950. -
7:16 - 7:18Na verdade, 1950 foi tão fascinante
-
7:18 - 7:20que, anos depois,
-
7:20 - 7:23as pessoas continuavam a falar
das coisas maravilhosas -
7:23 - 7:26que tinham acontecido
em 1951, 1952, 1953. -
7:26 - 7:28Finalmente, em 1954,
-
7:28 - 7:30houve alguém que acordou e percebeu
-
7:30 - 7:33que 1950 se tinha tornado
numa coisa do passado. -
7:33 - 7:35(Risos)
-
7:35 - 7:38E de repente, rebentou a bolha.
-
7:38 - 7:39(Risos)
-
7:39 - 7:41A história de 1950
-
7:41 - 7:43é a história de cada ano
que temos registado, -
7:43 - 7:47com uma ligeira diferença, porque agora
temos estes gráficos catitas. -
7:47 - 7:49Como temos estes gráficos catitas,
podemos comparar coisas. -
7:49 - 7:52Podemos dizer:
"Quão depressa rebenta a bolha?" -
7:52 - 7:54Acontece que conseguimos medir isso
com muita precisão. -
7:54 - 7:58Derivaram-se equações,
produziram-se gráficos, -
7:58 - 8:00e como resultado final
-
8:00 - 8:03descobrimos que a bolha rebenta
cada vez mais depressa, -
8:03 - 8:05de ano para ano.
-
8:05 - 8:09Estamos a perder interesse no passado
cada vez mais rapidamente. -
8:09 - 8:11JM: Agora, um pouco
de orientação profissional. -
8:11 - 8:13Os que querem ser famosos,
-
8:13 - 8:15podem aprender
com os 25 políticos mais famosos, -
8:15 - 8:17autores, atores, etc..
-
8:17 - 8:20Se quiserem ser famosos cedo,
devem tornar-se atores, -
8:20 - 8:23porque a fama começa a aumentar
no final dos vinte anos, -
8:23 - 8:25ainda são jovens, isso é ótimo.
-
8:25 - 8:27Se podem esperar um pouco,
devem ser autores, -
8:27 - 8:28porque então podem chegar longe,
-
8:28 - 8:31como Mark Twain, por exemplo,
extremamente famoso. -
8:31 - 8:33Mas se quiserem alcançar mesmo o topo,
-
8:33 - 8:35não devem esperar resultados imediatos
-
8:35 - 8:37e, claro, devem tornarem-se políticos.
-
8:37 - 8:39Começarão a ser famosos
no final dos 50 anos -
8:39 - 8:41e tornar-se-ão
muito famosos depois disso. -
8:41 - 8:44Os cientistas também ficam famosos
quando são muito mais velhos. -
8:44 - 8:48Por exemplo, os biólogos e os físicos
podem ser tão famosos como os atores. -
8:48 - 8:51Um erro que não devem fazer
é tornarem-se matemáticos. -
8:51 - 8:52(Risos)
-
8:52 - 8:54Se o fizerem, podem pensar:
-
8:54 - 8:57"Ótimo. Vou fazer o meu melhor trabalho
aos 20 anos." -
8:57 - 9:00Mas, calculem, ninguém vai querer saber.
-
9:00 - 9:02(Risos)
-
9:04 - 9:07ELA: Há notas mais sóbrias
entre os n-gramas. -
9:07 - 9:09Por exemplo, esta é
a trajetória de Marc Chagall, -
9:09 - 9:11um artista nascido em 1887.
-
9:11 - 9:14Parece-se com a trajetória normal
de uma pessoa famosa. -
9:14 - 9:17Torna-se cada vez mais famoso,
-
9:17 - 9:19exceto se procurarem em alemão.
-
9:19 - 9:22Se procurarem em alemão,
verão uma coisa bizarra, -
9:22 - 9:24uma coisa que habitualmente
não se observa. -
9:24 - 9:26Ele torna-se extremamente famoso
-
9:26 - 9:28e, de repente, cai vertiginosamente,
-
9:28 - 9:31atravessando o ponto mais baixo
entre 1933 e 1945, -
9:31 - 9:33antes de recuperar nos anos seguintes.
-
9:33 - 9:35O que aqui observamos
-
9:35 - 9:38é o facto de Marc Chagall
ser um artista judeu -
9:38 - 9:40na Alemanha nazi.
-
9:40 - 9:44Na realidade, estes sinais são tão fortes
-
9:44 - 9:48que não precisamos de saber
que alguém foi censurado. -
9:48 - 9:50Podemos chegar a essa conclusão
-
9:50 - 9:52através do tratamento básico de sinais.
-
9:52 - 9:54Esta é uma forma simples de o fazer.
-
9:54 - 9:55Uma expetativa razoável
-
9:55 - 9:58é a de que a fama de alguém
num dado período de tempo -
9:58 - 10:00deverá ser sensivelmente
a média da sua fama antes -
10:00 - 10:02e da sua fama posterior.
-
10:02 - 10:03Isso é aquilo que se espera.
-
10:03 - 10:06Comparamos isso com a fama
que observamos. -
10:06 - 10:07Depois é só dividir uma pela outra
-
10:07 - 10:10para obter uma coisa a que chamamos
"índice de supressão". -
10:10 - 10:13Se o índice de supressão
for muito, muito baixo, -
10:13 - 10:15quase de certeza estão a ser censurados.
-
10:15 - 10:19Se for muito alto, então talvez estejam
a beneficiar com a propaganda. -
10:19 - 10:21JM: Podemos mesmo ver
-
10:21 - 10:24a distribuição de índices de supressão
em populações inteiras. -
10:24 - 10:26Por exemplo, aqui...
-
10:26 - 10:28este índice de supressão
é de cinco mil pessoas -
10:28 - 10:31escolhidas em livros em inglês
onde não há supressão explícita... -
10:31 - 10:33seria como este, centrado numa pessoa.
-
10:33 - 10:35O que se espera é aquilo que se observa.
-
10:35 - 10:37Esta é a distribuição
observada na Alemanha -
10:37 - 10:39— desvia-se para a esquerda.
-
10:39 - 10:41As pessoas falaram disso
duas vezes menos do que o esperado. -
10:41 - 10:44Mais importante,
a distribuição é mais alargada. -
10:44 - 10:47Há muitas pessoas que acabam
na ponta esquerda na distribuição -
10:47 - 10:50de quem se falou menos dez vezes
do que seria de esperar. -
10:50 - 10:52Mas também muita gente
na ponta direita -
10:52 - 10:53parece beneficiar com a propaganda.
-
10:53 - 10:57Esta imagem é a marca distintiva
da censura no registo dos livros. -
10:57 - 10:59ELA: "Culturómica"
-
10:59 - 11:01é o que chamamos a este método.
-
11:01 - 11:02É como genómica.
-
11:02 - 11:04Exceto que a genómica
é uma lente sobre a biologia -
11:04 - 11:08através da janela da sequência
de bases no genoma humano. -
11:08 - 11:09A culturómica é parecida.
-
11:09 - 11:12É a aplicação da análise da recolha
de dados em larga escala -
11:12 - 11:14ao estudo da cultura humana.
-
11:14 - 11:17Aqui, em vez de ser
através da lente de um genoma, -
11:17 - 11:20é através da lente de peças digitalizadas
do registo histórico. -
11:20 - 11:22O que é genial na culturómica
-
11:22 - 11:23é que todos a podem fazer.
-
11:23 - 11:25Porque é que todos a podem fazer?
-
11:25 - 11:27Todos a podem fazer
porque três indivíduos, -
11:27 - 11:30Jon Orwant, Matt Gray
e Will Brockman na Google, -
11:30 - 11:32viram o protótipo do NGram Viewer,
-
11:32 - 11:34e disseram: "Isto é muito divertido.
-
11:34 - 11:37"Temos de tornar isto
acessível às pessoas." -
11:37 - 11:40Nas duas semanas antes
da publicação do nosso artigo -
11:40 - 11:42fizeram o código para a versão pública
do NGram Viewer. -
11:42 - 11:45Podemos escrever qualquer palavra
ou frase em que estamos interessados -
11:45 - 11:47e vemos imediatamente o seu n-grama,
-
11:47 - 11:50assim como vemos exemplos
de todos os diversos livros -
11:50 - 11:52onde surge esse n-grama.
-
11:52 - 11:55JBM: Isto foi usado mais de um milhão
de vezes no primeiro dia, -
11:55 - 11:57o que é a melhor de todas as pesquisas.
-
11:57 - 11:59Todos querem o seu melhor,
mostrar o seu melhor. -
11:59 - 12:01Acontece que, no século XVIII,
isso não acontecia. -
12:02 - 12:04Não queriam ser o seu melhor,
queriam ser o seu "milhor". -
12:04 - 12:07Claro que o que aconteceu
foi apenas um erro. -
12:07 - 12:09Não que é que se esforçassem
pela mediocridade, -
12:09 - 12:13é só porque o "e" escrevia-se
de forma diferente, como um "i". -
12:13 - 12:15A Google não se apercebeu disso na altura,
-
12:15 - 12:18e nós referimos isso no artigo científico
que escrevemos. -
12:18 - 12:20Acontece que isto é apenas um lembrete
-
12:20 - 12:22de que, embora seja tudo muito divertido,
-
12:22 - 12:25quando interpretamos gráficos,
temos de ser cuidadosos. -
12:25 - 12:27Há que adotar os procedimentos
científicos de base. -
12:28 - 12:31ELA: As pessoas têm usado isto
para todo o tipo de diversão. -
12:31 - 12:34(Risos)
-
12:38 - 12:40Na verdade, nem é preciso falar,
-
12:40 - 12:42vamos apenas mostrar-vos
todos os slides e ficar calados. -
12:43 - 12:46Esta pessoa estava interessada
na história da frustração. -
12:46 - 12:48Há vários tipos de frustração.
-
12:48 - 12:51Se baterem com um dedo do pé,
isso é um "ai" com um A. -
12:51 - 12:54Se o planeta Terra for aniquilado
pelos Vogons -
12:54 - 12:56para criar um desvio interestelar,
-
12:56 - 12:58isso é um "aaaaaaaai" com oito A's.
-
12:58 - 13:00Esta pessoa estuda todos os "ais",
-
13:00 - 13:02entre um a oito A's.
-
13:02 - 13:05Acontece que os "ais" menos frequentes
-
13:05 - 13:08são os que correspondem
a coisas mais frustrantes, -
13:08 - 13:11exceto, por incrível que pareça,
nos princípios dos anos 80. -
13:11 - 13:14Talvez tenha alguma coisa
a ver com Reagan. -
13:14 - 13:15(Risos)
-
13:16 - 13:18JM: Há muitas utilizações
para estes dados, -
13:18 - 13:21mas o mais importante é que está
a ser digitalizado o registo histórico. -
13:21 - 13:24A Google começou a digitalizar
15 milhões de livros. -
13:24 - 13:26São 12% de todos os livros já publicados.
-
13:26 - 13:29É um pedaço considerável
da cultura humana. -
13:29 - 13:31Há muito mais na cultura,
há manuscritos, há jornais, -
13:31 - 13:33há coisas que não são textos,
como arte e quadros. -
13:33 - 13:36Tudo isto está nos nossos computadores,
-
13:36 - 13:38nos computadores de todo o mundo.
-
13:38 - 13:40Quando isso acontece,
irá transformar a forma -
13:40 - 13:43como entendemos o passado,
o presente e a cultura humana. -
13:43 - 13:44Muito obrigado.
-
13:44 - 13:48(Aplausos)
- Title:
- O que aprendemos com cinco milhões de livros
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Já brincaram com o Ngram Viewer da Google Labs? É uma ferramenta viciante que permite procurar palavras e ideias numa base de dados de cinco milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram-nos como funciona e algumas das coisas surpreendentes que podemos aprender com 500 mil milhões de palavras.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48
![]() |
Margarida Ferreira edited Portuguese subtitles for What we learned from 5 million books | |
![]() |
Margarida Ferreira edited Portuguese subtitles for What we learned from 5 million books | |
![]() |
Margarida Ferreira edited Portuguese subtitles for What we learned from 5 million books | |
![]() |
Margarida Ferreira edited Portuguese subtitles for What we learned from 5 million books | |
![]() |
Margarida Ferreira edited Portuguese subtitles for What we learned from 5 million books | |
![]() |
Marta Gama added a translation |