O que aprendemos de 5 milhões de livros
-
0:00 - 0:02Erez Lieberman Aiden: Todos sabem
-
0:02 - 0:05que uma imagem vale mil palavras.
-
0:07 - 0:09Mas nós em Harvard
-
0:09 - 0:12estávamos questionando se é mesmo verdade.
-
0:12 - 0:14(Risos)
-
0:14 - 0:18Assim montamos uma equipe de peritos,
-
0:18 - 0:20desde Harvard, MIT,
-
0:20 - 0:23The American Heritage Dictionary, Enciclopédia Britânica
-
0:23 - 0:25e mesmo nossos orgulhosos patrocinadores,
-
0:25 - 0:28o Google.
-
0:28 - 0:30E pensamos sobre isto
-
0:30 - 0:32por cerca de 4 anos.
-
0:32 - 0:37Chegamos a uma surpreendente conclusão.
-
0:37 - 0:40Senhoras e senhores, uma imagem não vale mil palavras.
-
0:40 - 0:42De fato, encontramos algumas imagens
-
0:42 - 0:47que valem 500 bilhões de palavras.
-
0:47 - 0:49Jean-Baptiste Michel: Como chegamos a esta conclusão?
-
0:49 - 0:51Erez e eu pensávamos em maneiras
-
0:51 - 0:53de obter uma grande imagem da cultura e
-
0:53 - 0:56história humana: a mudança através dos tempos.
-
0:56 - 0:58Muitos livros tem sido escritos ao longo dos anos.
-
0:58 - 1:00Pensávamos, a melhor maneira de aprender com eles
-
1:00 - 1:02é ler todos estes milhões de livros.
-
1:02 - 1:05Naturalmente, se há uma medida do incrível que isso é,
-
1:05 - 1:08teria que ser colocado lá em cima.
-
1:08 - 1:10O problema é que existe um eixo-X para isso,
-
1:10 - 1:12que é o eixo da praticidade.
-
1:12 - 1:14Que é muito, muito baixa.
-
1:14 - 1:17(Aplausos)
-
1:17 - 1:20As pessoas costumam usar um método alternativo,
-
1:20 - 1:22que seria pegar algumas fontes e lê-las cuidadosamente.
-
1:22 - 1:24É extremamente prático, mas nem um pouco incrível.
-
1:24 - 1:27O que realmente se quer fazer
-
1:27 - 1:30é alcançar o incrível junto com a parte prática deste espaço.
-
1:30 - 1:33Aconteceu que havia uma empresa próxima chamada Google
-
1:33 - 1:35que iniciou um projeto de digitalização alguns anos antes
-
1:35 - 1:37que poderia viabilizar este método.
-
1:37 - 1:39Eles haviam digitalizado milhões de livros.
-
1:39 - 1:42O que significa, que alguém poderia usar métodos computacionais
-
1:42 - 1:44para ler todos os livros com um clique de botão.
-
1:44 - 1:47Isso é muito prático e extremamente incrível.
-
1:48 - 1:50ELA: Permitam-me contar um pouco de onde os livros vêm.
-
1:50 - 1:53Desde tempos imemoriais, existem os autores.
-
1:53 - 1:56Estes autores tem se esforçado para escrever livros.
-
1:56 - 1:58O que se tornou consideravelmente mais fácil
-
1:58 - 2:00com o desenvolvimento da imprensa alguns séculos atrás.
-
2:00 - 2:03Desde então, os autores venceram
-
2:03 - 2:05em 129 milhões de ocasiões distintas,
-
2:05 - 2:07publicando livros.
-
2:07 - 2:09Agora se esses livros não se perderam na história,
-
2:09 - 2:11então eles estão em algum lugar em uma biblioteca,
-
2:11 - 2:14e muitos deles estão sendo recuperados das bibliotecas
-
2:14 - 2:16e digitalizados pelo Google,
-
2:16 - 2:18que escaneou 15 milhões de livros até agora.
-
2:18 - 2:21Quando o Google digitaliza, eles o colocam em um formato muito legal.
-
2:21 - 2:23Agora temos a informação, e temos os metadados.
-
2:23 - 2:26Temos informações sobre coisas como onde foi publicado,
-
2:26 - 2:28quem era o autor, quando foi publicado.
-
2:28 - 2:31E o que fazemos é percorrer todos estes registros
-
2:31 - 2:35e excluir tudo que não seja informação de alta qualidade.
-
2:35 - 2:37O que permanece
-
2:37 - 2:40é uma coleção de 5 milhões de livros,
-
2:40 - 2:43500 bilhões de palavras,
-
2:43 - 2:45uma sequência de caracteres mil vezes maior
-
2:45 - 2:48que o genoma humano --
-
2:48 - 2:50um texto que, quando escrito,
-
2:50 - 2:52se estenderia daqui até a Lua e de volta
-
2:52 - 2:54mais de 10 vezes --
-
2:54 - 2:58um verdadeiro fragmento de nosso genoma cultural.
-
2:58 - 3:00Claro que fizemos
-
3:00 - 3:03quando encaramos tal ultrajante hipérbole...
-
3:03 - 3:05(Risos)
-
3:05 - 3:08foi o que qualquer pesquisador com respeito próprio
-
3:08 - 3:11teria feito.
-
3:11 - 3:13Pegamos uma webcomic do XKCD,
-
3:13 - 3:15e dissemos, "Afastem-se.
-
3:15 - 3:17Vamos tentar a ciência."
-
3:17 - 3:19(Risos)
-
3:19 - 3:21JM: Naturalmente, nós pensamos,
-
3:21 - 3:23primeiro vamos mostrar os dados
-
3:23 - 3:25para que as pessoas façam ciência com eles.
-
3:25 - 3:27Depois pensamos, que informação podemos liberar?
-
3:27 - 3:29Naturalmente, você quer pegar os livros
-
3:29 - 3:31e liberar o texto completo destes 5 milhões de livros.
-
3:31 - 3:33Aí o Google, e Jon Orwant em especial,
-
3:33 - 3:35falaram sobre uma equação que devíamos aprender.
-
3:35 - 3:38Você tem 5 milhões, que são, 5 milhões de autores
-
3:38 - 3:41e 5 milhões de queixosos é um processo e tanto.
-
3:41 - 3:43Ainda que fosse muito, mas muito incrível,
-
3:43 - 3:46de novo, é extremamente, extremamente impraticável.
-
3:46 - 3:48(Risos)
-
3:48 - 3:50Então, nós meio que nos aprofundamos,
-
3:50 - 3:53e fizemos uma alternativa prática, que foi só um pouco menos incrível.
-
3:53 - 3:55Falamos, ao invés de liberar o texto completo,
-
3:55 - 3:57vamos liberar estatísticas sobre os livros.
-
3:57 - 3:59Peguem por exemplo "Um brilho de felicidade."
-
3:59 - 4:01São 4 palavras: nós chamamos de 4-grama.
-
4:01 - 4:03Vamos dizer a vocês quantas vezes um 4-grama em especial
-
4:03 - 4:05apareceu nos livros em 1801, 1802, 1803,
-
4:05 - 4:07até chegar em 2008.
-
4:07 - 4:09Isso nos dá uma linha de tempo
-
4:09 - 4:11da frequência com que esta frase foi utilizada através dos tempos.
-
4:11 - 4:14Fizemos isso para todas as palavras e frases que aparecem nos livros,
-
4:14 - 4:17o que nos dá uma grande tabela de 2 bilhões de linhas
-
4:17 - 4:19que nos conta como a cultura tem se modificado.
-
4:19 - 4:21ELA: Essas 2 bilhões de linhas,
-
4:21 - 4:23nós chamamos de 2 bilhões de n-gramas.
-
4:23 - 4:25O que eles nos dizem?
-
4:25 - 4:27Os n-gramas individuais medem as tendências culturais.
-
4:27 - 4:29Permitam-me dar um exemplo.
-
4:29 - 4:31Suponhamos que eu esteja prosperando.
-
4:31 - 4:33e amanhã eu queira contar como eu me dei bem.
-
4:33 - 4:36Em inglês eu diria, "Ontem, eu 'throve'."
-
4:36 - 4:39Ou eu poderia dizer, "Ontem, eu 'thrived'."
-
4:39 - 4:42Qual deles eu deveria usar?
-
4:42 - 4:44Como saber?
-
4:44 - 4:46Como cerca de 6 meses atras,
-
4:46 - 4:48o estado de arte nesta matéria
-
4:48 - 4:50seria, por exemplo,
-
4:50 - 4:52ir até este psicólogo com um cabelo fabuloso,
-
4:52 - 4:54e dizer,
-
4:54 - 4:57"Steve, você é um expert em verbos irregulares.
-
4:57 - 4:59O que eu devo fazer?"
-
4:59 - 5:01E ele diria, "Bem a maioria diria 'thrived',
-
5:01 - 5:04mas algumas diriam 'throve'."
-
5:04 - 5:06E vocês também sabem, talvez,
-
5:06 - 5:09que se voltassem no tempo 200 anos
-
5:09 - 5:12e perguntassem a esse estadista também de cabelo fabuloso,
-
5:12 - 5:15(Risos)
-
5:15 - 5:17"Tom, o que devo falar?"
-
5:17 - 5:19Ele diria, "No meu tempo a maioria dizia 'throve',
-
5:19 - 5:22mas alguns 'thrive'."
-
5:22 - 5:24Agora o que vou lhes mostrar são dados crus.
-
5:24 - 5:28Duas linhas desta tabela de 2 bilhões de lançamentos.
-
5:28 - 5:30O que estão vendo é a frequencia ano a ano
-
5:30 - 5:33de "thrived" e "throve" através dos tempos.
-
5:34 - 5:36Isso são apenas duas
-
5:36 - 5:39de 2 bilhões de linhas.
-
5:39 - 5:41Assim o conjunto completo de dados
-
5:41 - 5:44é 2 bilhões de vezes mais incrível que esse slide.
-
5:44 - 5:46(Risos)
-
5:46 - 5:50(Aplausos)
-
5:50 - 5:52JM: Existem muitas outras imagens que valem 500 bilhões de palavras.
-
5:52 - 5:54Por exemplo, esta aqui.
-
5:54 - 5:56Se você escolher influenza,
-
5:56 - 5:58verá picos nas épocas onde se sabe
-
5:58 - 6:01de grandes epidemias de gripe que mataram pessoas pelo mundo.
-
6:01 - 6:04ELA: Se vocês ainda não se convenceram,
-
6:04 - 6:06o nível dos mares está subindo,
-
6:06 - 6:09junto com o CO2 na atmosfera e a temperatura global.
-
6:09 - 6:12JM: Vocês também podem querer dar uma olhada neste n-grama,
-
6:12 - 6:15que diz ao Nietzsche que Deus não morreu,
-
6:15 - 6:18apesar que ele podia ter um publicitário melhor.
-
6:18 - 6:20(Risos)
-
6:20 - 6:23ELA: Se pode entender alguns conceitos bem abstratos com essa coisa.
-
6:23 - 6:25Por exemplo, permitam-me contar a história
-
6:25 - 6:27do ano de 1950.
-
6:27 - 6:29Durante todo o transcurso da história,
-
6:29 - 6:31ninguém dava a mínima para 1950.
-
6:31 - 6:33Em 1700, em 1800, em 1900,
-
6:33 - 6:36ninguém ligava.
-
6:37 - 6:39Nos anos 30 e 40,
-
6:39 - 6:41ninguém ligava.
-
6:41 - 6:43De repente, no meio dos anos 40,
-
6:43 - 6:45começou um rumor.
-
6:45 - 6:47As pessoas perceberam que 1950 viria,
-
6:47 - 6:49e que seria algo grande.
-
6:49 - 6:52(Risos)
-
6:52 - 6:55Nada interessou tanto às pessoas em 1950
-
6:55 - 6:58como o ano 1950.
-
6:58 - 7:01(Risos)
-
7:01 - 7:03As pessoas caminhavam obcecadas.
-
7:03 - 7:05Não podiam parar de falar
-
7:05 - 7:08sobre as coisas que fizeram em 1950,
-
7:08 - 7:11tudo o que estavam planejando para 1950,
-
7:11 - 7:16todos os sonhos que queriam alcançar em 1950.
-
7:16 - 7:18De fato, 1950 foi tão fascinante
-
7:18 - 7:20que nos anos seguintes,
-
7:20 - 7:23as pessoas continuavam falando sobre as coisas incríveis que aconteceram,
-
7:23 - 7:25em 51, 52, 53.
-
7:25 - 7:27Finalmente em 1954,
-
7:27 - 7:29alguém acordou e percebeu
-
7:29 - 7:33que 1950 tinha ficado algo 'passé'.
-
7:33 - 7:35(Risos)
-
7:35 - 7:37E de repente, a bolha estourou.
-
7:37 - 7:39(Risos)
-
7:39 - 7:41A história de 1950
-
7:41 - 7:43é a história de todo ano que temos registro,
-
7:43 - 7:46com um toque a mais, porque agora temos estes gráficos.
-
7:46 - 7:49E porque temos estes gráficos bacanas, podemos medir coisas.
-
7:49 - 7:51Podemos dizer, "Quão rápido a bolha estourou?"
-
7:51 - 7:54E acontece que podemos medir muito precisamente.
-
7:54 - 7:57Equações foram derivadas, gráficos foram produzidos,
-
7:57 - 7:59e o resultado líquido
-
7:59 - 8:02é que descobrimos que a bolha estoura cada vez mais rápido
-
8:02 - 8:04a cada ano que passa.
-
8:04 - 8:09Perdemos interesse no passado cada vez mais rápido.
-
8:09 - 8:11JM: Agora uma dica para a carreira.
-
8:11 - 8:13Aqueles de vocês que procuram ser famosos,
-
8:13 - 8:15podemos aprender com as 25 personalidades mais famosas,
-
8:15 - 8:17políticos, autores, atores e demais.
-
8:17 - 8:20Se você quer se tornar famoso cedo, deveria ser um ator,
-
8:20 - 8:22porque sua fama começa ao final dos vinte anos --
-
8:22 - 8:24você ainda é jovem, é muito bom.
-
8:24 - 8:26Agora se quiser esperar um pouco, deveria ser autor,
-
8:26 - 8:28porque assim você alcançará grandes alturas,
-
8:28 - 8:30como Mark Twain, por exemplo, extremamente famoso.
-
8:30 - 8:32Mas se você quiser alcançar mesmo o topo,
-
8:32 - 8:34deveria postergar o reconhecimento
-
8:34 - 8:36e, claro, tornar-se um político.
-
8:36 - 8:38Assim você se torna famoso no final dos seus 50,
-
8:38 - 8:40e se torna muito, muito famoso depois.
-
8:40 - 8:43Cientistas também tendem a ficar famosos quando são mais velhos.
-
8:43 - 8:45Por exemplo, biólogos e físicos
-
8:45 - 8:47tendem a ser tão famosos quanto atores.
-
8:47 - 8:50Um erro que vocês devem evitar é serem matemáticos.
-
8:50 - 8:52(Risos)
-
8:52 - 8:54Se fizerem isso,
-
8:54 - 8:57podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos."
-
8:57 - 8:59Mas olha só, ninguém quer saber.
-
8:59 - 9:02(Risos)
-
9:02 - 9:04ELA: Existem notas mais sérias
-
9:04 - 9:06entre os n-gramas.
-
9:06 - 9:08Por exemplo, eis a trajetória de Marc Chagall,
-
9:08 - 9:10artista nascido em 1887.
-
9:10 - 9:13Parece a trajetória normal de uma pessoa famosa.
-
9:13 - 9:17Ele fica mais e mais e mais famoso,
-
9:17 - 9:19exceto se pesquisar em alemão.
-
9:19 - 9:21Se pesquisar em alemão, verá algo totalmente bizarro,
-
9:21 - 9:23algo que nunca se vê,
-
9:23 - 9:25que é ele se tornar extremamente famoso
-
9:25 - 9:27e de repente despenca,
-
9:27 - 9:30chegando ao fundo do poço entre 1933 e 1945,
-
9:30 - 9:33antes de retornar com tudo.
-
9:33 - 9:35Naturalmente, o que vemos
-
9:35 - 9:38é o fato de que Chagall era um artista judeu
-
9:38 - 9:40na Alemanha nazista.
-
9:40 - 9:42Estes sinais
-
9:42 - 9:44são na verdade tão fortes
-
9:44 - 9:47que não precisamos saber que alguém foi censurado.
-
9:47 - 9:49Podemos ter uma ideia
-
9:49 - 9:51usando até um básico processamento de sinais.
-
9:51 - 9:53Eis um modo simples de fazer.
-
9:53 - 9:55Uma expectativa razoável
-
9:55 - 9:57é que a fama de alguém em um período de tempo
-
9:57 - 9:59deveria ser mais ou menos a média de sua fama antes
-
9:59 - 10:01e da fama depois.
-
10:01 - 10:03É algo assim o que esperamos.
-
10:03 - 10:06E comparamos isso com a fama que observamos.
-
10:06 - 10:08E dividimos uma pela outra
-
10:08 - 10:10para produzir algo que chamamos de índice de supressão.
-
10:10 - 10:13Se o índice é muito, mas muito pequeno,
-
10:13 - 10:15você pode muito bem estar sendo suprimido.
-
10:15 - 10:18Se for muito grande, você pode estar se benificiando com a propaganda.
-
10:19 - 10:21JM: Agora vocês podem até mesmo ver
-
10:21 - 10:24a distribuição dos índices de supressão de populações inteiras.
-
10:24 - 10:26Por exemplo, aqui --
-
10:26 - 10:28este índice é para 5.000 pessoas
-
10:28 - 10:30escolhidas em livros ingleses onde não existe supressão conhecida --
-
10:30 - 10:32seria assim, basicamente centrada no 1.
-
10:32 - 10:34O que se esperava é basicamente o que observamos.
-
10:34 - 10:36Esta é a distribuição vista na Alemanha --
-
10:36 - 10:38bem diferente, é desviada para a esquerda.
-
10:38 - 10:41As pessoas falaram menos que o dobro do costumeiro.
-
10:41 - 10:43Mais importante, a distribuição é mais extensa.
-
10:43 - 10:46Existem muitas pessoas que acabaram no lado esquerdo desta distribuição
-
10:46 - 10:49que são faladas cerca de 10 vezes menos do que deveriam ter sido.
-
10:49 - 10:51E também muitas pessoas bem à direita
-
10:51 - 10:53que parecem ter se beneficiado da propaganda.
-
10:53 - 10:56Esta imagem é a marca da censura no registro de livros.
-
10:56 - 10:58ELA: Cultorômica
-
10:58 - 11:00é como chamamos este método.
-
11:00 - 11:02É como se fosse a genômica.
-
11:02 - 11:04Só que a genômica é uma lente para que a biologia
-
11:04 - 11:07veja através da janela de sequencias das bases no genoma humano.
-
11:07 - 11:09Cultorômica é parecido.
-
11:09 - 11:12É aplicação da análise da enorme quantidade de informações coletadas
-
11:12 - 11:14para estudo da cultura humana.
-
11:14 - 11:16Ao invés de olharmos através das lentes de um genoma,
-
11:16 - 11:19olhamos através de pedaços digitalizados do registro histórico.
-
11:19 - 11:21O bom da culturômica
-
11:21 - 11:23é que todos podem participar.
-
11:23 - 11:25Por que todos podem?
-
11:25 - 11:27Todos podem porque três caras,
-
11:27 - 11:30Jon Orwant, Matt Gray e Will Brockman no Google,
-
11:30 - 11:32viram o protótipo do Visualizador de N-Gramas,
-
11:32 - 11:34e disseram, "Isso é bem divertido.
-
11:34 - 11:37Temos que disponibilizar para as pessoas."
-
11:37 - 11:39Em exatamente 2 semanas - antes de nosso artigo ser publicado --
-
11:39 - 11:42eles programaram uma versão do Visualizador para o público em geral.
-
11:42 - 11:45Assim vocês podem digitar qualquer palavra ou frase que se interessarem
-
11:45 - 11:47e imediatamente podem ver o n-grama --
-
11:47 - 11:49e também listar exemplos de todos os muitos livros
-
11:49 - 11:51nos quais o seu n-grama aparece.
-
11:51 - 11:53JM: Já foi utilizado mais de um milhão de vezes no primeiro dia,
-
11:53 - 11:55e é de fato a melhor de todas as procuras.
-
11:55 - 11:58As pessoas querem ser as melhores, se destacar.
-
11:58 - 12:01Mas acontece que no século 18, as pessoas não ligavam pra isso.
-
12:01 - 12:04Elas não queriam ser as 'the best', elas queriam ser 'beft'.
-
12:04 - 12:07O que aconteceu, é claro, foi apenas um equívoco.
-
12:07 - 12:09Não é um esforço pela mediocridade,
-
12:09 - 12:12apenas o 'S' costumava ser escrito diferente, quase um 'F'.
-
12:12 - 12:15Lógico, o Google não pegou isso na ocasião,
-
12:15 - 12:18assim nós relatamos no artigo científico que escrevemos.
-
12:18 - 12:20Mas se tornou um lembrete
-
12:20 - 12:22de que, mesmo sendo muito divertido,
-
12:22 - 12:24quando se interpreta estes gráficos, temos que ter cuidado,
-
12:24 - 12:27e vocês tem que adotar os métodos básicos da ciência.
-
12:27 - 12:30ELA: Pessoas o tem utilizado para todo tipo de propósito.
-
12:30 - 12:37(Risos)
-
12:37 - 12:39Na verdade, não precisaremos falar,
-
12:39 - 12:42vamos apenas mostrar todos os slides e ficar em silêncio.
-
12:42 - 12:45Esta pessoa estava interessada na história da frustração.
-
12:45 - 12:48Existem vários tipos de frustração.
-
12:48 - 12:51Se você esfolar o dedo do pé, É um "ai" com um 'A'.
-
12:51 - 12:53Se a Terra é aniquilada pelos Vogons
-
12:53 - 12:55pra dar lugar à um atalho interestelar,
-
12:55 - 12:57é um "aaaaaaaai" com 8 'A's.
-
12:57 - 12:59Esta pessoa estudou todos os "ais",
-
12:59 - 13:01de 1 até 8 'A's.
-
13:01 - 13:03E acontece
-
13:03 - 13:05que os "ais" menos frequentes
-
13:05 - 13:08são os que correspondem às coisas mais frustrantes --
-
13:08 - 13:11exceto, curiosamente, no começo dos anos 80.
-
13:11 - 13:13Achamos que deve ter algo a ver com o Reagan.
-
13:13 - 13:15(Risos)
-
13:15 - 13:18JM: Existem muitos usos para estas informações,
-
13:18 - 13:21mas o principal é que o registro histórico está sendo digitalizado.
-
13:21 - 13:23Google começou a digitalizar 15 milhões de livros.
-
13:23 - 13:25É 12% de todos os livros já publicados.
-
13:25 - 13:28É um pedaço considerável da cultura humana.
-
13:28 - 13:31Há muito mais na cultura: existem manuscritos, jornais,
-
13:31 - 13:33coisas que não são texto, como arte e pinturas.
-
13:33 - 13:35Acontece que estes estão em nossos computadores,
-
13:35 - 13:37em computadores ao redor do mundo.
-
13:37 - 13:40E quando isso acontece, vai transformar a maneira
-
13:40 - 13:42de compreender nosso passado, o presente e a cultura humana.
-
13:42 - 13:44Muito obrigado.
-
13:44 - 13:47(Aplausos)
- Title:
- O que aprendemos de 5 milhões de livros
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Você já brincou com o Ngram Viewer do Google Labs? É uma ferramenta viciante que permite a você pesquisar por palavras e ideias em um banco de dados de 5 milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram como funciona, e algumas coisas surpreendentes que podemos aprender de 500 bilhões de palavras.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48