< Return to Video

O que aprendemos de 5 milhões de livros

  • 0:00 - 0:02
    Erez Lieberman Aiden: Todos sabem
  • 0:02 - 0:05
    que uma imagem vale mil palavras.
  • 0:07 - 0:09
    Mas nós em Harvard
  • 0:09 - 0:12
    estávamos questionando se é mesmo verdade.
  • 0:12 - 0:14
    (Risos)
  • 0:14 - 0:18
    Assim montamos uma equipe de peritos,
  • 0:18 - 0:20
    desde Harvard, MIT,
  • 0:20 - 0:23
    The American Heritage Dictionary, Enciclopédia Britânica
  • 0:23 - 0:25
    e mesmo nossos orgulhosos patrocinadores,
  • 0:25 - 0:28
    o Google.
  • 0:28 - 0:30
    E pensamos sobre isto
  • 0:30 - 0:32
    por cerca de 4 anos.
  • 0:32 - 0:37
    Chegamos a uma surpreendente conclusão.
  • 0:37 - 0:40
    Senhoras e senhores, uma imagem não vale mil palavras.
  • 0:40 - 0:42
    De fato, encontramos algumas imagens
  • 0:42 - 0:47
    que valem 500 bilhões de palavras.
  • 0:47 - 0:49
    Jean-Baptiste Michel: Como chegamos a esta conclusão?
  • 0:49 - 0:51
    Erez e eu pensávamos em maneiras
  • 0:51 - 0:53
    de obter uma grande imagem da cultura e
  • 0:53 - 0:56
    história humana: a mudança através dos tempos.
  • 0:56 - 0:58
    Muitos livros tem sido escritos ao longo dos anos.
  • 0:58 - 1:00
    Pensávamos, a melhor maneira de aprender com eles
  • 1:00 - 1:02
    é ler todos estes milhões de livros.
  • 1:02 - 1:05
    Naturalmente, se há uma medida do incrível que isso é,
  • 1:05 - 1:08
    teria que ser colocado lá em cima.
  • 1:08 - 1:10
    O problema é que existe um eixo-X para isso,
  • 1:10 - 1:12
    que é o eixo da praticidade.
  • 1:12 - 1:14
    Que é muito, muito baixa.
  • 1:14 - 1:17
    (Aplausos)
  • 1:17 - 1:20
    As pessoas costumam usar um método alternativo,
  • 1:20 - 1:22
    que seria pegar algumas fontes e lê-las cuidadosamente.
  • 1:22 - 1:24
    É extremamente prático, mas nem um pouco incrível.
  • 1:24 - 1:27
    O que realmente se quer fazer
  • 1:27 - 1:30
    é alcançar o incrível junto com a parte prática deste espaço.
  • 1:30 - 1:33
    Aconteceu que havia uma empresa próxima chamada Google
  • 1:33 - 1:35
    que iniciou um projeto de digitalização alguns anos antes
  • 1:35 - 1:37
    que poderia viabilizar este método.
  • 1:37 - 1:39
    Eles haviam digitalizado milhões de livros.
  • 1:39 - 1:42
    O que significa, que alguém poderia usar métodos computacionais
  • 1:42 - 1:44
    para ler todos os livros com um clique de botão.
  • 1:44 - 1:47
    Isso é muito prático e extremamente incrível.
  • 1:48 - 1:50
    ELA: Permitam-me contar um pouco de onde os livros vêm.
  • 1:50 - 1:53
    Desde tempos imemoriais, existem os autores.
  • 1:53 - 1:56
    Estes autores tem se esforçado para escrever livros.
  • 1:56 - 1:58
    O que se tornou consideravelmente mais fácil
  • 1:58 - 2:00
    com o desenvolvimento da imprensa alguns séculos atrás.
  • 2:00 - 2:03
    Desde então, os autores venceram
  • 2:03 - 2:05
    em 129 milhões de ocasiões distintas,
  • 2:05 - 2:07
    publicando livros.
  • 2:07 - 2:09
    Agora se esses livros não se perderam na história,
  • 2:09 - 2:11
    então eles estão em algum lugar em uma biblioteca,
  • 2:11 - 2:14
    e muitos deles estão sendo recuperados das bibliotecas
  • 2:14 - 2:16
    e digitalizados pelo Google,
  • 2:16 - 2:18
    que escaneou 15 milhões de livros até agora.
  • 2:18 - 2:21
    Quando o Google digitaliza, eles o colocam em um formato muito legal.
  • 2:21 - 2:23
    Agora temos a informação, e temos os metadados.
  • 2:23 - 2:26
    Temos informações sobre coisas como onde foi publicado,
  • 2:26 - 2:28
    quem era o autor, quando foi publicado.
  • 2:28 - 2:31
    E o que fazemos é percorrer todos estes registros
  • 2:31 - 2:35
    e excluir tudo que não seja informação de alta qualidade.
  • 2:35 - 2:37
    O que permanece
  • 2:37 - 2:40
    é uma coleção de 5 milhões de livros,
  • 2:40 - 2:43
    500 bilhões de palavras,
  • 2:43 - 2:45
    uma sequência de caracteres mil vezes maior
  • 2:45 - 2:48
    que o genoma humano --
  • 2:48 - 2:50
    um texto que, quando escrito,
  • 2:50 - 2:52
    se estenderia daqui até a Lua e de volta
  • 2:52 - 2:54
    mais de 10 vezes --
  • 2:54 - 2:58
    um verdadeiro fragmento de nosso genoma cultural.
  • 2:58 - 3:00
    Claro que fizemos
  • 3:00 - 3:03
    quando encaramos tal ultrajante hipérbole...
  • 3:03 - 3:05
    (Risos)
  • 3:05 - 3:08
    foi o que qualquer pesquisador com respeito próprio
  • 3:08 - 3:11
    teria feito.
  • 3:11 - 3:13
    Pegamos uma webcomic do XKCD,
  • 3:13 - 3:15
    e dissemos, "Afastem-se.
  • 3:15 - 3:17
    Vamos tentar a ciência."
  • 3:17 - 3:19
    (Risos)
  • 3:19 - 3:21
    JM: Naturalmente, nós pensamos,
  • 3:21 - 3:23
    primeiro vamos mostrar os dados
  • 3:23 - 3:25
    para que as pessoas façam ciência com eles.
  • 3:25 - 3:27
    Depois pensamos, que informação podemos liberar?
  • 3:27 - 3:29
    Naturalmente, você quer pegar os livros
  • 3:29 - 3:31
    e liberar o texto completo destes 5 milhões de livros.
  • 3:31 - 3:33
    Aí o Google, e Jon Orwant em especial,
  • 3:33 - 3:35
    falaram sobre uma equação que devíamos aprender.
  • 3:35 - 3:38
    Você tem 5 milhões, que são, 5 milhões de autores
  • 3:38 - 3:41
    e 5 milhões de queixosos é um processo e tanto.
  • 3:41 - 3:43
    Ainda que fosse muito, mas muito incrível,
  • 3:43 - 3:46
    de novo, é extremamente, extremamente impraticável.
  • 3:46 - 3:48
    (Risos)
  • 3:48 - 3:50
    Então, nós meio que nos aprofundamos,
  • 3:50 - 3:53
    e fizemos uma alternativa prática, que foi só um pouco menos incrível.
  • 3:53 - 3:55
    Falamos, ao invés de liberar o texto completo,
  • 3:55 - 3:57
    vamos liberar estatísticas sobre os livros.
  • 3:57 - 3:59
    Peguem por exemplo "Um brilho de felicidade."
  • 3:59 - 4:01
    São 4 palavras: nós chamamos de 4-grama.
  • 4:01 - 4:03
    Vamos dizer a vocês quantas vezes um 4-grama em especial
  • 4:03 - 4:05
    apareceu nos livros em 1801, 1802, 1803,
  • 4:05 - 4:07
    até chegar em 2008.
  • 4:07 - 4:09
    Isso nos dá uma linha de tempo
  • 4:09 - 4:11
    da frequência com que esta frase foi utilizada através dos tempos.
  • 4:11 - 4:14
    Fizemos isso para todas as palavras e frases que aparecem nos livros,
  • 4:14 - 4:17
    o que nos dá uma grande tabela de 2 bilhões de linhas
  • 4:17 - 4:19
    que nos conta como a cultura tem se modificado.
  • 4:19 - 4:21
    ELA: Essas 2 bilhões de linhas,
  • 4:21 - 4:23
    nós chamamos de 2 bilhões de n-gramas.
  • 4:23 - 4:25
    O que eles nos dizem?
  • 4:25 - 4:27
    Os n-gramas individuais medem as tendências culturais.
  • 4:27 - 4:29
    Permitam-me dar um exemplo.
  • 4:29 - 4:31
    Suponhamos que eu esteja prosperando.
  • 4:31 - 4:33
    e amanhã eu queira contar como eu me dei bem.
  • 4:33 - 4:36
    Em inglês eu diria, "Ontem, eu 'throve'."
  • 4:36 - 4:39
    Ou eu poderia dizer, "Ontem, eu 'thrived'."
  • 4:39 - 4:42
    Qual deles eu deveria usar?
  • 4:42 - 4:44
    Como saber?
  • 4:44 - 4:46
    Como cerca de 6 meses atras,
  • 4:46 - 4:48
    o estado de arte nesta matéria
  • 4:48 - 4:50
    seria, por exemplo,
  • 4:50 - 4:52
    ir até este psicólogo com um cabelo fabuloso,
  • 4:52 - 4:54
    e dizer,
  • 4:54 - 4:57
    "Steve, você é um expert em verbos irregulares.
  • 4:57 - 4:59
    O que eu devo fazer?"
  • 4:59 - 5:01
    E ele diria, "Bem a maioria diria 'thrived',
  • 5:01 - 5:04
    mas algumas diriam 'throve'."
  • 5:04 - 5:06
    E vocês também sabem, talvez,
  • 5:06 - 5:09
    que se voltassem no tempo 200 anos
  • 5:09 - 5:12
    e perguntassem a esse estadista também de cabelo fabuloso,
  • 5:12 - 5:15
    (Risos)
  • 5:15 - 5:17
    "Tom, o que devo falar?"
  • 5:17 - 5:19
    Ele diria, "No meu tempo a maioria dizia 'throve',
  • 5:19 - 5:22
    mas alguns 'thrive'."
  • 5:22 - 5:24
    Agora o que vou lhes mostrar são dados crus.
  • 5:24 - 5:28
    Duas linhas desta tabela de 2 bilhões de lançamentos.
  • 5:28 - 5:30
    O que estão vendo é a frequencia ano a ano
  • 5:30 - 5:33
    de "thrived" e "throve" através dos tempos.
  • 5:34 - 5:36
    Isso são apenas duas
  • 5:36 - 5:39
    de 2 bilhões de linhas.
  • 5:39 - 5:41
    Assim o conjunto completo de dados
  • 5:41 - 5:44
    é 2 bilhões de vezes mais incrível que esse slide.
  • 5:44 - 5:46
    (Risos)
  • 5:46 - 5:50
    (Aplausos)
  • 5:50 - 5:52
    JM: Existem muitas outras imagens que valem 500 bilhões de palavras.
  • 5:52 - 5:54
    Por exemplo, esta aqui.
  • 5:54 - 5:56
    Se você escolher influenza,
  • 5:56 - 5:58
    verá picos nas épocas onde se sabe
  • 5:58 - 6:01
    de grandes epidemias de gripe que mataram pessoas pelo mundo.
  • 6:01 - 6:04
    ELA: Se vocês ainda não se convenceram,
  • 6:04 - 6:06
    o nível dos mares está subindo,
  • 6:06 - 6:09
    junto com o CO2 na atmosfera e a temperatura global.
  • 6:09 - 6:12
    JM: Vocês também podem querer dar uma olhada neste n-grama,
  • 6:12 - 6:15
    que diz ao Nietzsche que Deus não morreu,
  • 6:15 - 6:18
    apesar que ele podia ter um publicitário melhor.
  • 6:18 - 6:20
    (Risos)
  • 6:20 - 6:23
    ELA: Se pode entender alguns conceitos bem abstratos com essa coisa.
  • 6:23 - 6:25
    Por exemplo, permitam-me contar a história
  • 6:25 - 6:27
    do ano de 1950.
  • 6:27 - 6:29
    Durante todo o transcurso da história,
  • 6:29 - 6:31
    ninguém dava a mínima para 1950.
  • 6:31 - 6:33
    Em 1700, em 1800, em 1900,
  • 6:33 - 6:36
    ninguém ligava.
  • 6:37 - 6:39
    Nos anos 30 e 40,
  • 6:39 - 6:41
    ninguém ligava.
  • 6:41 - 6:43
    De repente, no meio dos anos 40,
  • 6:43 - 6:45
    começou um rumor.
  • 6:45 - 6:47
    As pessoas perceberam que 1950 viria,
  • 6:47 - 6:49
    e que seria algo grande.
  • 6:49 - 6:52
    (Risos)
  • 6:52 - 6:55
    Nada interessou tanto às pessoas em 1950
  • 6:55 - 6:58
    como o ano 1950.
  • 6:58 - 7:01
    (Risos)
  • 7:01 - 7:03
    As pessoas caminhavam obcecadas.
  • 7:03 - 7:05
    Não podiam parar de falar
  • 7:05 - 7:08
    sobre as coisas que fizeram em 1950,
  • 7:08 - 7:11
    tudo o que estavam planejando para 1950,
  • 7:11 - 7:16
    todos os sonhos que queriam alcançar em 1950.
  • 7:16 - 7:18
    De fato, 1950 foi tão fascinante
  • 7:18 - 7:20
    que nos anos seguintes,
  • 7:20 - 7:23
    as pessoas continuavam falando sobre as coisas incríveis que aconteceram,
  • 7:23 - 7:25
    em 51, 52, 53.
  • 7:25 - 7:27
    Finalmente em 1954,
  • 7:27 - 7:29
    alguém acordou e percebeu
  • 7:29 - 7:33
    que 1950 tinha ficado algo 'passé'.
  • 7:33 - 7:35
    (Risos)
  • 7:35 - 7:37
    E de repente, a bolha estourou.
  • 7:37 - 7:39
    (Risos)
  • 7:39 - 7:41
    A história de 1950
  • 7:41 - 7:43
    é a história de todo ano que temos registro,
  • 7:43 - 7:46
    com um toque a mais, porque agora temos estes gráficos.
  • 7:46 - 7:49
    E porque temos estes gráficos bacanas, podemos medir coisas.
  • 7:49 - 7:51
    Podemos dizer, "Quão rápido a bolha estourou?"
  • 7:51 - 7:54
    E acontece que podemos medir muito precisamente.
  • 7:54 - 7:57
    Equações foram derivadas, gráficos foram produzidos,
  • 7:57 - 7:59
    e o resultado líquido
  • 7:59 - 8:02
    é que descobrimos que a bolha estoura cada vez mais rápido
  • 8:02 - 8:04
    a cada ano que passa.
  • 8:04 - 8:09
    Perdemos interesse no passado cada vez mais rápido.
  • 8:09 - 8:11
    JM: Agora uma dica para a carreira.
  • 8:11 - 8:13
    Aqueles de vocês que procuram ser famosos,
  • 8:13 - 8:15
    podemos aprender com as 25 personalidades mais famosas,
  • 8:15 - 8:17
    políticos, autores, atores e demais.
  • 8:17 - 8:20
    Se você quer se tornar famoso cedo, deveria ser um ator,
  • 8:20 - 8:22
    porque sua fama começa ao final dos vinte anos --
  • 8:22 - 8:24
    você ainda é jovem, é muito bom.
  • 8:24 - 8:26
    Agora se quiser esperar um pouco, deveria ser autor,
  • 8:26 - 8:28
    porque assim você alcançará grandes alturas,
  • 8:28 - 8:30
    como Mark Twain, por exemplo, extremamente famoso.
  • 8:30 - 8:32
    Mas se você quiser alcançar mesmo o topo,
  • 8:32 - 8:34
    deveria postergar o reconhecimento
  • 8:34 - 8:36
    e, claro, tornar-se um político.
  • 8:36 - 8:38
    Assim você se torna famoso no final dos seus 50,
  • 8:38 - 8:40
    e se torna muito, muito famoso depois.
  • 8:40 - 8:43
    Cientistas também tendem a ficar famosos quando são mais velhos.
  • 8:43 - 8:45
    Por exemplo, biólogos e físicos
  • 8:45 - 8:47
    tendem a ser tão famosos quanto atores.
  • 8:47 - 8:50
    Um erro que vocês devem evitar é serem matemáticos.
  • 8:50 - 8:52
    (Risos)
  • 8:52 - 8:54
    Se fizerem isso,
  • 8:54 - 8:57
    podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos."
  • 8:57 - 8:59
    Mas olha só, ninguém quer saber.
  • 8:59 - 9:02
    (Risos)
  • 9:02 - 9:04
    ELA: Existem notas mais sérias
  • 9:04 - 9:06
    entre os n-gramas.
  • 9:06 - 9:08
    Por exemplo, eis a trajetória de Marc Chagall,
  • 9:08 - 9:10
    artista nascido em 1887.
  • 9:10 - 9:13
    Parece a trajetória normal de uma pessoa famosa.
  • 9:13 - 9:17
    Ele fica mais e mais e mais famoso,
  • 9:17 - 9:19
    exceto se pesquisar em alemão.
  • 9:19 - 9:21
    Se pesquisar em alemão, verá algo totalmente bizarro,
  • 9:21 - 9:23
    algo que nunca se vê,
  • 9:23 - 9:25
    que é ele se tornar extremamente famoso
  • 9:25 - 9:27
    e de repente despenca,
  • 9:27 - 9:30
    chegando ao fundo do poço entre 1933 e 1945,
  • 9:30 - 9:33
    antes de retornar com tudo.
  • 9:33 - 9:35
    Naturalmente, o que vemos
  • 9:35 - 9:38
    é o fato de que Chagall era um artista judeu
  • 9:38 - 9:40
    na Alemanha nazista.
  • 9:40 - 9:42
    Estes sinais
  • 9:42 - 9:44
    são na verdade tão fortes
  • 9:44 - 9:47
    que não precisamos saber que alguém foi censurado.
  • 9:47 - 9:49
    Podemos ter uma ideia
  • 9:49 - 9:51
    usando até um básico processamento de sinais.
  • 9:51 - 9:53
    Eis um modo simples de fazer.
  • 9:53 - 9:55
    Uma expectativa razoável
  • 9:55 - 9:57
    é que a fama de alguém em um período de tempo
  • 9:57 - 9:59
    deveria ser mais ou menos a média de sua fama antes
  • 9:59 - 10:01
    e da fama depois.
  • 10:01 - 10:03
    É algo assim o que esperamos.
  • 10:03 - 10:06
    E comparamos isso com a fama que observamos.
  • 10:06 - 10:08
    E dividimos uma pela outra
  • 10:08 - 10:10
    para produzir algo que chamamos de índice de supressão.
  • 10:10 - 10:13
    Se o índice é muito, mas muito pequeno,
  • 10:13 - 10:15
    você pode muito bem estar sendo suprimido.
  • 10:15 - 10:18
    Se for muito grande, você pode estar se benificiando com a propaganda.
  • 10:19 - 10:21
    JM: Agora vocês podem até mesmo ver
  • 10:21 - 10:24
    a distribuição dos índices de supressão de populações inteiras.
  • 10:24 - 10:26
    Por exemplo, aqui --
  • 10:26 - 10:28
    este índice é para 5.000 pessoas
  • 10:28 - 10:30
    escolhidas em livros ingleses onde não existe supressão conhecida --
  • 10:30 - 10:32
    seria assim, basicamente centrada no 1.
  • 10:32 - 10:34
    O que se esperava é basicamente o que observamos.
  • 10:34 - 10:36
    Esta é a distribuição vista na Alemanha --
  • 10:36 - 10:38
    bem diferente, é desviada para a esquerda.
  • 10:38 - 10:41
    As pessoas falaram menos que o dobro do costumeiro.
  • 10:41 - 10:43
    Mais importante, a distribuição é mais extensa.
  • 10:43 - 10:46
    Existem muitas pessoas que acabaram no lado esquerdo desta distribuição
  • 10:46 - 10:49
    que são faladas cerca de 10 vezes menos do que deveriam ter sido.
  • 10:49 - 10:51
    E também muitas pessoas bem à direita
  • 10:51 - 10:53
    que parecem ter se beneficiado da propaganda.
  • 10:53 - 10:56
    Esta imagem é a marca da censura no registro de livros.
  • 10:56 - 10:58
    ELA: Cultorômica
  • 10:58 - 11:00
    é como chamamos este método.
  • 11:00 - 11:02
    É como se fosse a genômica.
  • 11:02 - 11:04
    Só que a genômica é uma lente para que a biologia
  • 11:04 - 11:07
    veja através da janela de sequencias das bases no genoma humano.
  • 11:07 - 11:09
    Cultorômica é parecido.
  • 11:09 - 11:12
    É aplicação da análise da enorme quantidade de informações coletadas
  • 11:12 - 11:14
    para estudo da cultura humana.
  • 11:14 - 11:16
    Ao invés de olharmos através das lentes de um genoma,
  • 11:16 - 11:19
    olhamos através de pedaços digitalizados do registro histórico.
  • 11:19 - 11:21
    O bom da culturômica
  • 11:21 - 11:23
    é que todos podem participar.
  • 11:23 - 11:25
    Por que todos podem?
  • 11:25 - 11:27
    Todos podem porque três caras,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray e Will Brockman no Google,
  • 11:30 - 11:32
    viram o protótipo do Visualizador de N-Gramas,
  • 11:32 - 11:34
    e disseram, "Isso é bem divertido.
  • 11:34 - 11:37
    Temos que disponibilizar para as pessoas."
  • 11:37 - 11:39
    Em exatamente 2 semanas - antes de nosso artigo ser publicado --
  • 11:39 - 11:42
    eles programaram uma versão do Visualizador para o público em geral.
  • 11:42 - 11:45
    Assim vocês podem digitar qualquer palavra ou frase que se interessarem
  • 11:45 - 11:47
    e imediatamente podem ver o n-grama --
  • 11:47 - 11:49
    e também listar exemplos de todos os muitos livros
  • 11:49 - 11:51
    nos quais o seu n-grama aparece.
  • 11:51 - 11:53
    JM: Já foi utilizado mais de um milhão de vezes no primeiro dia,
  • 11:53 - 11:55
    e é de fato a melhor de todas as procuras.
  • 11:55 - 11:58
    As pessoas querem ser as melhores, se destacar.
  • 11:58 - 12:01
    Mas acontece que no século 18, as pessoas não ligavam pra isso.
  • 12:01 - 12:04
    Elas não queriam ser as 'the best', elas queriam ser 'beft'.
  • 12:04 - 12:07
    O que aconteceu, é claro, foi apenas um equívoco.
  • 12:07 - 12:09
    Não é um esforço pela mediocridade,
  • 12:09 - 12:12
    apenas o 'S' costumava ser escrito diferente, quase um 'F'.
  • 12:12 - 12:15
    Lógico, o Google não pegou isso na ocasião,
  • 12:15 - 12:18
    assim nós relatamos no artigo científico que escrevemos.
  • 12:18 - 12:20
    Mas se tornou um lembrete
  • 12:20 - 12:22
    de que, mesmo sendo muito divertido,
  • 12:22 - 12:24
    quando se interpreta estes gráficos, temos que ter cuidado,
  • 12:24 - 12:27
    e vocês tem que adotar os métodos básicos da ciência.
  • 12:27 - 12:30
    ELA: Pessoas o tem utilizado para todo tipo de propósito.
  • 12:30 - 12:37
    (Risos)
  • 12:37 - 12:39
    Na verdade, não precisaremos falar,
  • 12:39 - 12:42
    vamos apenas mostrar todos os slides e ficar em silêncio.
  • 12:42 - 12:45
    Esta pessoa estava interessada na história da frustração.
  • 12:45 - 12:48
    Existem vários tipos de frustração.
  • 12:48 - 12:51
    Se você esfolar o dedo do pé, É um "ai" com um 'A'.
  • 12:51 - 12:53
    Se a Terra é aniquilada pelos Vogons
  • 12:53 - 12:55
    pra dar lugar à um atalho interestelar,
  • 12:55 - 12:57
    é um "aaaaaaaai" com 8 'A's.
  • 12:57 - 12:59
    Esta pessoa estudou todos os "ais",
  • 12:59 - 13:01
    de 1 até 8 'A's.
  • 13:01 - 13:03
    E acontece
  • 13:03 - 13:05
    que os "ais" menos frequentes
  • 13:05 - 13:08
    são os que correspondem às coisas mais frustrantes --
  • 13:08 - 13:11
    exceto, curiosamente, no começo dos anos 80.
  • 13:11 - 13:13
    Achamos que deve ter algo a ver com o Reagan.
  • 13:13 - 13:15
    (Risos)
  • 13:15 - 13:18
    JM: Existem muitos usos para estas informações,
  • 13:18 - 13:21
    mas o principal é que o registro histórico está sendo digitalizado.
  • 13:21 - 13:23
    Google começou a digitalizar 15 milhões de livros.
  • 13:23 - 13:25
    É 12% de todos os livros já publicados.
  • 13:25 - 13:28
    É um pedaço considerável da cultura humana.
  • 13:28 - 13:31
    Há muito mais na cultura: existem manuscritos, jornais,
  • 13:31 - 13:33
    coisas que não são texto, como arte e pinturas.
  • 13:33 - 13:35
    Acontece que estes estão em nossos computadores,
  • 13:35 - 13:37
    em computadores ao redor do mundo.
  • 13:37 - 13:40
    E quando isso acontece, vai transformar a maneira
  • 13:40 - 13:42
    de compreender nosso passado, o presente e a cultura humana.
  • 13:42 - 13:44
    Muito obrigado.
  • 13:44 - 13:47
    (Aplausos)
Title:
O que aprendemos de 5 milhões de livros
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Você já brincou com o Ngram Viewer do Google Labs? É uma ferramenta viciante que permite a você pesquisar por palavras e ideias em um banco de dados de 5 milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram como funciona, e algumas coisas surpreendentes que podemos aprender de 500 bilhões de palavras.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Lisangelo Berti added a translation

Portuguese, Brazilian subtitles

Revisions