< Return to Video

O que aprendemos com cinco milhões de livros

  • 0:00 - 0:02
    Erez Lieberman Aiden: Todos sabemos
  • 0:02 - 0:05
    que uma imagem vale mais que mil palavras
  • 0:07 - 0:09
    Mas nós em Harvard
  • 0:09 - 0:12
    questionámos se isso seria mesmo verdade.
  • 0:12 - 0:14
    (Risos)
  • 0:14 - 0:18
    Então, juntámos uma equipa de peritos,
  • 0:18 - 0:20
    que vieram de Harvard, do MIT,
  • 0:20 - 0:23
    do The American Heritage Dictionary,
    da The Encyclopedia Britannica
  • 0:23 - 0:25
    e até dos nossos
    orgulhosos patrocinadores,
  • 0:25 - 0:28
    a Google.
  • 0:28 - 0:30
    Debruçámo-nos sobre esta questão
  • 0:30 - 0:32
    durante cerca de quatro anos.
  • 0:32 - 0:37
    E chegámos a uma conclusão surpreendente.
  • 0:37 - 0:40
    Meus senhores, uma imagem
    não vale mais que mil palavras.
  • 0:40 - 0:42
    Na verdade, encontrámos imagens
  • 0:42 - 0:47
    que valem 500 mil milhões de palavras.
  • 0:47 - 0:49
    Jean-Baptiste Michel:
    Como chegámos a esta conclusão?
  • 0:49 - 0:51
    O Erez e eu pensámos em como obter
  • 0:51 - 0:53
    um panorama geral da cultura humana
    e da história humana:
  • 0:53 - 0:56
    as mudanças através dos tempos.
  • 0:56 - 0:58
    Ao longo dos anos,
    escreveram-se muitos livros.
  • 0:58 - 1:00
    Pensámos que a melhor maneira
    de aprender com eles
  • 1:00 - 1:02
    seria ler todos esses milhões de livros.
  • 1:02 - 1:05
    Claro que, se houvesse uma escala
    de como isso seria fantástico,
  • 1:05 - 1:08
    isso iria para a um patamar
    muitíssimo elevado.
  • 1:08 - 1:10
    O problema é que há
    um eixo X para isso,
  • 1:10 - 1:12
    que é o eixo prático.
  • 1:12 - 1:14
    O que o coloca num patamar muito baixo
  • 1:14 - 1:17
    (Aplausos)
  • 1:17 - 1:20
    As pessoas têm tendência a usar
    uma abordagem alternativa,
  • 1:20 - 1:22
    que é pegar nalgumas fontes
    e lê-las cuidadosamente.
  • 1:22 - 1:24
    Isto é extremamente prático,
    mas não muito fantástico.
  • 1:24 - 1:27
    O que realmente se pretende
  • 1:27 - 1:30
    é chegar à parte fantástica
    mas prática deste espaço.
  • 1:30 - 1:33
    Acontece que havia uma empresa
    do outro lado do rio chamada Google
  • 1:33 - 1:35
    que iniciara um projeto
    de digitalização há uns anos
  • 1:35 - 1:37
    que talvez permitisse essa abordagem.
  • 1:37 - 1:39
    Tinham digitalizado milhões de livros.
  • 1:39 - 1:42
    Isso significava que se podiam
    usar métodos informáticos
  • 1:42 - 1:44
    para ler todos os livros
    com o clique de um botão.
  • 1:44 - 1:47
    Isto é muito prático
    e extremamente fantástico.
  • 1:48 - 1:50
    ELA: Vou falar-vos um pouco
    de onde vêm os livros.
  • 1:50 - 1:53
    Desde tempos imemoriais
    que existem autores.
  • 1:53 - 1:56
    Esses autores têm-se esforçado
    por escrever livros.
  • 1:56 - 1:58
    Isso tornou-se muito mais fácil
  • 1:58 - 2:00
    com o desenvolvimento
    da imprensa há uns séculos.
  • 2:00 - 2:03
    Desde então, os autores tiveram
  • 2:03 - 2:05
    129 milhões de ocasiões diferentes
  • 2:05 - 2:07
    para publicar livros,
  • 2:07 - 2:09
    Se esses livros
    não se perderam na história
  • 2:09 - 2:11
    estão algures numa biblioteca,
  • 2:11 - 2:14
    e muitos desses livros
    têm sido recuperados das bibliotecas
  • 2:14 - 2:16
    e digitalizados pela Google,
  • 2:16 - 2:18
    que já digitalizou
    15 milhões de livros até agora.
  • 2:18 - 2:21
    Quando a Google digitaliza um livro,
    põe-no num formato catita.
  • 2:21 - 2:23
    Agora, temos os dados
    e temos ainda metadados.
  • 2:23 - 2:26
    Temos informação sobre onde foi publicado,
  • 2:26 - 2:28
    quem foi o autor,
    quando foi publicado, etc.
  • 2:28 - 2:31
    Verificamos todos esses arquivos
  • 2:31 - 2:35
    e excluímos tudo o que não seja
    da mais alta qualidade.
  • 2:35 - 2:37
    Aquilo que nos resta
  • 2:37 - 2:40
    é uma coleção de cinco milhões de livros,
  • 2:40 - 2:43
    500 mil milhões de palavras,
  • 2:43 - 2:45
    uma cadeia de caracteres
    mil vezes mais longa
  • 2:45 - 2:48
    que o genoma humano,
  • 2:48 - 2:50
    um texto que,
    se fosse escrito por extenso,
  • 2:50 - 2:52
    iria daqui até à Lua e voltava
  • 2:52 - 2:54
    mais de dez vezes,
  • 2:54 - 2:58
    um autêntico fragmento
    do nosso genoma cultural.
  • 2:58 - 3:00
    Claro que aquilo que fizemos
  • 3:00 - 3:03
    perante tamanha hipérbole...
  • 3:03 - 3:05
    (Risos)
  • 3:05 - 3:08
    ... foi aquilo que teria feito
  • 3:08 - 3:11
    qualquer pesquisador que se preze.
  • 3:11 - 3:13
    Inspirámo-nos no XKDC, e dissemos:
  • 3:13 - 3:15
    "Afastem-se. Vamos tentar fazer ciência."
  • 3:15 - 3:17
  • 3:17 - 3:19
    (Risos)
  • 3:19 - 3:21
    JM: Claro que estávamos a pensar
  • 3:21 - 3:23
    em publicar primeiro os dados
  • 3:23 - 3:25
    para que as pessoas
    pudessem fazer ciência.
  • 3:25 - 3:27
    Mas depois pensámos:
    ""Que dados podemos publicar?"
  • 3:27 - 3:29
    Claro que queríamos pegar nos livros
  • 3:29 - 3:31
    e publicar o texto completo
    destes cinco milhões de livros.
  • 3:31 - 3:33
    Mas a Google,
    e o Jon Orwant em particular,
  • 3:33 - 3:35
    ensinou-nos uma pequena equação.
  • 3:35 - 3:38
    Temos cinco milhões de autores, ou seja,
  • 3:38 - 3:41
    cinco milhões de processos judiciais,
    uma coisa monstruosa.
  • 3:41 - 3:43
    Assim, embora isso fosse fantástico
  • 3:43 - 3:46
    mais uma vez, era impraticável.
  • 3:46 - 3:48
    (Risos)
  • 3:48 - 3:50
    Mais uma vez, tivemos de ceder
  • 3:50 - 3:53
    e seguimos a abordagem prática,
    que era menos fantástica.
  • 3:53 - 3:55
    Dissemos: "Em vez de publicarmos
    o texto completo,
  • 3:55 - 3:57
    vamos publicar estatísticas
    sobre os livros.
  • 3:57 - 3:59
    Por exemplo,
    "Um brilho de felicidade".
  • 3:59 - 4:01
    São quatro palavras,
    a que chamamos um quatro-grama.
  • 4:01 - 4:03
    Vamos dizer-vos quantas vezes
    um determinado quatro-grama
  • 4:03 - 4:05
    apareceu em livros em 1801, 1802, 1803...
  • 4:05 - 4:07
    até 2008.
  • 4:07 - 4:09
    Isso dá-nos uma série temporal
  • 4:09 - 4:11
    de quantas vezes foi utilizada essa frase.
  • 4:11 - 4:14
    Fazemos isso para todas as palavras e frases
    que surgem nesses livros.
  • 4:14 - 4:17
    Isso dá-nos uma enorme tabela
    de dois mil milhões de linhas
  • 4:17 - 4:19
    que nos dizem como a cultura
    tem vindo a mudar.
  • 4:19 - 4:21
    ELA: Chamamos a esses
    dois mil milhões de linhas,
  • 4:21 - 4:23
    dois mil milhões de n-gramas.
  • 4:23 - 4:25
    O que é que eles nos dizem?
  • 4:25 - 4:27
    Os n-gramas individuais
    medem tendências culturais.
  • 4:27 - 4:29
    Vou dar-vos um exemplo.
  • 4:29 - 4:31
    Vamos supôr que estou a prosperar,
  • 4:31 - 4:33
    e que amanhã quero contar
    como me saí bem.
  • 4:33 - 4:36
    Posso dizer: "Ontem, eu vicejei."
  • 4:36 - 4:39
    Em alternativa, podia dizer:
    "Ontem, eu prosperei.
  • 4:39 - 4:42
    "Então qual é que devo utilizar?
  • 4:42 - 4:44
    "Como é que hei de saber?"
  • 4:44 - 4:46
    Há cerca de seis meses,
  • 4:46 - 4:48
    o topo de gama neste campo
  • 4:48 - 4:50
    seria dirigir-se, por exemplo,
  • 4:50 - 4:52
    a um psicólogo com um cabelo fabuloso
  • 4:52 - 4:54
    e dizer:
  • 4:54 - 4:57
    "Steve, és perito em verbos.
  • 4:57 - 4:59
    "O que é que devo fazer?"
  • 4:59 - 5:01
    E ele responderia:
    "Muitos dizem 'prosperei',
  • 5:01 - 5:04
    "mas alguns dizem 'vicejei'."
  • 5:04 - 5:06
    Também ficariam a saber, mais ou menos,
  • 5:06 - 5:09
    que, se recuassem 200 anos,
  • 5:09 - 5:12
    e perguntassem a este estadista
    com um cabelo igualmente fabuloso:
  • 5:12 - 5:15
    (Risos)
  • 5:15 - 5:17
    "Tom, o que é que eu devo dizer?"
  • 5:17 - 5:19
    Ele diria: "No meu tempo,
    a maior parte das pessoas vicejava,
  • 5:19 - 5:22
    "mas alguns prosperavam."
  • 5:22 - 5:24
    Agora vou mostrar-vos dados brutos.
  • 5:24 - 5:28
    Duas linhas desta tabela
    com dois mil milhões de entradas.
  • 5:28 - 5:30
    Estão a ver a frequência, ano a ano,
  • 5:30 - 5:33
    de "prosperei" e "vicejei"
    ao longo do tempo.
  • 5:34 - 5:36
    Estas são apenas duas
  • 5:36 - 5:39
    de dois mil milhões de linhas.
  • 5:39 - 5:41
    O conjunto total dos dados
  • 5:41 - 5:44
    é mil milhões de vezes mais fantástico
    do que este slide.
  • 5:44 - 5:46
    (Risos)
  • 5:46 - 5:50
    (Aplausos)
  • 5:50 - 5:52
    JM: Há muitas imagens que valem mais
    que 500 mil milhões de palavras.
  • 5:52 - 5:54
    Por exemplo, esta.
  • 5:54 - 5:56
    Se pegarmos em "gripe",
  • 5:56 - 5:58
    verão picos na época em que se sabia
  • 5:58 - 6:01
    que grandes epidemias de gripe
    matavam pessoas em todo o globo.
  • 6:01 - 6:04
    ELA: Se ainda não estão convencidos,
  • 6:04 - 6:06
    os níveis do mar estão a subir,
  • 6:06 - 6:09
    assim como o CO2 na atmosfera
    e a temperatura da Terra.
  • 6:09 - 6:12
    JM: Talvez queiram prestar atenção
    a este n-grama em particular,
  • 6:12 - 6:15
    para dizer a Nietzsche
    que Deus não está morto,
  • 6:15 - 6:18
    embora concordem que Ele precisa
    de um relações públicas melhor.
  • 6:18 - 6:20
    (Risos)
  • 6:20 - 6:23
    ELA: Podemos obter conceitos bastante
    abstratos com este tipo de análise.
  • 6:23 - 6:25
    Por exemplo, vou contar-vos a história
  • 6:25 - 6:27
    do ano de 1950.
  • 6:27 - 6:29
    Durante grande parte da história,
  • 6:29 - 6:31
    ninguém ligou nenhuma a 1950.
  • 6:31 - 6:33
    Em 1700, em 1800, em 1900,
  • 6:33 - 6:36
    ninguém se preocupou.
  • 6:37 - 6:39
    Durante os anos 30 e 40,
  • 6:39 - 6:41
    ninguém se preocupou.
  • 6:41 - 6:43
    De repente, a meio dos anos 40,
  • 6:43 - 6:45
    começa a haver um burburinho.
  • 6:45 - 6:47
    As pessoas percebem
    que 1950 vai acontecer,
  • 6:47 - 6:49
    e pode ser uma coisa em grande.
  • 6:49 - 6:52
    (Risos)
  • 6:52 - 6:55
    Mas nada fez com que as pessoas
    se interessassem mais pelo ano de 1950
  • 6:55 - 6:58
    do que o ano de 1950.
  • 6:58 - 7:01
    (Risos)
  • 7:01 - 7:03
    As pessoas andavam obcecadas.
  • 7:03 - 7:05
    Não conseguiam deixar de falar
  • 7:05 - 7:08
    sobre tudo o que tinham feito em 1950,
  • 7:08 - 7:11
    tudo o que planeavam fazer em 1950,
  • 7:11 - 7:16
    todos os sonhos
    que queriam alcançar em 1950.
  • 7:16 - 7:18
    Na verdade, 1950 foi tão fascinante
  • 7:18 - 7:20
    que, anos depois,
  • 7:20 - 7:23
    as pessoas continuavam a falar
    das coisas maravilhosas que tinham acontecido,
  • 7:23 - 7:25
    em 1951, 1952, 1953.
  • 7:25 - 7:27
    Finalmente, em 1954,
  • 7:27 - 7:29
    houve alguém que acordou e percebeu
  • 7:29 - 7:33
    que 1950 se tinha tornado
    numa coisa do passado.
  • 7:33 - 7:35
    (Risos)
  • 7:35 - 7:37
    E de repente, rebentou a bolha.
  • 7:37 - 7:39
    (Risos)
  • 7:39 - 7:41
    A história de 1950
  • 7:41 - 7:43
    é a história de cada ano
    que temos registado,
  • 7:43 - 7:46
    com uma ligeira diferença, porque agora
    temos estes gráficos catitas.
  • 7:46 - 7:49
    Como temos estes gráficos catitas,
    podemos comparar coisas.
  • 7:49 - 7:51
    Podemos dizer:
    "Quão depressa rebenta a bolha?"
  • 7:51 - 7:54
    Acontece que conseguimos medir isso
    com muita precisão.
  • 7:54 - 7:57
    Derivaram-se equações,
    produziram-se gráficos,
  • 7:57 - 7:59
    e como resultado final
  • 7:59 - 8:02
    descobrimos que a bolha rebenta
    cada vez mais depressa,
  • 8:02 - 8:04
    de ano para ano.
  • 8:04 - 8:09
    Estamos a perder interesse no passado
    cada vez mais rapidamente.
  • 8:09 - 8:11
    JM: Agora, um pouco
    de orientação profissional.
  • 8:11 - 8:13
    Os que querem ser famosos,
  • 8:13 - 8:15
    podem aprender
    com os 25 políticos mais famosos,
  • 8:15 - 8:17
    autores, atores, etc..
  • 8:17 - 8:20
    Se quiserem ser famosos cedo,
    devem tornar-se atores,
  • 8:20 - 8:22
    porque a fama começa a aumentar
    no final dos vinte anos,
  • 8:22 - 8:24
    ainda são jovens, isso é ótimo.
  • 8:24 - 8:26
    Se puderem esperar um bocadinho,
    devem ser autores,
  • 8:26 - 8:28
    porque então podem chegar longe,
  • 8:28 - 8:30
    como Mark Twain, por exemplo,
    extremamente famoso.
  • 8:30 - 8:32
    Mas se quiserem alcançar mesmo o topo,
  • 8:32 - 8:34
    não devem esperar resultados imediatos
  • 8:34 - 8:36
    e, claro, devem tornarem-se políticos.
  • 8:36 - 8:38
    Aqui começarão a ser famosos
    no final dos 50 anos
  • 8:38 - 8:40
    e tornar-se-ão
    muito famosos depois disso.
  • 8:40 - 8:43
    Os cientistas também ficam famosos
    quando são muito mais velhos.
  • 8:43 - 8:45
    Por exemplo, os biológos e os físicos
  • 8:45 - 8:47
    podem ser tão famosos como os atores.
  • 8:47 - 8:50
    Um erro que não devem fazer
    é tornarem-se matemáticos.
  • 8:50 - 8:52
    (Risos)
  • 8:52 - 8:54
    Se o fizerem, podem pensar:
  • 8:54 - 8:57
    "Ótimo. Vou fazer o meu melhor trabalho
    aos 20 anos."
  • 8:57 - 8:59
    Mas, calculem, ninguém vai querer saber.
  • 8:59 - 9:02
    (Risos)
  • 9:02 - 9:04
    Há notas mais sóbrias
  • 9:04 - 9:06
    entre os n-gramas.
  • 9:06 - 9:08
    Por exemplo, esta é
    a trajetória de Marc Chagall,
  • 9:08 - 9:10
    um artista nascido em 1887.
  • 9:10 - 9:13
    Parece-se com a trajetória normal
    de uma pessoa famosa.
  • 9:13 - 9:17
    Torna-se cada vez mais famoso,
  • 9:17 - 9:19
    exceto se procurarem em alemão.
  • 9:19 - 9:21
    Se procurarem em alemão,
    verão uma coisa bizarra,
  • 9:21 - 9:23
    uma coisa que habitualmente
    não se observa.
  • 9:23 - 9:25
    Ele torna-se extremamente famoso
  • 9:25 - 9:27
    e, de repente, cai vertiginosamente,
  • 9:27 - 9:30
    atravessando o ponto mais baixo
    entre 1933 e 1945,
  • 9:30 - 9:33
    antes de recuperar nos anos seguintes.
  • 9:33 - 9:35
    O que aqui observamos
  • 9:35 - 9:38
    é o facto de Marc Chagall
    ser um artista judeu
  • 9:38 - 9:40
    na Alemanha nazi.
  • 9:40 - 9:42
    Estes sinais
  • 9:42 - 9:44
    na realidade são tão fortes
  • 9:44 - 9:47
    que não precisamos de saber
    que alguém foi censurado.
  • 9:47 - 9:49
    Podemos chegar a essa conclusão
  • 9:49 - 9:51
    através do tratamento básico de sinais.
  • 9:51 - 9:53
    Esta é uma forma simples de o fazer.
  • 9:53 - 9:55
    Uma expetativa razoável
  • 9:55 - 9:57
    é a de que a fama de alguém
    num dado período de tempo
  • 9:57 - 9:59
    deverá ser sensivelmete
    a média da sua fama antes
  • 9:59 - 10:01
    e da sua fama depois desse período.
  • 10:01 - 10:03
    Isso é mais ou menos aquilo que se espera.
  • 10:03 - 10:06
    Comparamos isso com a fama
    que observamos.
  • 10:06 - 10:08
    Depois é só dividir uma pela outra
  • 10:08 - 10:10
    para obter uma coisa a que chamamos
    "índice de supressão".
  • 10:10 - 10:13
    Se o índice de supressão
    for muito, muito baixo,
  • 10:13 - 10:15
    quase de certeza estão a ser reprimidos.
  • 10:15 - 10:18
    Se for muito alto, então talvez estejam
    a beneficiar com a propaganda.
  • 10:19 - 10:21
    JM: Podemos mesmo ver
  • 10:21 - 10:24
    a distribuição de índices de supressão
    em populações inteiras.
  • 10:24 - 10:26
    Por exemplo, aqui...
  • 10:26 - 10:28
    este índice de supressão
    é de cinco mil pessoas
  • 10:28 - 10:30
    escolhidas em livros em inglês
    onde não há supressão explícita...
  • 10:30 - 10:32
    seria como este, centrado numa pessoa.
  • 10:32 - 10:34
    O que se espera é aquilo que se observa.
  • 10:34 - 10:36
    Esta é a distribuição conforme
    observada na Alemanha
  • 10:36 - 10:38
    — muito diferente,
    desvia-se para a esquerda.
  • 10:38 - 10:41
    As pessoas falaram sobre isto
    duas vezes menos do que o esperado.
  • 10:41 - 10:43
    Mas muito mais importante,
    a distribuição é mais alargada.
  • 10:43 - 10:46
    Há muitas pessoas que acabam
    na extrema esquerda nesta distribuição
  • 10:46 - 10:49
    de quem se falou menos dez vezes
    do que seria de esperar.
  • 10:49 - 10:51
    Mas também muita gente
    na extrema direita
  • 10:51 - 10:53
    parece beneficiar com a propaganda.
  • 10:53 - 10:56
    Esta imagem é a marca distintiva
    da censura no registo dos livros.
  • 10:56 - 10:58
    ELA: "Culturómica"
  • 10:58 - 11:00
    é o que chamamos a este método.
  • 11:00 - 11:02
    É como genómica.
  • 11:02 - 11:04
    Excepto que a genómica
    é uma lente sobre a biologia
  • 11:04 - 11:07
    através da janela da sequência
    de bases no genoma humano.
  • 11:07 - 11:09
    A culturómica é parecida.
  • 11:09 - 11:12
    É a aplicação da análise da recolha
    de dados em larga escala
  • 11:12 - 11:14
    ao estudo da cultura humana.
  • 11:14 - 11:16
    Aqui, em vez de ser
    através da lente de um genoma,
  • 11:16 - 11:19
    é através da lente de peças digitalizadas
    do registo histórico.
  • 11:19 - 11:21
    O que é genial na culturómica
  • 11:21 - 11:23
    é que todos a podem fazer.
  • 11:23 - 11:25
    Porque é que todos a podem fazer?
  • 11:25 - 11:27
    Todos a podem fazer
    porque três indivíduos,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray
    e Will Brockman na Google,
  • 11:30 - 11:32
    viram o protótipo do NGram Viewer,
  • 11:32 - 11:34
    e disseram: "Isto é muito divertido.
  • 11:34 - 11:37
    "Temos de tornar isto
    acessível às pessoas."
  • 11:37 - 11:39
    Em apenas duas semanas — as duas semanas
    anteriores à publicação do nosso artigo —
  • 11:39 - 11:42
    fizeram o código para uma versão
    do NGram Viewer para o público em geral.
  • 11:42 - 11:45
    Agora podemos escrever qualquer palavra
    ou frase em que estejamos interessados
  • 11:45 - 11:47
    e vemos imediatamente o seu n-grama,
  • 11:47 - 11:49
    assim como vemos exemplos
    de todos os diversos livros
  • 11:49 - 11:51
    onde surge esse n-grama.
  • 11:51 - 11:53
    Isto foi utilizado mais de um milhão
    de vezes no primeiro dia,
  • 11:53 - 11:55
    o que é a melhor de todas as pesquisas.
  • 11:55 - 11:58
    As pessoas querem ser o seu melhor,
    mostrar o seu melhor.
  • 11:58 - 12:01
    Mas acontece que, no século XVIII,
    as pessoas não se preocupavam com isso.
  • 12:01 - 12:04
    Não queriam ser o seu melhor,
    queriam ser o seu "milhor".
  • 12:04 - 12:07
    Claro que o que aconteceu
    foi apenas um erro.
  • 12:07 - 12:09
    Não que é que se esforçassem
    pela mediocridade,
  • 12:09 - 12:12
    é só porque o "e" escrevia-se
    de forma diferente, como um "i".
  • 12:12 - 12:15
    A Google não se apercebeu disso na altura,
  • 12:15 - 12:18
    e nós referimos isso no artigo científico
    que escrevemos.
  • 12:18 - 12:20
    Acontece que isto é apenas um lembrete
  • 12:20 - 12:22
    de que, embora seja tudo muito divertido,
  • 12:22 - 12:24
    quando interpretamos estes gráficos,
    temos de ser cuidadosos.
  • 12:24 - 12:27
    Há que adotar os procedimentos
    científicos de base.
  • 12:27 - 12:30
    ELA: As pessoas têm usado isto
    para todo o tipo de diversão.
  • 12:30 - 12:37
    (Risos)
  • 12:37 - 12:39
    Na verdade, nem é preciso dizer,
  • 12:39 - 12:42
    vamos apenas mostrar-vos
    todos os slides e ficar calados.
  • 12:42 - 12:45
    Esta pessoa estava interessada
    na história da frustração.
  • 12:45 - 12:48
    Há vários tipos de frustração.
  • 12:48 - 12:51
    Se baterem com um dedo do pé,
    isso é um "ai" com um A.
  • 12:51 - 12:53
    Se o planeta Terra for aniquilado
    pelos Vogons
  • 12:53 - 12:55
    para criar um desvio interestelar,
  • 12:55 - 12:57
    isso é um "aaaaaaaai" com oito A's.
  • 12:57 - 12:59
    Esta pessoa estuda todos os "ais",
  • 12:59 - 13:01
    entre um a oito A's.
  • 13:01 - 13:03
    Acontece
  • 13:03 - 13:05
    que os "ais" menos frequentes
  • 13:05 - 13:08
    são os que correspondem
    a coisas mais frustrantes,
  • 13:08 - 13:11
    excepto, por incrível que pareça,
    nos princípios dos anos 80.
  • 13:11 - 13:13
    Talvez tenha alguma coisa
    a ver com Reagan.
  • 13:13 - 13:15
    (Risos)
  • 13:15 - 13:18
    JM: Há muitas utilizações
    para estes dados,
  • 13:18 - 13:21
    mas o mais importante é que
    o registo histórico está a ser digitalizado.
  • 13:21 - 13:23
    A Google começou a digitalizar
    15 milhões de livros.
  • 13:23 - 13:25
    São 12% de todos os livros já publicados.
  • 13:25 - 13:28
    É um pedaço considerável
    da cultura humana.
  • 13:28 - 13:31
    Há muito mais na cultura,
    há manuscritos, há jornais,
  • 13:31 - 13:33
    há coisas que não são textos,
    como arte e quadros.
  • 13:33 - 13:35
    Tudo isto está nos nossos computadores,
  • 13:35 - 13:37
    nos computadores de todo o mundo.
  • 13:37 - 13:40
    Quando isso acontece,
    irá transformar a forma
  • 13:40 - 13:42
    como entendemos o nosso passado,
    o nosso presente e a nossa cultura humana.
  • 13:42 - 13:44
    Muito obrigado.
  • 13:44 - 13:47
    (Aplausos)
Title:
O que aprendemos com cinco milhões de livros
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Já brincaram com o Ngram Viewer da Google Labs? É uma ferramenta viciante que permite procurar palavras e ideias numa base de dados de cinco milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram-nos como funciona e algumas das coisas surpreendentes que podemos aprender com 500 mil milhões de palavras.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48

Portuguese subtitles

Revisions Compare revisions