< Return to Video

O que aprendemos com cinco milhões de livros

  • 0:00 - 0:01
    Erez Lieberman Aiden:
  • 0:01 - 0:06
    Todos sabemos que uma imagem
    vale mais que mil palavras
  • 0:08 - 0:09
    Mas nós em Harvard
  • 0:09 - 0:12
    questionámos se isso seria mesmo verdade.
  • 0:12 - 0:14
    (Risos)
  • 0:14 - 0:17
    Então, juntámos uma equipa de peritos,
  • 0:17 - 0:20
    que vieram de Harvard, do MIT,
  • 0:20 - 0:23
    do The American Heritage Dictionary,
    da The Encyclopedia Britannica
  • 0:23 - 0:27
    e até dos nossos orgulhosos
    patrocinadores, a Google.
  • 0:27 - 0:29
    (Risos)
  • 0:29 - 0:31
    Debruçámo-nos sobre esta questão
  • 0:31 - 0:33
    durante cerca de quatro anos.
  • 0:33 - 0:37
    E chegámos a uma conclusão surpreendente.
  • 0:37 - 0:40
    Meus senhores, uma imagem
    não vale mais que mil palavras.
  • 0:40 - 0:43
    Na verdade, encontrámos imagens
  • 0:43 - 0:47
    que valem 500 mil milhões de palavras.
  • 0:47 - 0:50
    Jean-Baptiste Michel:
    Como chegámos a esta conclusão?
  • 0:50 - 0:52
    O Erez e eu pensámos em como obter
  • 0:52 - 0:55
    um panorama geral da cultura humana
    e da história humana:
  • 0:55 - 0:57
    as mudanças através dos tempos.
  • 0:57 - 0:59
    Ao longo dos anos,
    escreveram-se muitos livros.
  • 0:59 - 1:01
    Pensámos que a melhor maneira
    de aprender com eles
  • 1:01 - 1:03
    seria ler todos esses milhões de livros.
  • 1:03 - 1:06
    Se houvesse uma escala
    de como isso seria fantástico,
  • 1:06 - 1:09
    isso seria classificado
    a um nível muito elevado.
  • 1:09 - 1:11
    O problema é que há
    um eixo X para isso,
  • 1:11 - 1:13
    que é o eixo da prática,
  • 1:13 - 1:15
    o que o colocaria num patamar muito baixo
  • 1:15 - 1:17
    (Aplausos)
  • 1:18 - 1:21
    As pessoas têm tendência a usar
    uma abordagem alternativa,
  • 1:21 - 1:23
    que é pegar nalgumas fontes
    e lê-las cuidadosamente.
  • 1:23 - 1:25
    É extremamente prático,
    mas não muito fantástico.
  • 1:25 - 1:28
    O que realmente se pretende
  • 1:28 - 1:30
    é chegar à parte fantástica
    mas prática deste espaço.
  • 1:30 - 1:34
    Acontece que havia uma empresa
    do outro lado do rio chamada Google
  • 1:34 - 1:36
    que iniciara um projeto
    de digitalização há uns anos
  • 1:36 - 1:38
    que talvez permitisse essa abordagem.
  • 1:38 - 1:40
    Tinham digitalizado milhões de livros.
  • 1:40 - 1:42
    Isso significava que se podiam
    usar métodos informáticos
  • 1:42 - 1:45
    para ler todos os livros
    com o clique de um botão.
  • 1:45 - 1:48
    Isto é muito prático
    e extremamente fantástico.
  • 1:48 - 1:51
    ELA: Vou falar-vos de onde vêm os livros.
  • 1:51 - 1:54
    Desde tempos imemoriais
    que existem autores.
  • 1:54 - 1:57
    Esses autores têm-se esforçado
    por escrever livros.
  • 1:57 - 1:59
    Isso tornou-se muito mais fácil
  • 1:59 - 2:01
    com o desenvolvimento
    da imprensa há uns séculos.
  • 2:01 - 2:03
    Desde então, os autores tiveram
  • 2:03 - 2:06
    129 milhões de ocasiões diferentes
  • 2:06 - 2:08
    para publicar livros,
  • 2:08 - 2:10
    Se esses livros
    não se perderam na história
  • 2:10 - 2:12
    estão algures numa biblioteca,
  • 2:12 - 2:15
    e muitos desses livros
    têm sido recuperados das bibliotecas
  • 2:15 - 2:17
    e digitalizados pela Google,
  • 2:17 - 2:19
    que já digitalizou
    15 milhões de livros até agora.
  • 2:19 - 2:22
    Quando a Google digitaliza um livro,
    põe-no num formato catita.
  • 2:22 - 2:24
    Agora, temos os dados
    e temos ainda metadados.
  • 2:24 - 2:27
    Temos informação sobre onde foi publicado,
  • 2:27 - 2:29
    quem foi o autor,
    quando foi publicado, etc.
  • 2:29 - 2:32
    Verificamos todos esses arquivos
  • 2:32 - 2:35
    e excluímos tudo o que não seja
    da mais alta qualidade.
  • 2:35 - 2:37
    Aquilo que nos resta
  • 2:37 - 2:41
    é uma coleção de cinco milhões de livros,
  • 2:41 - 2:44
    500 mil milhões de palavras,
  • 2:44 - 2:47
    uma cadeia de caracteres
    mil vezes mais longa
  • 2:47 - 2:49
    que o genoma humano,
  • 2:49 - 2:51
    um texto que,
    se fosse escrito por extenso,
  • 2:51 - 2:53
    iria daqui até à Lua e voltava
  • 2:53 - 2:55
    mais de dez vezes,
  • 2:55 - 2:58
    um autêntico fragmento
    do nosso genoma cultural.
  • 2:59 - 3:01
    Claro que aquilo que fizemos
  • 3:01 - 3:03
    perante tamanha hipérbole...
  • 3:03 - 3:06
    (Risos)
  • 3:06 - 3:08
    ... foi aquilo que teria feito
  • 3:08 - 3:11
    qualquer pesquisador que se preze.
  • 3:11 - 3:14
    Inspirámo-nos no XKDC, e dissemos:
  • 3:14 - 3:17
    "Afastem-se. Vamos tentar fazer ciência."
  • 3:17 - 3:19
    (Risos)
  • 3:20 - 3:21
    JM: Claro que estávamos a pensar
  • 3:21 - 3:23
    em publicar primeiro os dados
  • 3:23 - 3:25
    para que as pessoas
    pudessem fazer ciência.
  • 3:25 - 3:28
    Mas depois pensámos:
    ""Que dados podemos publicar?"
  • 3:28 - 3:29
    Claro que queríamos pegar nos livros
  • 3:29 - 3:32
    e publicar o texto completo
    de todos os livros.
  • 3:32 - 3:34
    Mas a Google,
    e o Jon Orwant em particular,
  • 3:34 - 3:36
    ensinou-nos uma pequena equação.
  • 3:36 - 3:38
    Temos cinco milhões de autores, ou seja,
  • 3:38 - 3:41
    cinco milhões de processos judiciais,
    uma coisa monstruosa.
  • 3:41 - 3:44
    Assim, embora isso fosse fantástico
  • 3:44 - 3:46
    mais uma vez, era impraticável.
  • 3:47 - 3:48
    (Risos)
  • 3:49 - 3:51
    Mais uma vez, tivemos de ceder
  • 3:51 - 3:54
    e seguimos a abordagem prática,
    que era menos fantástica.
  • 3:54 - 3:55
    Em vez de publicarmos
    o texto completo,
  • 3:55 - 3:58
    íamos publicar estatísticas
    sobre os livros.
  • 3:58 - 3:59
    Por exemplo,
    "Um brilho de felicidade".
  • 3:59 - 4:02
    São quatro palavras,
    a que chamamos um quatro-grama.
  • 4:02 - 4:05
    Íamos dizer quantas vezes
    um determinado quatro-grama
  • 4:05 - 4:07
    aparecia em livros em 1801,
    1802, 1803... até 2008.
  • 4:07 - 4:09
    Isso dá-nos uma série temporal
  • 4:09 - 4:11
    de quantas vezes foi utilizada essa frase.
  • 4:11 - 4:15
    Fazemos isso para todas as palavras
    e frases que surgem nesses livros.
  • 4:15 - 4:17
    Isso dá-nos uma enorme tabela
    de dois mil milhões de linhas
  • 4:17 - 4:20
    que nos dizem como a cultura
    tem vindo a mudar.
  • 4:20 - 4:22
    ELA: Chamamos a esses
    dois mil milhões de linhas,
  • 4:22 - 4:24
    dois mil milhões de n-gramas.
  • 4:24 - 4:25
    O que é que eles nos dizem?
  • 4:25 - 4:27
    Os n-gramas individuais
    medem tendências culturais.
  • 4:27 - 4:29
    Vou dar-vos um exemplo.
  • 4:29 - 4:31
    Vamos supor que estou a prosperar,
  • 4:31 - 4:33
    e que amanhã quero contar
    como me saí bem.
  • 4:33 - 4:36
    Posso dizer: "Ontem, eu vicejei."
  • 4:36 - 4:40
    Em alternativa, podia dizer:
    "Ontem, eu prosperei.
  • 4:40 - 4:42
    "Então qual é que devo utilizar?
  • 4:42 - 4:44
    "Como é que hei de saber?"
  • 4:44 - 4:46
    Há cerca de seis meses,
  • 4:46 - 4:48
    o topo de gama neste campo
  • 4:48 - 4:50
    seria dirigir-se, por exemplo,
  • 4:50 - 4:53
    a um psicólogo com um cabelo fabuloso
  • 4:53 - 4:54
    e dizer:
  • 4:55 - 4:58
    "Steve, és perito em verbos.
  • 4:58 - 4:59
    "O que é que devo fazer?"
  • 4:59 - 5:02
    E ele responderia:
    "Muitos dizem 'prosperei',
  • 5:02 - 5:04
    "mas alguns dizem 'vicejei'."
  • 5:04 - 5:07
    Também ficariam a saber, mais ou menos,
  • 5:07 - 5:09
    que, se recuassem 200 anos,
  • 5:09 - 5:12
    e perguntassem a este estadista
    com um cabelo igualmente fabuloso:
  • 5:12 - 5:15
    (Risos)
  • 5:15 - 5:17
    "Tom, o que é que eu devo dizer?"
  • 5:17 - 5:20
    Ele diria: "No meu tempo,
    a maior parte das pessoas vicejava,
  • 5:20 - 5:22
    "mas alguns prosperavam."
  • 5:22 - 5:25
    Agora vou mostrar-vos dados brutos.
  • 5:25 - 5:28
    Duas linhas desta tabela
    com dois mil milhões de entradas.
  • 5:28 - 5:31
    Estão a ver a frequência, ano a ano,
  • 5:31 - 5:34
    de "prosperei" e "vicejei"
    ao longo do tempo.
  • 5:35 - 5:37
    Estas são apenas duas
  • 5:37 - 5:39
    entre dois mil milhões de linhas.
  • 5:39 - 5:41
    O conjunto total dos dados
  • 5:41 - 5:45
    é mil milhões de vezes mais fantástico
    do que este slide.
  • 5:45 - 5:47
    (Risos)
  • 5:47 - 5:50
    (Aplausos)
  • 5:50 - 5:53
    JM: Há muitas imagens que valem mais
    que 500 mil milhões de palavras.
  • 5:53 - 5:54
    Por exemplo, esta.
  • 5:54 - 5:56
    Se pegarmos em "gripe",
  • 5:56 - 5:58
    verão picos na época em que se sabia
  • 5:58 - 6:01
    que grandes epidemias de gripe
    matavam pessoas em todo o globo.
  • 6:02 - 6:04
    ELA: Se ainda não estão convencidos,
  • 6:04 - 6:06
    os níveis do mar estão a subir,
  • 6:06 - 6:09
    assim como o CO2 na atmosfera
    e a temperatura da Terra.
  • 6:09 - 6:12
    JM: Talvez queiram prestar atenção
    a este n-grama em particular,
  • 6:12 - 6:15
    e dizer a Nietzsche
    que Deus não está morto,
  • 6:15 - 6:18
    embora concordem que Ele precisa
    de um relações públicas melhor.
  • 6:18 - 6:20
    (Risos)
  • 6:20 - 6:24
    ELA: Podemos obter conceitos bastante
    abstratos com este tipo de análise.
  • 6:24 - 6:27
    Por exemplo, vou contar-vos
    a história do ano de 1950.
  • 6:27 - 6:30
    Durante grande parte da história,
  • 6:30 - 6:31
    ninguém ligou nenhuma a 1950.
  • 6:31 - 6:34
    Em 1700, em 1800, em 1900,
  • 6:34 - 6:36
    ninguém se preocupou.
  • 6:38 - 6:41
    Durante os anos 30 e 40,
    ninguém se preocupou.
  • 6:41 - 6:43
    De repente, a meio dos anos 40,
  • 6:43 - 6:45
    começa a haver um burburinho.
  • 6:45 - 6:48
    As pessoas percebem
    que 1950 vai acontecer,
  • 6:48 - 6:50
    e pode ser uma coisa em grande.
  • 6:50 - 6:52
    (Risos)
  • 6:52 - 6:56
    Mas nada fez com que as pessoas
    se interessassem mais pelo ano de 1950
  • 6:56 - 6:59
    do que o ano de 1950.
  • 6:59 - 7:01
    (Risos)
  • 7:01 - 7:04
    As pessoas andavam obcecadas.
  • 7:04 - 7:05
    Não conseguiam deixar de falar
  • 7:05 - 7:08
    sobre tudo o que tinham feito em 1950,
  • 7:08 - 7:12
    tudo o que planeavam fazer em 1950,
  • 7:12 - 7:16
    todos os sonhos
    que queriam alcançar em 1950.
  • 7:16 - 7:18
    Na verdade, 1950 foi tão fascinante
  • 7:18 - 7:20
    que, anos depois,
  • 7:20 - 7:23
    as pessoas continuavam a falar
    das coisas maravilhosas
  • 7:23 - 7:26
    que tinham acontecido
    em 1951, 1952, 1953.
  • 7:26 - 7:28
    Finalmente, em 1954,
  • 7:28 - 7:30
    houve alguém que acordou e percebeu
  • 7:30 - 7:33
    que 1950 se tinha tornado
    numa coisa do passado.
  • 7:33 - 7:35
    (Risos)
  • 7:35 - 7:38
    E de repente, rebentou a bolha.
  • 7:38 - 7:39
    (Risos)
  • 7:39 - 7:41
    A história de 1950
  • 7:41 - 7:43
    é a história de cada ano
    que temos registado,
  • 7:43 - 7:47
    com uma ligeira diferença, porque agora
    temos estes gráficos catitas.
  • 7:47 - 7:49
    Como temos estes gráficos catitas,
    podemos comparar coisas.
  • 7:49 - 7:52
    Podemos dizer:
    "Quão depressa rebenta a bolha?"
  • 7:52 - 7:54
    Acontece que conseguimos medir isso
    com muita precisão.
  • 7:54 - 7:58
    Derivaram-se equações,
    produziram-se gráficos,
  • 7:58 - 8:00
    e como resultado final
  • 8:00 - 8:03
    descobrimos que a bolha rebenta
    cada vez mais depressa,
  • 8:03 - 8:05
    de ano para ano.
  • 8:05 - 8:09
    Estamos a perder interesse no passado
    cada vez mais rapidamente.
  • 8:09 - 8:11
    JM: Agora, um pouco
    de orientação profissional.
  • 8:11 - 8:13
    Os que querem ser famosos,
  • 8:13 - 8:15
    podem aprender
    com os 25 políticos mais famosos,
  • 8:15 - 8:17
    autores, atores, etc..
  • 8:17 - 8:20
    Se quiserem ser famosos cedo,
    devem tornar-se atores,
  • 8:20 - 8:23
    porque a fama começa a aumentar
    no final dos vinte anos,
  • 8:23 - 8:25
    ainda são jovens, isso é ótimo.
  • 8:25 - 8:27
    Se podem esperar um pouco,
    devem ser autores,
  • 8:27 - 8:28
    porque então podem chegar longe,
  • 8:28 - 8:31
    como Mark Twain, por exemplo,
    extremamente famoso.
  • 8:31 - 8:33
    Mas se quiserem alcançar mesmo o topo,
  • 8:33 - 8:35
    não devem esperar resultados imediatos
  • 8:35 - 8:37
    e, claro, devem tornarem-se políticos.
  • 8:37 - 8:39
    Começarão a ser famosos
    no final dos 50 anos
  • 8:39 - 8:41
    e tornar-se-ão
    muito famosos depois disso.
  • 8:41 - 8:44
    Os cientistas também ficam famosos
    quando são muito mais velhos.
  • 8:44 - 8:48
    Por exemplo, os biólogos e os físicos
    podem ser tão famosos como os atores.
  • 8:48 - 8:51
    Um erro que não devem fazer
    é tornarem-se matemáticos.
  • 8:51 - 8:52
    (Risos)
  • 8:52 - 8:54
    Se o fizerem, podem pensar:
  • 8:54 - 8:57
    "Ótimo. Vou fazer o meu melhor trabalho
    aos 20 anos."
  • 8:57 - 9:00
    Mas, calculem, ninguém vai querer saber.
  • 9:00 - 9:02
    (Risos)
  • 9:04 - 9:07
    ELA: Há notas mais sóbrias
    entre os n-gramas.
  • 9:07 - 9:09
    Por exemplo, esta é
    a trajetória de Marc Chagall,
  • 9:09 - 9:11
    um artista nascido em 1887.
  • 9:11 - 9:14
    Parece-se com a trajetória normal
    de uma pessoa famosa.
  • 9:14 - 9:17
    Torna-se cada vez mais famoso,
  • 9:17 - 9:19
    exceto se procurarem em alemão.
  • 9:19 - 9:22
    Se procurarem em alemão,
    verão uma coisa bizarra,
  • 9:22 - 9:24
    uma coisa que habitualmente
    não se observa.
  • 9:24 - 9:26
    Ele torna-se extremamente famoso
  • 9:26 - 9:28
    e, de repente, cai vertiginosamente,
  • 9:28 - 9:31
    atravessando o ponto mais baixo
    entre 1933 e 1945,
  • 9:31 - 9:33
    antes de recuperar nos anos seguintes.
  • 9:33 - 9:35
    O que aqui observamos
  • 9:35 - 9:38
    é o facto de Marc Chagall
    ser um artista judeu
  • 9:38 - 9:40
    na Alemanha nazi.
  • 9:40 - 9:44
    Na realidade, estes sinais são tão fortes
  • 9:44 - 9:48
    que não precisamos de saber
    que alguém foi censurado.
  • 9:48 - 9:50
    Podemos chegar a essa conclusão
  • 9:50 - 9:52
    através do tratamento básico de sinais.
  • 9:52 - 9:54
    Esta é uma forma simples de o fazer.
  • 9:54 - 9:55
    Uma expetativa razoável
  • 9:55 - 9:58
    é a de que a fama de alguém
    num dado período de tempo
  • 9:58 - 10:00
    deverá ser sensivelmente
    a média da sua fama antes
  • 10:00 - 10:02
    e da sua fama posterior.
  • 10:02 - 10:03
    Isso é aquilo que se espera.
  • 10:03 - 10:06
    Comparamos isso com a fama
    que observamos.
  • 10:06 - 10:07
    Depois é só dividir uma pela outra
  • 10:07 - 10:10
    para obter uma coisa a que chamamos
    "índice de supressão".
  • 10:10 - 10:13
    Se o índice de supressão
    for muito, muito baixo,
  • 10:13 - 10:15
    quase de certeza estão a ser censurados.
  • 10:15 - 10:19
    Se for muito alto, então talvez estejam
    a beneficiar com a propaganda.
  • 10:19 - 10:21
    JM: Podemos mesmo ver
  • 10:21 - 10:24
    a distribuição de índices de supressão
    em populações inteiras.
  • 10:24 - 10:26
    Por exemplo, aqui...
  • 10:26 - 10:28
    este índice de supressão
    é de cinco mil pessoas
  • 10:28 - 10:31
    escolhidas em livros em inglês
    onde não há supressão explícita...
  • 10:31 - 10:33
    seria como este, centrado numa pessoa.
  • 10:33 - 10:35
    O que se espera é aquilo que se observa.
  • 10:35 - 10:37
    Esta é a distribuição
    observada na Alemanha
  • 10:37 - 10:39
    — desvia-se para a esquerda.
  • 10:39 - 10:41
    As pessoas falaram disso
    duas vezes menos do que o esperado.
  • 10:41 - 10:44
    Mais importante,
    a distribuição é mais alargada.
  • 10:44 - 10:47
    Há muitas pessoas que acabam
    na ponta esquerda na distribuição
  • 10:47 - 10:50
    de quem se falou menos dez vezes
    do que seria de esperar.
  • 10:50 - 10:52
    Mas também muita gente
    na ponta direita
  • 10:52 - 10:53
    parece beneficiar com a propaganda.
  • 10:53 - 10:57
    Esta imagem é a marca distintiva
    da censura no registo dos livros.
  • 10:57 - 10:59
    ELA: "Culturómica"
  • 10:59 - 11:01
    é o que chamamos a este método.
  • 11:01 - 11:02
    É como genómica.
  • 11:02 - 11:04
    Exceto que a genómica
    é uma lente sobre a biologia
  • 11:04 - 11:08
    através da janela da sequência
    de bases no genoma humano.
  • 11:08 - 11:09
    A culturómica é parecida.
  • 11:09 - 11:12
    É a aplicação da análise da recolha
    de dados em larga escala
  • 11:12 - 11:14
    ao estudo da cultura humana.
  • 11:14 - 11:17
    Aqui, em vez de ser
    através da lente de um genoma,
  • 11:17 - 11:20
    é através da lente de peças digitalizadas
    do registo histórico.
  • 11:20 - 11:22
    O que é genial na culturómica
  • 11:22 - 11:23
    é que todos a podem fazer.
  • 11:23 - 11:25
    Porque é que todos a podem fazer?
  • 11:25 - 11:27
    Todos a podem fazer
    porque três indivíduos,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray
    e Will Brockman na Google,
  • 11:30 - 11:32
    viram o protótipo do NGram Viewer,
  • 11:32 - 11:34
    e disseram: "Isto é muito divertido.
  • 11:34 - 11:37
    "Temos de tornar isto
    acessível às pessoas."
  • 11:37 - 11:40
    Nas duas semanas antes
    da publicação do nosso artigo
  • 11:40 - 11:42
    fizeram o código para a versão pública
    do NGram Viewer.
  • 11:42 - 11:45
    Podemos escrever qualquer palavra
    ou frase em que estamos interessados
  • 11:45 - 11:47
    e vemos imediatamente o seu n-grama,
  • 11:47 - 11:50
    assim como vemos exemplos
    de todos os diversos livros
  • 11:50 - 11:52
    onde surge esse n-grama.
  • 11:52 - 11:55
    JBM: Isto foi usado mais de um milhão
    de vezes no primeiro dia,
  • 11:55 - 11:57
    o que é a melhor de todas as pesquisas.
  • 11:57 - 11:59
    Todos querem o seu melhor,
    mostrar o seu melhor.
  • 11:59 - 12:01
    Acontece que, no século XVIII,
    isso não acontecia.
  • 12:02 - 12:04
    Não queriam ser o seu melhor,
    queriam ser o seu "milhor".
  • 12:04 - 12:07
    Claro que o que aconteceu
    foi apenas um erro.
  • 12:07 - 12:09
    Não que é que se esforçassem
    pela mediocridade,
  • 12:09 - 12:13
    é só porque o "e" escrevia-se
    de forma diferente, como um "i".
  • 12:13 - 12:15
    A Google não se apercebeu disso na altura,
  • 12:15 - 12:18
    e nós referimos isso no artigo científico
    que escrevemos.
  • 12:18 - 12:20
    Acontece que isto é apenas um lembrete
  • 12:20 - 12:22
    de que, embora seja tudo muito divertido,
  • 12:22 - 12:25
    quando interpretamos gráficos,
    temos de ser cuidadosos.
  • 12:25 - 12:27
    Há que adotar os procedimentos
    científicos de base.
  • 12:28 - 12:31
    ELA: As pessoas têm usado isto
    para todo o tipo de diversão.
  • 12:31 - 12:34
    (Risos)
  • 12:38 - 12:40
    Na verdade, nem é preciso falar,
  • 12:40 - 12:42
    vamos apenas mostrar-vos
    todos os slides e ficar calados.
  • 12:43 - 12:46
    Esta pessoa estava interessada
    na história da frustração.
  • 12:46 - 12:48
    Há vários tipos de frustração.
  • 12:48 - 12:51
    Se baterem com um dedo do pé,
    isso é um "ai" com um A.
  • 12:51 - 12:54
    Se o planeta Terra for aniquilado
    pelos Vogons
  • 12:54 - 12:56
    para criar um desvio interestelar,
  • 12:56 - 12:58
    isso é um "aaaaaaaai" com oito A's.
  • 12:58 - 13:00
    Esta pessoa estuda todos os "ais",
  • 13:00 - 13:02
    entre um a oito A's.
  • 13:02 - 13:05
    Acontece que os "ais" menos frequentes
  • 13:05 - 13:08
    são os que correspondem
    a coisas mais frustrantes,
  • 13:08 - 13:11
    exceto, por incrível que pareça,
    nos princípios dos anos 80.
  • 13:11 - 13:14
    Talvez tenha alguma coisa
    a ver com Reagan.
  • 13:14 - 13:15
    (Risos)
  • 13:16 - 13:18
    JM: Há muitas utilizações
    para estes dados,
  • 13:18 - 13:21
    mas o mais importante é que está
    a ser digitalizado o registo histórico.
  • 13:21 - 13:24
    A Google começou a digitalizar
    15 milhões de livros.
  • 13:24 - 13:26
    São 12% de todos os livros já publicados.
  • 13:26 - 13:29
    É um pedaço considerável
    da cultura humana.
  • 13:29 - 13:31
    Há muito mais na cultura,
    há manuscritos, há jornais,
  • 13:31 - 13:33
    há coisas que não são textos,
    como arte e quadros.
  • 13:33 - 13:36
    Tudo isto está nos nossos computadores,
  • 13:36 - 13:38
    nos computadores de todo o mundo.
  • 13:38 - 13:40
    Quando isso acontece,
    irá transformar a forma
  • 13:40 - 13:43
    como entendemos o passado,
    o presente e a cultura humana.
  • 13:43 - 13:44
    Muito obrigado.
  • 13:44 - 13:48
    (Aplausos)
Title:
O que aprendemos com cinco milhões de livros
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Já brincaram com o Ngram Viewer da Google Labs? É uma ferramenta viciante que permite procurar palavras e ideias numa base de dados de cinco milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram-nos como funciona e algumas das coisas surpreendentes que podemos aprender com 500 mil milhões de palavras.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48

Portuguese subtitles

Revisions Compare revisions