< Return to Video

O que aprendemos com cinco milhões de livros

  • 0:00 - 0:02
    Erez Lieberman Aiden: Todos sabemos
  • 0:02 - 0:05
    que uma imagem vale mais que mil palavras
  • 0:07 - 0:09
    Mas nós em Harvard
  • 0:09 - 0:12
    questionámos se isso seria mesmo verdade.
  • 0:12 - 0:14
    (Risos)
  • 0:14 - 0:18
    Então, juntámos uma equipa de peritos,
  • 0:18 - 0:20
    que abrangiam Harvard, o MIT,
  • 0:20 - 0:23
    o The American Heritage Dictionary,
    a The Encyclopedia Britannica
  • 0:23 - 0:25
    e até os nossos orgulhosos patrocinadores,
  • 0:25 - 0:28
    a Google.
  • 0:28 - 0:30
    Debruçámo-nos sobre esta questão
  • 0:30 - 0:32
    durante cerca de quatro anos.
  • 0:32 - 0:37
    E chegámos a uma conclusão surpreendente.
  • 0:37 - 0:40
    Meus senhores, uma imagem
    não vale mais que mil palavras.
  • 0:40 - 0:42
    Na verdade, encontrámos algumas imagens
  • 0:42 - 0:47
    que valem 500 mil milhões de palavras.
  • 0:47 - 0:49
    Jean-Baptiste Michel:
    Como chegámos a esta conclusão?
  • 0:49 - 0:51
    O Erez e eu pensámos em como obter
  • 0:51 - 0:53
    um panorama geral da cultura humana
    e da história humana:
  • 0:53 - 0:56
    uma mudança através dos tempos.
  • 0:56 - 0:58
    Ao longo dos anos,
    escreveram-se muitos livros.
  • 0:58 - 1:00
    Pensámos que a melhor maneira
    de aprender com eles
  • 1:00 - 1:02
    seia ler todos esses milhões de livros.
  • 1:02 - 1:05
    Claro que, se houvesse uma escala
    de como isso seria fantástico,
  • 1:05 - 1:08
    isso iria ficar num patamar
    muitíssimo elevado.
  • 1:08 - 1:10
    O problema é que há
    um eixo de XX para isso,
  • 1:10 - 1:12
    que é o eixo prático.
  • 1:12 - 1:14
    Este está num patamar muito, muito baixo.
  • 1:14 - 1:17
    (Aplausos)
  • 1:17 - 1:20
    As pessoas têm tendência a usar
    uma abordagem alternativa,
  • 1:20 - 1:22
    que é pegar em algumas fontes
    e lê-las cuidadosamente.
  • 1:22 - 1:24
    Isto é extremamente prático,
    mas não muito fantástico.
  • 1:24 - 1:27
    O que realmente se pretende
  • 1:27 - 1:30
    é chegar à parte fantástica
    mas prática deste espaço.
  • 1:30 - 1:33
    Acontece que havia uma empresa
    do outro lado do rio chamada Google
  • 1:33 - 1:35
    que tinha iniciado um projecto
    de digitalização há alguns anos
  • 1:35 - 1:37
    que talvez permitisse esta abordagem.
  • 1:37 - 1:39
    Eles tinham digitalizado
    milhões de livros.
  • 1:39 - 1:42
    Isso significava que se podiam
    usar métodos informáticos
  • 1:42 - 1:44
    para ler todos os livros
    com o clique de um botão.
  • 1:44 - 1:47
    Isto é muito prático
    e extremamente fantástico.
  • 1:48 - 1:50
    ELA: Deixem-me falar-vos um pouco
    sobre de onde vêm os livros.
  • 1:50 - 1:53
    Desde tempos imemoriais
    que existem autores.
  • 1:53 - 1:56
    Estes autores têm-se esforçado
    em escrever livros.
  • 1:56 - 1:58
    E isto tornou-se
    consideravelmente mais fácil
  • 1:58 - 2:00
    com o desenvolvimento da imprensa
    há alguns séculos.
  • 2:00 - 2:03
    Desde então, os autores conseguiram
  • 2:03 - 2:05
    em 129 milhões de ocasiões distintas,
  • 2:05 - 2:07
    publicar livros.
  • 2:07 - 2:09
    Agora se esses livros
    não se perderam para a história
  • 2:09 - 2:11
    então estão algures numa biblioteca,
  • 2:11 - 2:14
    e muitos desses livros
    têm sido recuperados das bibliotecas
  • 2:14 - 2:16
    e digitalizados pela Google,
  • 2:16 - 2:18
    que já digitalizou
    15 milhões de livros até agora.
  • 2:18 - 2:21
    Quando a Google digitaliza um livro,
    põe-no num formato catita.
  • 2:21 - 2:23
    Agora nós temos os dados
    e temos ainda metadados.
  • 2:23 - 2:26
    Temos informação sobre coisas
    como onde foi publicado,
  • 2:26 - 2:28
    quem foi o autor, quando foi publicado.
  • 2:28 - 2:31
    E o que fazemos é verificar
    todos esses registos
  • 2:31 - 2:35
    e excluir tudo aquilo que não são
    dados da mais alta qualidade.
  • 2:35 - 2:37
    Aquilo que nos resta
  • 2:37 - 2:40
    é uma colecção de cinco milhões de livros,
  • 2:40 - 2:43
    500 mil milhões de palavras,
  • 2:43 - 2:45
    uma cadeia de caracteres
    mil vezes mais longa
  • 2:45 - 2:48
    que o genoma humano...
  • 2:48 - 2:50
    um texto que,
    se fosse escrito por extenso,
  • 2:50 - 2:52
    iria daqui até à Lua e voltava
  • 2:52 - 2:54
    mais de dez vezes...
  • 2:54 - 2:58
    um autêntico fragmento
    do nosso genoma cultural.
  • 2:58 - 3:00
    Claro que aquilo que fizemos
  • 3:00 - 3:03
    perante tamanha hipérbole...
  • 3:03 - 3:05
    (Risos)
  • 3:05 - 3:08
    foi aquilo que qualquer pesquisador
    que se preze
  • 3:08 - 3:11
    teria feito.
  • 3:11 - 3:13
    Inspirámo-nos no XKDC,
  • 3:13 - 3:15
    e dissemos: «Afastem-se.
  • 3:15 - 3:17
    Vamos tentar fazer ciência.»
  • 3:17 - 3:19
    (Risos)
  • 3:19 - 3:21
    JM: Claro que pensávamos assim,
  • 3:21 - 3:23
    primeiro vamos por os dados lá fora
  • 3:23 - 3:25
    para que as pessoas
    façam ciência com eles.
  • 3:25 - 3:27
    E agora pensávamos,
    que dados podemos publicar?
  • 3:27 - 3:29
    Claro que se queria pegar nos livros
  • 3:29 - 3:31
    e publicar o texto completo
    destes cinco milhões de livros.
  • 3:31 - 3:33
    Mas a Google,
    e o Jon Orwant em particular,
  • 3:33 - 3:35
    mostrou-nos uma pequena equação
    a aprender.
  • 3:35 - 3:38
    Então temos cinco milhões,
    ou seja, cinco milhões de autores
  • 3:38 - 3:41
    e cinco milhões de queixosos
    são um processo legal monstruoso.
  • 3:41 - 3:43
    Então, embora isso fosse
    realmente fantástico
  • 3:43 - 3:46
    mais uma vez,
    é extremamente pouco prático.
  • 3:46 - 3:48
    (Risos)
  • 3:48 - 3:50
    Mais uma vez, tivemos de ceder
    mais ou menos,
  • 3:50 - 3:53
    e seguimos a abordagem muito prática,
    que é menos fantástica.
  • 3:53 - 3:55
    Dissemos: "Em vez de publicarmos
    o texto completo,
  • 3:55 - 3:57
    vamos publicar estatísticas
    sobre os livros.
  • 3:57 - 3:59
    Tome-se como exemplo
    "Um brilho de felicidade".
  • 3:59 - 4:01
    São quatro palavras,
    o que chamamos de quatro-grama.
  • 4:01 - 4:03
    Nós vamos dizer-vos quantas vezes
    um quatro-grama em particular
  • 4:03 - 4:05
    apareceu em livros em 1801, 1802, 1803,
  • 4:05 - 4:07
    até 2008.
  • 4:07 - 4:09
    Isso dá-nos uma série temporal
  • 4:09 - 4:11
    de quantas vezes esta frase em particular
    foi utilizada ao longo dos tempos.
  • 4:11 - 4:14
    Fazemos isso para todas as palavras e frases
    que surgem nestes livros,
  • 4:14 - 4:17
    e isso dá-nos uma enorme tabela
    de dois mil milhões de linhas
  • 4:17 - 4:19
    que nos dizem como a cultura
    tem vindo a mudar.
  • 4:19 - 4:21
    ELA: A estes dois mil milhões de linhas,
  • 4:21 - 4:23
    chamamos dois mil milhões de n-gramas.
  • 4:23 - 4:25
    O que é que eles nos dizem?
  • 4:25 - 4:27
    Bem, os n-gramas individuais
    medem tendências culturais.
  • 4:27 - 4:29
    Deixem-me dar-vos um exemplo.
  • 4:29 - 4:31
    Vamos supôr que estou a prosperar,
  • 4:31 - 4:33
    e que amanhã quero contar
    como me saí bem.
  • 4:33 - 4:36
    Então posso dizer: "Ontem, eu vicejei."
  • 4:36 - 4:39
    Em alternativa, podia dizer:
    "Ontem, eu prosperei".
  • 4:39 - 4:42
    Então qual é que devo utilizar?
  • 4:42 - 4:44
    Como é que se sabe?
  • 4:44 - 4:46
    Há cerca de seis meses atrás,
  • 4:46 - 4:48
    o topo de gama neste campo
  • 4:48 - 4:50
    seria dirigir-se, por exemplo,
  • 4:50 - 4:52
    a este psicólogo
    com um cabelo extraordinário
  • 4:52 - 4:54
    e dizer:
  • 4:54 - 4:57
    "Steve, és perito nos verbos irregulares.
  • 4:57 - 4:59
    "O que é que devo fazer?"
  • 4:59 - 5:01
    E ele responderia:
    "Bem, muitos dizem prosperei,
  • 5:01 - 5:04
    "mas alguns dizem vicejei."
  • 5:04 - 5:06
    E ficariam a saber, mais ou menos,
  • 5:06 - 5:09
    que se recuassem 200 anos
  • 5:09 - 5:12
    e perguntassem a este estadista
    com um cabelo igualmente extraordinário:
  • 5:12 - 5:15
    (Risos)
  • 5:15 - 5:17
    "Tom, o que é que eu devo dizer?"
  • 5:17 - 5:19
    Ele diria: "No meu tempo,
    a maior parte das pessoas vicejava,
  • 5:19 - 5:22
    "mas alguns prosperavam."
  • 5:22 - 5:24
    O que agora vos vou mostrar
    são dados brutos.
  • 5:24 - 5:28
    Duas linhas desta tabela
    com dois mil milhões de entradas.
  • 5:28 - 5:30
    O que estão a ver é a frequência por ano
  • 5:30 - 5:33
    de "prosperei" e "vicejei"
    ao longo do tempo.
  • 5:34 - 5:36
    Estas são apenas duas
  • 5:36 - 5:39
    de dois mil milhões de linhas.
  • 5:39 - 5:41
    O conjunto total dos dados
  • 5:41 - 5:44
    é mil milhões de vezes mais fantástico
    do que este slide.
  • 5:44 - 5:46
    (Risos)
  • 5:46 - 5:50
    (Aplausos)
  • 5:50 - 5:52
    JM: Há realmente muitas imagens
    que valem mais que 500 mil milhões de palavras.
  • 5:52 - 5:54
    Por exemplo, esta.
  • 5:54 - 5:56
    Se pegarmos em "gripe",
  • 5:56 - 5:58
    verão picos no tempo em que sabiam
  • 5:58 - 6:01
    que grandes epidemias de gripe
    estavam a matar pessoas por todo o globo.
  • 6:01 - 6:04
    ELA: Se ainda não estão convencidos,
  • 6:04 - 6:06
    os níveis do mar estão a subir,
  • 6:06 - 6:09
    assim como o CO2 na atmosfera
    e a temperatura da Terra.
  • 6:09 - 6:12
    JM: Talvez queiram prestar atenção
    a este n-grama em particular,
  • 6:12 - 6:15
    para dizer a Nietzsche
    que Deus não está morto,
  • 6:15 - 6:18
    embora possam concordar que precisa
    de um relações públicas melhor.
  • 6:18 - 6:20
    (Risos)
  • 6:20 - 6:23
    ELA: Podem obter conceitos bastante
    abstractos com este tipo de análise.
  • 6:23 - 6:25
    Por exemplo, vou contar-vos a história
  • 6:25 - 6:27
    do ano de 1950.
  • 6:27 - 6:29
    Durante grande parte da história,
  • 6:29 - 6:31
    ninguém ligou nenhuma a 1950.
  • 6:31 - 6:33
    Em 1700, em 1800, em 1900,
  • 6:33 - 6:36
    ninguém se preocupou.
  • 6:37 - 6:39
    Durante as décadas de 30 e 40,
  • 6:39 - 6:41
    ninguém se preocupou.
  • 6:41 - 6:43
    De repente, a meio da década de 40,
  • 6:43 - 6:45
    começou a haver um burburinho.
  • 6:45 - 6:47
    As pessoas perceberam
    que 1950 ia acontecer,
  • 6:47 - 6:49
    e podia ser uma coisa em grande.
  • 6:49 - 6:52
    (Risos)
  • 6:52 - 6:55
    Mas nada fez com que as pessoas
    se interessassem mais pelo ano de 1950
  • 6:55 - 6:58
    como o ano de 1950.
  • 6:58 - 7:01
    (Risos)
  • 7:01 - 7:03
    As pessoas andavam obececadas.
  • 7:03 - 7:05
    Não conseguiam parar de falar
  • 7:05 - 7:08
    sobre tudo o que tinham feito em 1950,
  • 7:08 - 7:11
    tudo o que planeavam fazer em 1950,
  • 7:11 - 7:16
    todos os sonhos
    que queriam alcançar em 1950.
  • 7:16 - 7:18
    Na verdade, 1950 era tão fascinante
  • 7:18 - 7:20
    que, durante anos depois,
  • 7:20 - 7:23
    as pessoas continuaram a falar
    das coisas maravilhosas que tinham acontecido,
  • 7:23 - 7:25
    em 51, 52, 53.
  • 7:25 - 7:27
    Finalmente em 1954,
  • 7:27 - 7:29
    houve alguém que acordou e percebeu
  • 7:29 - 7:33
    que 1950 se tinha tornado
    numa coisa fora de moda.
  • 7:33 - 7:35
    (Risos)
  • 7:35 - 7:37
    Assim, de repente, rebentou a bolha.
  • 7:37 - 7:39
    (Risos)
  • 7:39 - 7:41
    A história de 1950
  • 7:41 - 7:43
    é a história de cada ano
    que temos registado,
  • 7:43 - 7:46
    com uma ligeira diferença, porque agora
    temos estes gráficos catitas.
  • 7:46 - 7:49
    Como temos estes gráficos catitas,
    podemos comparar coisas.
  • 7:49 - 7:51
    Podemos dizer:
    "Quão depressa rebenta a bolha?"
  • 7:51 - 7:54
    Acontece que conseguimos medir isso
    com muita precisão.
  • 7:54 - 7:57
    Foram obtidas equações,
    foram produzidos gráficos,
  • 7:57 - 7:59
    e o resultado final
  • 7:59 - 8:02
    é que descobrimos
  • 8:02 - 8:04
    a cada ano que passa.
  • 8:04 - 8:09
    Estamos a perder interesse no passado
    cada vez mais rapidamente.
  • 8:09 - 8:11
    JM: Agora, um pouco
    de orientação profissional.
  • 8:11 - 8:13
    Para os que querem ser famosos,
  • 8:13 - 8:15
    podemos aprender
    com os 25 políticos mais famosos,
  • 8:15 - 8:17
    autores, atores, etc..
  • 8:17 - 8:20
    Se quiserem ser famosos cedo,
    devem tornar-se atores,
  • 8:20 - 8:22
    porque a fama começa a aumentar
    no final dos vinte anos...
  • 8:22 - 8:24
    ainda são jovens, isso é óptimo.
  • 8:24 - 8:26
    Se puderem esperar um bocadinho,
    devem ser autores,
  • 8:26 - 8:28
    porque então podem chegar longe,
  • 8:28 - 8:30
    como Mark Twain, por exemplo:
    extremamente famoso.
  • 8:30 - 8:32
    Mas se quiserem alcançar mesmo o topo,
  • 8:32 - 8:34
    não devem esperar resultados imediatos
  • 8:34 - 8:36
    e devem tornarem-se políticos, claro.
  • 8:36 - 8:38
    Aqui começarão a ser famosos
    no final dos 50,
  • 8:38 - 8:40
    e tornar-se-ão muito,
    muito famosos depois disso.
  • 8:40 - 8:43
    Os cientistas também têm tendência a tornar-se famosos quando são mais muito mais velhos.
  • 8:43 - 8:45
    Por exemplo, biológos e físicos
  • 8:45 - 8:47
    podem ser tão famosos como atores.
  • 8:47 - 8:50
    Um erro que não devem cometer
    é tornarem-se matemáticos.
  • 8:50 - 8:52
    (Risos)
  • 8:52 - 8:54
    Se o fizerem, podem pensar:
  • 8:54 - 8:57
    "Ótimo. Vou fazer o meu melhor trabalho
    quando tiver 20 anos."
  • 8:57 - 8:59
    Mas, adivinhem, ninguém vai querer saber.
  • 8:59 - 9:02
    (Risos)
  • 9:02 - 9:04
    Há notas mais sóbrias
  • 9:04 - 9:06
    por entre os n-gramas.
  • 9:06 - 9:08
    Por exemplo, esta é
    a trajetória de Marc Chagall,
  • 9:08 - 9:10
    um artista nascido em 1887.
  • 9:10 - 9:13
    Parece-se com a trajetória normal
    de uma pessoa famosa.
  • 9:13 - 9:17
    Ele torna-se cada vez mais famoso,
  • 9:17 - 9:19
    exceto se virem em alemão.
  • 9:19 - 9:21
    Se virem em alemão,
    veem algo completamente bizarro,
  • 9:21 - 9:23
    algo que quase nunca se observa,
  • 9:23 - 9:25
    que é ele tornar-se extremamente famoso
  • 9:25 - 9:27
    e então de repente cai vertiginosamente,
  • 9:27 - 9:30
    atravessando o ponto mais baixo
    entre 1933 e 1945,
  • 9:30 - 9:33
    antes de recuperar nos anos seguintes.
  • 9:33 - 9:35
    E claro o que observamos
  • 9:35 - 9:38
    é o facto de Marc Chagall
    ser um artista judeu
  • 9:38 - 9:40
    na Alemanha nazi.
  • 9:40 - 9:42
    Estes sinais
  • 9:42 - 9:44
    na realidade são tão fortes
  • 9:44 - 9:47
    que não precisamos de saber
    que alguém foi censurado.
  • 9:47 - 9:49
    Podemos chegar a essa conclusão
  • 9:49 - 9:51
    através do processamento
    bastante básico de sinais.
  • 9:51 - 9:53
    Aqui está uma forma simples de o fazer.
  • 9:53 - 9:55
    Uma expectativa razoável
  • 9:55 - 9:57
    é a de que a fama de alguém
    num dado período de tempo
  • 9:57 - 9:59
    deverá ser sensivelmete
    a média da sua fama antes
  • 9:59 - 10:01
    e da sua fama depois desse período.
  • 10:01 - 10:03
    Isso é mais ou menos aquilo que se espera.
  • 10:03 - 10:06
    Comparamos isso com a fama
    que observamos.
  • 10:06 - 10:08
    Depois é só dividir uma pela outra
  • 10:08 - 10:10
    para obter algo a que chamamos
    "índice de supressão".
  • 10:10 - 10:13
    Se o índice de supressão
    for muito, muito, muito baixo,
  • 10:13 - 10:15
    então quase de certeza
    estão a ser reprimidos.
  • 10:15 - 10:18
    Se for muito alto, então talvez estejam
    a beneficiar com a propaganda.
  • 10:19 - 10:21
    JM: Pode mesmo ver-se
  • 10:21 - 10:24
    a distribuição de índices de supressão
    em populações inteiras.
  • 10:24 - 10:26
    Por exemplo, aqui...
  • 10:26 - 10:28
    este índice de supressão
    é de cinco mil pessoas
  • 10:28 - 10:30
    escolhidas em livros em inglês
    onde não há supressão explícita...
  • 10:30 - 10:32
    seria como este, centrado numa pessoa.
  • 10:32 - 10:34
    O que se espera é aquilo que se observa.
  • 10:34 - 10:36
    Esta é a distribuição conforme
    observada na Alemanha...
  • 10:36 - 10:38
    muito diferente,
    desvia-se para a esquerda.
  • 10:38 - 10:41
    As pessoas falaram sobre isto duas vezes menos
    do que se esperaria.
  • 10:41 - 10:43
    Mas muito mais importante,
    a distribuição é muito mais alargada.
  • 10:43 - 10:46
    Há muitas pessoas que acabaram
    na extrema esquerda nesta distribuição
  • 10:46 - 10:49
    de quem se falou menos dez vezes
    do que seria de esperar.
  • 10:49 - 10:51
    Mas também muitas pessoas
    na extrema direita
  • 10:51 - 10:53
    parecem beneficiar com a propaganda.
  • 10:53 - 10:56
    Esta imagem é a marca distintiva
    da censura no registo dos livros.
  • 10:56 - 10:58
    "Culturómica"
  • 10:58 - 11:00
    é o que chamamos a este método.
  • 11:00 - 11:02
    É como genómica.
  • 11:02 - 11:04
    Excepto que a genómica
    é uma lente sobre a biologia
  • 11:04 - 11:07
    através da janela da sequência
    de bases no genoma humano.
  • 11:07 - 11:09
    A culturómica é parecida.
  • 11:09 - 11:12
    É a aplicação da análise da recolha
    de dados em larga escala
  • 11:12 - 11:14
    ao estudo da cultura humana.
  • 11:14 - 11:16
    Aqui, em vez de ser
    através da lente de um genoma,
  • 11:16 - 11:19
    através da lente de peças digitalizadas
    do registo histórico.
  • 11:19 - 11:21
    O que é genial sobre a culturómica
  • 11:21 - 11:23
    é que todos a podem fazer.
  • 11:23 - 11:25
    Porque é que todos a podem fazer?
  • 11:25 - 11:27
    Todos a podem fazer
    porque três indivíduos,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray
    e Will Brockman na Google,
  • 11:30 - 11:32
    viram o protótipo do NGram Viewer,
  • 11:32 - 11:34
    e disseram: "Isto é tão divertido.
  • 11:34 - 11:37
    "Temos de tornar isto acessível às pessoas."
  • 11:37 - 11:39
    Então em apenas duas semanas
    — as duas semanas anteriores à publicação do nosso artigo —
  • 11:39 - 11:42
    fizeram o código para uma versão
    do NGram Viewer para o público em geral.
  • 11:42 - 11:45
    Agora podemos escrever qualquer palavra
    ou frase em que estejamos interessados
  • 11:45 - 11:47
    e vemos imediatamente o seu n-grama...
  • 11:47 - 11:49
    assim como vemos exemplos
    de todos os diferentes livros
  • 11:49 - 11:51
    onde surge o nosso n-grama.
  • 11:51 - 11:53
    Isto foi utilizado mais de um milhão
    de vezes no primeiro dia,
  • 11:53 - 11:55
    o que é a melhor de todas as pesquisas.
  • 11:55 - 11:58
    As pessoas querem ser o seu melhor,
    causar a melhor impressão que conseguirem.
  • 11:58 - 12:01
    Mas acontece que no século XVIII,
    as pessoas não se preocupavam com isso.
  • 12:01 - 12:04
    Elas não queriam ser o seu melhor,
    queriam ser o seu milhor.
  • 12:04 - 12:07
    O que aconteceu foi, claro está,
    apenas um erro.
  • 12:07 - 12:09
    Não que é que se esforçassem
    pela mediocridade,
  • 12:09 - 12:12
    é só porque o E era escrito
    de forma diferente, como um I.
  • 12:12 - 12:15
    Claro que a Google
    não se apercebeu disto na altura,
  • 12:15 - 12:18
    e então nós referimos isto no artigo científico
    que escrevemos.
  • 12:18 - 12:20
    Mas acontece que isto é apenas um lembrete
  • 12:20 - 12:22
    de que, embora seja tudo muito divertido,
  • 12:22 - 12:24
    quando se interpretam estes gráficos,
    temos de ser cuidadosos
  • 12:24 - 12:27
    e há que adotar
    os procedimentos científicos de base.
  • 12:27 - 12:30
    ELA: As pessoas têm utilizado isto
    para toda a espécie de diversão.
  • 12:30 - 12:37
    (Risos)
  • 12:37 - 12:39
    Na verdade, nem precisamos de vos dizer,
  • 12:39 - 12:42
    vamos apenas mostrar-vos
    todos os slides e ficar calados.
  • 12:42 - 12:45
    Esta pessoa estava interessada
    na história da frustração.
  • 12:45 - 12:48
    Há vários tipos de frustração.
  • 12:48 - 12:51
    Se baterem com um dedo do pé,
    isso é um «argh» com um A.
  • 12:51 - 12:53
    Se o planeta Terra for aniquilado
    pelos Vogons
  • 12:53 - 12:55
    para criar um desvio interestelar,
  • 12:55 - 12:57
    isso é um «aaaaaaaargh» com oito As.
  • 12:57 - 12:59
    Esta pessoa estuda todos os «arghs»,
  • 12:59 - 13:01
    entre um a oito As.
  • 13:01 - 13:03
    e acontece
  • 13:03 - 13:05
    que os «arghs» menos frequentes
  • 13:05 - 13:08
    são, claro, aqueles que correspondem
    a coisas mais frustrantes...
  • 13:08 - 13:11
    excepto, por incrível que pareça,
    nos princípios dos anos 80.
  • 13:11 - 13:13
    Pensamos que talvez tenha
    algo a ver com Reagan.
  • 13:13 - 13:15
    (Risos)
  • 13:15 - 13:18
    JM: Há muitas utilizações
    para estes dados,
  • 13:18 - 13:21
    mas o mais importante é que
    o registo histórico está a ser digitalizado.
  • 13:21 - 13:23
    A Google começou a digitalizar
    15 milhões de livros.
  • 13:23 - 13:25
    São 12% de todos os livros já publicados.
  • 13:25 - 13:28
    É um pedaço considerável da cultura humana.
  • 13:28 - 13:31
    Há muito mais na cultura:
    há manuscritos, há jornais,
  • 13:31 - 13:33
    há coisas que não são textos,
    como arte e quadros.
  • 13:33 - 13:35
    Tudo isto está nos nossos computadores,
  • 13:35 - 13:37
    nos computadores de todo o mundo.
  • 13:37 - 13:40
    Quando isso acontece,
    irá transformar a forma como
  • 13:40 - 13:42
    percebemos o nosso passado,
    o nosso presente e a nossa cultura humana.
  • 13:42 - 13:44
    Muito obrigado.
  • 13:44 - 13:47
    (Aplausos)
Title:
O que aprendemos com cinco milhões de livros
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Já brincaram com o Ngram Viewer da Google Labs? É uma ferramenta viciante que permite procurar palavras e ideias numa base de dados de cinco milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram-nos como funciona e algumas das coisas surpreendentes que podemos aprender com 500 mil milhões de palavras.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48

Portuguese subtitles

Revisions Compare revisions