1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden: Todos sabemos 2 00:00:02,000 --> 00:00:05,000 que uma imagem vale mais que mil palavras 3 00:00:07,000 --> 00:00:09,000 Mas nós em Harvard 4 00:00:09,000 --> 00:00:12,000 questionámos se isso seria mesmo verdade. 5 00:00:12,000 --> 00:00:14,000 (Risos) 6 00:00:14,000 --> 00:00:18,000 Então, juntámos uma equipa de peritos, 7 00:00:18,000 --> 00:00:20,000 que abrangiam Harvard, o MIT, 8 00:00:20,000 --> 00:00:23,000 o The American Heritage Dictionary, a The Encyclopedia Britannica 9 00:00:23,000 --> 00:00:25,000 e até os nossos orgulhosos patrocinadores, 10 00:00:25,000 --> 00:00:28,000 a Google. 11 00:00:28,000 --> 00:00:30,000 Debruçámo-nos sobre esta questão 12 00:00:30,000 --> 00:00:32,000 durante cerca de quatro anos. 13 00:00:32,000 --> 00:00:37,000 E chegámos a uma conclusão surpreendente. 14 00:00:37,000 --> 00:00:40,000 Meus senhores, uma imagem não vale mais que mil palavras. 15 00:00:40,000 --> 00:00:42,000 Na verdade, encontrámos algumas imagens 16 00:00:42,000 --> 00:00:47,000 que valem 500 mil milhões de palavras. 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel: Como chegámos a esta conclusão? 18 00:00:49,000 --> 00:00:51,000 O Erez e eu pensámos em como obter 19 00:00:51,000 --> 00:00:53,000 um panorama geral da cultura humana e da história humana: 20 00:00:53,000 --> 00:00:56,000 uma mudança através dos tempos. 21 00:00:56,000 --> 00:00:58,000 Ao longo dos anos, escreveram-se muitos livros. 22 00:00:58,000 --> 00:01:00,000 Pensámos que a melhor maneira de aprender com eles 23 00:01:00,000 --> 00:01:02,000 seia ler todos esses milhões de livros. 24 00:01:02,000 --> 00:01:05,000 Claro que, se houvesse uma escala de como isso seria fantástico, 25 00:01:05,000 --> 00:01:08,000 isso iria ficar num patamar muitíssimo elevado. 26 00:01:08,000 --> 00:01:10,000 O problema é que há um eixo de XX para isso, 27 00:01:10,000 --> 00:01:12,000 que é o eixo prático. 28 00:01:12,000 --> 00:01:14,000 Este está num patamar muito, muito baixo. 29 00:01:14,000 --> 00:01:17,000 (Aplausos) 30 00:01:17,000 --> 00:01:20,000 As pessoas têm tendência a usar uma abordagem alternativa, 31 00:01:20,000 --> 00:01:22,000 que é pegar em algumas fontes e lê-las cuidadosamente. 32 00:01:22,000 --> 00:01:24,000 Isto é extremamente prático, mas não muito fantástico. 33 00:01:24,000 --> 00:01:27,000 O que realmente se pretende 34 00:01:27,000 --> 00:01:30,000 é chegar à parte fantástica mas prática deste espaço. 35 00:01:30,000 --> 00:01:33,000 Acontece que havia uma empresa do outro lado do rio chamada Google 36 00:01:33,000 --> 00:01:35,000 que tinha iniciado um projecto de digitalização há alguns anos 37 00:01:35,000 --> 00:01:37,000 que talvez permitisse esta abordagem. 38 00:01:37,000 --> 00:01:39,000 Eles tinham digitalizado milhões de livros. 39 00:01:39,000 --> 00:01:42,000 Isso significava que se podiam usar métodos informáticos 40 00:01:42,000 --> 00:01:44,000 para ler todos os livros com o clique de um botão. 41 00:01:44,000 --> 00:01:47,000 Isto é muito prático e extremamente fantástico. 42 00:01:48,000 --> 00:01:50,000 ELA: Deixem-me falar-vos um pouco sobre de onde vêm os livros. 43 00:01:50,000 --> 00:01:53,000 Desde tempos imemoriais que existem autores. 44 00:01:53,000 --> 00:01:56,000 Estes autores têm-se esforçado em escrever livros. 45 00:01:56,000 --> 00:01:58,000 E isto tornou-se consideravelmente mais fácil 46 00:01:58,000 --> 00:02:00,000 com o desenvolvimento da imprensa há alguns séculos. 47 00:02:00,000 --> 00:02:03,000 Desde então, os autores conseguiram 48 00:02:03,000 --> 00:02:05,000 em 129 milhões de ocasiões distintas, 49 00:02:05,000 --> 00:02:07,000 publicar livros. 50 00:02:07,000 --> 00:02:09,000 Agora se esses livros não se perderam para a história 51 00:02:09,000 --> 00:02:11,000 então estão algures numa biblioteca, 52 00:02:11,000 --> 00:02:14,000 e muitos desses livros têm sido recuperados das bibliotecas 53 00:02:14,000 --> 00:02:16,000 e digitalizados pela Google, 54 00:02:16,000 --> 00:02:18,000 que já digitalizou 15 milhões de livros até agora. 55 00:02:18,000 --> 00:02:21,000 Quando a Google digitaliza um livro, põe-no num formato catita. 56 00:02:21,000 --> 00:02:23,000 Agora nós temos os dados e temos ainda metadados. 57 00:02:23,000 --> 00:02:26,000 Temos informação sobre coisas como onde foi publicado, 58 00:02:26,000 --> 00:02:28,000 quem foi o autor, quando foi publicado. 59 00:02:28,000 --> 00:02:31,000 E o que fazemos é verificar todos esses registos 60 00:02:31,000 --> 00:02:35,000 e excluir tudo aquilo que não são dados da mais alta qualidade. 61 00:02:35,000 --> 00:02:37,000 Aquilo que nos resta 62 00:02:37,000 --> 00:02:40,000 é uma colecção de cinco milhões de livros, 63 00:02:40,000 --> 00:02:43,000 500 mil milhões de palavras, 64 00:02:43,000 --> 00:02:45,000 uma cadeia de caracteres mil vezes mais longa 65 00:02:45,000 --> 00:02:48,000 que o genoma humano... 66 00:02:48,000 --> 00:02:50,000 um texto que, se fosse escrito por extenso, 67 00:02:50,000 --> 00:02:52,000 iria daqui até à Lua e voltava 68 00:02:52,000 --> 00:02:54,000 mais de dez vezes... 69 00:02:54,000 --> 00:02:58,000 um autêntico fragmento do nosso genoma cultural. 70 00:02:58,000 --> 00:03:00,000 Claro que aquilo que fizemos 71 00:03:00,000 --> 00:03:03,000 perante tamanha hipérbole... 72 00:03:03,000 --> 00:03:05,000 (Risos) 73 00:03:05,000 --> 00:03:08,000 foi aquilo que qualquer pesquisador que se preze 74 00:03:08,000 --> 00:03:11,000 teria feito. 75 00:03:11,000 --> 00:03:13,000 Inspirámo-nos no XKDC, 76 00:03:13,000 --> 00:03:15,000 e dissemos: «Afastem-se. 77 00:03:15,000 --> 00:03:17,000 Vamos tentar fazer ciência.» 78 00:03:17,000 --> 00:03:19,000 (Risos) 79 00:03:19,000 --> 00:03:21,000 JM: Claro que pensávamos assim, 80 00:03:21,000 --> 00:03:23,000 primeiro vamos por os dados lá fora 81 00:03:23,000 --> 00:03:25,000 para que as pessoas façam ciência com eles. 82 00:03:25,000 --> 00:03:27,000 E agora pensávamos, que dados podemos publicar? 83 00:03:27,000 --> 00:03:29,000 Claro que se queria pegar nos livros 84 00:03:29,000 --> 00:03:31,000 e publicar o texto completo destes cinco milhões de livros. 85 00:03:31,000 --> 00:03:33,000 Mas a Google, e o Jon Orwant em particular, 86 00:03:33,000 --> 00:03:35,000 mostrou-nos uma pequena equação a aprender. 87 00:03:35,000 --> 00:03:38,000 Então temos cinco milhões, ou seja, cinco milhões de autores 88 00:03:38,000 --> 00:03:41,000 e cinco milhões de queixosos são um processo legal monstruoso. 89 00:03:41,000 --> 00:03:43,000 Então, embora isso fosse realmente fantástico 90 00:03:43,000 --> 00:03:46,000 mais uma vez, é extremamente pouco prático. 91 00:03:46,000 --> 00:03:48,000 (Risos) 92 00:03:48,000 --> 00:03:50,000 Mais uma vez, tivemos de ceder mais ou menos, 93 00:03:50,000 --> 00:03:53,000 e seguimos a abordagem muito prática, que é menos fantástica. 94 00:03:53,000 --> 00:03:55,000 Dissemos: "Em vez de publicarmos o texto completo, 95 00:03:55,000 --> 00:03:57,000 vamos publicar estatísticas sobre os livros. 96 00:03:57,000 --> 00:03:59,000 Tome-se como exemplo "Um brilho de felicidade". 97 00:03:59,000 --> 00:04:01,000 São quatro palavras, o que chamamos de quatro-grama. 98 00:04:01,000 --> 00:04:03,000 Nós vamos dizer-vos quantas vezes um quatro-grama em particular 99 00:04:03,000 --> 00:04:05,000 apareceu em livros em 1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 até 2008. 101 00:04:07,000 --> 00:04:09,000 Isso dá-nos uma série temporal 102 00:04:09,000 --> 00:04:11,000 de quantas vezes esta frase em particular foi utilizada ao longo dos tempos. 103 00:04:11,000 --> 00:04:14,000 Fazemos isso para todas as palavras e frases que surgem nestes livros, 104 00:04:14,000 --> 00:04:17,000 e isso dá-nos uma enorme tabela de dois mil milhões de linhas 105 00:04:17,000 --> 00:04:19,000 que nos dizem como a cultura tem vindo a mudar. 106 00:04:19,000 --> 00:04:21,000 ELA: A estes dois mil milhões de linhas, 107 00:04:21,000 --> 00:04:23,000 chamamos dois mil milhões de n-gramas. 108 00:04:23,000 --> 00:04:25,000 O que é que eles nos dizem? 109 00:04:25,000 --> 00:04:27,000 Bem, os n-gramas individuais medem tendências culturais. 110 00:04:27,000 --> 00:04:29,000 Deixem-me dar-vos um exemplo. 111 00:04:29,000 --> 00:04:31,000 Vamos supôr que estou a prosperar, 112 00:04:31,000 --> 00:04:33,000 e que amanhã quero contar como me saí bem. 113 00:04:33,000 --> 00:04:36,000 Então posso dizer: "Ontem, eu vicejei." 114 00:04:36,000 --> 00:04:39,000 Em alternativa, podia dizer: "Ontem, eu prosperei". 115 00:04:39,000 --> 00:04:42,000 Então qual é que devo utilizar? 116 00:04:42,000 --> 00:04:44,000 Como é que se sabe? 117 00:04:44,000 --> 00:04:46,000 Há cerca de seis meses atrás, 118 00:04:46,000 --> 00:04:48,000 o topo de gama neste campo 119 00:04:48,000 --> 00:04:50,000 seria dirigir-se, por exemplo, 120 00:04:50,000 --> 00:04:52,000 a este psicólogo com um cabelo extraordinário 121 00:04:52,000 --> 00:04:54,000 e dizer: 122 00:04:54,000 --> 00:04:57,000 "Steve, és perito nos verbos irregulares. 123 00:04:57,000 --> 00:04:59,000 "O que é que devo fazer?" 124 00:04:59,000 --> 00:05:01,000 E ele responderia: "Bem, muitos dizem prosperei, 125 00:05:01,000 --> 00:05:04,000 "mas alguns dizem vicejei." 126 00:05:04,000 --> 00:05:06,000 E ficariam a saber, mais ou menos, 127 00:05:06,000 --> 00:05:09,000 que se recuassem 200 anos 128 00:05:09,000 --> 00:05:12,000 e perguntassem a este estadista com um cabelo igualmente extraordinário: 129 00:05:12,000 --> 00:05:15,000 (Risos) 130 00:05:15,000 --> 00:05:17,000 "Tom, o que é que eu devo dizer?" 131 00:05:17,000 --> 00:05:19,000 Ele diria: "No meu tempo, a maior parte das pessoas vicejava, 132 00:05:19,000 --> 00:05:22,000 "mas alguns prosperavam." 133 00:05:22,000 --> 00:05:24,000 O que agora vos vou mostrar são dados brutos. 134 00:05:24,000 --> 00:05:28,000 Duas linhas desta tabela com dois mil milhões de entradas. 135 00:05:28,000 --> 00:05:30,000 O que estão a ver é a frequência por ano 136 00:05:30,000 --> 00:05:33,000 de "prosperei" e "vicejei" ao longo do tempo. 137 00:05:34,000 --> 00:05:36,000 Estas são apenas duas 138 00:05:36,000 --> 00:05:39,000 de dois mil milhões de linhas. 139 00:05:39,000 --> 00:05:41,000 O conjunto total dos dados 140 00:05:41,000 --> 00:05:44,000 é mil milhões de vezes mais fantástico do que este slide. 141 00:05:44,000 --> 00:05:46,000 (Risos) 142 00:05:46,000 --> 00:05:50,000 (Aplausos) 143 00:05:50,000 --> 00:05:52,000 JM: Há realmente muitas imagens que valem mais que 500 mil milhões de palavras. 144 00:05:52,000 --> 00:05:54,000 Por exemplo, esta. 145 00:05:54,000 --> 00:05:56,000 Se pegarmos em "gripe", 146 00:05:56,000 --> 00:05:58,000 verão picos no tempo em que sabiam 147 00:05:58,000 --> 00:06:01,000 que grandes epidemias de gripe estavam a matar pessoas por todo o globo. 148 00:06:01,000 --> 00:06:04,000 ELA: Se ainda não estão convencidos, 149 00:06:04,000 --> 00:06:06,000 os níveis do mar estão a subir, 150 00:06:06,000 --> 00:06:09,000 assim como o CO2 na atmosfera e a temperatura da Terra. 151 00:06:09,000 --> 00:06:12,000 JM: Talvez queiram prestar atenção a este n-grama em particular, 152 00:06:12,000 --> 00:06:15,000 para dizer a Nietzsche que Deus não está morto, 153 00:06:15,000 --> 00:06:18,000 embora possam concordar que precisa de um relações públicas melhor. 154 00:06:18,000 --> 00:06:20,000 (Risos) 155 00:06:20,000 --> 00:06:23,000 ELA: Podem obter conceitos bastante abstractos com este tipo de análise. 156 00:06:23,000 --> 00:06:25,000 Por exemplo, vou contar-vos a história 157 00:06:25,000 --> 00:06:27,000 do ano de 1950. 158 00:06:27,000 --> 00:06:29,000 Durante grande parte da história, 159 00:06:29,000 --> 00:06:31,000 ninguém ligou nenhuma a 1950. 160 00:06:31,000 --> 00:06:33,000 Em 1700, em 1800, em 1900, 161 00:06:33,000 --> 00:06:36,000 ninguém se preocupou. 162 00:06:37,000 --> 00:06:39,000 Durante as décadas de 30 e 40, 163 00:06:39,000 --> 00:06:41,000 ninguém se preocupou. 164 00:06:41,000 --> 00:06:43,000 De repente, a meio da década de 40, 165 00:06:43,000 --> 00:06:45,000 começou a haver um burburinho. 166 00:06:45,000 --> 00:06:47,000 As pessoas perceberam que 1950 ia acontecer, 167 00:06:47,000 --> 00:06:49,000 e podia ser uma coisa em grande. 168 00:06:49,000 --> 00:06:52,000 (Risos) 169 00:06:52,000 --> 00:06:55,000 Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 170 00:06:55,000 --> 00:06:58,000 como o ano de 1950. 171 00:06:58,000 --> 00:07:01,000 (Risos) 172 00:07:01,000 --> 00:07:03,000 As pessoas andavam obececadas. 173 00:07:03,000 --> 00:07:05,000 Não conseguiam parar de falar 174 00:07:05,000 --> 00:07:08,000 sobre tudo o que tinham feito em 1950, 175 00:07:08,000 --> 00:07:11,000 tudo o que planeavam fazer em 1950, 176 00:07:11,000 --> 00:07:16,000 todos os sonhos que queriam alcançar em 1950. 177 00:07:16,000 --> 00:07:18,000 Na verdade, 1950 era tão fascinante 178 00:07:18,000 --> 00:07:20,000 que, durante anos depois, 179 00:07:20,000 --> 00:07:23,000 as pessoas continuaram a falar das coisas maravilhosas que tinham acontecido, 180 00:07:23,000 --> 00:07:25,000 em 51, 52, 53. 181 00:07:25,000 --> 00:07:27,000 Finalmente em 1954, 182 00:07:27,000 --> 00:07:29,000 houve alguém que acordou e percebeu 183 00:07:29,000 --> 00:07:33,000 que 1950 se tinha tornado numa coisa fora de moda. 184 00:07:33,000 --> 00:07:35,000 (Risos) 185 00:07:35,000 --> 00:07:37,000 Assim, de repente, rebentou a bolha. 186 00:07:37,000 --> 00:07:39,000 (Risos) 187 00:07:39,000 --> 00:07:41,000 A história de 1950 188 00:07:41,000 --> 00:07:43,000 é a história de cada ano que temos registado, 189 00:07:43,000 --> 00:07:46,000 com uma ligeira diferença, porque agora temos estes gráficos catitas. 190 00:07:46,000 --> 00:07:49,000 Como temos estes gráficos catitas, podemos comparar coisas. 191 00:07:49,000 --> 00:07:51,000 Podemos dizer: "Quão depressa rebenta a bolha?" 192 00:07:51,000 --> 00:07:54,000 Acontece que conseguimos medir isso com muita precisão. 193 00:07:54,000 --> 00:07:57,000 Foram obtidas equações, foram produzidos gráficos, 194 00:07:57,000 --> 00:07:59,000 e o resultado final 195 00:07:59,000 --> 00:08:02,000 é que descobrimos 196 00:08:02,000 --> 00:08:04,000 a cada ano que passa. 197 00:08:04,000 --> 00:08:09,000 Estamos a perder interesse no passado cada vez mais rapidamente. 198 00:08:09,000 --> 00:08:11,000 JM: Agora, um pouco de orientação profissional. 199 00:08:11,000 --> 00:08:13,000 Para os que querem ser famosos, 200 00:08:13,000 --> 00:08:15,000 podemos aprender com os 25 políticos mais famosos, 201 00:08:15,000 --> 00:08:17,000 autores, atores, etc.. 202 00:08:17,000 --> 00:08:20,000 Se quiserem ser famosos cedo, devem tornar-se atores, 203 00:08:20,000 --> 00:08:22,000 porque a fama começa a aumentar no final dos vinte anos... 204 00:08:22,000 --> 00:08:24,000 ainda são jovens, isso é óptimo. 205 00:08:24,000 --> 00:08:26,000 Se puderem esperar um bocadinho, devem ser autores, 206 00:08:26,000 --> 00:08:28,000 porque então podem chegar longe, 207 00:08:28,000 --> 00:08:30,000 como Mark Twain, por exemplo: extremamente famoso. 208 00:08:30,000 --> 00:08:32,000 Mas se quiserem alcançar mesmo o topo, 209 00:08:32,000 --> 00:08:34,000 não devem esperar resultados imediatos 210 00:08:34,000 --> 00:08:36,000 e devem tornarem-se políticos, claro. 211 00:08:36,000 --> 00:08:38,000 Aqui começarão a ser famosos no final dos 50, 212 00:08:38,000 --> 00:08:40,000 e tornar-se-ão muito, muito famosos depois disso. 213 00:08:40,000 --> 00:08:43,000 Os cientistas também têm tendência a tornar-se famosos quando são mais muito mais velhos. 214 00:08:43,000 --> 00:08:45,000 Por exemplo, biológos e físicos 215 00:08:45,000 --> 00:08:47,000 podem ser tão famosos como atores. 216 00:08:47,000 --> 00:08:50,000 Um erro que não devem cometer é tornarem-se matemáticos. 217 00:08:50,000 --> 00:08:52,000 (Risos) 218 00:08:52,000 --> 00:08:54,000 Se o fizerem, podem pensar: 219 00:08:54,000 --> 00:08:57,000 "Ótimo. Vou fazer o meu melhor trabalho quando tiver 20 anos." 220 00:08:57,000 --> 00:08:59,000 Mas, adivinhem, ninguém vai querer saber. 221 00:08:59,000 --> 00:09:02,000 (Risos) 222 00:09:02,000 --> 00:09:04,000 Há notas mais sóbrias 223 00:09:04,000 --> 00:09:06,000 por entre os n-gramas. 224 00:09:06,000 --> 00:09:08,000 Por exemplo, esta é a trajetória de Marc Chagall, 225 00:09:08,000 --> 00:09:10,000 um artista nascido em 1887. 226 00:09:10,000 --> 00:09:13,000 Parece-se com a trajetória normal de uma pessoa famosa. 227 00:09:13,000 --> 00:09:17,000 Ele torna-se cada vez mais famoso, 228 00:09:17,000 --> 00:09:19,000 exceto se virem em alemão. 229 00:09:19,000 --> 00:09:21,000 Se virem em alemão, veem algo completamente bizarro, 230 00:09:21,000 --> 00:09:23,000 algo que quase nunca se observa, 231 00:09:23,000 --> 00:09:25,000 que é ele tornar-se extremamente famoso 232 00:09:25,000 --> 00:09:27,000 e então de repente cai vertiginosamente, 233 00:09:27,000 --> 00:09:30,000 atravessando o ponto mais baixo entre 1933 e 1945, 234 00:09:30,000 --> 00:09:33,000 antes de recuperar nos anos seguintes. 235 00:09:33,000 --> 00:09:35,000 E claro o que observamos 236 00:09:35,000 --> 00:09:38,000 é o facto de Marc Chagall ser um artista judeu 237 00:09:38,000 --> 00:09:40,000 na Alemanha nazi. 238 00:09:40,000 --> 00:09:42,000 Estes sinais 239 00:09:42,000 --> 00:09:44,000 na realidade são tão fortes 240 00:09:44,000 --> 00:09:47,000 que não precisamos de saber que alguém foi censurado. 241 00:09:47,000 --> 00:09:49,000 Podemos chegar a essa conclusão 242 00:09:49,000 --> 00:09:51,000 através do processamento bastante básico de sinais. 243 00:09:51,000 --> 00:09:53,000 Aqui está uma forma simples de o fazer. 244 00:09:53,000 --> 00:09:55,000 Uma expectativa razoável 245 00:09:55,000 --> 00:09:57,000 é a de que a fama de alguém num dado período de tempo 246 00:09:57,000 --> 00:09:59,000 deverá ser sensivelmete a média da sua fama antes 247 00:09:59,000 --> 00:10:01,000 e da sua fama depois desse período. 248 00:10:01,000 --> 00:10:03,000 Isso é mais ou menos aquilo que se espera. 249 00:10:03,000 --> 00:10:06,000 Comparamos isso com a fama que observamos. 250 00:10:06,000 --> 00:10:08,000 Depois é só dividir uma pela outra 251 00:10:08,000 --> 00:10:10,000 para obter algo a que chamamos "índice de supressão". 252 00:10:10,000 --> 00:10:13,000 Se o índice de supressão for muito, muito, muito baixo, 253 00:10:13,000 --> 00:10:15,000 então quase de certeza estão a ser reprimidos. 254 00:10:15,000 --> 00:10:18,000 Se for muito alto, então talvez estejam a beneficiar com a propaganda. 255 00:10:19,000 --> 00:10:21,000 JM: Pode mesmo ver-se 256 00:10:21,000 --> 00:10:24,000 a distribuição de índices de supressão em populações inteiras. 257 00:10:24,000 --> 00:10:26,000 Por exemplo, aqui... 258 00:10:26,000 --> 00:10:28,000 este índice de supressão é de cinco mil pessoas 259 00:10:28,000 --> 00:10:30,000 escolhidas em livros em inglês onde não há supressão explícita... 260 00:10:30,000 --> 00:10:32,000 seria como este, centrado numa pessoa. 261 00:10:32,000 --> 00:10:34,000 O que se espera é aquilo que se observa. 262 00:10:34,000 --> 00:10:36,000 Esta é a distribuição conforme observada na Alemanha... 263 00:10:36,000 --> 00:10:38,000 muito diferente, desvia-se para a esquerda. 264 00:10:38,000 --> 00:10:41,000 As pessoas falaram sobre isto duas vezes menos do que se esperaria. 265 00:10:41,000 --> 00:10:43,000 Mas muito mais importante, a distribuição é muito mais alargada. 266 00:10:43,000 --> 00:10:46,000 Há muitas pessoas que acabaram na extrema esquerda nesta distribuição 267 00:10:46,000 --> 00:10:49,000 de quem se falou menos dez vezes do que seria de esperar. 268 00:10:49,000 --> 00:10:51,000 Mas também muitas pessoas na extrema direita 269 00:10:51,000 --> 00:10:53,000 parecem beneficiar com a propaganda. 270 00:10:53,000 --> 00:10:56,000 Esta imagem é a marca distintiva da censura no registo dos livros. 271 00:10:56,000 --> 00:10:58,000 "Culturómica" 272 00:10:58,000 --> 00:11:00,000 é o que chamamos a este método. 273 00:11:00,000 --> 00:11:02,000 É como genómica. 274 00:11:02,000 --> 00:11:04,000 Excepto que a genómica é uma lente sobre a biologia 275 00:11:04,000 --> 00:11:07,000 através da janela da sequência de bases no genoma humano. 276 00:11:07,000 --> 00:11:09,000 A culturómica é parecida. 277 00:11:09,000 --> 00:11:12,000 É a aplicação da análise da recolha de dados em larga escala 278 00:11:12,000 --> 00:11:14,000 ao estudo da cultura humana. 279 00:11:14,000 --> 00:11:16,000 Aqui, em vez de ser através da lente de um genoma, 280 00:11:16,000 --> 00:11:19,000 através da lente de peças digitalizadas do registo histórico. 281 00:11:19,000 --> 00:11:21,000 O que é genial sobre a culturómica 282 00:11:21,000 --> 00:11:23,000 é que todos a podem fazer. 283 00:11:23,000 --> 00:11:25,000 Porque é que todos a podem fazer? 284 00:11:25,000 --> 00:11:27,000 Todos a podem fazer porque três indivíduos, 285 00:11:27,000 --> 00:11:30,000 Jon Orwant, Matt Gray e Will Brockman na Google, 286 00:11:30,000 --> 00:11:32,000 viram o protótipo do NGram Viewer, 287 00:11:32,000 --> 00:11:34,000 e disseram: "Isto é tão divertido. 288 00:11:34,000 --> 00:11:37,000 "Temos de tornar isto acessível às pessoas." 289 00:11:37,000 --> 00:11:39,000 Então em apenas duas semanas — as duas semanas anteriores à publicação do nosso artigo — 290 00:11:39,000 --> 00:11:42,000 fizeram o código para uma versão do NGram Viewer para o público em geral. 291 00:11:42,000 --> 00:11:45,000 Agora podemos escrever qualquer palavra ou frase em que estejamos interessados 292 00:11:45,000 --> 00:11:47,000 e vemos imediatamente o seu n-grama... 293 00:11:47,000 --> 00:11:49,000 assim como vemos exemplos de todos os diferentes livros 294 00:11:49,000 --> 00:11:51,000 onde surge o nosso n-grama. 295 00:11:51,000 --> 00:11:53,000 Isto foi utilizado mais de um milhão de vezes no primeiro dia, 296 00:11:53,000 --> 00:11:55,000 o que é a melhor de todas as pesquisas. 297 00:11:55,000 --> 00:11:58,000 As pessoas querem ser o seu melhor, causar a melhor impressão que conseguirem. 298 00:11:58,000 --> 00:12:01,000 Mas acontece que no século XVIII, as pessoas não se preocupavam com isso. 299 00:12:01,000 --> 00:12:04,000 Elas não queriam ser o seu melhor, queriam ser o seu milhor. 300 00:12:04,000 --> 00:12:07,000 O que aconteceu foi, claro está, apenas um erro. 301 00:12:07,000 --> 00:12:09,000 Não que é que se esforçassem pela mediocridade, 302 00:12:09,000 --> 00:12:12,000 é só porque o E era escrito de forma diferente, como um I. 303 00:12:12,000 --> 00:12:15,000 Claro que a Google não se apercebeu disto na altura, 304 00:12:15,000 --> 00:12:18,000 e então nós referimos isto no artigo científico que escrevemos. 305 00:12:18,000 --> 00:12:20,000 Mas acontece que isto é apenas um lembrete 306 00:12:20,000 --> 00:12:22,000 de que, embora seja tudo muito divertido, 307 00:12:22,000 --> 00:12:24,000 quando se interpretam estes gráficos, temos de ser cuidadosos 308 00:12:24,000 --> 00:12:27,000 e há que adotar os procedimentos científicos de base. 309 00:12:27,000 --> 00:12:30,000 ELA: As pessoas têm utilizado isto para toda a espécie de diversão. 310 00:12:30,000 --> 00:12:37,000 (Risos) 311 00:12:37,000 --> 00:12:39,000 Na verdade, nem precisamos de vos dizer, 312 00:12:39,000 --> 00:12:42,000 vamos apenas mostrar-vos todos os slides e ficar calados. 313 00:12:42,000 --> 00:12:45,000 Esta pessoa estava interessada na história da frustração. 314 00:12:45,000 --> 00:12:48,000 Há vários tipos de frustração. 315 00:12:48,000 --> 00:12:51,000 Se baterem com um dedo do pé, isso é um «argh» com um A. 316 00:12:51,000 --> 00:12:53,000 Se o planeta Terra for aniquilado pelos Vogons 317 00:12:53,000 --> 00:12:55,000 para criar um desvio interestelar, 318 00:12:55,000 --> 00:12:57,000 isso é um «aaaaaaaargh» com oito As. 319 00:12:57,000 --> 00:12:59,000 Esta pessoa estuda todos os «arghs», 320 00:12:59,000 --> 00:13:01,000 entre um a oito As. 321 00:13:01,000 --> 00:13:03,000 e acontece 322 00:13:03,000 --> 00:13:05,000 que os «arghs» menos frequentes 323 00:13:05,000 --> 00:13:08,000 são, claro, aqueles que correspondem a coisas mais frustrantes... 324 00:13:08,000 --> 00:13:11,000 excepto, por incrível que pareça, nos princípios dos anos 80. 325 00:13:11,000 --> 00:13:13,000 Pensamos que talvez tenha algo a ver com Reagan. 326 00:13:13,000 --> 00:13:15,000 (Risos) 327 00:13:15,000 --> 00:13:18,000 JM: Há muitas utilizações para estes dados, 328 00:13:18,000 --> 00:13:21,000 mas o mais importante é que o registo histórico está a ser digitalizado. 329 00:13:21,000 --> 00:13:23,000 A Google começou a digitalizar 15 milhões de livros. 330 00:13:23,000 --> 00:13:25,000 São 12% de todos os livros já publicados. 331 00:13:25,000 --> 00:13:28,000 É um pedaço considerável da cultura humana. 332 00:13:28,000 --> 00:13:31,000 Há muito mais na cultura: há manuscritos, há jornais, 333 00:13:31,000 --> 00:13:33,000 há coisas que não são textos, como arte e quadros. 334 00:13:33,000 --> 00:13:35,000 Tudo isto está nos nossos computadores, 335 00:13:35,000 --> 00:13:37,000 nos computadores de todo o mundo. 336 00:13:37,000 --> 00:13:40,000 Quando isso acontece, irá transformar a forma como 337 00:13:40,000 --> 00:13:42,000 percebemos o nosso passado, o nosso presente e a nossa cultura humana. 338 00:13:42,000 --> 00:13:44,000 Muito obrigado. 339 00:13:44,000 --> 00:13:47,000 (Aplausos)