1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden: Todos sabem 2 00:00:02,000 --> 00:00:05,000 que uma imagem vale mil palavras. 3 00:00:07,000 --> 00:00:09,000 Mas nós em Harvard 4 00:00:09,000 --> 00:00:12,000 estávamos questionando se é mesmo verdade. 5 00:00:12,000 --> 00:00:14,000 (Risos) 6 00:00:14,000 --> 00:00:18,000 Assim montamos uma equipe de peritos, 7 00:00:18,000 --> 00:00:20,000 desde Harvard, MIT, 8 00:00:20,000 --> 00:00:23,000 The American Heritage Dictionary, Enciclopédia Britânica 9 00:00:23,000 --> 00:00:25,000 e mesmo nossos orgulhosos patrocinadores, 10 00:00:25,000 --> 00:00:28,000 o Google. 11 00:00:28,000 --> 00:00:30,000 E pensamos sobre isto 12 00:00:30,000 --> 00:00:32,000 por cerca de 4 anos. 13 00:00:32,000 --> 00:00:37,000 Chegamos a uma surpreendente conclusão. 14 00:00:37,000 --> 00:00:40,000 Senhoras e senhores, uma imagem não vale mil palavras. 15 00:00:40,000 --> 00:00:42,000 De fato, encontramos algumas imagens 16 00:00:42,000 --> 00:00:47,000 que valem 500 bilhões de palavras. 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel: Como chegamos a esta conclusão? 18 00:00:49,000 --> 00:00:51,000 Erez e eu pensávamos em maneiras 19 00:00:51,000 --> 00:00:53,000 de obter uma grande imagem da cultura e 20 00:00:53,000 --> 00:00:56,000 história humana: a mudança através dos tempos. 21 00:00:56,000 --> 00:00:58,000 Muitos livros tem sido escritos ao longo dos anos. 22 00:00:58,000 --> 00:01:00,000 Pensávamos, a melhor maneira de aprender com eles 23 00:01:00,000 --> 00:01:02,000 é ler todos estes milhões de livros. 24 00:01:02,000 --> 00:01:05,000 Naturalmente, se há uma medida do incrível que isso é, 25 00:01:05,000 --> 00:01:08,000 teria que ser colocado lá em cima. 26 00:01:08,000 --> 00:01:10,000 O problema é que existe um eixo-X para isso, 27 00:01:10,000 --> 00:01:12,000 que é o eixo da praticidade. 28 00:01:12,000 --> 00:01:14,000 Que é muito, muito baixa. 29 00:01:14,000 --> 00:01:17,000 (Aplausos) 30 00:01:17,000 --> 00:01:20,000 As pessoas costumam usar um método alternativo, 31 00:01:20,000 --> 00:01:22,000 que seria pegar algumas fontes e lê-las cuidadosamente. 32 00:01:22,000 --> 00:01:24,000 É extremamente prático, mas nem um pouco incrível. 33 00:01:24,000 --> 00:01:27,000 O que realmente se quer fazer 34 00:01:27,000 --> 00:01:30,000 é alcançar o incrível junto com a parte prática deste espaço. 35 00:01:30,000 --> 00:01:33,000 Aconteceu que havia uma empresa próxima chamada Google 36 00:01:33,000 --> 00:01:35,000 que iniciou um projeto de digitalização alguns anos antes 37 00:01:35,000 --> 00:01:37,000 que poderia viabilizar este método. 38 00:01:37,000 --> 00:01:39,000 Eles haviam digitalizado milhões de livros. 39 00:01:39,000 --> 00:01:42,000 O que significa, que alguém poderia usar métodos computacionais 40 00:01:42,000 --> 00:01:44,000 para ler todos os livros com um clique de botão. 41 00:01:44,000 --> 00:01:47,000 Isso é muito prático e extremamente incrível. 42 00:01:48,000 --> 00:01:50,000 ELA: Permitam-me contar um pouco de onde os livros vêm. 43 00:01:50,000 --> 00:01:53,000 Desde tempos imemoriais, existem os autores. 44 00:01:53,000 --> 00:01:56,000 Estes autores tem se esforçado para escrever livros. 45 00:01:56,000 --> 00:01:58,000 O que se tornou consideravelmente mais fácil 46 00:01:58,000 --> 00:02:00,000 com o desenvolvimento da imprensa alguns séculos atrás. 47 00:02:00,000 --> 00:02:03,000 Desde então, os autores venceram 48 00:02:03,000 --> 00:02:05,000 em 129 milhões de ocasiões distintas, 49 00:02:05,000 --> 00:02:07,000 publicando livros. 50 00:02:07,000 --> 00:02:09,000 Agora se esses livros não se perderam na história, 51 00:02:09,000 --> 00:02:11,000 então eles estão em algum lugar em uma biblioteca, 52 00:02:11,000 --> 00:02:14,000 e muitos deles estão sendo recuperados das bibliotecas 53 00:02:14,000 --> 00:02:16,000 e digitalizados pelo Google, 54 00:02:16,000 --> 00:02:18,000 que escaneou 15 milhões de livros até agora. 55 00:02:18,000 --> 00:02:21,000 Quando o Google digitaliza, eles o colocam em um formato muito legal. 56 00:02:21,000 --> 00:02:23,000 Agora temos a informação, e temos os metadados. 57 00:02:23,000 --> 00:02:26,000 Temos informações sobre coisas como onde foi publicado, 58 00:02:26,000 --> 00:02:28,000 quem era o autor, quando foi publicado. 59 00:02:28,000 --> 00:02:31,000 E o que fazemos é percorrer todos estes registros 60 00:02:31,000 --> 00:02:35,000 e excluir tudo que não seja informação de alta qualidade. 61 00:02:35,000 --> 00:02:37,000 O que permanece 62 00:02:37,000 --> 00:02:40,000 é uma coleção de 5 milhões de livros, 63 00:02:40,000 --> 00:02:43,000 500 bilhões de palavras, 64 00:02:43,000 --> 00:02:45,000 uma sequência de caracteres mil vezes maior 65 00:02:45,000 --> 00:02:48,000 que o genoma humano -- 66 00:02:48,000 --> 00:02:50,000 um texto que, quando escrito, 67 00:02:50,000 --> 00:02:52,000 se estenderia daqui até a Lua e de volta 68 00:02:52,000 --> 00:02:54,000 mais de 10 vezes -- 69 00:02:54,000 --> 00:02:58,000 um verdadeiro fragmento de nosso genoma cultural. 70 00:02:58,000 --> 00:03:00,000 Claro que fizemos 71 00:03:00,000 --> 00:03:03,000 quando encaramos tal ultrajante hipérbole... 72 00:03:03,000 --> 00:03:05,000 (Risos) 73 00:03:05,000 --> 00:03:08,000 foi o que qualquer pesquisador com respeito próprio 74 00:03:08,000 --> 00:03:11,000 teria feito. 75 00:03:11,000 --> 00:03:13,000 Pegamos uma webcomic do XKCD, 76 00:03:13,000 --> 00:03:15,000 e dissemos, "Afastem-se. 77 00:03:15,000 --> 00:03:17,000 Vamos tentar a ciência." 78 00:03:17,000 --> 00:03:19,000 (Risos) 79 00:03:19,000 --> 00:03:21,000 JM: Naturalmente, nós pensamos, 80 00:03:21,000 --> 00:03:23,000 primeiro vamos mostrar os dados 81 00:03:23,000 --> 00:03:25,000 para que as pessoas façam ciência com eles. 82 00:03:25,000 --> 00:03:27,000 Depois pensamos, que informação podemos liberar? 83 00:03:27,000 --> 00:03:29,000 Naturalmente, você quer pegar os livros 84 00:03:29,000 --> 00:03:31,000 e liberar o texto completo destes 5 milhões de livros. 85 00:03:31,000 --> 00:03:33,000 Aí o Google, e Jon Orwant em especial, 86 00:03:33,000 --> 00:03:35,000 falaram sobre uma equação que devíamos aprender. 87 00:03:35,000 --> 00:03:38,000 Você tem 5 milhões, que são, 5 milhões de autores 88 00:03:38,000 --> 00:03:41,000 e 5 milhões de queixosos é um processo e tanto. 89 00:03:41,000 --> 00:03:43,000 Ainda que fosse muito, mas muito incrível, 90 00:03:43,000 --> 00:03:46,000 de novo, é extremamente, extremamente impraticável. 91 00:03:46,000 --> 00:03:48,000 (Risos) 92 00:03:48,000 --> 00:03:50,000 Então, nós meio que nos aprofundamos, 93 00:03:50,000 --> 00:03:53,000 e fizemos uma alternativa prática, que foi só um pouco menos incrível. 94 00:03:53,000 --> 00:03:55,000 Falamos, ao invés de liberar o texto completo, 95 00:03:55,000 --> 00:03:57,000 vamos liberar estatísticas sobre os livros. 96 00:03:57,000 --> 00:03:59,000 Peguem por exemplo "Um brilho de felicidade." 97 00:03:59,000 --> 00:04:01,000 São 4 palavras: nós chamamos de 4-grama. 98 00:04:01,000 --> 00:04:03,000 Vamos dizer a vocês quantas vezes um 4-grama em especial 99 00:04:03,000 --> 00:04:05,000 apareceu nos livros em 1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 até chegar em 2008. 101 00:04:07,000 --> 00:04:09,000 Isso nos dá uma linha de tempo 102 00:04:09,000 --> 00:04:11,000 da frequência com que esta frase foi utilizada através dos tempos. 103 00:04:11,000 --> 00:04:14,000 Fizemos isso para todas as palavras e frases que aparecem nos livros, 104 00:04:14,000 --> 00:04:17,000 o que nos dá uma grande tabela de 2 bilhões de linhas 105 00:04:17,000 --> 00:04:19,000 que nos conta como a cultura tem se modificado. 106 00:04:19,000 --> 00:04:21,000 ELA: Essas 2 bilhões de linhas, 107 00:04:21,000 --> 00:04:23,000 nós chamamos de 2 bilhões de n-gramas. 108 00:04:23,000 --> 00:04:25,000 O que eles nos dizem? 109 00:04:25,000 --> 00:04:27,000 Os n-gramas individuais medem as tendências culturais. 110 00:04:27,000 --> 00:04:29,000 Permitam-me dar um exemplo. 111 00:04:29,000 --> 00:04:31,000 Suponhamos que eu esteja prosperando. 112 00:04:31,000 --> 00:04:33,000 e amanhã eu queira contar como eu me dei bem. 113 00:04:33,000 --> 00:04:36,000 Em inglês eu diria, "Ontem, eu 'throve'." 114 00:04:36,000 --> 00:04:39,000 Ou eu poderia dizer, "Ontem, eu 'thrived'." 115 00:04:39,000 --> 00:04:42,000 Qual deles eu deveria usar? 116 00:04:42,000 --> 00:04:44,000 Como saber? 117 00:04:44,000 --> 00:04:46,000 Como cerca de 6 meses atras, 118 00:04:46,000 --> 00:04:48,000 o estado de arte nesta matéria 119 00:04:48,000 --> 00:04:50,000 seria, por exemplo, 120 00:04:50,000 --> 00:04:52,000 ir até este psicólogo com um cabelo fabuloso, 121 00:04:52,000 --> 00:04:54,000 e dizer, 122 00:04:54,000 --> 00:04:57,000 "Steve, você é um expert em verbos irregulares. 123 00:04:57,000 --> 00:04:59,000 O que eu devo fazer?" 124 00:04:59,000 --> 00:05:01,000 E ele diria, "Bem a maioria diria 'thrived', 125 00:05:01,000 --> 00:05:04,000 mas algumas diriam 'throve'." 126 00:05:04,000 --> 00:05:06,000 E vocês também sabem, talvez, 127 00:05:06,000 --> 00:05:09,000 que se voltassem no tempo 200 anos 128 00:05:09,000 --> 00:05:12,000 e perguntassem a esse estadista também de cabelo fabuloso, 129 00:05:12,000 --> 00:05:15,000 (Risos) 130 00:05:15,000 --> 00:05:17,000 "Tom, o que devo falar?" 131 00:05:17,000 --> 00:05:19,000 Ele diria, "No meu tempo a maioria dizia 'throve', 132 00:05:19,000 --> 00:05:22,000 mas alguns 'thrive'." 133 00:05:22,000 --> 00:05:24,000 Agora o que vou lhes mostrar são dados crus. 134 00:05:24,000 --> 00:05:28,000 Duas linhas desta tabela de 2 bilhões de lançamentos. 135 00:05:28,000 --> 00:05:30,000 O que estão vendo é a frequencia ano a ano 136 00:05:30,000 --> 00:05:33,000 de "thrived" e "throve" através dos tempos. 137 00:05:34,000 --> 00:05:36,000 Isso são apenas duas 138 00:05:36,000 --> 00:05:39,000 de 2 bilhões de linhas. 139 00:05:39,000 --> 00:05:41,000 Assim o conjunto completo de dados 140 00:05:41,000 --> 00:05:44,000 é 2 bilhões de vezes mais incrível que esse slide. 141 00:05:44,000 --> 00:05:46,000 (Risos) 142 00:05:46,000 --> 00:05:50,000 (Aplausos) 143 00:05:50,000 --> 00:05:52,000 JM: Existem muitas outras imagens que valem 500 bilhões de palavras. 144 00:05:52,000 --> 00:05:54,000 Por exemplo, esta aqui. 145 00:05:54,000 --> 00:05:56,000 Se você escolher influenza, 146 00:05:56,000 --> 00:05:58,000 verá picos nas épocas onde se sabe 147 00:05:58,000 --> 00:06:01,000 de grandes epidemias de gripe que mataram pessoas pelo mundo. 148 00:06:01,000 --> 00:06:04,000 ELA: Se vocês ainda não se convenceram, 149 00:06:04,000 --> 00:06:06,000 o nível dos mares está subindo, 150 00:06:06,000 --> 00:06:09,000 junto com o CO2 na atmosfera e a temperatura global. 151 00:06:09,000 --> 00:06:12,000 JM: Vocês também podem querer dar uma olhada neste n-grama, 152 00:06:12,000 --> 00:06:15,000 que diz ao Nietzsche que Deus não morreu, 153 00:06:15,000 --> 00:06:18,000 apesar que ele podia ter um publicitário melhor. 154 00:06:18,000 --> 00:06:20,000 (Risos) 155 00:06:20,000 --> 00:06:23,000 ELA: Se pode entender alguns conceitos bem abstratos com essa coisa. 156 00:06:23,000 --> 00:06:25,000 Por exemplo, permitam-me contar a história 157 00:06:25,000 --> 00:06:27,000 do ano de 1950. 158 00:06:27,000 --> 00:06:29,000 Durante todo o transcurso da história, 159 00:06:29,000 --> 00:06:31,000 ninguém dava a mínima para 1950. 160 00:06:31,000 --> 00:06:33,000 Em 1700, em 1800, em 1900, 161 00:06:33,000 --> 00:06:36,000 ninguém ligava. 162 00:06:37,000 --> 00:06:39,000 Nos anos 30 e 40, 163 00:06:39,000 --> 00:06:41,000 ninguém ligava. 164 00:06:41,000 --> 00:06:43,000 De repente, no meio dos anos 40, 165 00:06:43,000 --> 00:06:45,000 começou um rumor. 166 00:06:45,000 --> 00:06:47,000 As pessoas perceberam que 1950 viria, 167 00:06:47,000 --> 00:06:49,000 e que seria algo grande. 168 00:06:49,000 --> 00:06:52,000 (Risos) 169 00:06:52,000 --> 00:06:55,000 Nada interessou tanto às pessoas em 1950 170 00:06:55,000 --> 00:06:58,000 como o ano 1950. 171 00:06:58,000 --> 00:07:01,000 (Risos) 172 00:07:01,000 --> 00:07:03,000 As pessoas caminhavam obcecadas. 173 00:07:03,000 --> 00:07:05,000 Não podiam parar de falar 174 00:07:05,000 --> 00:07:08,000 sobre as coisas que fizeram em 1950, 175 00:07:08,000 --> 00:07:11,000 tudo o que estavam planejando para 1950, 176 00:07:11,000 --> 00:07:16,000 todos os sonhos que queriam alcançar em 1950. 177 00:07:16,000 --> 00:07:18,000 De fato, 1950 foi tão fascinante 178 00:07:18,000 --> 00:07:20,000 que nos anos seguintes, 179 00:07:20,000 --> 00:07:23,000 as pessoas continuavam falando sobre as coisas incríveis que aconteceram, 180 00:07:23,000 --> 00:07:25,000 em 51, 52, 53. 181 00:07:25,000 --> 00:07:27,000 Finalmente em 1954, 182 00:07:27,000 --> 00:07:29,000 alguém acordou e percebeu 183 00:07:29,000 --> 00:07:33,000 que 1950 tinha ficado algo 'passé'. 184 00:07:33,000 --> 00:07:35,000 (Risos) 185 00:07:35,000 --> 00:07:37,000 E de repente, a bolha estourou. 186 00:07:37,000 --> 00:07:39,000 (Risos) 187 00:07:39,000 --> 00:07:41,000 A história de 1950 188 00:07:41,000 --> 00:07:43,000 é a história de todo ano que temos registro, 189 00:07:43,000 --> 00:07:46,000 com um toque a mais, porque agora temos estes gráficos. 190 00:07:46,000 --> 00:07:49,000 E porque temos estes gráficos bacanas, podemos medir coisas. 191 00:07:49,000 --> 00:07:51,000 Podemos dizer, "Quão rápido a bolha estourou?" 192 00:07:51,000 --> 00:07:54,000 E acontece que podemos medir muito precisamente. 193 00:07:54,000 --> 00:07:57,000 Equações foram derivadas, gráficos foram produzidos, 194 00:07:57,000 --> 00:07:59,000 e o resultado líquido 195 00:07:59,000 --> 00:08:02,000 é que descobrimos que a bolha estoura cada vez mais rápido 196 00:08:02,000 --> 00:08:04,000 a cada ano que passa. 197 00:08:04,000 --> 00:08:09,000 Perdemos interesse no passado cada vez mais rápido. 198 00:08:09,000 --> 00:08:11,000 JM: Agora uma dica para a carreira. 199 00:08:11,000 --> 00:08:13,000 Aqueles de vocês que procuram ser famosos, 200 00:08:13,000 --> 00:08:15,000 podemos aprender com as 25 personalidades mais famosas, 201 00:08:15,000 --> 00:08:17,000 políticos, autores, atores e demais. 202 00:08:17,000 --> 00:08:20,000 Se você quer se tornar famoso cedo, deveria ser um ator, 203 00:08:20,000 --> 00:08:22,000 porque sua fama começa ao final dos vinte anos -- 204 00:08:22,000 --> 00:08:24,000 você ainda é jovem, é muito bom. 205 00:08:24,000 --> 00:08:26,000 Agora se quiser esperar um pouco, deveria ser autor, 206 00:08:26,000 --> 00:08:28,000 porque assim você alcançará grandes alturas, 207 00:08:28,000 --> 00:08:30,000 como Mark Twain, por exemplo, extremamente famoso. 208 00:08:30,000 --> 00:08:32,000 Mas se você quiser alcançar mesmo o topo, 209 00:08:32,000 --> 00:08:34,000 deveria postergar o reconhecimento 210 00:08:34,000 --> 00:08:36,000 e, claro, tornar-se um político. 211 00:08:36,000 --> 00:08:38,000 Assim você se torna famoso no final dos seus 50, 212 00:08:38,000 --> 00:08:40,000 e se torna muito, muito famoso depois. 213 00:08:40,000 --> 00:08:43,000 Cientistas também tendem a ficar famosos quando são mais velhos. 214 00:08:43,000 --> 00:08:45,000 Por exemplo, biólogos e físicos 215 00:08:45,000 --> 00:08:47,000 tendem a ser tão famosos quanto atores. 216 00:08:47,000 --> 00:08:50,000 Um erro que vocês devem evitar é serem matemáticos. 217 00:08:50,000 --> 00:08:52,000 (Risos) 218 00:08:52,000 --> 00:08:54,000 Se fizerem isso, 219 00:08:54,000 --> 00:08:57,000 podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos." 220 00:08:57,000 --> 00:08:59,000 Mas olha só, ninguém quer saber. 221 00:08:59,000 --> 00:09:02,000 (Risos) 222 00:09:02,000 --> 00:09:04,000 ELA: Existem notas mais sérias 223 00:09:04,000 --> 00:09:06,000 entre os n-gramas. 224 00:09:06,000 --> 00:09:08,000 Por exemplo, eis a trajetória de Marc Chagall, 225 00:09:08,000 --> 00:09:10,000 artista nascido em 1887. 226 00:09:10,000 --> 00:09:13,000 Parece a trajetória normal de uma pessoa famosa. 227 00:09:13,000 --> 00:09:17,000 Ele fica mais e mais e mais famoso, 228 00:09:17,000 --> 00:09:19,000 exceto se pesquisar em alemão. 229 00:09:19,000 --> 00:09:21,000 Se pesquisar em alemão, verá algo totalmente bizarro, 230 00:09:21,000 --> 00:09:23,000 algo que nunca se vê, 231 00:09:23,000 --> 00:09:25,000 que é ele se tornar extremamente famoso 232 00:09:25,000 --> 00:09:27,000 e de repente despenca, 233 00:09:27,000 --> 00:09:30,000 chegando ao fundo do poço entre 1933 e 1945, 234 00:09:30,000 --> 00:09:33,000 antes de retornar com tudo. 235 00:09:33,000 --> 00:09:35,000 Naturalmente, o que vemos 236 00:09:35,000 --> 00:09:38,000 é o fato de que Chagall era um artista judeu 237 00:09:38,000 --> 00:09:40,000 na Alemanha nazista. 238 00:09:40,000 --> 00:09:42,000 Estes sinais 239 00:09:42,000 --> 00:09:44,000 são na verdade tão fortes 240 00:09:44,000 --> 00:09:47,000 que não precisamos saber que alguém foi censurado. 241 00:09:47,000 --> 00:09:49,000 Podemos ter uma ideia 242 00:09:49,000 --> 00:09:51,000 usando até um básico processamento de sinais. 243 00:09:51,000 --> 00:09:53,000 Eis um modo simples de fazer. 244 00:09:53,000 --> 00:09:55,000 Uma expectativa razoável 245 00:09:55,000 --> 00:09:57,000 é que a fama de alguém em um período de tempo 246 00:09:57,000 --> 00:09:59,000 deveria ser mais ou menos a média de sua fama antes 247 00:09:59,000 --> 00:10:01,000 e da fama depois. 248 00:10:01,000 --> 00:10:03,000 É algo assim o que esperamos. 249 00:10:03,000 --> 00:10:06,000 E comparamos isso com a fama que observamos. 250 00:10:06,000 --> 00:10:08,000 E dividimos uma pela outra 251 00:10:08,000 --> 00:10:10,000 para produzir algo que chamamos de índice de supressão. 252 00:10:10,000 --> 00:10:13,000 Se o índice é muito, mas muito pequeno, 253 00:10:13,000 --> 00:10:15,000 você pode muito bem estar sendo suprimido. 254 00:10:15,000 --> 00:10:18,000 Se for muito grande, você pode estar se benificiando com a propaganda. 255 00:10:19,000 --> 00:10:21,000 JM: Agora vocês podem até mesmo ver 256 00:10:21,000 --> 00:10:24,000 a distribuição dos índices de supressão de populações inteiras. 257 00:10:24,000 --> 00:10:26,000 Por exemplo, aqui -- 258 00:10:26,000 --> 00:10:28,000 este índice é para 5.000 pessoas 259 00:10:28,000 --> 00:10:30,000 escolhidas em livros ingleses onde não existe supressão conhecida -- 260 00:10:30,000 --> 00:10:32,000 seria assim, basicamente centrada no 1. 261 00:10:32,000 --> 00:10:34,000 O que se esperava é basicamente o que observamos. 262 00:10:34,000 --> 00:10:36,000 Esta é a distribuição vista na Alemanha -- 263 00:10:36,000 --> 00:10:38,000 bem diferente, é desviada para a esquerda. 264 00:10:38,000 --> 00:10:41,000 As pessoas falaram menos que o dobro do costumeiro. 265 00:10:41,000 --> 00:10:43,000 Mais importante, a distribuição é mais extensa. 266 00:10:43,000 --> 00:10:46,000 Existem muitas pessoas que acabaram no lado esquerdo desta distribuição 267 00:10:46,000 --> 00:10:49,000 que são faladas cerca de 10 vezes menos do que deveriam ter sido. 268 00:10:49,000 --> 00:10:51,000 E também muitas pessoas bem à direita 269 00:10:51,000 --> 00:10:53,000 que parecem ter se beneficiado da propaganda. 270 00:10:53,000 --> 00:10:56,000 Esta imagem é a marca da censura no registro de livros. 271 00:10:56,000 --> 00:10:58,000 ELA: Cultorômica 272 00:10:58,000 --> 00:11:00,000 é como chamamos este método. 273 00:11:00,000 --> 00:11:02,000 É como se fosse a genômica. 274 00:11:02,000 --> 00:11:04,000 Só que a genômica é uma lente para que a biologia 275 00:11:04,000 --> 00:11:07,000 veja através da janela de sequencias das bases no genoma humano. 276 00:11:07,000 --> 00:11:09,000 Cultorômica é parecido. 277 00:11:09,000 --> 00:11:12,000 É aplicação da análise da enorme quantidade de informações coletadas 278 00:11:12,000 --> 00:11:14,000 para estudo da cultura humana. 279 00:11:14,000 --> 00:11:16,000 Ao invés de olharmos através das lentes de um genoma, 280 00:11:16,000 --> 00:11:19,000 olhamos através de pedaços digitalizados do registro histórico. 281 00:11:19,000 --> 00:11:21,000 O bom da culturômica 282 00:11:21,000 --> 00:11:23,000 é que todos podem participar. 283 00:11:23,000 --> 00:11:25,000 Por que todos podem? 284 00:11:25,000 --> 00:11:27,000 Todos podem porque três caras, 285 00:11:27,000 --> 00:11:30,000 Jon Orwant, Matt Gray e Will Brockman no Google, 286 00:11:30,000 --> 00:11:32,000 viram o protótipo do Visualizador de N-Gramas, 287 00:11:32,000 --> 00:11:34,000 e disseram, "Isso é bem divertido. 288 00:11:34,000 --> 00:11:37,000 Temos que disponibilizar para as pessoas." 289 00:11:37,000 --> 00:11:39,000 Em exatamente 2 semanas - antes de nosso artigo ser publicado -- 290 00:11:39,000 --> 00:11:42,000 eles programaram uma versão do Visualizador para o público em geral. 291 00:11:42,000 --> 00:11:45,000 Assim vocês podem digitar qualquer palavra ou frase que se interessarem 292 00:11:45,000 --> 00:11:47,000 e imediatamente podem ver o n-grama -- 293 00:11:47,000 --> 00:11:49,000 e também listar exemplos de todos os muitos livros 294 00:11:49,000 --> 00:11:51,000 nos quais o seu n-grama aparece. 295 00:11:51,000 --> 00:11:53,000 JM: Já foi utilizado mais de um milhão de vezes no primeiro dia, 296 00:11:53,000 --> 00:11:55,000 e é de fato a melhor de todas as procuras. 297 00:11:55,000 --> 00:11:58,000 As pessoas querem ser as melhores, se destacar. 298 00:11:58,000 --> 00:12:01,000 Mas acontece que no século 18, as pessoas não ligavam pra isso. 299 00:12:01,000 --> 00:12:04,000 Elas não queriam ser as 'the best', elas queriam ser 'beft'. 300 00:12:04,000 --> 00:12:07,000 O que aconteceu, é claro, foi apenas um equívoco. 301 00:12:07,000 --> 00:12:09,000 Não é um esforço pela mediocridade, 302 00:12:09,000 --> 00:12:12,000 apenas o 'S' costumava ser escrito diferente, quase um 'F'. 303 00:12:12,000 --> 00:12:15,000 Lógico, o Google não pegou isso na ocasião, 304 00:12:15,000 --> 00:12:18,000 assim nós relatamos no artigo científico que escrevemos. 305 00:12:18,000 --> 00:12:20,000 Mas se tornou um lembrete 306 00:12:20,000 --> 00:12:22,000 de que, mesmo sendo muito divertido, 307 00:12:22,000 --> 00:12:24,000 quando se interpreta estes gráficos, temos que ter cuidado, 308 00:12:24,000 --> 00:12:27,000 e vocês tem que adotar os métodos básicos da ciência. 309 00:12:27,000 --> 00:12:30,000 ELA: Pessoas o tem utilizado para todo tipo de propósito. 310 00:12:30,000 --> 00:12:37,000 (Risos) 311 00:12:37,000 --> 00:12:39,000 Na verdade, não precisaremos falar, 312 00:12:39,000 --> 00:12:42,000 vamos apenas mostrar todos os slides e ficar em silêncio. 313 00:12:42,000 --> 00:12:45,000 Esta pessoa estava interessada na história da frustração. 314 00:12:45,000 --> 00:12:48,000 Existem vários tipos de frustração. 315 00:12:48,000 --> 00:12:51,000 Se você esfolar o dedo do pé, É um "ai" com um 'A'. 316 00:12:51,000 --> 00:12:53,000 Se a Terra é aniquilada pelos Vogons 317 00:12:53,000 --> 00:12:55,000 pra dar lugar à um atalho interestelar, 318 00:12:55,000 --> 00:12:57,000 é um "aaaaaaaai" com 8 'A's. 319 00:12:57,000 --> 00:12:59,000 Esta pessoa estudou todos os "ais", 320 00:12:59,000 --> 00:13:01,000 de 1 até 8 'A's. 321 00:13:01,000 --> 00:13:03,000 E acontece 322 00:13:03,000 --> 00:13:05,000 que os "ais" menos frequentes 323 00:13:05,000 --> 00:13:08,000 são os que correspondem às coisas mais frustrantes -- 324 00:13:08,000 --> 00:13:11,000 exceto, curiosamente, no começo dos anos 80. 325 00:13:11,000 --> 00:13:13,000 Achamos que deve ter algo a ver com o Reagan. 326 00:13:13,000 --> 00:13:15,000 (Risos) 327 00:13:15,000 --> 00:13:18,000 JM: Existem muitos usos para estas informações, 328 00:13:18,000 --> 00:13:21,000 mas o principal é que o registro histórico está sendo digitalizado. 329 00:13:21,000 --> 00:13:23,000 Google começou a digitalizar 15 milhões de livros. 330 00:13:23,000 --> 00:13:25,000 É 12% de todos os livros já publicados. 331 00:13:25,000 --> 00:13:28,000 É um pedaço considerável da cultura humana. 332 00:13:28,000 --> 00:13:31,000 Há muito mais na cultura: existem manuscritos, jornais, 333 00:13:31,000 --> 00:13:33,000 coisas que não são texto, como arte e pinturas. 334 00:13:33,000 --> 00:13:35,000 Acontece que estes estão em nossos computadores, 335 00:13:35,000 --> 00:13:37,000 em computadores ao redor do mundo. 336 00:13:37,000 --> 00:13:40,000 E quando isso acontece, vai transformar a maneira 337 00:13:40,000 --> 00:13:42,000 de compreender nosso passado, o presente e a cultura humana. 338 00:13:42,000 --> 00:13:44,000 Muito obrigado. 339 00:13:44,000 --> 00:13:47,000 (Aplausos)