1 00:00:00,000 --> 00:00:01,400 Erez Lieberman Aiden: 2 00:00:01,400 --> 00:00:06,120 Todos sabemos que uma imagem vale mais que mil palavras 3 00:00:07,550 --> 00:00:09,450 Mas nós em Harvard 4 00:00:09,450 --> 00:00:12,200 questionámos se isso seria mesmo verdade. 5 00:00:12,340 --> 00:00:14,000 (Risos) 6 00:00:14,330 --> 00:00:17,100 Então, juntámos uma equipa de peritos, 7 00:00:17,100 --> 00:00:19,770 que vieram de Harvard, do MIT, 8 00:00:19,770 --> 00:00:23,180 do The American Heritage Dictionary, da The Encyclopedia Britannica 9 00:00:23,180 --> 00:00:27,240 e até dos nossos orgulhosos patrocinadores, a Google. 10 00:00:27,240 --> 00:00:28,640 (Risos) 11 00:00:28,940 --> 00:00:30,920 Debruçámo-nos sobre esta questão 12 00:00:30,920 --> 00:00:32,750 durante cerca de quatro anos. 13 00:00:32,750 --> 00:00:36,660 E chegámos a uma conclusão surpreendente. 14 00:00:37,430 --> 00:00:40,440 Meus senhores, uma imagem não vale mais que mil palavras. 15 00:00:40,440 --> 00:00:42,680 Na verdade, encontrámos imagens 16 00:00:42,680 --> 00:00:46,740 que valem 500 mil milhões de palavras. 17 00:00:47,000 --> 00:00:49,660 Jean-Baptiste Michel: Como chegámos a esta conclusão? 18 00:00:49,660 --> 00:00:51,850 O Erez e eu pensámos em como obter 19 00:00:51,850 --> 00:00:54,950 um panorama geral da cultura humana e da história humana: 20 00:00:54,950 --> 00:00:56,690 as mudanças através dos tempos. 21 00:00:56,690 --> 00:00:58,930 Ao longo dos anos, escreveram-se muitos livros. 22 00:00:58,930 --> 00:01:01,380 Pensámos que a melhor maneira de aprender com eles 23 00:01:01,380 --> 00:01:03,370 seria ler todos esses milhões de livros. 24 00:01:03,370 --> 00:01:06,330 Se houvesse uma escala de como isso seria fantástico, 25 00:01:06,330 --> 00:01:08,880 isso seria classificado a um nível muitoelevado. 26 00:01:08,930 --> 00:01:11,310 O problema é que há um eixo X para isso, 27 00:01:11,310 --> 00:01:12,860 que é o eixo da prática, 28 00:01:12,860 --> 00:01:15,010 o que o colocaria num patamar muito baixo 29 00:01:15,010 --> 00:01:17,000 (Aplausos) 30 00:01:17,750 --> 00:01:20,570 As pessoas têm tendência a usar uma abordagem alternativa, 31 00:01:20,570 --> 00:01:23,010 que é pegar nalgumas fontes e lê-las cuidadosamente. 32 00:01:23,010 --> 00:01:25,350 É extremamente prático, mas não muito fantástico. 33 00:01:25,350 --> 00:01:27,500 O que realmente se pretende 34 00:01:27,520 --> 00:01:30,500 é chegar à parte fantástica mas prática deste espaço. 35 00:01:30,500 --> 00:01:33,680 Acontece que havia uma empresa do outro lado do rio chamada Google 36 00:01:33,680 --> 00:01:36,140 que iniciara um projeto de digitalização há uns anos 37 00:01:36,140 --> 00:01:37,920 que talvez permitisse essa abordagem. 38 00:01:37,930 --> 00:01:39,800 Tinham digitalizado milhões de livros. 39 00:01:39,800 --> 00:01:42,490 Isso significava que se podiam usar métodos informáticos 40 00:01:42,490 --> 00:01:44,990 para ler todos os livros com o clique de um botão. 41 00:01:44,990 --> 00:01:47,790 Isto é muito prático e extremamente fantástico. 42 00:01:48,420 --> 00:01:50,600 ELA: Vou falar-vos de onde vêm os livros. 43 00:01:51,270 --> 00:01:53,910 Desde tempos imemoriais que existem autores. 44 00:01:53,910 --> 00:01:56,750 Esses autores têm-se esforçado por escrever livros. 45 00:01:56,750 --> 00:01:58,550 Isso tornou-se muito mais fácil 46 00:01:58,550 --> 00:02:00,850 com o desenvolvimento da imprensa há uns séculos. 47 00:02:00,850 --> 00:02:03,060 Desde então, os autores tiveram 48 00:02:03,080 --> 00:02:06,450 129 milhões de ocasiões diferentes 49 00:02:06,450 --> 00:02:08,250 para publicar livros, 50 00:02:08,250 --> 00:02:10,350 Se esses livros não se perderam na história 51 00:02:10,350 --> 00:02:12,270 estão algures numa biblioteca, 52 00:02:12,290 --> 00:02:15,140 e muitos desses livros têm sido recuperados das bibliotecas 53 00:02:15,140 --> 00:02:16,570 e digitalizados pela Google, 54 00:02:16,570 --> 00:02:19,110 que já digitalizou 15 milhões de livros até agora. 55 00:02:19,120 --> 00:02:22,080 Quando a Google digitaliza um livro, põe-no num formato catita. 56 00:02:22,100 --> 00:02:24,240 Agora, temos os dados e temos ainda metadados. 57 00:02:24,240 --> 00:02:26,590 Temos informação sobre onde foi publicado, 58 00:02:26,590 --> 00:02:29,230 quem foi o autor, quando foi publicado, etc. 59 00:02:29,230 --> 00:02:32,140 Verificamos todos esses arquivos 60 00:02:32,140 --> 00:02:35,480 e excluímos tudo o que não seja da mais alta qualidade. 61 00:02:35,480 --> 00:02:37,310 Aquilo que nos resta 62 00:02:37,310 --> 00:02:40,600 é uma coleção de cinco milhões de livros, 63 00:02:40,600 --> 00:02:43,570 500 mil milhões de palavras, 64 00:02:43,570 --> 00:02:46,880 uma cadeia de caracteres mil vezes mais longa 65 00:02:46,880 --> 00:02:48,590 que o genoma humano, 66 00:02:48,590 --> 00:02:50,590 um texto que, se fosse escrito por extenso, 67 00:02:50,590 --> 00:02:52,700 iria daqui até à Lua e voltava 68 00:02:52,700 --> 00:02:54,520 mais de dez vezes, 69 00:02:54,520 --> 00:02:57,750 um autêntico fragmento do nosso genoma cultural. 70 00:02:58,850 --> 00:03:00,540 Claro que aquilo que fizemos 71 00:03:00,540 --> 00:03:03,150 perante tamanha hipérbole... 72 00:03:03,220 --> 00:03:05,580 (Risos) 73 00:03:05,650 --> 00:03:08,180 ... foi aquilo que teria feito 74 00:03:08,180 --> 00:03:11,150 qualquer pesquisador que se preze. 75 00:03:11,150 --> 00:03:13,840 Inspirámo-nos no XKDC, e dissemos: 76 00:03:14,070 --> 00:03:17,250 "Afastem-se. Vamos tentar fazer ciência." 77 00:03:17,360 --> 00:03:19,000 (Risos) 78 00:03:19,540 --> 00:03:21,290 JM: Claro que estávamos a pensar 79 00:03:21,290 --> 00:03:23,150 em publicar primeiro os dados 80 00:03:23,150 --> 00:03:25,310 para que as pessoas pudessem fazer ciência. 81 00:03:25,310 --> 00:03:27,700 Mas depois pensámos: ""Que dados podemos publicar?" 82 00:03:27,700 --> 00:03:29,450 Claro que queríamos pegar nos livros 83 00:03:29,450 --> 00:03:31,850 e publicar o texto completo de todos os livros. 84 00:03:31,850 --> 00:03:33,920 Mas a Google, e o Jon Orwant em particular, 85 00:03:33,920 --> 00:03:35,850 ensinou-nos uma pequena equação. 86 00:03:35,850 --> 00:03:38,000 Temos cinco milhões de autores, ou seja, 87 00:03:38,000 --> 00:03:41,120 cinco milhões de processos judiciais, uma coisa monstruosa. 88 00:03:41,320 --> 00:03:43,540 Assim, embora isso fosse fantástico 89 00:03:43,540 --> 00:03:46,370 mais uma vez, era impraticável. 90 00:03:46,540 --> 00:03:48,460 (Risos) 91 00:03:48,530 --> 00:03:50,750 Mais uma vez, tivemos de ceder 92 00:03:50,750 --> 00:03:53,530 e seguimos a abordagem prática, que era menos fantástica. 93 00:03:53,530 --> 00:03:55,350 Em vez de publicarmos o texto completo, 94 00:03:55,350 --> 00:03:57,540 íamos publicar estatísticas sobre os livros. 95 00:03:57,550 --> 00:03:59,480 Por exemplo, "Um brilho de felicidade". 96 00:03:59,480 --> 00:04:01,990 São quatro palavras, a que chamamos um quatro-grama. 97 00:04:01,990 --> 00:04:04,620 Íamos dizer quantas vezes um determinado quatro-grama 98 00:04:04,620 --> 00:04:07,320 aparecia em livros em 1801, 1802, 1803... até 2008. 99 00:04:07,320 --> 00:04:09,010 Isso dá-nos uma série temporal 100 00:04:09,010 --> 00:04:11,340 de quantas vezes foi utilizada essa frase. 101 00:04:11,340 --> 00:04:14,680 Fazemos isso para todas as palavras e frases que surgem nesses livros. 102 00:04:14,680 --> 00:04:17,460 Isso dá-nos uma enorme tabela de dois mil milhões de linhas 103 00:04:17,460 --> 00:04:19,680 que nos dizem como a cultura tem vindo a mudar. 104 00:04:19,680 --> 00:04:22,170 ELA: Chamamos a esses dois mil milhões de linhas, 105 00:04:22,170 --> 00:04:23,540 dois mil milhões de n-gramas. 106 00:04:23,550 --> 00:04:24,950 O que é que eles nos dizem? 107 00:04:24,950 --> 00:04:27,370 Os n-gramas individuais medem tendências culturais. 108 00:04:27,370 --> 00:04:29,000 Vou dar-vos um exemplo. 109 00:04:29,000 --> 00:04:31,000 Vamos supôr que estou a prosperar, 110 00:04:31,000 --> 00:04:33,260 e que amanhã quero contar como me saí bem. 111 00:04:33,260 --> 00:04:36,370 Posso dizer: "Ontem, eu vicejei." 112 00:04:36,370 --> 00:04:39,670 Em alternativa, podia dizer: "Ontem, eu prosperei. 113 00:04:39,670 --> 00:04:42,420 "Então qual é que devo utilizar? 114 00:04:42,420 --> 00:04:44,130 "Como é que hei de saber?" 115 00:04:44,130 --> 00:04:46,140 Há cerca de seis meses, 116 00:04:46,140 --> 00:04:48,320 o topo de gama neste campo 117 00:04:48,340 --> 00:04:50,070 seria dirigir-se, por exemplo, 118 00:04:50,070 --> 00:04:52,580 a um psicólogo com um cabelo fabuloso 119 00:04:52,580 --> 00:04:54,000 e dizer: 120 00:04:54,650 --> 00:04:57,830 "Steve, és perito em verbos. 121 00:04:57,830 --> 00:04:59,460 "O que é que devo fazer?" 122 00:04:59,460 --> 00:05:02,010 E ele responderia: "Muitos dizem 'prosperei', 123 00:05:02,010 --> 00:05:04,240 "mas alguns dizem 'vicejei'." 124 00:05:04,240 --> 00:05:06,730 Também ficariam a saber, mais ou menos, 125 00:05:06,730 --> 00:05:09,240 que, se recuassem 200 anos, 126 00:05:09,240 --> 00:05:12,330 e perguntassem a este estadista com um cabelo igualmente fabuloso: 127 00:05:12,440 --> 00:05:14,750 (Risos) 128 00:05:15,000 --> 00:05:17,000 "Tom, o que é que eu devo dizer?" 129 00:05:17,000 --> 00:05:19,550 Ele diria: "No meu tempo, a maior parte das pessoas vicejava, 130 00:05:19,550 --> 00:05:22,000 "mas alguns prosperavam." 131 00:05:22,240 --> 00:05:24,520 Agora vou mostrar-vos dados brutos. 132 00:05:25,040 --> 00:05:28,320 Duas linhas desta tabela com dois mil milhões de entradas. 133 00:05:28,320 --> 00:05:31,030 Estão a ver a frequência, ano a ano, 134 00:05:31,030 --> 00:05:33,680 de "prosperei" e "vicejei" ao longo do tempo. 135 00:05:34,630 --> 00:05:36,670 Estas são apenas duas 136 00:05:36,670 --> 00:05:39,220 entre dois mil milhões de linhas. 137 00:05:39,220 --> 00:05:41,390 O conjunto total dos dados 138 00:05:41,390 --> 00:05:44,530 é mil milhões de vezes mais fantástico do que este slide. 139 00:05:44,680 --> 00:05:46,680 (Risos) 140 00:05:47,070 --> 00:05:49,600 (Aplausos) 141 00:05:49,720 --> 00:05:52,980 JM: Há muitas imagens que valem mais que 500 mil milhões de palavras. 142 00:05:52,980 --> 00:05:54,000 Por exemplo, esta. 143 00:05:54,000 --> 00:05:55,600 Se pegarmos em "gripe", 144 00:05:55,600 --> 00:05:58,000 verão picos na época em que se sabia 145 00:05:58,000 --> 00:06:01,000 que grandes epidemias de gripe matavam pessoas em todo o globo. 146 00:06:01,910 --> 00:06:04,240 ELA: Se ainda não estão convencidos, 147 00:06:04,240 --> 00:06:06,140 os níveis do mar estão a subir, 148 00:06:06,140 --> 00:06:09,000 assim como o CO2 na atmosfera e a temperatura da Terra. 149 00:06:09,330 --> 00:06:12,390 JM: Talvez queiram prestar atenção a este n-grama em particular, 150 00:06:12,390 --> 00:06:15,000 e dizer a Nietzsche que Deus não está morto, 151 00:06:15,000 --> 00:06:18,120 embora concordem que Ele precisa de um relações públicas melhor. 152 00:06:18,240 --> 00:06:20,000 (Risos) 153 00:06:20,150 --> 00:06:23,580 ELA: Podemos obter conceitos bastante abstratos com este tipo de análise. 154 00:06:23,580 --> 00:06:26,970 Por exemplo, vou contar-vos a história do ano de 1950. 155 00:06:27,370 --> 00:06:29,540 Durante grande parte da história, 156 00:06:29,540 --> 00:06:31,370 ninguém ligou nenhuma a 1950. 157 00:06:31,370 --> 00:06:33,690 Em 1700, em 1800, em 1900, 158 00:06:33,690 --> 00:06:36,320 ninguém se preocupou. 159 00:06:37,910 --> 00:06:41,010 Durante os anos 30 e 40, ninguém se preocupou. 160 00:06:41,010 --> 00:06:43,460 De repente, a meio dos anos 40, 161 00:06:43,460 --> 00:06:45,240 começa a haver um burburinho. 162 00:06:45,240 --> 00:06:47,610 As pessoas percebem que 1950 vai acontecer, 163 00:06:47,610 --> 00:06:49,810 e pode ser uma coisa em grande. 164 00:06:49,920 --> 00:06:51,650 (Risos) 165 00:06:52,180 --> 00:06:56,230 Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 166 00:06:56,230 --> 00:06:58,590 do que o ano de 1950. 167 00:06:58,710 --> 00:07:00,780 (Risos) 168 00:07:01,100 --> 00:07:03,580 As pessoas andavam obcecadas. 169 00:07:03,580 --> 00:07:05,310 Não conseguiam deixar de falar 170 00:07:05,310 --> 00:07:08,130 sobre tudo o que tinham feito em 1950, 171 00:07:08,130 --> 00:07:11,500 tudo o que planeavam fazer em 1950, 172 00:07:11,500 --> 00:07:15,670 todos os sonhos que queriam alcançar em 1950. 173 00:07:16,100 --> 00:07:18,370 Na verdade, 1950 foi tão fascinante 174 00:07:18,370 --> 00:07:20,000 que, anos depois, 175 00:07:20,000 --> 00:07:22,680 as pessoas continuavam a falar das coisas maravilhosas 176 00:07:22,680 --> 00:07:25,510 que tinham acontecido em 1951, 1952, 1953. 177 00:07:25,510 --> 00:07:27,760 Finalmente, em 1954, 178 00:07:27,760 --> 00:07:30,080 houve alguém que acordou e percebeu 179 00:07:30,080 --> 00:07:32,950 que 1950 se tinha tornado numa coisa do passado. 180 00:07:33,220 --> 00:07:35,000 (Risos) 181 00:07:35,200 --> 00:07:37,540 E de repente, rebentou a bolha. 182 00:07:37,630 --> 00:07:39,120 (Risos) 183 00:07:39,320 --> 00:07:41,000 A história de 1950 184 00:07:41,000 --> 00:07:43,270 é a história de cada ano que temos registado, 185 00:07:43,270 --> 00:07:46,630 com uma ligeira diferença, porque agora temos estes gráficos catitas. 186 00:07:46,630 --> 00:07:49,470 Como temos estes gráficos catitas, podemos comparar coisas. 187 00:07:49,470 --> 00:07:51,860 Podemos dizer: "Quão depressa rebenta a bolha?" 188 00:07:51,860 --> 00:07:54,430 Acontece que conseguimos medir isso com muita precisão. 189 00:07:54,430 --> 00:07:57,650 Derivaram-se equações, produziram-se gráficos, 190 00:07:57,650 --> 00:07:59,610 e como resultado final 191 00:07:59,610 --> 00:08:02,640 descobrimos que a bolha rebenta cada vez mais depressa, 192 00:08:02,650 --> 00:08:04,650 de ano para ano. 193 00:08:04,650 --> 00:08:08,560 Estamos a perder interesse no passado cada vez mais rapidamente. 194 00:08:09,000 --> 00:08:11,230 JM: Agora, um pouco de orientação profissional. 195 00:08:11,230 --> 00:08:13,000 Os que querem ser famosos, 196 00:08:13,000 --> 00:08:15,320 podem aprender com os 25 políticos mais famosos, 197 00:08:15,320 --> 00:08:17,490 autores, atores, etc.. 198 00:08:17,490 --> 00:08:20,180 Se quiserem ser famosos cedo, devem tornar-se atores, 199 00:08:20,180 --> 00:08:22,870 porque a fama começa a aumentar no final dos vinte anos, 200 00:08:22,870 --> 00:08:24,670 ainda são jovens, isso é ótimo. 201 00:08:24,670 --> 00:08:26,810 Se podem esperar um pouco, devem ser autores, 202 00:08:26,810 --> 00:08:28,480 porque então podem chegar longe, 203 00:08:28,480 --> 00:08:30,840 como Mark Twain, por exemplo, extremamente famoso. 204 00:08:30,840 --> 00:08:33,260 Mas se quiserem alcançar mesmo o topo, 205 00:08:33,260 --> 00:08:35,090 não devem esperar resultados imediatos 206 00:08:35,090 --> 00:08:36,900 e, claro, devem tornarem-se políticos. 207 00:08:36,900 --> 00:08:39,070 Começarão a ser famosos no final dos 50 anos 208 00:08:39,070 --> 00:08:41,050 e tornar-se-ão muito famosos depois disso. 209 00:08:41,050 --> 00:08:44,070 Os cientistas também ficam famosos quando são muito mais velhos. 210 00:08:44,070 --> 00:08:47,640 Por exemplo, os biológos e os físicos podem ser tão famosos como os atores. 211 00:08:47,640 --> 00:08:50,640 Um erro que não devem fazer é tornarem-se matemáticos. 212 00:08:50,680 --> 00:08:52,010 (Risos) 213 00:08:52,110 --> 00:08:54,360 Se o fizerem, podem pensar: 214 00:08:54,380 --> 00:08:57,100 "Ótimo. Vou fazer o meu melhor trabalho aos 20 anos." 215 00:08:57,100 --> 00:08:59,570 Mas, calculem, ninguém vai querer saber. 216 00:08:59,640 --> 00:09:01,820 (Risos) 217 00:09:04,130 --> 00:09:06,690 ELA: Há notas mais sóbrias entre os n-gramas. 218 00:09:06,690 --> 00:09:09,110 Por exemplo, esta é a trajetória de Marc Chagall, 219 00:09:09,110 --> 00:09:11,150 um artista nascido em 1887. 220 00:09:11,150 --> 00:09:14,020 Parece-se com a trajetória normal de uma pessoa famosa. 221 00:09:14,020 --> 00:09:17,170 Torna-se cada vez mais famoso, 222 00:09:17,170 --> 00:09:19,440 exceto se procurarem em alemão. 223 00:09:19,440 --> 00:09:21,790 Se procurarem em alemão, verão uma coisa bizarra, 224 00:09:21,790 --> 00:09:24,140 uma coisa que habitualmente não se observa. 225 00:09:24,140 --> 00:09:26,190 Ele torna-se extremamente famoso 226 00:09:26,190 --> 00:09:27,980 e, de repente, cai vertiginosamente, 227 00:09:27,980 --> 00:09:30,830 atravessando o ponto mais baixo entre 1933 e 1945, 228 00:09:30,830 --> 00:09:33,440 antes de recuperar nos anos seguintes. 229 00:09:33,440 --> 00:09:35,180 O que aqui observamos 230 00:09:35,180 --> 00:09:38,130 é o facto de Marc Chagall ser um artista judeu 231 00:09:38,130 --> 00:09:40,160 na Alemanha nazi. 232 00:09:40,500 --> 00:09:43,890 Na realidade, estes sinais são tão fortes 233 00:09:44,000 --> 00:09:47,910 que não precisamos de saber que alguém foi censurado. 234 00:09:47,910 --> 00:09:49,690 Podemos chegar a essa conclusão 235 00:09:49,690 --> 00:09:51,820 através do tratamento básico de sinais. 236 00:09:51,820 --> 00:09:53,700 Esta é uma forma simples de o fazer. 237 00:09:53,700 --> 00:09:55,260 Uma expetativa razoável 238 00:09:55,260 --> 00:09:57,770 é a de que a fama de alguém num dado período de tempo 239 00:09:57,770 --> 00:10:00,140 deverá ser sensivelmente a média da sua fama antes 240 00:10:00,140 --> 00:10:01,600 e da sua fama posterior. 241 00:10:01,600 --> 00:10:03,460 Isso é aquilo que se espera. 242 00:10:03,460 --> 00:10:05,640 Comparamos isso com a fama que observamos. 243 00:10:05,640 --> 00:10:07,480 Depois é só dividir uma pela outra 244 00:10:07,480 --> 00:10:10,250 para obter uma coisa a que chamamos "índice de supressão". 245 00:10:10,250 --> 00:10:13,000 Se o índice de supressão for muito, muito baixo, 246 00:10:13,000 --> 00:10:15,320 quase de certeza estão a ser censurados. 247 00:10:15,320 --> 00:10:18,610 Se for muito alto, então talvez estejam a beneficiar com a propaganda. 248 00:10:19,190 --> 00:10:21,000 JM: Podemos mesmo ver 249 00:10:21,000 --> 00:10:24,200 a distribuição de índices de supressão em populações inteiras. 250 00:10:24,200 --> 00:10:25,550 Por exemplo, aqui... 251 00:10:25,550 --> 00:10:27,790 este índice de supressão é de cinco mil pessoas 252 00:10:27,790 --> 00:10:30,890 escolhidas em livros em inglês onde não há supressão explícita... 253 00:10:30,890 --> 00:10:32,760 seria como este, centrado numa pessoa. 254 00:10:32,760 --> 00:10:34,910 O que se espera é aquilo que se observa. 255 00:10:34,910 --> 00:10:37,010 Esta é a distribuição observada na Alemanha 256 00:10:37,010 --> 00:10:38,550 — desvia-se para a esquerda. 257 00:10:38,550 --> 00:10:41,420 As pessoas falaram disso duas vezes menos do que o esperado. 258 00:10:41,420 --> 00:10:43,730 Mais importante, a distribuição é mais alargada. 259 00:10:43,730 --> 00:10:46,680 Há muitas pessoas que acabam na ponta esquerda na distribuição 260 00:10:46,680 --> 00:10:49,580 de quem se falou menos dez vezes do que seria de esperar. 261 00:10:49,580 --> 00:10:51,610 Mas também muita gente na ponta direita 262 00:10:51,610 --> 00:10:53,480 parece beneficiar com a propaganda. 263 00:10:53,480 --> 00:10:56,710 Esta imagem é a marca distintiva da censura no registo dos livros. 264 00:10:56,830 --> 00:10:58,850 ELA: "Culturómica" 265 00:10:58,850 --> 00:11:00,510 é o que chamamos a este método. 266 00:11:00,510 --> 00:11:01,840 É como genómica. 267 00:11:01,840 --> 00:11:04,350 Excepto que a genómica é uma lente sobre a biologia 268 00:11:04,350 --> 00:11:07,540 através da janela da sequência de bases no genoma humano. 269 00:11:07,540 --> 00:11:09,000 A culturómica é parecida. 270 00:11:09,000 --> 00:11:12,500 É a aplicação da análise da recolha de dados em larga escala 271 00:11:12,500 --> 00:11:14,320 ao estudo da cultura humana. 272 00:11:14,320 --> 00:11:16,750 Aqui, em vez de ser através da lente de um genoma, 273 00:11:16,750 --> 00:11:19,930 é através da lente de peças digitalizadas do registo histórico. 274 00:11:19,930 --> 00:11:21,620 O que é genial na culturómica 275 00:11:21,620 --> 00:11:23,150 é que todos a podem fazer. 276 00:11:23,150 --> 00:11:25,000 Porque é que todos a podem fazer? 277 00:11:25,000 --> 00:11:27,060 Todos a podem fazer porque três indivíduos, 278 00:11:27,060 --> 00:11:30,050 Jon Orwant, Matt Gray e Will Brockman na Google, 279 00:11:30,050 --> 00:11:32,270 viram o protótipo do NGram Viewer, 280 00:11:32,270 --> 00:11:34,430 e disseram: "Isto é muito divertido. 281 00:11:34,430 --> 00:11:37,060 "Temos de tornar isto acessível às pessoas." 282 00:11:37,060 --> 00:11:39,510 Nas duas semanas antes da publicação do nosso artigo 283 00:11:39,510 --> 00:11:42,200 fizeram o código para a versão pública do NGram Viewer. 284 00:11:42,200 --> 00:11:45,490 Podemos escrever qualquer palavra ou frase em que estamos interessados 285 00:11:45,490 --> 00:11:47,290 e vemos imediatamente o seu n-grama, 286 00:11:47,290 --> 00:11:49,910 assim como vemos exemplos de todos os diversos livros 287 00:11:49,910 --> 00:11:51,540 onde surge esse n-grama. 288 00:11:51,540 --> 00:11:54,570 JBM: Isto foi usado mais de um milhão de vezes no primeiro dia, 289 00:11:54,570 --> 00:11:56,570 o que é a melhor de todas as pesquisas. 290 00:11:56,570 --> 00:11:58,840 Todos querem o seu melhor, mostrar o seu melhor. 291 00:11:58,840 --> 00:12:01,340 Acontece que, no século XVIII, isso não acontecia. 292 00:12:01,600 --> 00:12:04,480 Não queriam ser o seu melhor, queriam ser o seu "milhor". 293 00:12:04,480 --> 00:12:07,200 Claro que o que aconteceu foi apenas um erro. 294 00:12:07,200 --> 00:12:09,420 Não que é que se esforçassem pela mediocridade, 295 00:12:09,420 --> 00:12:12,670 é só porque o "e" escrevia-se de forma diferente, como um "i". 296 00:12:12,670 --> 00:12:15,360 A Google não se apercebeu disso na altura, 297 00:12:15,360 --> 00:12:18,280 e nós referimos isso no artigo científico que escrevemos. 298 00:12:18,280 --> 00:12:20,170 Acontece que isto é apenas um lembrete 299 00:12:20,170 --> 00:12:22,180 de que, embora seja tudo muito divertido, 300 00:12:22,180 --> 00:12:24,820 quando interpretamos gráficos, temos de ser cuidadosos. 301 00:12:24,820 --> 00:12:27,440 Há que adotar os procedimentos científicos de base. 302 00:12:27,920 --> 00:12:30,790 ELA: As pessoas têm usado isto para todo o tipo de diversão. 303 00:12:30,960 --> 00:12:34,050 (Risos) 304 00:12:37,530 --> 00:12:39,590 Na verdade, nem é preciso falar, 305 00:12:39,590 --> 00:12:42,190 vamos apenas mostrar-vos todos os slides e ficar calados. 306 00:12:42,830 --> 00:12:45,550 Esta pessoa estava interessada na história da frustração. 307 00:12:45,550 --> 00:12:48,000 Há vários tipos de frustração. 308 00:12:48,000 --> 00:12:51,000 Se baterem com um dedo do pé, isso é um "ai" com um A. 309 00:12:51,150 --> 00:12:53,910 Se o planeta Terra for aniquilado pelos Vogons 310 00:12:53,910 --> 00:12:55,800 para criar um desvio interestelar, 311 00:12:55,800 --> 00:12:58,210 isso é um "aaaaaaaai" com oito A's. 312 00:12:58,210 --> 00:13:00,120 Esta pessoa estuda todos os "ais", 313 00:13:00,120 --> 00:13:02,000 entre um a oito A's. 314 00:13:02,160 --> 00:13:05,480 Acontece que os "ais" menos frequentes 315 00:13:05,480 --> 00:13:08,240 são os que correspondem a coisas mais frustrantes, 316 00:13:08,240 --> 00:13:11,140 excepto, por incrível que pareça, nos princípios dos anos 80. 317 00:13:11,470 --> 00:13:13,630 Talvez tenha alguma coisa a ver com Reagan. 318 00:13:13,630 --> 00:13:15,250 (Risos) 319 00:13:15,550 --> 00:13:17,870 JM: Há muitas utilizações para estes dados, 320 00:13:17,870 --> 00:13:21,340 mas o mais importante é que está a ser digitalizado o registo histórico. 321 00:13:21,340 --> 00:13:23,940 A Google começou a digitalizar 15 milhões de livros. 322 00:13:23,940 --> 00:13:26,120 São 12% de todos os livros já publicados. 323 00:13:26,120 --> 00:13:28,620 É um pedaço considerável da cultura humana. 324 00:13:28,620 --> 00:13:31,110 Há muito mais na cultura, há manuscritos, há jornais, 325 00:13:31,110 --> 00:13:33,470 há coisas que não são textos, como arte e quadros. 326 00:13:33,470 --> 00:13:35,560 Tudo isto está nos nossos computadores, 327 00:13:35,560 --> 00:13:37,800 nos computadores de todo o mundo. 328 00:13:37,800 --> 00:13:40,000 Quando isso acontece, irá transformar a forma 329 00:13:40,000 --> 00:13:43,090 como entendemos o passado, o presente e a cultura humana. 330 00:13:43,090 --> 00:13:44,380 Muito obrigado. 331 00:13:44,430 --> 00:13:47,600 (Aplausos)