WEBVTT 00:00:00.000 --> 00:00:01.400 Erez Lieberman Aiden: 00:00:01.400 --> 00:00:06.120 Todos sabemos que uma imagem vale mais que mil palavras 00:00:07.550 --> 00:00:09.450 Mas nós em Harvard 00:00:09.450 --> 00:00:12.200 questionámos se isso seria mesmo verdade. 00:00:12.340 --> 00:00:14.000 (Risos) 00:00:14.330 --> 00:00:17.100 Então, juntámos uma equipa de peritos, 00:00:17.100 --> 00:00:19.770 que vieram de Harvard, do MIT, 00:00:19.770 --> 00:00:23.180 do The American Heritage Dictionary, da The Encyclopedia Britannica 00:00:23.180 --> 00:00:27.240 e até dos nossos orgulhosos patrocinadores, a Google. 00:00:27.240 --> 00:00:28.640 (Risos) 00:00:28.940 --> 00:00:30.920 Debruçámo-nos sobre esta questão 00:00:30.920 --> 00:00:32.750 durante cerca de quatro anos. 00:00:32.750 --> 00:00:36.660 E chegámos a uma conclusão surpreendente. 00:00:37.430 --> 00:00:40.440 Meus senhores, uma imagem não vale mais que mil palavras. 00:00:40.440 --> 00:00:42.680 Na verdade, encontrámos imagens 00:00:42.680 --> 00:00:46.740 que valem 500 mil milhões de palavras. NOTE Paragraph 00:00:47.000 --> 00:00:49.660 Jean-Baptiste Michel: Como chegámos a esta conclusão? 00:00:49.660 --> 00:00:51.850 O Erez e eu pensámos em como obter 00:00:51.850 --> 00:00:54.950 um panorama geral da cultura humana e da história humana: 00:00:54.950 --> 00:00:56.690 as mudanças através dos tempos. 00:00:56.690 --> 00:00:58.930 Ao longo dos anos, escreveram-se muitos livros. 00:00:58.930 --> 00:01:01.380 Pensámos que a melhor maneira de aprender com eles 00:01:01.380 --> 00:01:03.370 seria ler todos esses milhões de livros. 00:01:03.370 --> 00:01:06.330 Se houvesse uma escala de como isso seria fantástico, 00:01:06.330 --> 00:01:08.880 isso seria classificado a um nível muitoelevado. 00:01:08.930 --> 00:01:11.310 O problema é que há um eixo X para isso, 00:01:11.310 --> 00:01:12.860 que é o eixo da prática, 00:01:12.860 --> 00:01:15.010 o que o colocaria num patamar muito baixo NOTE Paragraph 00:01:15.010 --> 00:01:17.000 (Aplausos) NOTE Paragraph 00:01:17.750 --> 00:01:20.570 As pessoas têm tendência a usar uma abordagem alternativa, 00:01:20.570 --> 00:01:23.010 que é pegar nalgumas fontes e lê-las cuidadosamente. 00:01:23.010 --> 00:01:25.350 É extremamente prático, mas não muito fantástico. 00:01:25.350 --> 00:01:27.500 O que realmente se pretende 00:01:27.520 --> 00:01:30.500 é chegar à parte fantástica mas prática deste espaço. 00:01:30.500 --> 00:01:33.680 Acontece que havia uma empresa do outro lado do rio chamada Google 00:01:33.680 --> 00:01:36.140 que iniciara um projeto de digitalização há uns anos 00:01:36.140 --> 00:01:37.920 que talvez permitisse essa abordagem. 00:01:37.930 --> 00:01:39.800 Tinham digitalizado milhões de livros. 00:01:39.800 --> 00:01:42.490 Isso significava que se podiam usar métodos informáticos 00:01:42.490 --> 00:01:44.990 para ler todos os livros com o clique de um botão. 00:01:44.990 --> 00:01:47.790 Isto é muito prático e extremamente fantástico. NOTE Paragraph 00:01:48.420 --> 00:01:50.600 ELA: Vou falar-vos de onde vêm os livros. 00:01:51.270 --> 00:01:53.910 Desde tempos imemoriais que existem autores. 00:01:53.910 --> 00:01:56.750 Esses autores têm-se esforçado por escrever livros. 00:01:56.750 --> 00:01:58.550 Isso tornou-se muito mais fácil 00:01:58.550 --> 00:02:00.850 com o desenvolvimento da imprensa há uns séculos. 00:02:00.850 --> 00:02:03.060 Desde então, os autores tiveram 00:02:03.080 --> 00:02:06.450 129 milhões de ocasiões diferentes 00:02:06.450 --> 00:02:08.250 para publicar livros, 00:02:08.250 --> 00:02:10.350 Se esses livros não se perderam na história 00:02:10.350 --> 00:02:12.270 estão algures numa biblioteca, 00:02:12.290 --> 00:02:15.140 e muitos desses livros têm sido recuperados das bibliotecas 00:02:15.140 --> 00:02:16.570 e digitalizados pela Google, 00:02:16.570 --> 00:02:19.110 que já digitalizou 15 milhões de livros até agora. NOTE Paragraph 00:02:19.120 --> 00:02:22.080 Quando a Google digitaliza um livro, põe-no num formato catita. 00:02:22.100 --> 00:02:24.240 Agora, temos os dados e temos ainda metadados. 00:02:24.240 --> 00:02:26.590 Temos informação sobre onde foi publicado, 00:02:26.590 --> 00:02:29.230 quem foi o autor, quando foi publicado, etc. 00:02:29.230 --> 00:02:32.140 Verificamos todos esses arquivos 00:02:32.140 --> 00:02:35.480 e excluímos tudo o que não seja da mais alta qualidade. 00:02:35.480 --> 00:02:37.310 Aquilo que nos resta 00:02:37.310 --> 00:02:40.600 é uma coleção de cinco milhões de livros, 00:02:40.600 --> 00:02:43.570 500 mil milhões de palavras, 00:02:43.570 --> 00:02:46.880 uma cadeia de caracteres mil vezes mais longa 00:02:46.880 --> 00:02:48.590 que o genoma humano, 00:02:48.590 --> 00:02:50.590 um texto que, se fosse escrito por extenso, 00:02:50.590 --> 00:02:52.700 iria daqui até à Lua e voltava 00:02:52.700 --> 00:02:54.520 mais de dez vezes, 00:02:54.520 --> 00:02:57.750 um autêntico fragmento do nosso genoma cultural. 00:02:58.850 --> 00:03:00.540 Claro que aquilo que fizemos 00:03:00.540 --> 00:03:03.150 perante tamanha hipérbole... 00:03:03.220 --> 00:03:05.580 (Risos) 00:03:05.650 --> 00:03:08.180 ... foi aquilo que teria feito 00:03:08.180 --> 00:03:11.150 qualquer pesquisador que se preze. 00:03:11.150 --> 00:03:13.840 Inspirámo-nos no XKDC, e dissemos: 00:03:14.070 --> 00:03:17.250 "Afastem-se. Vamos tentar fazer ciência." NOTE Paragraph 00:03:17.360 --> 00:03:19.000 (Risos) NOTE Paragraph 00:03:19.540 --> 00:03:21.290 JM: Claro que estávamos a pensar 00:03:21.290 --> 00:03:23.150 em publicar primeiro os dados 00:03:23.150 --> 00:03:25.310 para que as pessoas pudessem fazer ciência. 00:03:25.310 --> 00:03:27.700 Mas depois pensámos: ""Que dados podemos publicar?" 00:03:27.700 --> 00:03:29.450 Claro que queríamos pegar nos livros 00:03:29.450 --> 00:03:31.850 e publicar o texto completo de todos os livros. 00:03:31.850 --> 00:03:33.920 Mas a Google, e o Jon Orwant em particular, 00:03:33.920 --> 00:03:35.850 ensinou-nos uma pequena equação. 00:03:35.850 --> 00:03:38.000 Temos cinco milhões de autores, ou seja, 00:03:38.000 --> 00:03:41.120 cinco milhões de processos judiciais, uma coisa monstruosa. 00:03:41.320 --> 00:03:43.540 Assim, embora isso fosse fantástico 00:03:43.540 --> 00:03:46.370 mais uma vez, era impraticável. 00:03:46.540 --> 00:03:48.460 (Risos) NOTE Paragraph 00:03:48.530 --> 00:03:50.750 Mais uma vez, tivemos de ceder 00:03:50.750 --> 00:03:53.530 e seguimos a abordagem prática, que era menos fantástica. 00:03:53.530 --> 00:03:55.350 Em vez de publicarmos o texto completo, 00:03:55.350 --> 00:03:57.540 íamos publicar estatísticas sobre os livros. 00:03:57.550 --> 00:03:59.480 Por exemplo, "Um brilho de felicidade". 00:03:59.480 --> 00:04:01.990 São quatro palavras, a que chamamos um quatro-grama. 00:04:01.990 --> 00:04:04.620 Íamos dizer quantas vezes um determinado quatro-grama 00:04:04.620 --> 00:04:07.320 aparecia em livros em 1801, 1802, 1803... até 2008. 00:04:07.320 --> 00:04:09.010 Isso dá-nos uma série temporal 00:04:09.010 --> 00:04:11.340 de quantas vezes foi utilizada essa frase. 00:04:11.340 --> 00:04:14.680 Fazemos isso para todas as palavras e frases que surgem nesses livros. 00:04:14.680 --> 00:04:17.460 Isso dá-nos uma enorme tabela de dois mil milhões de linhas 00:04:17.460 --> 00:04:19.680 que nos dizem como a cultura tem vindo a mudar. NOTE Paragraph 00:04:19.680 --> 00:04:22.170 ELA: Chamamos a esses dois mil milhões de linhas, 00:04:22.170 --> 00:04:23.540 dois mil milhões de n-gramas. 00:04:23.550 --> 00:04:24.950 O que é que eles nos dizem? 00:04:24.950 --> 00:04:27.370 Os n-gramas individuais medem tendências culturais. 00:04:27.370 --> 00:04:29.000 Vou dar-vos um exemplo. 00:04:29.000 --> 00:04:31.000 Vamos supôr que estou a prosperar, 00:04:31.000 --> 00:04:33.260 e que amanhã quero contar como me saí bem. 00:04:33.260 --> 00:04:36.370 Posso dizer: "Ontem, eu vicejei." 00:04:36.370 --> 00:04:39.670 Em alternativa, podia dizer: "Ontem, eu prosperei. 00:04:39.670 --> 00:04:42.420 "Então qual é que devo utilizar? 00:04:42.420 --> 00:04:44.130 "Como é que hei de saber?" NOTE Paragraph 00:04:44.130 --> 00:04:46.140 Há cerca de seis meses, 00:04:46.140 --> 00:04:48.320 o topo de gama neste campo 00:04:48.340 --> 00:04:50.070 seria dirigir-se, por exemplo, 00:04:50.070 --> 00:04:52.580 a um psicólogo com um cabelo fabuloso 00:04:52.580 --> 00:04:54.000 e dizer: 00:04:54.650 --> 00:04:57.830 "Steve, és perito em verbos. 00:04:57.830 --> 00:04:59.460 "O que é que devo fazer?" 00:04:59.460 --> 00:05:02.010 E ele responderia: "Muitos dizem 'prosperei', 00:05:02.010 --> 00:05:04.240 "mas alguns dizem 'vicejei'." 00:05:04.240 --> 00:05:06.730 Também ficariam a saber, mais ou menos, 00:05:06.730 --> 00:05:09.240 que, se recuassem 200 anos, 00:05:09.240 --> 00:05:12.330 e perguntassem a este estadista com um cabelo igualmente fabuloso: 00:05:12.440 --> 00:05:14.750 (Risos) 00:05:15.000 --> 00:05:17.000 "Tom, o que é que eu devo dizer?" 00:05:17.000 --> 00:05:19.550 Ele diria: "No meu tempo, a maior parte das pessoas vicejava, 00:05:19.550 --> 00:05:22.000 "mas alguns prosperavam." 00:05:22.240 --> 00:05:24.520 Agora vou mostrar-vos dados brutos. 00:05:25.040 --> 00:05:28.320 Duas linhas desta tabela com dois mil milhões de entradas. 00:05:28.320 --> 00:05:31.030 Estão a ver a frequência, ano a ano, 00:05:31.030 --> 00:05:33.680 de "prosperei" e "vicejei" ao longo do tempo. 00:05:34.630 --> 00:05:36.670 Estas são apenas duas 00:05:36.670 --> 00:05:39.220 entre dois mil milhões de linhas. 00:05:39.220 --> 00:05:41.390 O conjunto total dos dados 00:05:41.390 --> 00:05:44.530 é mil milhões de vezes mais fantástico do que este slide. NOTE Paragraph 00:05:44.680 --> 00:05:46.680 (Risos) NOTE Paragraph 00:05:47.070 --> 00:05:49.600 (Aplausos) NOTE Paragraph 00:05:49.720 --> 00:05:52.980 JM: Há muitas imagens que valem mais que 500 mil milhões de palavras. 00:05:52.980 --> 00:05:54.000 Por exemplo, esta. 00:05:54.000 --> 00:05:55.600 Se pegarmos em "gripe", 00:05:55.600 --> 00:05:58.000 verão picos na época em que se sabia 00:05:58.000 --> 00:06:01.000 que grandes epidemias de gripe matavam pessoas em todo o globo. NOTE Paragraph 00:06:01.910 --> 00:06:04.240 ELA: Se ainda não estão convencidos, 00:06:04.240 --> 00:06:06.140 os níveis do mar estão a subir, 00:06:06.140 --> 00:06:09.000 assim como o CO2 na atmosfera e a temperatura da Terra. NOTE Paragraph 00:06:09.330 --> 00:06:12.390 JM: Talvez queiram prestar atenção a este n-grama em particular, 00:06:12.390 --> 00:06:15.000 e dizer a Nietzsche que Deus não está morto, 00:06:15.000 --> 00:06:18.120 embora concordem que Ele precisa de um relações públicas melhor. NOTE Paragraph 00:06:18.240 --> 00:06:20.000 (Risos) NOTE Paragraph 00:06:20.150 --> 00:06:23.580 ELA: Podemos obter conceitos bastante abstratos com este tipo de análise. 00:06:23.580 --> 00:06:26.970 Por exemplo, vou contar-vos a história do ano de 1950. 00:06:27.370 --> 00:06:29.540 Durante grande parte da história, 00:06:29.540 --> 00:06:31.370 ninguém ligou nenhuma a 1950. 00:06:31.370 --> 00:06:33.690 Em 1700, em 1800, em 1900, 00:06:33.690 --> 00:06:36.320 ninguém se preocupou. 00:06:37.910 --> 00:06:41.010 Durante os anos 30 e 40, ninguém se preocupou. 00:06:41.010 --> 00:06:43.460 De repente, a meio dos anos 40, 00:06:43.460 --> 00:06:45.240 começa a haver um burburinho. 00:06:45.240 --> 00:06:47.610 As pessoas percebem que 1950 vai acontecer, 00:06:47.610 --> 00:06:49.810 e pode ser uma coisa em grande. 00:06:49.920 --> 00:06:51.650 (Risos) 00:06:52.180 --> 00:06:56.230 Mas nada fez com que as pessoas se interessassem mais pelo ano de 1950 00:06:56.230 --> 00:06:58.590 do que o ano de 1950. 00:06:58.710 --> 00:07:00.780 (Risos) 00:07:01.100 --> 00:07:03.580 As pessoas andavam obcecadas. 00:07:03.580 --> 00:07:05.310 Não conseguiam deixar de falar 00:07:05.310 --> 00:07:08.130 sobre tudo o que tinham feito em 1950, 00:07:08.130 --> 00:07:11.500 tudo o que planeavam fazer em 1950, 00:07:11.500 --> 00:07:15.670 todos os sonhos que queriam alcançar em 1950. 00:07:16.100 --> 00:07:18.370 Na verdade, 1950 foi tão fascinante 00:07:18.370 --> 00:07:20.000 que, anos depois, 00:07:20.000 --> 00:07:22.680 as pessoas continuavam a falar das coisas maravilhosas 00:07:22.680 --> 00:07:25.510 que tinham acontecido em 1951, 1952, 1953. 00:07:25.510 --> 00:07:27.760 Finalmente, em 1954, 00:07:27.760 --> 00:07:30.080 houve alguém que acordou e percebeu 00:07:30.080 --> 00:07:32.950 que 1950 se tinha tornado numa coisa do passado. 00:07:33.220 --> 00:07:35.000 (Risos) 00:07:35.200 --> 00:07:37.540 E de repente, rebentou a bolha. NOTE Paragraph 00:07:37.630 --> 00:07:39.120 (Risos) NOTE Paragraph 00:07:39.320 --> 00:07:41.000 A história de 1950 00:07:41.000 --> 00:07:43.270 é a história de cada ano que temos registado, 00:07:43.270 --> 00:07:46.630 com uma ligeira diferença, porque agora temos estes gráficos catitas. 00:07:46.630 --> 00:07:49.470 Como temos estes gráficos catitas, podemos comparar coisas. 00:07:49.470 --> 00:07:51.860 Podemos dizer: "Quão depressa rebenta a bolha?" 00:07:51.860 --> 00:07:54.430 Acontece que conseguimos medir isso com muita precisão. 00:07:54.430 --> 00:07:57.650 Derivaram-se equações, produziram-se gráficos, 00:07:57.650 --> 00:07:59.610 e como resultado final 00:07:59.610 --> 00:08:02.640 descobrimos que a bolha rebenta cada vez mais depressa, 00:08:02.650 --> 00:08:04.650 de ano para ano. 00:08:04.650 --> 00:08:08.560 Estamos a perder interesse no passado cada vez mais rapidamente. NOTE Paragraph 00:08:09.000 --> 00:08:11.230 JM: Agora, um pouco de orientação profissional. 00:08:11.230 --> 00:08:13.000 Os que querem ser famosos, 00:08:13.000 --> 00:08:15.320 podem aprender com os 25 políticos mais famosos, 00:08:15.320 --> 00:08:17.490 autores, atores, etc.. 00:08:17.490 --> 00:08:20.180 Se quiserem ser famosos cedo, devem tornar-se atores, 00:08:20.180 --> 00:08:22.870 porque a fama começa a aumentar no final dos vinte anos, 00:08:22.870 --> 00:08:24.670 ainda são jovens, isso é ótimo. 00:08:24.670 --> 00:08:26.810 Se podem esperar um pouco, devem ser autores, 00:08:26.810 --> 00:08:28.480 porque então podem chegar longe, 00:08:28.480 --> 00:08:30.840 como Mark Twain, por exemplo, extremamente famoso. 00:08:30.840 --> 00:08:33.260 Mas se quiserem alcançar mesmo o topo, 00:08:33.260 --> 00:08:35.090 não devem esperar resultados imediatos 00:08:35.090 --> 00:08:36.900 e, claro, devem tornarem-se políticos. 00:08:36.900 --> 00:08:39.070 Começarão a ser famosos no final dos 50 anos 00:08:39.070 --> 00:08:41.050 e tornar-se-ão muito famosos depois disso. 00:08:41.050 --> 00:08:44.070 Os cientistas também ficam famosos quando são muito mais velhos. 00:08:44.070 --> 00:08:47.640 Por exemplo, os biológos e os físicos podem ser tão famosos como os atores. 00:08:47.640 --> 00:08:50.640 Um erro que não devem fazer é tornarem-se matemáticos. 00:08:50.680 --> 00:08:52.010 (Risos) 00:08:52.110 --> 00:08:54.360 Se o fizerem, podem pensar: 00:08:54.380 --> 00:08:57.100 "Ótimo. Vou fazer o meu melhor trabalho aos 20 anos." 00:08:57.100 --> 00:08:59.570 Mas, calculem, ninguém vai querer saber. NOTE Paragraph 00:08:59.640 --> 00:09:01.820 (Risos) NOTE Paragraph 00:09:04.130 --> 00:09:06.690 ELA: Há notas mais sóbrias entre os n-gramas. 00:09:06.690 --> 00:09:09.110 Por exemplo, esta é a trajetória de Marc Chagall, 00:09:09.110 --> 00:09:11.150 um artista nascido em 1887. 00:09:11.150 --> 00:09:14.020 Parece-se com a trajetória normal de uma pessoa famosa. 00:09:14.020 --> 00:09:17.170 Torna-se cada vez mais famoso, 00:09:17.170 --> 00:09:19.440 exceto se procurarem em alemão. 00:09:19.440 --> 00:09:21.790 Se procurarem em alemão, verão uma coisa bizarra, 00:09:21.790 --> 00:09:24.140 uma coisa que habitualmente não se observa. 00:09:24.140 --> 00:09:26.190 Ele torna-se extremamente famoso 00:09:26.190 --> 00:09:27.980 e, de repente, cai vertiginosamente, 00:09:27.980 --> 00:09:30.830 atravessando o ponto mais baixo entre 1933 e 1945, 00:09:30.830 --> 00:09:33.440 antes de recuperar nos anos seguintes. 00:09:33.440 --> 00:09:35.180 O que aqui observamos 00:09:35.180 --> 00:09:38.130 é o facto de Marc Chagall ser um artista judeu 00:09:38.130 --> 00:09:40.160 na Alemanha nazi. NOTE Paragraph 00:09:40.500 --> 00:09:43.890 Na realidade, estes sinais são tão fortes 00:09:44.000 --> 00:09:47.910 que não precisamos de saber que alguém foi censurado. 00:09:47.910 --> 00:09:49.690 Podemos chegar a essa conclusão 00:09:49.690 --> 00:09:51.820 através do tratamento básico de sinais. 00:09:51.820 --> 00:09:53.700 Esta é uma forma simples de o fazer. 00:09:53.700 --> 00:09:55.260 Uma expetativa razoável 00:09:55.260 --> 00:09:57.770 é a de que a fama de alguém num dado período de tempo 00:09:57.770 --> 00:10:00.140 deverá ser sensivelmente a média da sua fama antes 00:10:00.140 --> 00:10:01.600 e da sua fama posterior. 00:10:01.600 --> 00:10:03.460 Isso é aquilo que se espera. 00:10:03.460 --> 00:10:05.640 Comparamos isso com a fama que observamos. 00:10:05.640 --> 00:10:07.480 Depois é só dividir uma pela outra 00:10:07.480 --> 00:10:10.250 para obter uma coisa a que chamamos "índice de supressão". 00:10:10.250 --> 00:10:13.000 Se o índice de supressão for muito, muito baixo, 00:10:13.000 --> 00:10:15.320 quase de certeza estão a ser censurados. 00:10:15.320 --> 00:10:18.610 Se for muito alto, então talvez estejam a beneficiar com a propaganda. NOTE Paragraph 00:10:19.190 --> 00:10:21.000 JM: Podemos mesmo ver 00:10:21.000 --> 00:10:24.200 a distribuição de índices de supressão em populações inteiras. 00:10:24.200 --> 00:10:25.550 Por exemplo, aqui... 00:10:25.550 --> 00:10:27.790 este índice de supressão é de cinco mil pessoas 00:10:27.790 --> 00:10:30.890 escolhidas em livros em inglês onde não há supressão explícita... 00:10:30.890 --> 00:10:32.760 seria como este, centrado numa pessoa. 00:10:32.760 --> 00:10:34.910 O que se espera é aquilo que se observa. 00:10:34.910 --> 00:10:37.010 Esta é a distribuição observada na Alemanha 00:10:37.010 --> 00:10:38.550 — desvia-se para a esquerda. 00:10:38.550 --> 00:10:41.420 As pessoas falaram disso duas vezes menos do que o esperado. 00:10:41.420 --> 00:10:43.730 Mais importante, a distribuição é mais alargada. 00:10:43.730 --> 00:10:46.680 Há muitas pessoas que acabam na ponta esquerda na distribuição 00:10:46.680 --> 00:10:49.580 de quem se falou menos dez vezes do que seria de esperar. 00:10:49.580 --> 00:10:51.610 Mas também muita gente na ponta direita 00:10:51.610 --> 00:10:53.480 parece beneficiar com a propaganda. 00:10:53.480 --> 00:10:56.710 Esta imagem é a marca distintiva da censura no registo dos livros. NOTE Paragraph 00:10:56.830 --> 00:10:58.850 ELA: "Culturómica" 00:10:58.850 --> 00:11:00.510 é o que chamamos a este método. 00:11:00.510 --> 00:11:01.840 É como genómica. 00:11:01.840 --> 00:11:04.350 Excepto que a genómica é uma lente sobre a biologia 00:11:04.350 --> 00:11:07.540 através da janela da sequência de bases no genoma humano. 00:11:07.540 --> 00:11:09.000 A culturómica é parecida. 00:11:09.000 --> 00:11:12.500 É a aplicação da análise da recolha de dados em larga escala 00:11:12.500 --> 00:11:14.320 ao estudo da cultura humana. 00:11:14.320 --> 00:11:16.750 Aqui, em vez de ser através da lente de um genoma, 00:11:16.750 --> 00:11:19.930 é através da lente de peças digitalizadas do registo histórico. 00:11:19.930 --> 00:11:21.620 O que é genial na culturómica 00:11:21.620 --> 00:11:23.150 é que todos a podem fazer. 00:11:23.150 --> 00:11:25.000 Porque é que todos a podem fazer? 00:11:25.000 --> 00:11:27.060 Todos a podem fazer porque três indivíduos, 00:11:27.060 --> 00:11:30.050 Jon Orwant, Matt Gray e Will Brockman na Google, 00:11:30.050 --> 00:11:32.270 viram o protótipo do NGram Viewer, 00:11:32.270 --> 00:11:34.430 e disseram: "Isto é muito divertido. 00:11:34.430 --> 00:11:37.060 "Temos de tornar isto acessível às pessoas." 00:11:37.060 --> 00:11:39.510 Nas duas semanas antes da publicação do nosso artigo 00:11:39.510 --> 00:11:42.200 fizeram o código para a versão pública do NGram Viewer. 00:11:42.200 --> 00:11:45.490 Podemos escrever qualquer palavra ou frase em que estamos interessados 00:11:45.490 --> 00:11:47.290 e vemos imediatamente o seu n-grama, 00:11:47.290 --> 00:11:49.910 assim como vemos exemplos de todos os diversos livros 00:11:49.910 --> 00:11:51.540 onde surge esse n-grama. NOTE Paragraph 00:11:51.540 --> 00:11:54.570 JBM: Isto foi usado mais de um milhão de vezes no primeiro dia, 00:11:54.570 --> 00:11:56.570 o que é a melhor de todas as pesquisas. 00:11:56.570 --> 00:11:58.840 Todos querem o seu melhor, mostrar o seu melhor. 00:11:58.840 --> 00:12:01.340 Acontece que, no século XVIII, isso não acontecia. 00:12:01.600 --> 00:12:04.480 Não queriam ser o seu melhor, queriam ser o seu "milhor". 00:12:04.480 --> 00:12:07.200 Claro que o que aconteceu foi apenas um erro. 00:12:07.200 --> 00:12:09.420 Não que é que se esforçassem pela mediocridade, 00:12:09.420 --> 00:12:12.670 é só porque o "e" escrevia-se de forma diferente, como um "i". 00:12:12.670 --> 00:12:15.360 A Google não se apercebeu disso na altura, 00:12:15.360 --> 00:12:18.280 e nós referimos isso no artigo científico que escrevemos. 00:12:18.280 --> 00:12:20.170 Acontece que isto é apenas um lembrete 00:12:20.170 --> 00:12:22.180 de que, embora seja tudo muito divertido, 00:12:22.180 --> 00:12:24.820 quando interpretamos gráficos, temos de ser cuidadosos. 00:12:24.820 --> 00:12:27.440 Há que adotar os procedimentos científicos de base. NOTE Paragraph 00:12:27.920 --> 00:12:30.790 ELA: As pessoas têm usado isto para todo o tipo de diversão. 00:12:30.960 --> 00:12:34.050 (Risos) 00:12:37.530 --> 00:12:39.590 Na verdade, nem é preciso falar, 00:12:39.590 --> 00:12:42.190 vamos apenas mostrar-vos todos os slides e ficar calados. 00:12:42.830 --> 00:12:45.550 Esta pessoa estava interessada na história da frustração. 00:12:45.550 --> 00:12:48.000 Há vários tipos de frustração. 00:12:48.000 --> 00:12:51.000 Se baterem com um dedo do pé, isso é um "ai" com um A. 00:12:51.150 --> 00:12:53.910 Se o planeta Terra for aniquilado pelos Vogons 00:12:53.910 --> 00:12:55.800 para criar um desvio interestelar, 00:12:55.800 --> 00:12:58.210 isso é um "aaaaaaaai" com oito A's. 00:12:58.210 --> 00:13:00.120 Esta pessoa estuda todos os "ais", 00:13:00.120 --> 00:13:02.000 entre um a oito A's. 00:13:02.160 --> 00:13:05.480 Acontece que os "ais" menos frequentes 00:13:05.480 --> 00:13:08.240 são os que correspondem a coisas mais frustrantes, 00:13:08.240 --> 00:13:11.140 excepto, por incrível que pareça, nos princípios dos anos 80. 00:13:11.470 --> 00:13:13.630 Talvez tenha alguma coisa a ver com Reagan. NOTE Paragraph 00:13:13.630 --> 00:13:15.250 (Risos) NOTE Paragraph 00:13:15.550 --> 00:13:17.870 JM: Há muitas utilizações para estes dados, 00:13:17.870 --> 00:13:21.340 mas o mais importante é que está a ser digitalizado o registo histórico. 00:13:21.340 --> 00:13:23.940 A Google começou a digitalizar 15 milhões de livros. 00:13:23.940 --> 00:13:26.120 São 12% de todos os livros já publicados. 00:13:26.120 --> 00:13:28.620 É um pedaço considerável da cultura humana. 00:13:28.620 --> 00:13:31.110 Há muito mais na cultura, há manuscritos, há jornais, 00:13:31.110 --> 00:13:33.470 há coisas que não são textos, como arte e quadros. 00:13:33.470 --> 00:13:35.560 Tudo isto está nos nossos computadores, 00:13:35.560 --> 00:13:37.800 nos computadores de todo o mundo. 00:13:37.800 --> 00:13:40.000 Quando isso acontece, irá transformar a forma 00:13:40.000 --> 00:13:43.090 como entendemos o passado, o presente e a cultura humana. NOTE Paragraph 00:13:43.090 --> 00:13:44.380 Muito obrigado. NOTE Paragraph 00:13:44.430 --> 00:13:47.600 (Aplausos)