1 00:00:00,800 --> 00:00:03,908 Coordeno uma equipe no Google que lida com I.A.; 2 00:00:03,908 --> 00:00:08,598 em outras palavras, a engenharia de fazer computadores e aparelhos 3 00:00:08,602 --> 00:00:11,299 capazes de criar coisas que o cérebro faz. 4 00:00:11,299 --> 00:00:14,482 E isso faz com que nos interessemos por cérebros reais 5 00:00:14,482 --> 00:00:15,931 e também por neurociência, 6 00:00:15,931 --> 00:00:19,991 e nos interessamos, principalmente, por coisas que nosso cérebro faz 7 00:00:19,991 --> 00:00:24,113 que ainda são muito superiores à performance dos computadores. 8 00:00:25,209 --> 00:00:28,802 Historicamente, uma das áreas tem sido percepção, 9 00:00:28,802 --> 00:00:31,881 o processo pelo qual as coisas abstratas, 10 00:00:31,885 --> 00:00:33,473 sons e imagens, 11 00:00:33,473 --> 00:00:35,691 podem se tornar conceitos na mente. 12 00:00:36,235 --> 00:00:38,736 Isso é essencial para o nosso cérebro 13 00:00:38,736 --> 00:00:41,240 e também muito útil em um computador. 14 00:00:41,636 --> 00:00:44,970 Os algorítimos de percepção artificial, criados por nós, por exemplo, 15 00:00:44,970 --> 00:00:48,868 são o que permitem que suas fotos do Google Fotos sejam pesquisáveis, 16 00:00:48,868 --> 00:00:51,105 baseando-se no que há nelas. 17 00:00:51,594 --> 00:00:55,087 O oposto da percepção é a criatividade: 18 00:00:55,091 --> 00:00:58,133 transformar um conceito em algo lá fora, para o mundo. 19 00:00:58,133 --> 00:01:01,652 Então, ao longo do ano passado, nosso trabalho de percepção artificial 20 00:01:01,652 --> 00:01:06,575 também se uniu, inesperadamente, ao mundo da criatividade artificial 21 00:01:06,575 --> 00:01:08,055 e da arte digital. 22 00:01:08,556 --> 00:01:11,840 Acho que Michelangelo teve um insight profundo 23 00:01:11,844 --> 00:01:15,520 a respeito da relação entre percepção e criatividade. 24 00:01:16,023 --> 00:01:18,069 Esta é uma famosa citação dele: 25 00:01:18,069 --> 00:01:21,376 "Cada bloco de pedra tem uma escultura interna, 26 00:01:22,036 --> 00:01:25,038 e o trabalho do escultor é descobri-la." 27 00:01:26,029 --> 00:01:29,229 Então, penso que Michelangelo estava querendo dizer 28 00:01:29,229 --> 00:01:32,449 que nós criamos, através da percepção, 29 00:01:32,453 --> 00:01:35,480 e que a percepção por si é um ato de imaginação 30 00:01:35,480 --> 00:01:37,981 e é a tal da criatividade. 31 00:01:38,691 --> 00:01:42,600 O órgão que cria todo pensamento, percepção e imaginação, 32 00:01:42,600 --> 00:01:44,228 é certamente, o cérebro. 33 00:01:45,089 --> 00:01:47,618 E eu quero começar com um pouquinho de história 34 00:01:47,618 --> 00:01:49,960 sobre o que sabemos sobre cérebros. 35 00:01:50,496 --> 00:01:52,926 Porque, diferente do coração e dos intestinos, 36 00:01:52,926 --> 00:01:56,094 você não consegue falar muito sobre o cérebro só olhando pra ele, 37 00:01:56,094 --> 00:01:57,986 pelo menos a olho nu. 38 00:01:57,986 --> 00:02:00,399 Os primeiros anatomistas que observaram cérebros 39 00:02:00,403 --> 00:02:04,230 deram às estruturas superficiais todo tipo de nomes fantásticos, 40 00:02:04,234 --> 00:02:06,631 como hipocampo, significando "camarãozinho". 41 00:02:06,631 --> 00:02:09,475 Mas claro que esse tipo de coisa não nos diz muito 42 00:02:09,479 --> 00:02:11,817 sobre o que acontece lá dentro. 43 00:02:12,780 --> 00:02:16,393 A primeira pessoa que eu acho, que, de fato, desenvolveu algum insight 44 00:02:16,397 --> 00:02:18,427 sobre o que acontecia no cérebro 45 00:02:18,427 --> 00:02:23,535 foi o grande neuroanatomista espanhol, Santiago Ramón y Cajal, no século 19, 46 00:02:23,883 --> 00:02:27,622 usando microscópio e reagentes especiais, 47 00:02:27,622 --> 00:02:31,816 que puderam, seletivamente, preencher ou converter em contraste muito elevado, 48 00:02:31,816 --> 00:02:33,864 as células individuais do cérebro, 49 00:02:33,868 --> 00:02:37,042 para conseguir entender a morfologia delas. 50 00:02:37,972 --> 00:02:41,980 E estes são os tipos de desenhos que ele fez dos neurônios no século 19. 51 00:02:41,980 --> 00:02:44,044 Este é de um cérebro de pássaro. 52 00:02:44,044 --> 00:02:47,069 E vemos esta incrível variedade de diferentes tipos de células, 53 00:02:47,069 --> 00:02:50,508 até mesmo a própria teoria celular era recente nessa época. 54 00:02:50,508 --> 00:02:51,830 E estas estruturas, 55 00:02:51,830 --> 00:02:54,169 estas células que têm essas ramificações, 56 00:02:54,169 --> 00:02:56,761 que podem percorrer distâncias muito longas, 57 00:02:56,765 --> 00:02:58,741 tudo era novidade na época. 58 00:02:58,741 --> 00:03:01,682 Elas são reminiscência de fios, claro. 59 00:03:01,686 --> 00:03:05,147 Isso pode ter sido óbvio para algumas pessoas no século 19; 60 00:03:05,147 --> 00:03:09,501 as revoluções de telefonia e eletricidade estavam apenas começando. 61 00:03:09,964 --> 00:03:11,182 Mas de muitas maneiras, 62 00:03:11,182 --> 00:03:14,443 esses desenhos microanatômicos do Ramón y Cajal, como este, 63 00:03:14,443 --> 00:03:16,875 ainda são, em alguns pontos, insuperáveis. 64 00:03:16,875 --> 00:03:18,773 Ainda, depois de um século, 65 00:03:18,773 --> 00:03:21,546 estamos tentando concluir aquilo que Ramón y Cajal começou. 66 00:03:21,546 --> 00:03:24,720 Estes são dados brutos de nossos colaboradores 67 00:03:24,724 --> 00:03:27,665 no Instituto de Neurociência Max Planck. 68 00:03:27,665 --> 00:03:34,248 E nossos colaboradores estão representando partículas de tecido cerebral. 69 00:03:34,248 --> 00:03:37,798 Esta amostra tem aproximadamente um milímetro cúbico, 70 00:03:37,798 --> 00:03:40,443 e estou mostrando uma parte minúscula dela aqui. 71 00:03:40,443 --> 00:03:42,833 Aquela barra da esquerda tem em torno de um mícron. 72 00:03:42,833 --> 00:03:45,246 As estruturas que veem são mitocôndrias, 73 00:03:45,246 --> 00:03:47,350 que são do tamanho de uma bactéria. 74 00:03:47,354 --> 00:03:48,985 E estas são fatias consecutivas 75 00:03:48,985 --> 00:03:52,077 através deste minúsculo bloco de tecido. 76 00:03:52,401 --> 00:03:54,488 Apenas para efeito de comparação, 77 00:03:54,488 --> 00:03:58,144 o diâmetro de um fio médio de cabelo é de aproximadamente 100 microns. 78 00:03:58,144 --> 00:04:02,108 Então, estamos olhando para algo bem menor do que um simples fio de cabelo. 79 00:04:02,108 --> 00:04:06,095 E a partir desses tipos de partículas microscópicas de elétrons de série, 80 00:04:06,099 --> 00:04:11,111 podemos começar a reconstruir neurônios em 3D, como estes. 81 00:04:11,111 --> 00:04:14,232 Estes são do mesmo estilo do Ramón y Cajal. 82 00:04:14,232 --> 00:04:15,864 Poucos neurônios destacaram-se, 83 00:04:15,864 --> 00:04:18,613 pois, caso contrário, não conseguiríamos ver nada aqui. 84 00:04:18,613 --> 00:04:24,145 Estaria lotado, muito cheio de estruturas, de neurônios comunicando-se entre si. 85 00:04:25,293 --> 00:04:28,081 Ramón y Cajal estava um pouco à frente de seu tempo, 86 00:04:28,081 --> 00:04:30,640 e o progresso do entendimento do cérebro 87 00:04:30,640 --> 00:04:32,971 seguiu lentamente através das décadas seguintes. 88 00:04:33,455 --> 00:04:36,292 Mas sabíamos que os neurônios usavam eletricidade 89 00:04:36,292 --> 00:04:39,292 e, na Segunda Guerra Mundial, a tecnologia avançou o suficiente 90 00:04:39,292 --> 00:04:42,122 para iniciar experimentos elétricos reais em neurônios vivos 91 00:04:42,122 --> 00:04:44,648 para entender melhor seu funcionamento. 92 00:04:44,648 --> 00:04:48,987 Isso ocorreu na mesma época da invenção dos computadores, 93 00:04:48,991 --> 00:04:52,095 muito baseado na ideia da modelagem cerebral, 94 00:04:52,095 --> 00:04:55,204 da "maquinaria inteligente", como foi chamada por Alan Turing, 95 00:04:55,204 --> 00:04:57,843 um dos pais da ciência da computação. 96 00:04:57,843 --> 00:05:02,519 Warren McCulloch e Walter Pitts observaram o desenho do córtex visual, 97 00:05:02,519 --> 00:05:05,462 de Ramón y Cajal, que estou mostrando aqui. 98 00:05:05,462 --> 00:05:09,948 Este é o córtex que processa as imagens captadas pelo olho. 99 00:05:10,424 --> 00:05:13,932 E, para eles, isto parecia um diagrama de circuito. 100 00:05:14,353 --> 00:05:18,132 Então há muitos detalhes no diagrama de McCulloch and Pitts 101 00:05:18,132 --> 00:05:20,864 que não estão muito certos, mas esta ideia básica 102 00:05:20,864 --> 00:05:24,823 de que o córtex visual trabalha como uma série de elementos computacionais 103 00:05:24,823 --> 00:05:27,553 que passam a informação, um para o outro, em cascata, 104 00:05:27,553 --> 00:05:29,295 está essencialmente correta. 105 00:05:29,295 --> 00:05:31,593 Vamos falar um pouco 106 00:05:31,593 --> 00:05:35,665 sobre o que um modelo para processar informações visuais precisaria fazer. 107 00:05:36,228 --> 00:05:38,969 A tarefa básica de percepção 108 00:05:38,973 --> 00:05:43,091 é levar uma imagem como esta e dizer: 109 00:05:43,091 --> 00:05:44,467 "É um pássaro", 110 00:05:44,467 --> 00:05:47,269 algo muito simples de se fazer com nosso cérebro. 111 00:05:47,269 --> 00:05:50,730 Mas vocês têm que entender que, para um computador, 112 00:05:50,754 --> 00:05:53,805 isso era praticamente impossível há alguns anos. 113 00:05:53,805 --> 00:05:58,641 O paradigma computacional clássico não é uma tarefa simples de ser realizada. 114 00:05:59,366 --> 00:06:01,918 O que está acontecendo entre os pixels, 115 00:06:01,942 --> 00:06:05,954 entre a imagem do pássaro e a palavra "pássaro", 116 00:06:05,954 --> 00:06:08,772 é sobretudo um grupo de neurônios conectados uns aos outros, 117 00:06:08,772 --> 00:06:11,247 em uma rede neural, conforme mostro aqui. 118 00:06:11,258 --> 00:06:14,530 Essa conexão neural poderia ser biológica, em nosso córtex visual, 119 00:06:14,554 --> 00:06:16,680 ou, atualmente, começamos a ter a capacidade 120 00:06:16,680 --> 00:06:19,194 de modelar tais conexões neurais no computador. 121 00:06:19,834 --> 00:06:22,171 Eu mostrarei com o que elas realmente se parecem. 122 00:06:22,171 --> 00:06:25,611 Vocês podem pensar nos pixels como uma primeira camada de neurônios, 123 00:06:25,611 --> 00:06:29,514 que, na verdade, é como atuam no olho, são os neurônios na retina. 124 00:06:29,521 --> 00:06:31,085 E eles alimentam 125 00:06:31,085 --> 00:06:34,528 camada por camada de neurônios, 126 00:06:34,532 --> 00:06:37,509 todas conectadas por sinapses de diferentes pesos. 127 00:06:37,509 --> 00:06:39,004 O comportamento dessa rede 128 00:06:39,004 --> 00:06:42,312 é caracterizado pelas forças de todas aquelas sinapses. 129 00:06:42,312 --> 00:06:45,564 Elas caracterizam as propriedades computacionais dessa rede. 130 00:06:45,568 --> 00:06:47,098 E, no final das contas, 131 00:06:47,098 --> 00:06:49,569 você tem um neurônio, ou um grupo de neurônios, 132 00:06:49,569 --> 00:06:51,860 que ativam-se, dizendo "pássaro". 133 00:06:51,860 --> 00:06:54,940 Agora, representarei essas três coisas: 134 00:06:54,940 --> 00:06:59,560 a entrada de pixels e as sinapses na rede neural, 135 00:06:59,560 --> 00:07:04,465 e o pássaro, a saída, através de três variáveis: x, w e y. 136 00:07:04,853 --> 00:07:08,605 Há um milhão ou mais de x, um milhão de pixels nesta imagem. 137 00:07:08,605 --> 00:07:11,095 Há bilhões ou trilhões de w, 138 00:07:11,095 --> 00:07:14,556 que representam o peso de todas estas sinapses na rede neural. 139 00:07:14,560 --> 00:07:18,095 E há um número muito pequeno de y, de saídas que essa rede tem. 140 00:07:18,095 --> 00:07:20,770 "Pássaro" tem sete letras, certo? 141 00:07:21,088 --> 00:07:24,498 Então, vamos imaginar que esta seja apenas uma fórmula simples: 142 00:07:24,498 --> 00:07:26,645 x "x" w = y. 143 00:07:26,645 --> 00:07:28,801 O sinal de multiplicação fica entre aspas, 144 00:07:28,801 --> 00:07:31,105 porque, na verdade, o que está acontecendo lá 145 00:07:31,105 --> 00:07:34,135 é uma série complicada de operações matemáticas. 146 00:07:35,172 --> 00:07:36,393 É uma equação. 147 00:07:36,397 --> 00:07:38,053 Há três variáveis, 148 00:07:38,053 --> 00:07:40,803 e todos nós sabemos que se você tem uma equação, 149 00:07:40,803 --> 00:07:44,505 pode encontrar uma variável, se souber os outros dois termos. 150 00:07:45,158 --> 00:07:48,538 Então, o problema de inferência, 151 00:07:48,542 --> 00:07:51,435 de entender que aquela figura de um pássaro é um pássaro, 152 00:07:51,439 --> 00:07:56,160 é este: na qual y é desconhecido, mas w e x são conhecidos. 153 00:07:56,160 --> 00:07:58,663 Conhecendo a rede neural, você conhece os pixels. 154 00:07:58,663 --> 00:08:02,034 Como podem ver, é um problema relativamente simples. 155 00:08:02,034 --> 00:08:04,480 Você multiplica duas vezes três e pronto. 156 00:08:04,862 --> 00:08:07,065 Mostrarei uma rede artificial de neurônios 157 00:08:07,065 --> 00:08:09,635 que criamos recentemente fazendo exatamente isso. 158 00:08:09,635 --> 00:08:12,458 Isto está passando em tempo real em um celular, 159 00:08:12,458 --> 00:08:15,831 e é, claro, surpreendente por si só, 160 00:08:15,835 --> 00:08:20,587 que celulares possam fazer bilhões e trilhões de operações por segundo. 161 00:08:20,587 --> 00:08:22,314 Vocês estão olhando para um celular 162 00:08:22,314 --> 00:08:25,769 vendo uma imagem de pássaro após a outra, 163 00:08:25,769 --> 00:08:28,488 e, na verdade, não só dizendo: "Sim, é um pássaro", 164 00:08:28,488 --> 00:08:31,979 mas identificando a espécie do pássaro com uma rede deste tipo. 165 00:08:32,890 --> 00:08:34,736 Nesta imagem, 166 00:08:34,740 --> 00:08:38,526 o x e o w são conhecidos e o y é desconhecido. 167 00:08:38,526 --> 00:08:41,058 Estou encobrindo a parte mais difícil, 168 00:08:41,058 --> 00:08:44,943 que é como descobrimos o w, 169 00:08:44,943 --> 00:08:47,134 o cérebro que pode fazer tal coisa? 170 00:08:47,134 --> 00:08:49,448 Como aprenderíamos tal modelo? 171 00:08:49,448 --> 00:08:52,651 Este processo de aprendizagem, de descobrir o w, 172 00:08:52,655 --> 00:08:55,306 se o resolvermos com a equação simples, 173 00:08:55,306 --> 00:08:57,536 na qual pensamos nestas variáveis como números, 174 00:08:57,536 --> 00:09:00,057 saberemos, exatamente, como resolvê-la: 6 = 2 x w, 175 00:09:00,061 --> 00:09:03,393 dividimos por dois e pronto. 176 00:09:04,001 --> 00:09:06,221 O problema é com este sinal. 177 00:09:07,238 --> 00:09:11,083 Usamos a divisão porque é o inverso da multiplicação, 178 00:09:11,083 --> 00:09:12,643 mas, como acabei de dizer, 179 00:09:12,643 --> 00:09:15,136 a multiplicação não deixa de ser uma mentira aqui. 180 00:09:15,136 --> 00:09:18,390 Esta é uma operação não-linear muito complicada; 181 00:09:18,390 --> 00:09:20,118 não existe o inverso. 182 00:09:20,118 --> 00:09:23,292 Então devemos encontrar uma forma de resolver a equação 183 00:09:23,292 --> 00:09:25,356 sem um sinal de divisão. 184 00:09:25,360 --> 00:09:27,707 E a forma de se fazer isso é razoavelmente fácil. 185 00:09:27,707 --> 00:09:30,418 Você diz: vamos fazer um truque de álgebra 186 00:09:30,422 --> 00:09:33,332 e mover o seis para a direita da equação. 187 00:09:33,332 --> 00:09:35,678 Agora, ainda temos uma multiplicação 188 00:09:35,678 --> 00:09:39,239 e aquele zero, vamos pensar nele como um erro. 189 00:09:39,239 --> 00:09:41,778 Em outras palavras, se acharmos o w da forma certa 190 00:09:41,778 --> 00:09:43,418 então o erro será zero. 191 00:09:43,418 --> 00:09:47,113 Se não conseguirmos isso da forma certa, o erro será maior do que zero. 192 00:09:47,113 --> 00:09:50,583 Agora podemos criar suposições para diminuir os erros, 193 00:09:50,583 --> 00:09:53,274 e é o tipo de coisa que computadores fazem muito bem. 194 00:09:53,274 --> 00:09:56,251 Na primeira suposição: e se w = 0? Bem, o erro será 6. 195 00:09:56,251 --> 00:09:58,911 E se w = 1? O erro será 4. 196 00:09:58,911 --> 00:10:03,532 E, então, o computador tentará adivinhar e diminuir o erro para próximo de zero. 197 00:10:03,532 --> 00:10:06,985 Enquanto isso ocorre, ele está obtendo sucessivas aproximações de w. 198 00:10:06,985 --> 00:10:10,741 Tipicamente, nunca se chega lá, mas depois de várias etapas, 199 00:10:10,741 --> 00:10:15,349 estamos próximos de w = 2,999, o que é bem próximo. 200 00:10:16,302 --> 00:10:18,156 E esse é o processo de aprendizagem. 201 00:10:18,156 --> 00:10:22,176 Lembrem-se de que estamos pegando 202 00:10:22,176 --> 00:10:25,176 muitos x e y conhecidos 203 00:10:25,176 --> 00:10:28,734 e resolvendo o w no meio disso, através de um processo interativo. 204 00:10:28,734 --> 00:10:32,330 É exatamente assim que construímos nossa própria aprendizagem. 205 00:10:32,334 --> 00:10:34,644 Quando somos bebês nos mostram imagens 206 00:10:34,644 --> 00:10:37,331 e nos dizem: "Isso é um pássaro; isso não é um pássaro". 207 00:10:37,714 --> 00:10:39,876 Com o passar do tempo, através da interação, 208 00:10:39,876 --> 00:10:42,764 nós encontramos o w, encontramos essas conexões neurais. 209 00:10:43,460 --> 00:10:47,510 Agora mantemos o valor de x e w para resolver y; 210 00:10:47,510 --> 00:10:49,557 isso acontece todo dia, percepção rápida. 211 00:10:49,557 --> 00:10:51,198 Compreendemos como achar w, 212 00:10:51,198 --> 00:10:53,481 isso é aprendizagem, o que é muito mais difícil, 213 00:10:53,481 --> 00:10:57,180 pois precisamos minimizar os erros, usando vários exemplos de treinamento. 214 00:10:57,180 --> 00:11:00,046 Há aproximadamente um ano, Alex Mordvintsev, da nossa equipe, 215 00:11:00,046 --> 00:11:03,636 decidiu experimentar o que aconteceria se tentássemos encontrar x, 216 00:11:03,640 --> 00:11:05,964 conhecendo os valores de w e y. 217 00:11:05,964 --> 00:11:07,069 Em outras palavras, 218 00:11:07,069 --> 00:11:08,731 você sabe que isto é um pássaro, 219 00:11:08,731 --> 00:11:11,978 e já tem sua rede neural que treinou com pássaros, 220 00:11:11,982 --> 00:11:14,346 mas o que é a figura de um pássaro? 221 00:11:15,034 --> 00:11:20,022 Ocorre que, usando o mesmo procedimento de minimização de erros, 222 00:11:20,022 --> 00:11:23,512 pode-se fazer isso com a rede treinada para reconhecer pássaros 223 00:11:23,516 --> 00:11:26,924 e o resultado será... 224 00:11:30,400 --> 00:11:32,185 uma imagem de pássaros. 225 00:11:32,814 --> 00:11:36,375 Essa é uma imagem de pássaros totalmente gerada por uma rede neural, 226 00:11:36,375 --> 00:11:38,571 a qual foi treinada para reconhecer pássaros, 227 00:11:38,571 --> 00:11:43,545 apenas resolvendo x em vez de y, fazendo isso de forma interativa. 228 00:11:43,545 --> 00:11:45,799 Aqui tem um outro exemplo divertido. 229 00:11:45,799 --> 00:11:49,024 Esse foi um trabalho de Mike Tyka, em nosso grupo, 230 00:11:49,024 --> 00:11:51,336 que ele chamou de "Desfile Animal". 231 00:11:51,336 --> 00:11:54,256 Faz lembrar um pouco obras de arte de William Kentridge, 232 00:11:54,256 --> 00:11:59,019 na qual ele faz desenhos e os apaga, sucessivamente, e cria um filme assim. 233 00:11:59,019 --> 00:12:04,120 Neste caso, Mike varia o y no espaço de diferentes animais, 234 00:12:04,120 --> 00:12:07,607 numa rede desenvolvida para reconhecer e distinguir diferentes animais. 235 00:12:07,607 --> 00:12:12,582 E você consegue essa estranha mudança de um animal para outro, estilo Escher. 236 00:12:14,221 --> 00:12:18,819 Aqui, Alex e ele, juntos, tentaram reduzir 237 00:12:18,819 --> 00:12:21,602 o y a um espaço de duas dimensões, 238 00:12:21,602 --> 00:12:25,044 fazendo assim um mapa fora do espaço de todas as coisas 239 00:12:25,044 --> 00:12:26,863 reconhecidas por essa rede. 240 00:12:26,863 --> 00:12:28,834 Fazendo esse tipo de síntese 241 00:12:28,834 --> 00:12:31,276 ou geração de imagem sobre essa superfície inteira, 242 00:12:31,280 --> 00:12:34,226 variando y sobre a superfície, você cria um mapa visual 243 00:12:34,226 --> 00:12:37,275 de todas as coisas que a rede consegue reconhecer. 244 00:12:37,275 --> 00:12:40,200 Todos os animas estão aqui; o tatu está bem naquele canto. 245 00:12:40,919 --> 00:12:43,352 Você também pode fazer isso com outras redes. 246 00:12:43,352 --> 00:12:46,280 Essa é uma rede criada para reconhecer faces, 247 00:12:46,280 --> 00:12:48,320 distinguir uma face de outra. 248 00:12:48,324 --> 00:12:53,016 E, aqui, colocamos um y que seria "eu", parâmetros da minha própria face. 249 00:12:53,016 --> 00:12:57,908 E quando essa rede encontra x, ela gera essa imagem doida, 250 00:12:57,908 --> 00:13:02,016 um estilo cubismo, surreal, uma figura psicodélica de mim 251 00:13:02,016 --> 00:13:03,826 a partir de múltiplos pontos de vista. 252 00:13:03,826 --> 00:13:06,734 A razão de parecer com múltiplos pontos de vista de uma só vez 253 00:13:06,734 --> 00:13:10,179 é porque a rede é criada para conseguir se livrar da ambiguidade 254 00:13:10,179 --> 00:13:12,779 de uma face em uma pose ou outra, 255 00:13:12,779 --> 00:13:16,209 sendo olhada com um tipo ou outro de luz. 256 00:13:16,209 --> 00:13:18,258 Então, quando faz esse tipo de reconstrução, 257 00:13:18,258 --> 00:13:21,887 se você não usar algum guia de imagem ou de estatística, 258 00:13:21,887 --> 00:13:25,640 pode ficar confuso, devido a diferentes pontos de vista, 259 00:13:25,640 --> 00:13:27,368 porque isso é ambíguo. 260 00:13:27,786 --> 00:13:31,993 Isto é o que acontece se Alex usar sua própria face como guia de imagem 261 00:13:31,993 --> 00:13:35,354 durante o processo de otimização para reconstruir minha face. 262 00:13:36,284 --> 00:13:38,576 Então, podem ver que não é perfeito. 263 00:13:38,576 --> 00:13:40,334 Ainda há muito trabalho a fazer 264 00:13:40,334 --> 00:13:42,971 sobre como otimizar aquele processo de otimização. 265 00:13:42,971 --> 00:13:45,822 Mas começa a ter algo como uma face coerente, 266 00:13:45,822 --> 00:13:48,106 acabando por usar minha própria face como guia. 267 00:13:48,892 --> 00:13:52,437 Não é preciso começar com uma tela em branco ou com ruído branco. 268 00:13:52,437 --> 00:13:53,981 Quando se está resolvendo x, 269 00:13:53,981 --> 00:13:57,778 pode-se começar com um x, que, por si só, já é outra imagem. 270 00:13:57,778 --> 00:14:00,378 Isto é o que representa esta pequena demonstração. 271 00:14:00,378 --> 00:14:04,540 Isto é uma rede desenhada para categorizar 272 00:14:04,564 --> 00:14:07,647 todo tipo de diferentes objetos, criações humanas, animais... 273 00:14:07,647 --> 00:14:10,284 Aqui começamos apenas com uma figura de nuvens, 274 00:14:10,284 --> 00:14:11,979 e enquanto otimizamos, 275 00:14:11,979 --> 00:14:16,505 basicamente, esta rede está descobrindo o que se vê nas nuvens. 276 00:14:16,931 --> 00:14:19,251 E quanto mais você olha pra isso, 277 00:14:19,275 --> 00:14:22,028 mais coisas também verá nas nuvens. 278 00:14:23,004 --> 00:14:26,343 Poderia também usar a rede da face para ficar alucinado, 279 00:14:26,343 --> 00:14:28,535 então verá umas coisas muito loucas. 280 00:14:28,535 --> 00:14:29,869 (Risos) 281 00:14:30,401 --> 00:14:33,129 Mike fez algumas outras experiências, 282 00:14:33,129 --> 00:14:37,058 nas quais leva a imagem da nuvem, 283 00:14:37,058 --> 00:14:40,569 e ele alucina e aproxima, sucessivamente, 284 00:14:40,569 --> 00:14:41,800 e dessa forma, 285 00:14:41,804 --> 00:14:45,443 pode ter uma espécie de estado de fuga da rede, suponho, 286 00:14:45,443 --> 00:14:49,167 ou um tipo de associação livre, 287 00:14:49,167 --> 00:14:51,494 em que a rede morde sua própria cauda. 288 00:14:51,494 --> 00:14:56,148 Assim, toda imagem é base para a pergunta: "O que acho que verei agora? 289 00:14:56,148 --> 00:14:59,151 O que acho que verei agora? O que acho que verei agora?" 290 00:14:59,487 --> 00:15:02,423 Mostrei isso pela primeira vez em público, 291 00:15:02,427 --> 00:15:05,868 a um grupo, numa palestra em Seattle, 292 00:15:05,868 --> 00:15:07,848 chamado "Educação Maior"; 293 00:15:07,848 --> 00:15:10,385 isso aconteceu assim que a maconha foi legalizada. 294 00:15:10,385 --> 00:15:12,004 (Risos) 295 00:15:14,627 --> 00:15:16,731 Então, quero terminar logo, 296 00:15:16,735 --> 00:15:20,994 mencionando que esta tecnologia não está restrita. 297 00:15:20,994 --> 00:15:24,683 Mostrei a vocês exemplos puramente visuais porque são divertidos de se ver. 298 00:15:24,683 --> 00:15:27,158 Esta não é uma tecnologia exclusivamente visual. 299 00:15:27,158 --> 00:15:29,231 Nosso colaborador, Ross Goodwin, 300 00:15:29,231 --> 00:15:32,850 fez experiências envolvendo uma câmera que tira a foto, 301 00:15:32,850 --> 00:15:37,028 e aí, um computador na sua mochila, escreve um poema usando redes neurais, 302 00:15:37,028 --> 00:15:39,112 baseados nos conteúdos da imagem. 303 00:15:39,116 --> 00:15:42,047 E aquela poesia de rede neural tem sido treinada 304 00:15:42,047 --> 00:15:44,305 num grande corpus de poesia do século 20. 305 00:15:44,305 --> 00:15:47,746 E a poesia, na verdade, não é tão ruim, eu acho. 306 00:15:47,746 --> 00:15:49,154 (Risos) 307 00:15:49,154 --> 00:15:50,453 Para fechar, 308 00:15:50,453 --> 00:15:53,757 acho que Michelangelo estava certo: 309 00:15:53,757 --> 00:15:57,267 percepção e criatividade estão intimamente ligadas. 310 00:15:57,611 --> 00:16:00,245 O que vimos são apenas redes neurais, 311 00:16:00,249 --> 00:16:02,556 que estão totalmente treinadas para discriminar 312 00:16:02,556 --> 00:16:04,898 ou reconhecer coisas diferentes no mundo, 313 00:16:04,898 --> 00:16:08,007 capazes de trabalhar em sentido contrário para produzir. 314 00:16:08,007 --> 00:16:09,870 Uma das coisas que me vem à cabeça 315 00:16:09,870 --> 00:16:14,632 é que não só Michelangelo viu a escultura nos blocos de pedra, 316 00:16:14,632 --> 00:16:18,374 mas qualquer criatura, qualquer ser, alienígena, 317 00:16:18,374 --> 00:16:21,975 que é capaz de fazer atos de percepção desse tipo, 318 00:16:21,975 --> 00:16:23,570 também é capaz de criar, 319 00:16:23,570 --> 00:16:26,702 porque é exatamente a mesma máquina usada nos dois casos. 320 00:16:26,702 --> 00:16:32,194 Também penso que percepção e criatividade não são exclusivamente humanas. 321 00:16:32,532 --> 00:16:36,224 Temos modelos de computadores capazes de fazer justamente esse tipo de coisa, 322 00:16:36,224 --> 00:16:39,576 e não deveria ser surpreendente, pois o cérebro é computacional. 323 00:16:39,576 --> 00:16:41,273 E finalmente, 324 00:16:41,277 --> 00:16:45,929 a computação começou como um exercício de planejar maquinaria inteligente. 325 00:16:45,929 --> 00:16:48,435 Foi muito pensado na ideia 326 00:16:48,435 --> 00:16:51,472 de como faríamos as máquinas ficarem inteligentes. 327 00:16:51,472 --> 00:16:53,704 E agora, estamos finalmente começando a cumprir 328 00:16:53,704 --> 00:16:56,144 algumas das promessas daqueles pioneiros, 329 00:16:56,144 --> 00:17:00,074 de Turing e Von Neumann, e McCulloch e Pitts. 330 00:17:00,074 --> 00:17:04,236 E acho que computação não é apenas números 331 00:17:04,236 --> 00:17:06,407 ou jogar Candy Crush ou algo assim. 332 00:17:06,407 --> 00:17:09,229 No começo, modelamos as máquinas segundo as nossas mentes. 333 00:17:09,229 --> 00:17:12,318 E elas nos dão tanto a habilidade de entender melhor nossa mente 334 00:17:12,322 --> 00:17:14,191 como de expandi-la. 335 00:17:14,627 --> 00:17:15,854 Muito obrigado. 336 00:17:15,854 --> 00:17:17,577 (Aplausos)