WEBVTT 00:00:00.800 --> 00:00:03.908 Coordeno uma equipe no Google que lida com I.A.; 00:00:03.908 --> 00:00:08.598 em outras palavras, a engenharia de fazer computadores e aparelhos 00:00:08.602 --> 00:00:11.299 capazes de criar coisas que o cérebro faz. 00:00:11.299 --> 00:00:14.482 E isso faz com que nos interessemos por cérebros reais 00:00:14.482 --> 00:00:15.931 e também por neurociência, 00:00:15.931 --> 00:00:19.991 e nos interessamos, principalmente, por coisas que nosso cérebro faz 00:00:19.991 --> 00:00:24.113 que ainda são muito superiores à performance dos computadores. NOTE Paragraph 00:00:25.209 --> 00:00:28.802 Historicamente, uma das áreas tem sido percepção, 00:00:28.802 --> 00:00:31.881 o processo pelo qual as coisas abstratas, 00:00:31.885 --> 00:00:33.473 sons e imagens, 00:00:33.473 --> 00:00:35.691 podem se tornar conceitos na mente. 00:00:36.235 --> 00:00:38.736 Isso é essencial para o nosso cérebro 00:00:38.736 --> 00:00:41.240 e também muito útil em um computador. 00:00:41.636 --> 00:00:44.970 Os algorítimos de percepção artificial, criados por nós, por exemplo, 00:00:44.970 --> 00:00:48.868 são o que permitem que suas fotos do Google Fotos sejam pesquisáveis, 00:00:48.868 --> 00:00:51.105 baseando-se no que há nelas. 00:00:51.594 --> 00:00:55.087 O oposto da percepção é a criatividade: 00:00:55.091 --> 00:00:58.133 transformar um conceito em algo lá fora, para o mundo. 00:00:58.133 --> 00:01:01.652 Então, ao longo do ano passado, nosso trabalho de percepção artificial 00:01:01.652 --> 00:01:06.575 também se uniu, inesperadamente, ao mundo da criatividade artificial 00:01:06.575 --> 00:01:08.055 e da arte digital. NOTE Paragraph 00:01:08.556 --> 00:01:11.840 Acho que Michelangelo teve um insight profundo 00:01:11.844 --> 00:01:15.520 a respeito da relação entre percepção e criatividade. 00:01:16.023 --> 00:01:18.069 Esta é uma famosa citação dele: 00:01:18.069 --> 00:01:21.376 "Cada bloco de pedra tem uma escultura interna, 00:01:22.036 --> 00:01:25.038 e o trabalho do escultor é descobri-la." 00:01:26.029 --> 00:01:29.229 Então, penso que Michelangelo estava querendo dizer 00:01:29.229 --> 00:01:32.449 que nós criamos, através da percepção, 00:01:32.453 --> 00:01:35.480 e que a percepção por si é um ato de imaginação 00:01:35.480 --> 00:01:37.981 e é a tal da criatividade. NOTE Paragraph 00:01:38.691 --> 00:01:42.600 O órgão que cria todo pensamento, percepção e imaginação, 00:01:42.600 --> 00:01:44.228 é certamente, o cérebro. 00:01:45.089 --> 00:01:47.618 E eu quero começar com um pouquinho de história 00:01:47.618 --> 00:01:49.960 sobre o que sabemos sobre cérebros. 00:01:50.496 --> 00:01:52.926 Porque, diferente do coração e dos intestinos, 00:01:52.926 --> 00:01:56.094 você não consegue falar muito sobre o cérebro só olhando pra ele, 00:01:56.094 --> 00:01:57.986 pelo menos a olho nu. 00:01:57.986 --> 00:02:00.399 Os primeiros anatomistas que observaram cérebros 00:02:00.403 --> 00:02:04.230 deram às estruturas superficiais todo tipo de nomes fantásticos, 00:02:04.234 --> 00:02:06.631 como hipocampo, significando "camarãozinho". 00:02:06.631 --> 00:02:09.475 Mas claro que esse tipo de coisa não nos diz muito 00:02:09.479 --> 00:02:11.817 sobre o que acontece lá dentro. NOTE Paragraph 00:02:12.780 --> 00:02:16.393 A primeira pessoa que eu acho, que, de fato, desenvolveu algum insight 00:02:16.397 --> 00:02:18.427 sobre o que acontecia no cérebro 00:02:18.427 --> 00:02:23.535 foi o grande neuroanatomista espanhol, Santiago Ramón y Cajal, no século 19, 00:02:23.883 --> 00:02:27.622 usando microscópio e reagentes especiais, 00:02:27.622 --> 00:02:31.816 que puderam, seletivamente, preencher ou converter em contraste muito elevado, 00:02:31.816 --> 00:02:33.864 as células individuais do cérebro, 00:02:33.868 --> 00:02:37.042 para conseguir entender a morfologia delas. 00:02:37.972 --> 00:02:41.980 E estes são os tipos de desenhos que ele fez dos neurônios no século 19. NOTE Paragraph 00:02:41.980 --> 00:02:44.044 Este é de um cérebro de pássaro. 00:02:44.044 --> 00:02:47.069 E vemos esta incrível variedade de diferentes tipos de células, 00:02:47.069 --> 00:02:50.508 até mesmo a própria teoria celular era recente nessa época. 00:02:50.508 --> 00:02:51.830 E estas estruturas, 00:02:51.830 --> 00:02:54.169 estas células que têm essas ramificações, 00:02:54.169 --> 00:02:56.761 que podem percorrer distâncias muito longas, 00:02:56.765 --> 00:02:58.741 tudo era novidade na época. 00:02:58.741 --> 00:03:01.682 Elas são reminiscência de fios, claro. 00:03:01.686 --> 00:03:05.147 Isso pode ter sido óbvio para algumas pessoas no século 19; 00:03:05.147 --> 00:03:09.501 as revoluções de telefonia e eletricidade estavam apenas começando. 00:03:09.964 --> 00:03:11.182 Mas de muitas maneiras, 00:03:11.182 --> 00:03:14.443 esses desenhos microanatômicos do Ramón y Cajal, como este, 00:03:14.443 --> 00:03:16.875 ainda são, em alguns pontos, insuperáveis. NOTE Paragraph 00:03:16.875 --> 00:03:18.773 Ainda, depois de um século, 00:03:18.773 --> 00:03:21.546 estamos tentando concluir aquilo que Ramón y Cajal começou. 00:03:21.546 --> 00:03:24.720 Estes são dados brutos de nossos colaboradores 00:03:24.724 --> 00:03:27.665 no Instituto de Neurociência Max Planck. 00:03:27.665 --> 00:03:34.248 E nossos colaboradores estão representando partículas de tecido cerebral. 00:03:34.248 --> 00:03:37.798 Esta amostra tem aproximadamente um milímetro cúbico, 00:03:37.798 --> 00:03:40.443 e estou mostrando uma parte minúscula dela aqui. 00:03:40.443 --> 00:03:42.833 Aquela barra da esquerda tem em torno de um mícron. 00:03:42.833 --> 00:03:45.246 As estruturas que veem são mitocôndrias, 00:03:45.246 --> 00:03:47.350 que são do tamanho de uma bactéria. 00:03:47.354 --> 00:03:48.985 E estas são fatias consecutivas 00:03:48.985 --> 00:03:52.077 através deste minúsculo bloco de tecido. 00:03:52.401 --> 00:03:54.488 Apenas para efeito de comparação, 00:03:54.488 --> 00:03:58.144 o diâmetro de um fio médio de cabelo é de aproximadamente 100 microns. 00:03:58.144 --> 00:04:02.108 Então, estamos olhando para algo bem menor do que um simples fio de cabelo. NOTE Paragraph 00:04:02.108 --> 00:04:06.095 E a partir desses tipos de partículas microscópicas de elétrons de série, 00:04:06.099 --> 00:04:11.111 podemos começar a reconstruir neurônios em 3D, como estes. 00:04:11.111 --> 00:04:14.232 Estes são do mesmo estilo do Ramón y Cajal. 00:04:14.232 --> 00:04:15.864 Poucos neurônios destacaram-se, 00:04:15.864 --> 00:04:18.613 pois, caso contrário, não conseguiríamos ver nada aqui. 00:04:18.613 --> 00:04:24.145 Estaria lotado, muito cheio de estruturas, de neurônios comunicando-se entre si. NOTE Paragraph 00:04:25.293 --> 00:04:28.081 Ramón y Cajal estava um pouco à frente de seu tempo, 00:04:28.081 --> 00:04:30.640 e o progresso do entendimento do cérebro 00:04:30.640 --> 00:04:32.971 seguiu lentamente através das décadas seguintes. 00:04:33.455 --> 00:04:36.292 Mas sabíamos que os neurônios usavam eletricidade 00:04:36.292 --> 00:04:39.292 e, na Segunda Guerra Mundial, a tecnologia avançou o suficiente 00:04:39.292 --> 00:04:42.122 para iniciar experimentos elétricos reais em neurônios vivos 00:04:42.122 --> 00:04:44.648 para entender melhor seu funcionamento. 00:04:44.648 --> 00:04:48.987 Isso ocorreu na mesma época da invenção dos computadores, 00:04:48.991 --> 00:04:52.095 muito baseado na ideia da modelagem cerebral, 00:04:52.095 --> 00:04:55.204 da "maquinaria inteligente", como foi chamada por Alan Turing, 00:04:55.204 --> 00:04:57.843 um dos pais da ciência da computação. NOTE Paragraph 00:04:57.843 --> 00:05:02.519 Warren McCulloch e Walter Pitts observaram o desenho do córtex visual, 00:05:02.519 --> 00:05:05.462 de Ramón y Cajal, que estou mostrando aqui. 00:05:05.462 --> 00:05:09.948 Este é o córtex que processa as imagens captadas pelo olho. 00:05:10.424 --> 00:05:13.932 E, para eles, isto parecia um diagrama de circuito. 00:05:14.353 --> 00:05:18.132 Então há muitos detalhes no diagrama de McCulloch and Pitts 00:05:18.132 --> 00:05:20.864 que não estão muito certos, mas esta ideia básica 00:05:20.864 --> 00:05:24.823 de que o córtex visual trabalha como uma série de elementos computacionais 00:05:24.823 --> 00:05:27.553 que passam a informação, um para o outro, em cascata, 00:05:27.553 --> 00:05:29.295 está essencialmente correta. NOTE Paragraph 00:05:29.295 --> 00:05:31.593 Vamos falar um pouco 00:05:31.593 --> 00:05:35.665 sobre o que um modelo para processar informações visuais precisaria fazer. 00:05:36.228 --> 00:05:38.969 A tarefa básica de percepção 00:05:38.973 --> 00:05:43.091 é levar uma imagem como esta e dizer: 00:05:43.091 --> 00:05:44.467 "É um pássaro", 00:05:44.467 --> 00:05:47.269 algo muito simples de se fazer com nosso cérebro. 00:05:47.269 --> 00:05:50.730 Mas vocês têm que entender que, para um computador, 00:05:50.754 --> 00:05:53.805 isso era praticamente impossível há alguns anos. 00:05:53.805 --> 00:05:58.641 O paradigma computacional clássico não é uma tarefa simples de ser realizada. NOTE Paragraph 00:05:59.366 --> 00:06:01.918 O que está acontecendo entre os pixels, 00:06:01.942 --> 00:06:05.954 entre a imagem do pássaro e a palavra "pássaro", 00:06:05.954 --> 00:06:08.772 é sobretudo um grupo de neurônios conectados uns aos outros, 00:06:08.772 --> 00:06:11.247 em uma rede neural, conforme mostro aqui. 00:06:11.258 --> 00:06:14.530 Essa conexão neural poderia ser biológica, em nosso córtex visual, 00:06:14.554 --> 00:06:16.680 ou, atualmente, começamos a ter a capacidade 00:06:16.680 --> 00:06:19.194 de modelar tais conexões neurais no computador. 00:06:19.834 --> 00:06:22.171 Eu mostrarei com o que elas realmente se parecem. NOTE Paragraph 00:06:22.171 --> 00:06:25.611 Vocês podem pensar nos pixels como uma primeira camada de neurônios, 00:06:25.611 --> 00:06:29.514 que, na verdade, é como atuam no olho, são os neurônios na retina. 00:06:29.521 --> 00:06:31.085 E eles alimentam 00:06:31.085 --> 00:06:34.528 camada por camada de neurônios, 00:06:34.532 --> 00:06:37.509 todas conectadas por sinapses de diferentes pesos. 00:06:37.509 --> 00:06:39.004 O comportamento dessa rede 00:06:39.004 --> 00:06:42.312 é caracterizado pelas forças de todas aquelas sinapses. 00:06:42.312 --> 00:06:45.564 Elas caracterizam as propriedades computacionais dessa rede. 00:06:45.568 --> 00:06:47.098 E, no final das contas, 00:06:47.098 --> 00:06:49.569 você tem um neurônio, ou um grupo de neurônios, 00:06:49.569 --> 00:06:51.860 que ativam-se, dizendo "pássaro". NOTE Paragraph 00:06:51.860 --> 00:06:54.940 Agora, representarei essas três coisas: 00:06:54.940 --> 00:06:59.560 a entrada de pixels e as sinapses na rede neural, 00:06:59.560 --> 00:07:04.465 e o pássaro, a saída, através de três variáveis: x, w e y. 00:07:04.853 --> 00:07:08.605 Há um milhão ou mais de x, um milhão de pixels nesta imagem. 00:07:08.605 --> 00:07:11.095 Há bilhões ou trilhões de w, 00:07:11.095 --> 00:07:14.556 que representam o peso de todas estas sinapses na rede neural. 00:07:14.560 --> 00:07:18.095 E há um número muito pequeno de y, de saídas que essa rede tem. 00:07:18.095 --> 00:07:20.770 "Pássaro" tem sete letras, certo? 00:07:21.088 --> 00:07:24.498 Então, vamos imaginar que esta seja apenas uma fórmula simples: 00:07:24.498 --> 00:07:26.645 x "x" w = y. 00:07:26.645 --> 00:07:28.801 O sinal de multiplicação fica entre aspas, 00:07:28.801 --> 00:07:31.105 porque, na verdade, o que está acontecendo lá 00:07:31.105 --> 00:07:34.135 é uma série complicada de operações matemáticas. NOTE Paragraph 00:07:35.172 --> 00:07:36.393 É uma equação. 00:07:36.397 --> 00:07:38.053 Há três variáveis, 00:07:38.053 --> 00:07:40.803 e todos nós sabemos que se você tem uma equação, 00:07:40.803 --> 00:07:44.505 pode encontrar uma variável, se souber os outros dois termos. 00:07:45.158 --> 00:07:48.538 Então, o problema de inferência, 00:07:48.542 --> 00:07:51.435 de entender que aquela figura de um pássaro é um pássaro, 00:07:51.439 --> 00:07:56.160 é este: na qual y é desconhecido, mas w e x são conhecidos. 00:07:56.160 --> 00:07:58.663 Conhecendo a rede neural, você conhece os pixels. 00:07:58.663 --> 00:08:02.034 Como podem ver, é um problema relativamente simples. 00:08:02.034 --> 00:08:04.480 Você multiplica duas vezes três e pronto. 00:08:04.862 --> 00:08:07.065 Mostrarei uma rede artificial de neurônios 00:08:07.065 --> 00:08:09.635 que criamos recentemente fazendo exatamente isso. NOTE Paragraph 00:08:09.635 --> 00:08:12.458 Isto está passando em tempo real em um celular, 00:08:12.458 --> 00:08:15.831 e é, claro, surpreendente por si só, 00:08:15.835 --> 00:08:20.587 que celulares possam fazer bilhões e trilhões de operações por segundo. 00:08:20.587 --> 00:08:22.314 Vocês estão olhando para um celular 00:08:22.314 --> 00:08:25.769 vendo uma imagem de pássaro após a outra, 00:08:25.769 --> 00:08:28.488 e, na verdade, não só dizendo: "Sim, é um pássaro", 00:08:28.488 --> 00:08:31.979 mas identificando a espécie do pássaro com uma rede deste tipo. 00:08:32.890 --> 00:08:34.736 Nesta imagem, 00:08:34.740 --> 00:08:38.526 o x e o w são conhecidos e o y é desconhecido. 00:08:38.526 --> 00:08:41.058 Estou encobrindo a parte mais difícil, 00:08:41.058 --> 00:08:44.943 que é como descobrimos o w, 00:08:44.943 --> 00:08:47.134 o cérebro que pode fazer tal coisa? 00:08:47.134 --> 00:08:49.448 Como aprenderíamos tal modelo? NOTE Paragraph 00:08:49.448 --> 00:08:52.651 Este processo de aprendizagem, de descobrir o w, 00:08:52.655 --> 00:08:55.306 se o resolvermos com a equação simples, 00:08:55.306 --> 00:08:57.536 na qual pensamos nestas variáveis como números, 00:08:57.536 --> 00:09:00.057 saberemos, exatamente, como resolvê-la: 6 = 2 x w, 00:09:00.061 --> 00:09:03.393 dividimos por dois e pronto. 00:09:04.001 --> 00:09:06.221 O problema é com este sinal. 00:09:07.238 --> 00:09:11.083 Usamos a divisão porque é o inverso da multiplicação, 00:09:11.083 --> 00:09:12.643 mas, como acabei de dizer, 00:09:12.643 --> 00:09:15.136 a multiplicação não deixa de ser uma mentira aqui. 00:09:15.136 --> 00:09:18.390 Esta é uma operação não-linear muito complicada; 00:09:18.390 --> 00:09:20.118 não existe o inverso. 00:09:20.118 --> 00:09:23.292 Então devemos encontrar uma forma de resolver a equação 00:09:23.292 --> 00:09:25.356 sem um sinal de divisão. 00:09:25.360 --> 00:09:27.707 E a forma de se fazer isso é razoavelmente fácil. 00:09:27.707 --> 00:09:30.418 Você diz: vamos fazer um truque de álgebra 00:09:30.422 --> 00:09:33.332 e mover o seis para a direita da equação. 00:09:33.332 --> 00:09:35.678 Agora, ainda temos uma multiplicação 00:09:35.678 --> 00:09:39.239 e aquele zero, vamos pensar nele como um erro. 00:09:39.239 --> 00:09:41.778 Em outras palavras, se acharmos o w da forma certa 00:09:41.778 --> 00:09:43.418 então o erro será zero. 00:09:43.418 --> 00:09:47.113 Se não conseguirmos isso da forma certa, o erro será maior do que zero. NOTE Paragraph 00:09:47.113 --> 00:09:50.583 Agora podemos criar suposições para diminuir os erros, 00:09:50.583 --> 00:09:53.274 e é o tipo de coisa que computadores fazem muito bem. 00:09:53.274 --> 00:09:56.251 Na primeira suposição: e se w = 0? Bem, o erro será 6. 00:09:56.251 --> 00:09:58.911 E se w = 1? O erro será 4. 00:09:58.911 --> 00:10:03.532 E, então, o computador tentará adivinhar e diminuir o erro para próximo de zero. 00:10:03.532 --> 00:10:06.985 Enquanto isso ocorre, ele está obtendo sucessivas aproximações de w. 00:10:06.985 --> 00:10:10.741 Tipicamente, nunca se chega lá, mas depois de várias etapas, 00:10:10.741 --> 00:10:15.349 estamos próximos de w = 2,999, o que é bem próximo. 00:10:16.302 --> 00:10:18.156 E esse é o processo de aprendizagem. NOTE Paragraph 00:10:18.156 --> 00:10:22.176 Lembrem-se de que estamos pegando 00:10:22.176 --> 00:10:25.176 muitos x e y conhecidos 00:10:25.176 --> 00:10:28.734 e resolvendo o w no meio disso, através de um processo interativo. 00:10:28.734 --> 00:10:32.330 É exatamente assim que construímos nossa própria aprendizagem. 00:10:32.334 --> 00:10:34.644 Quando somos bebês nos mostram imagens 00:10:34.644 --> 00:10:37.331 e nos dizem: "Isso é um pássaro; isso não é um pássaro". 00:10:37.714 --> 00:10:39.876 Com o passar do tempo, através da interação, 00:10:39.876 --> 00:10:42.764 nós encontramos o w, encontramos essas conexões neurais. NOTE Paragraph 00:10:43.460 --> 00:10:47.510 Agora mantemos o valor de x e w para resolver y; 00:10:47.510 --> 00:10:49.557 isso acontece todo dia, percepção rápida. 00:10:49.557 --> 00:10:51.198 Compreendemos como achar w, 00:10:51.198 --> 00:10:53.481 isso é aprendizagem, o que é muito mais difícil, 00:10:53.481 --> 00:10:57.180 pois precisamos minimizar os erros, usando vários exemplos de treinamento. NOTE Paragraph 00:10:57.180 --> 00:11:00.046 Há aproximadamente um ano, Alex Mordvintsev, da nossa equipe, 00:11:00.046 --> 00:11:03.636 decidiu experimentar o que aconteceria se tentássemos encontrar x, 00:11:03.640 --> 00:11:05.964 conhecendo os valores de w e y. 00:11:05.964 --> 00:11:07.069 Em outras palavras, 00:11:07.069 --> 00:11:08.731 você sabe que isto é um pássaro, 00:11:08.731 --> 00:11:11.978 e já tem sua rede neural que treinou com pássaros, 00:11:11.982 --> 00:11:14.346 mas o que é a figura de um pássaro? 00:11:15.034 --> 00:11:20.022 Ocorre que, usando o mesmo procedimento de minimização de erros, 00:11:20.022 --> 00:11:23.512 pode-se fazer isso com a rede treinada para reconhecer pássaros 00:11:23.516 --> 00:11:26.924 e o resultado será... 00:11:30.400 --> 00:11:32.185 uma imagem de pássaros. 00:11:32.814 --> 00:11:36.375 Essa é uma imagem de pássaros totalmente gerada por uma rede neural, 00:11:36.375 --> 00:11:38.571 a qual foi treinada para reconhecer pássaros, 00:11:38.571 --> 00:11:43.545 apenas resolvendo x em vez de y, fazendo isso de forma interativa. NOTE Paragraph 00:11:43.545 --> 00:11:45.799 Aqui tem um outro exemplo divertido. 00:11:45.799 --> 00:11:49.024 Esse foi um trabalho de Mike Tyka, em nosso grupo, 00:11:49.024 --> 00:11:51.336 que ele chamou de "Desfile Animal". 00:11:51.336 --> 00:11:54.256 Faz lembrar um pouco obras de arte de William Kentridge, 00:11:54.256 --> 00:11:59.019 na qual ele faz desenhos e os apaga, sucessivamente, e cria um filme assim. 00:11:59.019 --> 00:12:04.120 Neste caso, Mike varia o y no espaço de diferentes animais, 00:12:04.120 --> 00:12:07.607 numa rede desenvolvida para reconhecer e distinguir diferentes animais. 00:12:07.607 --> 00:12:12.582 E você consegue essa estranha mudança de um animal para outro, estilo Escher. NOTE Paragraph 00:12:14.221 --> 00:12:18.819 Aqui, Alex e ele, juntos, tentaram reduzir 00:12:18.819 --> 00:12:21.602 o y a um espaço de duas dimensões, 00:12:21.602 --> 00:12:25.044 fazendo assim um mapa fora do espaço de todas as coisas 00:12:25.044 --> 00:12:26.863 reconhecidas por essa rede. 00:12:26.863 --> 00:12:28.834 Fazendo esse tipo de síntese 00:12:28.834 --> 00:12:31.276 ou geração de imagem sobre essa superfície inteira, 00:12:31.280 --> 00:12:34.226 variando y sobre a superfície, você cria um mapa visual 00:12:34.226 --> 00:12:37.275 de todas as coisas que a rede consegue reconhecer. 00:12:37.275 --> 00:12:40.200 Todos os animas estão aqui; o tatu está bem naquele canto. NOTE Paragraph 00:12:40.919 --> 00:12:43.352 Você também pode fazer isso com outras redes. 00:12:43.352 --> 00:12:46.280 Essa é uma rede criada para reconhecer faces, 00:12:46.280 --> 00:12:48.320 distinguir uma face de outra. 00:12:48.324 --> 00:12:53.016 E, aqui, colocamos um y que seria "eu", parâmetros da minha própria face. 00:12:53.016 --> 00:12:57.908 E quando essa rede encontra x, ela gera essa imagem doida, 00:12:57.908 --> 00:13:02.016 um estilo cubismo, surreal, uma figura psicodélica de mim 00:13:02.016 --> 00:13:03.826 a partir de múltiplos pontos de vista. 00:13:03.826 --> 00:13:06.734 A razão de parecer com múltiplos pontos de vista de uma só vez 00:13:06.734 --> 00:13:10.179 é porque a rede é criada para conseguir se livrar da ambiguidade 00:13:10.179 --> 00:13:12.779 de uma face em uma pose ou outra, 00:13:12.779 --> 00:13:16.209 sendo olhada com um tipo ou outro de luz. 00:13:16.209 --> 00:13:18.258 Então, quando faz esse tipo de reconstrução, 00:13:18.258 --> 00:13:21.887 se você não usar algum guia de imagem ou de estatística, 00:13:21.887 --> 00:13:25.640 pode ficar confuso, devido a diferentes pontos de vista, 00:13:25.640 --> 00:13:27.368 porque isso é ambíguo. 00:13:27.786 --> 00:13:31.993 Isto é o que acontece se Alex usar sua própria face como guia de imagem 00:13:31.993 --> 00:13:35.354 durante o processo de otimização para reconstruir minha face. 00:13:36.284 --> 00:13:38.576 Então, podem ver que não é perfeito. 00:13:38.576 --> 00:13:40.334 Ainda há muito trabalho a fazer 00:13:40.334 --> 00:13:42.971 sobre como otimizar aquele processo de otimização. 00:13:42.971 --> 00:13:45.822 Mas começa a ter algo como uma face coerente, 00:13:45.822 --> 00:13:48.106 acabando por usar minha própria face como guia. NOTE Paragraph 00:13:48.892 --> 00:13:52.437 Não é preciso começar com uma tela em branco ou com ruído branco. 00:13:52.437 --> 00:13:53.981 Quando se está resolvendo x, 00:13:53.981 --> 00:13:57.778 pode-se começar com um x, que, por si só, já é outra imagem. 00:13:57.778 --> 00:14:00.378 Isto é o que representa esta pequena demonstração. 00:14:00.378 --> 00:14:04.540 Isto é uma rede desenhada para categorizar 00:14:04.564 --> 00:14:07.647 todo tipo de diferentes objetos, criações humanas, animais... 00:14:07.647 --> 00:14:10.284 Aqui começamos apenas com uma figura de nuvens, 00:14:10.284 --> 00:14:11.979 e enquanto otimizamos, 00:14:11.979 --> 00:14:16.505 basicamente, esta rede está descobrindo o que se vê nas nuvens. 00:14:16.931 --> 00:14:19.251 E quanto mais você olha pra isso, 00:14:19.275 --> 00:14:22.028 mais coisas também verá nas nuvens. 00:14:23.004 --> 00:14:26.343 Poderia também usar a rede da face para ficar alucinado, 00:14:26.343 --> 00:14:28.535 então verá umas coisas muito loucas. NOTE Paragraph 00:14:28.535 --> 00:14:29.869 (Risos) NOTE Paragraph 00:14:30.401 --> 00:14:33.129 Mike fez algumas outras experiências, 00:14:33.129 --> 00:14:37.058 nas quais leva a imagem da nuvem, 00:14:37.058 --> 00:14:40.569 e ele alucina e aproxima, sucessivamente, 00:14:40.569 --> 00:14:41.800 e dessa forma, 00:14:41.804 --> 00:14:45.443 pode ter uma espécie de estado de fuga da rede, suponho, 00:14:45.443 --> 00:14:49.167 ou um tipo de associação livre, 00:14:49.167 --> 00:14:51.494 em que a rede morde sua própria cauda. 00:14:51.494 --> 00:14:56.148 Assim, toda imagem é base para a pergunta: "O que acho que verei agora? 00:14:56.148 --> 00:14:59.151 O que acho que verei agora? O que acho que verei agora?" NOTE Paragraph 00:14:59.487 --> 00:15:02.423 Mostrei isso pela primeira vez em público, 00:15:02.427 --> 00:15:05.868 a um grupo, numa palestra em Seattle, 00:15:05.868 --> 00:15:07.848 chamado "Educação Maior"; 00:15:07.848 --> 00:15:10.385 isso aconteceu assim que a maconha foi legalizada. NOTE Paragraph 00:15:10.385 --> 00:15:12.004 (Risos) NOTE Paragraph 00:15:14.627 --> 00:15:16.731 Então, quero terminar logo, 00:15:16.735 --> 00:15:20.994 mencionando que esta tecnologia não está restrita. 00:15:20.994 --> 00:15:24.683 Mostrei a vocês exemplos puramente visuais porque são divertidos de se ver. 00:15:24.683 --> 00:15:27.158 Esta não é uma tecnologia exclusivamente visual. 00:15:27.158 --> 00:15:29.231 Nosso colaborador, Ross Goodwin, 00:15:29.231 --> 00:15:32.850 fez experiências envolvendo uma câmera que tira a foto, 00:15:32.850 --> 00:15:37.028 e aí, um computador na sua mochila, escreve um poema usando redes neurais, 00:15:37.028 --> 00:15:39.112 baseados nos conteúdos da imagem. 00:15:39.116 --> 00:15:42.047 E aquela poesia de rede neural tem sido treinada 00:15:42.047 --> 00:15:44.305 num grande corpus de poesia do século 20. 00:15:44.305 --> 00:15:47.746 E a poesia, na verdade, não é tão ruim, eu acho. NOTE Paragraph 00:15:47.746 --> 00:15:49.154 (Risos) NOTE Paragraph 00:15:49.154 --> 00:15:50.453 Para fechar, 00:15:50.453 --> 00:15:53.757 acho que Michelangelo estava certo: 00:15:53.757 --> 00:15:57.267 percepção e criatividade estão intimamente ligadas. 00:15:57.611 --> 00:16:00.245 O que vimos são apenas redes neurais, 00:16:00.249 --> 00:16:02.556 que estão totalmente treinadas para discriminar 00:16:02.556 --> 00:16:04.898 ou reconhecer coisas diferentes no mundo, 00:16:04.898 --> 00:16:08.007 capazes de trabalhar em sentido contrário para produzir. 00:16:08.007 --> 00:16:09.870 Uma das coisas que me vem à cabeça 00:16:09.870 --> 00:16:14.632 é que não só Michelangelo viu a escultura nos blocos de pedra, 00:16:14.632 --> 00:16:18.374 mas qualquer criatura, qualquer ser, alienígena, 00:16:18.374 --> 00:16:21.975 que é capaz de fazer atos de percepção desse tipo, 00:16:21.975 --> 00:16:23.570 também é capaz de criar, 00:16:23.570 --> 00:16:26.702 porque é exatamente a mesma máquina usada nos dois casos. NOTE Paragraph 00:16:26.702 --> 00:16:32.194 Também penso que percepção e criatividade não são exclusivamente humanas. 00:16:32.532 --> 00:16:36.224 Temos modelos de computadores capazes de fazer justamente esse tipo de coisa, 00:16:36.224 --> 00:16:39.576 e não deveria ser surpreendente, pois o cérebro é computacional. NOTE Paragraph 00:16:39.576 --> 00:16:41.273 E finalmente, 00:16:41.277 --> 00:16:45.929 a computação começou como um exercício de planejar maquinaria inteligente. 00:16:45.929 --> 00:16:48.435 Foi muito pensado na ideia 00:16:48.435 --> 00:16:51.472 de como faríamos as máquinas ficarem inteligentes. 00:16:51.472 --> 00:16:53.704 E agora, estamos finalmente começando a cumprir 00:16:53.704 --> 00:16:56.144 algumas das promessas daqueles pioneiros, 00:16:56.144 --> 00:17:00.074 de Turing e Von Neumann, e McCulloch e Pitts. 00:17:00.074 --> 00:17:04.236 E acho que computação não é apenas números 00:17:04.236 --> 00:17:06.407 ou jogar Candy Crush ou algo assim. 00:17:06.407 --> 00:17:09.229 No começo, modelamos as máquinas segundo as nossas mentes. 00:17:09.229 --> 00:17:12.318 E elas nos dão tanto a habilidade de entender melhor nossa mente 00:17:12.322 --> 00:17:14.191 como de expandi-la. NOTE Paragraph 00:17:14.627 --> 00:17:15.854 Muito obrigado. NOTE Paragraph 00:17:15.854 --> 00:17:17.577 (Aplausos)