Coordeno uma equipe no Google que lida com I.A.; em outras palavras, a engenharia de fazer computadores e aparelhos capazes de criar coisas que o cérebro faz. E isso faz com que nos interessemos por cérebros reais e também por neurociência, e nos interessamos, principalmente, por coisas que nosso cérebro faz que ainda são muito superiores à performance dos computadores. Historicamente, uma das áreas tem sido percepção, o processo pelo qual as coisas abstratas, sons e imagens, podem se tornar conceitos na mente. Isso é essencial para o nosso cérebro e também muito útil em um computador. Os algorítimos de percepção artificial, criados por nós, por exemplo, são o que permitem que suas fotos do Google Fotos sejam pesquisáveis, baseando-se no que há nelas. O oposto da percepção é a criatividade: transformar um conceito em algo lá fora, para o mundo. Então, ao longo do ano passado, nosso trabalho de percepção artificial também se uniu, inesperadamente, ao mundo da criatividade artificial e da arte digital. Acho que Michelangelo teve um insight profundo a respeito da relação entre percepção e criatividade. Esta é uma famosa citação dele: "Cada bloco de pedra tem uma escultura interna, e o trabalho do escultor é descobri-la." Então, penso que Michelangelo estava querendo dizer que nós criamos, através da percepção, e que a percepção por si é um ato de imaginação e é a tal da criatividade. O órgão que cria todo pensamento, percepção e imaginação, é certamente, o cérebro. E eu quero começar com um pouquinho de história sobre o que sabemos sobre cérebros. Porque, diferente do coração e dos intestinos, você não consegue falar muito sobre o cérebro só olhando pra ele, pelo menos a olho nu. Os primeiros anatomistas que observaram cérebros deram às estruturas superficiais todo tipo de nomes fantásticos, como hipocampo, significando "camarãozinho". Mas claro que esse tipo de coisa não nos diz muito sobre o que acontece lá dentro. A primeira pessoa que eu acho, que, de fato, desenvolveu algum insight sobre o que acontecia no cérebro foi o grande neuroanatomista espanhol, Santiago Ramón y Cajal, no século 19, usando microscópio e reagentes especiais, que puderam, seletivamente, preencher ou converter em contraste muito elevado, as células individuais do cérebro, para conseguir entender a morfologia delas. E estes são os tipos de desenhos que ele fez dos neurônios no século 19. Este é de um cérebro de pássaro. E vemos esta incrível variedade de diferentes tipos de células, até mesmo a própria teoria celular era recente nessa época. E estas estruturas, estas células que têm essas ramificações, que podem percorrer distâncias muito longas, tudo era novidade na época. Elas são reminiscência de fios, claro. Isso pode ter sido óbvio para algumas pessoas no século 19; as revoluções de telefonia e eletricidade estavam apenas começando. Mas de muitas maneiras, esses desenhos microanatômicos do Ramón y Cajal, como este, ainda são, em alguns pontos, insuperáveis. Ainda, depois de um século, estamos tentando concluir aquilo que Ramón y Cajal começou. Estes são dados brutos de nossos colaboradores no Instituto de Neurociência Max Planck. E nossos colaboradores estão representando partículas de tecido cerebral. Esta amostra tem aproximadamente um milímetro cúbico, e estou mostrando uma parte minúscula dela aqui. Aquela barra da esquerda tem em torno de um mícron. As estruturas que veem são mitocôndrias, que são do tamanho de uma bactéria. E estas são fatias consecutivas através deste minúsculo bloco de tecido. Apenas para efeito de comparação, o diâmetro de um fio médio de cabelo é de aproximadamente 100 microns. Então, estamos olhando para algo bem menor do que um simples fio de cabelo. E a partir desses tipos de partículas microscópicas de elétrons de série, podemos começar a reconstruir neurônios em 3D, como estes. Estes são do mesmo estilo do Ramón y Cajal. Poucos neurônios destacaram-se, pois, caso contrário, não conseguiríamos ver nada aqui. Estaria lotado, muito cheio de estruturas, de neurônios comunicando-se entre si. Ramón y Cajal estava um pouco à frente de seu tempo, e o progresso do entendimento do cérebro seguiu lentamente através das décadas seguintes. Mas sabíamos que os neurônios usavam eletricidade e, na Segunda Guerra Mundial, a tecnologia avançou o suficiente para iniciar experimentos elétricos reais em neurônios vivos para entender melhor seu funcionamento. Isso ocorreu na mesma época da invenção dos computadores, muito baseado na ideia da modelagem cerebral, da "maquinaria inteligente", como foi chamada por Alan Turing, um dos pais da ciência da computação. Warren McCulloch e Walter Pitts observaram o desenho do córtex visual, de Ramón y Cajal, que estou mostrando aqui. Este é o córtex que processa as imagens captadas pelo olho. E, para eles, isto parecia um diagrama de circuito. Então há muitos detalhes no diagrama de McCulloch and Pitts que não estão muito certos, mas esta ideia básica de que o córtex visual trabalha como uma série de elementos computacionais que passam a informação, um para o outro, em cascata, está essencialmente correta. Vamos falar um pouco sobre o que um modelo para processar informações visuais precisaria fazer. A tarefa básica de percepção é levar uma imagem como esta e dizer: "É um pássaro", algo muito simples de se fazer com nosso cérebro. Mas vocês têm que entender que, para um computador, isso era praticamente impossível há alguns anos. O paradigma computacional clássico não é uma tarefa simples de ser realizada. O que está acontecendo entre os pixels, entre a imagem do pássaro e a palavra "pássaro", é sobretudo um grupo de neurônios conectados uns aos outros, em uma rede neural, conforme mostro aqui. Essa conexão neural poderia ser biológica, em nosso córtex visual, ou, atualmente, começamos a ter a capacidade de modelar tais conexões neurais no computador. Eu mostrarei com o que elas realmente se parecem. Vocês podem pensar nos pixels como uma primeira camada de neurônios, que, na verdade, é como atuam no olho, são os neurônios na retina. E eles alimentam camada por camada de neurônios, todas conectadas por sinapses de diferentes pesos. O comportamento dessa rede é caracterizado pelas forças de todas aquelas sinapses. Elas caracterizam as propriedades computacionais dessa rede. E, no final das contas, você tem um neurônio, ou um grupo de neurônios, que ativam-se, dizendo "pássaro". Agora, representarei essas três coisas: a entrada de pixels e as sinapses na rede neural, e o pássaro, a saída, através de três variáveis: x, w e y. Há um milhão ou mais de x, um milhão de pixels nesta imagem. Há bilhões ou trilhões de w, que representam o peso de todas estas sinapses na rede neural. E há um número muito pequeno de y, de saídas que essa rede tem. "Pássaro" tem sete letras, certo? Então, vamos imaginar que esta seja apenas uma fórmula simples: x "x" w = y. O sinal de multiplicação fica entre aspas, porque, na verdade, o que está acontecendo lá é uma série complicada de operações matemáticas. É uma equação. Há três variáveis, e todos nós sabemos que se você tem uma equação, pode encontrar uma variável, se souber os outros dois termos. Então, o problema de inferência, de entender que aquela figura de um pássaro é um pássaro, é este: na qual y é desconhecido, mas w e x são conhecidos. Conhecendo a rede neural, você conhece os pixels. Como podem ver, é um problema relativamente simples. Você multiplica duas vezes três e pronto. Mostrarei uma rede artificial de neurônios que criamos recentemente fazendo exatamente isso. Isto está passando em tempo real em um celular, e é, claro, surpreendente por si só, que celulares possam fazer bilhões e trilhões de operações por segundo. Vocês estão olhando para um celular vendo uma imagem de pássaro após a outra, e, na verdade, não só dizendo: "Sim, é um pássaro", mas identificando a espécie do pássaro com uma rede deste tipo. Nesta imagem, o x e o w são conhecidos e o y é desconhecido. Estou encobrindo a parte mais difícil, que é como descobrimos o w, o cérebro que pode fazer tal coisa? Como aprenderíamos tal modelo? Este processo de aprendizagem, de descobrir o w, se o resolvermos com a equação simples, na qual pensamos nestas variáveis como números, saberemos, exatamente, como resolvê-la: 6 = 2 x w, dividimos por dois e pronto. O problema é com este sinal. Usamos a divisão porque é o inverso da multiplicação, mas, como acabei de dizer, a multiplicação não deixa de ser uma mentira aqui. Esta é uma operação não-linear muito complicada; não existe o inverso. Então devemos encontrar uma forma de resolver a equação sem um sinal de divisão. E a forma de se fazer isso é razoavelmente fácil. Você diz: vamos fazer um truque de álgebra e mover o seis para a direita da equação. Agora, ainda temos uma multiplicação e aquele zero, vamos pensar nele como um erro. Em outras palavras, se acharmos o w da forma certa então o erro será zero. Se não conseguirmos isso da forma certa, o erro será maior do que zero. Agora podemos criar suposições para diminuir os erros, e é o tipo de coisa que computadores fazem muito bem. Na primeira suposição: e se w = 0? Bem, o erro será 6. E se w = 1? O erro será 4. E, então, o computador tentará adivinhar e diminuir o erro para próximo de zero. Enquanto isso ocorre, ele está obtendo sucessivas aproximações de w. Tipicamente, nunca se chega lá, mas depois de várias etapas, estamos próximos de w = 2,999, o que é bem próximo. E esse é o processo de aprendizagem. Lembrem-se de que estamos pegando muitos x e y conhecidos e resolvendo o w no meio disso, através de um processo interativo. É exatamente assim que construímos nossa própria aprendizagem. Quando somos bebês nos mostram imagens e nos dizem: "Isso é um pássaro; isso não é um pássaro". Com o passar do tempo, através da interação, nós encontramos o w, encontramos essas conexões neurais. Agora mantemos o valor de x e w para resolver y; isso acontece todo dia, percepção rápida. Compreendemos como achar w, isso é aprendizagem, o que é muito mais difícil, pois precisamos minimizar os erros, usando vários exemplos de treinamento. Há aproximadamente um ano, Alex Mordvintsev, da nossa equipe, decidiu experimentar o que aconteceria se tentássemos encontrar x, conhecendo os valores de w e y. Em outras palavras, você sabe que isto é um pássaro, e já tem sua rede neural que treinou com pássaros, mas o que é a figura de um pássaro? Ocorre que, usando o mesmo procedimento de minimização de erros, pode-se fazer isso com a rede treinada para reconhecer pássaros e o resultado será... uma imagem de pássaros. Essa é uma imagem de pássaros totalmente gerada por uma rede neural, a qual foi treinada para reconhecer pássaros, apenas resolvendo x em vez de y, fazendo isso de forma interativa. Aqui tem um outro exemplo divertido. Esse foi um trabalho de Mike Tyka, em nosso grupo, que ele chamou de "Desfile Animal". Faz lembrar um pouco obras de arte de William Kentridge, na qual ele faz desenhos e os apaga, sucessivamente, e cria um filme assim. Neste caso, Mike varia o y no espaço de diferentes animais, numa rede desenvolvida para reconhecer e distinguir diferentes animais. E você consegue essa estranha mudança de um animal para outro, estilo Escher. Aqui, Alex e ele, juntos, tentaram reduzir o y a um espaço de duas dimensões, fazendo assim um mapa fora do espaço de todas as coisas reconhecidas por essa rede. Fazendo esse tipo de síntese ou geração de imagem sobre essa superfície inteira, variando y sobre a superfície, você cria um mapa visual de todas as coisas que a rede consegue reconhecer. Todos os animas estão aqui; o tatu está bem naquele canto. Você também pode fazer isso com outras redes. Essa é uma rede criada para reconhecer faces, distinguir uma face de outra. E, aqui, colocamos um y que seria "eu", parâmetros da minha própria face. E quando essa rede encontra x, ela gera essa imagem doida, um estilo cubismo, surreal, uma figura psicodélica de mim a partir de múltiplos pontos de vista. A razão de parecer com múltiplos pontos de vista de uma só vez é porque a rede é criada para conseguir se livrar da ambiguidade de uma face em uma pose ou outra, sendo olhada com um tipo ou outro de luz. Então, quando faz esse tipo de reconstrução, se você não usar algum guia de imagem ou de estatística, pode ficar confuso, devido a diferentes pontos de vista, porque isso é ambíguo. Isto é o que acontece se Alex usar sua própria face como guia de imagem durante o processo de otimização para reconstruir minha face. Então, podem ver que não é perfeito. Ainda há muito trabalho a fazer sobre como otimizar aquele processo de otimização. Mas começa a ter algo como uma face coerente, acabando por usar minha própria face como guia. Não é preciso começar com uma tela em branco ou com ruído branco. Quando se está resolvendo x, pode-se começar com um x, que, por si só, já é outra imagem. Isto é o que representa esta pequena demonstração. Isto é uma rede desenhada para categorizar todo tipo de diferentes objetos, criações humanas, animais... Aqui começamos apenas com uma figura de nuvens, e enquanto otimizamos, basicamente, esta rede está descobrindo o que se vê nas nuvens. E quanto mais você olha pra isso, mais coisas também verá nas nuvens. Poderia também usar a rede da face para ficar alucinado, então verá umas coisas muito loucas. (Risos) Mike fez algumas outras experiências, nas quais leva a imagem da nuvem, e ele alucina e aproxima, sucessivamente, e dessa forma, pode ter uma espécie de estado de fuga da rede, suponho, ou um tipo de associação livre, em que a rede morde sua própria cauda. Assim, toda imagem é base para a pergunta: "O que acho que verei agora? O que acho que verei agora? O que acho que verei agora?" Mostrei isso pela primeira vez em público, a um grupo, numa palestra em Seattle, chamado "Educação Maior"; isso aconteceu assim que a maconha foi legalizada. (Risos) Então, quero terminar logo, mencionando que esta tecnologia não está restrita. Mostrei a vocês exemplos puramente visuais porque são divertidos de se ver. Esta não é uma tecnologia exclusivamente visual. Nosso colaborador, Ross Goodwin, fez experiências envolvendo uma câmera que tira a foto, e aí, um computador na sua mochila, escreve um poema usando redes neurais, baseados nos conteúdos da imagem. E aquela poesia de rede neural tem sido treinada num grande corpus de poesia do século 20. E a poesia, na verdade, não é tão ruim, eu acho. (Risos) Para fechar, acho que Michelangelo estava certo: percepção e criatividade estão intimamente ligadas. O que vimos são apenas redes neurais, que estão totalmente treinadas para discriminar ou reconhecer coisas diferentes no mundo, capazes de trabalhar em sentido contrário para produzir. Uma das coisas que me vem à cabeça é que não só Michelangelo viu a escultura nos blocos de pedra, mas qualquer criatura, qualquer ser, alienígena, que é capaz de fazer atos de percepção desse tipo, também é capaz de criar, porque é exatamente a mesma máquina usada nos dois casos. Também penso que percepção e criatividade não são exclusivamente humanas. Temos modelos de computadores capazes de fazer justamente esse tipo de coisa, e não deveria ser surpreendente, pois o cérebro é computacional. E finalmente, a computação começou como um exercício de planejar maquinaria inteligente. Foi muito pensado na ideia de como faríamos as máquinas ficarem inteligentes. E agora, estamos finalmente começando a cumprir algumas das promessas daqueles pioneiros, de Turing e Von Neumann, e McCulloch e Pitts. E acho que computação não é apenas números ou jogar Candy Crush ou algo assim. No começo, modelamos as máquinas segundo as nossas mentes. E elas nos dão tanto a habilidade de entender melhor nossa mente como de expandi-la. Muito obrigado. (Aplausos)