Lidero uma equipa do Google que trabalha com inteligência artificial. Por outras palavras, cria computadores e dispositivos capazes de fazer coisas que o cérebro faz. Portanto, estamos muito interessados em cérebros de verdade e também na neurociência, e especialmente interessados nas coisas que o nosso cérebro faz com um desempenho muito superior ao dos computadores. Historicamente, uma dessas áreas tem sido a perceção, o processo pelo qual as coisas lá fora, no mundo — sons e imagens — podem tornar-se conceitos no nosso espírito. Isto é essencial para o nosso próprio cérebro e também é muito útil num computador. Os algoritmos de perceção das máquinas, como os que a nossa equipa faz, são os que possibilitam encontrar as nossas imagens no Google Photos com base no que contêm. O outro lado da perceção é a criatividade que traduz um conceito numa coisa que existe no mundo. Ao longo do ano passado, o nosso trabalho sobre a perceção das máquinas também se ligou inesperadamente ao mundo da criatividade das máquinas e da arte das máquinas. Eu acho que Miguel Ângelo teve uma visão perspicaz quanto a esta dupla relação entre perceção e criatividade. Esta é uma sua famosa citação: "Cada bloco de pedra tem uma estátua lá dentro. "O papel do escultor é descobri-la." Eu acho que Miguel Ângelo queria exprimir que nós criamos através da perceção e que essa perceção em si é um ato de imaginação e é a matéria-prima da criatividade. O órgão que processa todo o pensamento, a perceção e a imaginação, claro, é o cérebro. Gostaria de começar com um pequeno resumo da história sobre o que sabemos sobre o cérebro. Porque, ao contrário do coração ou dos intestinos, não podemos dizer muito sobre o cérebro, apenas olhando para ele pelo menos, a olho nu. Os primeiros anatomistas que olharam para o cérebro deram à sua estrutura superficial todo o tipo de nomes fantasiosos como hipocampo, que significa "cavalo-marinho." Mas com certeza, esse tipo de coisas não nos diz muito sobre o que de facto acontece dentro dele. Acho que a primeira pessoa que lançou alguma luz sobre o que ocorria dentro do cérebro foi o grande neuroanatomista espanhol Santiago Ramón y Cajal, no século XIX, que usou a microscopia e corantes especiais que podiam colorir seletivamente ou criar um alto contraste as células individuais dentro do cérebro, para começar a entender a sua morfologia. Estes são os tipos de desenhos de neurónios, que ele fez no século XIX. Este é de um cérebro de pássaro. Vemos esta incrível variedade de diferentes tipos de células. Até a própria teoria celular era praticamente nova nesta altura. Estas estruturas, estas células que têm estas ramificações, estes ramos que podem percorrer grandes distâncias, eram uma novidade na época. Claro que nos fazem lembrar cabos. No século XIX, isso talvez fosse óbvio para algumas pessoas, a revolução da cablagem elétrica estava apenas a começar. Mas, de várias maneiras, esses desenhos microanatómicos de Ramón y Cajal, como este, ainda são, de certa forma, insuperáveis. Mais de cem anos depois, continuamos a tentar terminar o trabalho que Ramón y Cajal iniciou. Estes são dados brutos dos nossos colaboradores do Instituto de Neurociência Max Planck. Os nossos colaboradores têm fotografado pequenos pedaços de tecido cerebral. A amostra total aqui tem cerca de um milímetro cúbico de tamanho e estou a mostrar aqui apenas um pequeno pedaço. Aquela barra à esquerda tem mais ou menos um mícron. As estruturas que vemos são mitocôndrias que têm o tamanho de uma bactéria. E estas são cortes consecutivos desse bloco de tecido muito pequeno. Só para efeitos de comparação, o diâmetro médio de um cabelo é de cerca de 100 mícrons. Portanto, estamos a olhar para uma coisa muito menor do que um simples cabelo. A partir deste tipo de cortes em série vistos ao microscópio eletrónico, podemos fazer reconstruções em 3D de neurónios, como estes. Estes são do mesmo estilo dos de Ramón y Cajal. Só se iluminam alguns neurónios, senão, não conseguiríamos ver nada. Ficaria muito sobrecarregado, cheio de estruturas de cabos, ligando os neurónios uns aos outros. Ramón y Cajal estava avançado para a sua época e o progresso na compreensão do cérebro prosseguiu devagar durante as décadas seguintes. Mas nós sabíamos que os neurónios usavam a eletricidade. Com a II Guerra Mundial, a nossa tecnologia avançou bastante para iniciar experiências elétricas em neurónios vivos, para melhor entender como eles funcionavam. Foi na mesma época em que foram inventados os computadores, com base sobretudo na ideia de imitar o cérebro — uma "máquina inteligente", como lhe chamou Alan Turing, um dos pais da informática. Warren McCulloch e Walter Pitts olharam para o desenho de Ramón y Cajal do córtex visual, que estou a mostrar aqui. Este é o córtex que processa as imagens que provêm dos olhos. Para eles, isto parecia o diagrama de um circuito. Há muitos detalhes no diagrama no circuito de McCulloch e de Pitt que não estão lá muito corretos. Mas a ideia básica de que o córtex visual funciona como uma série de elementos eletrónicos que passam informações de um para outro, em cascata, está essencialmente correta. Vamos falar por momentos do que um modelo de processamento de informações visuais precisaria de fazer. A tarefa básica da perceção é pegar numa imagem como esta e dizer: "Isto é uma ave", o que é uma coisa muito simples que fazermos com o cérebro. Mas devem compreender que, para um computador, isso era praticamente impossível, até há poucos anos. O paradigma clássico da informática não permite realizar facilmente essa tarefa. Então, o que acontece entre os píxeis, entre a imagem de um pássaro e a palavra "ave", é uma série de neurónios ligados uns aos outros numa rede neural como este diagrama aqui. Esta rede neural pode ser biológica, como no córtex visual, ou, atualmente, começamos a ter a capacidade de modelar estas redes neurais no computador. Vou mostrar o aspeto que isso tem. Podemos considerar os píxeis como uma primeira camada de neurónio — e, de facto, é assim que funciona o olho — são os neurónios na retina. e eles transmitem as informações camada após camada, após camada de neurónios, todos ligados através de sinapses de diferentes pesos. O comportamento desta rede é caracterizado pelas forças de todas estas sinapses. Elas caracterizam as propriedades informáticas dessa rede. E por fim, temos um neurónio ou um pequeno grupo de neurónios que se iluminam, dizendo: "ave". Agora vou representar essas três coisas — os píxeis de entrada e as sinapses na rede neural, e a ave, o resultado — por três variáveis: x, w e y. Há talvez um milhão de x, um milhão de píxeis nesta imagem. Há milhares de milhões ou biliões de w, que representam os pesos de todas essas sinapses na rede neural. E há um pequeno número de y, de resultados que essa rede neural tem. "Ave" tem apenas três letras, não é? Então vamos supor que isso é uma fórmula simples, x "vezes" w = y. Coloco o sinal de multiplicação entre aspas porque o que realmente está ali a acontecer, é uma série muito complicada de operações matemáticas Isto é uma equação. Há três variáveis. Todos nós sabemos que, se temos uma equação, podemos encontrar uma variável se conhecermos as outras duas. Assim, o problema da inferência, ou seja, descobrir que a figura de uma ave é uma ave, é o seguinte: É onde y é a incógnita e w e x são conhecidos. Conhecemos a rede neural, conhecemos os píxeis. Como podemos ver, isto é de facto um problema relativamente simples. Multiplicamos duas vezes três e está feito. Vou mostrar uma rede neural artificial que construímos há pouco tempo, fazendo exatamente isso. Isto está a correr em tempo real num telemóvel e, claro, é incrível, só por si, que os telemóveis possam fazer milhares de milhões ou ou biliões de operações por segundo. O que estamos a ver é um telemóvel a olhar para figuras de aves, umas atrás das outras, a dizer: "Sim, isto é uma ave", e também a identificar as espécies de aves com uma rede deste tipo. Assim, nesta imagem, o x e o w são conhecidos, e o y é a incógnita. Claro, estou a encobrir a parte mais difícil, que é como podemos descobrir o valor de w, como é que o cérebro pode fazer tal coisa? Como poderemos aprender esse modelo? Este processo de aprendizagem, de encontrar o w, se estivéssemos a fazer isso com uma simples equação em que utilizamos números, sabemos exatamente como fazer isso: 6 = 2 x w. Dividimos por dois e está feito. O problema é com este operador. a divisão. Usamos a divisão porque é o inverso da multiplicação mas, como acabei de dizer, a multiplicação aqui é uma pequena mentira. Esta é uma operação muito complicada, não é linear, não tem forma inversa. Então temos de descobrir uma forma de resolver a equação sem um operador de divisão. A forma de fazer isso é bem simples. Basta dizer: "Vamos brincar com os truques da álgebra" e movemos o seis para o lado direito da equação. Continuamos a usar a multiplicação. E vamos pensar naquele zero como um erro. Por outras palavras, se resolvermos da forma correta, o erro será zero. E se não resolvemos corretamente, o erro será maior do que zero. Então podemos apenas dar palpites para minimizar o erro. Esse é o tipo de coisas em que os computadores são muito bons. Assim, temos um palpite inicial: E se w = 0? Então o erro é seis. E se w = 1? Então o erro é 4. Então o computador pode fazer de Marco Polo, e diminuir o erro para mais próximo de zero. Fazendo isso, vamos ter sucessivas aproximações até ao w. Normalmente, nunca lá chega, mas após uma dúzia de passos, temos w = 2,999, o que é suficientemente próximo. É este o processo de aprendizagem. Por isso, lembrem-se que o que está a acontecer aqui é que estamos a pegar num monte de x e y conhecidos e a procurar o w através de um processo repetitivo. Isto é a mesma coisa que fazemos com a nossa aprendizagem. Temos muitas imagens, enquanto bebés, e dizem-nos: "Isto é uma ave, isto não é uma ave". Ao longo do tempo, através da repetição, encontramos o w, aquelas ligações neurais. Então agora, temos o x e o w fixos, para resolvermos o y. É a perceção rápida, de todos os dias. Descobrimos como encontrar o w, isso é aprendizagem, o que é um muito mais difícil porque precisamos de minimizar o erro, praticando muitos exemplos. Há uns anos, Alex Mordvintsev, da nossa equipa, decidiu experimentar o que acontece se tentarmos encontrar o x, em que o w e o y são conhecidos. Por outras palavras, sabemos que é uma ave, já treinámos a rede neural com as aves, mas o que é a imagem de uma ave? Acontece que, usando exatamente o mesmo procedimento de minimização de erros, podemos fazer isso com a rede treinada para reconhecer aves e o resultado será... uma imagem de aves. É uma imagem de aves gerada totalmente por uma rede neural, treinada para reconhecer aves, simplesmente procurando x, em vez de procurar o y, e fazendo-o por repetição. Eis outro exemplo engraçado. Este foi um trabalho feito por Mike Tyka no nosso grupo a que ele chama "Desfile de Animais". Recorda-me um pouco as obras de William Kentridge, em que ele faz esboços e depois os apaga, faz esboços e os apaga e cria um filme dessa forma Neste caso, Mike vai variando y no espaço de diferentes animais numa rede concebida para reconhecer e distinguir animais diferentes uns dos outros. Podemos achar estranho, é como ter uma metamorfose de um animal para outro. Aqui ele e Alex, em conjunto, tentaram reduzir os y num espaço de apenas duas dimensões, criando um mapa fora do espaço de todas as coisas reconhecidas por essa rede. Fazendo esse tipo de síntese ou geração de imagens sobre toda a superfície, variando y na superfície, fazemos uma espécie de mapa, um mapa visual de todas as coisas que a rede sabe reconhecer. Os animais estão todos aqui: o tatu está naquele local. Também podemos fazer isso com outras redes. Esta é uma rede desenhada para reconhecer rostos, para distinguir um rosto de outro. Aqui, estamos a colocar um Y que diz "eu", os parâmetros do meu rosto. Quando isso é resolvido para x, gera a minha imagem, bastante louca, tipo cubista, surrealista, psicadélica, de vários pontos de vista ao mesmo tempo. A razão de se parecer com vários pontos de vista ao mesmo tempo, é porque esta rede está concebida para se livrar da ambiguidade de um rosto estar numa pose qualquer, de ser visto com um tipo de luz, com outro tipo de luz. Quando fazemos este tipo de reconstrução, se não usarmos qualquer tipo de guia de imagem ou de estatística, obtemos uma certa confusão de diferentes pontos de vista, porque isso é ambíguo. É o que acontece se o Alex usar o seu rosto como guia de imagem durante o processo de otimização para reconstruir o meu rosto. Vemos que isto não é perfeito. Ainda há muito trabalho a fazer sobre como melhorar a otimização do processo. Mas começamos a ver alguma coisa como um rosto coerente, usando o meu rosto como guia. Não precisamos de começar com uma tela em branco ou com interferências, quando estamos a procurar x. Podemos começar com um x que, em si mesmo, já é uma outra imagem. É isso que é esta pequena demonstração. Esta é uma rede desenhada para categorizar todo o tipo de objetos — estruturas feitas pelo homem, animais. Aqui estamos a começar apenas com uma imagem de nuvens. Quando otimizamos, essa rede está a descobrir o que vê nas nuvens. Quanto mais tempo gastarmos a olhar para isto, mais coisas veremos nas nuvens. Também podemos usar a rede de rostos para enlouquecer isto e obtemos coisas muito loucas. (Risos) Mike tem feito outras experiências em que agarra nessa imagem de nuvens, enlouquece, aproxima, enlouquece, aproxima, enlouquece, aproxima. Dessa forma, suponho que podemos obter uma espécie de estado de fuga da rede, ou um tipo de associação livre em que a rede está a comer a sua cauda. Assim cada imagem é agora a base para: "O que é que espero ver a seguir?" "O que é que espero ver a seguir? O que é que espero ver a seguir?" Mostrei isto em público pela primeira vez a um grupo numa palestra em Seattle chamada "A mais alta educação" — logo depois de ter sido legalizada a marijuana. (Risos) Gostaria de terminar rapidamente notando que esta tecnologia não está limitada. Mostrei-vos apenas exemplos visuais porque eles são divertidos de ver. Não é apenas uma tecnologia puramente visual. O nosso artista colaborador, Ross Goodwin, tem feito experiências que envolvem uma câmara que tira fotos e depois um computador na sua mochila escreve um poema, usando redes neurais, com base no conteúdo da imagem. Essa poesia de rede neural foi treinada num grande corpo de poesia do século XX. Sabem uma coisa, acho que essa poesia não é lá muito má. (Risos) Para terminar, acho que Miguel Ângelo tinha razão. "A perceção e a criatividades estão intimamente ligadas". O que acabamos de ver são redes neurais que estão totalmente treinadas para discriminar ou reconhecer diferentes coisas no mundo, capazes de funcionar de trás para frente, de criar. Uma das coisas que me sugere que não é apenas o que Miguel Ângelo viu, a escultura nos blocos de pedra. Mas que qualquer criatura, qualquer ser, qualquer alienígena, que seja capaz de fazer ações percetivas deste tipo, também é capaz de criar, porque é exatamente o mesmo mecanismo usado nos dois casos. Também acho que essa perceção e criatividade não são de modo algum unicamente humanas. Começámos com modelos de computadores capazes de fazer este tipo de coisas. Isso não devia ser surpreendente: o cérebro é um modelo informático. E finalmente, a informática começou como um exercício para a conceção de máquinas inteligentes. Foi modelado segundo a ideia de que podemos fazer máquinas inteligentes. E finalmente estamos agora a começar a atingir algumas das promessas dos pioneiros, de Turing e von Neumannn, de McCulloch e Pitts. Acho que a informática não é apenas fazer contas ou jogar Candy Crush ou qualquer outra coisa. Desde o começo, modelámo-los segundo as nossas mentes. Eles deram-nos a capacidade para compreender as nossas mentes e para os aperfeiçoar. Muito obrigado. (Aplausos)