Lidero uma equipa do Google
que trabalha com inteligência artificial.
Por outras palavras, cria
computadores e dispositivos
capazes de fazer coisas que o cérebro faz.
Portanto, estamos muito interessados
em cérebros de verdade
e também na neurociência,
e especialmente interessados nas coisas
que o nosso cérebro faz
com um desempenho
muito superior ao dos computadores.
Historicamente, uma dessas áreas
tem sido a perceção,
o processo pelo qual as coisas
lá fora, no mundo
— sons e imagens —
podem tornar-se conceitos
no nosso espírito.
Isto é essencial para
o nosso próprio cérebro
e também é muito útil num computador.
Os algoritmos de perceção das máquinas,
como os que a nossa equipa faz,
são os que possibilitam encontrar
as nossas imagens no Google Photos
com base no que contêm.
O outro lado da perceção é a criatividade
que traduz um conceito
numa coisa que existe no mundo.
Ao longo do ano passado, o nosso trabalho
sobre a perceção das máquinas
também se ligou inesperadamente
ao mundo da criatividade das máquinas
e da arte das máquinas.
Eu acho que Miguel Ângelo
teve uma visão perspicaz
quanto a esta dupla relação
entre perceção e criatividade.
Esta é uma sua famosa citação:
"Cada bloco de pedra
tem uma estátua lá dentro.
"O papel do escultor é descobri-la."
Eu acho que Miguel Ângelo
queria exprimir
que nós criamos através da perceção
e que essa perceção em si
é um ato de imaginação
e é a matéria-prima da criatividade.
O órgão que processa todo o pensamento,
a perceção e a imaginação,
claro, é o cérebro.
Gostaria de começar
com um pequeno resumo da história
sobre o que sabemos sobre o cérebro.
Porque, ao contrário
do coração ou dos intestinos,
não podemos dizer muito sobre o cérebro,
apenas olhando para ele
pelo menos, a olho nu.
Os primeiros anatomistas
que olharam para o cérebro
deram à sua estrutura superficial
todo o tipo de nomes fantasiosos
como hipocampo,
que significa "cavalo-marinho."
Mas com certeza, esse tipo de coisas
não nos diz muito
sobre o que de facto acontece dentro dele.
Acho que a primeira pessoa
que lançou alguma luz
sobre o que ocorria dentro do cérebro
foi o grande neuroanatomista espanhol
Santiago Ramón y Cajal,
no século XIX,
que usou a microscopia
e corantes especiais
que podiam colorir seletivamente
ou criar um alto contraste
as células individuais dentro do cérebro,
para começar a entender a sua morfologia.
Estes são os tipos
de desenhos de neurónios,
que ele fez no século XIX.
Este é de um cérebro de pássaro.
Vemos esta incrível variedade
de diferentes tipos de células.
Até a própria teoria celular
era praticamente nova nesta altura.
Estas estruturas,
estas células que têm estas ramificações,
estes ramos que podem percorrer
grandes distâncias,
eram uma novidade na época.
Claro que nos fazem lembrar cabos.
No século XIX, isso talvez fosse óbvio
para algumas pessoas,
a revolução da cablagem elétrica
estava apenas a começar.
Mas, de várias maneiras,
esses desenhos microanatómicos
de Ramón y Cajal, como este,
ainda são, de certa forma, insuperáveis.
Mais de cem anos depois,
continuamos a tentar terminar
o trabalho que Ramón y Cajal iniciou.
Estes são dados brutos
dos nossos colaboradores
do Instituto de Neurociência Max Planck.
Os nossos colaboradores têm fotografado
pequenos pedaços de tecido cerebral.
A amostra total aqui tem cerca
de um milímetro cúbico de tamanho
e estou a mostrar aqui
apenas um pequeno pedaço.
Aquela barra à esquerda tem
mais ou menos um mícron.
As estruturas que vemos são mitocôndrias
que têm o tamanho de uma bactéria.
E estas são cortes consecutivos
desse bloco de tecido
muito pequeno.
Só para efeitos de comparação,
o diâmetro médio de um cabelo
é de cerca de 100 mícrons.
Portanto, estamos a olhar para uma coisa
muito menor do que um simples cabelo.
A partir deste tipo de cortes em série
vistos ao microscópio eletrónico,
podemos fazer reconstruções em 3D
de neurónios, como estes.
Estes são do mesmo estilo
dos de Ramón y Cajal.
Só se iluminam alguns neurónios,
senão, não conseguiríamos ver nada.
Ficaria muito sobrecarregado,
cheio de estruturas de cabos,
ligando os neurónios uns aos outros.
Ramón y Cajal estava avançado
para a sua época
e o progresso na compreensão do cérebro
prosseguiu devagar
durante as décadas seguintes.
Mas nós sabíamos que os neurónios
usavam a eletricidade.
Com a II Guerra Mundial,
a nossa tecnologia avançou bastante
para iniciar experiências elétricas
em neurónios vivos,
para melhor entender
como eles funcionavam.
Foi na mesma época em que
foram inventados os computadores,
com base sobretudo na ideia
de imitar o cérebro
— uma "máquina inteligente",
como lhe chamou Alan Turing,
um dos pais da informática.
Warren McCulloch e Walter Pitts
olharam para o desenho de Ramón y Cajal
do córtex visual,
que estou a mostrar aqui.
Este é o córtex que processa as imagens
que provêm dos olhos.
Para eles, isto parecia
o diagrama de um circuito.
Há muitos detalhes no diagrama
no circuito de McCulloch e de Pitt
que não estão lá muito corretos.
Mas a ideia básica
de que o córtex visual funciona como
uma série de elementos eletrónicos
que passam informações
de um para outro, em cascata,
está essencialmente correta.
Vamos falar por momentos
do que um modelo de processamento
de informações visuais precisaria de fazer.
A tarefa básica da perceção
é pegar numa imagem como esta e dizer:
"Isto é uma ave",
o que é uma coisa muito simples
que fazermos com o cérebro.
Mas devem compreender que,
para um computador,
isso era praticamente impossível,
até há poucos anos.
O paradigma clássico da informática
não permite realizar
facilmente essa tarefa.
Então, o que acontece entre os píxeis,
entre a imagem de um pássaro
e a palavra "ave",
é uma série de neurónios
ligados uns aos outros
numa rede neural
como este diagrama aqui.
Esta rede neural pode ser biológica,
como no córtex visual,
ou, atualmente, começamos
a ter a capacidade de modelar
estas redes neurais no computador.
Vou mostrar o aspeto que isso tem.
Podemos considerar os píxeis
como uma primeira camada de neurónio
— e, de facto, é assim
que funciona o olho —
são os neurónios na retina.
e eles transmitem as informações
camada após camada,
após camada de neurónios,
todos ligados através de sinapses
de diferentes pesos.
O comportamento desta rede
é caracterizado pelas forças
de todas estas sinapses.
Elas caracterizam as propriedades
informáticas dessa rede.
E por fim,
temos um neurónio
ou um pequeno grupo de neurónios
que se iluminam, dizendo: "ave".
Agora vou representar essas três coisas
— os píxeis de entrada
e as sinapses na rede neural,
e a ave, o resultado —
por três variáveis: x, w e y.
Há talvez um milhão de x,
um milhão de píxeis nesta imagem.
Há milhares de milhões ou biliões de w,
que representam os pesos de todas
essas sinapses na rede neural.
E há um pequeno número de y,
de resultados que essa rede neural tem.
"Ave" tem apenas três letras, não é?
Então vamos supor que isso
é uma fórmula simples,
x "vezes" w = y.
Coloco o sinal de multiplicação entre aspas
porque o que realmente está
ali a acontecer,
é uma série muito complicada
de operações matemáticas
Isto é uma equação.
Há três variáveis.
Todos nós sabemos que,
se temos uma equação,
podemos encontrar uma variável
se conhecermos as outras duas.
Assim, o problema da inferência,
ou seja, descobrir que a figura
de uma ave é uma ave,
é o seguinte:
É onde y é a incógnita
e w e x são conhecidos.
Conhecemos a rede neural,
conhecemos os píxeis.
Como podemos ver, isto é de facto
um problema relativamente simples.
Multiplicamos duas vezes três
e está feito.
Vou mostrar uma rede neural artificial
que construímos há pouco tempo,
fazendo exatamente isso.
Isto está a correr em tempo real
num telemóvel
e, claro, é incrível, só por si,
que os telemóveis possam fazer
milhares de milhões ou
ou biliões de operações por segundo.
O que estamos a ver é um telemóvel
a olhar para figuras de aves,
umas atrás das outras,
a dizer: "Sim, isto é uma ave",
e também a identificar as espécies de aves
com uma rede deste tipo.
Assim, nesta imagem,
o x e o w são conhecidos,
e o y é a incógnita.
Claro, estou a encobrir
a parte mais difícil,
que é como podemos
descobrir o valor de w,
como é que o cérebro
pode fazer tal coisa?
Como poderemos
aprender esse modelo?
Este processo de aprendizagem,
de encontrar o w,
se estivéssemos a fazer isso
com uma simples equação
em que utilizamos números,
sabemos exatamente como fazer isso:
6 = 2 x w.
Dividimos por dois e está feito.
O problema é com este operador.
a divisão.
Usamos a divisão porque
é o inverso da multiplicação
mas, como acabei de dizer,
a multiplicação aqui
é uma pequena mentira.
Esta é uma operação muito complicada,
não é linear,
não tem forma inversa.
Então temos de descobrir
uma forma de resolver a equação
sem um operador de divisão.
A forma de fazer isso é bem simples.
Basta dizer: "Vamos brincar
com os truques da álgebra"
e movemos o seis
para o lado direito da equação.
Continuamos a usar a multiplicação.
E vamos pensar naquele zero
como um erro.
Por outras palavras,
se resolvermos da forma correta,
o erro será zero.
E se não resolvemos corretamente,
o erro será maior do que zero.
Então podemos apenas dar palpites
para minimizar o erro.
Esse é o tipo de coisas em que
os computadores são muito bons.
Assim, temos um palpite inicial:
E se w = 0?
Então o erro é seis.
E se w = 1?
Então o erro é 4.
Então o computador
pode fazer de Marco Polo,
e diminuir o erro
para mais próximo de zero.
Fazendo isso, vamos ter sucessivas
aproximações até ao w.
Normalmente, nunca lá chega,
mas após uma dúzia de passos,
temos w = 2,999,
o que é suficientemente próximo.
É este o processo de aprendizagem.
Por isso, lembrem-se
que o que está a acontecer aqui
é que estamos a pegar num monte
de x e y conhecidos
e a procurar o w
através de um processo repetitivo.
Isto é a mesma coisa que fazemos
com a nossa aprendizagem.
Temos muitas imagens,
enquanto bebés, e dizem-nos:
"Isto é uma ave,
isto não é uma ave".
Ao longo do tempo, através da repetição,
encontramos o w,
aquelas ligações neurais.
Então agora, temos o x e o w fixos,
para resolvermos o y.
É a perceção rápida, de todos os dias.
Descobrimos como encontrar o w,
isso é aprendizagem,
o que é um muito mais difícil
porque precisamos de minimizar o erro,
praticando muitos exemplos.
Há uns anos, Alex Mordvintsev,
da nossa equipa,
decidiu experimentar o que acontece
se tentarmos encontrar o x,
em que o w e o y são conhecidos.
Por outras palavras,
sabemos que é uma ave,
já treinámos a rede neural com as aves,
mas o que é a imagem de uma ave?
Acontece que, usando exatamente o mesmo
procedimento de minimização de erros,
podemos fazer isso com a rede
treinada para reconhecer aves
e o resultado será...
uma imagem de aves.
É uma imagem de aves
gerada totalmente por uma rede neural,
treinada para reconhecer aves,
simplesmente procurando x,
em vez de procurar o y,
e fazendo-o por repetição.
Eis outro exemplo engraçado.
Este foi um trabalho feito
por Mike Tyka no nosso grupo
a que ele chama "Desfile de Animais".
Recorda-me um pouco as obras
de William Kentridge,
em que ele faz esboços e depois os apaga,
faz esboços e os apaga
e cria um filme dessa forma
Neste caso, Mike vai variando y
no espaço de diferentes animais
numa rede concebida
para reconhecer e distinguir
animais diferentes uns dos outros.
Podemos achar estranho, é como ter
uma metamorfose de um animal para outro.
Aqui ele e Alex, em conjunto,
tentaram reduzir os y
num espaço de apenas duas dimensões,
criando um mapa fora do espaço
de todas as coisas
reconhecidas por essa rede.
Fazendo esse tipo de síntese
ou geração de imagens
sobre toda a superfície,
variando y na superfície,
fazemos uma espécie de mapa,
um mapa visual de todas as coisas
que a rede sabe reconhecer.
Os animais estão todos aqui:
o tatu está naquele local.
Também podemos fazer isso
com outras redes.
Esta é uma rede desenhada
para reconhecer rostos,
para distinguir um rosto de outro.
Aqui, estamos a colocar um Y
que diz "eu",
os parâmetros do meu rosto.
Quando isso é resolvido para x,
gera a minha imagem, bastante louca,
tipo cubista, surrealista, psicadélica,
de vários pontos de vista ao mesmo tempo.
A razão de se parecer com vários
pontos de vista ao mesmo tempo,
é porque esta rede está concebida
para se livrar da ambiguidade
de um rosto estar numa pose qualquer,
de ser visto com um tipo de luz,
com outro tipo de luz.
Quando fazemos este tipo de reconstrução,
se não usarmos qualquer tipo
de guia de imagem ou de estatística,
obtemos uma certa confusão
de diferentes pontos de vista,
porque isso é ambíguo.
É o que acontece se o Alex usar
o seu rosto como guia de imagem
durante o processo de otimização
para reconstruir o meu rosto.
Vemos que isto não é perfeito.
Ainda há muito trabalho a fazer
sobre como melhorar
a otimização do processo.
Mas começamos a ver alguma coisa
como um rosto coerente,
usando o meu rosto como guia.
Não precisamos de começar
com uma tela em branco
ou com interferências,
quando estamos a procurar x.
Podemos começar com um x
que, em si mesmo, já é uma outra imagem.
É isso que é esta pequena demonstração.
Esta é uma rede desenhada
para categorizar
todo o tipo de objetos — estruturas
feitas pelo homem, animais.
Aqui estamos a começar
apenas com uma imagem de nuvens.
Quando otimizamos,
essa rede está a descobrir
o que vê nas nuvens.
Quanto mais tempo gastarmos
a olhar para isto,
mais coisas veremos nas nuvens.
Também podemos usar a rede de rostos
para enlouquecer isto
e obtemos coisas muito loucas.
(Risos)
Mike tem feito outras experiências
em que agarra nessa imagem de nuvens,
enlouquece, aproxima, enlouquece,
aproxima, enlouquece, aproxima.
Dessa forma,
suponho que podemos obter
uma espécie de estado de fuga da rede,
ou um tipo de associação livre
em que a rede está a comer a sua cauda.
Assim cada imagem é agora a base para:
"O que é que espero ver a seguir?"
"O que é que espero ver a seguir?
O que é que espero ver a seguir?"
Mostrei isto em público
pela primeira vez
a um grupo numa palestra em Seattle
chamada "A mais alta educação"
— logo depois de ter sido
legalizada a marijuana.
(Risos)
Gostaria de terminar rapidamente
notando que esta tecnologia
não está limitada.
Mostrei-vos apenas exemplos visuais
porque eles são divertidos de ver.
Não é apenas uma tecnologia
puramente visual.
O nosso artista colaborador, Ross Goodwin,
tem feito experiências que envolvem
uma câmara que tira fotos
e depois um computador na sua mochila
escreve um poema, usando redes neurais,
com base no conteúdo da imagem.
Essa poesia de rede neural
foi treinada
num grande corpo de poesia do século XX.
Sabem uma coisa, acho que essa poesia
não é lá muito má.
(Risos)
Para terminar,
acho que Miguel Ângelo tinha razão.
"A perceção e a criatividades
estão intimamente ligadas".
O que acabamos de ver
são redes neurais
que estão totalmente treinadas
para discriminar ou reconhecer
diferentes coisas no mundo,
capazes de funcionar
de trás para frente, de criar.
Uma das coisas que me sugere
que não é apenas o que Miguel Ângelo viu,
a escultura nos blocos de pedra.
Mas que qualquer criatura,
qualquer ser, qualquer alienígena,
que seja capaz de fazer
ações percetivas deste tipo,
também é capaz de criar,
porque é exatamente o mesmo mecanismo
usado nos dois casos.
Também acho que essa perceção e
criatividade não são de modo algum
unicamente humanas.
Começámos com modelos de computadores
capazes de fazer este tipo de coisas.
Isso não devia ser surpreendente:
o cérebro é um modelo informático.
E finalmente,
a informática começou como um exercício
para a conceção de máquinas inteligentes.
Foi modelado segundo a ideia
de que podemos fazer
máquinas inteligentes.
E finalmente estamos agora
a começar a atingir
algumas das promessas dos pioneiros,
de Turing e von Neumannn,
de McCulloch e Pitts.
Acho que a informática
não é apenas fazer contas
ou jogar Candy Crush
ou qualquer outra coisa.
Desde o começo,
modelámo-los segundo as nossas mentes.
Eles deram-nos a capacidade
para compreender as nossas mentes
e para os aperfeiçoar.
Muito obrigado.
(Aplausos)