Coordeno uma equipe no Google
que lida com I.A.;
em outras palavras, a engenharia
de fazer computadores e aparelhos
capazes de criar coisas que o cérebro faz.
E isso faz com que nos interessemos
por cérebros reais
e também por neurociência,
e nos interessamos, principalmente,
por coisas que nosso cérebro faz
que ainda são muito superiores
à performance dos computadores.
Historicamente, uma das áreas
tem sido percepção,
o processo pelo qual as coisas abstratas,
sons e imagens,
podem se tornar conceitos na mente.
Isso é essencial para o nosso cérebro
e também muito útil em um computador.
Os algorítimos de percepção artificial,
criados por nós, por exemplo,
são o que permitem que suas fotos
do Google Fotos sejam pesquisáveis,
baseando-se no que há nelas.
O oposto da percepção é a criatividade:
transformar um conceito
em algo lá fora, para o mundo.
Então, ao longo do ano passado,
nosso trabalho de percepção artificial
também se uniu, inesperadamente,
ao mundo da criatividade artificial
e da arte digital.
Acho que Michelangelo
teve um insight profundo
a respeito da relação
entre percepção e criatividade.
Esta é uma famosa citação dele:
"Cada bloco de pedra
tem uma escultura interna,
e o trabalho do escultor é descobri-la."
Então, penso que Michelangelo
estava querendo dizer
que nós criamos, através da percepção,
e que a percepção por si
é um ato de imaginação
e é a tal da criatividade.
O órgão que cria todo pensamento,
percepção e imaginação,
é certamente, o cérebro.
E eu quero começar
com um pouquinho de história
sobre o que sabemos sobre cérebros.
Porque, diferente do coração
e dos intestinos,
você não consegue falar muito
sobre o cérebro só olhando pra ele,
pelo menos a olho nu.
Os primeiros anatomistas
que observaram cérebros
deram às estruturas superficiais
todo tipo de nomes fantásticos,
como hipocampo,
significando "camarãozinho".
Mas claro que esse tipo de coisa
não nos diz muito
sobre o que acontece lá dentro.
A primeira pessoa que eu acho,
que, de fato, desenvolveu algum insight
sobre o que acontecia no cérebro
foi o grande neuroanatomista espanhol,
Santiago Ramón y Cajal, no século 19,
usando microscópio e reagentes especiais,
que puderam, seletivamente, preencher
ou converter em contraste muito elevado,
as células individuais do cérebro,
para conseguir entender
a morfologia delas.
E estes são os tipos de desenhos
que ele fez dos neurônios no século 19.
Este é de um cérebro de pássaro.
E vemos esta incrível variedade
de diferentes tipos de células,
até mesmo a própria teoria celular
era recente nessa época.
E estas estruturas,
estas células que têm essas ramificações,
que podem percorrer
distâncias muito longas,
tudo era novidade na época.
Elas são reminiscência de fios, claro.
Isso pode ter sido óbvio
para algumas pessoas no século 19;
as revoluções de telefonia e eletricidade
estavam apenas começando.
Mas de muitas maneiras,
esses desenhos microanatômicos
do Ramón y Cajal, como este,
ainda são, em alguns pontos, insuperáveis.
Ainda, depois de um século,
estamos tentando concluir aquilo
que Ramón y Cajal começou.
Estes são dados brutos
de nossos colaboradores
no Instituto de Neurociência Max Planck.
E nossos colaboradores estão representando
partículas de tecido cerebral.
Esta amostra tem aproximadamente
um milímetro cúbico,
e estou mostrando uma parte
minúscula dela aqui.
Aquela barra da esquerda
tem em torno de um mícron.
As estruturas que veem são mitocôndrias,
que são do tamanho de uma bactéria.
E estas são fatias consecutivas
através deste minúsculo bloco de tecido.
Apenas para efeito de comparação,
o diâmetro de um fio médio de cabelo
é de aproximadamente 100 microns.
Então, estamos olhando para algo
bem menor do que um simples fio de cabelo.
E a partir desses tipos de partículas
microscópicas de elétrons de série,
podemos começar a reconstruir
neurônios em 3D, como estes.
Estes são do mesmo estilo
do Ramón y Cajal.
Poucos neurônios destacaram-se,
pois, caso contrário,
não conseguiríamos ver nada aqui.
Estaria lotado, muito cheio de estruturas,
de neurônios comunicando-se entre si.
Ramón y Cajal estava um pouco
à frente de seu tempo,
e o progresso do entendimento do cérebro
seguiu lentamente
através das décadas seguintes.
Mas sabíamos que os neurônios
usavam eletricidade
e, na Segunda Guerra Mundial,
a tecnologia avançou o suficiente
para iniciar experimentos elétricos
reais em neurônios vivos
para entender melhor seu funcionamento.
Isso ocorreu na mesma época
da invenção dos computadores,
muito baseado na ideia
da modelagem cerebral,
da "maquinaria inteligente",
como foi chamada por Alan Turing,
um dos pais da ciência da computação.
Warren McCulloch e Walter Pitts
observaram o desenho do córtex visual,
de Ramón y Cajal,
que estou mostrando aqui.
Este é o córtex que processa
as imagens captadas pelo olho.
E, para eles, isto parecia
um diagrama de circuito.
Então há muitos detalhes
no diagrama de McCulloch and Pitts
que não estão muito certos,
mas esta ideia básica
de que o córtex visual trabalha
como uma série de elementos computacionais
que passam a informação,
um para o outro, em cascata,
está essencialmente correta.
Vamos falar um pouco
sobre o que um modelo para processar
informações visuais precisaria fazer.
A tarefa básica de percepção
é levar uma imagem como esta e dizer:
"É um pássaro",
algo muito simples de se fazer
com nosso cérebro.
Mas vocês têm que entender
que, para um computador,
isso era praticamente impossível
há alguns anos.
O paradigma computacional clássico
não é uma tarefa simples de ser realizada.
O que está acontecendo entre os pixels,
entre a imagem do pássaro
e a palavra "pássaro",
é sobretudo um grupo de neurônios
conectados uns aos outros,
em uma rede neural, conforme mostro aqui.
Essa conexão neural poderia ser biológica,
em nosso córtex visual,
ou, atualmente, começamos
a ter a capacidade
de modelar tais conexões neurais
no computador.
Eu mostrarei com o que elas
realmente se parecem.
Vocês podem pensar nos pixels como
uma primeira camada de neurônios,
que, na verdade, é como atuam no olho,
são os neurônios na retina.
E eles alimentam
camada por camada de neurônios,
todas conectadas por sinapses
de diferentes pesos.
O comportamento dessa rede
é caracterizado pelas forças
de todas aquelas sinapses.
Elas caracterizam as propriedades
computacionais dessa rede.
E, no final das contas,
você tem um neurônio,
ou um grupo de neurônios,
que ativam-se, dizendo "pássaro".
Agora, representarei essas três coisas:
a entrada de pixels
e as sinapses na rede neural,
e o pássaro, a saída,
através de três variáveis: x, w e y.
Há um milhão ou mais de x,
um milhão de pixels nesta imagem.
Há bilhões ou trilhões de w,
que representam o peso de todas
estas sinapses na rede neural.
E há um número muito pequeno de y,
de saídas que essa rede tem.
"Pássaro" tem sete letras, certo?
Então, vamos imaginar que esta
seja apenas uma fórmula simples:
x "x" w = y.
O sinal de multiplicação fica entre aspas,
porque, na verdade,
o que está acontecendo lá
é uma série complicada
de operações matemáticas.
É uma equação.
Há três variáveis,
e todos nós sabemos
que se você tem uma equação,
pode encontrar uma variável,
se souber os outros dois termos.
Então, o problema de inferência,
de entender que aquela figura
de um pássaro é um pássaro,
é este: na qual y é desconhecido,
mas w e x são conhecidos.
Conhecendo a rede neural,
você conhece os pixels.
Como podem ver, é um problema
relativamente simples.
Você multiplica duas vezes três e pronto.
Mostrarei uma rede artificial de neurônios
que criamos recentemente
fazendo exatamente isso.
Isto está passando
em tempo real em um celular,
e é, claro, surpreendente por si só,
que celulares possam fazer bilhões
e trilhões de operações por segundo.
Vocês estão olhando para um celular
vendo uma imagem de pássaro após a outra,
e, na verdade, não só dizendo:
"Sim, é um pássaro",
mas identificando a espécie do pássaro
com uma rede deste tipo.
Nesta imagem,
o x e o w são conhecidos
e o y é desconhecido.
Estou encobrindo a parte mais difícil,
que é como descobrimos o w,
o cérebro que pode fazer tal coisa?
Como aprenderíamos tal modelo?
Este processo de aprendizagem,
de descobrir o w,
se o resolvermos com a equação simples,
na qual pensamos
nestas variáveis como números,
saberemos, exatamente,
como resolvê-la: 6 = 2 x w,
dividimos por dois e pronto.
O problema é com este sinal.
Usamos a divisão porque
é o inverso da multiplicação,
mas, como acabei de dizer,
a multiplicação não deixa
de ser uma mentira aqui.
Esta é uma operação não-linear
muito complicada;
não existe o inverso.
Então devemos encontrar
uma forma de resolver a equação
sem um sinal de divisão.
E a forma de se fazer isso
é razoavelmente fácil.
Você diz: vamos fazer um truque de álgebra
e mover o seis para a direita da equação.
Agora, ainda temos uma multiplicação
e aquele zero, vamos pensar
nele como um erro.
Em outras palavras,
se acharmos o w da forma certa
então o erro será zero.
Se não conseguirmos isso da forma certa,
o erro será maior do que zero.
Agora podemos criar suposições
para diminuir os erros,
e é o tipo de coisa que
computadores fazem muito bem.
Na primeira suposição: e se w = 0?
Bem, o erro será 6.
E se w = 1? O erro será 4.
E, então, o computador tentará adivinhar
e diminuir o erro para próximo de zero.
Enquanto isso ocorre, ele está obtendo
sucessivas aproximações de w.
Tipicamente, nunca se chega lá,
mas depois de várias etapas,
estamos próximos de w = 2,999,
o que é bem próximo.
E esse é o processo de aprendizagem.
Lembrem-se de que estamos pegando
muitos x e y conhecidos
e resolvendo o w no meio disso,
através de um processo interativo.
É exatamente assim que construímos
nossa própria aprendizagem.
Quando somos bebês nos mostram imagens
e nos dizem: "Isso é um pássaro;
isso não é um pássaro".
Com o passar do tempo,
através da interação,
nós encontramos o w,
encontramos essas conexões neurais.
Agora mantemos o valor de x e w
para resolver y;
isso acontece todo dia, percepção rápida.
Compreendemos como achar w,
isso é aprendizagem,
o que é muito mais difícil,
pois precisamos minimizar os erros,
usando vários exemplos de treinamento.
Há aproximadamente um ano,
Alex Mordvintsev, da nossa equipe,
decidiu experimentar o que aconteceria
se tentássemos encontrar x,
conhecendo os valores de w e y.
Em outras palavras,
você sabe que isto é um pássaro,
e já tem sua rede neural
que treinou com pássaros,
mas o que é a figura de um pássaro?
Ocorre que, usando o mesmo
procedimento de minimização de erros,
pode-se fazer isso com a rede treinada
para reconhecer pássaros
e o resultado será...
uma imagem de pássaros.
Essa é uma imagem de pássaros
totalmente gerada por uma rede neural,
a qual foi treinada
para reconhecer pássaros,
apenas resolvendo x em vez de y,
fazendo isso de forma interativa.
Aqui tem um outro exemplo divertido.
Esse foi um trabalho
de Mike Tyka, em nosso grupo,
que ele chamou de "Desfile Animal".
Faz lembrar um pouco obras de arte
de William Kentridge,
na qual ele faz desenhos e os apaga,
sucessivamente, e cria um filme assim.
Neste caso, Mike varia o y
no espaço de diferentes animais,
numa rede desenvolvida para reconhecer
e distinguir diferentes animais.
E você consegue essa estranha mudança
de um animal para outro, estilo Escher.
Aqui, Alex e ele, juntos, tentaram reduzir
o y a um espaço de duas dimensões,
fazendo assim um mapa fora
do espaço de todas as coisas
reconhecidas por essa rede.
Fazendo esse tipo de síntese
ou geração de imagem
sobre essa superfície inteira,
variando y sobre a superfície,
você cria um mapa visual
de todas as coisas
que a rede consegue reconhecer.
Todos os animas estão aqui;
o tatu está bem naquele canto.
Você também pode fazer isso
com outras redes.
Essa é uma rede criada
para reconhecer faces,
distinguir uma face de outra.
E, aqui, colocamos um y que seria "eu",
parâmetros da minha própria face.
E quando essa rede encontra x,
ela gera essa imagem doida,
um estilo cubismo, surreal,
uma figura psicodélica de mim
a partir de múltiplos pontos de vista.
A razão de parecer com múltiplos pontos
de vista de uma só vez
é porque a rede é criada
para conseguir se livrar da ambiguidade
de uma face em uma pose ou outra,
sendo olhada com um tipo ou outro de luz.
Então, quando faz
esse tipo de reconstrução,
se você não usar algum
guia de imagem ou de estatística,
pode ficar confuso,
devido a diferentes pontos de vista,
porque isso é ambíguo.
Isto é o que acontece se Alex usar
sua própria face como guia de imagem
durante o processo de otimização
para reconstruir minha face.
Então, podem ver que não é perfeito.
Ainda há muito trabalho a fazer
sobre como otimizar
aquele processo de otimização.
Mas começa a ter algo
como uma face coerente,
acabando por usar
minha própria face como guia.
Não é preciso começar com uma
tela em branco ou com ruído branco.
Quando se está resolvendo x,
pode-se começar com um x,
que, por si só, já é outra imagem.
Isto é o que representa
esta pequena demonstração.
Isto é uma rede desenhada para categorizar
todo tipo de diferentes objetos,
criações humanas, animais...
Aqui começamos apenas
com uma figura de nuvens,
e enquanto otimizamos,
basicamente, esta rede está descobrindo
o que se vê nas nuvens.
E quanto mais você olha pra isso,
mais coisas também verá nas nuvens.
Poderia também usar a rede da face
para ficar alucinado,
então verá umas coisas muito loucas.
(Risos)
Mike fez algumas outras experiências,
nas quais leva a imagem da nuvem,
e ele alucina e aproxima, sucessivamente,
e dessa forma,
pode ter uma espécie
de estado de fuga da rede, suponho,
ou um tipo de associação livre,
em que a rede morde sua própria cauda.
Assim, toda imagem é base para a pergunta:
"O que acho que verei agora?
O que acho que verei agora?
O que acho que verei agora?"
Mostrei isso pela primeira vez em público,
a um grupo, numa palestra em Seattle,
chamado "Educação Maior";
isso aconteceu assim
que a maconha foi legalizada.
(Risos)
Então, quero terminar logo,
mencionando que esta tecnologia
não está restrita.
Mostrei a vocês exemplos puramente visuais
porque são divertidos de se ver.
Esta não é uma tecnologia
exclusivamente visual.
Nosso colaborador, Ross Goodwin,
fez experiências envolvendo
uma câmera que tira a foto,
e aí, um computador na sua mochila,
escreve um poema usando redes neurais,
baseados nos conteúdos da imagem.
E aquela poesia de rede neural
tem sido treinada
num grande corpus de poesia do século 20.
E a poesia, na verdade,
não é tão ruim, eu acho.
(Risos)
Para fechar,
acho que Michelangelo estava certo:
percepção e criatividade
estão intimamente ligadas.
O que vimos são apenas redes neurais,
que estão totalmente
treinadas para discriminar
ou reconhecer coisas diferentes no mundo,
capazes de trabalhar
em sentido contrário para produzir.
Uma das coisas que me vem à cabeça
é que não só Michelangelo viu
a escultura nos blocos de pedra,
mas qualquer criatura,
qualquer ser, alienígena,
que é capaz de fazer
atos de percepção desse tipo,
também é capaz de criar,
porque é exatamente a mesma máquina
usada nos dois casos.
Também penso que percepção e criatividade
não são exclusivamente humanas.
Temos modelos de computadores capazes
de fazer justamente esse tipo de coisa,
e não deveria ser surpreendente,
pois o cérebro é computacional.
E finalmente,
a computação começou como um exercício
de planejar maquinaria inteligente.
Foi muito pensado na ideia
de como faríamos as máquinas
ficarem inteligentes.
E agora, estamos finalmente
começando a cumprir
algumas das promessas daqueles pioneiros,
de Turing e Von Neumann,
e McCulloch e Pitts.
E acho que computação
não é apenas números
ou jogar Candy Crush ou algo assim.
No começo, modelamos as máquinas
segundo as nossas mentes.
E elas nos dão tanto a habilidade
de entender melhor nossa mente
como de expandi-la.
Muito obrigado.
(Aplausos)