WEBVTT

00:00:00.800 --> 00:00:03.908
Coordeno uma equipe no Google
que lida com I.A.;

00:00:03.908 --> 00:00:08.598
em outras palavras, a engenharia
de fazer computadores e aparelhos

00:00:08.602 --> 00:00:11.299
capazes de criar coisas que o cérebro faz.

00:00:11.299 --> 00:00:14.482
E isso faz com que nos interessemos 
por cérebros reais

00:00:14.482 --> 00:00:15.931
e também por neurociência,

00:00:15.931 --> 00:00:19.991
e nos interessamos, principalmente, 
por coisas que nosso cérebro faz

00:00:19.991 --> 00:00:24.113
que ainda são muito superiores
à performance dos computadores.

NOTE Paragraph

00:00:25.209 --> 00:00:28.802
Historicamente, uma das áreas
tem sido percepção,

00:00:28.802 --> 00:00:31.881
o processo pelo qual as coisas abstratas,

00:00:31.885 --> 00:00:33.473
sons e imagens,

00:00:33.473 --> 00:00:35.691
podem se tornar conceitos na mente.

00:00:36.235 --> 00:00:38.736
Isso é essencial para o nosso cérebro

00:00:38.736 --> 00:00:41.240
e também muito útil em um computador.

00:00:41.636 --> 00:00:44.970
Os algorítimos de percepção artificial, 
criados por nós, por exemplo,

00:00:44.970 --> 00:00:48.868
são o que permitem que suas fotos
do Google Fotos sejam pesquisáveis,

00:00:48.868 --> 00:00:51.105
baseando-se no que há nelas.

00:00:51.594 --> 00:00:55.087
O oposto da percepção é a criatividade:

00:00:55.091 --> 00:00:58.133
transformar um conceito 
em algo lá fora, para o mundo.

00:00:58.133 --> 00:01:01.652
Então, ao longo do ano passado,
nosso trabalho de percepção artificial

00:01:01.652 --> 00:01:06.575
também se uniu, inesperadamente, 
ao mundo da criatividade artificial

00:01:06.575 --> 00:01:08.055
e da arte digital.

NOTE Paragraph

00:01:08.556 --> 00:01:11.840
Acho que Michelangelo
teve um insight profundo

00:01:11.844 --> 00:01:15.520
a respeito da relação
entre percepção e criatividade.

00:01:16.023 --> 00:01:18.069
Esta é uma famosa citação dele:

00:01:18.069 --> 00:01:21.376
"Cada bloco de pedra 
tem uma escultura interna,

00:01:22.036 --> 00:01:25.038
e o trabalho do escultor é descobri-la."

00:01:26.029 --> 00:01:29.229
Então, penso que Michelangelo
estava querendo dizer

00:01:29.229 --> 00:01:32.449
que nós criamos, através da percepção,

00:01:32.453 --> 00:01:35.480
e que a percepção por si
é um ato de imaginação

00:01:35.480 --> 00:01:37.981
e é a tal da criatividade.

NOTE Paragraph

00:01:38.691 --> 00:01:42.600
O órgão que cria todo pensamento,
percepção e imaginação,

00:01:42.600 --> 00:01:44.228
é certamente, o cérebro.

00:01:45.089 --> 00:01:47.618
E eu quero começar 
com um pouquinho de história

00:01:47.618 --> 00:01:49.960
sobre o que sabemos sobre cérebros.

00:01:50.496 --> 00:01:52.926
Porque, diferente do coração
e dos intestinos,

00:01:52.926 --> 00:01:56.094
você não consegue falar muito
sobre o cérebro só olhando pra ele,

00:01:56.094 --> 00:01:57.986
pelo menos a olho nu.

00:01:57.986 --> 00:02:00.399
Os primeiros anatomistas 
que observaram cérebros

00:02:00.403 --> 00:02:04.230
deram às estruturas superficiais
todo tipo de nomes fantásticos,


00:02:04.234 --> 00:02:06.631
como hipocampo, 
significando "camarãozinho".

00:02:06.631 --> 00:02:09.475
Mas claro que esse tipo de coisa
não nos diz muito

00:02:09.479 --> 00:02:11.817
sobre o que acontece lá dentro.

NOTE Paragraph

00:02:12.780 --> 00:02:16.393
A primeira pessoa que eu acho, 
que, de fato, desenvolveu algum insight

00:02:16.397 --> 00:02:18.427
sobre o que acontecia no cérebro

00:02:18.427 --> 00:02:23.535
foi o grande neuroanatomista espanhol,
Santiago Ramón y Cajal, no século 19,

00:02:23.883 --> 00:02:27.622
usando microscópio e reagentes especiais,

00:02:27.622 --> 00:02:31.816
que puderam, seletivamente, preencher
ou converter em contraste muito elevado,

00:02:31.816 --> 00:02:33.864
as células individuais do cérebro,

00:02:33.868 --> 00:02:37.042
para conseguir entender
a morfologia delas.

00:02:37.972 --> 00:02:41.980
E estes são os tipos de desenhos
que ele fez dos neurônios no século 19.

NOTE Paragraph

00:02:41.980 --> 00:02:44.044
Este é de um cérebro de pássaro.

00:02:44.044 --> 00:02:47.069
E vemos esta incrível variedade
de diferentes tipos de células,

00:02:47.069 --> 00:02:50.508
até mesmo a própria teoria celular
era recente nessa época.

00:02:50.508 --> 00:02:51.830
E estas estruturas,

00:02:51.830 --> 00:02:54.169
estas células que têm essas ramificações,

00:02:54.169 --> 00:02:56.761
que podem percorrer
distâncias muito longas,

00:02:56.765 --> 00:02:58.741
tudo era novidade na época.

00:02:58.741 --> 00:03:01.682
Elas são reminiscência de fios, claro.

00:03:01.686 --> 00:03:05.147
Isso pode ter sido óbvio 
para algumas pessoas no século 19;

00:03:05.147 --> 00:03:09.501
as revoluções de telefonia e eletricidade
estavam apenas começando.

00:03:09.964 --> 00:03:11.182
Mas de muitas maneiras,

00:03:11.182 --> 00:03:14.443
esses desenhos microanatômicos
do Ramón y Cajal, como este,

00:03:14.443 --> 00:03:16.875
ainda são, em alguns pontos, insuperáveis.

NOTE Paragraph

00:03:16.875 --> 00:03:18.773
Ainda, depois de um século,

00:03:18.773 --> 00:03:21.546
estamos tentando concluir aquilo
que Ramón y Cajal começou.

00:03:21.546 --> 00:03:24.720
Estes são dados brutos 
de nossos colaboradores

00:03:24.724 --> 00:03:27.665
no Instituto de Neurociência Max Planck.

00:03:27.665 --> 00:03:34.248
E nossos colaboradores estão representando
partículas de tecido cerebral.

00:03:34.248 --> 00:03:37.798
Esta amostra tem aproximadamente
um milímetro cúbico,

00:03:37.798 --> 00:03:40.443
e estou mostrando uma parte
minúscula dela aqui.

00:03:40.443 --> 00:03:42.833
Aquela barra da esquerda
tem em torno de um mícron.

00:03:42.833 --> 00:03:45.246
As estruturas que veem são mitocôndrias,

00:03:45.246 --> 00:03:47.350
que são do tamanho de uma bactéria.

00:03:47.354 --> 00:03:48.985
E estas são fatias consecutivas

00:03:48.985 --> 00:03:52.077
através deste minúsculo bloco de tecido.

00:03:52.401 --> 00:03:54.488
Apenas para efeito de comparação,

00:03:54.488 --> 00:03:58.144
o diâmetro de um fio médio de cabelo 
é de aproximadamente 100 microns.

00:03:58.144 --> 00:04:02.108
Então, estamos olhando para algo
bem menor do que um simples fio de cabelo.

NOTE Paragraph

00:04:02.108 --> 00:04:06.095
E a partir desses tipos de partículas 
microscópicas de elétrons de série,

00:04:06.099 --> 00:04:11.111
podemos começar a reconstruir
neurônios em 3D, como estes.

00:04:11.111 --> 00:04:14.232
Estes são do mesmo estilo 
do Ramón y Cajal.

00:04:14.232 --> 00:04:15.864
Poucos neurônios destacaram-se,

00:04:15.864 --> 00:04:18.613
pois, caso contrário, 
não conseguiríamos ver nada aqui.

00:04:18.613 --> 00:04:24.145
Estaria lotado, muito cheio de estruturas,
de neurônios comunicando-se entre si.

NOTE Paragraph

00:04:25.293 --> 00:04:28.081
Ramón y Cajal estava um pouco
à frente de seu tempo,

00:04:28.081 --> 00:04:30.640
e o progresso do entendimento do cérebro

00:04:30.640 --> 00:04:32.971
seguiu lentamente
através das décadas seguintes.

00:04:33.455 --> 00:04:36.292
Mas sabíamos que os neurônios
usavam eletricidade

00:04:36.292 --> 00:04:39.292
e, na Segunda Guerra Mundial, 
a tecnologia avançou o suficiente

00:04:39.292 --> 00:04:42.122
para iniciar experimentos elétricos
reais em neurônios vivos

00:04:42.122 --> 00:04:44.648
para entender melhor seu funcionamento.

00:04:44.648 --> 00:04:48.987
Isso ocorreu na mesma época
da invenção dos computadores,


00:04:48.991 --> 00:04:52.095
muito baseado na ideia
da modelagem cerebral,

00:04:52.095 --> 00:04:55.204
da "maquinaria inteligente",
como foi chamada por Alan Turing,

00:04:55.204 --> 00:04:57.843
um dos pais da ciência da computação.

NOTE Paragraph

00:04:57.843 --> 00:05:02.519
Warren McCulloch e Walter Pitts 
observaram o desenho do córtex visual,

00:05:02.519 --> 00:05:05.462
de Ramón y Cajal,
que estou mostrando aqui.

00:05:05.462 --> 00:05:09.948
Este é o córtex que processa
as imagens captadas pelo olho.

00:05:10.424 --> 00:05:13.932
E, para eles, isto parecia
um diagrama de circuito.

00:05:14.353 --> 00:05:18.132
Então há muitos detalhes 
no diagrama de McCulloch and Pitts

00:05:18.132 --> 00:05:20.864
que não estão muito certos,
mas esta ideia básica

00:05:20.864 --> 00:05:24.823
de que o córtex visual trabalha 
como uma série de elementos computacionais

00:05:24.823 --> 00:05:27.553
que passam a informação, 
um para o outro, em cascata,

00:05:27.553 --> 00:05:29.295
está essencialmente correta.

NOTE Paragraph

00:05:29.295 --> 00:05:31.593
Vamos falar um pouco

00:05:31.593 --> 00:05:35.665
sobre o que um modelo para processar
informações visuais precisaria fazer.

00:05:36.228 --> 00:05:38.969
A tarefa básica de percepção

00:05:38.973 --> 00:05:43.091
é levar uma imagem como esta e dizer:

00:05:43.091 --> 00:05:44.467
"É um pássaro",

00:05:44.467 --> 00:05:47.269
algo muito simples de se fazer
com nosso cérebro.

00:05:47.269 --> 00:05:50.730
Mas vocês têm que entender
que, para um computador,

00:05:50.754 --> 00:05:53.805
isso era praticamente impossível
há alguns anos.

00:05:53.805 --> 00:05:58.641
O paradigma computacional clássico
não é uma tarefa simples de ser realizada.

NOTE Paragraph

00:05:59.366 --> 00:06:01.918
O que está acontecendo entre os pixels,

00:06:01.942 --> 00:06:05.954
entre a imagem do pássaro
e a palavra "pássaro",

00:06:05.954 --> 00:06:08.772
é sobretudo um grupo de neurônios
conectados uns aos outros,

00:06:08.772 --> 00:06:11.247
em uma rede neural, conforme mostro aqui.

00:06:11.258 --> 00:06:14.530
Essa conexão neural poderia ser biológica,
em nosso córtex visual,

00:06:14.554 --> 00:06:16.680
ou, atualmente, começamos
a ter a capacidade

00:06:16.680 --> 00:06:19.194
de modelar tais conexões neurais
no computador.

00:06:19.834 --> 00:06:22.171
Eu mostrarei com o que elas 
realmente se parecem.

NOTE Paragraph

00:06:22.171 --> 00:06:25.611
Vocês podem pensar nos pixels como
uma primeira camada de neurônios,

00:06:25.611 --> 00:06:29.514
que, na verdade, é como atuam no olho,
são os neurônios na retina.

00:06:29.521 --> 00:06:31.085
E eles alimentam

00:06:31.085 --> 00:06:34.528
camada por camada de neurônios,

00:06:34.532 --> 00:06:37.509
todas conectadas por sinapses
de diferentes pesos.

00:06:37.509 --> 00:06:39.004
O comportamento dessa rede

00:06:39.004 --> 00:06:42.312
é caracterizado pelas forças
de todas aquelas sinapses.

00:06:42.312 --> 00:06:45.564
Elas caracterizam as propriedades 
computacionais dessa rede.

00:06:45.568 --> 00:06:47.098
E, no final das contas,

00:06:47.098 --> 00:06:49.569
você tem um neurônio,
ou um grupo de neurônios,

00:06:49.569 --> 00:06:51.860
que ativam-se, dizendo "pássaro".

NOTE Paragraph

00:06:51.860 --> 00:06:54.940
Agora, representarei essas três coisas:

00:06:54.940 --> 00:06:59.560
a entrada de pixels 
e as sinapses na rede neural,

00:06:59.560 --> 00:07:04.465
e o pássaro, a saída,
através de três variáveis: x, w e y.

00:07:04.853 --> 00:07:08.605
Há um milhão ou mais de x,
um milhão de pixels nesta imagem.

00:07:08.605 --> 00:07:11.095
Há bilhões ou trilhões de w,

00:07:11.095 --> 00:07:14.556
que representam o peso de todas 
estas sinapses na rede neural.

00:07:14.560 --> 00:07:18.095
E há um número muito pequeno de y,
de saídas que essa rede tem.

00:07:18.095 --> 00:07:20.770
"Pássaro" tem sete letras, certo?

00:07:21.088 --> 00:07:24.498
Então, vamos imaginar que esta
seja apenas uma fórmula simples:

00:07:24.498 --> 00:07:26.645
x "x" w = y.

00:07:26.645 --> 00:07:28.801
O sinal de multiplicação fica entre aspas,

00:07:28.801 --> 00:07:31.105
porque, na verdade, 
o que está acontecendo lá

00:07:31.105 --> 00:07:34.135
é uma série complicada
de operações matemáticas.

NOTE Paragraph

00:07:35.172 --> 00:07:36.393
É uma equação.

00:07:36.397 --> 00:07:38.053
Há três variáveis,

00:07:38.053 --> 00:07:40.803
e todos nós sabemos
que se você tem uma equação,

00:07:40.803 --> 00:07:44.505
pode encontrar uma variável, 
se souber os outros dois termos.

00:07:45.158 --> 00:07:48.538
Então, o problema de inferência,

00:07:48.542 --> 00:07:51.435
de entender que aquela figura
de um pássaro é um pássaro,

00:07:51.439 --> 00:07:56.160
é este: na qual y é desconhecido,
mas w e x são conhecidos.

00:07:56.160 --> 00:07:58.663
Conhecendo a rede neural,
você conhece os pixels.

00:07:58.663 --> 00:08:02.034
Como podem ver, é um problema
relativamente simples.

00:08:02.034 --> 00:08:04.480
Você multiplica duas vezes três e pronto.

00:08:04.862 --> 00:08:07.065
Mostrarei uma rede artificial de neurônios

00:08:07.065 --> 00:08:09.635
que criamos recentemente
fazendo exatamente isso.

NOTE Paragraph

00:08:09.635 --> 00:08:12.458
Isto está passando 
em tempo real em um celular,

00:08:12.458 --> 00:08:15.831
e é, claro, surpreendente por si só,

00:08:15.835 --> 00:08:20.587
que celulares possam fazer bilhões 
e trilhões de operações por segundo.

00:08:20.587 --> 00:08:22.314
Vocês estão olhando para um celular

00:08:22.314 --> 00:08:25.769
vendo uma imagem de pássaro após a outra,


00:08:25.769 --> 00:08:28.488
e, na verdade, não só dizendo:
"Sim, é um pássaro",

00:08:28.488 --> 00:08:31.979
mas identificando a espécie do pássaro
com uma rede deste tipo.

00:08:32.890 --> 00:08:34.736
Nesta imagem,

00:08:34.740 --> 00:08:38.526
o x e o w são conhecidos
e o y é desconhecido.

00:08:38.526 --> 00:08:41.058
Estou encobrindo a parte mais difícil,

00:08:41.058 --> 00:08:44.943
que é como descobrimos o w,

00:08:44.943 --> 00:08:47.134
o cérebro que pode fazer tal coisa?

00:08:47.134 --> 00:08:49.448
Como aprenderíamos tal modelo?

NOTE Paragraph

00:08:49.448 --> 00:08:52.651
Este processo de aprendizagem,
de descobrir o w,

00:08:52.655 --> 00:08:55.306
se o resolvermos com a equação simples,

00:08:55.306 --> 00:08:57.536
na qual pensamos
nestas variáveis como números,

00:08:57.536 --> 00:09:00.057
saberemos, exatamente,
como resolvê-la: 6 = 2 x w,

00:09:00.061 --> 00:09:03.393
dividimos por dois e pronto.

00:09:04.001 --> 00:09:06.221
O problema é com este sinal.

00:09:07.238 --> 00:09:11.083
Usamos a divisão porque
é o inverso da multiplicação,

00:09:11.083 --> 00:09:12.643
mas, como acabei de dizer,

00:09:12.643 --> 00:09:15.136
a multiplicação não deixa 
de ser uma mentira aqui.

00:09:15.136 --> 00:09:18.390
Esta é uma operação não-linear 
muito complicada;

00:09:18.390 --> 00:09:20.118
não existe o inverso.

00:09:20.118 --> 00:09:23.292
Então devemos encontrar
uma forma de resolver a equação

00:09:23.292 --> 00:09:25.356
sem um sinal de divisão.

00:09:25.360 --> 00:09:27.707
E a forma de se fazer isso 
é razoavelmente fácil.

00:09:27.707 --> 00:09:30.418
Você diz: vamos fazer um truque de álgebra

00:09:30.422 --> 00:09:33.332
e mover o seis para a direita da equação.

00:09:33.332 --> 00:09:35.678
Agora, ainda temos uma multiplicação

00:09:35.678 --> 00:09:39.239
e aquele zero, vamos pensar
nele como um erro.

00:09:39.239 --> 00:09:41.778
Em outras palavras, 
se acharmos o w da forma certa

00:09:41.778 --> 00:09:43.418
então o erro será zero.

00:09:43.418 --> 00:09:47.113
Se não conseguirmos isso da forma certa,
o erro será maior do que zero.

NOTE Paragraph

00:09:47.113 --> 00:09:50.583
Agora podemos criar suposições
para diminuir os erros,

00:09:50.583 --> 00:09:53.274
e é o tipo de coisa que
computadores fazem muito bem.

00:09:53.274 --> 00:09:56.251
Na primeira suposição: e se w = 0?
Bem, o erro será 6.

00:09:56.251 --> 00:09:58.911
E se w = 1? O erro será 4.

00:09:58.911 --> 00:10:03.532
E, então, o computador tentará adivinhar
e diminuir o erro para próximo de zero.

00:10:03.532 --> 00:10:06.985
Enquanto isso ocorre, ele está obtendo
sucessivas aproximações de w.

00:10:06.985 --> 00:10:10.741
Tipicamente, nunca se chega lá,
mas depois de várias etapas,

00:10:10.741 --> 00:10:15.349
estamos próximos de w = 2,999,
o que é bem próximo.

00:10:16.302 --> 00:10:18.156
E esse é o processo de aprendizagem.

NOTE Paragraph

00:10:18.156 --> 00:10:22.176
Lembrem-se de que estamos pegando

00:10:22.176 --> 00:10:25.176
muitos x e y conhecidos

00:10:25.176 --> 00:10:28.734
e resolvendo o w no meio disso,
através de um processo interativo.

00:10:28.734 --> 00:10:32.330
É exatamente assim que construímos
nossa própria aprendizagem.

00:10:32.334 --> 00:10:34.644
Quando somos bebês nos mostram imagens

00:10:34.644 --> 00:10:37.331
e nos dizem: "Isso é um pássaro;
isso não é um pássaro".

00:10:37.714 --> 00:10:39.876
Com o passar do tempo, 
através da interação,

00:10:39.876 --> 00:10:42.764
nós encontramos o w, 
encontramos essas conexões neurais.

NOTE Paragraph

00:10:43.460 --> 00:10:47.510
Agora mantemos o valor de x e w 
para resolver y;

00:10:47.510 --> 00:10:49.557
isso acontece todo dia, percepção rápida.

00:10:49.557 --> 00:10:51.198
Compreendemos como achar w,

00:10:51.198 --> 00:10:53.481
isso é aprendizagem, 
o que é muito mais difícil,

00:10:53.481 --> 00:10:57.180
pois precisamos minimizar os erros,
usando vários exemplos de treinamento.

NOTE Paragraph

00:10:57.180 --> 00:11:00.046
Há aproximadamente um ano,
Alex Mordvintsev, da nossa equipe,

00:11:00.046 --> 00:11:03.636
decidiu experimentar o que aconteceria
se tentássemos encontrar x,

00:11:03.640 --> 00:11:05.964
conhecendo os valores de w e y.

00:11:05.964 --> 00:11:07.069
Em outras palavras,

00:11:07.069 --> 00:11:08.731
você sabe que isto é um pássaro,

00:11:08.731 --> 00:11:11.978
e já tem sua rede neural
que treinou com pássaros,

00:11:11.982 --> 00:11:14.346
mas o que é a figura de um pássaro?

00:11:15.034 --> 00:11:20.022
Ocorre que, usando o mesmo
procedimento de minimização de erros,

00:11:20.022 --> 00:11:23.512
pode-se fazer isso com a rede treinada
para reconhecer pássaros

00:11:23.516 --> 00:11:26.924
e o resultado será...

00:11:30.400 --> 00:11:32.185
uma imagem de pássaros.

00:11:32.814 --> 00:11:36.375
Essa é uma imagem de pássaros
totalmente gerada por uma rede neural,

00:11:36.375 --> 00:11:38.571
a qual foi treinada 
para reconhecer pássaros,

00:11:38.571 --> 00:11:43.545
apenas resolvendo x em vez de y,
fazendo isso de forma interativa.

NOTE Paragraph

00:11:43.545 --> 00:11:45.799
Aqui tem um outro exemplo divertido.

00:11:45.799 --> 00:11:49.024
Esse foi um trabalho 
de Mike Tyka, em nosso grupo,

00:11:49.024 --> 00:11:51.336
que ele chamou de "Desfile Animal".

00:11:51.336 --> 00:11:54.256
Faz lembrar um pouco obras de arte 
de William Kentridge,

00:11:54.256 --> 00:11:59.019
na qual ele faz desenhos e os apaga,
sucessivamente, e cria um filme assim.

00:11:59.019 --> 00:12:04.120
Neste caso, Mike varia o y
no espaço de diferentes animais,

00:12:04.120 --> 00:12:07.607
numa rede desenvolvida para reconhecer
e distinguir diferentes animais.

00:12:07.607 --> 00:12:12.582
E você consegue essa estranha mudança
de um animal para outro, estilo Escher.

NOTE Paragraph

00:12:14.221 --> 00:12:18.819
Aqui, Alex e ele, juntos, tentaram reduzir

00:12:18.819 --> 00:12:21.602
o y a um espaço de duas dimensões,

00:12:21.602 --> 00:12:25.044
fazendo assim um mapa fora 
do espaço de todas as coisas

00:12:25.044 --> 00:12:26.863
reconhecidas por essa rede.

00:12:26.863 --> 00:12:28.834
Fazendo esse tipo de síntese

00:12:28.834 --> 00:12:31.276
ou geração de imagem
sobre essa superfície inteira,

00:12:31.280 --> 00:12:34.226
variando y sobre a superfície,
você cria um mapa visual

00:12:34.226 --> 00:12:37.275
de todas as coisas
que a rede consegue reconhecer.

00:12:37.275 --> 00:12:40.200
Todos os animas estão aqui;
o tatu está bem naquele canto.

NOTE Paragraph

00:12:40.919 --> 00:12:43.352
Você também pode fazer isso 
com outras redes.

00:12:43.352 --> 00:12:46.280
Essa é uma rede criada 
para reconhecer faces,

00:12:46.280 --> 00:12:48.320
distinguir uma face de outra.

00:12:48.324 --> 00:12:53.016
E, aqui, colocamos um y que seria "eu",
parâmetros da minha própria face.

00:12:53.016 --> 00:12:57.908
E quando essa rede encontra x,
ela gera essa imagem doida,

00:12:57.908 --> 00:13:02.016
um estilo cubismo, surreal,
uma figura psicodélica de mim

00:13:02.016 --> 00:13:03.826
a partir de múltiplos pontos de vista.

00:13:03.826 --> 00:13:06.734
A razão de parecer com múltiplos pontos
de vista de uma só vez

00:13:06.734 --> 00:13:10.179
é porque a rede é criada
para conseguir se livrar da ambiguidade

00:13:10.179 --> 00:13:12.779
de uma face em uma pose ou outra,

00:13:12.779 --> 00:13:16.209
sendo olhada com um tipo ou outro de luz.

00:13:16.209 --> 00:13:18.258
Então, quando faz
esse tipo de reconstrução,

00:13:18.258 --> 00:13:21.887
se você não usar algum 
guia de imagem ou de estatística,

00:13:21.887 --> 00:13:25.640
pode ficar confuso,
devido a diferentes pontos de vista,

00:13:25.640 --> 00:13:27.368
porque isso é ambíguo.

00:13:27.786 --> 00:13:31.993
Isto é o que acontece se Alex usar
sua própria face como guia de imagem

00:13:31.993 --> 00:13:35.354
durante o processo de otimização
para reconstruir minha face.

00:13:36.284 --> 00:13:38.576
Então, podem ver que não é perfeito.

00:13:38.576 --> 00:13:40.334
Ainda há muito trabalho a fazer

00:13:40.334 --> 00:13:42.971
sobre como otimizar
aquele processo de otimização.

00:13:42.971 --> 00:13:45.822
Mas começa a ter algo
como uma face coerente,

00:13:45.822 --> 00:13:48.106
acabando por usar 
minha própria face como guia.

NOTE Paragraph

00:13:48.892 --> 00:13:52.437
Não é preciso começar com uma
tela em branco ou com ruído branco.

00:13:52.437 --> 00:13:53.981
Quando se está resolvendo x,

00:13:53.981 --> 00:13:57.778
pode-se começar com um x,
que, por si só, já é outra imagem.

00:13:57.778 --> 00:14:00.378
Isto é o que representa
esta pequena demonstração.

00:14:00.378 --> 00:14:04.540
Isto é uma rede desenhada para categorizar

00:14:04.564 --> 00:14:07.647
todo tipo de diferentes objetos,
criações humanas, animais...

00:14:07.647 --> 00:14:10.284
Aqui começamos apenas
com uma figura de nuvens,

00:14:10.284 --> 00:14:11.979
e enquanto otimizamos,

00:14:11.979 --> 00:14:16.505
basicamente, esta rede está descobrindo
o que se vê nas nuvens.

00:14:16.931 --> 00:14:19.251
E quanto mais você olha pra isso,

00:14:19.275 --> 00:14:22.028
mais coisas também verá nas nuvens.

00:14:23.004 --> 00:14:26.343
Poderia também usar a rede da face
para ficar alucinado,

00:14:26.343 --> 00:14:28.535
então verá umas coisas muito loucas.

NOTE Paragraph

00:14:28.535 --> 00:14:29.869
(Risos)

NOTE Paragraph

00:14:30.401 --> 00:14:33.129
Mike fez algumas outras experiências,

00:14:33.129 --> 00:14:37.058
nas quais leva a imagem da nuvem,

00:14:37.058 --> 00:14:40.569
e ele alucina e aproxima, sucessivamente,

00:14:40.569 --> 00:14:41.800
e dessa forma,

00:14:41.804 --> 00:14:45.443
pode ter uma espécie 
de estado de fuga da rede, suponho,

00:14:45.443 --> 00:14:49.167
ou um tipo de associação livre,

00:14:49.167 --> 00:14:51.494
em que a rede morde sua própria cauda.

00:14:51.494 --> 00:14:56.148
Assim, toda imagem é base para a pergunta:
"O que acho que verei agora?

00:14:56.148 --> 00:14:59.151
O que acho que verei agora?
O que acho que verei agora?"

NOTE Paragraph

00:14:59.487 --> 00:15:02.423
Mostrei isso pela primeira vez em público,

00:15:02.427 --> 00:15:05.868
a um grupo, numa palestra em Seattle,


00:15:05.868 --> 00:15:07.848
chamado "Educação Maior";

00:15:07.848 --> 00:15:10.385
isso aconteceu assim
que a maconha foi legalizada.

NOTE Paragraph

00:15:10.385 --> 00:15:12.004
(Risos)

NOTE Paragraph

00:15:14.627 --> 00:15:16.731
Então, quero terminar logo,

00:15:16.735 --> 00:15:20.994
mencionando que esta tecnologia
não está restrita.

00:15:20.994 --> 00:15:24.683
Mostrei a vocês exemplos puramente visuais
porque são divertidos de se ver.

00:15:24.683 --> 00:15:27.158
Esta não é uma tecnologia 
exclusivamente visual.

00:15:27.158 --> 00:15:29.231
Nosso colaborador, Ross Goodwin,

00:15:29.231 --> 00:15:32.850
fez experiências envolvendo 
uma câmera que tira a foto,

00:15:32.850 --> 00:15:37.028
e aí, um computador na sua mochila,
escreve um poema usando redes neurais,

00:15:37.028 --> 00:15:39.112
baseados nos conteúdos da imagem.

00:15:39.116 --> 00:15:42.047
E aquela poesia de rede neural 
tem sido treinada

00:15:42.047 --> 00:15:44.305
num grande corpus de poesia do século 20.

00:15:44.305 --> 00:15:47.746
E a poesia, na verdade,
não é tão ruim, eu acho.

NOTE Paragraph

00:15:47.746 --> 00:15:49.154
(Risos)

NOTE Paragraph

00:15:49.154 --> 00:15:50.453
Para fechar,

00:15:50.453 --> 00:15:53.757
acho que Michelangelo estava certo:

00:15:53.757 --> 00:15:57.267
percepção e criatividade
estão intimamente ligadas.

00:15:57.611 --> 00:16:00.245
O que vimos são apenas redes neurais,

00:16:00.249 --> 00:16:02.556
que estão totalmente
treinadas para discriminar

00:16:02.556 --> 00:16:04.898
ou reconhecer coisas diferentes no mundo,

00:16:04.898 --> 00:16:08.007
capazes de trabalhar 
em sentido contrário para produzir.

00:16:08.007 --> 00:16:09.870
Uma das coisas que me vem à cabeça

00:16:09.870 --> 00:16:14.632
é que não só Michelangelo viu
a escultura nos blocos de pedra,

00:16:14.632 --> 00:16:18.374
mas qualquer criatura, 
qualquer ser, alienígena,

00:16:18.374 --> 00:16:21.975
que é capaz de fazer 
atos de percepção desse tipo,

00:16:21.975 --> 00:16:23.570
também é capaz de criar,

00:16:23.570 --> 00:16:26.702
porque é exatamente a mesma máquina
usada nos dois casos.

NOTE Paragraph

00:16:26.702 --> 00:16:32.194
Também penso que percepção e criatividade 
não são exclusivamente humanas.

00:16:32.532 --> 00:16:36.224
Temos modelos de computadores capazes
de fazer justamente esse tipo de coisa,

00:16:36.224 --> 00:16:39.576
e não deveria ser surpreendente,
pois o cérebro é computacional.

NOTE Paragraph

00:16:39.576 --> 00:16:41.273
E finalmente,

00:16:41.277 --> 00:16:45.929
a computação começou como um exercício 
de planejar maquinaria inteligente.

00:16:45.929 --> 00:16:48.435
Foi muito pensado na ideia

00:16:48.435 --> 00:16:51.472
de como faríamos as máquinas
ficarem inteligentes.

00:16:51.472 --> 00:16:53.704
E agora, estamos finalmente
começando a cumprir

00:16:53.704 --> 00:16:56.144
algumas das promessas daqueles pioneiros,

00:16:56.144 --> 00:17:00.074
de Turing e Von Neumann,
e McCulloch e Pitts.

00:17:00.074 --> 00:17:04.236
E acho que computação
não é apenas números

00:17:04.236 --> 00:17:06.407
ou jogar Candy Crush ou algo assim.

00:17:06.407 --> 00:17:09.229
No começo, modelamos as máquinas 
segundo as nossas mentes.

00:17:09.229 --> 00:17:12.318
E elas nos dão tanto a habilidade 
de entender melhor nossa mente

00:17:12.322 --> 00:17:14.191
como de expandi-la.

NOTE Paragraph

00:17:14.627 --> 00:17:15.854
Muito obrigado.

NOTE Paragraph

00:17:15.854 --> 00:17:17.577
(Aplausos)