WEBVTT

00:00:00.800 --> 00:00:04.064
Lidero uma equipa do Google
que trabalha com inteligência artificial.

00:00:04.064 --> 00:00:08.598
Por outras palavras, cria
computadores e dispositivos

00:00:08.622 --> 00:00:11.341
capazes de fazer coisas que o cérebro faz.

00:00:11.729 --> 00:00:14.538
Portanto, estamos muito interessados
em cérebros de verdade

00:00:14.562 --> 00:00:16.131
e também na neurociência,

00:00:16.131 --> 00:00:20.047
e especialmente interessados nas coisas
que o nosso cérebro faz

00:00:20.071 --> 00:00:24.433
com um desempenho
muito superior ao dos computadores.

NOTE Paragraph

00:00:25.209 --> 00:00:28.818
Historicamente, uma dessas áreas
tem sido a perceção,

00:00:28.842 --> 00:00:31.881
o processo pelo qual as coisas
lá fora, no mundo

00:00:31.905 --> 00:00:33.489
— sons e imagens —

00:00:33.513 --> 00:00:36.031
podem tornar-se conceitos
no nosso espírito.

00:00:36.235 --> 00:00:38.752
Isto é essencial para
o nosso próprio cérebro

00:00:38.776 --> 00:00:41.330
e também é muito útil num computador.

00:00:41.636 --> 00:00:44.986
Os algoritmos de perceção das máquinas,
como os que a nossa equipa faz,

00:00:45.010 --> 00:00:48.884
são os que possibilitam encontrar
as nossas imagens no Google Photos

00:00:48.908 --> 00:00:51.145
com base no que contêm.

00:00:51.594 --> 00:00:55.087
O outro lado da perceção é a criatividade

00:00:55.111 --> 00:00:58.149
que traduz um conceito
numa coisa que existe no mundo.

00:00:58.173 --> 00:01:01.728
Ao longo do ano passado, o nosso trabalho
sobre a perceção das máquinas

00:01:01.752 --> 00:01:06.611
também se ligou inesperadamente
ao mundo da criatividade das máquinas

00:01:06.635 --> 00:01:08.265
e da arte das máquinas.

NOTE Paragraph

00:01:08.556 --> 00:01:11.840
Eu acho que Miguel Ângelo
teve uma visão perspicaz

00:01:11.864 --> 00:01:15.780
quanto a esta dupla relação
entre perceção e criatividade.

00:01:16.023 --> 00:01:18.399
Esta é uma sua famosa citação:

00:01:18.409 --> 00:01:21.676
"Cada bloco de pedra
tem uma estátua lá dentro.

00:01:22.036 --> 00:01:25.538
"O papel do escultor é descobri-la."

00:01:26.029 --> 00:01:29.385
Eu acho que Miguel Ângelo
queria exprimir

00:01:29.385 --> 00:01:32.449
que nós criamos através da perceção

00:01:32.473 --> 00:01:35.496
e que essa perceção em si
é um ato de imaginação

00:01:35.520 --> 00:01:38.031
e é a matéria-prima da criatividade.

NOTE Paragraph

00:01:38.691 --> 00:01:42.616
O órgão que processa todo o pensamento,
a perceção e a imaginação,

00:01:42.640 --> 00:01:44.228
claro, é o cérebro.

00:01:45.089 --> 00:01:47.634
Gostaria de começar
com um pequeno resumo da história

00:01:47.658 --> 00:01:50.120
sobre o que sabemos sobre o cérebro.

00:01:50.496 --> 00:01:53.162
Porque, ao contrário
do coração ou dos intestinos,

00:01:53.162 --> 00:01:56.330
não podemos dizer muito sobre o cérebro,
apenas olhando para ele

00:01:56.330 --> 00:01:57.906
pelo menos, a olho nu.

00:01:57.983 --> 00:02:00.499
Os primeiros anatomistas
que olharam para o cérebro

00:02:00.499 --> 00:02:04.230
deram à sua estrutura superficial
todo o tipo de nomes fantasiosos

00:02:04.254 --> 00:02:06.537
como hipocampo,
que significa "cavalo-marinho."

00:02:06.711 --> 00:02:09.475
Mas com certeza, esse tipo de coisas
não nos diz muito

00:02:09.499 --> 00:02:11.997
sobre o que de facto acontece dentro dele.

NOTE Paragraph

00:02:12.780 --> 00:02:16.393
Acho que a primeira pessoa
que lançou alguma luz

00:02:16.417 --> 00:02:18.347
sobre o que ocorria dentro do cérebro

00:02:18.371 --> 00:02:22.291
foi o grande neuroanatomista espanhol
Santiago Ramón y Cajal,

00:02:22.315 --> 00:02:23.859
no século XIX,

00:02:23.883 --> 00:02:27.638
que usou a microscopia
e corantes especiais

00:02:27.662 --> 00:02:31.832
que podiam colorir seletivamente
ou criar um alto contraste

00:02:31.856 --> 00:02:33.864
as células individuais dentro do cérebro,

00:02:33.888 --> 00:02:37.042
para começar a entender a sua morfologia.

00:02:37.972 --> 00:02:40.507
Estes são os tipos
de desenhos de neurónios,

00:02:40.507 --> 00:02:42.096
que ele fez no século XIX.

NOTE Paragraph

00:02:42.120 --> 00:02:44.164
Este é de um cérebro de pássaro.

00:02:44.164 --> 00:02:47.085
Vemos esta incrível variedade
de diferentes tipos de células.

00:02:47.109 --> 00:02:50.544
Até a própria teoria celular
era praticamente nova nesta altura.

00:02:50.568 --> 00:02:51.976
Estas estruturas,

00:02:51.976 --> 00:02:54.339
estas células que têm estas ramificações,

00:02:54.339 --> 00:02:56.761
estes ramos que podem percorrer
grandes distâncias,

00:02:56.785 --> 00:02:58.541
eram uma novidade na época.

00:02:58.779 --> 00:03:01.682
Claro que nos fazem lembrar cabos.

00:03:01.706 --> 00:03:05.333
No século XIX, isso talvez fosse óbvio
para algumas pessoas,

00:03:05.333 --> 00:03:09.501
a revolução da cablagem elétrica
estava apenas a começar.

00:03:09.964 --> 00:03:11.142
Mas, de várias maneiras,

00:03:11.166 --> 00:03:14.479
esses desenhos microanatómicos
de Ramón y Cajal, como este,

00:03:14.503 --> 00:03:16.975
ainda são, de certa forma, insuperáveis.

NOTE Paragraph

00:03:16.975 --> 00:03:18.603
Mais de cem anos depois,

00:03:18.603 --> 00:03:21.792
continuamos a tentar terminar
o trabalho que Ramón y Cajal iniciou.

00:03:21.792 --> 00:03:24.720
Estes são dados brutos
dos nossos colaboradores

00:03:24.744 --> 00:03:27.625
do Instituto de Neurociência Max Planck.

00:03:27.649 --> 00:03:30.489
Os nossos colaboradores têm fotografado

00:03:30.489 --> 00:03:34.464
pequenos pedaços de tecido cerebral.

00:03:34.488 --> 00:03:37.814
A amostra total aqui tem cerca
de um milímetro cúbico de tamanho

00:03:37.838 --> 00:03:40.373
e estou a mostrar aqui
apenas um pequeno pedaço.

00:03:40.373 --> 00:03:42.829
Aquela barra à esquerda tem
mais ou menos um mícron.

00:03:42.853 --> 00:03:45.262
As estruturas que vemos são mitocôndrias

00:03:45.286 --> 00:03:47.330
que têm o tamanho de uma bactéria.

00:03:47.354 --> 00:03:49.015
E estas são cortes consecutivos

00:03:49.015 --> 00:03:52.077
desse bloco de tecido
muito pequeno.

00:03:52.101 --> 00:03:54.504
Só para efeitos de comparação,

00:03:54.528 --> 00:03:58.244
o diâmetro médio de um cabelo
é de cerca de 100 mícrons.

00:03:58.244 --> 00:04:01.978
Portanto, estamos a olhar para uma coisa
muito menor do que um simples cabelo.

NOTE Paragraph

00:04:02.064 --> 00:04:06.095
A partir deste tipo de cortes em série
vistos ao microscópio eletrónico,

00:04:06.119 --> 00:04:11.127
podemos fazer reconstruções em 3D
de neurónios, como estes.

00:04:11.151 --> 00:04:14.308
Estes são do mesmo estilo
dos de Ramón y Cajal.

00:04:14.332 --> 00:04:18.534
Só se iluminam alguns neurónios,
senão, não conseguiríamos ver nada.

00:04:18.653 --> 00:04:20.115
Ficaria muito sobrecarregado,

00:04:20.115 --> 00:04:22.429
cheio de estruturas de cabos,

00:04:22.429 --> 00:04:24.667
ligando os neurónios uns aos outros.

NOTE Paragraph

00:04:25.293 --> 00:04:28.097
Ramón y Cajal estava avançado
para a sua época

00:04:28.121 --> 00:04:30.996
e o progresso na compreensão do cérebro

00:04:30.996 --> 00:04:33.351
prosseguiu devagar
durante as décadas seguintes.

00:04:33.455 --> 00:04:36.528
Mas nós sabíamos que os neurónios
usavam a eletricidade.

00:04:36.528 --> 00:04:39.418
Com a II Guerra Mundial,
a nossa tecnologia avançou bastante

00:04:39.418 --> 00:04:42.218
para iniciar experiências elétricas
em neurónios vivos,

00:04:42.218 --> 00:04:44.458
para melhor entender
como eles funcionavam.

00:04:44.881 --> 00:04:48.987
Foi na mesma época em que
foram inventados os computadores,

00:04:49.011 --> 00:04:52.111
com base sobretudo na ideia
de imitar o cérebro

00:04:52.135 --> 00:04:55.220
— uma "máquina inteligente", 
como lhe chamou Alan Turing,

00:04:55.244 --> 00:04:57.555
um dos pais da informática.

NOTE Paragraph

00:04:57.923 --> 00:05:02.555
Warren McCulloch e Walter Pitts 
olharam para o desenho de Ramón y Cajal

00:05:02.579 --> 00:05:03.896
do córtex visual,

00:05:03.920 --> 00:05:05.772
que estou a mostrar aqui.

00:05:06.326 --> 00:05:10.088
Este é o córtex que processa as imagens
que provêm dos olhos.

00:05:10.424 --> 00:05:14.082
Para eles, isto parecia
o diagrama de um circuito.

00:05:14.353 --> 00:05:18.062
Há muitos detalhes no diagrama
no circuito de McCulloch e de Pitt

00:05:18.062 --> 00:05:19.714
que não estão lá muito corretos.

00:05:19.714 --> 00:05:21.093
Mas a ideia básica

00:05:21.093 --> 00:05:24.839
de que o córtex visual funciona como
uma série de elementos eletrónicos

00:05:24.863 --> 00:05:27.609
que passam informações
de um para outro, em cascata,

00:05:27.633 --> 00:05:29.335
está essencialmente correta.

NOTE Paragraph

00:05:29.335 --> 00:05:31.739
Vamos falar por momentos

00:05:31.739 --> 00:05:35.865
do que um modelo de processamento
de informações visuais precisaria de fazer.

00:05:36.228 --> 00:05:38.969
A tarefa básica da perceção

00:05:38.993 --> 00:05:43.091
é pegar numa imagem como esta e dizer:

00:05:43.091 --> 00:05:44.507
"Isto é uma ave",

00:05:44.507 --> 00:05:47.475
o que é uma coisa muito simples
que fazermos com o cérebro.

00:05:47.475 --> 00:05:50.730
Mas devem compreender que,
para um computador,

00:05:50.754 --> 00:05:53.841
isso era praticamente impossível,
até há poucos anos.

00:05:53.865 --> 00:05:56.081
O paradigma clássico da informática

00:05:56.081 --> 00:05:58.732
não permite realizar
facilmente essa tarefa.

NOTE Paragraph

00:05:59.366 --> 00:06:02.018
Então, o que acontece entre os píxeis,

00:06:02.018 --> 00:06:05.970
entre a imagem de um pássaro
e a palavra "ave",

00:06:05.994 --> 00:06:08.808
é uma série de neurónios
ligados uns aos outros

00:06:08.832 --> 00:06:11.547
numa rede neural
como este diagrama aqui.

00:06:11.704 --> 00:06:14.530
Esta rede neural pode ser biológica,
como no córtex visual,

00:06:14.554 --> 00:06:17.226
ou, atualmente, começamos
a ter a capacidade de modelar

00:06:17.226 --> 00:06:19.194
estas redes neurais no computador.

00:06:19.834 --> 00:06:22.187
Vou mostrar o aspeto que isso tem.

NOTE Paragraph

00:06:22.211 --> 00:06:25.627
Podemos considerar os píxeis
como uma primeira camada de neurónio

00:06:25.651 --> 00:06:27.890
— e, de facto, é assim
que funciona o olho —

00:06:27.914 --> 00:06:29.577
são os neurónios na retina.

00:06:29.601 --> 00:06:31.631
e eles transmitem as informações

00:06:31.631 --> 00:06:34.528
camada após camada,
após camada de neurónios,

00:06:34.552 --> 00:06:37.585
todos ligados através de sinapses
de diferentes pesos.

00:06:37.609 --> 00:06:39.114
O comportamento desta rede

00:06:39.114 --> 00:06:42.352
é caracterizado pelas forças
de todas estas sinapses.

00:06:42.352 --> 00:06:45.564
Elas caracterizam as propriedades
informáticas dessa rede.

00:06:45.588 --> 00:06:47.058
E por fim,

00:06:47.082 --> 00:06:49.619
temos um neurónio
ou um pequeno grupo de neurónios

00:06:49.619 --> 00:06:51.570
que se iluminam, dizendo: "ave".

NOTE Paragraph

00:06:51.824 --> 00:06:54.956
Agora vou representar essas três coisas

00:06:54.980 --> 00:06:59.676
— os píxeis de entrada
e as sinapses na rede neural,

00:06:59.700 --> 00:07:01.285
e a ave, o resultado —

00:07:01.309 --> 00:07:04.576
por três variáveis: x, w e y.

00:07:04.853 --> 00:07:06.754
Há talvez um milhão de x,

00:07:06.754 --> 00:07:08.641
um milhão de píxeis nesta imagem.

00:07:08.665 --> 00:07:11.111
Há milhares de milhões ou biliões de w,

00:07:11.135 --> 00:07:14.556
que representam os pesos de todas
essas sinapses na rede neural.

00:07:14.580 --> 00:07:16.455
E há um pequeno número de y,

00:07:16.479 --> 00:07:18.337
de resultados que essa rede neural tem.

00:07:18.361 --> 00:07:20.430
"Ave" tem apenas três letras, não é?

00:07:21.088 --> 00:07:24.514
Então vamos supor que isso
é uma fórmula simples,

00:07:24.538 --> 00:07:26.701
x "vezes" w = y.

00:07:26.725 --> 00:07:28.891
Coloco o sinal de multiplicação entre aspas

00:07:28.891 --> 00:07:31.065
porque o que realmente está 
ali a acontecer,

00:07:31.089 --> 00:07:34.285
é uma série muito complicada
de operações matemáticas

NOTE Paragraph

00:07:35.172 --> 00:07:36.393
Isto é uma equação.

00:07:36.417 --> 00:07:38.089
Há três variáveis.

00:07:38.113 --> 00:07:41.079
Todos nós sabemos que,
se temos uma equação,

00:07:41.079 --> 00:07:44.505
podemos encontrar uma variável
se conhecermos as outras duas.

00:07:45.158 --> 00:07:48.538
Assim, o problema da inferência,

00:07:48.562 --> 00:07:51.435
ou seja, descobrir que a figura
de uma ave é uma ave,

00:07:51.459 --> 00:07:52.893
é o seguinte:

00:07:52.913 --> 00:07:56.216
É onde y é a incógnita
e w e x são conhecidos.

00:07:56.240 --> 00:07:58.699
Conhecemos a rede neural,
conhecemos os píxeis.

00:07:58.723 --> 00:08:02.050
Como podemos ver, isto é de facto
um problema relativamente simples.

00:08:02.074 --> 00:08:04.260
Multiplicamos duas vezes três
e está feito.

00:08:04.862 --> 00:08:06.985
Vou mostrar uma rede neural artificial

00:08:07.009 --> 00:08:09.715
que construímos há pouco tempo,
fazendo exatamente isso.

NOTE Paragraph

00:08:09.715 --> 00:08:12.494
Isto está a correr em tempo real
num telemóvel

00:08:12.518 --> 00:08:15.831
e, claro, é incrível, só por si,

00:08:15.855 --> 00:08:18.627
que os telemóveis possam fazer
milhares de milhões ou

00:08:18.647 --> 00:08:20.595
ou biliões de operações por segundo.

00:08:20.619 --> 00:08:22.374
O que estamos a ver é um telemóvel

00:08:22.374 --> 00:08:25.805
a olhar para figuras de aves,
umas atrás das outras,

00:08:25.829 --> 00:08:28.544
a dizer: "Sim, isto é uma ave",

00:08:28.568 --> 00:08:31.979
e também a identificar as espécies de aves
com uma rede deste tipo.

00:08:32.890 --> 00:08:34.716
Assim, nesta imagem,

00:08:34.740 --> 00:08:38.542
o x e o w são conhecidos,
e o y é a incógnita.

00:08:38.566 --> 00:08:41.074
Claro, estou a encobrir
a parte mais difícil,

00:08:41.098 --> 00:08:44.959
que é como podemos
descobrir o valor de w,

NOTE Paragraph

00:08:44.983 --> 00:08:47.170
como é que o cérebro
pode fazer tal coisa?

00:08:47.194 --> 00:08:49.258
Como poderemos
aprender esse modelo?

NOTE Paragraph

00:08:49.418 --> 00:08:52.651
Este processo de aprendizagem,
de encontrar o w,

00:08:52.675 --> 00:08:55.322
se estivéssemos a fazer isso
com uma simples equação

00:08:55.346 --> 00:08:57.346
em que utilizamos números,

00:08:57.370 --> 00:09:00.417
sabemos exatamente como fazer isso:
6 = 2 x w.

00:09:00.417 --> 00:09:03.573
Dividimos por dois e está feito.

00:09:04.001 --> 00:09:06.361
O problema é com este operador.

00:09:06.823 --> 00:09:07.974
a divisão.

00:09:08.158 --> 00:09:11.119
Usamos a divisão porque 
é o inverso da multiplicação

00:09:11.143 --> 00:09:12.583
mas, como acabei de dizer,

00:09:12.607 --> 00:09:15.056
a multiplicação aqui
é uma pequena mentira.

00:09:15.080 --> 00:09:18.406
Esta é uma operação muito complicada,
não é linear,

00:09:18.430 --> 00:09:20.134
não tem forma inversa.

00:09:20.158 --> 00:09:23.308
Então temos de descobrir
uma forma de resolver a equação

00:09:23.332 --> 00:09:25.356
sem um operador de divisão.

00:09:25.380 --> 00:09:27.723
A forma de fazer isso é bem simples.

00:09:27.747 --> 00:09:30.418
Basta dizer: "Vamos brincar
com os truques da álgebra"

00:09:30.442 --> 00:09:33.348
e movemos o seis
para o lado direito da equação.

00:09:33.372 --> 00:09:35.558
Continuamos a usar a multiplicação.

00:09:35.675 --> 00:09:39.255
E vamos pensar naquele zero
como um erro.

00:09:39.279 --> 00:09:41.794
Por outras palavras,
se resolvermos da forma correta,

00:09:41.818 --> 00:09:43.474
o erro será zero.

00:09:43.498 --> 00:09:46.976
E se não resolvemos corretamente,
o erro será maior do que zero.

NOTE Paragraph

00:09:47.233 --> 00:09:50.343
Então podemos apenas dar palpites
para minimizar o erro.

00:09:50.343 --> 00:09:53.310
Esse é o tipo de coisas em que
os computadores são muito bons.

00:09:53.334 --> 00:09:54.927
Assim, temos um palpite inicial:

00:09:54.951 --> 00:09:56.545
E se w = 0? 
Então o erro é seis.

00:09:56.545 --> 00:09:58.841
E se w = 1? 
Então o erro é 4.

00:09:58.865 --> 00:10:01.232
Então o computador
pode fazer de Marco Polo,

00:10:01.256 --> 00:10:03.623
e diminuir o erro
para mais próximo de zero.

00:10:03.647 --> 00:10:07.021
Fazendo isso, vamos ter sucessivas
aproximações até ao w.

00:10:07.045 --> 00:10:10.701
Normalmente, nunca lá chega,
mas após uma dúzia de passos,

00:10:10.725 --> 00:10:15.729
temos w = 2,999,
o que é suficientemente próximo.

00:10:16.302 --> 00:10:18.116
É este o processo de aprendizagem.

NOTE Paragraph

00:10:18.140 --> 00:10:20.870
Por isso, lembrem-se
que o que está a acontecer aqui

00:10:20.894 --> 00:10:25.272
é que estamos a pegar num monte
de x e y conhecidos

00:10:25.296 --> 00:10:28.750
e a procurar o w
através de um processo repetitivo.

00:10:28.774 --> 00:10:32.330
Isto é a mesma coisa que fazemos
com a nossa aprendizagem.

00:10:32.354 --> 00:10:35.464
Temos muitas imagens,
enquanto bebés, e dizem-nos:

00:10:35.464 --> 00:10:37.541
"Isto é uma ave,
isto não é uma ave".

00:10:37.714 --> 00:10:40.192
Ao longo do tempo, através da repetição,

00:10:40.192 --> 00:10:43.214
encontramos o w,
aquelas ligações neurais.

NOTE Paragraph

00:10:43.460 --> 00:10:47.546
Então agora, temos o x e o w fixos,
para resolvermos o y.

00:10:47.570 --> 00:10:49.417
É a perceção rápida, de todos os dias.

00:10:49.441 --> 00:10:51.048
Descobrimos como encontrar o w,

00:10:51.048 --> 00:10:53.461
isso é aprendizagem,
o que é um muito mais difícil

00:10:53.461 --> 00:10:56.770
porque precisamos de minimizar o erro,
praticando muitos exemplos.

NOTE Paragraph

00:10:56.875 --> 00:11:00.062
Há uns anos, Alex Mordvintsev,
da nossa equipa,

00:11:00.086 --> 00:11:03.636
decidiu experimentar o que acontece
se tentarmos encontrar o x,

00:11:03.660 --> 00:11:05.837
em que o w e o y são conhecidos.

00:11:06.124 --> 00:11:08.515
Por outras palavras,
sabemos que é uma ave,

00:11:08.675 --> 00:11:11.978
já treinámos a rede neural com as aves,

00:11:12.002 --> 00:11:14.586
mas o que é a imagem de uma ave?

00:11:15.034 --> 00:11:20.058
Acontece que, usando exatamente o mesmo
procedimento de minimização de erros,

00:11:20.082 --> 00:11:23.512
podemos fazer isso com a rede
treinada para reconhecer aves

00:11:23.536 --> 00:11:26.924
e o resultado será...

00:11:30.400 --> 00:11:31.975
uma imagem de aves.

00:11:32.814 --> 00:11:36.551
É uma imagem de aves
gerada totalmente por uma rede neural,

00:11:36.575 --> 00:11:38.691
treinada para reconhecer aves,

00:11:38.691 --> 00:11:41.963
simplesmente procurando x,
em vez de procurar o y,

00:11:41.987 --> 00:11:43.655
e fazendo-o por repetição.

NOTE Paragraph

00:11:43.882 --> 00:11:45.719
Eis outro exemplo engraçado.

00:11:45.719 --> 00:11:49.040
Este foi um trabalho feito
por Mike Tyka no nosso grupo

00:11:49.064 --> 00:11:51.372
a que ele chama "Desfile de Animais".

00:11:51.396 --> 00:11:54.272
Recorda-me um pouco as obras
de William Kentridge,

00:11:54.296 --> 00:11:56.785
em que ele faz esboços e depois os apaga,

00:11:56.809 --> 00:11:59.629
faz esboços e os apaga
e cria um filme dessa forma

00:11:59.715 --> 00:12:04.016
Neste caso, Mike vai variando y
no espaço de diferentes animais

00:12:04.191 --> 00:12:06.573
numa rede concebida
para reconhecer e distinguir

00:12:06.597 --> 00:12:08.517
animais diferentes uns dos outros.

00:12:08.517 --> 00:12:12.182
Podemos achar estranho, é como ter
uma metamorfose de um animal para outro.

NOTE Paragraph

00:12:14.221 --> 00:12:18.835
Aqui ele e Alex, em conjunto,
tentaram reduzir os y

00:12:18.859 --> 00:12:21.618
num espaço de apenas duas dimensões,

00:12:21.642 --> 00:12:25.080
criando um mapa fora do espaço
de todas as coisas

00:12:25.104 --> 00:12:26.823
reconhecidas por essa rede.

00:12:26.847 --> 00:12:28.970
Fazendo esse tipo de síntese

00:12:28.970 --> 00:12:31.276
ou geração de imagens
sobre toda a superfície,

00:12:31.300 --> 00:12:34.146
variando y na superfície,
fazemos uma espécie de mapa,

00:12:34.170 --> 00:12:37.311
um mapa visual de todas as coisas
que a rede sabe reconhecer.

00:12:37.335 --> 00:12:40.200
Os animais estão todos aqui:
o tatu está naquele local.

NOTE Paragraph

00:12:40.919 --> 00:12:43.398
Também podemos fazer isso
com outras redes.

00:12:43.422 --> 00:12:46.296
Esta é uma rede desenhada
para reconhecer rostos,

00:12:46.320 --> 00:12:48.650
para distinguir um rosto de outro.

00:12:48.650 --> 00:12:51.593
Aqui, estamos a colocar um Y
que diz "eu",

00:12:51.617 --> 00:12:53.192
os parâmetros do meu rosto.

00:12:53.216 --> 00:12:55.072
Quando isso é resolvido para x,

00:12:55.072 --> 00:12:58.454
gera a minha imagem, bastante louca,

00:12:58.454 --> 00:13:01.740
tipo cubista, surrealista, psicadélica,

00:13:01.740 --> 00:13:03.966
de vários pontos de vista ao mesmo tempo.

00:13:03.966 --> 00:13:06.984
A razão de se parecer com vários
pontos de vista ao mesmo tempo,

00:13:06.984 --> 00:13:10.315
é porque esta rede está concebida
para se livrar da ambiguidade

00:13:10.339 --> 00:13:12.815
de um rosto estar numa pose qualquer,

00:13:12.839 --> 00:13:16.215
de ser visto com um tipo de luz,
com outro tipo de luz.

00:13:16.239 --> 00:13:18.324
Quando fazemos este tipo de reconstrução,

00:13:18.348 --> 00:13:21.812
se não usarmos qualquer tipo
de guia de imagem ou de estatística,

00:13:21.911 --> 00:13:25.676
obtemos uma certa confusão
de diferentes pontos de vista,

00:13:25.700 --> 00:13:27.468
porque isso é ambíguo.

00:13:27.786 --> 00:13:32.009
É o que acontece se o Alex usar
o seu rosto como guia de imagem

00:13:32.033 --> 00:13:35.464
durante o processo de otimização
para reconstruir o meu rosto.

00:13:36.284 --> 00:13:38.612
Vemos que isto não é perfeito.

00:13:38.636 --> 00:13:40.510
Ainda há muito trabalho a fazer

00:13:40.534 --> 00:13:42.987
sobre como melhorar
a otimização do processo.

00:13:43.011 --> 00:13:45.838
Mas começamos a ver alguma coisa
como um rosto coerente,

00:13:45.862 --> 00:13:48.436
usando o meu rosto como guia.

NOTE Paragraph

00:13:48.892 --> 00:13:51.393
Não precisamos de começar
com uma tela em branco

00:13:51.417 --> 00:13:52.573
ou com interferências,

00:13:52.597 --> 00:13:54.251
quando estamos a procurar x.

00:13:54.251 --> 00:13:57.814
Podemos começar com um x
que, em si mesmo, já é uma outra imagem.

00:13:57.838 --> 00:14:00.644
É isso que é esta pequena demonstração.

00:14:00.644 --> 00:14:04.540
Esta é uma rede desenhada
para categorizar

00:14:04.564 --> 00:14:07.683
todo o tipo de objetos — estruturas
feitas pelo homem, animais.

00:14:07.707 --> 00:14:10.300
Aqui estamos a começar
apenas com uma imagem de nuvens.

00:14:10.324 --> 00:14:11.995
Quando otimizamos,

00:14:12.019 --> 00:14:16.505
essa rede está a descobrir
o que vê nas nuvens.

00:14:16.931 --> 00:14:19.251
Quanto mais tempo gastarmos
a olhar para isto,

00:14:19.275 --> 00:14:22.168
mais coisas veremos nas nuvens.

00:14:23.004 --> 00:14:26.379
Também podemos usar a rede de rostos
para enlouquecer isto

00:14:26.403 --> 00:14:28.215
e obtemos coisas muito loucas.

NOTE Paragraph

00:14:28.239 --> 00:14:29.569
(Risos)

NOTE Paragraph

00:14:30.401 --> 00:14:33.145
Mike tem feito outras experiências

00:14:33.169 --> 00:14:37.074
em que agarra nessa imagem de nuvens,

00:14:37.098 --> 00:14:40.605
enlouquece, aproxima, enlouquece,
aproxima, enlouquece, aproxima.

00:14:40.629 --> 00:14:42.070
Dessa forma,

00:14:42.070 --> 00:14:45.479
suponho que podemos obter
uma espécie de estado de fuga da rede,

00:14:45.503 --> 00:14:49.183
ou um tipo de associação livre

00:14:49.207 --> 00:14:51.434
em que a rede está a comer a sua cauda.

00:14:51.458 --> 00:14:54.683
Assim cada imagem é agora a base para:

00:14:54.683 --> 00:14:56.414
"O que é que espero ver a seguir?"

00:14:56.414 --> 00:14:59.581
"O que é que espero ver a seguir?
O que é que espero ver a seguir?"

NOTE Paragraph

00:14:59.581 --> 00:15:02.423
Mostrei isto em público
pela primeira vez

00:15:02.447 --> 00:15:07.884
a um grupo numa palestra em Seattle
chamada "A mais alta educação"

00:15:07.908 --> 00:15:10.445
— logo depois de ter sido
legalizada a marijuana.

NOTE Paragraph

00:15:10.689 --> 00:15:12.784
(Risos)

NOTE Paragraph

00:15:14.627 --> 00:15:16.731
Gostaria de terminar rapidamente

00:15:16.755 --> 00:15:21.230
notando que esta tecnologia
não está limitada.

00:15:21.314 --> 00:15:24.699
Mostrei-vos apenas exemplos visuais
porque eles são divertidos de ver.

00:15:24.723 --> 00:15:27.174
Não é apenas uma tecnologia
puramente visual.

00:15:27.198 --> 00:15:29.361
O nosso artista colaborador, Ross Goodwin,

00:15:29.361 --> 00:15:32.886
tem feito experiências que envolvem
uma câmara que tira fotos

00:15:32.910 --> 00:15:37.144
e depois um computador na sua mochila
escreve um poema, usando redes neurais,

00:15:37.168 --> 00:15:39.112
com base no conteúdo da imagem.

00:15:39.136 --> 00:15:42.083
Essa poesia de rede neural
foi treinada

00:15:42.107 --> 00:15:44.341
num grande corpo de poesia do século XX.

00:15:44.365 --> 00:15:47.624
Sabem uma coisa, acho que essa poesia
não é lá muito má.

NOTE Paragraph

00:15:47.826 --> 00:15:49.210
(Risos)

NOTE Paragraph

00:15:49.234 --> 00:15:50.703
Para terminar,

00:15:50.703 --> 00:15:53.619
acho que Miguel Ângelo tinha razão.

00:15:53.831 --> 00:15:57.267
"A perceção e a criatividades
estão intimamente ligadas".

00:15:57.611 --> 00:16:00.245
O que acabamos de ver
são redes neurais

00:16:00.269 --> 00:16:03.192
que estão totalmente treinadas
para discriminar ou reconhecer

00:16:03.192 --> 00:16:05.058
diferentes coisas no mundo,

00:16:05.058 --> 00:16:08.023
capazes de funcionar
de trás para frente, de criar.

00:16:08.047 --> 00:16:09.830
Uma das coisas que me sugere

00:16:09.854 --> 00:16:12.432
que não é apenas o que Miguel Ângelo viu,

00:16:12.432 --> 00:16:14.728
a escultura nos blocos de pedra.

00:16:14.752 --> 00:16:18.390
Mas que qualquer criatura,
qualquer ser, qualquer alienígena,

00:16:18.414 --> 00:16:22.071
que seja capaz de fazer 
ações percetivas deste tipo,

00:16:22.095 --> 00:16:23.620
também é capaz de criar,

00:16:23.620 --> 00:16:26.718
porque é exatamente o mesmo mecanismo
usado nos dois casos.

NOTE Paragraph

00:16:26.742 --> 00:16:31.274
Também acho que essa perceção e
criatividade não são de modo algum

00:16:31.298 --> 00:16:32.708
unicamente humanas.

00:16:32.708 --> 00:16:36.240
Começámos com modelos de computadores
capazes de fazer este tipo de coisas.

00:16:36.264 --> 00:16:39.592
Isso não devia ser surpreendente:
o cérebro é um modelo informático.

NOTE Paragraph

00:16:39.616 --> 00:16:41.273
E finalmente,

00:16:41.297 --> 00:16:45.965
a informática começou como um exercício
para a conceção de máquinas inteligentes.

00:16:45.989 --> 00:16:48.451
Foi modelado segundo a ideia

00:16:48.475 --> 00:16:51.488
de que podemos fazer
máquinas inteligentes.

00:16:51.512 --> 00:16:53.674
E finalmente estamos agora
a começar a atingir

00:16:53.698 --> 00:16:56.104
algumas das promessas dos pioneiros,

00:16:56.128 --> 00:16:57.841
de Turing e von Neumannn,

00:16:57.865 --> 00:17:00.130
de McCulloch e Pitts.

00:17:00.914 --> 00:17:04.252
Acho que a informática
não é apenas fazer contas

00:17:04.276 --> 00:17:06.483
ou jogar Candy Crush
ou qualquer outra coisa.

00:17:06.483 --> 00:17:09.225
Desde o começo, 
modelámo-los segundo as nossas mentes.

00:17:09.225 --> 00:17:12.318
Eles deram-nos a capacidade
para compreender as nossas mentes

00:17:12.342 --> 00:17:13.871
e para os aperfeiçoar.

NOTE Paragraph

00:17:14.627 --> 00:17:16.074
Muito obrigado.

NOTE Paragraph

00:17:16.174 --> 00:17:19.457
(Aplausos)