1
00:00:00,800 --> 00:00:04,064
Lidero uma equipa do Google
que trabalha com inteligência artificial.

2
00:00:04,064 --> 00:00:08,598
Por outras palavras, cria
computadores e dispositivos

3
00:00:08,622 --> 00:00:11,341
capazes de fazer coisas que o cérebro faz.

4
00:00:11,729 --> 00:00:14,538
Portanto, estamos muito interessados
em cérebros de verdade

5
00:00:14,562 --> 00:00:16,131
e também na neurociência,

6
00:00:16,131 --> 00:00:20,047
e especialmente interessados nas coisas
que o nosso cérebro faz

7
00:00:20,071 --> 00:00:24,433
com um desempenho
muito superior ao dos computadores.

8
00:00:25,209 --> 00:00:28,818
Historicamente, uma dessas áreas
tem sido a perceção,

9
00:00:28,842 --> 00:00:31,881
o processo pelo qual as coisas
lá fora, no mundo

10
00:00:31,905 --> 00:00:33,489
— sons e imagens —

11
00:00:33,513 --> 00:00:36,031
podem tornar-se conceitos
no nosso espírito.

12
00:00:36,235 --> 00:00:38,752
Isto é essencial para
o nosso próprio cérebro

13
00:00:38,776 --> 00:00:41,330
e também é muito útil num computador.

14
00:00:41,636 --> 00:00:44,986
Os algoritmos de perceção das máquinas,
como os que a nossa equipa faz,

15
00:00:45,010 --> 00:00:48,884
são os que possibilitam encontrar
as nossas imagens no Google Photos

16
00:00:48,908 --> 00:00:51,145
com base no que contêm.

17
00:00:51,594 --> 00:00:55,087
O outro lado da perceção é a criatividade

18
00:00:55,111 --> 00:00:58,149
que traduz um conceito
numa coisa que existe no mundo.

19
00:00:58,173 --> 00:01:01,728
Ao longo do ano passado, o nosso trabalho
sobre a perceção das máquinas

20
00:01:01,752 --> 00:01:06,611
também se ligou inesperadamente
ao mundo da criatividade das máquinas

21
00:01:06,635 --> 00:01:08,265
e da arte das máquinas.

22
00:01:08,556 --> 00:01:11,840
Eu acho que Miguel Ângelo
teve uma visão perspicaz

23
00:01:11,864 --> 00:01:15,780
quanto a esta dupla relação
entre perceção e criatividade.

24
00:01:16,023 --> 00:01:18,399
Esta é uma sua famosa citação:

25
00:01:18,409 --> 00:01:21,676
"Cada bloco de pedra
tem uma estátua lá dentro.

26
00:01:22,036 --> 00:01:25,538
"O papel do escultor é descobri-la."

27
00:01:26,029 --> 00:01:29,385
Eu acho que Miguel Ângelo
queria exprimir

28
00:01:29,385 --> 00:01:32,449
que nós criamos através da perceção

29
00:01:32,473 --> 00:01:35,496
e que essa perceção em si
é um ato de imaginação

30
00:01:35,520 --> 00:01:38,031
e é a matéria-prima da criatividade.

31
00:01:38,691 --> 00:01:42,616
O órgão que processa todo o pensamento,
a perceção e a imaginação,

32
00:01:42,640 --> 00:01:44,228
claro, é o cérebro.

33
00:01:45,089 --> 00:01:47,634
Gostaria de começar
com um pequeno resumo da história

34
00:01:47,658 --> 00:01:50,120
sobre o que sabemos sobre o cérebro.

35
00:01:50,496 --> 00:01:53,162
Porque, ao contrário
do coração ou dos intestinos,

36
00:01:53,162 --> 00:01:56,330
não podemos dizer muito sobre o cérebro,
apenas olhando para ele

37
00:01:56,330 --> 00:01:57,906
pelo menos, a olho nu.

38
00:01:57,983 --> 00:02:00,499
Os primeiros anatomistas
que olharam para o cérebro

39
00:02:00,499 --> 00:02:04,230
deram à sua estrutura superficial
todo o tipo de nomes fantasiosos

40
00:02:04,254 --> 00:02:06,537
como hipocampo,
que significa "cavalo-marinho."

41
00:02:06,711 --> 00:02:09,475
Mas com certeza, esse tipo de coisas
não nos diz muito

42
00:02:09,499 --> 00:02:11,997
sobre o que de facto acontece dentro dele.

43
00:02:12,780 --> 00:02:16,393
Acho que a primeira pessoa
que lançou alguma luz

44
00:02:16,417 --> 00:02:18,347
sobre o que ocorria dentro do cérebro

45
00:02:18,371 --> 00:02:22,291
foi o grande neuroanatomista espanhol
Santiago Ramón y Cajal,

46
00:02:22,315 --> 00:02:23,859
no século XIX,

47
00:02:23,883 --> 00:02:27,638
que usou a microscopia
e corantes especiais

48
00:02:27,662 --> 00:02:31,832
que podiam colorir seletivamente
ou criar um alto contraste

49
00:02:31,856 --> 00:02:33,864
as células individuais dentro do cérebro,

50
00:02:33,888 --> 00:02:37,042
para começar a entender a sua morfologia.

51
00:02:37,972 --> 00:02:40,507
Estes são os tipos
de desenhos de neurónios,

52
00:02:40,507 --> 00:02:42,096
que ele fez no século XIX.

53
00:02:42,120 --> 00:02:44,164
Este é de um cérebro de pássaro.

54
00:02:44,164 --> 00:02:47,085
Vemos esta incrível variedade
de diferentes tipos de células.

55
00:02:47,109 --> 00:02:50,544
Até a própria teoria celular
era praticamente nova nesta altura.

56
00:02:50,568 --> 00:02:51,976
Estas estruturas,

57
00:02:51,976 --> 00:02:54,339
estas células que têm estas ramificações,

58
00:02:54,339 --> 00:02:56,761
estes ramos que podem percorrer
grandes distâncias,

59
00:02:56,785 --> 00:02:58,541
eram uma novidade na época.

60
00:02:58,779 --> 00:03:01,682
Claro que nos fazem lembrar cabos.

61
00:03:01,706 --> 00:03:05,333
No século XIX, isso talvez fosse óbvio
para algumas pessoas,

62
00:03:05,333 --> 00:03:09,501
a revolução da cablagem elétrica
estava apenas a começar.

63
00:03:09,964 --> 00:03:11,142
Mas, de várias maneiras,

64
00:03:11,166 --> 00:03:14,479
esses desenhos microanatómicos
de Ramón y Cajal, como este,

65
00:03:14,503 --> 00:03:16,975
ainda são, de certa forma, insuperáveis.

66
00:03:16,975 --> 00:03:18,603
Mais de cem anos depois,

67
00:03:18,603 --> 00:03:21,792
continuamos a tentar terminar
o trabalho que Ramón y Cajal iniciou.

68
00:03:21,792 --> 00:03:24,720
Estes são dados brutos
dos nossos colaboradores

69
00:03:24,744 --> 00:03:27,625
do Instituto de Neurociência Max Planck.

70
00:03:27,649 --> 00:03:30,489
Os nossos colaboradores têm fotografado

71
00:03:30,489 --> 00:03:34,464
pequenos pedaços de tecido cerebral.

72
00:03:34,488 --> 00:03:37,814
A amostra total aqui tem cerca
de um milímetro cúbico de tamanho

73
00:03:37,838 --> 00:03:40,373
e estou a mostrar aqui
apenas um pequeno pedaço.

74
00:03:40,373 --> 00:03:42,829
Aquela barra à esquerda tem
mais ou menos um mícron.

75
00:03:42,853 --> 00:03:45,262
As estruturas que vemos são mitocôndrias

76
00:03:45,286 --> 00:03:47,330
que têm o tamanho de uma bactéria.

77
00:03:47,354 --> 00:03:49,015
E estas são cortes consecutivos

78
00:03:49,015 --> 00:03:52,077
desse bloco de tecido
muito pequeno.

79
00:03:52,101 --> 00:03:54,504
Só para efeitos de comparação,

80
00:03:54,528 --> 00:03:58,244
o diâmetro médio de um cabelo
é de cerca de 100 mícrons.

81
00:03:58,244 --> 00:04:01,978
Portanto, estamos a olhar para uma coisa
muito menor do que um simples cabelo.

82
00:04:02,064 --> 00:04:06,095
A partir deste tipo de cortes em série
vistos ao microscópio eletrónico,

83
00:04:06,119 --> 00:04:11,127
podemos fazer reconstruções em 3D
de neurónios, como estes.

84
00:04:11,151 --> 00:04:14,308
Estes são do mesmo estilo
dos de Ramón y Cajal.

85
00:04:14,332 --> 00:04:18,534
Só se iluminam alguns neurónios,
senão, não conseguiríamos ver nada.

86
00:04:18,653 --> 00:04:20,115
Ficaria muito sobrecarregado,

87
00:04:20,115 --> 00:04:22,429
cheio de estruturas de cabos,

88
00:04:22,429 --> 00:04:24,667
ligando os neurónios uns aos outros.

89
00:04:25,293 --> 00:04:28,097
Ramón y Cajal estava avançado
para a sua época

90
00:04:28,121 --> 00:04:30,996
e o progresso na compreensão do cérebro

91
00:04:30,996 --> 00:04:33,351
prosseguiu devagar
durante as décadas seguintes.

92
00:04:33,455 --> 00:04:36,528
Mas nós sabíamos que os neurónios
usavam a eletricidade.

93
00:04:36,528 --> 00:04:39,418
Com a II Guerra Mundial,
a nossa tecnologia avançou bastante

94
00:04:39,418 --> 00:04:42,218
para iniciar experiências elétricas
em neurónios vivos,

95
00:04:42,218 --> 00:04:44,458
para melhor entender
como eles funcionavam.

96
00:04:44,881 --> 00:04:48,987
Foi na mesma época em que
foram inventados os computadores,

97
00:04:49,011 --> 00:04:52,111
com base sobretudo na ideia
de imitar o cérebro

98
00:04:52,135 --> 00:04:55,220
— uma "máquina inteligente", 
como lhe chamou Alan Turing,

99
00:04:55,244 --> 00:04:57,555
um dos pais da informática.

100
00:04:57,923 --> 00:05:02,555
Warren McCulloch e Walter Pitts 
olharam para o desenho de Ramón y Cajal

101
00:05:02,579 --> 00:05:03,896
do córtex visual,

102
00:05:03,920 --> 00:05:05,772
que estou a mostrar aqui.

103
00:05:06,326 --> 00:05:10,088
Este é o córtex que processa as imagens
que provêm dos olhos.

104
00:05:10,424 --> 00:05:14,082
Para eles, isto parecia
o diagrama de um circuito.

105
00:05:14,353 --> 00:05:18,062
Há muitos detalhes no diagrama
no circuito de McCulloch e de Pitt

106
00:05:18,062 --> 00:05:19,714
que não estão lá muito corretos.

107
00:05:19,714 --> 00:05:21,093
Mas a ideia básica

108
00:05:21,093 --> 00:05:24,839
de que o córtex visual funciona como
uma série de elementos eletrónicos

109
00:05:24,863 --> 00:05:27,609
que passam informações
de um para outro, em cascata,

110
00:05:27,633 --> 00:05:29,335
está essencialmente correta.

111
00:05:29,335 --> 00:05:31,739
Vamos falar por momentos

112
00:05:31,739 --> 00:05:35,865
do que um modelo de processamento
de informações visuais precisaria de fazer.

113
00:05:36,228 --> 00:05:38,969
A tarefa básica da perceção

114
00:05:38,993 --> 00:05:43,091
é pegar numa imagem como esta e dizer:

115
00:05:43,091 --> 00:05:44,507
"Isto é uma ave",

116
00:05:44,507 --> 00:05:47,475
o que é uma coisa muito simples
que fazermos com o cérebro.

117
00:05:47,475 --> 00:05:50,730
Mas devem compreender que,
para um computador,

118
00:05:50,754 --> 00:05:53,841
isso era praticamente impossível,
até há poucos anos.

119
00:05:53,865 --> 00:05:56,081
O paradigma clássico da informática

120
00:05:56,081 --> 00:05:58,732
não permite realizar
facilmente essa tarefa.

121
00:05:59,366 --> 00:06:02,018
Então, o que acontece entre os píxeis,

122
00:06:02,018 --> 00:06:05,970
entre a imagem de um pássaro
e a palavra "ave",

123
00:06:05,994 --> 00:06:08,808
é uma série de neurónios
ligados uns aos outros

124
00:06:08,832 --> 00:06:11,547
numa rede neural
como este diagrama aqui.

125
00:06:11,704 --> 00:06:14,530
Esta rede neural pode ser biológica,
como no córtex visual,

126
00:06:14,554 --> 00:06:17,226
ou, atualmente, começamos
a ter a capacidade de modelar

127
00:06:17,226 --> 00:06:19,194
estas redes neurais no computador.

128
00:06:19,834 --> 00:06:22,187
Vou mostrar o aspeto que isso tem.

129
00:06:22,211 --> 00:06:25,627
Podemos considerar os píxeis
como uma primeira camada de neurónio

130
00:06:25,651 --> 00:06:27,890
— e, de facto, é assim
que funciona o olho —

131
00:06:27,914 --> 00:06:29,577
são os neurónios na retina.

132
00:06:29,601 --> 00:06:31,631
e eles transmitem as informações

133
00:06:31,631 --> 00:06:34,528
camada após camada,
após camada de neurónios,

134
00:06:34,552 --> 00:06:37,585
todos ligados através de sinapses
de diferentes pesos.

135
00:06:37,609 --> 00:06:39,114
O comportamento desta rede

136
00:06:39,114 --> 00:06:42,352
é caracterizado pelas forças
de todas estas sinapses.

137
00:06:42,352 --> 00:06:45,564
Elas caracterizam as propriedades
informáticas dessa rede.

138
00:06:45,588 --> 00:06:47,058
E por fim,

139
00:06:47,082 --> 00:06:49,619
temos um neurónio
ou um pequeno grupo de neurónios

140
00:06:49,619 --> 00:06:51,570
que se iluminam, dizendo: "ave".

141
00:06:51,824 --> 00:06:54,956
Agora vou representar essas três coisas

142
00:06:54,980 --> 00:06:59,676
— os píxeis de entrada
e as sinapses na rede neural,

143
00:06:59,700 --> 00:07:01,285
e a ave, o resultado —

144
00:07:01,309 --> 00:07:04,576
por três variáveis: x, w e y.

145
00:07:04,853 --> 00:07:06,754
Há talvez um milhão de x,

146
00:07:06,754 --> 00:07:08,641
um milhão de píxeis nesta imagem.

147
00:07:08,665 --> 00:07:11,111
Há milhares de milhões ou biliões de w,

148
00:07:11,135 --> 00:07:14,556
que representam os pesos de todas
essas sinapses na rede neural.

149
00:07:14,580 --> 00:07:16,455
E há um pequeno número de y,

150
00:07:16,479 --> 00:07:18,337
de resultados que essa rede neural tem.

151
00:07:18,361 --> 00:07:20,430
"Ave" tem apenas três letras, não é?

152
00:07:21,088 --> 00:07:24,514
Então vamos supor que isso
é uma fórmula simples,

153
00:07:24,538 --> 00:07:26,701
x "vezes" w = y.

154
00:07:26,725 --> 00:07:28,891
Coloco o sinal de multiplicação entre aspas

155
00:07:28,891 --> 00:07:31,065
porque o que realmente está 
ali a acontecer,

156
00:07:31,089 --> 00:07:34,285
é uma série muito complicada
de operações matemáticas

157
00:07:35,172 --> 00:07:36,393
Isto é uma equação.

158
00:07:36,417 --> 00:07:38,089
Há três variáveis.

159
00:07:38,113 --> 00:07:41,079
Todos nós sabemos que,
se temos uma equação,

160
00:07:41,079 --> 00:07:44,505
podemos encontrar uma variável
se conhecermos as outras duas.

161
00:07:45,158 --> 00:07:48,538
Assim, o problema da inferência,

162
00:07:48,562 --> 00:07:51,435
ou seja, descobrir que a figura
de uma ave é uma ave,

163
00:07:51,459 --> 00:07:52,893
é o seguinte:

164
00:07:52,913 --> 00:07:56,216
É onde y é a incógnita
e w e x são conhecidos.

165
00:07:56,240 --> 00:07:58,699
Conhecemos a rede neural,
conhecemos os píxeis.

166
00:07:58,723 --> 00:08:02,050
Como podemos ver, isto é de facto
um problema relativamente simples.

167
00:08:02,074 --> 00:08:04,260
Multiplicamos duas vezes três
e está feito.

168
00:08:04,862 --> 00:08:06,985
Vou mostrar uma rede neural artificial

169
00:08:07,009 --> 00:08:09,715
que construímos há pouco tempo,
fazendo exatamente isso.

170
00:08:09,715 --> 00:08:12,494
Isto está a correr em tempo real
num telemóvel

171
00:08:12,518 --> 00:08:15,831
e, claro, é incrível, só por si,

172
00:08:15,855 --> 00:08:18,627
que os telemóveis possam fazer
milhares de milhões ou

173
00:08:18,647 --> 00:08:20,595
ou biliões de operações por segundo.

174
00:08:20,619 --> 00:08:22,374
O que estamos a ver é um telemóvel

175
00:08:22,374 --> 00:08:25,805
a olhar para figuras de aves,
umas atrás das outras,

176
00:08:25,829 --> 00:08:28,544
a dizer: "Sim, isto é uma ave",

177
00:08:28,568 --> 00:08:31,979
e também a identificar as espécies de aves
com uma rede deste tipo.

178
00:08:32,890 --> 00:08:34,716
Assim, nesta imagem,

179
00:08:34,740 --> 00:08:38,542
o x e o w são conhecidos,
e o y é a incógnita.

180
00:08:38,566 --> 00:08:41,074
Claro, estou a encobrir
a parte mais difícil,

181
00:08:41,098 --> 00:08:44,959
que é como podemos
descobrir o valor de w,

182
00:08:44,983 --> 00:08:47,170
como é que o cérebro
pode fazer tal coisa?

183
00:08:47,194 --> 00:08:49,258
Como poderemos
aprender esse modelo?

184
00:08:49,418 --> 00:08:52,651
Este processo de aprendizagem,
de encontrar o w,

185
00:08:52,675 --> 00:08:55,322
se estivéssemos a fazer isso
com uma simples equação

186
00:08:55,346 --> 00:08:57,346
em que utilizamos números,

187
00:08:57,370 --> 00:09:00,417
sabemos exatamente como fazer isso:
6 = 2 x w.

188
00:09:00,417 --> 00:09:03,573
Dividimos por dois e está feito.

189
00:09:04,001 --> 00:09:06,361
O problema é com este operador.

190
00:09:06,823 --> 00:09:07,974
a divisão.

191
00:09:08,158 --> 00:09:11,119
Usamos a divisão porque 
é o inverso da multiplicação

192
00:09:11,143 --> 00:09:12,583
mas, como acabei de dizer,

193
00:09:12,607 --> 00:09:15,056
a multiplicação aqui
é uma pequena mentira.

194
00:09:15,080 --> 00:09:18,406
Esta é uma operação muito complicada,
não é linear,

195
00:09:18,430 --> 00:09:20,134
não tem forma inversa.

196
00:09:20,158 --> 00:09:23,308
Então temos de descobrir
uma forma de resolver a equação

197
00:09:23,332 --> 00:09:25,356
sem um operador de divisão.

198
00:09:25,380 --> 00:09:27,723
A forma de fazer isso é bem simples.

199
00:09:27,747 --> 00:09:30,418
Basta dizer: "Vamos brincar
com os truques da álgebra"

200
00:09:30,442 --> 00:09:33,348
e movemos o seis
para o lado direito da equação.

201
00:09:33,372 --> 00:09:35,558
Continuamos a usar a multiplicação.

202
00:09:35,675 --> 00:09:39,255
E vamos pensar naquele zero
como um erro.

203
00:09:39,279 --> 00:09:41,794
Por outras palavras,
se resolvermos da forma correta,

204
00:09:41,818 --> 00:09:43,474
o erro será zero.

205
00:09:43,498 --> 00:09:46,976
E se não resolvemos corretamente,
o erro será maior do que zero.

206
00:09:47,233 --> 00:09:50,343
Então podemos apenas dar palpites
para minimizar o erro.

207
00:09:50,343 --> 00:09:53,310
Esse é o tipo de coisas em que
os computadores são muito bons.

208
00:09:53,334 --> 00:09:54,927
Assim, temos um palpite inicial:

209
00:09:54,951 --> 00:09:56,545
E se w = 0? 
Então o erro é seis.

210
00:09:56,545 --> 00:09:58,841
E se w = 1? 
Então o erro é 4.

211
00:09:58,865 --> 00:10:01,232
Então o computador
pode fazer de Marco Polo,

212
00:10:01,256 --> 00:10:03,623
e diminuir o erro
para mais próximo de zero.

213
00:10:03,647 --> 00:10:07,021
Fazendo isso, vamos ter sucessivas
aproximações até ao w.

214
00:10:07,045 --> 00:10:10,701
Normalmente, nunca lá chega,
mas após uma dúzia de passos,

215
00:10:10,725 --> 00:10:15,729
temos w = 2,999,
o que é suficientemente próximo.

216
00:10:16,302 --> 00:10:18,116
É este o processo de aprendizagem.

217
00:10:18,140 --> 00:10:20,870
Por isso, lembrem-se
que o que está a acontecer aqui

218
00:10:20,894 --> 00:10:25,272
é que estamos a pegar num monte
de x e y conhecidos

219
00:10:25,296 --> 00:10:28,750
e a procurar o w
através de um processo repetitivo.

220
00:10:28,774 --> 00:10:32,330
Isto é a mesma coisa que fazemos
com a nossa aprendizagem.

221
00:10:32,354 --> 00:10:35,464
Temos muitas imagens,
enquanto bebés, e dizem-nos:

222
00:10:35,464 --> 00:10:37,541
"Isto é uma ave,
isto não é uma ave".

223
00:10:37,714 --> 00:10:40,192
Ao longo do tempo, através da repetição,

224
00:10:40,192 --> 00:10:43,214
encontramos o w,
aquelas ligações neurais.

225
00:10:43,460 --> 00:10:47,546
Então agora, temos o x e o w fixos,
para resolvermos o y.

226
00:10:47,570 --> 00:10:49,417
É a perceção rápida, de todos os dias.

227
00:10:49,441 --> 00:10:51,048
Descobrimos como encontrar o w,

228
00:10:51,048 --> 00:10:53,461
isso é aprendizagem,
o que é um muito mais difícil

229
00:10:53,461 --> 00:10:56,770
porque precisamos de minimizar o erro,
praticando muitos exemplos.

230
00:10:56,875 --> 00:11:00,062
Há uns anos, Alex Mordvintsev,
da nossa equipa,

231
00:11:00,086 --> 00:11:03,636
decidiu experimentar o que acontece
se tentarmos encontrar o x,

232
00:11:03,660 --> 00:11:05,837
em que o w e o y são conhecidos.

233
00:11:06,124 --> 00:11:08,515
Por outras palavras,
sabemos que é uma ave,

234
00:11:08,675 --> 00:11:11,978
já treinámos a rede neural com as aves,

235
00:11:12,002 --> 00:11:14,586
mas o que é a imagem de uma ave?

236
00:11:15,034 --> 00:11:20,058
Acontece que, usando exatamente o mesmo
procedimento de minimização de erros,

237
00:11:20,082 --> 00:11:23,512
podemos fazer isso com a rede
treinada para reconhecer aves

238
00:11:23,536 --> 00:11:26,924
e o resultado será...

239
00:11:30,400 --> 00:11:31,975
uma imagem de aves.

240
00:11:32,814 --> 00:11:36,551
É uma imagem de aves
gerada totalmente por uma rede neural,

241
00:11:36,575 --> 00:11:38,691
treinada para reconhecer aves,

242
00:11:38,691 --> 00:11:41,963
simplesmente procurando x,
em vez de procurar o y,

243
00:11:41,987 --> 00:11:43,655
e fazendo-o por repetição.

244
00:11:43,882 --> 00:11:45,719
Eis outro exemplo engraçado.

245
00:11:45,719 --> 00:11:49,040
Este foi um trabalho feito
por Mike Tyka no nosso grupo

246
00:11:49,064 --> 00:11:51,372
a que ele chama "Desfile de Animais".

247
00:11:51,396 --> 00:11:54,272
Recorda-me um pouco as obras
de William Kentridge,

248
00:11:54,296 --> 00:11:56,785
em que ele faz esboços e depois os apaga,

249
00:11:56,809 --> 00:11:59,629
faz esboços e os apaga
e cria um filme dessa forma

250
00:11:59,715 --> 00:12:04,016
Neste caso, Mike vai variando y
no espaço de diferentes animais

251
00:12:04,191 --> 00:12:06,573
numa rede concebida
para reconhecer e distinguir

252
00:12:06,597 --> 00:12:08,517
animais diferentes uns dos outros.

253
00:12:08,517 --> 00:12:12,182
Podemos achar estranho, é como ter
uma metamorfose de um animal para outro.

254
00:12:14,221 --> 00:12:18,835
Aqui ele e Alex, em conjunto,
tentaram reduzir os y

255
00:12:18,859 --> 00:12:21,618
num espaço de apenas duas dimensões,

256
00:12:21,642 --> 00:12:25,080
criando um mapa fora do espaço
de todas as coisas

257
00:12:25,104 --> 00:12:26,823
reconhecidas por essa rede.

258
00:12:26,847 --> 00:12:28,970
Fazendo esse tipo de síntese

259
00:12:28,970 --> 00:12:31,276
ou geração de imagens
sobre toda a superfície,

260
00:12:31,300 --> 00:12:34,146
variando y na superfície,
fazemos uma espécie de mapa,

261
00:12:34,170 --> 00:12:37,311
um mapa visual de todas as coisas
que a rede sabe reconhecer.

262
00:12:37,335 --> 00:12:40,200
Os animais estão todos aqui:
o tatu está naquele local.

263
00:12:40,919 --> 00:12:43,398
Também podemos fazer isso
com outras redes.

264
00:12:43,422 --> 00:12:46,296
Esta é uma rede desenhada
para reconhecer rostos,

265
00:12:46,320 --> 00:12:48,650
para distinguir um rosto de outro.

266
00:12:48,650 --> 00:12:51,593
Aqui, estamos a colocar um Y
que diz "eu",

267
00:12:51,617 --> 00:12:53,192
os parâmetros do meu rosto.

268
00:12:53,216 --> 00:12:55,072
Quando isso é resolvido para x,

269
00:12:55,072 --> 00:12:58,454
gera a minha imagem, bastante louca,

270
00:12:58,454 --> 00:13:01,740
tipo cubista, surrealista, psicadélica,

271
00:13:01,740 --> 00:13:03,966
de vários pontos de vista ao mesmo tempo.

272
00:13:03,966 --> 00:13:06,984
A razão de se parecer com vários
pontos de vista ao mesmo tempo,

273
00:13:06,984 --> 00:13:10,315
é porque esta rede está concebida
para se livrar da ambiguidade

274
00:13:10,339 --> 00:13:12,815
de um rosto estar numa pose qualquer,

275
00:13:12,839 --> 00:13:16,215
de ser visto com um tipo de luz,
com outro tipo de luz.

276
00:13:16,239 --> 00:13:18,324
Quando fazemos este tipo de reconstrução,

277
00:13:18,348 --> 00:13:21,812
se não usarmos qualquer tipo
de guia de imagem ou de estatística,

278
00:13:21,911 --> 00:13:25,676
obtemos uma certa confusão
de diferentes pontos de vista,

279
00:13:25,700 --> 00:13:27,468
porque isso é ambíguo.

280
00:13:27,786 --> 00:13:32,009
É o que acontece se o Alex usar
o seu rosto como guia de imagem

281
00:13:32,033 --> 00:13:35,464
durante o processo de otimização
para reconstruir o meu rosto.

282
00:13:36,284 --> 00:13:38,612
Vemos que isto não é perfeito.

283
00:13:38,636 --> 00:13:40,510
Ainda há muito trabalho a fazer

284
00:13:40,534 --> 00:13:42,987
sobre como melhorar
a otimização do processo.

285
00:13:43,011 --> 00:13:45,838
Mas começamos a ver alguma coisa
como um rosto coerente,

286
00:13:45,862 --> 00:13:48,436
usando o meu rosto como guia.

287
00:13:48,892 --> 00:13:51,393
Não precisamos de começar
com uma tela em branco

288
00:13:51,417 --> 00:13:52,573
ou com interferências,

289
00:13:52,597 --> 00:13:54,251
quando estamos a procurar x.

290
00:13:54,251 --> 00:13:57,814
Podemos começar com um x
que, em si mesmo, já é uma outra imagem.

291
00:13:57,838 --> 00:14:00,644
É isso que é esta pequena demonstração.

292
00:14:00,644 --> 00:14:04,540
Esta é uma rede desenhada
para categorizar

293
00:14:04,564 --> 00:14:07,683
todo o tipo de objetos — estruturas
feitas pelo homem, animais.

294
00:14:07,707 --> 00:14:10,300
Aqui estamos a começar
apenas com uma imagem de nuvens.

295
00:14:10,324 --> 00:14:11,995
Quando otimizamos,

296
00:14:12,019 --> 00:14:16,505
essa rede está a descobrir
o que vê nas nuvens.

297
00:14:16,931 --> 00:14:19,251
Quanto mais tempo gastarmos
a olhar para isto,

298
00:14:19,275 --> 00:14:22,168
mais coisas veremos nas nuvens.

299
00:14:23,004 --> 00:14:26,379
Também podemos usar a rede de rostos
para enlouquecer isto

300
00:14:26,403 --> 00:14:28,215
e obtemos coisas muito loucas.

301
00:14:28,239 --> 00:14:29,569
(Risos)

302
00:14:30,401 --> 00:14:33,145
Mike tem feito outras experiências

303
00:14:33,169 --> 00:14:37,074
em que agarra nessa imagem de nuvens,

304
00:14:37,098 --> 00:14:40,605
enlouquece, aproxima, enlouquece,
aproxima, enlouquece, aproxima.

305
00:14:40,629 --> 00:14:42,070
Dessa forma,

306
00:14:42,070 --> 00:14:45,479
suponho que podemos obter
uma espécie de estado de fuga da rede,

307
00:14:45,503 --> 00:14:49,183
ou um tipo de associação livre

308
00:14:49,207 --> 00:14:51,434
em que a rede está a comer a sua cauda.

309
00:14:51,458 --> 00:14:54,683
Assim cada imagem é agora a base para:

310
00:14:54,683 --> 00:14:56,414
"O que é que espero ver a seguir?"

311
00:14:56,414 --> 00:14:59,581
"O que é que espero ver a seguir?
O que é que espero ver a seguir?"

312
00:14:59,581 --> 00:15:02,423
Mostrei isto em público
pela primeira vez

313
00:15:02,447 --> 00:15:07,884
a um grupo numa palestra em Seattle
chamada "A mais alta educação"

314
00:15:07,908 --> 00:15:10,445
— logo depois de ter sido
legalizada a marijuana.

315
00:15:10,689 --> 00:15:12,784
(Risos)

316
00:15:14,627 --> 00:15:16,731
Gostaria de terminar rapidamente

317
00:15:16,755 --> 00:15:21,230
notando que esta tecnologia
não está limitada.

318
00:15:21,314 --> 00:15:24,699
Mostrei-vos apenas exemplos visuais
porque eles são divertidos de ver.

319
00:15:24,723 --> 00:15:27,174
Não é apenas uma tecnologia
puramente visual.

320
00:15:27,198 --> 00:15:29,361
O nosso artista colaborador, Ross Goodwin,

321
00:15:29,361 --> 00:15:32,886
tem feito experiências que envolvem
uma câmara que tira fotos

322
00:15:32,910 --> 00:15:37,144
e depois um computador na sua mochila
escreve um poema, usando redes neurais,

323
00:15:37,168 --> 00:15:39,112
com base no conteúdo da imagem.

324
00:15:39,136 --> 00:15:42,083
Essa poesia de rede neural
foi treinada

325
00:15:42,107 --> 00:15:44,341
num grande corpo de poesia do século XX.

326
00:15:44,365 --> 00:15:47,624
Sabem uma coisa, acho que essa poesia
não é lá muito má.

327
00:15:47,826 --> 00:15:49,210
(Risos)

328
00:15:49,234 --> 00:15:50,703
Para terminar,

329
00:15:50,703 --> 00:15:53,619
acho que Miguel Ângelo tinha razão.

330
00:15:53,831 --> 00:15:57,267
"A perceção e a criatividades
estão intimamente ligadas".

331
00:15:57,611 --> 00:16:00,245
O que acabamos de ver
são redes neurais

332
00:16:00,269 --> 00:16:03,192
que estão totalmente treinadas
para discriminar ou reconhecer

333
00:16:03,192 --> 00:16:05,058
diferentes coisas no mundo,

334
00:16:05,058 --> 00:16:08,023
capazes de funcionar
de trás para frente, de criar.

335
00:16:08,047 --> 00:16:09,830
Uma das coisas que me sugere

336
00:16:09,854 --> 00:16:12,432
que não é apenas o que Miguel Ângelo viu,

337
00:16:12,432 --> 00:16:14,728
a escultura nos blocos de pedra.

338
00:16:14,752 --> 00:16:18,390
Mas que qualquer criatura,
qualquer ser, qualquer alienígena,

339
00:16:18,414 --> 00:16:22,071
que seja capaz de fazer 
ações percetivas deste tipo,

340
00:16:22,095 --> 00:16:23,620
também é capaz de criar,

341
00:16:23,620 --> 00:16:26,718
porque é exatamente o mesmo mecanismo
usado nos dois casos.

342
00:16:26,742 --> 00:16:31,274
Também acho que essa perceção e
criatividade não são de modo algum

343
00:16:31,298 --> 00:16:32,708
unicamente humanas.

344
00:16:32,708 --> 00:16:36,240
Começámos com modelos de computadores
capazes de fazer este tipo de coisas.

345
00:16:36,264 --> 00:16:39,592
Isso não devia ser surpreendente:
o cérebro é um modelo informático.

346
00:16:39,616 --> 00:16:41,273
E finalmente,

347
00:16:41,297 --> 00:16:45,965
a informática começou como um exercício
para a conceção de máquinas inteligentes.

348
00:16:45,989 --> 00:16:48,451
Foi modelado segundo a ideia

349
00:16:48,475 --> 00:16:51,488
de que podemos fazer
máquinas inteligentes.

350
00:16:51,512 --> 00:16:53,674
E finalmente estamos agora
a começar a atingir

351
00:16:53,698 --> 00:16:56,104
algumas das promessas dos pioneiros,

352
00:16:56,128 --> 00:16:57,841
de Turing e von Neumannn,

353
00:16:57,865 --> 00:17:00,130
de McCulloch e Pitts.

354
00:17:00,914 --> 00:17:04,252
Acho que a informática
não é apenas fazer contas

355
00:17:04,276 --> 00:17:06,483
ou jogar Candy Crush
ou qualquer outra coisa.

356
00:17:06,483 --> 00:17:09,225
Desde o começo, 
modelámo-los segundo as nossas mentes.

357
00:17:09,225 --> 00:17:12,318
Eles deram-nos a capacidade
para compreender as nossas mentes

358
00:17:12,342 --> 00:17:13,871
e para os aperfeiçoar.

359
00:17:14,627 --> 00:17:16,074
Muito obrigado.

360
00:17:16,174 --> 00:17:19,457
(Aplausos)