1
00:00:00,800 --> 00:00:03,908
Coordeno uma equipe no Google
que lida com I.A.;

2
00:00:03,908 --> 00:00:08,598
em outras palavras, a engenharia
de fazer computadores e aparelhos

3
00:00:08,602 --> 00:00:11,299
capazes de criar coisas que o cérebro faz.

4
00:00:11,299 --> 00:00:14,482
E isso faz com que nos interessemos 
por cérebros reais

5
00:00:14,482 --> 00:00:15,931
e também por neurociência,

6
00:00:15,931 --> 00:00:19,991
e nos interessamos, principalmente, 
por coisas que nosso cérebro faz

7
00:00:19,991 --> 00:00:24,113
que ainda são muito superiores
à performance dos computadores.

8
00:00:25,209 --> 00:00:28,802
Historicamente, uma das áreas
tem sido percepção,

9
00:00:28,802 --> 00:00:31,881
o processo pelo qual as coisas abstratas,

10
00:00:31,885 --> 00:00:33,473
sons e imagens,

11
00:00:33,473 --> 00:00:35,691
podem se tornar conceitos na mente.

12
00:00:36,235 --> 00:00:38,736
Isso é essencial para o nosso cérebro

13
00:00:38,736 --> 00:00:41,240
e também muito útil em um computador.

14
00:00:41,636 --> 00:00:44,970
Os algorítimos de percepção artificial, 
criados por nós, por exemplo,

15
00:00:44,970 --> 00:00:48,868
são o que permitem que suas fotos
do Google Fotos sejam pesquisáveis,

16
00:00:48,868 --> 00:00:51,105
baseando-se no que há nelas.

17
00:00:51,594 --> 00:00:55,087
O oposto da percepção é a criatividade:

18
00:00:55,091 --> 00:00:58,133
transformar um conceito 
em algo lá fora, para o mundo.

19
00:00:58,133 --> 00:01:01,652
Então, ao longo do ano passado,
nosso trabalho de percepção artificial

20
00:01:01,652 --> 00:01:06,575
também se uniu, inesperadamente, 
ao mundo da criatividade artificial

21
00:01:06,575 --> 00:01:08,055
e da arte digital.

22
00:01:08,556 --> 00:01:11,840
Acho que Michelangelo
teve um insight profundo

23
00:01:11,844 --> 00:01:15,520
a respeito da relação
entre percepção e criatividade.

24
00:01:16,023 --> 00:01:18,069
Esta é uma famosa citação dele:

25
00:01:18,069 --> 00:01:21,376
"Cada bloco de pedra 
tem uma escultura interna,

26
00:01:22,036 --> 00:01:25,038
e o trabalho do escultor é descobri-la."

27
00:01:26,029 --> 00:01:29,229
Então, penso que Michelangelo
estava querendo dizer

28
00:01:29,229 --> 00:01:32,449
que nós criamos, através da percepção,

29
00:01:32,453 --> 00:01:35,480
e que a percepção por si
é um ato de imaginação

30
00:01:35,480 --> 00:01:37,981
e é a tal da criatividade.

31
00:01:38,691 --> 00:01:42,600
O órgão que cria todo pensamento,
percepção e imaginação,

32
00:01:42,600 --> 00:01:44,228
é certamente, o cérebro.

33
00:01:45,089 --> 00:01:47,618
E eu quero começar 
com um pouquinho de história

34
00:01:47,618 --> 00:01:49,960
sobre o que sabemos sobre cérebros.

35
00:01:50,496 --> 00:01:52,926
Porque, diferente do coração
e dos intestinos,

36
00:01:52,926 --> 00:01:56,094
você não consegue falar muito
sobre o cérebro só olhando pra ele,

37
00:01:56,094 --> 00:01:57,986
pelo menos a olho nu.

38
00:01:57,986 --> 00:02:00,399
Os primeiros anatomistas 
que observaram cérebros

39
00:02:00,403 --> 00:02:04,230
deram às estruturas superficiais
todo tipo de nomes fantásticos,


40
00:02:04,234 --> 00:02:06,631
como hipocampo, 
significando "camarãozinho".

41
00:02:06,631 --> 00:02:09,475
Mas claro que esse tipo de coisa
não nos diz muito

42
00:02:09,479 --> 00:02:11,817
sobre o que acontece lá dentro.

43
00:02:12,780 --> 00:02:16,393
A primeira pessoa que eu acho, 
que, de fato, desenvolveu algum insight

44
00:02:16,397 --> 00:02:18,427
sobre o que acontecia no cérebro

45
00:02:18,427 --> 00:02:23,535
foi o grande neuroanatomista espanhol,
Santiago Ramón y Cajal, no século 19,

46
00:02:23,883 --> 00:02:27,622
usando microscópio e reagentes especiais,

47
00:02:27,622 --> 00:02:31,816
que puderam, seletivamente, preencher
ou converter em contraste muito elevado,

48
00:02:31,816 --> 00:02:33,864
as células individuais do cérebro,

49
00:02:33,868 --> 00:02:37,042
para conseguir entender
a morfologia delas.

50
00:02:37,972 --> 00:02:41,980
E estes são os tipos de desenhos
que ele fez dos neurônios no século 19.

51
00:02:41,980 --> 00:02:44,044
Este é de um cérebro de pássaro.

52
00:02:44,044 --> 00:02:47,069
E vemos esta incrível variedade
de diferentes tipos de células,

53
00:02:47,069 --> 00:02:50,508
até mesmo a própria teoria celular
era recente nessa época.

54
00:02:50,508 --> 00:02:51,830
E estas estruturas,

55
00:02:51,830 --> 00:02:54,169
estas células que têm essas ramificações,

56
00:02:54,169 --> 00:02:56,761
que podem percorrer
distâncias muito longas,

57
00:02:56,765 --> 00:02:58,741
tudo era novidade na época.

58
00:02:58,741 --> 00:03:01,682
Elas são reminiscência de fios, claro.

59
00:03:01,686 --> 00:03:05,147
Isso pode ter sido óbvio 
para algumas pessoas no século 19;

60
00:03:05,147 --> 00:03:09,501
as revoluções de telefonia e eletricidade
estavam apenas começando.

61
00:03:09,964 --> 00:03:11,182
Mas de muitas maneiras,

62
00:03:11,182 --> 00:03:14,443
esses desenhos microanatômicos
do Ramón y Cajal, como este,

63
00:03:14,443 --> 00:03:16,875
ainda são, em alguns pontos, insuperáveis.

64
00:03:16,875 --> 00:03:18,773
Ainda, depois de um século,

65
00:03:18,773 --> 00:03:21,546
estamos tentando concluir aquilo
que Ramón y Cajal começou.

66
00:03:21,546 --> 00:03:24,720
Estes são dados brutos 
de nossos colaboradores

67
00:03:24,724 --> 00:03:27,665
no Instituto de Neurociência Max Planck.

68
00:03:27,665 --> 00:03:34,248
E nossos colaboradores estão representando
partículas de tecido cerebral.

69
00:03:34,248 --> 00:03:37,798
Esta amostra tem aproximadamente
um milímetro cúbico,

70
00:03:37,798 --> 00:03:40,443
e estou mostrando uma parte
minúscula dela aqui.

71
00:03:40,443 --> 00:03:42,833
Aquela barra da esquerda
tem em torno de um mícron.

72
00:03:42,833 --> 00:03:45,246
As estruturas que veem são mitocôndrias,

73
00:03:45,246 --> 00:03:47,350
que são do tamanho de uma bactéria.

74
00:03:47,354 --> 00:03:48,985
E estas são fatias consecutivas

75
00:03:48,985 --> 00:03:52,077
através deste minúsculo bloco de tecido.

76
00:03:52,401 --> 00:03:54,488
Apenas para efeito de comparação,

77
00:03:54,488 --> 00:03:58,144
o diâmetro de um fio médio de cabelo 
é de aproximadamente 100 microns.

78
00:03:58,144 --> 00:04:02,108
Então, estamos olhando para algo
bem menor do que um simples fio de cabelo.

79
00:04:02,108 --> 00:04:06,095
E a partir desses tipos de partículas 
microscópicas de elétrons de série,

80
00:04:06,099 --> 00:04:11,111
podemos começar a reconstruir
neurônios em 3D, como estes.

81
00:04:11,111 --> 00:04:14,232
Estes são do mesmo estilo 
do Ramón y Cajal.

82
00:04:14,232 --> 00:04:15,864
Poucos neurônios destacaram-se,

83
00:04:15,864 --> 00:04:18,613
pois, caso contrário, 
não conseguiríamos ver nada aqui.

84
00:04:18,613 --> 00:04:24,145
Estaria lotado, muito cheio de estruturas,
de neurônios comunicando-se entre si.

85
00:04:25,293 --> 00:04:28,081
Ramón y Cajal estava um pouco
à frente de seu tempo,

86
00:04:28,081 --> 00:04:30,640
e o progresso do entendimento do cérebro

87
00:04:30,640 --> 00:04:32,971
seguiu lentamente
através das décadas seguintes.

88
00:04:33,455 --> 00:04:36,292
Mas sabíamos que os neurônios
usavam eletricidade

89
00:04:36,292 --> 00:04:39,292
e, na Segunda Guerra Mundial, 
a tecnologia avançou o suficiente

90
00:04:39,292 --> 00:04:42,122
para iniciar experimentos elétricos
reais em neurônios vivos

91
00:04:42,122 --> 00:04:44,648
para entender melhor seu funcionamento.

92
00:04:44,648 --> 00:04:48,987
Isso ocorreu na mesma época
da invenção dos computadores,


93
00:04:48,991 --> 00:04:52,095
muito baseado na ideia
da modelagem cerebral,

94
00:04:52,095 --> 00:04:55,204
da "maquinaria inteligente",
como foi chamada por Alan Turing,

95
00:04:55,204 --> 00:04:57,843
um dos pais da ciência da computação.

96
00:04:57,843 --> 00:05:02,519
Warren McCulloch e Walter Pitts 
observaram o desenho do córtex visual,

97
00:05:02,519 --> 00:05:05,462
de Ramón y Cajal,
que estou mostrando aqui.

98
00:05:05,462 --> 00:05:09,948
Este é o córtex que processa
as imagens captadas pelo olho.

99
00:05:10,424 --> 00:05:13,932
E, para eles, isto parecia
um diagrama de circuito.

100
00:05:14,353 --> 00:05:18,132
Então há muitos detalhes 
no diagrama de McCulloch and Pitts

101
00:05:18,132 --> 00:05:20,864
que não estão muito certos,
mas esta ideia básica

102
00:05:20,864 --> 00:05:24,823
de que o córtex visual trabalha 
como uma série de elementos computacionais

103
00:05:24,823 --> 00:05:27,553
que passam a informação, 
um para o outro, em cascata,

104
00:05:27,553 --> 00:05:29,295
está essencialmente correta.

105
00:05:29,295 --> 00:05:31,593
Vamos falar um pouco

106
00:05:31,593 --> 00:05:35,665
sobre o que um modelo para processar
informações visuais precisaria fazer.

107
00:05:36,228 --> 00:05:38,969
A tarefa básica de percepção

108
00:05:38,973 --> 00:05:43,091
é levar uma imagem como esta e dizer:

109
00:05:43,091 --> 00:05:44,467
"É um pássaro",

110
00:05:44,467 --> 00:05:47,269
algo muito simples de se fazer
com nosso cérebro.

111
00:05:47,269 --> 00:05:50,730
Mas vocês têm que entender
que, para um computador,

112
00:05:50,754 --> 00:05:53,805
isso era praticamente impossível
há alguns anos.

113
00:05:53,805 --> 00:05:58,641
O paradigma computacional clássico
não é uma tarefa simples de ser realizada.

114
00:05:59,366 --> 00:06:01,918
O que está acontecendo entre os pixels,

115
00:06:01,942 --> 00:06:05,954
entre a imagem do pássaro
e a palavra "pássaro",

116
00:06:05,954 --> 00:06:08,772
é sobretudo um grupo de neurônios
conectados uns aos outros,

117
00:06:08,772 --> 00:06:11,247
em uma rede neural, conforme mostro aqui.

118
00:06:11,258 --> 00:06:14,530
Essa conexão neural poderia ser biológica,
em nosso córtex visual,

119
00:06:14,554 --> 00:06:16,680
ou, atualmente, começamos
a ter a capacidade

120
00:06:16,680 --> 00:06:19,194
de modelar tais conexões neurais
no computador.

121
00:06:19,834 --> 00:06:22,171
Eu mostrarei com o que elas 
realmente se parecem.

122
00:06:22,171 --> 00:06:25,611
Vocês podem pensar nos pixels como
uma primeira camada de neurônios,

123
00:06:25,611 --> 00:06:29,514
que, na verdade, é como atuam no olho,
são os neurônios na retina.

124
00:06:29,521 --> 00:06:31,085
E eles alimentam

125
00:06:31,085 --> 00:06:34,528
camada por camada de neurônios,

126
00:06:34,532 --> 00:06:37,509
todas conectadas por sinapses
de diferentes pesos.

127
00:06:37,509 --> 00:06:39,004
O comportamento dessa rede

128
00:06:39,004 --> 00:06:42,312
é caracterizado pelas forças
de todas aquelas sinapses.

129
00:06:42,312 --> 00:06:45,564
Elas caracterizam as propriedades 
computacionais dessa rede.

130
00:06:45,568 --> 00:06:47,098
E, no final das contas,

131
00:06:47,098 --> 00:06:49,569
você tem um neurônio,
ou um grupo de neurônios,

132
00:06:49,569 --> 00:06:51,860
que ativam-se, dizendo "pássaro".

133
00:06:51,860 --> 00:06:54,940
Agora, representarei essas três coisas:

134
00:06:54,940 --> 00:06:59,560
a entrada de pixels 
e as sinapses na rede neural,

135
00:06:59,560 --> 00:07:04,465
e o pássaro, a saída,
através de três variáveis: x, w e y.

136
00:07:04,853 --> 00:07:08,605
Há um milhão ou mais de x,
um milhão de pixels nesta imagem.

137
00:07:08,605 --> 00:07:11,095
Há bilhões ou trilhões de w,

138
00:07:11,095 --> 00:07:14,556
que representam o peso de todas 
estas sinapses na rede neural.

139
00:07:14,560 --> 00:07:18,095
E há um número muito pequeno de y,
de saídas que essa rede tem.

140
00:07:18,095 --> 00:07:20,770
"Pássaro" tem sete letras, certo?

141
00:07:21,088 --> 00:07:24,498
Então, vamos imaginar que esta
seja apenas uma fórmula simples:

142
00:07:24,498 --> 00:07:26,645
x "x" w = y.

143
00:07:26,645 --> 00:07:28,801
O sinal de multiplicação fica entre aspas,

144
00:07:28,801 --> 00:07:31,105
porque, na verdade, 
o que está acontecendo lá

145
00:07:31,105 --> 00:07:34,135
é uma série complicada
de operações matemáticas.

146
00:07:35,172 --> 00:07:36,393
É uma equação.

147
00:07:36,397 --> 00:07:38,053
Há três variáveis,

148
00:07:38,053 --> 00:07:40,803
e todos nós sabemos
que se você tem uma equação,

149
00:07:40,803 --> 00:07:44,505
pode encontrar uma variável, 
se souber os outros dois termos.

150
00:07:45,158 --> 00:07:48,538
Então, o problema de inferência,

151
00:07:48,542 --> 00:07:51,435
de entender que aquela figura
de um pássaro é um pássaro,

152
00:07:51,439 --> 00:07:56,160
é este: na qual y é desconhecido,
mas w e x são conhecidos.

153
00:07:56,160 --> 00:07:58,663
Conhecendo a rede neural,
você conhece os pixels.

154
00:07:58,663 --> 00:08:02,034
Como podem ver, é um problema
relativamente simples.

155
00:08:02,034 --> 00:08:04,480
Você multiplica duas vezes três e pronto.

156
00:08:04,862 --> 00:08:07,065
Mostrarei uma rede artificial de neurônios

157
00:08:07,065 --> 00:08:09,635
que criamos recentemente
fazendo exatamente isso.

158
00:08:09,635 --> 00:08:12,458
Isto está passando 
em tempo real em um celular,

159
00:08:12,458 --> 00:08:15,831
e é, claro, surpreendente por si só,

160
00:08:15,835 --> 00:08:20,587
que celulares possam fazer bilhões 
e trilhões de operações por segundo.

161
00:08:20,587 --> 00:08:22,314
Vocês estão olhando para um celular

162
00:08:22,314 --> 00:08:25,769
vendo uma imagem de pássaro após a outra,


163
00:08:25,769 --> 00:08:28,488
e, na verdade, não só dizendo:
"Sim, é um pássaro",

164
00:08:28,488 --> 00:08:31,979
mas identificando a espécie do pássaro
com uma rede deste tipo.

165
00:08:32,890 --> 00:08:34,736
Nesta imagem,

166
00:08:34,740 --> 00:08:38,526
o x e o w são conhecidos
e o y é desconhecido.

167
00:08:38,526 --> 00:08:41,058
Estou encobrindo a parte mais difícil,

168
00:08:41,058 --> 00:08:44,943
que é como descobrimos o w,

169
00:08:44,943 --> 00:08:47,134
o cérebro que pode fazer tal coisa?

170
00:08:47,134 --> 00:08:49,448
Como aprenderíamos tal modelo?

171
00:08:49,448 --> 00:08:52,651
Este processo de aprendizagem,
de descobrir o w,

172
00:08:52,655 --> 00:08:55,306
se o resolvermos com a equação simples,

173
00:08:55,306 --> 00:08:57,536
na qual pensamos
nestas variáveis como números,

174
00:08:57,536 --> 00:09:00,057
saberemos, exatamente,
como resolvê-la: 6 = 2 x w,

175
00:09:00,061 --> 00:09:03,393
dividimos por dois e pronto.

176
00:09:04,001 --> 00:09:06,221
O problema é com este sinal.

177
00:09:07,238 --> 00:09:11,083
Usamos a divisão porque
é o inverso da multiplicação,

178
00:09:11,083 --> 00:09:12,643
mas, como acabei de dizer,

179
00:09:12,643 --> 00:09:15,136
a multiplicação não deixa 
de ser uma mentira aqui.

180
00:09:15,136 --> 00:09:18,390
Esta é uma operação não-linear 
muito complicada;

181
00:09:18,390 --> 00:09:20,118
não existe o inverso.

182
00:09:20,118 --> 00:09:23,292
Então devemos encontrar
uma forma de resolver a equação

183
00:09:23,292 --> 00:09:25,356
sem um sinal de divisão.

184
00:09:25,360 --> 00:09:27,707
E a forma de se fazer isso 
é razoavelmente fácil.

185
00:09:27,707 --> 00:09:30,418
Você diz: vamos fazer um truque de álgebra

186
00:09:30,422 --> 00:09:33,332
e mover o seis para a direita da equação.

187
00:09:33,332 --> 00:09:35,678
Agora, ainda temos uma multiplicação

188
00:09:35,678 --> 00:09:39,239
e aquele zero, vamos pensar
nele como um erro.

189
00:09:39,239 --> 00:09:41,778
Em outras palavras, 
se acharmos o w da forma certa

190
00:09:41,778 --> 00:09:43,418
então o erro será zero.

191
00:09:43,418 --> 00:09:47,113
Se não conseguirmos isso da forma certa,
o erro será maior do que zero.

192
00:09:47,113 --> 00:09:50,583
Agora podemos criar suposições
para diminuir os erros,

193
00:09:50,583 --> 00:09:53,274
e é o tipo de coisa que
computadores fazem muito bem.

194
00:09:53,274 --> 00:09:56,251
Na primeira suposição: e se w = 0?
Bem, o erro será 6.

195
00:09:56,251 --> 00:09:58,911
E se w = 1? O erro será 4.

196
00:09:58,911 --> 00:10:03,532
E, então, o computador tentará adivinhar
e diminuir o erro para próximo de zero.

197
00:10:03,532 --> 00:10:06,985
Enquanto isso ocorre, ele está obtendo
sucessivas aproximações de w.

198
00:10:06,985 --> 00:10:10,741
Tipicamente, nunca se chega lá,
mas depois de várias etapas,

199
00:10:10,741 --> 00:10:15,349
estamos próximos de w = 2,999,
o que é bem próximo.

200
00:10:16,302 --> 00:10:18,156
E esse é o processo de aprendizagem.

201
00:10:18,156 --> 00:10:22,176
Lembrem-se de que estamos pegando

202
00:10:22,176 --> 00:10:25,176
muitos x e y conhecidos

203
00:10:25,176 --> 00:10:28,734
e resolvendo o w no meio disso,
através de um processo interativo.

204
00:10:28,734 --> 00:10:32,330
É exatamente assim que construímos
nossa própria aprendizagem.

205
00:10:32,334 --> 00:10:34,644
Quando somos bebês nos mostram imagens

206
00:10:34,644 --> 00:10:37,331
e nos dizem: "Isso é um pássaro;
isso não é um pássaro".

207
00:10:37,714 --> 00:10:39,876
Com o passar do tempo, 
através da interação,

208
00:10:39,876 --> 00:10:42,764
nós encontramos o w, 
encontramos essas conexões neurais.

209
00:10:43,460 --> 00:10:47,510
Agora mantemos o valor de x e w 
para resolver y;

210
00:10:47,510 --> 00:10:49,557
isso acontece todo dia, percepção rápida.

211
00:10:49,557 --> 00:10:51,198
Compreendemos como achar w,

212
00:10:51,198 --> 00:10:53,481
isso é aprendizagem, 
o que é muito mais difícil,

213
00:10:53,481 --> 00:10:57,180
pois precisamos minimizar os erros,
usando vários exemplos de treinamento.

214
00:10:57,180 --> 00:11:00,046
Há aproximadamente um ano,
Alex Mordvintsev, da nossa equipe,

215
00:11:00,046 --> 00:11:03,636
decidiu experimentar o que aconteceria
se tentássemos encontrar x,

216
00:11:03,640 --> 00:11:05,964
conhecendo os valores de w e y.

217
00:11:05,964 --> 00:11:07,069
Em outras palavras,

218
00:11:07,069 --> 00:11:08,731
você sabe que isto é um pássaro,

219
00:11:08,731 --> 00:11:11,978
e já tem sua rede neural
que treinou com pássaros,

220
00:11:11,982 --> 00:11:14,346
mas o que é a figura de um pássaro?

221
00:11:15,034 --> 00:11:20,022
Ocorre que, usando o mesmo
procedimento de minimização de erros,

222
00:11:20,022 --> 00:11:23,512
pode-se fazer isso com a rede treinada
para reconhecer pássaros

223
00:11:23,516 --> 00:11:26,924
e o resultado será...

224
00:11:30,400 --> 00:11:32,185
uma imagem de pássaros.

225
00:11:32,814 --> 00:11:36,375
Essa é uma imagem de pássaros
totalmente gerada por uma rede neural,

226
00:11:36,375 --> 00:11:38,571
a qual foi treinada 
para reconhecer pássaros,

227
00:11:38,571 --> 00:11:43,545
apenas resolvendo x em vez de y,
fazendo isso de forma interativa.

228
00:11:43,545 --> 00:11:45,799
Aqui tem um outro exemplo divertido.

229
00:11:45,799 --> 00:11:49,024
Esse foi um trabalho 
de Mike Tyka, em nosso grupo,

230
00:11:49,024 --> 00:11:51,336
que ele chamou de "Desfile Animal".

231
00:11:51,336 --> 00:11:54,256
Faz lembrar um pouco obras de arte 
de William Kentridge,

232
00:11:54,256 --> 00:11:59,019
na qual ele faz desenhos e os apaga,
sucessivamente, e cria um filme assim.

233
00:11:59,019 --> 00:12:04,120
Neste caso, Mike varia o y
no espaço de diferentes animais,

234
00:12:04,120 --> 00:12:07,607
numa rede desenvolvida para reconhecer
e distinguir diferentes animais.

235
00:12:07,607 --> 00:12:12,582
E você consegue essa estranha mudança
de um animal para outro, estilo Escher.

236
00:12:14,221 --> 00:12:18,819
Aqui, Alex e ele, juntos, tentaram reduzir

237
00:12:18,819 --> 00:12:21,602
o y a um espaço de duas dimensões,

238
00:12:21,602 --> 00:12:25,044
fazendo assim um mapa fora 
do espaço de todas as coisas

239
00:12:25,044 --> 00:12:26,863
reconhecidas por essa rede.

240
00:12:26,863 --> 00:12:28,834
Fazendo esse tipo de síntese

241
00:12:28,834 --> 00:12:31,276
ou geração de imagem
sobre essa superfície inteira,

242
00:12:31,280 --> 00:12:34,226
variando y sobre a superfície,
você cria um mapa visual

243
00:12:34,226 --> 00:12:37,275
de todas as coisas
que a rede consegue reconhecer.

244
00:12:37,275 --> 00:12:40,200
Todos os animas estão aqui;
o tatu está bem naquele canto.

245
00:12:40,919 --> 00:12:43,352
Você também pode fazer isso 
com outras redes.

246
00:12:43,352 --> 00:12:46,280
Essa é uma rede criada 
para reconhecer faces,

247
00:12:46,280 --> 00:12:48,320
distinguir uma face de outra.

248
00:12:48,324 --> 00:12:53,016
E, aqui, colocamos um y que seria "eu",
parâmetros da minha própria face.

249
00:12:53,016 --> 00:12:57,908
E quando essa rede encontra x,
ela gera essa imagem doida,

250
00:12:57,908 --> 00:13:02,016
um estilo cubismo, surreal,
uma figura psicodélica de mim

251
00:13:02,016 --> 00:13:03,826
a partir de múltiplos pontos de vista.

252
00:13:03,826 --> 00:13:06,734
A razão de parecer com múltiplos pontos
de vista de uma só vez

253
00:13:06,734 --> 00:13:10,179
é porque a rede é criada
para conseguir se livrar da ambiguidade

254
00:13:10,179 --> 00:13:12,779
de uma face em uma pose ou outra,

255
00:13:12,779 --> 00:13:16,209
sendo olhada com um tipo ou outro de luz.

256
00:13:16,209 --> 00:13:18,258
Então, quando faz
esse tipo de reconstrução,

257
00:13:18,258 --> 00:13:21,887
se você não usar algum 
guia de imagem ou de estatística,

258
00:13:21,887 --> 00:13:25,640
pode ficar confuso,
devido a diferentes pontos de vista,

259
00:13:25,640 --> 00:13:27,368
porque isso é ambíguo.

260
00:13:27,786 --> 00:13:31,993
Isto é o que acontece se Alex usar
sua própria face como guia de imagem

261
00:13:31,993 --> 00:13:35,354
durante o processo de otimização
para reconstruir minha face.

262
00:13:36,284 --> 00:13:38,576
Então, podem ver que não é perfeito.

263
00:13:38,576 --> 00:13:40,334
Ainda há muito trabalho a fazer

264
00:13:40,334 --> 00:13:42,971
sobre como otimizar
aquele processo de otimização.

265
00:13:42,971 --> 00:13:45,822
Mas começa a ter algo
como uma face coerente,

266
00:13:45,822 --> 00:13:48,106
acabando por usar 
minha própria face como guia.

267
00:13:48,892 --> 00:13:52,437
Não é preciso começar com uma
tela em branco ou com ruído branco.

268
00:13:52,437 --> 00:13:53,981
Quando se está resolvendo x,

269
00:13:53,981 --> 00:13:57,778
pode-se começar com um x,
que, por si só, já é outra imagem.

270
00:13:57,778 --> 00:14:00,378
Isto é o que representa
esta pequena demonstração.

271
00:14:00,378 --> 00:14:04,540
Isto é uma rede desenhada para categorizar

272
00:14:04,564 --> 00:14:07,647
todo tipo de diferentes objetos,
criações humanas, animais...

273
00:14:07,647 --> 00:14:10,284
Aqui começamos apenas
com uma figura de nuvens,

274
00:14:10,284 --> 00:14:11,979
e enquanto otimizamos,

275
00:14:11,979 --> 00:14:16,505
basicamente, esta rede está descobrindo
o que se vê nas nuvens.

276
00:14:16,931 --> 00:14:19,251
E quanto mais você olha pra isso,

277
00:14:19,275 --> 00:14:22,028
mais coisas também verá nas nuvens.

278
00:14:23,004 --> 00:14:26,343
Poderia também usar a rede da face
para ficar alucinado,

279
00:14:26,343 --> 00:14:28,535
então verá umas coisas muito loucas.

280
00:14:28,535 --> 00:14:29,869
(Risos)

281
00:14:30,401 --> 00:14:33,129
Mike fez algumas outras experiências,

282
00:14:33,129 --> 00:14:37,058
nas quais leva a imagem da nuvem,

283
00:14:37,058 --> 00:14:40,569
e ele alucina e aproxima, sucessivamente,

284
00:14:40,569 --> 00:14:41,800
e dessa forma,

285
00:14:41,804 --> 00:14:45,443
pode ter uma espécie 
de estado de fuga da rede, suponho,

286
00:14:45,443 --> 00:14:49,167
ou um tipo de associação livre,

287
00:14:49,167 --> 00:14:51,494
em que a rede morde sua própria cauda.

288
00:14:51,494 --> 00:14:56,148
Assim, toda imagem é base para a pergunta:
"O que acho que verei agora?

289
00:14:56,148 --> 00:14:59,151
O que acho que verei agora?
O que acho que verei agora?"

290
00:14:59,487 --> 00:15:02,423
Mostrei isso pela primeira vez em público,

291
00:15:02,427 --> 00:15:05,868
a um grupo, numa palestra em Seattle,


292
00:15:05,868 --> 00:15:07,848
chamado "Educação Maior";

293
00:15:07,848 --> 00:15:10,385
isso aconteceu assim
que a maconha foi legalizada.

294
00:15:10,385 --> 00:15:12,004
(Risos)

295
00:15:14,627 --> 00:15:16,731
Então, quero terminar logo,

296
00:15:16,735 --> 00:15:20,994
mencionando que esta tecnologia
não está restrita.

297
00:15:20,994 --> 00:15:24,683
Mostrei a vocês exemplos puramente visuais
porque são divertidos de se ver.

298
00:15:24,683 --> 00:15:27,158
Esta não é uma tecnologia 
exclusivamente visual.

299
00:15:27,158 --> 00:15:29,231
Nosso colaborador, Ross Goodwin,

300
00:15:29,231 --> 00:15:32,850
fez experiências envolvendo 
uma câmera que tira a foto,

301
00:15:32,850 --> 00:15:37,028
e aí, um computador na sua mochila,
escreve um poema usando redes neurais,

302
00:15:37,028 --> 00:15:39,112
baseados nos conteúdos da imagem.

303
00:15:39,116 --> 00:15:42,047
E aquela poesia de rede neural 
tem sido treinada

304
00:15:42,047 --> 00:15:44,305
num grande corpus de poesia do século 20.

305
00:15:44,305 --> 00:15:47,746
E a poesia, na verdade,
não é tão ruim, eu acho.

306
00:15:47,746 --> 00:15:49,154
(Risos)

307
00:15:49,154 --> 00:15:50,453
Para fechar,

308
00:15:50,453 --> 00:15:53,757
acho que Michelangelo estava certo:

309
00:15:53,757 --> 00:15:57,267
percepção e criatividade
estão intimamente ligadas.

310
00:15:57,611 --> 00:16:00,245
O que vimos são apenas redes neurais,

311
00:16:00,249 --> 00:16:02,556
que estão totalmente
treinadas para discriminar

312
00:16:02,556 --> 00:16:04,898
ou reconhecer coisas diferentes no mundo,

313
00:16:04,898 --> 00:16:08,007
capazes de trabalhar 
em sentido contrário para produzir.

314
00:16:08,007 --> 00:16:09,870
Uma das coisas que me vem à cabeça

315
00:16:09,870 --> 00:16:14,632
é que não só Michelangelo viu
a escultura nos blocos de pedra,

316
00:16:14,632 --> 00:16:18,374
mas qualquer criatura, 
qualquer ser, alienígena,

317
00:16:18,374 --> 00:16:21,975
que é capaz de fazer 
atos de percepção desse tipo,

318
00:16:21,975 --> 00:16:23,570
também é capaz de criar,

319
00:16:23,570 --> 00:16:26,702
porque é exatamente a mesma máquina
usada nos dois casos.

320
00:16:26,702 --> 00:16:32,194
Também penso que percepção e criatividade 
não são exclusivamente humanas.

321
00:16:32,532 --> 00:16:36,224
Temos modelos de computadores capazes
de fazer justamente esse tipo de coisa,

322
00:16:36,224 --> 00:16:39,576
e não deveria ser surpreendente,
pois o cérebro é computacional.

323
00:16:39,576 --> 00:16:41,273
E finalmente,

324
00:16:41,277 --> 00:16:45,929
a computação começou como um exercício 
de planejar maquinaria inteligente.

325
00:16:45,929 --> 00:16:48,435
Foi muito pensado na ideia

326
00:16:48,435 --> 00:16:51,472
de como faríamos as máquinas
ficarem inteligentes.

327
00:16:51,472 --> 00:16:53,704
E agora, estamos finalmente
começando a cumprir

328
00:16:53,704 --> 00:16:56,144
algumas das promessas daqueles pioneiros,

329
00:16:56,144 --> 00:17:00,074
de Turing e Von Neumann,
e McCulloch e Pitts.

330
00:17:00,074 --> 00:17:04,236
E acho que computação
não é apenas números

331
00:17:04,236 --> 00:17:06,407
ou jogar Candy Crush ou algo assim.

332
00:17:06,407 --> 00:17:09,229
No começo, modelamos as máquinas 
segundo as nossas mentes.

333
00:17:09,229 --> 00:17:12,318
E elas nos dão tanto a habilidade 
de entender melhor nossa mente

334
00:17:12,322 --> 00:17:14,191
como de expandi-la.

335
00:17:14,627 --> 00:17:15,854
Muito obrigado.

336
00:17:15,854 --> 00:17:17,577
(Aplausos)