1 00:00:00,800 --> 00:00:04,064 Lidero uma equipa do Google que trabalha com inteligência artificial. 2 00:00:04,064 --> 00:00:08,598 Por outras palavras, cria computadores e dispositivos 3 00:00:08,622 --> 00:00:11,341 capazes de fazer coisas que o cérebro faz. 4 00:00:11,729 --> 00:00:14,538 Portanto, estamos muito interessados em cérebros de verdade 5 00:00:14,562 --> 00:00:16,131 e também na neurociência, 6 00:00:16,131 --> 00:00:20,047 e especialmente interessados nas coisas que o nosso cérebro faz 7 00:00:20,071 --> 00:00:24,433 com um desempenho muito superior ao dos computadores. 8 00:00:25,209 --> 00:00:28,818 Historicamente, uma dessas áreas tem sido a perceção, 9 00:00:28,842 --> 00:00:31,881 o processo pelo qual as coisas lá fora, no mundo 10 00:00:31,905 --> 00:00:33,489 — sons e imagens — 11 00:00:33,513 --> 00:00:36,031 podem tornar-se conceitos no nosso espírito. 12 00:00:36,235 --> 00:00:38,752 Isto é essencial para o nosso próprio cérebro 13 00:00:38,776 --> 00:00:41,330 e também é muito útil num computador. 14 00:00:41,636 --> 00:00:44,986 Os algoritmos de perceção das máquinas, como os que a nossa equipa faz, 15 00:00:45,010 --> 00:00:48,884 são os que possibilitam encontrar as nossas imagens no Google Photos 16 00:00:48,908 --> 00:00:51,145 com base no que contêm. 17 00:00:51,594 --> 00:00:55,087 O outro lado da perceção é a criatividade 18 00:00:55,111 --> 00:00:58,149 que traduz um conceito numa coisa que existe no mundo. 19 00:00:58,173 --> 00:01:01,728 Ao longo do ano passado, o nosso trabalho sobre a perceção das máquinas 20 00:01:01,752 --> 00:01:06,611 também se ligou inesperadamente ao mundo da criatividade das máquinas 21 00:01:06,635 --> 00:01:08,265 e da arte das máquinas. 22 00:01:08,556 --> 00:01:11,840 Eu acho que Miguel Ângelo teve uma visão perspicaz 23 00:01:11,864 --> 00:01:15,780 quanto a esta dupla relação entre perceção e criatividade. 24 00:01:16,023 --> 00:01:18,399 Esta é uma sua famosa citação: 25 00:01:18,409 --> 00:01:21,676 "Cada bloco de pedra tem uma estátua lá dentro. 26 00:01:22,036 --> 00:01:25,538 "O papel do escultor é descobri-la." 27 00:01:26,029 --> 00:01:29,385 Eu acho que Miguel Ângelo queria exprimir 28 00:01:29,385 --> 00:01:32,449 que nós criamos através da perceção 29 00:01:32,473 --> 00:01:35,496 e que essa perceção em si é um ato de imaginação 30 00:01:35,520 --> 00:01:38,031 e é a matéria-prima da criatividade. 31 00:01:38,691 --> 00:01:42,616 O órgão que processa todo o pensamento, a perceção e a imaginação, 32 00:01:42,640 --> 00:01:44,228 claro, é o cérebro. 33 00:01:45,089 --> 00:01:47,634 Gostaria de começar com um pequeno resumo da história 34 00:01:47,658 --> 00:01:50,120 sobre o que sabemos sobre o cérebro. 35 00:01:50,496 --> 00:01:53,162 Porque, ao contrário do coração ou dos intestinos, 36 00:01:53,162 --> 00:01:56,330 não podemos dizer muito sobre o cérebro, apenas olhando para ele 37 00:01:56,330 --> 00:01:57,906 pelo menos, a olho nu. 38 00:01:57,983 --> 00:02:00,499 Os primeiros anatomistas que olharam para o cérebro 39 00:02:00,499 --> 00:02:04,230 deram à sua estrutura superficial todo o tipo de nomes fantasiosos 40 00:02:04,254 --> 00:02:06,537 como hipocampo, que significa "cavalo-marinho." 41 00:02:06,711 --> 00:02:09,475 Mas com certeza, esse tipo de coisas não nos diz muito 42 00:02:09,499 --> 00:02:11,997 sobre o que de facto acontece dentro dele. 43 00:02:12,780 --> 00:02:16,393 Acho que a primeira pessoa que lançou alguma luz 44 00:02:16,417 --> 00:02:18,347 sobre o que ocorria dentro do cérebro 45 00:02:18,371 --> 00:02:22,291 foi o grande neuroanatomista espanhol Santiago Ramón y Cajal, 46 00:02:22,315 --> 00:02:23,859 no século XIX, 47 00:02:23,883 --> 00:02:27,638 que usou a microscopia e corantes especiais 48 00:02:27,662 --> 00:02:31,832 que podiam colorir seletivamente ou criar um alto contraste 49 00:02:31,856 --> 00:02:33,864 as células individuais dentro do cérebro, 50 00:02:33,888 --> 00:02:37,042 para começar a entender a sua morfologia. 51 00:02:37,972 --> 00:02:40,507 Estes são os tipos de desenhos de neurónios, 52 00:02:40,507 --> 00:02:42,096 que ele fez no século XIX. 53 00:02:42,120 --> 00:02:44,164 Este é de um cérebro de pássaro. 54 00:02:44,164 --> 00:02:47,085 Vemos esta incrível variedade de diferentes tipos de células. 55 00:02:47,109 --> 00:02:50,544 Até a própria teoria celular era praticamente nova nesta altura. 56 00:02:50,568 --> 00:02:51,976 Estas estruturas, 57 00:02:51,976 --> 00:02:54,339 estas células que têm estas ramificações, 58 00:02:54,339 --> 00:02:56,761 estes ramos que podem percorrer grandes distâncias, 59 00:02:56,785 --> 00:02:58,541 eram uma novidade na época. 60 00:02:58,779 --> 00:03:01,682 Claro que nos fazem lembrar cabos. 61 00:03:01,706 --> 00:03:05,333 No século XIX, isso talvez fosse óbvio para algumas pessoas, 62 00:03:05,333 --> 00:03:09,501 a revolução da cablagem elétrica estava apenas a começar. 63 00:03:09,964 --> 00:03:11,142 Mas, de várias maneiras, 64 00:03:11,166 --> 00:03:14,479 esses desenhos microanatómicos de Ramón y Cajal, como este, 65 00:03:14,503 --> 00:03:16,975 ainda são, de certa forma, insuperáveis. 66 00:03:16,975 --> 00:03:18,603 Mais de cem anos depois, 67 00:03:18,603 --> 00:03:21,792 continuamos a tentar terminar o trabalho que Ramón y Cajal iniciou. 68 00:03:21,792 --> 00:03:24,720 Estes são dados brutos dos nossos colaboradores 69 00:03:24,744 --> 00:03:27,625 do Instituto de Neurociência Max Planck. 70 00:03:27,649 --> 00:03:30,489 Os nossos colaboradores têm fotografado 71 00:03:30,489 --> 00:03:34,464 pequenos pedaços de tecido cerebral. 72 00:03:34,488 --> 00:03:37,814 A amostra total aqui tem cerca de um milímetro cúbico de tamanho 73 00:03:37,838 --> 00:03:40,373 e estou a mostrar aqui apenas um pequeno pedaço. 74 00:03:40,373 --> 00:03:42,829 Aquela barra à esquerda tem mais ou menos um mícron. 75 00:03:42,853 --> 00:03:45,262 As estruturas que vemos são mitocôndrias 76 00:03:45,286 --> 00:03:47,330 que têm o tamanho de uma bactéria. 77 00:03:47,354 --> 00:03:49,015 E estas são cortes consecutivos 78 00:03:49,015 --> 00:03:52,077 desse bloco de tecido muito pequeno. 79 00:03:52,101 --> 00:03:54,504 Só para efeitos de comparação, 80 00:03:54,528 --> 00:03:58,244 o diâmetro médio de um cabelo é de cerca de 100 mícrons. 81 00:03:58,244 --> 00:04:01,978 Portanto, estamos a olhar para uma coisa muito menor do que um simples cabelo. 82 00:04:02,064 --> 00:04:06,095 A partir deste tipo de cortes em série vistos ao microscópio eletrónico, 83 00:04:06,119 --> 00:04:11,127 podemos fazer reconstruções em 3D de neurónios, como estes. 84 00:04:11,151 --> 00:04:14,308 Estes são do mesmo estilo dos de Ramón y Cajal. 85 00:04:14,332 --> 00:04:18,534 Só se iluminam alguns neurónios, senão, não conseguiríamos ver nada. 86 00:04:18,653 --> 00:04:20,115 Ficaria muito sobrecarregado, 87 00:04:20,115 --> 00:04:22,429 cheio de estruturas de cabos, 88 00:04:22,429 --> 00:04:24,667 ligando os neurónios uns aos outros. 89 00:04:25,293 --> 00:04:28,097 Ramón y Cajal estava avançado para a sua época 90 00:04:28,121 --> 00:04:30,996 e o progresso na compreensão do cérebro 91 00:04:30,996 --> 00:04:33,351 prosseguiu devagar durante as décadas seguintes. 92 00:04:33,455 --> 00:04:36,528 Mas nós sabíamos que os neurónios usavam a eletricidade. 93 00:04:36,528 --> 00:04:39,418 Com a II Guerra Mundial, a nossa tecnologia avançou bastante 94 00:04:39,418 --> 00:04:42,218 para iniciar experiências elétricas em neurónios vivos, 95 00:04:42,218 --> 00:04:44,458 para melhor entender como eles funcionavam. 96 00:04:44,881 --> 00:04:48,987 Foi na mesma época em que foram inventados os computadores, 97 00:04:49,011 --> 00:04:52,111 com base sobretudo na ideia de imitar o cérebro 98 00:04:52,135 --> 00:04:55,220 — uma "máquina inteligente", como lhe chamou Alan Turing, 99 00:04:55,244 --> 00:04:57,555 um dos pais da informática. 100 00:04:57,923 --> 00:05:02,555 Warren McCulloch e Walter Pitts olharam para o desenho de Ramón y Cajal 101 00:05:02,579 --> 00:05:03,896 do córtex visual, 102 00:05:03,920 --> 00:05:05,772 que estou a mostrar aqui. 103 00:05:06,326 --> 00:05:10,088 Este é o córtex que processa as imagens que provêm dos olhos. 104 00:05:10,424 --> 00:05:14,082 Para eles, isto parecia o diagrama de um circuito. 105 00:05:14,353 --> 00:05:18,062 Há muitos detalhes no diagrama no circuito de McCulloch e de Pitt 106 00:05:18,062 --> 00:05:19,714 que não estão lá muito corretos. 107 00:05:19,714 --> 00:05:21,093 Mas a ideia básica 108 00:05:21,093 --> 00:05:24,839 de que o córtex visual funciona como uma série de elementos eletrónicos 109 00:05:24,863 --> 00:05:27,609 que passam informações de um para outro, em cascata, 110 00:05:27,633 --> 00:05:29,335 está essencialmente correta. 111 00:05:29,335 --> 00:05:31,739 Vamos falar por momentos 112 00:05:31,739 --> 00:05:35,865 do que um modelo de processamento de informações visuais precisaria de fazer. 113 00:05:36,228 --> 00:05:38,969 A tarefa básica da perceção 114 00:05:38,993 --> 00:05:43,091 é pegar numa imagem como esta e dizer: 115 00:05:43,091 --> 00:05:44,507 "Isto é uma ave", 116 00:05:44,507 --> 00:05:47,475 o que é uma coisa muito simples que fazermos com o cérebro. 117 00:05:47,475 --> 00:05:50,730 Mas devem compreender que, para um computador, 118 00:05:50,754 --> 00:05:53,841 isso era praticamente impossível, até há poucos anos. 119 00:05:53,865 --> 00:05:56,081 O paradigma clássico da informática 120 00:05:56,081 --> 00:05:58,732 não permite realizar facilmente essa tarefa. 121 00:05:59,366 --> 00:06:02,018 Então, o que acontece entre os píxeis, 122 00:06:02,018 --> 00:06:05,970 entre a imagem de um pássaro e a palavra "ave", 123 00:06:05,994 --> 00:06:08,808 é uma série de neurónios ligados uns aos outros 124 00:06:08,832 --> 00:06:11,547 numa rede neural como este diagrama aqui. 125 00:06:11,704 --> 00:06:14,530 Esta rede neural pode ser biológica, como no córtex visual, 126 00:06:14,554 --> 00:06:17,226 ou, atualmente, começamos a ter a capacidade de modelar 127 00:06:17,226 --> 00:06:19,194 estas redes neurais no computador. 128 00:06:19,834 --> 00:06:22,187 Vou mostrar o aspeto que isso tem. 129 00:06:22,211 --> 00:06:25,627 Podemos considerar os píxeis como uma primeira camada de neurónio 130 00:06:25,651 --> 00:06:27,890 — e, de facto, é assim que funciona o olho — 131 00:06:27,914 --> 00:06:29,577 são os neurónios na retina. 132 00:06:29,601 --> 00:06:31,631 e eles transmitem as informações 133 00:06:31,631 --> 00:06:34,528 camada após camada, após camada de neurónios, 134 00:06:34,552 --> 00:06:37,585 todos ligados através de sinapses de diferentes pesos. 135 00:06:37,609 --> 00:06:39,114 O comportamento desta rede 136 00:06:39,114 --> 00:06:42,352 é caracterizado pelas forças de todas estas sinapses. 137 00:06:42,352 --> 00:06:45,564 Elas caracterizam as propriedades informáticas dessa rede. 138 00:06:45,588 --> 00:06:47,058 E por fim, 139 00:06:47,082 --> 00:06:49,619 temos um neurónio ou um pequeno grupo de neurónios 140 00:06:49,619 --> 00:06:51,570 que se iluminam, dizendo: "ave". 141 00:06:51,824 --> 00:06:54,956 Agora vou representar essas três coisas 142 00:06:54,980 --> 00:06:59,676 — os píxeis de entrada e as sinapses na rede neural, 143 00:06:59,700 --> 00:07:01,285 e a ave, o resultado — 144 00:07:01,309 --> 00:07:04,576 por três variáveis: x, w e y. 145 00:07:04,853 --> 00:07:06,754 Há talvez um milhão de x, 146 00:07:06,754 --> 00:07:08,641 um milhão de píxeis nesta imagem. 147 00:07:08,665 --> 00:07:11,111 Há milhares de milhões ou biliões de w, 148 00:07:11,135 --> 00:07:14,556 que representam os pesos de todas essas sinapses na rede neural. 149 00:07:14,580 --> 00:07:16,455 E há um pequeno número de y, 150 00:07:16,479 --> 00:07:18,337 de resultados que essa rede neural tem. 151 00:07:18,361 --> 00:07:20,430 "Ave" tem apenas três letras, não é? 152 00:07:21,088 --> 00:07:24,514 Então vamos supor que isso é uma fórmula simples, 153 00:07:24,538 --> 00:07:26,701 x "vezes" w = y. 154 00:07:26,725 --> 00:07:28,891 Coloco o sinal de multiplicação entre aspas 155 00:07:28,891 --> 00:07:31,065 porque o que realmente está ali a acontecer, 156 00:07:31,089 --> 00:07:34,285 é uma série muito complicada de operações matemáticas 157 00:07:35,172 --> 00:07:36,393 Isto é uma equação. 158 00:07:36,417 --> 00:07:38,089 Há três variáveis. 159 00:07:38,113 --> 00:07:41,079 Todos nós sabemos que, se temos uma equação, 160 00:07:41,079 --> 00:07:44,505 podemos encontrar uma variável se conhecermos as outras duas. 161 00:07:45,158 --> 00:07:48,538 Assim, o problema da inferência, 162 00:07:48,562 --> 00:07:51,435 ou seja, descobrir que a figura de uma ave é uma ave, 163 00:07:51,459 --> 00:07:52,893 é o seguinte: 164 00:07:52,913 --> 00:07:56,216 É onde y é a incógnita e w e x são conhecidos. 165 00:07:56,240 --> 00:07:58,699 Conhecemos a rede neural, conhecemos os píxeis. 166 00:07:58,723 --> 00:08:02,050 Como podemos ver, isto é de facto um problema relativamente simples. 167 00:08:02,074 --> 00:08:04,260 Multiplicamos duas vezes três e está feito. 168 00:08:04,862 --> 00:08:06,985 Vou mostrar uma rede neural artificial 169 00:08:07,009 --> 00:08:09,715 que construímos há pouco tempo, fazendo exatamente isso. 170 00:08:09,715 --> 00:08:12,494 Isto está a correr em tempo real num telemóvel 171 00:08:12,518 --> 00:08:15,831 e, claro, é incrível, só por si, 172 00:08:15,855 --> 00:08:18,627 que os telemóveis possam fazer milhares de milhões ou 173 00:08:18,647 --> 00:08:20,595 ou biliões de operações por segundo. 174 00:08:20,619 --> 00:08:22,374 O que estamos a ver é um telemóvel 175 00:08:22,374 --> 00:08:25,805 a olhar para figuras de aves, umas atrás das outras, 176 00:08:25,829 --> 00:08:28,544 a dizer: "Sim, isto é uma ave", 177 00:08:28,568 --> 00:08:31,979 e também a identificar as espécies de aves com uma rede deste tipo. 178 00:08:32,890 --> 00:08:34,716 Assim, nesta imagem, 179 00:08:34,740 --> 00:08:38,542 o x e o w são conhecidos, e o y é a incógnita. 180 00:08:38,566 --> 00:08:41,074 Claro, estou a encobrir a parte mais difícil, 181 00:08:41,098 --> 00:08:44,959 que é como podemos descobrir o valor de w, 182 00:08:44,983 --> 00:08:47,170 como é que o cérebro pode fazer tal coisa? 183 00:08:47,194 --> 00:08:49,258 Como poderemos aprender esse modelo? 184 00:08:49,418 --> 00:08:52,651 Este processo de aprendizagem, de encontrar o w, 185 00:08:52,675 --> 00:08:55,322 se estivéssemos a fazer isso com uma simples equação 186 00:08:55,346 --> 00:08:57,346 em que utilizamos números, 187 00:08:57,370 --> 00:09:00,417 sabemos exatamente como fazer isso: 6 = 2 x w. 188 00:09:00,417 --> 00:09:03,573 Dividimos por dois e está feito. 189 00:09:04,001 --> 00:09:06,361 O problema é com este operador. 190 00:09:06,823 --> 00:09:07,974 a divisão. 191 00:09:08,158 --> 00:09:11,119 Usamos a divisão porque é o inverso da multiplicação 192 00:09:11,143 --> 00:09:12,583 mas, como acabei de dizer, 193 00:09:12,607 --> 00:09:15,056 a multiplicação aqui é uma pequena mentira. 194 00:09:15,080 --> 00:09:18,406 Esta é uma operação muito complicada, não é linear, 195 00:09:18,430 --> 00:09:20,134 não tem forma inversa. 196 00:09:20,158 --> 00:09:23,308 Então temos de descobrir uma forma de resolver a equação 197 00:09:23,332 --> 00:09:25,356 sem um operador de divisão. 198 00:09:25,380 --> 00:09:27,723 A forma de fazer isso é bem simples. 199 00:09:27,747 --> 00:09:30,418 Basta dizer: "Vamos brincar com os truques da álgebra" 200 00:09:30,442 --> 00:09:33,348 e movemos o seis para o lado direito da equação. 201 00:09:33,372 --> 00:09:35,558 Continuamos a usar a multiplicação. 202 00:09:35,675 --> 00:09:39,255 E vamos pensar naquele zero como um erro. 203 00:09:39,279 --> 00:09:41,794 Por outras palavras, se resolvermos da forma correta, 204 00:09:41,818 --> 00:09:43,474 o erro será zero. 205 00:09:43,498 --> 00:09:46,976 E se não resolvemos corretamente, o erro será maior do que zero. 206 00:09:47,233 --> 00:09:50,343 Então podemos apenas dar palpites para minimizar o erro. 207 00:09:50,343 --> 00:09:53,310 Esse é o tipo de coisas em que os computadores são muito bons. 208 00:09:53,334 --> 00:09:54,927 Assim, temos um palpite inicial: 209 00:09:54,951 --> 00:09:56,545 E se w = 0? Então o erro é seis. 210 00:09:56,545 --> 00:09:58,841 E se w = 1? Então o erro é 4. 211 00:09:58,865 --> 00:10:01,232 Então o computador pode fazer de Marco Polo, 212 00:10:01,256 --> 00:10:03,623 e diminuir o erro para mais próximo de zero. 213 00:10:03,647 --> 00:10:07,021 Fazendo isso, vamos ter sucessivas aproximações até ao w. 214 00:10:07,045 --> 00:10:10,701 Normalmente, nunca lá chega, mas após uma dúzia de passos, 215 00:10:10,725 --> 00:10:15,729 temos w = 2,999, o que é suficientemente próximo. 216 00:10:16,302 --> 00:10:18,116 É este o processo de aprendizagem. 217 00:10:18,140 --> 00:10:20,870 Por isso, lembrem-se que o que está a acontecer aqui 218 00:10:20,894 --> 00:10:25,272 é que estamos a pegar num monte de x e y conhecidos 219 00:10:25,296 --> 00:10:28,750 e a procurar o w através de um processo repetitivo. 220 00:10:28,774 --> 00:10:32,330 Isto é a mesma coisa que fazemos com a nossa aprendizagem. 221 00:10:32,354 --> 00:10:35,464 Temos muitas imagens, enquanto bebés, e dizem-nos: 222 00:10:35,464 --> 00:10:37,541 "Isto é uma ave, isto não é uma ave". 223 00:10:37,714 --> 00:10:40,192 Ao longo do tempo, através da repetição, 224 00:10:40,192 --> 00:10:43,214 encontramos o w, aquelas ligações neurais. 225 00:10:43,460 --> 00:10:47,546 Então agora, temos o x e o w fixos, para resolvermos o y. 226 00:10:47,570 --> 00:10:49,417 É a perceção rápida, de todos os dias. 227 00:10:49,441 --> 00:10:51,048 Descobrimos como encontrar o w, 228 00:10:51,048 --> 00:10:53,461 isso é aprendizagem, o que é um muito mais difícil 229 00:10:53,461 --> 00:10:56,770 porque precisamos de minimizar o erro, praticando muitos exemplos. 230 00:10:56,875 --> 00:11:00,062 Há uns anos, Alex Mordvintsev, da nossa equipa, 231 00:11:00,086 --> 00:11:03,636 decidiu experimentar o que acontece se tentarmos encontrar o x, 232 00:11:03,660 --> 00:11:05,837 em que o w e o y são conhecidos. 233 00:11:06,124 --> 00:11:08,515 Por outras palavras, sabemos que é uma ave, 234 00:11:08,675 --> 00:11:11,978 já treinámos a rede neural com as aves, 235 00:11:12,002 --> 00:11:14,586 mas o que é a imagem de uma ave? 236 00:11:15,034 --> 00:11:20,058 Acontece que, usando exatamente o mesmo procedimento de minimização de erros, 237 00:11:20,082 --> 00:11:23,512 podemos fazer isso com a rede treinada para reconhecer aves 238 00:11:23,536 --> 00:11:26,924 e o resultado será... 239 00:11:30,400 --> 00:11:31,975 uma imagem de aves. 240 00:11:32,814 --> 00:11:36,551 É uma imagem de aves gerada totalmente por uma rede neural, 241 00:11:36,575 --> 00:11:38,691 treinada para reconhecer aves, 242 00:11:38,691 --> 00:11:41,963 simplesmente procurando x, em vez de procurar o y, 243 00:11:41,987 --> 00:11:43,655 e fazendo-o por repetição. 244 00:11:43,882 --> 00:11:45,719 Eis outro exemplo engraçado. 245 00:11:45,719 --> 00:11:49,040 Este foi um trabalho feito por Mike Tyka no nosso grupo 246 00:11:49,064 --> 00:11:51,372 a que ele chama "Desfile de Animais". 247 00:11:51,396 --> 00:11:54,272 Recorda-me um pouco as obras de William Kentridge, 248 00:11:54,296 --> 00:11:56,785 em que ele faz esboços e depois os apaga, 249 00:11:56,809 --> 00:11:59,629 faz esboços e os apaga e cria um filme dessa forma 250 00:11:59,715 --> 00:12:04,016 Neste caso, Mike vai variando y no espaço de diferentes animais 251 00:12:04,191 --> 00:12:06,573 numa rede concebida para reconhecer e distinguir 252 00:12:06,597 --> 00:12:08,517 animais diferentes uns dos outros. 253 00:12:08,517 --> 00:12:12,182 Podemos achar estranho, é como ter uma metamorfose de um animal para outro. 254 00:12:14,221 --> 00:12:18,835 Aqui ele e Alex, em conjunto, tentaram reduzir os y 255 00:12:18,859 --> 00:12:21,618 num espaço de apenas duas dimensões, 256 00:12:21,642 --> 00:12:25,080 criando um mapa fora do espaço de todas as coisas 257 00:12:25,104 --> 00:12:26,823 reconhecidas por essa rede. 258 00:12:26,847 --> 00:12:28,970 Fazendo esse tipo de síntese 259 00:12:28,970 --> 00:12:31,276 ou geração de imagens sobre toda a superfície, 260 00:12:31,300 --> 00:12:34,146 variando y na superfície, fazemos uma espécie de mapa, 261 00:12:34,170 --> 00:12:37,311 um mapa visual de todas as coisas que a rede sabe reconhecer. 262 00:12:37,335 --> 00:12:40,200 Os animais estão todos aqui: o tatu está naquele local. 263 00:12:40,919 --> 00:12:43,398 Também podemos fazer isso com outras redes. 264 00:12:43,422 --> 00:12:46,296 Esta é uma rede desenhada para reconhecer rostos, 265 00:12:46,320 --> 00:12:48,650 para distinguir um rosto de outro. 266 00:12:48,650 --> 00:12:51,593 Aqui, estamos a colocar um Y que diz "eu", 267 00:12:51,617 --> 00:12:53,192 os parâmetros do meu rosto. 268 00:12:53,216 --> 00:12:55,072 Quando isso é resolvido para x, 269 00:12:55,072 --> 00:12:58,454 gera a minha imagem, bastante louca, 270 00:12:58,454 --> 00:13:01,740 tipo cubista, surrealista, psicadélica, 271 00:13:01,740 --> 00:13:03,966 de vários pontos de vista ao mesmo tempo. 272 00:13:03,966 --> 00:13:06,984 A razão de se parecer com vários pontos de vista ao mesmo tempo, 273 00:13:06,984 --> 00:13:10,315 é porque esta rede está concebida para se livrar da ambiguidade 274 00:13:10,339 --> 00:13:12,815 de um rosto estar numa pose qualquer, 275 00:13:12,839 --> 00:13:16,215 de ser visto com um tipo de luz, com outro tipo de luz. 276 00:13:16,239 --> 00:13:18,324 Quando fazemos este tipo de reconstrução, 277 00:13:18,348 --> 00:13:21,812 se não usarmos qualquer tipo de guia de imagem ou de estatística, 278 00:13:21,911 --> 00:13:25,676 obtemos uma certa confusão de diferentes pontos de vista, 279 00:13:25,700 --> 00:13:27,468 porque isso é ambíguo. 280 00:13:27,786 --> 00:13:32,009 É o que acontece se o Alex usar o seu rosto como guia de imagem 281 00:13:32,033 --> 00:13:35,464 durante o processo de otimização para reconstruir o meu rosto. 282 00:13:36,284 --> 00:13:38,612 Vemos que isto não é perfeito. 283 00:13:38,636 --> 00:13:40,510 Ainda há muito trabalho a fazer 284 00:13:40,534 --> 00:13:42,987 sobre como melhorar a otimização do processo. 285 00:13:43,011 --> 00:13:45,838 Mas começamos a ver alguma coisa como um rosto coerente, 286 00:13:45,862 --> 00:13:48,436 usando o meu rosto como guia. 287 00:13:48,892 --> 00:13:51,393 Não precisamos de começar com uma tela em branco 288 00:13:51,417 --> 00:13:52,573 ou com interferências, 289 00:13:52,597 --> 00:13:54,251 quando estamos a procurar x. 290 00:13:54,251 --> 00:13:57,814 Podemos começar com um x que, em si mesmo, já é uma outra imagem. 291 00:13:57,838 --> 00:14:00,644 É isso que é esta pequena demonstração. 292 00:14:00,644 --> 00:14:04,540 Esta é uma rede desenhada para categorizar 293 00:14:04,564 --> 00:14:07,683 todo o tipo de objetos — estruturas feitas pelo homem, animais. 294 00:14:07,707 --> 00:14:10,300 Aqui estamos a começar apenas com uma imagem de nuvens. 295 00:14:10,324 --> 00:14:11,995 Quando otimizamos, 296 00:14:12,019 --> 00:14:16,505 essa rede está a descobrir o que vê nas nuvens. 297 00:14:16,931 --> 00:14:19,251 Quanto mais tempo gastarmos a olhar para isto, 298 00:14:19,275 --> 00:14:22,168 mais coisas veremos nas nuvens. 299 00:14:23,004 --> 00:14:26,379 Também podemos usar a rede de rostos para enlouquecer isto 300 00:14:26,403 --> 00:14:28,215 e obtemos coisas muito loucas. 301 00:14:28,239 --> 00:14:29,569 (Risos) 302 00:14:30,401 --> 00:14:33,145 Mike tem feito outras experiências 303 00:14:33,169 --> 00:14:37,074 em que agarra nessa imagem de nuvens, 304 00:14:37,098 --> 00:14:40,605 enlouquece, aproxima, enlouquece, aproxima, enlouquece, aproxima. 305 00:14:40,629 --> 00:14:42,070 Dessa forma, 306 00:14:42,070 --> 00:14:45,479 suponho que podemos obter uma espécie de estado de fuga da rede, 307 00:14:45,503 --> 00:14:49,183 ou um tipo de associação livre 308 00:14:49,207 --> 00:14:51,434 em que a rede está a comer a sua cauda. 309 00:14:51,458 --> 00:14:54,683 Assim cada imagem é agora a base para: 310 00:14:54,683 --> 00:14:56,414 "O que é que espero ver a seguir?" 311 00:14:56,414 --> 00:14:59,581 "O que é que espero ver a seguir? O que é que espero ver a seguir?" 312 00:14:59,581 --> 00:15:02,423 Mostrei isto em público pela primeira vez 313 00:15:02,447 --> 00:15:07,884 a um grupo numa palestra em Seattle chamada "A mais alta educação" 314 00:15:07,908 --> 00:15:10,445 — logo depois de ter sido legalizada a marijuana. 315 00:15:10,689 --> 00:15:12,784 (Risos) 316 00:15:14,627 --> 00:15:16,731 Gostaria de terminar rapidamente 317 00:15:16,755 --> 00:15:21,230 notando que esta tecnologia não está limitada. 318 00:15:21,314 --> 00:15:24,699 Mostrei-vos apenas exemplos visuais porque eles são divertidos de ver. 319 00:15:24,723 --> 00:15:27,174 Não é apenas uma tecnologia puramente visual. 320 00:15:27,198 --> 00:15:29,361 O nosso artista colaborador, Ross Goodwin, 321 00:15:29,361 --> 00:15:32,886 tem feito experiências que envolvem uma câmara que tira fotos 322 00:15:32,910 --> 00:15:37,144 e depois um computador na sua mochila escreve um poema, usando redes neurais, 323 00:15:37,168 --> 00:15:39,112 com base no conteúdo da imagem. 324 00:15:39,136 --> 00:15:42,083 Essa poesia de rede neural foi treinada 325 00:15:42,107 --> 00:15:44,341 num grande corpo de poesia do século XX. 326 00:15:44,365 --> 00:15:47,624 Sabem uma coisa, acho que essa poesia não é lá muito má. 327 00:15:47,826 --> 00:15:49,210 (Risos) 328 00:15:49,234 --> 00:15:50,703 Para terminar, 329 00:15:50,703 --> 00:15:53,619 acho que Miguel Ângelo tinha razão. 330 00:15:53,831 --> 00:15:57,267 "A perceção e a criatividades estão intimamente ligadas". 331 00:15:57,611 --> 00:16:00,245 O que acabamos de ver são redes neurais 332 00:16:00,269 --> 00:16:03,192 que estão totalmente treinadas para discriminar ou reconhecer 333 00:16:03,192 --> 00:16:05,058 diferentes coisas no mundo, 334 00:16:05,058 --> 00:16:08,023 capazes de funcionar de trás para frente, de criar. 335 00:16:08,047 --> 00:16:09,830 Uma das coisas que me sugere 336 00:16:09,854 --> 00:16:12,432 que não é apenas o que Miguel Ângelo viu, 337 00:16:12,432 --> 00:16:14,728 a escultura nos blocos de pedra. 338 00:16:14,752 --> 00:16:18,390 Mas que qualquer criatura, qualquer ser, qualquer alienígena, 339 00:16:18,414 --> 00:16:22,071 que seja capaz de fazer ações percetivas deste tipo, 340 00:16:22,095 --> 00:16:23,620 também é capaz de criar, 341 00:16:23,620 --> 00:16:26,718 porque é exatamente o mesmo mecanismo usado nos dois casos. 342 00:16:26,742 --> 00:16:31,274 Também acho que essa perceção e criatividade não são de modo algum 343 00:16:31,298 --> 00:16:32,708 unicamente humanas. 344 00:16:32,708 --> 00:16:36,240 Começámos com modelos de computadores capazes de fazer este tipo de coisas. 345 00:16:36,264 --> 00:16:39,592 Isso não devia ser surpreendente: o cérebro é um modelo informático. 346 00:16:39,616 --> 00:16:41,273 E finalmente, 347 00:16:41,297 --> 00:16:45,965 a informática começou como um exercício para a conceção de máquinas inteligentes. 348 00:16:45,989 --> 00:16:48,451 Foi modelado segundo a ideia 349 00:16:48,475 --> 00:16:51,488 de que podemos fazer máquinas inteligentes. 350 00:16:51,512 --> 00:16:53,674 E finalmente estamos agora a começar a atingir 351 00:16:53,698 --> 00:16:56,104 algumas das promessas dos pioneiros, 352 00:16:56,128 --> 00:16:57,841 de Turing e von Neumannn, 353 00:16:57,865 --> 00:17:00,130 de McCulloch e Pitts. 354 00:17:00,914 --> 00:17:04,252 Acho que a informática não é apenas fazer contas 355 00:17:04,276 --> 00:17:06,483 ou jogar Candy Crush ou qualquer outra coisa. 356 00:17:06,483 --> 00:17:09,225 Desde o começo, modelámo-los segundo as nossas mentes. 357 00:17:09,225 --> 00:17:12,318 Eles deram-nos a capacidade para compreender as nossas mentes 358 00:17:12,342 --> 00:17:13,871 e para os aperfeiçoar. 359 00:17:14,627 --> 00:17:16,074 Muito obrigado. 360 00:17:16,174 --> 00:17:19,457 (Aplausos)