1 00:00:00,880 --> 00:00:04,893 Era habitual, quando queríamos que um computador fizesse algo novo, 2 00:00:04,893 --> 00:00:06,477 termos que o programar. 3 00:00:06,477 --> 00:00:09,858 Para aqueles que nunca programaram, 4 00:00:09,858 --> 00:00:13,360 a programação requer especificar com enorme detalhe, 5 00:00:13,360 --> 00:00:16,727 todos os passos que queremos que o computador execute 6 00:00:16,727 --> 00:00:19,089 para alcançarmos o nosso objetivo. 7 00:00:19,089 --> 00:00:22,585 Se queremos fazer algo que não sabemos fazer nós próprios, 8 00:00:22,585 --> 00:00:24,648 será um grande desafio. 9 00:00:24,648 --> 00:00:28,131 Este foi o desafio enfrentado por este homem, Arthur Samuel. 10 00:00:28,131 --> 00:00:32,208 Em 1965, ele queria que um computador 11 00:00:32,208 --> 00:00:34,548 o vencesse nas damas. 12 00:00:34,548 --> 00:00:36,588 Como podemos escrever um programa, 13 00:00:36,588 --> 00:00:40,394 com grande detalhe, que seja melhor do que nós nas damas? 14 00:00:40,394 --> 00:00:42,116 Ele teve uma ideia: 15 00:00:42,116 --> 00:00:45,840 pôs o computador a jogar contra si próprio, milhares de vezes, 16 00:00:45,840 --> 00:00:48,364 para aprender a jogar damas. 17 00:00:48,364 --> 00:00:51,544 Funcionou e, em 1962, 18 00:00:51,544 --> 00:00:55,561 o computador venceu o campeão do estado do Connecticut. 19 00:00:55,561 --> 00:00:58,374 Arthur Samuel foi, assim, o pai da aprendizagem automática 20 00:00:58,374 --> 00:01:00,251 e tenho uma grande dívida para com ele, 21 00:01:00,251 --> 00:01:03,014 porque sou um profissional da aprendizagem automática. 22 00:01:03,014 --> 00:01:04,479 Fui o presidente da Kaggle, 23 00:01:04,479 --> 00:01:08,427 uma comunidade de cerca de 200 000 profissionais da aprendizagem automática. 24 00:01:08,427 --> 00:01:10,163 A Kaggle estabelece competições, 25 00:01:10,163 --> 00:01:13,633 em que se tenta resolver problemas ainda não resolvidos, 26 00:01:13,633 --> 00:01:17,470 e teve sucesso centenas de vezes. 27 00:01:17,470 --> 00:01:19,940 Desta posição vantajosa pude descobrir muito 28 00:01:19,940 --> 00:01:23,890 sobre o que a aprendizagem automática pode fazer no passado, no presente 29 00:01:23,890 --> 00:01:26,252 e o que poderá fazer no futuro. 30 00:01:26,252 --> 00:01:30,675 O primeiro grande sucesso comercial da aprendizagem automática foi a Google. 31 00:01:30,675 --> 00:01:33,784 A Google mostrou que é possível encontrar informação 32 00:01:33,784 --> 00:01:35,536 usando o algoritmo de um computador, 33 00:01:35,536 --> 00:01:38,437 e este algoritmo é baseado em aprendizagem automática. 34 00:01:38,437 --> 00:01:42,323 Desde então, houve muitos sucessos comerciais da aprendizagem automática. 35 00:01:42,323 --> 00:01:44,160 Empresas como a Amazon e a Netflix 36 00:01:44,160 --> 00:01:47,876 usam a aprendizagem automática para sugerir produtos que talvez compremos, 37 00:01:47,876 --> 00:01:49,896 filmes que talvez gostemos de ver. 38 00:01:49,896 --> 00:01:51,703 Por vezes, é quase assustador. 39 00:01:51,703 --> 00:01:53,657 Empresas como o LinkedIn e o Facebook 40 00:01:53,657 --> 00:01:56,251 por vezes dizem-nos quem poderão ser os nossos amigos 41 00:01:56,251 --> 00:01:58,578 e não temos ideia de como elas fizeram isso, 42 00:01:58,578 --> 00:02:01,195 porque estão a usar o poder da aprendizagem automática. 43 00:02:01,195 --> 00:02:04,152 Estes algoritmos aprenderam a fazer isto a partir de dados 44 00:02:04,152 --> 00:02:07,399 em vez de serem programados à mão. 45 00:02:07,399 --> 00:02:09,877 Esta foi também a razão do sucesso da IBM 46 00:02:09,877 --> 00:02:13,713 ao conseguir que o Watson ganhasse a dois campeões mundiais no "Jeopardy", 47 00:02:13,739 --> 00:02:17,710 respondendo a questões incrivelmente subtis e complexas. 48 00:02:19,813 --> 00:02:23,034 Esta é também a razão de podermos ver os primeiros carros autónomos. 49 00:02:23,034 --> 00:02:25,856 É bastante importante podermos distinguir 50 00:02:25,856 --> 00:02:28,488 uma árvore de um peão. 51 00:02:28,488 --> 00:02:31,075 Não sabemos como escrever esses programas à mão, 52 00:02:31,075 --> 00:02:34,072 mas isso é agora possível com a aprendizagem automática. 53 00:02:34,072 --> 00:02:36,680 Este carro conduziu mais de um milhão de quilómetros 54 00:02:36,680 --> 00:02:40,186 em estradas normais, sem qualquer acidente. 55 00:02:40,196 --> 00:02:44,110 Sabemos agora que os computadores conseguem aprender. 56 00:02:44,110 --> 00:02:46,010 Conseguem aprender a fazer coisas 57 00:02:46,010 --> 00:02:48,848 que nós, por vezes, não sabemos fazer sozinhos, 58 00:02:48,848 --> 00:02:51,733 ou fazem-no melhor do que nós. 59 00:02:51,733 --> 00:02:55,928 Um dos exemplos mais fantásticos da aprendizagem automática que eu vi 60 00:02:55,928 --> 00:02:58,320 surgiu num projeto que desenvolvi na Kaggle 61 00:02:58,320 --> 00:03:01,911 em que uma equipa liderada por um tipo chamado Geoffrey Hinton 62 00:03:01,911 --> 00:03:04,549 da Universidade de Toronto, venceu uma competição 63 00:03:04,549 --> 00:03:06,650 sobre descoberta automática de medicamentos. 64 00:03:06,650 --> 00:03:09,927 O mais extraordinário não foi terem vencido todos os algoritmos 65 00:03:09,927 --> 00:03:13,350 desenvolvidos pela Merck ou pela comunidade académica internacional, 66 00:03:13,350 --> 00:03:18,061 mas ninguém na equipa ter formação em química, biologia ou ciências naturais 67 00:03:18,061 --> 00:03:20,230 e fizeram-no em duas semanas. 68 00:03:20,230 --> 00:03:21,751 Como fizeram isto? 69 00:03:22,421 --> 00:03:25,652 Usaram um algoritmo extraordinário chamado aprendizagem profunda. 70 00:03:25,652 --> 00:03:28,831 Isso foi tão importante que saiu num artigo na primeira página 71 00:03:28,831 --> 00:03:31,412 no New York Times, algumas semanas depois. 72 00:03:31,412 --> 00:03:34,147 Este do lado esquerdo é o Geoffrey Hinton. 73 00:03:34,147 --> 00:03:38,488 A aprendizagem profunda é um algoritmo inspirado no cérebro humano. 74 00:03:38,488 --> 00:03:40,300 e, como resultado, é um algoritmo 75 00:03:40,300 --> 00:03:44,141 que não tem limitações teóricas em relação ao que pode fazer. 76 00:03:44,141 --> 00:03:46,964 Quanto mais dados e tempo de computação fornecermos 77 00:03:46,964 --> 00:03:48,276 melhor ele fica. 78 00:03:48,276 --> 00:03:50,575 O New York Times também mostrou, nesse artigo, 79 00:03:50,575 --> 00:03:53,157 outro resultado extraordinário da aprendizagem profunda 80 00:03:53,157 --> 00:03:56,109 que vou agora mostrar-vos. 81 00:03:56,109 --> 00:04:00,510 Mostra que os computadores conseguem ouvir e compreender 82 00:04:00,510 --> 00:04:03,221 (Vídeo) Richard Rashid: O último passo 83 00:04:03,221 --> 00:04:06,246 que quero poder dar neste processo 84 00:04:06,246 --> 00:04:10,411 é falar-vos em chinês. 85 00:04:12,001 --> 00:04:13,596 O segredo para isso 86 00:04:13,596 --> 00:04:18,598 é que conseguimos reunir muita informação de oradores chineses 87 00:04:18,598 --> 00:04:21,128 e produzir um sistema texto-fala 88 00:04:21,128 --> 00:04:25,801 que converte texto em chinês para a língua chinesa. 89 00:04:27,181 --> 00:04:30,379 Depois usámos cerca de uma hora da minha própria voz 90 00:04:30,379 --> 00:04:33,930 para modular o sistema texto-fala padrão 91 00:04:33,930 --> 00:04:37,114 para que falasse como eu. 92 00:04:37,114 --> 00:04:39,734 O resultado não é perfeito. 93 00:04:39,734 --> 00:04:41,552 Há ainda alguns erros. 94 00:04:41,552 --> 00:04:44,036 (Em chinês) 95 00:04:44,036 --> 00:04:48,243 (Aplausos) 96 00:04:49,446 --> 00:04:53,022 Há muito trabalho a fazer nesta área. 97 00:04:53,852 --> 00:04:56,667 (Em chinês) 98 00:04:56,667 --> 00:05:00,630 (Aplausos) 99 00:05:01,345 --> 00:05:04,744 Isto foi numa conferência sobre aprendizagem automática na China. 100 00:05:04,744 --> 00:05:07,624 Não é frequente ouvir, em conferências académicas, 101 00:05:07,624 --> 00:05:09,011 aplausos espontâneos. 102 00:05:09,011 --> 00:05:12,687 embora aconteça, por vezes, em conferências TEDx. 103 00:05:12,687 --> 00:05:15,482 Todo o que vimos foi devido a aprendizagem profunda. 104 00:05:15,482 --> 00:05:16,766 (Aplausos) Obrigado. 105 00:05:16,766 --> 00:05:19,669 A transcrição para inglês foi feita com aprendizagem profunda, 106 00:05:19,669 --> 00:05:22,701 assim como a tradução para chinês, no texto em cima, à direita, 107 00:05:22,701 --> 00:05:26,008 e a construção da voz. 108 00:05:26,858 --> 00:05:29,242 A aprendizagem profunda é algo extraordinário. 109 00:05:29,242 --> 00:05:32,341 É um único algoritmo que parece poder fazer quase tudo. 110 00:05:32,341 --> 00:05:35,572 Descobri que, um ano antes, também tinha aprendido a ver. 111 00:05:35,572 --> 00:05:37,468 Nesta competição obscura, na Alemanha, 112 00:05:37,468 --> 00:05:40,375 — Referência Alemã para Reconhecimento de Sinais de Trânsito — 113 00:05:40,375 --> 00:05:43,868 a aprendizagem profunda conseguiu reconhecer sinais de trânsito. 114 00:05:43,868 --> 00:05:47,628 Conseguiu reconhecer sinais de trânsito, melhor do que qualquer outro algoritmo, 115 00:05:47,628 --> 00:05:51,799 e a avaliação mostrou que era cerca de duas vezes melhor do que as pessoas. 116 00:05:51,801 --> 00:05:54,037 Por volta de 2011, tivemos o primeiro exemplo 117 00:05:54,037 --> 00:05:57,442 de computadores que conseguem ver melhor do que as pessoas. 118 00:05:57,442 --> 00:05:59,491 Desde então, muito aconteceu. 119 00:05:59,491 --> 00:06:03,075 Em 2012, a Google anunciou que tinham um algoritmo de aprendizagem profunda 120 00:06:03,075 --> 00:06:04,420 a observar vídeos no Youtube 121 00:06:04,420 --> 00:06:07,857 e a processar dados de 16 000 computadores por mês, 122 00:06:07,857 --> 00:06:12,218 O computador conseguiu de forma autónoma aprender conceitos como pessoas e gatos 123 00:06:12,218 --> 00:06:14,027 apenas observando os vídeos. 124 00:06:14,027 --> 00:06:16,409 Isto é semelhante ao modo como os humanos aprendem. 125 00:06:16,409 --> 00:06:19,119 Não aprendem dizendo-lhes o que estão a ver, 126 00:06:19,119 --> 00:06:22,450 mas aprendendo por si o que estas coisas são. 127 00:06:22,450 --> 00:06:25,819 Também em 2012, o Geoffrey Hinton, que vimos antes, 128 00:06:25,819 --> 00:06:28,677 venceu a competição muito popular ImageNet, 129 00:06:28,677 --> 00:06:32,818 ao tentar identificar, num conjunto de 1,5 milhões de imagens, 130 00:06:32,818 --> 00:06:34,256 o que elas representavam. 131 00:06:34,256 --> 00:06:37,789 Em 2014, reduzimos para 6% a taxa de erro 132 00:06:37,789 --> 00:06:39,242 no reconhecimento de imagem. 133 00:06:39,242 --> 00:06:41,478 Isto é melhor do que as pessoas conseguem fazer. 134 00:06:41,478 --> 00:06:45,037 As máquinas estão realmente a fazer um trabalho extraordinário 135 00:06:45,037 --> 00:06:47,306 que está agora a ser usado na indústria. 136 00:06:47,306 --> 00:06:50,348 Por exemplo, a Google anunciou, no ano passado, 137 00:06:50,348 --> 00:06:54,933 que mapearam todos os locais de França, em duas horas. 138 00:06:54,933 --> 00:06:58,380 Processaram imagens de rua com um algoritmo de aprendizagem profunda, 139 00:06:58,380 --> 00:07:02,699 para que reconhecesse e lesse números de ruas. 140 00:07:02,699 --> 00:07:04,949 Imaginem quanto tempo isto teria demorado antes: 141 00:07:04,949 --> 00:07:08,744 dúzias de pessoas, durante muitos anos. 142 00:07:08,744 --> 00:07:10,555 Isto também está a acontecer na China. 143 00:07:10,555 --> 00:07:14,221 Baidu é uma espécie de Google chinesa, acho eu. 144 00:07:14,221 --> 00:07:18,124 O que veem aqui em cima, à esquerda, é um exemplo de uma imagem 145 00:07:18,124 --> 00:07:21,078 que transferi para o sistema de aprendizagem profunda da Baidu. 146 00:07:21,078 --> 00:07:24,247 Em baixo, podem ver que o sistema percebeu o que a imagem era 147 00:07:24,247 --> 00:07:26,483 e encontrou imagens semelhantes. 148 00:07:26,483 --> 00:07:29,219 As imagens semelhantes têm, na verdade, fundos idênticos, 149 00:07:29,219 --> 00:07:30,877 direções semelhantes das faces 150 00:07:30,877 --> 00:07:32,665 e algumas até com a língua de fora. 151 00:07:32,665 --> 00:07:35,695 Isto não é evidente no texto de uma página "web". 152 00:07:35,695 --> 00:07:37,107 Só transferi uma imagem. 153 00:07:37,107 --> 00:07:40,738 Temos, agora, computadores que compreendem realmente o que veem 154 00:07:40,738 --> 00:07:43,092 e que podem, por isso, procurar nas bases de dados 155 00:07:43,092 --> 00:07:46,306 de centenas de milhões de imagens, em tempo real. 156 00:07:46,306 --> 00:07:49,536 O que significa realmente os computadores conseguirem agora ver? 157 00:07:49,536 --> 00:07:51,403 Não se trata apenas de conseguirem ver. 158 00:07:51,403 --> 00:07:54,272 De facto, a aprendizagem profunda tem feito mais do que isso. 159 00:07:54,272 --> 00:07:56,570 Frases complexas, com nuances, como esta 160 00:07:56,570 --> 00:07:59,724 são agora percetíveis, com os algoritmos de aprendizagem profunda. 161 00:07:59,724 --> 00:08:00,697 Como podem ver aqui, 162 00:08:00,697 --> 00:08:03,465 este sistema de Stanford, com o ponto vermelho no topo, 163 00:08:03,465 --> 00:08:07,384 percebeu que esta frase expressa um sentimento negativo. 164 00:08:07,384 --> 00:08:10,790 A aprendizagem profunda está agora próxima do desempenho humano, 165 00:08:10,802 --> 00:08:15,623 na perceção do sentido das frases e no que diz sobre essas coisas. 166 00:08:16,223 --> 00:08:19,197 A aprendizagem profunda também tem sido usada para ler chinês, 167 00:08:19,197 --> 00:08:21,807 a um nível próximo de um chinês nativo. 168 00:08:21,807 --> 00:08:23,975 Este algoritmo foi desenvolvido na Suíça 169 00:08:23,975 --> 00:08:27,331 por pessoas que não falam nem percebem chinês. 170 00:08:27,331 --> 00:08:29,382 Como disse, a aprendizagem profunda 171 00:08:29,382 --> 00:08:31,601 é o melhor sistema do mundo para isto 172 00:08:31,601 --> 00:08:36,718 comparado até com a compreensão de um ser humano. 173 00:08:36,718 --> 00:08:39,682 Este é um sistema que desenvolvemos na minha empresa 174 00:08:39,682 --> 00:08:41,728 que mostra como juntar tudo isto. 175 00:08:41,728 --> 00:08:44,189 Estas imagens não têm texto associado. 176 00:08:44,189 --> 00:08:46,541 À medida que vou escrevendo estas frases 177 00:08:46,541 --> 00:08:49,510 estas imagens vão sendo compreendidas em tempo real, 178 00:08:49,510 --> 00:08:51,189 percebendo o que significam, 179 00:08:51,189 --> 00:08:54,352 e descobrindo imagens de acordo com o texto que vou escrevendo. 180 00:08:54,352 --> 00:08:57,108 Como podem ver, está de facto a perceber as minhas frases 181 00:08:57,108 --> 00:08:59,332 e a perceber estas imagens. 182 00:08:59,332 --> 00:09:01,891 Sei que viram algo parecido na Google, 183 00:09:01,891 --> 00:09:04,666 em que podem escrever coisas e são-vos mostradas imagens. 184 00:09:04,666 --> 00:09:08,090 Na realidade, o que está a fazer é pesquisar o vosso texto na "web". 185 00:09:08,090 --> 00:09:11,091 Isso é muito diferente de perceber realmente as imagens. 186 00:09:11,091 --> 00:09:13,843 Isto é algo que os computadores só começaram a fazer 187 00:09:13,843 --> 00:09:17,091 há alguns meses, pela primeira vez. 188 00:09:17,091 --> 00:09:21,182 Os computadores conseguem não apenas ver, mas também ler. 189 00:09:21,182 --> 00:09:24,947 Já mostrámos, claro, que conseguem perceber o que ouvem. 190 00:09:24,947 --> 00:09:28,389 Talvez não fiquem surpreendidos se vos disser que conseguem escrever. 191 00:09:28,389 --> 00:09:33,172 Aqui está um texto que gerei ontem com um algoritmo de aprendizagem profunda. 192 00:09:34,112 --> 00:09:37,096 E aqui está um texto gerado por um algoritmo de Stanford. 193 00:09:37,096 --> 00:09:38,860 Cada uma destas frases foi gerada 194 00:09:38,860 --> 00:09:43,109 por um algoritmo de aprendizagem profunda para descrever cada uma destas imagens. 195 00:09:43,109 --> 00:09:47,581 Este algoritmo nunca tinha visto antes um homem de T-shirt preta a tocar guitarra. 196 00:09:47,581 --> 00:09:49,801 Já tinha visto um homem e a cor preta. 197 00:09:49,801 --> 00:09:51,400 Já tinha visto uma guitarra. 198 00:09:51,400 --> 00:09:55,694 Mas gerou de forma independente esta nova descrição da imagem. 199 00:09:56,294 --> 00:09:59,246 Ainda não estamos bem ao nível do desempenho humano, mas perto. 200 00:09:59,246 --> 00:10:03,264 Em testes, os humanos preferem a descrição gerada pelo computador, 201 00:10:03,264 --> 00:10:04,791 uma em cada quatro vezes. 202 00:10:04,791 --> 00:10:08,581 Este sistema tem apenas duas semanas, por isso, provavelmente, no próximo ano, 203 00:10:08,581 --> 00:10:11,502 o algoritmo estará bem à frente do desempenho humano, 204 00:10:11,502 --> 00:10:13,994 tendo em conta a rapidez destas coisas. 205 00:10:13,994 --> 00:10:16,413 Os computadores também conseguem escrever. 206 00:10:16,413 --> 00:10:19,848 Juntamos tudo isto e obtemos oportunidades muito excitantes. 207 00:10:19,848 --> 00:10:21,380 Por exemplo, na medicina, 208 00:10:21,380 --> 00:10:23,905 uma equipa de Boston anunciou que descobriu 209 00:10:23,905 --> 00:10:27,604 dúzias de novas características de tumores, clinicamente relevantes, 210 00:10:27,604 --> 00:10:31,320 que ajudam os médicos a fazer prognósticos em relação a um cancro. 211 00:10:32,220 --> 00:10:34,516 De igual modo, em Stanford, 212 00:10:34,516 --> 00:10:37,979 um grupo anunciou que, observando tecidos ampliados, 213 00:10:37,979 --> 00:10:40,710 desenvolveu um sistema baseado na aprendizagem automática 214 00:10:40,710 --> 00:10:43,142 que supera os patologistas humanos 215 00:10:43,142 --> 00:10:47,519 na previsão de taxas de sobrevivência de pacientes de cancro. 216 00:10:47,519 --> 00:10:50,634 Em ambos os casos, as previsões foram mais precisas, 217 00:10:50,634 --> 00:10:53,266 e também geraram novas perspetivas científicas. 218 00:10:53,276 --> 00:10:54,781 No caso da radiologia, 219 00:10:54,781 --> 00:10:58,246 revelaram-se novos indicadores clínicos que os humanos podem perceber. 220 00:10:58,246 --> 00:10:59,668 Neste caso da patologia, 221 00:10:59,668 --> 00:11:04,168 o sistema computacional descobriu que as células em torno do cancro 222 00:11:04,168 --> 00:11:07,838 são tão importantes quanto as próprias células cancerígenas 223 00:11:07,838 --> 00:11:09,540 na realização de um diagnóstico. 224 00:11:09,540 --> 00:11:14,621 Isto é o contrário do que os patologistas têm aprendido ao longo de décadas. 225 00:11:15,541 --> 00:11:18,013 Em ambos os casos, estes sistemas foram desenvolvidos 226 00:11:18,013 --> 00:11:21,534 por especialistas médicos e de aprendizagem automática. 227 00:11:21,534 --> 00:11:24,275 No último ano, fomos também além disso. 228 00:11:24,275 --> 00:11:27,414 Isto é um exemplo de identificação de áreas cancerígenas, 229 00:11:27,414 --> 00:11:30,354 em tecido humano, ao microscópio. 230 00:11:30,354 --> 00:11:34,297 O sistema aqui apresentado consegue identificar essas áreas 231 00:11:34,297 --> 00:11:37,742 de forma mais precisa, ou tão precisa quanto os patologistas humanos, 232 00:11:37,742 --> 00:11:41,134 mas foi construído com aprendizagem profunda, sem conhecimentos médicos, 233 00:11:41,134 --> 00:11:44,170 por pessoas sem formação na área. 234 00:11:44,730 --> 00:11:47,285 De modo semelhante, nesta segmentação neuronal. 235 00:11:47,285 --> 00:11:50,803 Podemos agora segmentar neurónios de forma tão precisa quanto um humano, 236 00:11:50,803 --> 00:11:53,560 mas este sistema foi desenvolvido com aprendizagem profunda 237 00:11:53,560 --> 00:11:56,921 com pessoas sem formação prévia em medicina. 238 00:11:56,921 --> 00:12:00,148 Eu próprio, sendo alguém sem formação prévia em medicina 239 00:12:00,148 --> 00:12:03,875 sou perfeitamente qualificado para abrir uma nova empresa médica, 240 00:12:03,875 --> 00:12:06,021 Foi o que fiz. 241 00:12:06,021 --> 00:12:08,201 Estava aterrorizado em relação a isso 242 00:12:08,201 --> 00:12:10,650 mas a teoria sugeria ser possível 243 00:12:10,650 --> 00:12:16,142 fazer medicina muito útil usando apenas estas técnicas de análise de dados. 244 00:12:16,142 --> 00:12:18,622 Felizmente, a resposta tem sido fantástica. 245 00:12:18,622 --> 00:12:21,235 Não apenas dos "media", mas também da comunidade médica, 246 00:12:21,235 --> 00:12:23,322 que tem dado muito apoio. 247 00:12:23,322 --> 00:12:27,471 A teoria é que podemos considerar a fase intermédia do processo médico 248 00:12:27,471 --> 00:12:30,364 e transformá-la em análise de dados, tanto quanto possível, 249 00:12:30,364 --> 00:12:33,429 deixando os médicos fazer aquilo em que são bons. 250 00:12:33,429 --> 00:12:35,031 Quero dar-vos um exemplo. 251 00:12:35,031 --> 00:12:40,625 Bastam 15 minutos para gerar um novo teste diagnóstico médico. 252 00:12:40,625 --> 00:12:42,439 Vou mostrar-vos agora em tempo real, 253 00:12:42,439 --> 00:12:45,416 mas comprimi para três minutos, cortando algumas partes. 254 00:12:45,416 --> 00:12:48,647 Em vez de vos mostrar a criação de um novo teste diagnóstico médico, 255 00:12:48,647 --> 00:12:51,846 vou mostrar-vos um teste diagnóstico de imagens de carros, 256 00:12:51,846 --> 00:12:54,068 porque é algo fácil de perceber. 257 00:12:54,068 --> 00:12:57,269 Começamos com cerca de 1,5 milhões de imagens de carros. 258 00:12:57,269 --> 00:13:00,475 Quero criar algo que consiga dividi-las 259 00:13:00,475 --> 00:13:02,698 segundo o ângulo em que a foto foi tirada. 260 00:13:02,698 --> 00:13:07,106 Estas imagens não estão catalogadas, tenho de começar do zero. 261 00:13:07,106 --> 00:13:08,554 Com o nosso algoritmo, 262 00:13:08,554 --> 00:13:12,158 podem identificar-se automaticamente áreas de estruturas nestas imagens. 263 00:13:12,158 --> 00:13:15,778 O interessante é o homem e o computador poderem agora trabalhar em conjunto. 264 00:13:15,778 --> 00:13:17,956 O humano, como podem ver aqui, 265 00:13:17,956 --> 00:13:20,631 está a dizer ao computador quais as áreas de interesse 266 00:13:20,631 --> 00:13:25,281 que quer que o computador use para melhorar o seu algoritmo. 267 00:13:25,781 --> 00:13:29,577 Estes sistemas de aprendizagem profunda estão em espaços de dimensão 16 000. 268 00:13:29,577 --> 00:13:32,899 Podem ver aqui o computador a rodar isto através desse espaço, 269 00:13:32,899 --> 00:13:35,001 tentando encontrar novas áreas de estrutura. 270 00:13:35,001 --> 00:13:36,782 Quando consegue fazê-lo com sucesso, 271 00:13:36,782 --> 00:13:40,786 o humano que está a comandá-lo pode indicar áreas de interesse. 272 00:13:40,786 --> 00:13:43,208 Aqui o computador encontrou áreas, com sucesso. 273 00:13:43,208 --> 00:13:45,770 Ângulos, por exemplo. 274 00:13:45,770 --> 00:13:47,376 Ao longo deste processo, 275 00:13:47,376 --> 00:13:49,716 vamos dizendo mais coisas ao computador 276 00:13:49,716 --> 00:13:52,144 sobre o tipo de estruturas que procuramos. 277 00:13:52,144 --> 00:13:55,666 Podem imaginar que, num diagnóstico, isto seria o patologista a identificar 278 00:13:55,666 --> 00:13:57,266 áreas patológicas, por exemplo. 279 00:13:57,266 --> 00:14:02,292 Ou o radiologista a indicar nódulos potencialmente problemáticos. 280 00:14:02,292 --> 00:14:04,851 Por vezes pode ser difícil, para o algoritmo. 281 00:14:04,851 --> 00:14:06,815 Neste caso, ficou algo confuso. 282 00:14:06,815 --> 00:14:09,635 As frentes e as traseiras dos carros estão todas misturadas. 283 00:14:09,635 --> 00:14:11,707 Aqui temos que ser um pouco mais cuidadosos, 284 00:14:11,707 --> 00:14:14,789 selecionado manualmente estas frentes por oposição às traseiras, 285 00:14:14,789 --> 00:14:20,175 dizendo depois ao computador que isto é o tipo de grupo 286 00:14:20,175 --> 00:14:21,523 em que estamos interessados. 287 00:14:21,523 --> 00:14:24,032 Fazemos isto durante algum tempo, avançamos um pouco, 288 00:14:24,032 --> 00:14:26,746 e depois treinamos o algoritmo de aprendizagem automática, 289 00:14:26,746 --> 00:14:28,420 baseados nestas centenas de coisas, 290 00:14:28,420 --> 00:14:30,335 e esperamos que fique bastante melhor. 291 00:14:30,335 --> 00:14:33,098 Podem ver que algumas imagens estão a começar a desvanecer, 292 00:14:33,098 --> 00:14:38,226 mostrando-nos que já está a descobrir como perceber algumas destas sozinho. 293 00:14:38,226 --> 00:14:41,128 Podemos, então, usar o conceito de imagens semelhantes. 294 00:14:41,128 --> 00:14:43,932 Usando imagens semelhantes, podemos ver que o computador 295 00:14:43,932 --> 00:14:47,241 é capaz, neste ponto, de identificar apenas as frentes dos carros. 296 00:14:47,241 --> 00:14:50,189 Neste ponto, o humano pode dizer ao computador: 297 00:14:50,189 --> 00:14:53,172 "Fizeste aqui um bom trabalho!" 298 00:14:53,652 --> 00:14:55,837 Por vezes, claro, mesmo neste ponto, 299 00:14:55,837 --> 00:14:59,511 ainda é difícil distinguir os grupos. 300 00:14:59,511 --> 00:15:03,395 Neste caso, mesmo depois de deixarmos o computador rodar isto durante algum tempo, 301 00:15:03,399 --> 00:15:06,744 ainda vemos que as imagens dos lados esquerdo e direito 302 00:15:06,744 --> 00:15:08,222 estão todas misturadas. 303 00:15:08,222 --> 00:15:10,602 Podemos dar, de novo, algumas pistas ao computador. 304 00:15:10,602 --> 00:15:13,338 Dizemos: "Tenta descobrir uma projeção que separe, 305 00:15:13,338 --> 00:15:15,945 "o lado esquerdo do direito, o mais possível, 306 00:15:15,945 --> 00:15:18,237 "usando este algoritmo de aprendizagem profunda." 307 00:15:18,237 --> 00:15:21,009 Dando-lhe esta pista, ele tem sucesso. 308 00:15:21,009 --> 00:15:23,891 Conseguiu descobrir um modo de pensar neste objetos 309 00:15:23,891 --> 00:15:26,271 que permitiu separá-los. 310 00:15:26,271 --> 00:15:28,709 Percebem a ideia. 311 00:15:29,799 --> 00:15:36,906 Neste caso, o humano não está a ser substituído pelo computador. 312 00:15:36,906 --> 00:15:39,546 Estão a trabalhar em conjunto. 313 00:15:39,546 --> 00:15:42,946 O que estamos a fazer é substituir algo que exigia uma equipa 314 00:15:42,946 --> 00:15:45,098 de cinco ou seis pessoas, durante sete anos, 315 00:15:45,098 --> 00:15:47,703 por algo que demora 15 minutos, 316 00:15:47,703 --> 00:15:50,208 com uma pessoa a trabalhar sozinha. 317 00:15:51,638 --> 00:15:54,158 Este processo demora quatro ou cinco iterações. 318 00:15:54,158 --> 00:15:56,017 Podem ver que temos agora 62% 319 00:15:56,017 --> 00:15:58,976 dos nossos 1,5 milhões de imagens, classificadas corretamente. 320 00:15:58,976 --> 00:16:01,448 Neste ponto, podemos começar rapidamente 321 00:16:01,448 --> 00:16:03,125 a trabalhar grandes secções, 322 00:16:03,125 --> 00:16:05,664 e a verificar se não há erros. 323 00:16:05,664 --> 00:16:09,616 Se houver erros, podemos fazer com que o computador o saiba. 324 00:16:09,616 --> 00:16:12,661 Usando este processo, para cada um dos diferentes grupos, 325 00:16:12,661 --> 00:16:15,148 temos agora uma taxa de sucesso de 80%, 326 00:16:15,148 --> 00:16:18,483 na classificação de 1,5 milhões de imagens. 327 00:16:18,483 --> 00:16:20,601 Neste ponto, trata-se de descobrir 328 00:16:20,601 --> 00:16:23,220 as poucas que não estão classificadas corretamente, 329 00:16:23,220 --> 00:16:26,108 e tentar perceber porquê. 330 00:16:26,108 --> 00:16:27,851 Utilizando esta abordagem 331 00:16:27,851 --> 00:16:31,972 conseguimos uma taxa de classificação de 97% em 15 minutos. 332 00:16:31,972 --> 00:16:36,572 Esta técnica pode permitir-nos resolver um grande problema 333 00:16:36,578 --> 00:16:39,614 que é a falta de especialistas médicos no mundo. 334 00:16:39,614 --> 00:16:43,103 O Fórum Económico Mundial refere que há 10 a 20 vezes menos médicos 335 00:16:43,103 --> 00:16:45,727 do que o necessário, nos países em desenvolvimento. 336 00:16:45,727 --> 00:16:47,840 E que serão necessários 300 anos 337 00:16:47,840 --> 00:16:50,734 para formar as pessoas necessárias para resolver o problema. 338 00:16:50,734 --> 00:16:53,619 Imaginem que podemos ajudar a melhorar a sua eficiência 339 00:16:53,619 --> 00:16:56,875 usando esta abordagem de aprendizagem profunda. 340 00:16:56,875 --> 00:16:59,170 Estou muito entusiasmado com as oportunidades, 341 00:16:59,170 --> 00:17:01,649 mas também estou preocupado em relação aos problemas. 342 00:17:01,649 --> 00:17:04,403 O problema é que as áreas a azul, neste mapa, 343 00:17:04,403 --> 00:17:08,172 são locais onde os serviços representam mais de 80% dos empregos. 344 00:17:08,172 --> 00:17:09,959 O que são os serviços? 345 00:17:09,959 --> 00:17:11,473 Isto são serviços. 346 00:17:11,473 --> 00:17:15,627 São também as coisas que os computadores aprenderam a fazer. 347 00:17:15,627 --> 00:17:19,431 80% dos postos de trabalho, no mundo desenvolvido, 348 00:17:19,431 --> 00:17:21,963 são coisas que os computadores aprenderam a fazer. 349 00:17:21,963 --> 00:17:23,223 O que significa isto? 350 00:17:23,223 --> 00:17:25,846 Não há problema. Serão substituídos por outros empregos. 351 00:17:25,846 --> 00:17:28,763 Por exemplo, haverá mais empregos para especialistas em dados. 352 00:17:28,763 --> 00:17:29,720 Bem, não exatamente. 353 00:17:29,720 --> 00:17:32,838 Os especialistas não demoram muito tempo a construir estas coisas. 354 00:17:32,838 --> 00:17:35,880 Estes quatro algoritmos foram desenvolvidos pela mesma pessoa. 355 00:17:35,880 --> 00:17:38,318 Se pensarmos bem, isto já aconteceu antes. 356 00:17:38,318 --> 00:17:42,126 Já vimos, no passado, o resultado de surgirem coisas novas 357 00:17:42,126 --> 00:17:44,378 que são substituídas por novos empregos. 358 00:17:44,378 --> 00:17:46,494 O que serão estes novos empregos? 359 00:17:46,494 --> 00:17:48,365 É muito difícil fazermos previsões, 360 00:17:48,365 --> 00:17:51,104 porque o desempenho humano cresce a um ritmo gradual, 361 00:17:51,104 --> 00:17:53,666 mas temos agora um sistema de aprendizagem profunda, 362 00:17:53,666 --> 00:17:56,893 cuja capacidade cresce exponencialmente. 363 00:17:56,893 --> 00:17:58,408 Estamos neste ponto. 364 00:17:58,408 --> 00:18:00,949 Atualmente, vemos as coisas à nossa volta e pensamos: 365 00:18:00,949 --> 00:18:03,235 "Os computadores ainda são muito burros." 366 00:18:03,235 --> 00:18:06,664 Mas em cinco anos os computadores estarão fora deste gráfico. 367 00:18:06,664 --> 00:18:10,529 Temos que começar já a pensar nesta capacidade. 368 00:18:10,529 --> 00:18:12,579 É claro que já vimos isto. 369 00:18:12,579 --> 00:18:13,966 Na Revolução Industrial, 370 00:18:13,966 --> 00:18:16,817 vimos uma grande avanço na capacidade, graças às máquinas. 371 00:18:17,667 --> 00:18:20,805 A questão é que, passado algum tempo, as coisas estabilizaram. 372 00:18:20,805 --> 00:18:22,477 Houve ruturas sociais. 373 00:18:22,477 --> 00:18:25,996 Mas quando as máquinas foram usadas para gerar poder em todas as situações, 374 00:18:25,996 --> 00:18:28,160 as coisas acalmaram. 375 00:18:28,534 --> 00:18:31,290 A Revolução da Aprendizagem Automática será muito diferente 376 00:18:31,290 --> 00:18:32,577 da Revolução Industrial, 377 00:18:32,577 --> 00:18:35,632 porque a Revolução da Aprendizagem Automática nunca estabilizará. 378 00:18:35,632 --> 00:18:38,684 Quanto melhores forem os computadores em atividades intelectuais, 379 00:18:38,684 --> 00:18:42,862 melhores computadores se construirão, com mais capacidades intelectuais. 380 00:18:42,862 --> 00:18:44,770 Isto será um tipo de mudança 381 00:18:44,770 --> 00:18:47,248 que o mundo nunca presenciou antes. 382 00:18:47,248 --> 00:18:50,554 A nossa perceção do que é possível é diferente. 383 00:18:50,974 --> 00:18:52,754 Isto já está a afetar-nos. 384 00:18:52,754 --> 00:18:56,384 Nos últimos 25 anos, à medida que a produtividade do capital aumentou, 385 00:18:56,400 --> 00:19:00,588 a produtividade laboral manteve-se, na verdade até desceu um pouco. 386 00:19:01,408 --> 00:19:04,149 Quero que tenhamos esta discussão agora. 387 00:19:04,149 --> 00:19:07,176 Sei que, quando falo disto às pessoas, 388 00:19:07,176 --> 00:19:08,666 elas mostram algum desdém. 389 00:19:08,666 --> 00:19:10,519 "Os computadores não conseguem pensar." 390 00:19:10,519 --> 00:19:13,367 "Eles não se emocionam, nem percebem poesia." 391 00:19:13,367 --> 00:19:15,888 "Não percebemos, na verdade, como funcionam." 392 00:19:15,888 --> 00:19:17,354 E depois? 393 00:19:17,354 --> 00:19:19,258 Os computadores conseguem fazer as coisas 394 00:19:19,258 --> 00:19:22,327 que os humanos são pagos para fazer, na maior parte do seu tempo. 395 00:19:22,327 --> 00:19:24,038 Este é o tempo para começar a pensar 396 00:19:24,038 --> 00:19:28,505 como vamos ajustar as nossas estruturas sociais e económicas 397 00:19:28,505 --> 00:19:30,325 para fazer face a esta nova realidade. 398 00:19:30,325 --> 00:19:31,388 Obrigado. 399 00:19:31,388 --> 00:19:32,190 (Aplausos)