1 00:00:00,880 --> 00:00:04,893 Antigamente se você quisesse que um computador fizesse algo novo, 2 00:00:04,893 --> 00:00:06,447 você teria que programar. 3 00:00:06,447 --> 00:00:09,858 Pois então, para quem aqui que nunca fez isso, 4 00:00:09,858 --> 00:00:13,360 programação é algo que requer estabelecer com riqueza de detalhe 5 00:00:13,360 --> 00:00:16,727 cada passo do que você quer que o computador faça 6 00:00:16,727 --> 00:00:19,089 para atingir o seu objetivo. 7 00:00:19,089 --> 00:00:22,585 Se você quiser fazer algo que ainda não sabe fazer sozinho, 8 00:00:22,585 --> 00:00:24,648 isso se torna um grande desafio. 9 00:00:24,648 --> 00:00:28,131 E esse foi o desafio enfrentado por este homem, Arthur Samuel. 10 00:00:28,131 --> 00:00:32,208 Em 1956 ele queria que esse computador 11 00:00:32,208 --> 00:00:34,548 fosse capaz de vencê-lo no jogo de damas. 12 00:00:34,548 --> 00:00:36,588 Como você faz para escrever um programa, 13 00:00:36,588 --> 00:00:40,394 estabelecer com riqueza de detalhe, que ele jogue damas melhor que você? 14 00:00:40,394 --> 00:00:42,116 Então ele teve uma ideia: 15 00:00:42,116 --> 00:00:45,840 ele fez o computador jogar contra si próprio milhares de vezes 16 00:00:45,840 --> 00:00:48,364 para aprender a jogar damas. 17 00:00:48,364 --> 00:00:51,544 E realmente funcionou, de fato em 1962 18 00:00:51,544 --> 00:00:55,561 esse computador venceu o campeão estadual de Connecticut. 19 00:00:55,561 --> 00:00:58,534 Arthur Samuel foi o pai do aprendizado de máquina, 20 00:00:58,534 --> 00:01:00,251 e eu devo muito a ele, 21 00:01:00,251 --> 00:01:03,014 porque eu sou um profissional de aprendizado de máquina. 22 00:01:03,014 --> 00:01:04,479 Eu fui o presidente da Kaggle, 23 00:01:04,479 --> 00:01:07,867 uma comunidade de mais de 200 mil profissionais dessa área. 24 00:01:07,867 --> 00:01:09,925 A Kaggle organiza competições 25 00:01:09,925 --> 00:01:13,633 para tentar resolver problemas até então sem solução, 26 00:01:13,633 --> 00:01:17,470 e tem sido bem sucedida centenas de vezes. 27 00:01:17,470 --> 00:01:19,940 Então desse ponto de vista, eu pude descobrir muito 28 00:01:19,940 --> 00:01:23,890 sobre o que o aprendizado de máquina conseguiu no passado, hoje, 29 00:01:23,890 --> 00:01:26,252 e o que poderia fazer no futuro. 30 00:01:26,252 --> 00:01:30,675 Talvez o primeiro grande sucesso comercial de aprendizado de máquina foi o Google. 31 00:01:30,675 --> 00:01:33,784 O Google mostrou que é possível encontrar informação 32 00:01:33,784 --> 00:01:35,536 usando um algoritmo de computador, 33 00:01:35,536 --> 00:01:38,437 e esse algoritmo é baseado no aprendizado de máquina. 34 00:01:38,437 --> 00:01:42,323 Desde então houve muitos casos de sucesso comercial de aprendizado de máquina. 35 00:01:42,323 --> 00:01:44,160 Empresas como Amazon e Netflix 36 00:01:44,160 --> 00:01:47,876 usam aprendizado de máquina para sugerir produtos que você poderia querer, 37 00:01:47,876 --> 00:01:49,896 filmes que você poderia querer assistir. 38 00:01:49,896 --> 00:01:51,703 Às vezes é quase assustador. 39 00:01:51,703 --> 00:01:53,657 Empresas como LinkedIn e Facebook 40 00:01:53,657 --> 00:01:56,251 às vezes te dirão quem deveria ser seu amigo 41 00:01:56,251 --> 00:01:58,228 e você não tem ideia de como, 42 00:01:58,228 --> 00:02:01,195 e isso é porque está usando o poder do aprendizado de máquina. 43 00:02:01,195 --> 00:02:04,152 São algoritmos que aprenderam como fazer isso a partir de dados 44 00:02:04,152 --> 00:02:07,399 ao invés de serem programados à mão. 45 00:02:07,399 --> 00:02:09,877 Foi assim que a IBM foi bem sucedida 46 00:02:09,877 --> 00:02:13,739 em fazer que Watson vencesse dois campeões mundiais em Jeopardy, 47 00:02:13,739 --> 00:02:16,964 respondendo questões incrivelmente sutis e complexas como essa: 48 00:02:16,964 --> 00:02:19,549 ["O antigo 'Leão de Nimrud' desapareceu do museu nacional dessa cidade em 2003 (junto com um monte de outras coisas)"] 49 00:02:19,549 --> 00:02:23,034 Também por isso que agora vemos os primeiros carros auto-guiados. 50 00:02:23,034 --> 00:02:25,856 Se você quiser poder diferenciar entre, digamos, 51 00:02:25,856 --> 00:02:28,488 uma árvore e um pedestre, bem, isso é muito importante. 52 00:02:28,488 --> 00:02:31,075 Não sabemos como escrever esses programas à mão, 53 00:02:31,075 --> 00:02:34,072 mas com o aprendizado de máquina isso agora é possível. 54 00:02:34,072 --> 00:02:37,120 De fato esse carro já dirigiu mais de um milhão de quilômetros 55 00:02:37,120 --> 00:02:40,186 sem qualquer acidente em estradas normais. 56 00:02:40,196 --> 00:02:44,110 Pois bem, agora sabemos que computadores conseguem aprender, 57 00:02:44,110 --> 00:02:46,010 e podem aprender a fazer coisas 58 00:02:46,010 --> 00:02:48,848 que inclusive nós mesmos não sabemos fazer, 59 00:02:48,848 --> 00:02:51,733 ou então fazer melhor que nós. 60 00:02:51,733 --> 00:02:55,928 Um dos exemplos mais surpreendentes de aprendizado de máquina que eu já vi 61 00:02:55,928 --> 00:02:58,320 aconteceu num projeto que eu organizei na Kaggle 62 00:02:58,320 --> 00:03:01,911 onde um time coordenado por alguém chamado Geoffrey Hinton 63 00:03:01,911 --> 00:03:03,463 da Universidade de Toronto 64 00:03:03,463 --> 00:03:06,140 venceu a competição de descoberta automática de fármacos. 65 00:03:06,140 --> 00:03:08,987 O extraordinário aqui não é apenas que eles bateram 66 00:03:08,987 --> 00:03:13,000 todos os algoritmos desenvolvidos pela Merck ou a comunidade acadêmica, 67 00:03:13,000 --> 00:03:18,061 mas que ninguém no time tinha qualquer antecedente em biologia ou química, 68 00:03:18,061 --> 00:03:20,230 e fizeram isso em duas semanas. 69 00:03:20,230 --> 00:03:22,001 Como eles fizeram isso? 70 00:03:22,421 --> 00:03:25,342 Usaram um algoritmo singular chamado aprendizado profundo. 71 00:03:25,342 --> 00:03:28,291 Isso foi tão importante que de fato o sucesso foi noticiado 72 00:03:28,291 --> 00:03:31,412 no The New York Times num artigo de página frontal semanas depois. 73 00:03:31,412 --> 00:03:34,147 Esse é Geoffrey Hinton, aqui no lado esquerdo. 74 00:03:34,147 --> 00:03:38,488 Aprendizado profundo é um algoritmo inspirado no cérebro humano, 75 00:03:38,488 --> 00:03:40,300 ou seja, é um algoritmo 76 00:03:40,300 --> 00:03:44,141 que não tem limitações teóricas para o que pode fazer. 77 00:03:44,141 --> 00:03:46,964 Quanto mais dados e tempo você der a ele, 78 00:03:46,964 --> 00:03:48,276 melhor ele fica. 79 00:03:48,276 --> 00:03:50,615 O The New York Times mostrou nesse artigo também 80 00:03:50,615 --> 00:03:52,857 outro resultado singular do aprendizado profundo 81 00:03:52,857 --> 00:03:55,569 que eu vou mostrar para vocês agora. 82 00:03:55,569 --> 00:04:00,510 Mostra que os computadores conseguem escutar e entender. 83 00:04:00,510 --> 00:04:03,221 (Vídeo) Richard Rashid: Agora, o último passo 84 00:04:03,221 --> 00:04:06,246 que eu pretendo dar nesse processo 85 00:04:06,246 --> 00:04:10,961 é realmente falar com vocês em chinês. 86 00:04:10,961 --> 00:04:13,596 A chave aqui é que 87 00:04:13,596 --> 00:04:18,598 conseguimos levantar uma vasta quantidade de informação de muitos falantes do chinês 88 00:04:18,598 --> 00:04:21,128 e produzir um sistema texto-para-fala 89 00:04:21,128 --> 00:04:25,801 que pega o texto em chinês e converte para a linguagem chinesa, 90 00:04:25,801 --> 00:04:29,929 e então pegamos mais ou menos uma hora da minha própria voz 91 00:04:29,929 --> 00:04:31,820 e usamos para modular 92 00:04:31,820 --> 00:04:36,364 o sistema texto-para-fala padrão para que possa parecer a minha voz. 93 00:04:36,364 --> 00:04:38,904 O resultado não é perfeito. 94 00:04:38,904 --> 00:04:41,552 Na verdade há alguns erros. 95 00:04:41,552 --> 00:04:44,036 (Em chinês) 96 00:04:44,036 --> 00:04:47,403 (Aplausos) 97 00:04:49,446 --> 00:04:53,022 Há muito trabalho pela frente nessa área. 98 00:04:53,022 --> 00:04:56,667 (Em chinês) 99 00:04:56,667 --> 00:05:00,100 (Aplausos) 100 00:05:01,345 --> 00:05:04,744 J. Howard: Isso foi num congresso de aprendizado de máquina na China. 101 00:05:04,744 --> 00:05:07,114 Na verdade não é comum escutar aplausos 102 00:05:07,114 --> 00:05:09,011 espontâneos em congressos acadêmicos, 103 00:05:09,011 --> 00:05:12,687 embora obviamente às vezes acontecer em conferências TEDx, fiquem à vontade. 104 00:05:12,687 --> 00:05:15,482 Tudo que vocês viram lá aconteceu com aprendizado profundo. 105 00:05:15,482 --> 00:05:16,927 (Aplausos) Obrigado. 106 00:05:16,927 --> 00:05:19,289 A transcrição em inglês foi aprendizado profundo. 107 00:05:19,289 --> 00:05:22,701 A tradução para chinês e o texto na direita superior, também, 108 00:05:22,701 --> 00:05:26,008 e a construção da voz também foi aprendizado profundo. 109 00:05:26,008 --> 00:05:29,242 Então, aprendizado profundo é essa coisa extraordinária. 110 00:05:29,242 --> 00:05:32,341 É um único algoritmo que parece fazer quase tudo, 111 00:05:32,341 --> 00:05:35,452 e um ano antes eu descobri que ele também aprendeu a ver. 112 00:05:35,452 --> 00:05:37,628 Nessa competição desconhecida alemã, chamada 113 00:05:37,628 --> 00:05:40,225 Modelo de Reconhecimento de Sinais de Trânsito Alemães 114 00:05:40,225 --> 00:05:43,618 aprendizado profundo aprendeu a reconhecer sinais de trânsito como esse. 115 00:05:43,618 --> 00:05:45,712 Não apenas conseguiu reconhecer os sinais 116 00:05:45,712 --> 00:05:47,470 melhor que qualquer outro algoritmo, 117 00:05:47,470 --> 00:05:50,189 o ranking na verdade mostrou que era melhor do que gente, 118 00:05:50,189 --> 00:05:52,041 quase duas vezes melhor do que gente. 119 00:05:52,041 --> 00:05:54,037 Então em 2011 tivemos o primeiro exemplo 120 00:05:54,037 --> 00:05:57,442 de computadores que conseguem ver melhor do que pessoas. 121 00:05:57,442 --> 00:05:59,491 Desde então muito aconteceu. 122 00:05:59,491 --> 00:06:03,005 Em 2012 Google anunciou que havia um algoritmo de aprendizado profundo 123 00:06:03,005 --> 00:06:04,420 assistindo vídeos do YouTube 124 00:06:04,420 --> 00:06:07,857 e remoendo os dados em 16 mil computadores por mês, 125 00:06:07,857 --> 00:06:12,218 e o computador aprendeu sozinho conceitos como pessoas e gatos 126 00:06:12,218 --> 00:06:14,027 apenas assistindo aos vídeos. 127 00:06:14,027 --> 00:06:16,379 É desse jeito que os humanos aprendem. 128 00:06:16,379 --> 00:06:19,119 Os humanos não aprendem com alguém explicando o que viram, 129 00:06:19,119 --> 00:06:22,450 aprendem por si próprios. 130 00:06:22,450 --> 00:06:25,819 Também em 2012, Geoffrey Hinton, a quem vimos antes, 131 00:06:25,819 --> 00:06:28,677 venceu a conhecida competição ImageNet, 132 00:06:28,677 --> 00:06:32,818 tentando descobrir a partir de um milhão e meio de imagens 133 00:06:32,818 --> 00:06:34,256 o que elas retratam. 134 00:06:34,256 --> 00:06:37,789 A partir de 2014 estamos com uma taxa de erro de 6% 135 00:06:37,789 --> 00:06:39,242 em reconhecimento de imagem. 136 00:06:39,242 --> 00:06:41,268 De novo, isso é melhor que gente. 137 00:06:41,268 --> 00:06:45,037 Então, máquinas estão fazendo um ótimo trabalho 138 00:06:45,037 --> 00:06:47,306 e agora está sendo usado na indústria. 139 00:06:47,306 --> 00:06:50,348 Por exemplo, o Google anunciou ano passado 140 00:06:50,348 --> 00:06:54,933 que mapearam cada local da França em duas horas, 141 00:06:54,933 --> 00:06:58,380 e fizeram isso fornecendo imagens das ruas 142 00:06:58,380 --> 00:07:02,699 para o algoritmo de aprendizado profundo reconhecer e ler os números das ruas. 143 00:07:02,699 --> 00:07:04,919 Imaginem quanto levaria do jeito que era antes: 144 00:07:04,919 --> 00:07:08,274 dúzias de pessoas, muitos anos. 145 00:07:08,274 --> 00:07:10,185 Também está acontecendo na China. 146 00:07:10,185 --> 00:07:14,221 Baidu é tipo o Google chinês, eu acho, 147 00:07:14,221 --> 00:07:16,504 e o que vocês podem ver acima à esquerda 148 00:07:16,504 --> 00:07:20,478 é um exemplo de uma imagem que eu subi ao sistema de aprendizado profundo do Baidu, 149 00:07:20,478 --> 00:07:24,247 e abaixo você pode ver que o sistema entendeu que imagem é 150 00:07:24,247 --> 00:07:26,483 e encontrou imagens similares. 151 00:07:26,483 --> 00:07:29,219 As imagens similares de fato têm fundos similares, 152 00:07:29,219 --> 00:07:30,877 direções de rostos similares, 153 00:07:30,877 --> 00:07:32,665 algumas até com a língua para fora. 154 00:07:32,665 --> 00:07:35,505 Claramente não está olhando para o texto da página. 155 00:07:35,505 --> 00:07:37,497 Tudo que eu forneci foi uma imagem. 156 00:07:37,497 --> 00:07:41,128 Agora temos computadores que realmente entendem o que veem 157 00:07:41,128 --> 00:07:42,752 e então buscam em bancos de dados 158 00:07:42,752 --> 00:07:46,306 de centenas de milhões de imagens em tempo real. 159 00:07:46,306 --> 00:07:49,536 Então o que significa o fato dos computadores conseguirem ver? 160 00:07:49,536 --> 00:07:51,553 Bem, não é só que conseguem ver. 161 00:07:51,553 --> 00:07:53,622 De fato, o aprendizado profundo fez mais. 162 00:07:53,622 --> 00:07:56,570 Frases matizadas e complexas como esta agora são 163 00:07:56,570 --> 00:07:59,394 compreensíveis com algoritmos de aprendizado profundo. 164 00:07:59,394 --> 00:08:00,697 Como vocês podem ver aqui, 165 00:08:00,697 --> 00:08:03,465 esse sistema de Stanford com o ponto vermelho acima 166 00:08:03,465 --> 00:08:07,384 descobriu que esta frase expressa um sentimento negativo. 167 00:08:07,384 --> 00:08:10,790 Na verdade o aprendizado profundo está alcançando a performance humana 168 00:08:10,802 --> 00:08:15,923 ao entender sobre o que as frases são e o que dizem sobre as coisas. 169 00:08:15,923 --> 00:08:18,651 Além disso o aprendizado profundo é usado para ler chinês, 170 00:08:18,651 --> 00:08:21,807 de novo no nível do falante nativo. 171 00:08:21,807 --> 00:08:23,975 Esse algoritmo, desenvolvido na Suíça 172 00:08:23,975 --> 00:08:27,331 por pessoas que não falam chinês. 173 00:08:27,331 --> 00:08:29,382 Como eu digo, usar aprendizado profundo 174 00:08:29,382 --> 00:08:31,601 é o melhor sistema no mundo para isso, 175 00:08:31,601 --> 00:08:36,718 até mesmo comparando ao entendimento do humano nativo. 176 00:08:36,718 --> 00:08:39,682 Esse é um sistema que montamos na minha empresa 177 00:08:39,682 --> 00:08:41,728 que mostra tudo isso colocado junto. 178 00:08:41,728 --> 00:08:44,189 Essas são imagens sem texto, 179 00:08:44,189 --> 00:08:46,541 e enquanto digito frases aqui, 180 00:08:46,541 --> 00:08:49,510 ele entende essas imagens em tempo real 181 00:08:49,510 --> 00:08:51,189 e descobre sobre o que elas são 182 00:08:51,189 --> 00:08:54,352 e encontram imagens similares ao texto que estou escrevendo. 183 00:08:54,352 --> 00:08:57,108 Vocês podem ver, está realmente entendendo minhas frases 184 00:08:57,108 --> 00:08:59,332 e entendendo essas imagens. 185 00:08:59,332 --> 00:09:01,891 Sei que vocês viram algo assim no Google, 186 00:09:01,891 --> 00:09:04,666 onde você digita coisas e aparecem imagens, 187 00:09:04,666 --> 00:09:08,090 mas na verdade o que acontece é que está buscando o texto na página. 188 00:09:08,090 --> 00:09:11,091 Isso é muito diferente de realmente entender as imagens. 189 00:09:11,091 --> 00:09:13,843 Isso foi possível acontecer para computadores 190 00:09:13,843 --> 00:09:17,091 pela primeira vez somente há alguns poucos meses. 191 00:09:17,091 --> 00:09:21,182 Vemos que agora os computadores conseguem não apenas ver, mas ler também, 192 00:09:21,182 --> 00:09:24,947 e claro, mostramos aqui que podem entender o que escutam. 193 00:09:24,947 --> 00:09:28,389 Talvez não seja surpresa o que vou dizer agora: eles sabem escrever. 194 00:09:28,389 --> 00:09:33,172 Aqui um texto que eu gerei usando um algoritmo de aprendizado profundo ontem. 195 00:09:33,172 --> 00:09:37,096 E aqui um texto que um algoritmo de Stanford criou. 196 00:09:37,096 --> 00:09:38,860 Cada uma dessas frases foi criada 197 00:09:38,860 --> 00:09:43,109 por um algoritmo de aprendizado profundo para descrever cada uma dessas imagens. 198 00:09:43,109 --> 00:09:47,581 Esse algoritmo nunca tinha visto um homem de camiseta preta tocando violão. 199 00:09:47,581 --> 00:09:49,801 Ele já viu um homem antes, já viu a cor preta, 200 00:09:49,801 --> 00:09:51,400 já viu um violão antes, 201 00:09:51,400 --> 00:09:55,694 mas criou independentemente essa descrição inédita para essa imagem. 202 00:09:55,694 --> 00:09:59,196 Ainda não chegamos ao patamar do desempenho humano, mas estamos perto. 203 00:09:59,196 --> 00:10:03,264 Em testes, humanos preferem a legenda gerada por computador 204 00:10:03,264 --> 00:10:04,791 uma a cada quatro vezes. 205 00:10:04,791 --> 00:10:06,855 Agora esse sistema tem apenas duas semanas, 206 00:10:06,855 --> 00:10:08,701 então provavelmente dentro de um ano, 207 00:10:08,701 --> 00:10:11,502 o algoritmo de computador estará além do desempenho humano 208 00:10:11,502 --> 00:10:13,364 no ritmo que as coisas vão. 209 00:10:13,364 --> 00:10:16,413 E é isso, os computadores conseguem escrever. 210 00:10:16,413 --> 00:10:19,888 Quando juntamos isso tudo, oportunidades muito empolgantes aparecem. 211 00:10:19,888 --> 00:10:21,380 Por exemplo, na medicina, 212 00:10:21,380 --> 00:10:23,905 uma equipe em Boston anunciou a descoberta de 213 00:10:23,905 --> 00:10:26,854 dúzias de novas características clinicamente relevantes 214 00:10:26,854 --> 00:10:31,120 de tumores que ajudam os médicos em prognósticos de câncer. 215 00:10:32,220 --> 00:10:34,516 De modo semelhante, em Stanford, 216 00:10:34,516 --> 00:10:37,869 um grupo lá anunciou que, observando tecidos sob ampliação, 217 00:10:37,869 --> 00:10:40,680 desenvolveu um sistema com base em aprendizado de máquina 218 00:10:40,680 --> 00:10:43,142 que de fato é melhor que patologistas humanos 219 00:10:43,142 --> 00:10:47,519 ao prever índices de sobrevivência para pacientes de câncer. 220 00:10:47,519 --> 00:10:50,764 Em ambos os casos, não apenas as previsões eram mais precisas, 221 00:10:50,764 --> 00:10:53,266 mas criaram ciência perspicaz. 222 00:10:53,276 --> 00:10:54,781 No caso da radiologia, 223 00:10:54,781 --> 00:10:57,876 foram indicadores clínicos novos que humanos conseguem entender. 224 00:10:57,876 --> 00:10:59,668 Nesse caso de patologia, 225 00:10:59,668 --> 00:11:04,168 o sistema de computador descobriu que as células ao redor do câncer 226 00:11:04,168 --> 00:11:07,508 são tão importantes quanto as próprias células cancerígenas 227 00:11:07,508 --> 00:11:09,260 para se fazer um diagnóstico. 228 00:11:09,260 --> 00:11:14,621 Isso é o oposto do que os patologistas tinham aprendido por décadas. 229 00:11:14,621 --> 00:11:17,913 Em cada um desses dois casos, foram sistemas desenvolvidos por um 230 00:11:17,913 --> 00:11:21,534 grupo de especialistas médicos e especialistas em aprendizado de máquina, 231 00:11:21,534 --> 00:11:24,275 mas desde ano passado, estamos além disso também. 232 00:11:24,275 --> 00:11:27,824 Esse é um exemplo de identificação de áreas cancerígenas 233 00:11:27,824 --> 00:11:30,354 em tecido humano sob um microscópio. 234 00:11:30,354 --> 00:11:34,967 O sistema aqui consegue identificar essas áreas com mais precisão, 235 00:11:34,967 --> 00:11:37,742 ou com a mesma precisão, do que patologistas humanos, 236 00:11:37,742 --> 00:11:41,134 mas foi construido com aprendizado profundo sem conhecimento médico 237 00:11:41,134 --> 00:11:43,660 por pessoas sem antecedentes na área. 238 00:11:44,730 --> 00:11:47,285 De modo similar, aqui, essa segmentação de neurônios. 239 00:11:47,285 --> 00:11:50,953 Agora podemos segmentar neurônios tão precisamente quanto os humanos, 240 00:11:50,953 --> 00:11:53,670 mas esse sistema foi desenvolvido com aprendizado profundo 241 00:11:53,670 --> 00:11:56,921 por pessoas sem antecedentes em medicina. 242 00:11:56,921 --> 00:12:00,148 Então eu mesmo, que não tenho antecedentes em medicina, 243 00:12:00,148 --> 00:12:03,875 posso parecer inteiramente qualificado para iniciar uma empresa médica, 244 00:12:03,875 --> 00:12:06,021 que foi o que eu fiz. 245 00:12:06,021 --> 00:12:07,761 Eu estava meio aterrorizado, 246 00:12:07,761 --> 00:12:10,650 mas a teoria sugeria que era possível 247 00:12:10,650 --> 00:12:16,142 fazer medicina muito útil usando apenas essas técnicas analíticas de dados. 248 00:12:16,142 --> 00:12:18,622 E ainda bem, a reação tem sido fantástica, 249 00:12:18,622 --> 00:12:20,978 não apenas da mídia mas da comunidade médica, 250 00:12:20,978 --> 00:12:23,322 que tem sido muito favorável. 251 00:12:23,322 --> 00:12:27,471 A teoria é que podemos pegar a parte intermediária do precesso médico 252 00:12:27,471 --> 00:12:30,364 e torná-la em análise de dados tanto quanto possível, 253 00:12:30,364 --> 00:12:33,429 deixando aos médicos o que eles fazem de melhor. 254 00:12:33,429 --> 00:12:35,031 Quero dar uma exemplo a vocês. 255 00:12:35,031 --> 00:12:39,975 Hoje um novo teste de diagnóstico médico leva uns 15 minutos para ser feito 256 00:12:39,975 --> 00:12:41,929 e vou mostrar em tempo real para vocês, 257 00:12:41,929 --> 00:12:45,416 mas eu comprimi para três minutos, cortando alguns pedaços. 258 00:12:45,416 --> 00:12:48,477 Ao invés de um teste de diagnóstico médico, 259 00:12:48,477 --> 00:12:51,846 vou mostrar um teste de diagnóstico de imagens de carros, 260 00:12:51,846 --> 00:12:54,068 pois é algo que todos podem entender. 261 00:12:54,068 --> 00:12:57,269 Então aqui estamos iniciando com 1,5 milhão de imagens de carro, 262 00:12:57,269 --> 00:13:00,475 e eu quero criar algo que pode separar num ângulo 263 00:13:00,475 --> 00:13:02,698 da foto que está sendo tirada. 264 00:13:02,698 --> 00:13:06,586 Essas imagens são inteiramente não marcadas, então preciso começar do zero. 265 00:13:06,586 --> 00:13:08,451 Com o algoritmo de aprendizado profundo, 266 00:13:08,451 --> 00:13:12,158 pode-se automaticamente identificar áreas de estrutura nessas imagens. 267 00:13:12,158 --> 00:13:15,778 O legal é que o humano e o computador agora podem trabalhar juntos. 268 00:13:15,778 --> 00:13:17,956 Então o humano, como podem ver, 269 00:13:17,956 --> 00:13:20,631 diz ao computador as áreas de interesse 270 00:13:20,631 --> 00:13:25,281 que o computador então usa para melhorar o algoritmo. 271 00:13:25,281 --> 00:13:29,577 Esses sistemas de aprendizado profundo agem num espaço de 16 mil dimensões, 272 00:13:29,577 --> 00:13:32,559 dá para ver aqui o computador girando através do espaço, 273 00:13:32,559 --> 00:13:35,001 tentando encontrar novas áreas de estrutura. 274 00:13:35,001 --> 00:13:36,782 E quando consegue, 275 00:13:36,782 --> 00:13:40,786 o humano que está no controle então aponta as áreas de interesse. 276 00:13:40,786 --> 00:13:43,208 Aqui o computador encontrou as áreas com sucesso, 277 00:13:43,208 --> 00:13:45,770 por exemplo, ângulos. 278 00:13:45,770 --> 00:13:47,376 Enquanto seguimos o processo, 279 00:13:47,376 --> 00:13:49,716 gradualmente dizendo mais e mais ao computador 280 00:13:49,716 --> 00:13:52,144 sobre os tipos de estruturas que estamos buscando. 281 00:13:52,144 --> 00:13:53,916 Se fosse um teste diagnóstico, seria 282 00:13:53,916 --> 00:13:57,266 um patologista identificando áreas de condição patológica, por exemplo, 283 00:13:57,266 --> 00:14:02,292 ou um radiologista indicando nódulos potencialmente problemáticos. 284 00:14:02,292 --> 00:14:04,851 E às vezes pode ser difícil para o algoritmo. 285 00:14:04,851 --> 00:14:06,815 Nesse caso, ficou um pouco confuso. 286 00:14:06,815 --> 00:14:09,365 As frentes e as traseiras estão todas misturadas. 287 00:14:09,365 --> 00:14:11,437 Então temos que ser cuidadosos, 288 00:14:11,437 --> 00:14:14,669 manualmente separando as frentes e as traseiras, 289 00:14:14,669 --> 00:14:20,175 e dizer ao computador que isso é o tipo de grupo 290 00:14:20,175 --> 00:14:21,523 que nos interessa. 291 00:14:21,523 --> 00:14:24,200 Então fizemos isso por um tempo, adiantamos um pouco, e 292 00:14:24,200 --> 00:14:26,446 treinamos o algoritmo de aprendizado de máquina 293 00:14:26,446 --> 00:14:28,420 com base em algumas centenas de coisas, 294 00:14:28,420 --> 00:14:30,445 e esperamos que tenha ficado melhor. 295 00:14:30,445 --> 00:14:33,518 Podem ver que agora algumas dessas imagens desapareceram, 296 00:14:33,518 --> 00:14:38,226 mostrando que já consegue entender algumas por si próprio. 297 00:14:38,226 --> 00:14:41,128 Podemos então usar esse conceito para imagens similares, 298 00:14:41,128 --> 00:14:43,222 e usando imagens similares, vocês podem ver, 299 00:14:43,222 --> 00:14:47,241 o computador nesse ponto consegue encontrar somente as frentes dos carros. 300 00:14:47,241 --> 00:14:50,189 Nesse ponto o humano pode dizer ao computador, 301 00:14:50,189 --> 00:14:52,482 "ok, sim, você fez um bom trabalho". 302 00:14:53,652 --> 00:14:55,837 Claro que às vezes ainda é difícil 303 00:14:55,837 --> 00:14:59,511 separar grupos. 304 00:14:59,511 --> 00:15:03,395 Nesse caso mesmo depois do computador girar um pouco, 305 00:15:03,399 --> 00:15:06,744 ainda vemos que imagens do lado esquerdo e do lado direito 306 00:15:06,744 --> 00:15:08,222 estão todas misturadas. 307 00:15:08,222 --> 00:15:10,362 Podemos novamente dar dicas ao computador, 308 00:15:10,362 --> 00:15:13,338 e dizer, certo, encontre uma projeção que separe 309 00:15:13,338 --> 00:15:15,945 os lados esquerdo e direito o melhor possível 310 00:15:15,945 --> 00:15:18,067 usando o algoritmo de aprendizado profundo. 311 00:15:18,067 --> 00:15:21,009 E dando aquela dica, ah, certo, conseguiu. 312 00:15:21,009 --> 00:15:23,891 Encontrou um jeito de pensar nesses objetos 313 00:15:23,891 --> 00:15:26,271 que acabou agrupando. 314 00:15:26,271 --> 00:15:28,709 Vocês podem pegar a ideia aqui. 315 00:15:28,709 --> 00:15:36,906 Não é o caso de substituir o humano pelo computador, 316 00:15:36,906 --> 00:15:39,546 mas sim de trabalharem juntos. 317 00:15:39,546 --> 00:15:43,096 O que fazemos aqui é substituir algo que costumava demandar de uma equipe 318 00:15:43,096 --> 00:15:45,248 de cinco ou seis pessoas cerca de sete anos 319 00:15:45,248 --> 00:15:47,703 com algo que leva apenas 15 minutos 320 00:15:47,703 --> 00:15:50,208 para uma pessoa só. 321 00:15:50,208 --> 00:15:54,158 Esse processo demanda cerca de quatro ou cinco iterações. 322 00:15:54,158 --> 00:15:56,017 Podemos ver que agora temos 62% 323 00:15:56,017 --> 00:15:58,976 de nossas 1,5 milhão de imagens classificadas corretamente. 324 00:15:58,976 --> 00:16:01,448 Nesse ponto podemos rapidamente 325 00:16:01,448 --> 00:16:02,745 pegar seções inteiras 326 00:16:02,745 --> 00:16:05,664 e checar se não há erros. 327 00:16:05,664 --> 00:16:09,616 Onde encontramos erros, podemos avisar o computador. 328 00:16:09,616 --> 00:16:12,661 Usando esse tipo de processo para cada um dos diferentes grupos, 329 00:16:12,661 --> 00:16:15,148 temos agora 80% de índice de sucesso 330 00:16:15,148 --> 00:16:17,563 classificando 1,5 milhão de imagens. 331 00:16:17,563 --> 00:16:19,641 Nesse ponto é só o caso de 332 00:16:19,641 --> 00:16:23,220 encontrar o pequeno número que ainda não está classificado corretamente, 333 00:16:23,220 --> 00:16:26,108 e tentar entender o motivo. 334 00:16:26,108 --> 00:16:27,851 E com essa abordagem, 335 00:16:27,851 --> 00:16:31,972 em 15 minutos temos 97% de índice de classificação. 336 00:16:31,972 --> 00:16:36,572 Então esse tipo de técnica nos permite resolver um grande problema, 337 00:16:36,578 --> 00:16:39,614 que é a falta de especialização médica no mundo. 338 00:16:39,614 --> 00:16:43,103 O Fórum Econômico Mundial diz que há escassez de algo entre 10 e 20 vezes 339 00:16:43,103 --> 00:16:45,727 de médicos no mundo em desenvolvimento, 340 00:16:45,727 --> 00:16:47,840 e que levaria cerca de 300 anos 341 00:16:47,840 --> 00:16:50,734 para treinar gente suficiente para resolver o problema. 342 00:16:50,734 --> 00:16:53,619 Imaginem conseguirmos aumentar a eficiência 343 00:16:53,619 --> 00:16:56,458 usando essas abordagens de aprendizado profundo? 344 00:16:56,458 --> 00:16:58,690 Por isso estou empolgado com as oportunidades. 345 00:16:58,690 --> 00:17:01,279 E estou preocupado com os problemas. 346 00:17:01,279 --> 00:17:04,403 O problema aqui é que cada área em azul no mapa 347 00:17:04,403 --> 00:17:08,172 é um lugar onde os serviços estão com mais de 80% de emprego. 348 00:17:08,172 --> 00:17:09,959 O que são serviços? 349 00:17:09,959 --> 00:17:11,473 São esses. 350 00:17:11,473 --> 00:17:15,627 São também exatamente o que os computadores aprenderam a fazer. 351 00:17:15,627 --> 00:17:19,431 Então 80% do emprego no mundo no mundo desenvolvido 352 00:17:19,431 --> 00:17:21,963 é algo que computadores já aprenderam a fazer. 353 00:17:21,963 --> 00:17:23,403 O que isso significa? 354 00:17:23,403 --> 00:17:25,986 Ficaremos bem. Serão substituídos por outros empregos. 355 00:17:25,986 --> 00:17:28,693 Por exemplo serão mais empregos para cientistas de dados. 356 00:17:28,693 --> 00:17:29,510 Na verdade não. 357 00:17:29,510 --> 00:17:32,628 Não demora muito para cientistas de dados fazerem essas coisas. 358 00:17:32,628 --> 00:17:35,880 Por exemplo, os quatro algoritmos foram construídos pelo mesmo cara. 359 00:17:35,880 --> 00:17:38,318 Então você pensa, oh, isso já aconteceu antes, 360 00:17:38,318 --> 00:17:42,126 já vimos isso antes, quando coisas novas chegam 361 00:17:42,126 --> 00:17:44,378 e novos empregos aparecem, 362 00:17:44,378 --> 00:17:46,494 como serão esses novos empregos? 363 00:17:46,494 --> 00:17:48,365 É muito difícil estimar isso, 364 00:17:48,365 --> 00:17:51,104 porque o desempenho humano cresce nesse ritmo gradual, 365 00:17:51,104 --> 00:17:53,666 mas agora temos um sistema, o aprendizado profundo, 366 00:17:53,666 --> 00:17:56,893 que sabemos crescer em ritmo exponencial. 367 00:17:56,893 --> 00:17:58,498 E nós estamos aqui. 368 00:17:58,498 --> 00:18:00,559 Então hoje vemos as coisas ao redor 369 00:18:00,559 --> 00:18:03,235 e dizemos: "Oh, os computadores são tão burros". Certo? 370 00:18:03,235 --> 00:18:06,664 Mas dentro de cinco anos os computadores estarão fora desse gráfico. 371 00:18:06,664 --> 00:18:10,529 Então precisamos começar a pensar nessa capacidade agora mesmo. 372 00:18:10,529 --> 00:18:12,579 Já vimos isso antes, claro. 373 00:18:12,579 --> 00:18:13,966 Na Revolução Industrial, 374 00:18:13,966 --> 00:18:16,817 vimos uma mudança na capacidade graças aos motores. 375 00:18:17,667 --> 00:18:20,805 Acontece que, as coisas foram se achatando. 376 00:18:20,805 --> 00:18:22,507 Houve distúrbio social, 377 00:18:22,507 --> 00:18:25,946 mas quando os motores foram usados para gerar força em todas as situações 378 00:18:25,946 --> 00:18:28,300 as coisas se acalmaram. 379 00:18:28,300 --> 00:18:30,323 A Revolução do Aprendizado de Máquina 380 00:18:30,323 --> 00:18:32,682 será bem diferente, 381 00:18:32,682 --> 00:18:35,632 porque ela nunca se acalma. 382 00:18:35,632 --> 00:18:38,614 Quanto mais os computadores conseguem melhorar, 383 00:18:38,614 --> 00:18:42,862 mais eles podem construir outros computadores, melhores, 384 00:18:42,862 --> 00:18:44,770 então esse será um tipo de mudança 385 00:18:44,770 --> 00:18:47,248 que o mundo nunca viveu antes, 386 00:18:47,248 --> 00:18:50,554 então sua compreensão anterior do que é possível é diferente. 387 00:18:50,974 --> 00:18:52,754 Isso já está nos afetando. 388 00:18:52,754 --> 00:18:56,384 Nos últimos 25 anos, como a produtividade de capital aumentou, 389 00:18:56,400 --> 00:19:00,588 a produtividade de mão de obra estacionou, de fato até caiu um pouco. 390 00:19:01,408 --> 00:19:04,149 Então quero que comecemos essa discussão já. 391 00:19:04,149 --> 00:19:07,176 Sei que quando eu conto isso para as pessoas, 392 00:19:07,176 --> 00:19:08,666 elas podem acabar desdenhando. 393 00:19:08,666 --> 00:19:10,339 "Os computadores não sabem pensar, 394 00:19:10,339 --> 00:19:13,367 eles não se emocionam, não entendem poesia, 395 00:19:13,367 --> 00:19:15,888 nós não sabemos como eles funcionam". 396 00:19:15,888 --> 00:19:17,374 E daí? 397 00:19:17,374 --> 00:19:19,178 Hoje computadores fazem coisas 398 00:19:19,178 --> 00:19:21,897 que passamos a maior parte do tempo sendo pagos pra fazer, 399 00:19:21,897 --> 00:19:23,628 então chegou a hora de pensar 400 00:19:23,628 --> 00:19:28,015 em como vamos ajustar nossas estruturas sociais e econômicas 401 00:19:28,015 --> 00:19:29,855 para essa nova realidade. 402 00:19:29,855 --> 00:19:31,388 Obrigado. 403 00:19:31,388 --> 00:19:32,190 (Aplausos)