WEBVTT 00:00:17.816 --> 00:00:21.325 Nosso mundo está mudando de várias formas 00:00:21.325 --> 00:00:25.975 e uma das coisas que terá enorme impacto em nosso futuro 00:00:25.975 --> 00:00:29.363 é a inteligência artificial, IA, 00:00:29.363 --> 00:00:32.763 que trará outra revolução industrial. 00:00:33.627 --> 00:00:39.504 As revoluções industriais anteriores expandiram o poder mecânico dos humanos. 00:00:40.014 --> 00:00:45.002 Essa nova revolução, essa segunda era das máquinas, 00:00:45.572 --> 00:00:49.862 expandirá nossas habilidades cognitivas, 00:00:50.122 --> 00:00:52.102 nosso poder mental. 00:00:52.782 --> 00:00:57.177 Os computadores não irão substituir apenas o trabalho manual, 00:00:57.597 --> 00:00:59.897 mas também o trabalho mental. 00:01:00.500 --> 00:01:03.450 Então, em que ponto estamos atualmente? 00:01:04.034 --> 00:01:07.724 Vocês podem ter ouvido sobre o que aconteceu em março de 2016, 00:01:07.724 --> 00:01:12.186 quando um sistema de aprendizado de máquina chamado AlphaGo 00:01:12.186 --> 00:01:17.708 utilizou a aprendizagem profunda para derrotar o campeão mundial do jogo Go. 00:01:18.279 --> 00:01:20.679 O Go é um jogo chinês antigo 00:01:20.679 --> 00:01:24.159 que apresentava maior dificuldade para os computadores dominarem 00:01:24.159 --> 00:01:25.982 do que o jogo de xadrez. 00:01:26.893 --> 00:01:32.086 Como conseguimos isso agora, após décadas de pesquisas de IA? 00:01:33.068 --> 00:01:36.698 O AlphaGo foi treinado para jogar Go. 00:01:37.678 --> 00:01:41.300 Primeiramente, assistindo várias vezes 00:01:41.814 --> 00:01:46.894 a dezenas de milhões de jogadas feitas por jogadores humanos muito fortes. 00:01:47.746 --> 00:01:52.496 Depois, jogando milhões de partidas contra si mesmo. 00:01:54.222 --> 00:01:59.941 O aprendizado de máquina permite que computadores aprendam pelo exemplo, 00:02:00.465 --> 00:02:02.575 que aprendam pelos dados. 00:02:03.885 --> 00:02:07.235 O aprendizado de máquina acabou se tornando uma chave 00:02:07.235 --> 00:02:11.635 para preencher os computadores de conhecimento. 00:02:12.174 --> 00:02:14.066 E isso é importante 00:02:14.066 --> 00:02:18.836 porque o conhecimento é o que possibilita a inteligência. 00:02:20.438 --> 00:02:26.768 Pôr conhecimento em computadores era um desafio para abordagens anteriores de IA. 00:02:27.515 --> 00:02:28.745 Por quê? 00:02:29.059 --> 00:02:33.859 Há muitas coisas que sabemos intuitivamente, 00:02:34.601 --> 00:02:38.081 então não conseguimos comunicá-las verbalmente. 00:02:38.619 --> 00:02:42.780 Não temos acesso consciente àquele conhecimento intuitivo. 00:02:43.270 --> 00:02:46.690 Como podemos programar computadores sem conhecimento? 00:02:47.664 --> 00:02:49.114 Qual é a solução? 00:02:49.314 --> 00:02:55.083 A solução é que as máquinas aprendam esse conhecimento sozinhas, 00:02:55.093 --> 00:02:56.443 assim como nós fazemos. 00:02:56.443 --> 00:03:02.764 E isso é importante porque conhecimento é o que possibilita a inteligência. 00:03:03.194 --> 00:03:06.974 Minha missão tem sido contribuir para descobrir 00:03:06.974 --> 00:03:12.676 e entender os princípios da inteligência por meio do aprendizado, 00:03:13.166 --> 00:03:18.116 seja ele animal, humano ou de máquina. 00:03:19.450 --> 00:03:25.066 Eu e outros acreditamos que há alguns princípios-chave, 00:03:25.476 --> 00:03:27.606 como as leis da física, 00:03:27.885 --> 00:03:32.745 princípios simples que poderiam explicar a nossa própria inteligência 00:03:32.745 --> 00:03:36.461 e nos ajudar a construir máquinas inteligentes. 00:03:37.885 --> 00:03:41.595 Por exemplo, pensem nas leis da aerodinâmica, 00:03:41.595 --> 00:03:47.826 que são gerais o bastante para explicarem o voo dos pássaros e o dos aviões. 00:03:49.146 --> 00:03:55.221 Não seria maravilhoso descobrir princípios igualmente simples e poderosos 00:03:55.551 --> 00:03:59.186 que explicariam a própria inteligência? 00:04:00.626 --> 00:04:03.374 Bem, fizemos algum progresso. 00:04:04.384 --> 00:04:10.857 Meus colaboradores e eu trabalhamos nos últimos anos em uma revolução da IA 00:04:11.777 --> 00:04:16.397 com nossa pesquisa sobre as redes neurais e a aprendizagem profunda, 00:04:16.397 --> 00:04:20.946 uma abordagem do aprendizado de máquina inspirada pelo cérebro. 00:04:22.041 --> 00:04:24.843 Começou com o reconhecimento de fala 00:04:25.243 --> 00:04:29.963 em seus celulares, com redes neurais, desde 2012. 00:04:30.977 --> 00:04:35.647 Pouco tempo depois, veio um avanço na visão computacional. 00:04:36.680 --> 00:04:42.907 Os computadores agora fazem bom trabalho no reconhecimento do conteúdo de imagens. 00:04:43.674 --> 00:04:48.031 Eles se aproximaram do desempenho humano em alguns indicadores 00:04:48.031 --> 00:04:50.071 nos últimos cinco anos. 00:04:50.711 --> 00:04:54.481 Um computador agora pode ter um entendimento intuitivo 00:04:54.481 --> 00:04:58.191 da aparência visual de um tabuleiro de Go 00:04:58.191 --> 00:05:01.763 comparável ao dos melhores jogadores humanos. 00:05:02.053 --> 00:05:03.454 Mais recentemente, 00:05:03.454 --> 00:05:06.314 após algumas descobertas feitas em meu laboratório, 00:05:06.584 --> 00:05:11.408 a aprendizagem profunda foi usada para traduzir de uma língua para outra 00:05:11.414 --> 00:05:14.441 e vocês começarão a ver isso no Google Tradutor. 00:05:15.191 --> 00:05:18.192 Isso está expandindo a habilidade computacional 00:05:18.192 --> 00:05:22.242 para entender e gerar linguagem natural. 00:05:23.550 --> 00:05:25.517 Mas não se enganem: 00:05:25.517 --> 00:05:30.048 ainda estamos muito longe de uma máquina 00:05:30.048 --> 00:05:34.033 que seja tão capaz quanto os humanos 00:05:34.033 --> 00:05:37.593 de aprender a dominar vários aspectos de nosso mundo. 00:05:38.541 --> 00:05:41.237 Então, vejamos um exemplo. 00:05:41.637 --> 00:05:46.787 Até mesmo uma criança de dois anos é capaz de aprender coisas 00:05:46.787 --> 00:05:50.467 de uma forma que os computadores não conseguem atualmente. 00:05:51.767 --> 00:05:56.169 Uma criança de dois anos, na verdade, domina física intuitiva. NOTE Paragraph 00:05:56.968 --> 00:06:02.058 Ela sabe que uma bola cairá ao ser largada. 00:06:02.493 --> 00:06:06.093 Quando derrama algum líquido, ela sabe que haverá sujeira. 00:06:06.586 --> 00:06:09.516 Seus pais não precisam ensinar 00:06:09.516 --> 00:06:12.980 as leis de Newton ou equações diferenciais à criança. 00:06:13.840 --> 00:06:20.200 Ela descobre todas essas coisas sozinha, de forma não supervisionada. 00:06:21.352 --> 00:06:27.712 A aprendizagem não supervisionada ainda é um dos principais desafios para a IA 00:06:28.184 --> 00:06:33.014 e pode levar várias décadas de pesquisas básicas a mais 00:06:33.014 --> 00:06:34.874 para desfazer esse nó. 00:06:34.874 --> 00:06:38.809 Aprendizagem não supervisionada está tentando descobrir 00:06:38.809 --> 00:06:41.069 representações dos dados. 00:06:41.729 --> 00:06:43.779 Deixem-me mostrar-lhes um exemplo. 00:06:44.364 --> 00:06:49.346 Considerem uma página na tela que veem com seus olhos 00:06:49.346 --> 00:06:54.196 ou que o computador vê como uma imagem, um monte de pixels. 00:06:54.993 --> 00:06:59.753 Para responder uma pergunta sobre o conteúdo da imagem, 00:07:00.863 --> 00:07:05.211 é necessário entender seu significado de alto nível, 00:07:05.674 --> 00:07:11.801 que corresponde ao nível mais elevado de representação em seu cérebro. 00:07:12.911 --> 00:07:18.308 Abaixo dele, temos o significado individual das palavras 00:07:19.188 --> 00:07:23.798 e, ainda mais abaixo, temos caracteres que compõem as palavras. 00:07:24.810 --> 00:07:27.677 Esses caracteres podem ser renderizados de formas diferentes, 00:07:27.677 --> 00:07:30.639 feitos de traços diferentes. 00:07:31.559 --> 00:07:34.839 E esses traços são feitos de arestas, 00:07:34.839 --> 00:07:37.284 que são feitas de pixels. 00:07:37.284 --> 00:07:40.454 Então são níveis diferentes de representação. 00:07:41.079 --> 00:07:44.616 Mas os pixels não são suficientes por si sós 00:07:44.616 --> 00:07:46.584 para que a imagem faça sentido, 00:07:46.584 --> 00:07:51.584 para responder uma questão de alto nível sobre o conteúdo da página. 00:07:52.932 --> 00:07:57.594 Nosso cérebro tem esses níveis diferentes de representação, 00:07:57.594 --> 00:08:02.291 começando pelos neurônios na primeira área visual do córtex, V1, 00:08:02.291 --> 00:08:04.916 que reconhece os contornos. 00:08:04.916 --> 00:08:09.334 Depois, os neurônios na segunda área visual do córtex, V2, 00:08:09.334 --> 00:08:12.800 que reconhece traços e formas pequenas. 00:08:12.800 --> 00:08:17.060 Mais acima, temos os neurônios que detectam partes de objetos 00:08:17.060 --> 00:08:19.792 e depois objetos e cenas completas. 00:08:21.182 --> 00:08:24.757 As redes neurais, quando treinadas com imagens, 00:08:24.757 --> 00:08:29.440 podem de fato descobrir esses tipos de níveis de representação 00:08:29.440 --> 00:08:32.778 que correspondem muito bem ao que observamos no cérebro. 00:08:33.638 --> 00:08:39.088 Tanto as redes neurais biológicas, que são as que existem no cérebro, 00:08:39.088 --> 00:08:42.828 como as redes neurais profundas que treinamos em nossas máquinas 00:08:42.845 --> 00:08:48.545 podem aprender a transformar de um nível de representação ao seguinte, 00:08:48.545 --> 00:08:53.299 com os altos níveis correspondendo a noções mais abstratas. 00:08:53.299 --> 00:08:57.562 Por exemplo, a noção abstrata do caractere A 00:08:57.562 --> 00:09:00.891 pode ser renderizada de muitas formas diferentes nos níveis mais baixos 00:09:00.891 --> 00:09:03.887 como muitas configurações diferentes de pixels 00:09:03.887 --> 00:09:08.637 dependendo da posição, rotação, fonte, e assim por diante. 00:09:10.445 --> 00:09:15.255 Então, como aprendemos esses altos níveis de representações? 00:09:17.492 --> 00:09:20.681 Até agora uma coisa que foi muito bem-sucedida 00:09:20.681 --> 00:09:23.223 nas aplicações da aprendizagem profunda 00:09:23.223 --> 00:09:25.985 é o que chamamos de aprendizagem supervisionada. 00:09:26.297 --> 00:09:31.588 Na aprendizagem supervisionada, o computador deve ser "levado pela mão" 00:09:31.594 --> 00:09:35.467 e humanos precisam dizer ao computador a resposta para várias perguntas. 00:09:35.467 --> 00:09:41.020 Por exemplo, em milhões de imagens, humanos têm que dizer à máquina: 00:09:41.770 --> 00:09:44.271 "Bem... nessa imagem, isso é um gato. 00:09:44.273 --> 00:09:47.095 Nessa imagem, isso é um cachorro". 00:09:47.095 --> 00:09:49.585 "Nessa imagem, isso é um laptop. 00:09:49.605 --> 00:09:54.955 Nessa imagem, isso é um teclado", e assim por diante, milhões de vezes. 00:09:56.066 --> 00:10:01.346 O que é muito penoso e usamos o crowdsourcing para conseguir fazer isso. 00:10:01.461 --> 00:10:03.396 Embora seja muito poderoso 00:10:03.416 --> 00:10:06.269 e possamos resolver vários problemas interessantes, 00:10:06.269 --> 00:10:08.313 humanos são muito mais fortes 00:10:08.313 --> 00:10:12.076 e podem aprender sobre muitos aspectos diferentes a mais do mundo 00:10:12.076 --> 00:10:13.809 de uma forma muito mais autônoma, 00:10:13.809 --> 00:10:17.609 como vimos com a criança aprendendo sobre física intuitiva. 00:10:17.945 --> 00:10:23.979 A aprendizagem não supervisionada poderia nos ajudar com os carros sem condutor. 00:10:24.567 --> 00:10:26.097 Deixem-me explicar: 00:10:26.097 --> 00:10:31.835 a aprendizagem não supervisionada permite que computadores se projetem ao futuro 00:10:31.835 --> 00:10:37.205 para gerarem futuros plausíveis condicionados à situação atual. 00:10:38.369 --> 00:10:42.899 E isso permite que os computadores raciocinem e planejem adiante, 00:10:43.450 --> 00:10:47.985 até para circunstâncias para as quais não tenham sido treinados. 00:10:49.181 --> 00:10:50.441 Isso é importante 00:10:50.441 --> 00:10:53.951 porque se usássemos a aprendizagem supervisionada, teríamos que dizer 00:10:53.951 --> 00:10:57.775 aos computadores todas as circunstâncias onde o carro poderia estar 00:10:57.855 --> 00:11:01.835 e como os humanos reagiriam àquela situação. 00:11:02.451 --> 00:11:06.191 Como eu aprendi a evitar comportamentos perigosos dirigindo? 00:11:07.276 --> 00:11:10.791 Eu precisei morrer mil vezes em acidentes? 00:11:10.793 --> 00:11:12.106 (Risos) 00:11:12.106 --> 00:11:14.606 Bem, é assim que treinamos as máquinas agora. 00:11:15.175 --> 00:11:18.340 Então não vai decolar, ou pelo menos não vai dirigir. 00:11:18.340 --> 00:11:19.928 (Risos) 00:11:22.508 --> 00:11:25.657 Precisamos treinar nossos modelos 00:11:25.657 --> 00:11:31.724 para serem capazes de gerar imagens ou futuros plausíveis, de serem criativos, 00:11:31.724 --> 00:11:33.934 e estamos progredindo com isso. 00:11:33.934 --> 00:11:37.457 Então, estamos treinando essas redes neurais profundas 00:11:37.463 --> 00:11:40.818 para irem do significado de alto nível aos pixels 00:11:40.818 --> 00:11:43.298 e não dos pixels aos significados de alto nível, 00:11:43.307 --> 00:11:46.787 indo na outra direção por meio dos níveis de representação. 00:11:46.787 --> 00:11:50.461 E, desse jeito, o computador pode gerar imagens 00:11:51.191 --> 00:11:55.072 que sejam novas e diferentes daquelas que o computador viu 00:11:55.072 --> 00:11:56.828 enquanto era treinado, 00:11:57.018 --> 00:12:00.369 mas que sejam plausíveis e pareçam imagens naturais. 00:12:01.888 --> 00:12:06.332 Também podemos usar esses modelos para conceber imagens estranhas, 00:12:06.342 --> 00:12:09.492 por vezes assustadoras, 00:12:09.492 --> 00:12:11.795 como os nossos sonhos e pesadelos. 00:12:12.682 --> 00:12:16.847 Aqui estão algumas imagens que foram sintetizadas pelo computador 00:12:16.847 --> 00:12:19.826 utilizando esses modelos de mapeamento profundo. 00:12:19.826 --> 00:12:21.651 Elas parecem imagens naturais, 00:12:21.651 --> 00:12:24.551 mas, se observarem com atenção, perceberão que são diferentes 00:12:25.458 --> 00:12:28.697 e que lhes faltam alguns dos detalhes importantes 00:12:28.697 --> 00:12:31.293 que nós reconheceríamos como naturais. 00:12:31.995 --> 00:12:33.951 Dez anos atrás, 00:12:33.951 --> 00:12:38.921 a aprendizagem não supervisionada era a chave para a inovação 00:12:38.921 --> 00:12:42.443 que conquistamos ao descobrirmos a aprendizagem profunda. 00:12:44.710 --> 00:12:48.055 Isso acontecia só em alguns laboratórios, incluindo o meu na época, 00:12:48.055 --> 00:12:51.745 em um momento em que as redes neurais não eram populares. 00:12:52.205 --> 00:12:55.247 Elas quase foram abandonadas pela comunidade científica. 00:12:56.394 --> 00:12:58.935 Agora, as coisas mudaram bastante. 00:12:58.935 --> 00:13:01.375 Esse campo se tornou muito difícil. 00:13:01.784 --> 00:13:05.834 Agora há, todos os anos, centenas de estudantes se candidatando 00:13:05.894 --> 00:13:09.314 para a graduação no meu laboratório, com meus colaboradores. 00:13:11.010 --> 00:13:16.630 Montreal se tornou a maior concentração acadêmica 00:13:16.637 --> 00:13:19.387 de pesquisadores da aprendizagem profunda no mundo. 00:13:20.182 --> 00:13:26.455 Acabamos de receber uma enorme bolsa de pesquisa de 94 milhões de dólares 00:13:26.505 --> 00:13:29.797 para ultrapassar os limites da IA e da ciência dos dados 00:13:29.797 --> 00:13:35.887 e também para transferir a tecnologia da aprendizagem profunda à indústria. 00:13:37.249 --> 00:13:42.731 Pessoas de negócios estimuladas por tudo isso estão criando start-ups 00:13:42.731 --> 00:13:46.614 e laboratórios industriais, muitos deles perto das universidades. 00:13:48.543 --> 00:13:49.625 Por exemplo, 00:13:49.625 --> 00:13:54.733 algumas semanas atrás, anunciamos o lançamento de uma fábrica de start-ups 00:13:54.733 --> 00:13:56.507 chamada "Element AI" 00:13:56.507 --> 00:13:59.605 que focará as aplicações da aprendizagem profunda. 00:14:02.195 --> 00:14:06.355 Simplesmente não há especialistas suficientes em aprendizagem profunda, 00:14:06.355 --> 00:14:10.677 então eles ganham salários absurdos 00:14:11.027 --> 00:14:17.212 e muitos dos meus antigos colegas acadêmicos aceitaram ofertas generosas 00:14:17.228 --> 00:14:20.518 de empresas para trabalharem em laboratórios industriais. 00:14:21.351 --> 00:14:27.036 Eu escolhi permanecer na universidade, para trabalhar pelo bem comum, 00:14:27.736 --> 00:14:30.646 para trabalhar com os estudantes e permanecer independente. 00:14:30.646 --> 00:14:35.086 Para guiar a próxima geração de especialistas em aprendizagem profunda. 00:14:35.294 --> 00:14:41.024 Uma coisa que estamos fazendo que ultrapassa o valor comercial 00:14:41.024 --> 00:14:44.444 é pensar sobre as implicações sociais da IA. 00:14:46.611 --> 00:14:50.026 Muitos de nós começamos agora a voltar nossa atenção 00:14:50.026 --> 00:14:55.986 a programas que possuem valor social, como a saúde. 00:14:56.457 --> 00:14:58.956 Achamos que podemos usar a aprendizagem profunda 00:14:58.956 --> 00:15:02.696 para melhorar tratamentos com uma medicina personalizada. 00:15:03.956 --> 00:15:05.671 Acredito que, no futuro, 00:15:05.671 --> 00:15:10.361 conforme coletamos mais dados de bilhões de pessoas ao redor da Terra, 00:15:10.361 --> 00:15:13.856 conseguiremos fornecer aconselhamento médico 00:15:13.856 --> 00:15:17.246 a bilhões de pessoas que não têm acesso a isso atualmente. 00:15:17.601 --> 00:15:22.724 E podemos imaginar muitos outros usos para o valor social da IA. 00:15:23.140 --> 00:15:26.238 Por exemplo, algo que resultará de nossa pesquisa 00:15:26.238 --> 00:15:28.902 sobre o entendimento da linguagem natural 00:15:29.328 --> 00:15:31.199 é o fornecimento de vários serviços, 00:15:31.199 --> 00:15:34.059 como os serviços legais para quem não puder pagar por eles. 00:15:34.512 --> 00:15:37.342 Agora também estamos virando nossa atenção 00:15:37.342 --> 00:15:41.132 para as implicações sociais da IA na minha comunidade. 00:15:41.690 --> 00:15:45.361 Mas não são só os especialistas que devem pensar sobre isso. 00:15:46.026 --> 00:15:50.236 Acredito que, para além da matemática e do jargão, 00:15:50.596 --> 00:15:56.432 as pessoas comuns podem ter uma noção do que ocorre sob a superfície 00:15:56.871 --> 00:16:01.191 o bastante para participarem nas decisões importantes 00:16:01.191 --> 00:16:06.547 que ocorrerão nos próximos anos e décadas sobre a IA. 00:16:07.580 --> 00:16:09.280 Então, por favor, NOTE Paragraph 00:16:09.930 --> 00:16:16.230 deixem seu medo de lado e deem-se o espaço para aprender sobre isso. 00:16:17.842 --> 00:16:22.532 Meus colaboradores e eu escrevemos vários artigos introdutórios 00:16:22.542 --> 00:16:25.376 e um livro chamado "Aprendizagem Profunda" 00:16:25.376 --> 00:16:29.779 para ajudar estudantes e engenheiros a entrarem nesse estimulante campo. 00:16:30.659 --> 00:16:35.974 Também há muitos recursos on-line: softwares, tutoriais, vídeos, etc. 00:16:36.310 --> 00:16:41.210 e muitos estudantes universitários estão aprendendo sozinhos vários desses tópicos 00:16:41.210 --> 00:16:44.548 sobre pesquisas na aprendizagem profunda, 00:16:44.548 --> 00:16:48.225 para depois se juntarem a laboratórios como o meu. 00:16:49.370 --> 00:16:54.780 A IA terá um impacto significativo na nossa sociedade. 00:16:56.652 --> 00:17:01.672 Então, é importante perguntar: como iremos usá-la? 00:17:03.878 --> 00:17:07.716 Benefícios imensos poderão ser acompanhados por um lado negativo, 00:17:08.236 --> 00:17:10.506 como o uso militar, 00:17:10.797 --> 00:17:15.357 ou mudanças rápidas e turbulentas no mercado de trabalho. 00:17:15.948 --> 00:17:21.629 Para garantir que as escolhas coletivas que serão feitas sobre a IA 00:17:21.629 --> 00:17:23.074 nos próximos anos 00:17:23.074 --> 00:17:25.144 sejam para o benefício de todos, 00:17:25.144 --> 00:17:29.097 todo cidadão deveria assumir um papel ativo 00:17:29.097 --> 00:17:32.911 na definição de como a IA moldará nosso futuro. 00:17:33.741 --> 00:17:34.891 Obrigado. 00:17:35.065 --> 00:17:37.055 (Aplausos)