Era habitual, quando queríamos
que um computador fizesse algo novo,
termos que o programar.
Para aqueles que nunca programaram,
a programação requer especificar
com enorme detalhe,
todos os passos que queremos
que o computador execute
para alcançarmos o nosso objetivo.
Se queremos fazer algo que não
sabemos fazer nós próprios,
será um grande desafio.
Este foi o desafio enfrentado
por este homem, Arthur Samuel.
Em 1965, ele queria que um computador
o vencesse nas damas.
Como podemos escrever um programa,
com grande detalhe, que seja melhor
do que nós nas damas?
Ele teve uma ideia:
pôs o computador a jogar contra
si próprio, milhares de vezes,
para aprender a jogar damas.
Funcionou e, em 1962,
o computador venceu o campeão
do estado do Connecticut.
Arthur Samuel foi, assim, o pai
da aprendizagem automática
e tenho uma grande dívida para com ele,
porque sou um profissional
da aprendizagem automática.
Fui o presidente da Kaggle,
uma comunidade de cerca de 200 000
profissionais da aprendizagem automática.
A Kaggle estabelece competições,
em que se tenta resolver problemas
ainda não resolvidos,
e teve sucesso centenas de vezes.
Desta posição vantajosa
pude descobrir muito
sobre o que a aprendizagem automática
pode fazer no passado, no presente
e o que poderá fazer no futuro.
O primeiro grande sucesso comercial da
aprendizagem automática foi a Google.
A Google mostrou que é possível
encontrar informação
usando o algoritmo de um computador,
e este algoritmo é baseado
em aprendizagem automática.
Desde então, houve muitos sucessos
comerciais da aprendizagem automática.
Empresas como a Amazon e a Netflix
usam a aprendizagem automática para
sugerir produtos que talvez compremos,
filmes que talvez gostemos de ver.
Por vezes, é quase assustador.
Empresas como o LinkedIn e o Facebook
por vezes dizem-nos quem poderão
ser os nossos amigos
e não temos ideia de como
elas fizeram isso,
porque estão a usar o poder
da aprendizagem automática.
Estes algoritmos aprenderam a fazer
isto a partir de dados
em vez de serem programados à mão.
Esta foi também a razão do sucesso da IBM
ao conseguir que o Watson ganhasse
a dois campeões mundiais no "Jeopardy",
respondendo a questões incrivelmente
subtis e complexas.
Esta é também a razão de podermos ver
os primeiros carros autónomos.
É bastante importante podermos distinguir
uma árvore de um peão.
Não sabemos como escrever
esses programas à mão,
mas isso é agora possível
com a aprendizagem automática.
Este carro conduziu mais
de um milhão de quilómetros
em estradas normais,
sem qualquer acidente.
Sabemos agora que os computadores
conseguem aprender.
Conseguem aprender a fazer coisas
que nós, por vezes, não sabemos
fazer sozinhos,
ou fazem-no melhor do que nós.
Um dos exemplos mais fantásticos
da aprendizagem automática que eu vi
surgiu num projeto
que desenvolvi na Kaggle
em que uma equipa liderada
por um tipo chamado Geoffrey Hinton
da Universidade de Toronto,
venceu uma competição
sobre descoberta automática
de medicamentos.
O mais extraordinário não foi terem
vencido todos os algoritmos
desenvolvidos pela Merck ou pela
comunidade académica internacional,
mas ninguém na equipa ter formação
em química, biologia ou ciências naturais
e fizeram-no em duas semanas.
Como fizeram isto?
Usaram um algoritmo extraordinário
chamado aprendizagem profunda.
Isso foi tão importante que saiu
num artigo na primeira página
no New York Times, algumas semanas depois.
Este do lado esquerdo
é o Geoffrey Hinton.
A aprendizagem profunda é um algoritmo
inspirado no cérebro humano.
e, como resultado, é um algoritmo
que não tem limitações teóricas
em relação ao que pode fazer.
Quanto mais dados e tempo
de computação fornecermos
melhor ele fica.
O New York Times também
mostrou, nesse artigo,
outro resultado extraordinário
da aprendizagem profunda
que vou agora mostrar-vos.
Mostra que os computadores
conseguem ouvir e compreender
(Vídeo) Richard Rashid: O último passo
que quero poder dar neste processo
é falar-vos em chinês.
O segredo para isso
é que conseguimos reunir muita
informação de oradores chineses
e produzir um sistema texto-fala
que converte texto em chinês
para a língua chinesa.
Depois usámos cerca de uma hora
da minha própria voz
para modular o sistema texto-fala padrão
para que falasse como eu.
O resultado não é perfeito.
Há ainda alguns erros.
(Em chinês)
(Aplausos)
Há muito trabalho a fazer nesta área.
(Em chinês)
(Aplausos)
Isto foi numa conferência sobre
aprendizagem automática na China.
Não é frequente ouvir,
em conferências académicas,
aplausos espontâneos.
embora aconteça, por vezes,
em conferências TEDx.
Todo o que vimos foi devido
a aprendizagem profunda.
(Aplausos)
Obrigado.
A transcrição para inglês foi feita
com aprendizagem profunda,
assim como a tradução para chinês,
no texto em cima, à direita,
e a construção da voz.
A aprendizagem profunda
é algo extraordinário.
É um único algoritmo que parece
poder fazer quase tudo.
Descobri que, um ano antes, também
tinha aprendido a ver.
Nesta competição obscura, na Alemanha,
— Referência Alemã para Reconhecimento
de Sinais de Trânsito —
a aprendizagem profunda conseguiu
reconhecer sinais de trânsito.
Conseguiu reconhecer sinais de trânsito,
melhor do que qualquer outro algoritmo,
e a avaliação mostrou que era cerca de
duas vezes melhor do que as pessoas.
Por volta de 2011,
tivemos o primeiro exemplo
de computadores que conseguem
ver melhor do que as pessoas.
Desde então, muito aconteceu.
Em 2012, a Google anunciou que tinham
um algoritmo de aprendizagem profunda
a observar vídeos no Youtube
e a processar dados de 16 000
computadores por mês,
O computador conseguiu de forma autónoma
aprender conceitos como pessoas e gatos
apenas observando os vídeos.
Isto é semelhante ao modo
como os humanos aprendem.
Não aprendem dizendo-lhes
o que estão a ver,
mas aprendendo por si
o que estas coisas são.
Também em 2012, o Geoffrey Hinton,
que vimos antes,
venceu a competição muito
popular ImageNet,
ao tentar identificar, num conjunto
de 1,5 milhões de imagens,
o que elas representavam.
Em 2014, reduzimos para 6% a taxa de erro
no reconhecimento de imagem.
Isto é melhor do que as
pessoas conseguem fazer.
As máquinas estão realmente a fazer
um trabalho extraordinário
que está agora a ser usado na indústria.
Por exemplo, a Google
anunciou, no ano passado,
que mapearam todos os locais
de França, em duas horas.
Processaram imagens de rua com um
algoritmo de aprendizagem profunda,
para que reconhecesse
e lesse números de ruas.
Imaginem quanto tempo
isto teria demorado antes:
dúzias de pessoas, durante muitos anos.
Isto também está a acontecer na China.
Baidu é uma espécie de
Google chinesa, acho eu.
O que veem aqui em cima, à esquerda,
é um exemplo de uma imagem
que transferi para o sistema
de aprendizagem profunda da Baidu.
Em baixo, podem ver que o sistema
percebeu o que a imagem era
e encontrou imagens semelhantes.
As imagens semelhantes têm,
na verdade, fundos idênticos,
direções semelhantes das faces
e algumas até com a língua de fora.
Isto não é evidente no texto
de uma página "web".
Só transferi uma imagem.
Temos, agora, computadores que
compreendem realmente o que veem
e que podem, por isso, procurar
nas bases de dados
de centenas de milhões
de imagens, em tempo real.
O que significa realmente os computadores
conseguirem agora ver?
Não se trata apenas de conseguirem ver.
De facto, a aprendizagem profunda
tem feito mais do que isso.
Frases complexas, com nuances, como esta
são agora percetíveis, com os algoritmos
de aprendizagem profunda.
Como podem ver aqui,
este sistema de Stanford,
com o ponto vermelho no topo,
percebeu que esta frase expressa
um sentimento negativo.
A aprendizagem profunda está agora
próxima do desempenho humano,
na perceção do sentido das frases
e no que diz sobre essas coisas.
A aprendizagem profunda também
tem sido usada para ler chinês,
a um nível próximo de um chinês nativo.
Este algoritmo foi desenvolvido na Suíça
por pessoas que não falam
nem percebem chinês.
Como disse, a aprendizagem profunda
é o melhor sistema do mundo para isto
comparado até com a compreensão
de um ser humano.
Este é um sistema que desenvolvemos
na minha empresa
que mostra como juntar tudo isto.
Estas imagens não têm texto associado.
À medida que vou escrevendo estas frases
estas imagens vão sendo
compreendidas em tempo real,
percebendo o que significam,
e descobrindo imagens de acordo
com o texto que vou escrevendo.
Como podem ver, está de facto
a perceber as minhas frases
e a perceber estas imagens.
Sei que viram algo parecido na Google,
em que podem escrever coisas
e são-vos mostradas imagens.
Na realidade, o que está a fazer
é pesquisar o vosso texto na "web".
Isso é muito diferente de perceber
realmente as imagens.
Isto é algo que os computadores
só começaram a fazer
há alguns meses, pela primeira vez.
Os computadores conseguem
não apenas ver, mas também ler.
Já mostrámos, claro, que conseguem
perceber o que ouvem.
Talvez não fiquem surpreendidos
se vos disser que conseguem escrever.
Aqui está um texto que gerei ontem
com um algoritmo de aprendizagem profunda.
E aqui está um texto gerado
por um algoritmo de Stanford.
Cada uma destas frases foi gerada
por um algoritmo de aprendizagem profunda
para descrever cada uma destas imagens.
Este algoritmo nunca tinha visto antes um
homem de T-shirt preta a tocar guitarra.
Já tinha visto um homem e a cor preta.
Já tinha visto uma guitarra.
Mas gerou de forma independente
esta nova descrição da imagem.
Ainda não estamos bem ao nível do
desempenho humano, mas perto.
Em testes, os humanos preferem
a descrição gerada pelo computador,
uma em cada quatro vezes.
Este sistema tem apenas duas semanas,
por isso, provavelmente, no próximo ano,
o algoritmo estará bem à frente
do desempenho humano,
tendo em conta a rapidez destas coisas.
Os computadores também conseguem escrever.
Juntamos tudo isto e obtemos
oportunidades muito excitantes.
Por exemplo, na medicina,
uma equipa de Boston anunciou
que descobriu
dúzias de novas características de
tumores, clinicamente relevantes,
que ajudam os médicos a fazer
prognósticos em relação a um cancro.
De igual modo, em Stanford,
um grupo anunciou que,
observando tecidos ampliados,
desenvolveu um sistema baseado
na aprendizagem automática
que supera os patologistas humanos
na previsão de taxas de sobrevivência
de pacientes de cancro.
Em ambos os casos,
as previsões foram mais precisas,
e também geraram novas
perspetivas científicas.
No caso da radiologia,
revelaram-se novos indicadores clínicos
que os humanos podem perceber.
Neste caso da patologia,
o sistema computacional descobriu
que as células em torno do cancro
são tão importantes quanto
as próprias células cancerígenas
na realização de um diagnóstico.
Isto é o contrário do que os patologistas
têm aprendido ao longo de décadas.
Em ambos os casos, estes sistemas
foram desenvolvidos
por especialistas médicos
e de aprendizagem automática.
No último ano, fomos também além disso.
Isto é um exemplo de identificação
de áreas cancerígenas,
em tecido humano, ao microscópio.
O sistema aqui apresentado consegue
identificar essas áreas
de forma mais precisa, ou tão precisa
quanto os patologistas humanos,
mas foi construído com aprendizagem
profunda, sem conhecimentos médicos,
por pessoas sem formação na área.
De modo semelhante, nesta
segmentação neuronal.
Podemos agora segmentar neurónios
de forma tão precisa quanto um humano,
mas este sistema foi desenvolvido
com aprendizagem profunda
com pessoas sem formação
prévia em medicina.
Eu próprio, sendo alguém sem
formação prévia em medicina
sou perfeitamente qualificado para abrir
uma nova empresa médica,
Foi o que fiz.
Estava aterrorizado em relação a isso
mas a teoria sugeria ser possível
fazer medicina muito útil usando apenas
estas técnicas de análise de dados.
Felizmente, a resposta
tem sido fantástica.
Não apenas dos "media", mas também
da comunidade médica,
que tem dado muito apoio.
A teoria é que podemos considerar
a fase intermédia do processo médico
e transformá-la em análise de dados,
tanto quanto possível,
deixando os médicos fazer
aquilo em que são bons.
Quero dar-vos um exemplo.
Bastam 15 minutos para gerar um novo
teste diagnóstico médico.
Vou mostrar-vos agora em tempo real,
mas comprimi para três minutos,
cortando algumas partes.
Em vez de vos mostrar a criação de um
novo teste diagnóstico médico,
vou mostrar-vos um teste diagnóstico
de imagens de carros,
porque é algo fácil de perceber.
Começamos com cerca de 1,5 milhões
de imagens de carros.
Quero criar algo que consiga dividi-las
segundo o ângulo em que a foto foi tirada.
Estas imagens não estão catalogadas,
tenho de começar do zero.
Com o nosso algoritmo,
podem identificar-se automaticamente
áreas de estruturas nestas imagens.
O interessante é o homem e o computador
poderem agora trabalhar em conjunto.
O humano, como podem ver aqui,
está a dizer ao computador
quais as áreas de interesse
que quer que o computador use
para melhorar o seu algoritmo.
Estes sistemas de aprendizagem profunda
estão em espaços de dimensão 16 000.
Podem ver aqui o computador a rodar
isto através desse espaço,
tentando encontrar novas
áreas de estrutura.
Quando consegue fazê-lo com sucesso,
o humano que está a comandá-lo
pode indicar áreas de interesse.
Aqui o computador encontrou
áreas, com sucesso.
Ângulos, por exemplo.
Ao longo deste processo,
vamos dizendo mais coisas ao computador
sobre o tipo de estruturas que procuramos.
Podem imaginar que, num diagnóstico,
isto seria o patologista a identificar
áreas patológicas, por exemplo.
Ou o radiologista a indicar nódulos
potencialmente problemáticos.
Por vezes pode ser difícil,
para o algoritmo.
Neste caso, ficou algo confuso.
As frentes e as traseiras dos carros
estão todas misturadas.
Aqui temos que ser um
pouco mais cuidadosos,
selecionado manualmente estas frentes
por oposição às traseiras,
dizendo depois ao computador
que isto é o tipo de grupo
em que estamos interessados.
Fazemos isto durante algum tempo,
avançamos um pouco,
e depois treinamos o algoritmo
de aprendizagem automática,
baseados nestas centenas de coisas,
e esperamos que fique bastante melhor.
Podem ver que algumas imagens
estão a começar a desvanecer,
mostrando-nos que já está a descobrir
como perceber algumas destas sozinho.
Podemos, então, usar o conceito
de imagens semelhantes.
Usando imagens semelhantes,
podemos ver que o computador
é capaz, neste ponto, de identificar
apenas as frentes dos carros.
Neste ponto, o humano pode
dizer ao computador:
"Fizeste aqui um bom trabalho!"
Por vezes, claro, mesmo neste ponto,
ainda é difícil distinguir os grupos.
Neste caso, mesmo depois de deixarmos o
computador rodar isto durante algum tempo,
ainda vemos que as imagens
dos lados esquerdo e direito
estão todas misturadas.
Podemos dar, de novo, algumas
pistas ao computador.
Dizemos: "Tenta descobrir uma
projeção que separe,
"o lado esquerdo do direito,
o mais possível,
"usando este algoritmo
de aprendizagem profunda."
Dando-lhe esta pista, ele tem sucesso.
Conseguiu descobrir um modo
de pensar neste objetos
que permitiu separá-los.
Percebem a ideia.
Neste caso, o humano não está
a ser substituído pelo computador.
Estão a trabalhar em conjunto.
O que estamos a fazer é substituir
algo que exigia uma equipa
de cinco ou seis pessoas,
durante sete anos,
por algo que demora 15 minutos,
com uma pessoa a trabalhar sozinha.
Este processo demora
quatro ou cinco iterações.
Podem ver que temos agora 62%
dos nossos 1,5 milhões de imagens,
classificadas corretamente.
Neste ponto, podemos começar rapidamente
a trabalhar grandes secções,
e a verificar se não há erros.
Se houver erros, podemos fazer
com que o computador o saiba.
Usando este processo, para cada
um dos diferentes grupos,
temos agora uma taxa
de sucesso de 80%,
na classificação de 1,5 milhões
de imagens.
Neste ponto, trata-se de descobrir
as poucas que não estão
classificadas corretamente,
e tentar perceber porquê.
Utilizando esta abordagem
conseguimos uma taxa de classificação
de 97% em 15 minutos.
Esta técnica pode permitir-nos
resolver um grande problema
que é a falta de especialistas
médicos no mundo.
O Fórum Económico Mundial refere
que há 10 a 20 vezes menos médicos
do que o necessário,
nos países em desenvolvimento.
E que serão necessários 300 anos
para formar as pessoas necessárias
para resolver o problema.
Imaginem que podemos ajudar
a melhorar a sua eficiência
usando esta abordagem
de aprendizagem profunda.
Estou muito entusiasmado
com as oportunidades,
mas também estou preocupado
em relação aos problemas.
O problema é que as áreas
a azul, neste mapa,
são locais onde os serviços representam
mais de 80% dos empregos.
O que são os serviços?
Isto são serviços.
São também as coisas que
os computadores aprenderam a fazer.
80% dos postos de trabalho,
no mundo desenvolvido,
são coisas que os computadores
aprenderam a fazer.
O que significa isto?
Não há problema. Serão substituídos
por outros empregos.
Por exemplo, haverá mais empregos
para especialistas em dados.
Bem, não exatamente.
Os especialistas não demoram muito
tempo a construir estas coisas.
Estes quatro algoritmos foram
desenvolvidos pela mesma pessoa.
Se pensarmos bem, isto já aconteceu antes.
Já vimos, no passado, o resultado
de surgirem coisas novas
que são substituídas por novos empregos.
O que serão estes novos empregos?
É muito difícil fazermos previsões,
porque o desempenho humano
cresce a um ritmo gradual,
mas temos agora um sistema
de aprendizagem profunda,
cuja capacidade cresce exponencialmente.
Estamos neste ponto.
Atualmente, vemos as coisas
à nossa volta e pensamos:
"Os computadores ainda são muito burros."
Mas em cinco anos os computadores
estarão fora deste gráfico.
Temos que começar já
a pensar nesta capacidade.
É claro que já vimos isto.
Na Revolução Industrial,
vimos uma grande avanço na capacidade,
graças às máquinas.
A questão é que, passado algum tempo,
as coisas estabilizaram.
Houve ruturas sociais.
Mas quando as máquinas foram usadas
para gerar poder em todas as situações,
as coisas acalmaram.
A Revolução da Aprendizagem Automática
será muito diferente
da Revolução Industrial,
porque a Revolução da Aprendizagem
Automática nunca estabilizará.
Quanto melhores forem os computadores
em atividades intelectuais,
melhores computadores se construirão,
com mais capacidades intelectuais.
Isto será um tipo de mudança
que o mundo nunca presenciou antes.
A nossa perceção do que é
possível é diferente.
Isto já está a afetar-nos.
Nos últimos 25 anos, à medida que a
produtividade do capital aumentou,
a produtividade laboral manteve-se,
na verdade até desceu um pouco.
Quero que tenhamos esta discussão agora.
Sei que, quando falo disto às pessoas,
elas mostram algum desdém.
"Os computadores não conseguem pensar."
"Eles não se emocionam,
nem percebem poesia."
"Não percebemos, na verdade,
como funcionam."
E depois?
Os computadores conseguem
fazer as coisas
que os humanos são pagos para fazer,
na maior parte do seu tempo.
Este é o tempo para começar a pensar
como vamos ajustar as nossas
estruturas sociais e económicas
para fazer face a esta nova realidade.
Obrigado.
(Aplausos)