Antigamente se você quisesse que um
computador fizesse algo novo,
você teria que programar.
Pois então, para quem aqui
que nunca fez isso,
programação é algo que requer
estabelecer com riqueza de detalhe
cada passo do que você quer
que o computador faça
para atingir o seu objetivo.
Se você quiser fazer algo que
ainda não sabe fazer sozinho,
isso se torna um grande desafio.
E esse foi o desafio enfrentado
por este homem, Arthur Samuel.
Em 1956 ele queria que esse computador
fosse capaz de vencê-lo no jogo de damas.
Como você faz para escrever um programa,
estabelecer com riqueza de detalhe,
que ele jogue damas melhor que você?
Então ele teve uma ideia:
ele fez o computador jogar
contra si próprio milhares de vezes
para aprender a jogar damas.
E realmente funcionou,
de fato em 1962
esse computador venceu
o campeão estadual de Connecticut.
Arthur Samuel foi o pai
do aprendizado de máquina,
e eu devo muito a ele,
porque eu sou um profissional
de aprendizado de máquina.
Eu fui o presidente da Kaggle,
uma comunidade de mais de 200 mil
profissionais dessa área.
A Kaggle organiza competições
para tentar resolver problemas
até então sem solução,
e tem sido bem sucedida
centenas de vezes.
Então desse ponto de vista,
eu pude descobrir muito
sobre o que o aprendizado de máquina
conseguiu no passado, hoje,
e o que poderia fazer no futuro.
Talvez o primeiro grande sucesso comercial
de aprendizado de máquina foi o Google.
O Google mostrou que é possível
encontrar informação
usando um algoritmo de computador,
e esse algoritmo é baseado
no aprendizado de máquina.
Desde então houve muitos casos de sucesso
comercial de aprendizado de máquina.
Empresas como Amazon e Netflix
usam aprendizado de máquina para sugerir
produtos que você poderia querer,
filmes que você poderia querer assistir.
Às vezes é quase assustador.
Empresas como LinkedIn e Facebook
às vezes te dirão quem deveria
ser seu amigo
e você não tem ideia de como,
e isso é porque está usando
o poder do aprendizado de máquina.
São algoritmos que aprenderam
como fazer isso a partir de dados
ao invés de serem programados à mão.
Foi assim que a IBM foi bem sucedida
em fazer que Watson vencesse
dois campeões mundiais em Jeopardy,
respondendo questões incrivelmente
sutis e complexas como essa:
["O antigo 'Leão de Nimrud' desapareceu
do museu nacional dessa cidade em 2003
(junto com um monte de outras coisas)"]
Também por isso que agora vemos
os primeiros carros auto-guiados.
Se você quiser poder diferenciar entre, digamos,
uma árvore e um pedestre,
bem, isso é muito importante.
Não sabemos como escrever
esses programas à mão,
mas com o aprendizado de máquina
isso agora é possível.
De fato esse carro já dirigiu
mais de um milhão de quilômetros
sem qualquer acidente em estradas normais.
Pois bem, agora sabemos que
computadores conseguem aprender,
e podem aprender a fazer coisas
que inclusive nós mesmos
não sabemos fazer,
ou então fazer melhor que nós.
Um dos exemplos mais surpreendentes
de aprendizado de máquina que eu já vi
aconteceu num projeto
que eu organizei na Kaggle
onde um time coordenado por alguém
chamado Geoffrey Hinton
da Universidade de Toronto
venceu a competição de
descoberta automática de fármacos.
O extraordinário aqui não é apenas
que eles bateram
todos os algoritmos desenvolvidos pela
Merck ou a comunidade acadêmica,
mas que ninguém no time tinha qualquer
antecedente em biologia ou química,
e fizeram isso em duas semanas.
Como eles fizeram isso?
Usaram um algoritmo singular
chamado aprendizado profundo.
Isso foi tão importante que de fato
o sucesso foi noticiado
no The New York Times num artigo
de página frontal semanas depois.
Esse é Geoffrey Hinton,
aqui no lado esquerdo.
Aprendizado profundo é um algoritmo
inspirado no cérebro humano,
ou seja, é um algoritmo
que não tem limitações teóricas
para o que pode fazer.
Quanto mais dados e tempo você der a ele,
melhor ele fica.
O The New York Times mostrou
nesse artigo também
outro resultado singular do
aprendizado profundo
que eu vou mostrar para vocês agora.
Mostra que os computadores
conseguem escutar e entender.
(Vídeo) Richard Rashid:
Agora, o último passo
que eu pretendo dar nesse processo
é realmente falar com vocês em chinês.
A chave aqui é que
conseguimos levantar uma vasta quantidade
de informação de muitos falantes do chinês
e produzir um sistema texto-para-fala
que pega o texto em chinês e
converte para a linguagem chinesa,
e então pegamos mais ou menos uma hora
da minha própria voz
e usamos para modular
o sistema texto-para-fala padrão
para que possa parecer a minha voz.
O resultado não é perfeito.
Na verdade há alguns erros.
(Em chinês)
(Aplausos)
Há muito trabalho pela frente nessa área.
(Em chinês)
(Aplausos)
J. Howard: Isso foi num congresso
de aprendizado de máquina na China.
Na verdade não é comum escutar aplausos
espontâneos em congressos acadêmicos,
embora obviamente às vezes acontecer
em conferências TEDx, fiquem à vontade.
Tudo que vocês viram lá aconteceu
com aprendizado profundo.
(Aplausos) Obrigado.
A transcrição em inglês foi
aprendizado profundo.
A tradução para chinês e o texto na
direita superior, também,
e a construção da voz também
foi aprendizado profundo.
Então, aprendizado profundo é
essa coisa extraordinária.
É um único algoritmo que parece
fazer quase tudo,
e um ano antes eu descobri que
ele também aprendeu a ver.
Nessa competição desconhecida
alemã, chamada
Modelo de Reconhecimento de
Sinais de Trânsito Alemães
aprendizado profundo aprendeu a
reconhecer sinais de trânsito como esse.
Não apenas conseguiu reconhecer os sinais
melhor que qualquer outro algoritmo,
o ranking na verdade mostrou que
era melhor do que gente,
quase duas vezes melhor do que gente.
Então em 2011 tivemos o primeiro exemplo
de computadores que conseguem ver
melhor do que pessoas.
Desde então muito aconteceu.
Em 2012 Google anunciou que havia
um algoritmo de aprendizado profundo
assistindo vídeos do YouTube
e remoendo os dados em 16 mil
computadores por mês,
e o computador aprendeu sozinho
conceitos como pessoas e gatos
apenas assistindo aos vídeos.
É desse jeito que os humanos aprendem.
Os humanos não aprendem com alguém
explicando o que viram,
aprendem por si próprios.
Também em 2012, Geoffrey Hinton,
a quem vimos antes,
venceu a conhecida competição ImageNet,
tentando descobrir a partir de
um milhão e meio de imagens
o que elas retratam.
A partir de 2014 estamos
com uma taxa de erro de 6%
em reconhecimento de imagem.
De novo, isso é melhor que gente.
Então, máquinas estão fazendo
um ótimo trabalho
e agora está sendo usado na indústria.
Por exemplo, o Google anunciou ano passado
que mapearam cada local
da França em duas horas,
e fizeram isso fornecendo imagens das ruas
para o algoritmo de aprendizado profundo
reconhecer e ler os números das ruas.
Imaginem quanto levaria
do jeito que era antes:
dúzias de pessoas, muitos anos.
Também está acontecendo na China.
Baidu é tipo o Google chinês, eu acho,
e o que vocês podem ver acima à esquerda
é um exemplo de uma imagem que eu subi ao
sistema de aprendizado profundo do Baidu,
e abaixo você pode ver que o sistema
entendeu que imagem é
e encontrou imagens similares.
As imagens similares de fato
têm fundos similares,
direções de rostos similares,
algumas até com a língua para fora.
Claramente não está olhando
para o texto da página.
Tudo que eu forneci foi uma imagem.
Agora temos computadores que
realmente entendem o que veem
e então buscam em bancos de dados
de centenas de milhões
de imagens em tempo real.
Então o que significa o fato dos
computadores conseguirem ver?
Bem, não é só que conseguem ver.
De fato, o aprendizado profundo fez mais.
Frases matizadas e complexas
como esta agora são
compreensíveis com algoritmos
de aprendizado profundo.
Como vocês podem ver aqui,
esse sistema de Stanford com
o ponto vermelho acima
descobriu que esta frase expressa
um sentimento negativo.
Na verdade o aprendizado profundo
está alcançando a performance humana
ao entender sobre o que as frases são e
o que dizem sobre as coisas.
Além disso o aprendizado profundo
é usado para ler chinês,
de novo no nível do falante nativo.
Esse algoritmo, desenvolvido na Suíça
por pessoas que não falam chinês.
Como eu digo, usar aprendizado profundo
é o melhor sistema no mundo para isso,
até mesmo comparando ao entendimento
do humano nativo.
Esse é um sistema que montamos
na minha empresa
que mostra tudo isso colocado junto.
Essas são imagens sem texto,
e enquanto digito frases aqui,
ele entende essas imagens em tempo real
e descobre sobre o que elas são
e encontram imagens similares ao
texto que estou escrevendo.
Vocês podem ver, está realmente
entendendo minhas frases
e entendendo essas imagens.
Sei que vocês viram algo assim no Google,
onde você digita coisas e
aparecem imagens,
mas na verdade o que acontece é que
está buscando o texto na página.
Isso é muito diferente de
realmente entender as imagens.
Isso foi possível acontecer
para computadores
pela primeira vez somente
há alguns poucos meses.
Vemos que agora os computadores conseguem
não apenas ver, mas ler também,
e claro, mostramos aqui que podem
entender o que escutam.
Talvez não seja surpresa o que vou
dizer agora: eles sabem escrever.
Aqui um texto que eu gerei usando um
algoritmo de aprendizado profundo ontem.
E aqui um texto que um algoritmo
de Stanford criou.
Cada uma dessas frases foi criada
por um algoritmo de aprendizado profundo
para descrever cada uma dessas imagens.
Esse algoritmo nunca tinha visto um homem
de camiseta preta tocando violão.
Ele já viu um homem antes,
já viu a cor preta,
já viu um violão antes,
mas criou independentemente
essa descrição inédita para essa imagem.
Ainda não chegamos ao patamar
do desempenho humano, mas estamos perto.
Em testes, humanos preferem a legenda
gerada por computador
uma a cada quatro vezes.
Agora esse sistema tem apenas
duas semanas,
então provavelmente dentro de um ano,
o algoritmo de computador estará
além do desempenho humano
no ritmo que as coisas vão.
E é isso, os computadores
conseguem escrever.
Quando juntamos isso tudo,
oportunidades muito empolgantes aparecem.
Por exemplo, na medicina,
uma equipe em Boston anunciou
a descoberta de
dúzias de novas características
clinicamente relevantes
de tumores que ajudam os médicos
em prognósticos de câncer.
De modo semelhante, em Stanford,
um grupo lá anunciou que,
observando tecidos sob ampliação,
desenvolveu um sistema
com base em aprendizado de máquina
que de fato é melhor que
patologistas humanos
ao prever índices de sobrevivência
para pacientes de câncer.
Em ambos os casos, não apenas
as previsões eram mais precisas,
mas criaram ciência perspicaz.
No caso da radiologia,
foram indicadores clínicos novos
que humanos conseguem entender.
Nesse caso de patologia,
o sistema de computador descobriu que
as células ao redor do câncer
são tão importantes quanto as
próprias células cancerígenas
para se fazer um diagnóstico.
Isso é o oposto do que os patologistas
tinham aprendido por décadas.
Em cada um desses dois casos, foram
sistemas desenvolvidos por um
grupo de especialistas médicos e
especialistas em aprendizado de máquina,
mas desde ano passado,
estamos além disso também.
Esse é um exemplo de identificação
de áreas cancerígenas
em tecido humano sob um microscópio.
O sistema aqui consegue identificar
essas áreas com mais precisão,
ou com a mesma precisão,
do que patologistas humanos,
mas foi construido com aprendizado
profundo sem conhecimento médico
por pessoas sem antecedentes na área.
De modo similar, aqui,
essa segmentação de neurônios.
Agora podemos segmentar neurônios
tão precisamente quanto os humanos,
mas esse sistema foi desenvolvido
com aprendizado profundo
por pessoas sem antecedentes em medicina.
Então eu mesmo, que não tenho
antecedentes em medicina,
posso parecer inteiramente qualificado
para iniciar uma empresa médica,
que foi o que eu fiz.
Eu estava meio aterrorizado,
mas a teoria sugeria que era possível
fazer medicina muito útil usando
apenas essas técnicas analíticas de dados.
E ainda bem, a reação tem sido fantástica,
não apenas da mídia mas da
comunidade médica,
que tem sido muito favorável.
A teoria é que podemos pegar a parte
intermediária do precesso médico
e torná-la em análise de dados
tanto quanto possível,
deixando aos médicos o que
eles fazem de melhor.
Quero dar uma exemplo a vocês.
Hoje um novo teste de diagnóstico médico
leva uns 15 minutos para ser feito
e vou mostrar em tempo real para vocês,
mas eu comprimi para três minutos,
cortando alguns pedaços.
Ao invés de um teste de
diagnóstico médico,
vou mostrar um teste de diagnóstico
de imagens de carros,
pois é algo que todos podem entender.
Então aqui estamos iniciando com
1,5 milhão de imagens de carro,
e eu quero criar algo que pode
separar num ângulo
da foto que está sendo tirada.
Essas imagens são inteiramente não
marcadas, então preciso começar do zero.
Com o algoritmo de
aprendizado profundo,
pode-se automaticamente identificar áreas
de estrutura nessas imagens.
O legal é que o humano e o computador
agora podem trabalhar juntos.
Então o humano, como podem ver,
diz ao computador as áreas de interesse
que o computador então usa para
melhorar o algoritmo.
Esses sistemas de aprendizado profundo
agem num espaço de 16 mil dimensões,
dá para ver aqui o computador
girando através do espaço,
tentando encontrar novas
áreas de estrutura.
E quando consegue,
o humano que está no controle então
aponta as áreas de interesse.
Aqui o computador encontrou as
áreas com sucesso,
por exemplo, ângulos.
Enquanto seguimos o processo,
gradualmente dizendo mais e mais
ao computador
sobre os tipos de estruturas que
estamos buscando.
Se fosse um teste diagnóstico, seria
um patologista identificando áreas
de condição patológica, por exemplo,
ou um radiologista indicando nódulos
potencialmente problemáticos.
E às vezes pode ser difícil
para o algoritmo.
Nesse caso, ficou um pouco confuso.
As frentes e as traseiras estão
todas misturadas.
Então temos que ser cuidadosos,
manualmente separando as frentes e
as traseiras,
e dizer ao computador que isso é
o tipo de grupo
que nos interessa.
Então fizemos isso por um tempo,
adiantamos um pouco, e
treinamos o algoritmo de
aprendizado de máquina
com base em algumas centenas de coisas,
e esperamos que tenha ficado melhor.
Podem ver que agora algumas dessas
imagens desapareceram,
mostrando que já consegue entender
algumas por si próprio.
Podemos então usar esse conceito
para imagens similares,
e usando imagens similares,
vocês podem ver,
o computador nesse ponto consegue
encontrar somente as frentes dos carros.
Nesse ponto o humano pode
dizer ao computador,
"ok, sim, você fez um bom trabalho".
Claro que às vezes ainda é difícil
separar grupos.
Nesse caso mesmo depois
do computador girar um pouco,
ainda vemos que imagens
do lado esquerdo e do lado direito
estão todas misturadas.
Podemos novamente dar
dicas ao computador,
e dizer, certo, encontre
uma projeção que separe
os lados esquerdo e direito
o melhor possível
usando o algoritmo de
aprendizado profundo.
E dando aquela dica, ah, certo, conseguiu.
Encontrou um jeito de pensar
nesses objetos
que acabou agrupando.
Vocês podem pegar a ideia aqui.
Não é o caso de substituir
o humano pelo computador,
mas sim de trabalharem juntos.
O que fazemos aqui é substituir algo
que costumava demandar de uma equipe
de cinco ou seis pessoas
cerca de sete anos
com algo que leva apenas 15 minutos
para uma pessoa só.
Esse processo demanda
cerca de quatro ou cinco iterações.
Podemos ver que agora temos 62%
de nossas 1,5 milhão de imagens
classificadas corretamente.
Nesse ponto podemos rapidamente
pegar seções inteiras
e checar se não há erros.
Onde encontramos erros,
podemos avisar o computador.
Usando esse tipo de processo para
cada um dos diferentes grupos,
temos agora 80% de índice de sucesso
classificando 1,5 milhão de imagens.
Nesse ponto é só o caso de
encontrar o pequeno número que ainda
não está classificado corretamente,
e tentar entender o motivo.
E com essa abordagem,
em 15 minutos temos 97%
de índice de classificação.
Então esse tipo de técnica nos permite
resolver um grande problema,
que é a falta de especialização
médica no mundo.
O Fórum Econômico Mundial diz que há
escassez de algo entre 10 e 20 vezes
de médicos no mundo em desenvolvimento,
e que levaria cerca de 300 anos
para treinar gente suficiente para
resolver o problema.
Imaginem conseguirmos
aumentar a eficiência
usando essas abordagens
de aprendizado profundo?
Por isso estou empolgado
com as oportunidades.
E estou preocupado com os problemas.
O problema aqui é que cada área
em azul no mapa
é um lugar onde os serviços estão
com mais de 80% de emprego.
O que são serviços?
São esses.
São também exatamente o que
os computadores aprenderam a fazer.
Então 80% do emprego no mundo
no mundo desenvolvido
é algo que computadores já
aprenderam a fazer.
O que isso significa?
Ficaremos bem. Serão substituídos
por outros empregos.
Por exemplo serão mais empregos
para cientistas de dados.
Na verdade não.
Não demora muito para cientistas
de dados fazerem essas coisas.
Por exemplo, os quatro algoritmos
foram construídos pelo mesmo cara.
Então você pensa, oh,
isso já aconteceu antes,
já vimos isso antes,
quando coisas novas chegam
e novos empregos aparecem,
como serão esses novos empregos?
É muito difícil estimar isso,
porque o desempenho humano
cresce nesse ritmo gradual,
mas agora temos um sistema,
o aprendizado profundo,
que sabemos crescer em ritmo exponencial.
E nós estamos aqui.
Então hoje vemos as coisas ao redor
e dizemos: "Oh, os computadores são
tão burros". Certo?
Mas dentro de cinco anos os computadores
estarão fora desse gráfico.
Então precisamos começar a pensar
nessa capacidade agora mesmo.
Já vimos isso antes, claro.
Na Revolução Industrial,
vimos uma mudança na capacidade
graças aos motores.
Acontece que, as coisas foram
se achatando.
Houve distúrbio social,
mas quando os motores foram usados para
gerar força em todas as situações
as coisas se acalmaram.
A Revolução do Aprendizado de Máquina
será bem diferente,
porque ela nunca se acalma.
Quanto mais os computadores
conseguem melhorar,
mais eles podem construir
outros computadores, melhores,
então esse será um tipo de mudança
que o mundo nunca viveu antes,
então sua compreensão anterior do
que é possível é diferente.
Isso já está nos afetando.
Nos últimos 25 anos, como
a produtividade de capital aumentou,
a produtividade de mão de obra estacionou,
de fato até caiu um pouco.
Então quero que comecemos
essa discussão já.
Sei que quando eu conto isso
para as pessoas,
elas podem acabar desdenhando.
"Os computadores não sabem pensar,
eles não se emocionam,
não entendem poesia,
nós não sabemos como eles funcionam".
E daí?
Hoje computadores fazem coisas
que passamos a maior parte
do tempo sendo pagos pra fazer,
então chegou a hora de pensar
em como vamos ajustar nossas
estruturas sociais e econômicas
para essa nova realidade.
Obrigado.
(Aplausos)