1
00:00:00,880 --> 00:00:04,893
Era habitual, quando queríamos 
que um computador fizesse algo novo,

2
00:00:04,893 --> 00:00:06,477
termos que o programar.

3
00:00:06,477 --> 00:00:09,858
Para aqueles que nunca programaram,

4
00:00:09,858 --> 00:00:13,360
a programação requer especificar
com enorme detalhe,

5
00:00:13,360 --> 00:00:16,727
todos os passos que queremos
que o computador execute

6
00:00:16,727 --> 00:00:19,089
para alcançarmos o nosso objetivo.

7
00:00:19,089 --> 00:00:22,585
Se queremos fazer algo que não
sabemos fazer nós próprios,

8
00:00:22,585 --> 00:00:24,648
será um grande desafio.

9
00:00:24,648 --> 00:00:28,131
Este foi o desafio enfrentado
por este homem, Arthur Samuel.

10
00:00:28,131 --> 00:00:32,208
Em 1965, ele queria que um computador

11
00:00:32,208 --> 00:00:34,548
o vencesse nas damas.

12
00:00:34,548 --> 00:00:36,588
Como podemos escrever um programa,

13
00:00:36,588 --> 00:00:40,394
com grande detalhe, que seja melhor
do que nós nas damas?

14
00:00:40,394 --> 00:00:42,116
Ele teve uma ideia:

15
00:00:42,116 --> 00:00:45,840
pôs o computador a jogar contra
si próprio, milhares de vezes,

16
00:00:45,840 --> 00:00:48,364
para aprender a jogar damas.

17
00:00:48,364 --> 00:00:51,544
Funcionou e, em 1962,

18
00:00:51,544 --> 00:00:55,561
o computador venceu o campeão
do estado do Connecticut.

19
00:00:55,561 --> 00:00:58,374
Arthur Samuel foi, assim, o pai
da aprendizagem automática

20
00:00:58,374 --> 00:01:00,251
e tenho uma grande dívida para com ele,

21
00:01:00,251 --> 00:01:03,014
porque sou um profissional
da aprendizagem automática.

22
00:01:03,014 --> 00:01:04,479
Fui o presidente da Kaggle,

23
00:01:04,479 --> 00:01:08,427
uma comunidade de cerca de 200 000
profissionais da aprendizagem automática.

24
00:01:08,427 --> 00:01:10,163
A Kaggle estabelece competições,

25
00:01:10,163 --> 00:01:13,633
em que se tenta resolver problemas
ainda não resolvidos,

26
00:01:13,633 --> 00:01:17,470
e teve sucesso centenas de vezes.

27
00:01:17,470 --> 00:01:19,940
Desta posição vantajosa
pude descobrir muito

28
00:01:19,940 --> 00:01:23,890
sobre o que a aprendizagem automática
pode fazer no passado, no presente

29
00:01:23,890 --> 00:01:26,252
e o que poderá fazer no futuro.

30
00:01:26,252 --> 00:01:30,675
O primeiro grande sucesso comercial da
aprendizagem automática foi a Google.

31
00:01:30,675 --> 00:01:33,784
A Google mostrou que é possível
encontrar informação

32
00:01:33,784 --> 00:01:35,536
usando o algoritmo de um computador,

33
00:01:35,536 --> 00:01:38,437
e este algoritmo é baseado
em aprendizagem automática.

34
00:01:38,437 --> 00:01:42,323
Desde então, houve muitos sucessos
comerciais da aprendizagem automática.

35
00:01:42,323 --> 00:01:44,160
Empresas como a Amazon e a Netflix

36
00:01:44,160 --> 00:01:47,876
usam a aprendizagem automática para
sugerir produtos que talvez compremos,

37
00:01:47,876 --> 00:01:49,896
filmes que talvez gostemos de ver.

38
00:01:49,896 --> 00:01:51,703
Por vezes, é quase assustador.

39
00:01:51,703 --> 00:01:53,657
Empresas como o LinkedIn e o Facebook

40
00:01:53,657 --> 00:01:56,251
por vezes dizem-nos quem poderão
ser os nossos amigos

41
00:01:56,251 --> 00:01:58,578
e não temos ideia de como
elas fizeram isso,

42
00:01:58,578 --> 00:02:01,195
porque estão a usar o poder
da aprendizagem automática.

43
00:02:01,195 --> 00:02:04,152
Estes algoritmos aprenderam a fazer
isto a partir de dados

44
00:02:04,152 --> 00:02:07,399
em vez de serem programados à mão.

45
00:02:07,399 --> 00:02:09,877
Esta foi também a razão do sucesso da IBM

46
00:02:09,877 --> 00:02:13,713
ao conseguir que o Watson ganhasse
a dois campeões mundiais no "Jeopardy",

47
00:02:13,739 --> 00:02:17,710
respondendo a questões incrivelmente
subtis e complexas.

48
00:02:19,813 --> 00:02:23,034
Esta é também a razão de podermos ver
os primeiros carros autónomos.

49
00:02:23,034 --> 00:02:25,856
É bastante importante podermos distinguir

50
00:02:25,856 --> 00:02:28,488
uma árvore de um peão.

51
00:02:28,488 --> 00:02:31,075
Não sabemos como escrever
esses programas à mão,

52
00:02:31,075 --> 00:02:34,072
mas isso é agora possível
com a aprendizagem automática.

53
00:02:34,072 --> 00:02:36,680
Este carro conduziu mais
de um milhão de quilómetros

54
00:02:36,680 --> 00:02:40,186
em estradas normais,
sem qualquer acidente.

55
00:02:40,196 --> 00:02:44,110
Sabemos agora que os computadores
conseguem aprender.

56
00:02:44,110 --> 00:02:46,010
Conseguem aprender a fazer coisas

57
00:02:46,010 --> 00:02:48,848
que nós, por vezes, não sabemos
fazer sozinhos,

58
00:02:48,848 --> 00:02:51,733
ou fazem-no melhor do que nós.

59
00:02:51,733 --> 00:02:55,928
Um dos exemplos mais fantásticos
da aprendizagem automática que eu vi

60
00:02:55,928 --> 00:02:58,320
surgiu num projeto
que desenvolvi na Kaggle

61
00:02:58,320 --> 00:03:01,911
em que uma equipa liderada
por um tipo chamado Geoffrey Hinton

62
00:03:01,911 --> 00:03:04,549
da Universidade de Toronto,
venceu uma competição

63
00:03:04,549 --> 00:03:06,650
sobre descoberta automática
de medicamentos.

64
00:03:06,650 --> 00:03:09,927
O mais extraordinário não foi terem
vencido todos os algoritmos

65
00:03:09,927 --> 00:03:13,350
desenvolvidos pela Merck ou pela
comunidade académica internacional,

66
00:03:13,350 --> 00:03:18,061
mas ninguém na equipa ter formação
em química, biologia ou ciências naturais

67
00:03:18,061 --> 00:03:20,230
e fizeram-no em duas semanas.

68
00:03:20,230 --> 00:03:21,751
Como fizeram isto?

69
00:03:22,421 --> 00:03:25,652
Usaram um algoritmo extraordinário
chamado aprendizagem profunda.

70
00:03:25,652 --> 00:03:28,831
Isso foi tão importante que saiu
num artigo na primeira página

71
00:03:28,831 --> 00:03:31,412
no New York Times, algumas semanas depois.

72
00:03:31,412 --> 00:03:34,147
Este do lado esquerdo
é o Geoffrey Hinton.

73
00:03:34,147 --> 00:03:38,488
A aprendizagem profunda é um algoritmo
inspirado no cérebro humano.

74
00:03:38,488 --> 00:03:40,300
e, como resultado, é um algoritmo

75
00:03:40,300 --> 00:03:44,141
que não tem limitações teóricas
em relação ao que pode fazer.

76
00:03:44,141 --> 00:03:46,964
Quanto mais dados e tempo
de computação fornecermos

77
00:03:46,964 --> 00:03:48,276
melhor ele fica.

78
00:03:48,276 --> 00:03:50,575
O New York Times também
mostrou, nesse artigo,

79
00:03:50,575 --> 00:03:53,157
outro resultado extraordinário
da aprendizagem profunda

80
00:03:53,157 --> 00:03:56,109
que vou agora mostrar-vos.

81
00:03:56,109 --> 00:04:00,510
Mostra que os computadores
conseguem ouvir e compreender

82
00:04:00,510 --> 00:04:03,221
(Vídeo) Richard Rashid: O último passo

83
00:04:03,221 --> 00:04:06,246
que quero poder dar neste processo

84
00:04:06,246 --> 00:04:10,411
é falar-vos em chinês.

85
00:04:12,001 --> 00:04:13,596
O segredo para isso

86
00:04:13,596 --> 00:04:18,598
é que conseguimos reunir muita
informação de oradores chineses

87
00:04:18,598 --> 00:04:21,128
e produzir um sistema texto-fala

88
00:04:21,128 --> 00:04:25,801
que converte texto em chinês
para a língua chinesa.

89
00:04:27,181 --> 00:04:30,379
Depois usámos cerca de uma hora
da minha própria voz

90
00:04:30,379 --> 00:04:33,930
para modular o sistema texto-fala padrão

91
00:04:33,930 --> 00:04:37,114
para que falasse como eu.

92
00:04:37,114 --> 00:04:39,734
O resultado não é perfeito.

93
00:04:39,734 --> 00:04:41,552
Há ainda alguns erros.

94
00:04:41,552 --> 00:04:44,036
(Em chinês)

95
00:04:44,036 --> 00:04:48,243
(Aplausos)

96
00:04:49,446 --> 00:04:53,022
Há muito trabalho a fazer nesta área.

97
00:04:53,852 --> 00:04:56,667
(Em chinês)

98
00:04:56,667 --> 00:05:00,630
(Aplausos)

99
00:05:01,345 --> 00:05:04,744
Isto foi numa conferência sobre
aprendizagem automática na China.

100
00:05:04,744 --> 00:05:07,624
Não é frequente ouvir,
em conferências académicas,

101
00:05:07,624 --> 00:05:09,011
aplausos espontâneos.

102
00:05:09,011 --> 00:05:12,687
embora aconteça, por vezes,
em conferências TEDx.

103
00:05:12,687 --> 00:05:15,482
Todo o que vimos foi devido
a aprendizagem profunda.

104
00:05:15,482 --> 00:05:16,766
(Aplausos)
Obrigado.

105
00:05:16,766 --> 00:05:19,669
A transcrição para inglês foi feita
com aprendizagem profunda,

106
00:05:19,669 --> 00:05:22,701
assim como a tradução para chinês,
no texto em cima, à direita,

107
00:05:22,701 --> 00:05:26,008
e a construção da voz.

108
00:05:26,858 --> 00:05:29,242
A aprendizagem profunda
é algo extraordinário.

109
00:05:29,242 --> 00:05:32,341
É um único algoritmo que parece
poder fazer quase tudo.

110
00:05:32,341 --> 00:05:35,572
Descobri que, um ano antes, também
tinha aprendido a ver.

111
00:05:35,572 --> 00:05:37,468
Nesta competição obscura, na Alemanha,

112
00:05:37,468 --> 00:05:40,375
— Referência Alemã para Reconhecimento
de Sinais de Trânsito —

113
00:05:40,375 --> 00:05:43,868
a aprendizagem profunda conseguiu
reconhecer sinais de trânsito.

114
00:05:43,868 --> 00:05:47,628
Conseguiu reconhecer sinais de trânsito,
melhor do que qualquer outro algoritmo,

115
00:05:47,628 --> 00:05:51,799
e a avaliação mostrou que era cerca de
duas vezes melhor do que as pessoas.

116
00:05:51,801 --> 00:05:54,037
Por volta de 2011, 
tivemos o primeiro exemplo

117
00:05:54,037 --> 00:05:57,442
de computadores que conseguem
ver melhor do que as pessoas.

118
00:05:57,442 --> 00:05:59,491
Desde então, muito aconteceu.

119
00:05:59,491 --> 00:06:03,075
Em 2012, a Google anunciou que tinham
um algoritmo de aprendizagem profunda

120
00:06:03,075 --> 00:06:04,420
a observar vídeos no Youtube

121
00:06:04,420 --> 00:06:07,857
e a processar dados de 16 000
computadores por mês,

122
00:06:07,857 --> 00:06:12,218
O computador conseguiu de forma autónoma
aprender conceitos como pessoas e gatos

123
00:06:12,218 --> 00:06:14,027
apenas observando os vídeos.

124
00:06:14,027 --> 00:06:16,409
Isto é semelhante ao modo
como os humanos aprendem.

125
00:06:16,409 --> 00:06:19,119
Não aprendem dizendo-lhes
o que estão a ver,

126
00:06:19,119 --> 00:06:22,450
mas aprendendo por si
o que estas coisas são.

127
00:06:22,450 --> 00:06:25,819
Também em 2012, o Geoffrey Hinton,
que vimos antes,

128
00:06:25,819 --> 00:06:28,677
venceu a competição muito
popular ImageNet,

129
00:06:28,677 --> 00:06:32,818
ao tentar identificar, num conjunto
de 1,5 milhões de imagens,

130
00:06:32,818 --> 00:06:34,256
o que elas representavam.

131
00:06:34,256 --> 00:06:37,789
Em 2014, reduzimos para 6% a taxa de erro

132
00:06:37,789 --> 00:06:39,242
no reconhecimento de imagem.

133
00:06:39,242 --> 00:06:41,478
Isto é melhor do que as
pessoas conseguem fazer.

134
00:06:41,478 --> 00:06:45,037
As máquinas estão realmente a fazer
um trabalho extraordinário

135
00:06:45,037 --> 00:06:47,306
que está agora a ser usado na indústria.

136
00:06:47,306 --> 00:06:50,348
Por exemplo, a Google
anunciou, no ano passado,

137
00:06:50,348 --> 00:06:54,933
que mapearam todos os locais
de França, em duas horas.

138
00:06:54,933 --> 00:06:58,380
Processaram imagens de rua com um
algoritmo de aprendizagem profunda,

139
00:06:58,380 --> 00:07:02,699
para que reconhecesse
e lesse números de ruas.

140
00:07:02,699 --> 00:07:04,949
Imaginem quanto tempo
isto teria demorado antes:

141
00:07:04,949 --> 00:07:08,744
dúzias de pessoas, durante muitos anos.

142
00:07:08,744 --> 00:07:10,555
Isto também está a acontecer na China.

143
00:07:10,555 --> 00:07:14,221
Baidu é uma espécie de
Google chinesa, acho eu.

144
00:07:14,221 --> 00:07:18,124
O que veem aqui em cima, à esquerda,
é um exemplo de uma imagem

145
00:07:18,124 --> 00:07:21,078
que transferi para o sistema
de aprendizagem profunda da Baidu.

146
00:07:21,078 --> 00:07:24,247
Em baixo, podem ver que o sistema
percebeu o que a imagem era

147
00:07:24,247 --> 00:07:26,483
e encontrou imagens semelhantes.

148
00:07:26,483 --> 00:07:29,219
As imagens semelhantes têm, 
na verdade, fundos idênticos,

149
00:07:29,219 --> 00:07:30,877
direções semelhantes das faces

150
00:07:30,877 --> 00:07:32,665
e algumas até com a língua de fora.

151
00:07:32,665 --> 00:07:35,695
Isto não é evidente no texto
de uma página "web".

152
00:07:35,695 --> 00:07:37,107
Só transferi uma imagem.

153
00:07:37,107 --> 00:07:40,738
Temos, agora, computadores que 
compreendem realmente o que veem

154
00:07:40,738 --> 00:07:43,092
e que podem, por isso, procurar
nas bases de dados

155
00:07:43,092 --> 00:07:46,306
de centenas de milhões
de imagens, em tempo real.

156
00:07:46,306 --> 00:07:49,536
O que significa realmente os computadores
conseguirem agora ver?

157
00:07:49,536 --> 00:07:51,403
Não se trata apenas de conseguirem ver.

158
00:07:51,403 --> 00:07:54,272
De facto, a aprendizagem profunda
tem feito mais do que isso.

159
00:07:54,272 --> 00:07:56,570
Frases complexas, com nuances, como esta

160
00:07:56,570 --> 00:07:59,724
são agora percetíveis, com os algoritmos
de aprendizagem profunda.

161
00:07:59,724 --> 00:08:00,697
Como podem ver aqui,

162
00:08:00,697 --> 00:08:03,465
este sistema de Stanford,
com o ponto vermelho no topo,

163
00:08:03,465 --> 00:08:07,384
percebeu que esta frase expressa
um sentimento negativo.

164
00:08:07,384 --> 00:08:10,790
A aprendizagem profunda está agora
próxima do desempenho humano,

165
00:08:10,802 --> 00:08:15,623
na perceção do sentido das frases
e no que diz sobre essas coisas.

166
00:08:16,223 --> 00:08:19,197
A aprendizagem profunda também 
tem sido usada para ler chinês,

167
00:08:19,197 --> 00:08:21,807
a um nível próximo de um chinês nativo.

168
00:08:21,807 --> 00:08:23,975
Este algoritmo foi desenvolvido na Suíça

169
00:08:23,975 --> 00:08:27,331
por pessoas que não falam
nem percebem chinês.

170
00:08:27,331 --> 00:08:29,382
Como disse, a aprendizagem profunda

171
00:08:29,382 --> 00:08:31,601
é o melhor sistema do mundo para isto

172
00:08:31,601 --> 00:08:36,718
comparado até com a compreensão
de um ser humano.

173
00:08:36,718 --> 00:08:39,682
Este é um sistema que desenvolvemos
na minha empresa

174
00:08:39,682 --> 00:08:41,728
que mostra como juntar tudo isto.

175
00:08:41,728 --> 00:08:44,189
Estas imagens não têm texto associado.

176
00:08:44,189 --> 00:08:46,541
À medida que vou escrevendo estas frases

177
00:08:46,541 --> 00:08:49,510
estas imagens vão sendo
compreendidas em tempo real,

178
00:08:49,510 --> 00:08:51,189
percebendo o que significam,

179
00:08:51,189 --> 00:08:54,352
e descobrindo imagens de acordo
com o texto que vou escrevendo.

180
00:08:54,352 --> 00:08:57,108
Como podem ver, está de facto
a perceber as minhas frases

181
00:08:57,108 --> 00:08:59,332
e a perceber estas imagens.

182
00:08:59,332 --> 00:09:01,891
Sei que viram algo parecido na Google,

183
00:09:01,891 --> 00:09:04,666
em que podem escrever coisas
e são-vos mostradas imagens.

184
00:09:04,666 --> 00:09:08,090
Na realidade, o que está a fazer
é pesquisar o vosso texto na "web".

185
00:09:08,090 --> 00:09:11,091
Isso é muito diferente de perceber
realmente as imagens.

186
00:09:11,091 --> 00:09:13,843
Isto é algo que os computadores
só começaram a fazer

187
00:09:13,843 --> 00:09:17,091
há alguns meses, pela primeira vez.

188
00:09:17,091 --> 00:09:21,182
Os computadores conseguem
não apenas ver, mas também ler.

189
00:09:21,182 --> 00:09:24,947
Já mostrámos, claro, que conseguem
perceber o que ouvem.

190
00:09:24,947 --> 00:09:28,389
Talvez não fiquem surpreendidos
se vos disser que conseguem escrever.

191
00:09:28,389 --> 00:09:33,172
Aqui está um texto que gerei ontem
com um algoritmo de aprendizagem profunda.

192
00:09:34,112 --> 00:09:37,096
E aqui está um texto gerado
por um algoritmo de Stanford.

193
00:09:37,096 --> 00:09:38,860
Cada uma destas frases foi gerada

194
00:09:38,860 --> 00:09:43,109
por um algoritmo de aprendizagem profunda
para descrever cada uma destas imagens.

195
00:09:43,109 --> 00:09:47,581
Este algoritmo nunca tinha visto antes um
homem de T-shirt preta a tocar guitarra.

196
00:09:47,581 --> 00:09:49,801
Já tinha visto um homem e a cor preta.

197
00:09:49,801 --> 00:09:51,400
Já tinha visto uma guitarra.

198
00:09:51,400 --> 00:09:55,694
Mas gerou de forma independente
esta nova descrição da imagem.

199
00:09:56,294 --> 00:09:59,246
Ainda não estamos bem ao nível do
desempenho humano, mas perto.

200
00:09:59,246 --> 00:10:03,264
Em testes, os humanos preferem 
a descrição gerada pelo computador,

201
00:10:03,264 --> 00:10:04,791
uma em cada quatro vezes.

202
00:10:04,791 --> 00:10:08,581
Este sistema tem apenas duas semanas,
por isso, provavelmente, no próximo ano,

203
00:10:08,581 --> 00:10:11,502
o algoritmo estará bem à frente
do desempenho humano,

204
00:10:11,502 --> 00:10:13,994
tendo em conta a rapidez destas coisas.

205
00:10:13,994 --> 00:10:16,413
Os computadores também conseguem escrever.

206
00:10:16,413 --> 00:10:19,848
Juntamos tudo isto e obtemos
oportunidades muito excitantes.

207
00:10:19,848 --> 00:10:21,380
Por exemplo, na medicina,

208
00:10:21,380 --> 00:10:23,905
uma equipa de Boston anunciou
que descobriu

209
00:10:23,905 --> 00:10:27,604
dúzias de novas características de
tumores, clinicamente relevantes,

210
00:10:27,604 --> 00:10:31,320
que ajudam os médicos a fazer
prognósticos em relação a um cancro.

211
00:10:32,220 --> 00:10:34,516
De igual modo, em Stanford,

212
00:10:34,516 --> 00:10:37,979
um grupo anunciou que, 
observando tecidos ampliados,

213
00:10:37,979 --> 00:10:40,710
desenvolveu um sistema baseado
na aprendizagem automática

214
00:10:40,710 --> 00:10:43,142
que supera os patologistas humanos

215
00:10:43,142 --> 00:10:47,519
na previsão de taxas de sobrevivência
de pacientes de cancro.

216
00:10:47,519 --> 00:10:50,634
Em ambos os casos, 
as previsões foram mais precisas,

217
00:10:50,634 --> 00:10:53,266
e também geraram novas
perspetivas científicas.

218
00:10:53,276 --> 00:10:54,781
No caso da radiologia,

219
00:10:54,781 --> 00:10:58,246
revelaram-se novos indicadores clínicos
que os humanos podem perceber.

220
00:10:58,246 --> 00:10:59,668
Neste caso da patologia,

221
00:10:59,668 --> 00:11:04,168
o sistema computacional descobriu
que as células em torno do cancro

222
00:11:04,168 --> 00:11:07,838
são tão importantes quanto
as próprias células cancerígenas

223
00:11:07,838 --> 00:11:09,540
na realização de um diagnóstico.

224
00:11:09,540 --> 00:11:14,621
Isto é o contrário do que os patologistas
têm aprendido ao longo de décadas.

225
00:11:15,541 --> 00:11:18,013
Em ambos os casos, estes sistemas
foram desenvolvidos

226
00:11:18,013 --> 00:11:21,534
por especialistas médicos
e de aprendizagem automática.

227
00:11:21,534 --> 00:11:24,275
No último ano, fomos também além disso.

228
00:11:24,275 --> 00:11:27,414
Isto é um exemplo de identificação
de áreas cancerígenas,

229
00:11:27,414 --> 00:11:30,354
em tecido humano, ao microscópio.

230
00:11:30,354 --> 00:11:34,297
O sistema aqui apresentado consegue
identificar essas áreas

231
00:11:34,297 --> 00:11:37,742
de forma mais precisa, ou tão precisa
quanto os patologistas humanos,

232
00:11:37,742 --> 00:11:41,134
mas foi construído com aprendizagem
profunda, sem conhecimentos médicos,

233
00:11:41,134 --> 00:11:44,170
por pessoas sem formação na área.

234
00:11:44,730 --> 00:11:47,285
De modo semelhante, nesta
segmentação neuronal.

235
00:11:47,285 --> 00:11:50,803
Podemos agora segmentar neurónios
de forma tão precisa quanto um humano,

236
00:11:50,803 --> 00:11:53,560
mas este sistema foi desenvolvido
com aprendizagem profunda

237
00:11:53,560 --> 00:11:56,921
com pessoas sem formação
prévia em medicina.

238
00:11:56,921 --> 00:12:00,148
Eu próprio, sendo alguém sem
formação prévia em medicina

239
00:12:00,148 --> 00:12:03,875
sou perfeitamente qualificado para abrir
uma nova empresa médica,

240
00:12:03,875 --> 00:12:06,021
Foi o que fiz.

241
00:12:06,021 --> 00:12:08,201
Estava aterrorizado em relação a isso

242
00:12:08,201 --> 00:12:10,650
mas a teoria sugeria ser possível

243
00:12:10,650 --> 00:12:16,142
fazer medicina muito útil usando apenas
estas técnicas de análise de dados.

244
00:12:16,142 --> 00:12:18,622
Felizmente, a resposta
tem sido fantástica.

245
00:12:18,622 --> 00:12:21,235
Não apenas dos "media", mas também
da comunidade médica,

246
00:12:21,235 --> 00:12:23,322
que tem dado muito apoio.

247
00:12:23,322 --> 00:12:27,471
A teoria é que podemos considerar
a fase intermédia do processo médico

248
00:12:27,471 --> 00:12:30,364
e transformá-la em análise de dados,
tanto quanto possível,

249
00:12:30,364 --> 00:12:33,429
deixando os médicos fazer
aquilo em que são bons.

250
00:12:33,429 --> 00:12:35,031
Quero dar-vos um exemplo.

251
00:12:35,031 --> 00:12:40,625
Bastam 15 minutos para gerar um novo
teste diagnóstico médico.

252
00:12:40,625 --> 00:12:42,439
Vou mostrar-vos agora em tempo real,

253
00:12:42,439 --> 00:12:45,416
mas comprimi para três minutos,
cortando algumas partes.

254
00:12:45,416 --> 00:12:48,647
Em vez de vos mostrar a criação de um
novo teste diagnóstico médico,

255
00:12:48,647 --> 00:12:51,846
vou mostrar-vos um teste diagnóstico
de imagens de carros,

256
00:12:51,846 --> 00:12:54,068
porque é algo fácil de perceber.

257
00:12:54,068 --> 00:12:57,269
Começamos com cerca de 1,5 milhões
de imagens de carros.

258
00:12:57,269 --> 00:13:00,475
Quero criar algo que consiga dividi-las

259
00:13:00,475 --> 00:13:02,698
segundo o ângulo em que a foto foi tirada.

260
00:13:02,698 --> 00:13:07,106
Estas imagens não estão catalogadas,
tenho de começar do zero.

261
00:13:07,106 --> 00:13:08,554
Com o nosso algoritmo,

262
00:13:08,554 --> 00:13:12,158
podem identificar-se automaticamente
áreas de estruturas nestas imagens.

263
00:13:12,158 --> 00:13:15,778
O interessante é o homem e o computador
poderem agora trabalhar em conjunto.

264
00:13:15,778 --> 00:13:17,956
O humano, como podem ver aqui,

265
00:13:17,956 --> 00:13:20,631
está a dizer ao computador
quais as áreas de interesse

266
00:13:20,631 --> 00:13:25,281
que quer que o computador use
para melhorar o seu algoritmo.

267
00:13:25,781 --> 00:13:29,577
Estes sistemas de aprendizagem profunda
estão em espaços de dimensão 16 000.

268
00:13:29,577 --> 00:13:32,899
Podem ver aqui o computador a rodar
isto através desse espaço,

269
00:13:32,899 --> 00:13:35,001
tentando encontrar novas
áreas de estrutura.

270
00:13:35,001 --> 00:13:36,782
Quando consegue fazê-lo com sucesso,

271
00:13:36,782 --> 00:13:40,786
o humano que está a comandá-lo
pode indicar áreas de interesse.

272
00:13:40,786 --> 00:13:43,208
Aqui o computador encontrou
áreas, com sucesso.

273
00:13:43,208 --> 00:13:45,770
Ângulos, por exemplo.

274
00:13:45,770 --> 00:13:47,376
Ao longo deste processo,

275
00:13:47,376 --> 00:13:49,716
vamos dizendo mais coisas ao computador

276
00:13:49,716 --> 00:13:52,144
sobre o tipo de estruturas que procuramos.

277
00:13:52,144 --> 00:13:55,666
Podem imaginar que, num diagnóstico,
isto seria o patologista a identificar

278
00:13:55,666 --> 00:13:57,266
áreas patológicas, por exemplo.

279
00:13:57,266 --> 00:14:02,292
Ou o radiologista a indicar nódulos
potencialmente problemáticos.

280
00:14:02,292 --> 00:14:04,851
Por vezes pode ser difícil,
para o algoritmo.

281
00:14:04,851 --> 00:14:06,815
Neste caso, ficou algo confuso.

282
00:14:06,815 --> 00:14:09,635
As frentes e as traseiras dos carros
estão todas misturadas.

283
00:14:09,635 --> 00:14:11,707
Aqui temos que ser um
pouco mais cuidadosos,

284
00:14:11,707 --> 00:14:14,789
selecionado manualmente estas frentes
por oposição às traseiras,

285
00:14:14,789 --> 00:14:20,175
dizendo depois ao computador
que isto é o tipo de grupo

286
00:14:20,175 --> 00:14:21,523
em que estamos interessados.

287
00:14:21,523 --> 00:14:24,032
Fazemos isto durante algum tempo,
avançamos um pouco,

288
00:14:24,032 --> 00:14:26,746
e depois treinamos o algoritmo
de aprendizagem automática,

289
00:14:26,746 --> 00:14:28,420
baseados nestas centenas de coisas,

290
00:14:28,420 --> 00:14:30,335
e esperamos que fique bastante melhor.

291
00:14:30,335 --> 00:14:33,098
Podem ver que algumas imagens
estão a começar a desvanecer,

292
00:14:33,098 --> 00:14:38,226
mostrando-nos que já está a descobrir
como perceber algumas destas sozinho.

293
00:14:38,226 --> 00:14:41,128
Podemos, então, usar o conceito
de imagens semelhantes.

294
00:14:41,128 --> 00:14:43,932
Usando imagens semelhantes,
podemos ver que o computador

295
00:14:43,932 --> 00:14:47,241
é capaz, neste ponto, de identificar
apenas as frentes dos carros.

296
00:14:47,241 --> 00:14:50,189
Neste ponto, o humano pode
dizer ao computador:

297
00:14:50,189 --> 00:14:53,172
"Fizeste aqui um bom trabalho!"

298
00:14:53,652 --> 00:14:55,837
Por vezes, claro, mesmo neste ponto,

299
00:14:55,837 --> 00:14:59,511
ainda é difícil distinguir os grupos.

300
00:14:59,511 --> 00:15:03,395
Neste caso, mesmo depois de deixarmos o
computador rodar isto durante algum tempo,

301
00:15:03,399 --> 00:15:06,744
ainda vemos que as imagens
dos lados esquerdo e direito

302
00:15:06,744 --> 00:15:08,222
estão todas misturadas.

303
00:15:08,222 --> 00:15:10,602
Podemos dar, de novo, algumas
pistas ao computador.

304
00:15:10,602 --> 00:15:13,338
Dizemos: "Tenta descobrir uma
projeção que separe,

305
00:15:13,338 --> 00:15:15,945
"o lado esquerdo do direito,
o mais possível,

306
00:15:15,945 --> 00:15:18,237
"usando este algoritmo
de aprendizagem profunda."

307
00:15:18,237 --> 00:15:21,009
Dando-lhe esta pista, ele tem sucesso.

308
00:15:21,009 --> 00:15:23,891
Conseguiu descobrir um modo
de pensar neste objetos

309
00:15:23,891 --> 00:15:26,271
que permitiu separá-los.

310
00:15:26,271 --> 00:15:28,709
Percebem a ideia.

311
00:15:29,799 --> 00:15:36,906
Neste caso, o humano não está
a ser substituído pelo computador.

312
00:15:36,906 --> 00:15:39,546
Estão a trabalhar em conjunto.

313
00:15:39,546 --> 00:15:42,946
O que estamos a fazer é substituir
algo que exigia uma equipa

314
00:15:42,946 --> 00:15:45,098
de cinco ou seis pessoas,
durante sete anos,

315
00:15:45,098 --> 00:15:47,703
por algo que demora 15 minutos,

316
00:15:47,703 --> 00:15:50,208
com uma pessoa a trabalhar sozinha.

317
00:15:51,638 --> 00:15:54,158
Este processo demora
quatro ou cinco iterações.

318
00:15:54,158 --> 00:15:56,017
Podem ver que temos agora 62%

319
00:15:56,017 --> 00:15:58,976
dos nossos 1,5 milhões de imagens,
classificadas corretamente.

320
00:15:58,976 --> 00:16:01,448
Neste ponto, podemos começar rapidamente

321
00:16:01,448 --> 00:16:03,125
a trabalhar grandes secções,

322
00:16:03,125 --> 00:16:05,664
e a verificar se não há erros.

323
00:16:05,664 --> 00:16:09,616
Se houver erros, podemos fazer
com que o computador o saiba.

324
00:16:09,616 --> 00:16:12,661
Usando este processo, para cada
um dos diferentes grupos,

325
00:16:12,661 --> 00:16:15,148
temos agora uma taxa
de sucesso de 80%,

326
00:16:15,148 --> 00:16:18,483
na classificação de 1,5 milhões
de imagens.

327
00:16:18,483 --> 00:16:20,601
Neste ponto, trata-se de descobrir

328
00:16:20,601 --> 00:16:23,220
as poucas que não estão
classificadas corretamente,

329
00:16:23,220 --> 00:16:26,108
e tentar perceber porquê.

330
00:16:26,108 --> 00:16:27,851
Utilizando esta abordagem

331
00:16:27,851 --> 00:16:31,972
conseguimos uma taxa de classificação
de 97% em 15 minutos.

332
00:16:31,972 --> 00:16:36,572
Esta técnica pode permitir-nos
resolver um grande problema

333
00:16:36,578 --> 00:16:39,614
que é a falta de especialistas
médicos no mundo.

334
00:16:39,614 --> 00:16:43,103
O Fórum Económico Mundial refere
que há 10 a 20 vezes menos médicos

335
00:16:43,103 --> 00:16:45,727
do que o necessário,
nos países em desenvolvimento.

336
00:16:45,727 --> 00:16:47,840
E que serão necessários 300 anos

337
00:16:47,840 --> 00:16:50,734
para formar as pessoas necessárias
para resolver o problema.

338
00:16:50,734 --> 00:16:53,619
Imaginem que podemos ajudar
a melhorar a sua eficiência

339
00:16:53,619 --> 00:16:56,875
usando esta abordagem
de aprendizagem profunda.

340
00:16:56,875 --> 00:16:59,170
Estou muito entusiasmado
com as oportunidades,

341
00:16:59,170 --> 00:17:01,649
mas também estou preocupado
em relação aos problemas.

342
00:17:01,649 --> 00:17:04,403
O problema é que as áreas
a azul, neste mapa,

343
00:17:04,403 --> 00:17:08,172
são locais onde os serviços representam
mais de 80% dos empregos.

344
00:17:08,172 --> 00:17:09,959
O que são os serviços?

345
00:17:09,959 --> 00:17:11,473
Isto são serviços.

346
00:17:11,473 --> 00:17:15,627
São também as coisas que 
os computadores aprenderam a fazer.

347
00:17:15,627 --> 00:17:19,431
80% dos postos de trabalho,
no mundo desenvolvido,

348
00:17:19,431 --> 00:17:21,963
são coisas que os computadores
aprenderam a fazer.

349
00:17:21,963 --> 00:17:23,223
O que significa isto?

350
00:17:23,223 --> 00:17:25,846
Não há problema. Serão substituídos
por outros empregos.

351
00:17:25,846 --> 00:17:28,763
Por exemplo, haverá mais empregos
para especialistas em dados.

352
00:17:28,763 --> 00:17:29,720
Bem, não exatamente.

353
00:17:29,720 --> 00:17:32,838
Os especialistas não demoram muito
tempo a construir estas coisas.

354
00:17:32,838 --> 00:17:35,880
Estes quatro algoritmos foram
desenvolvidos pela mesma pessoa.

355
00:17:35,880 --> 00:17:38,318
Se pensarmos bem, isto já aconteceu antes.

356
00:17:38,318 --> 00:17:42,126
Já vimos, no passado, o resultado
de surgirem coisas novas

357
00:17:42,126 --> 00:17:44,378
que são substituídas por novos empregos.

358
00:17:44,378 --> 00:17:46,494
O que serão estes novos empregos?

359
00:17:46,494 --> 00:17:48,365
É muito difícil fazermos previsões,

360
00:17:48,365 --> 00:17:51,104
porque o desempenho humano
cresce a um ritmo gradual,

361
00:17:51,104 --> 00:17:53,666
mas temos agora um sistema
de aprendizagem profunda,

362
00:17:53,666 --> 00:17:56,893
cuja capacidade cresce exponencialmente.

363
00:17:56,893 --> 00:17:58,408
Estamos neste ponto.

364
00:17:58,408 --> 00:18:00,949
Atualmente, vemos as coisas
à nossa volta e pensamos:

365
00:18:00,949 --> 00:18:03,235
"Os computadores ainda são muito burros."

366
00:18:03,235 --> 00:18:06,664
Mas em cinco anos os computadores
estarão fora deste gráfico.

367
00:18:06,664 --> 00:18:10,529
Temos que começar já
a pensar nesta capacidade.

368
00:18:10,529 --> 00:18:12,579
É claro que já vimos isto.

369
00:18:12,579 --> 00:18:13,966
Na Revolução Industrial,

370
00:18:13,966 --> 00:18:16,817
vimos uma grande avanço na capacidade,
graças às máquinas.

371
00:18:17,667 --> 00:18:20,805
A questão é que, passado algum tempo,
as coisas estabilizaram.

372
00:18:20,805 --> 00:18:22,477
Houve ruturas sociais.

373
00:18:22,477 --> 00:18:25,996
Mas quando as máquinas foram usadas
para gerar poder em todas as situações,

374
00:18:25,996 --> 00:18:28,160
as coisas acalmaram.

375
00:18:28,534 --> 00:18:31,290
A Revolução da Aprendizagem Automática
será muito diferente

376
00:18:31,290 --> 00:18:32,577

da Revolução Industrial,

377
00:18:32,577 --> 00:18:35,632
porque a Revolução da Aprendizagem
Automática nunca estabilizará.

378
00:18:35,632 --> 00:18:38,684
Quanto melhores forem os computadores
em atividades intelectuais,

379
00:18:38,684 --> 00:18:42,862
melhores computadores se construirão,
com mais capacidades intelectuais.

380
00:18:42,862 --> 00:18:44,770
Isto será um tipo de mudança

381
00:18:44,770 --> 00:18:47,248
que o mundo nunca presenciou antes.

382
00:18:47,248 --> 00:18:50,554
A nossa perceção do que é
possível é diferente.

383
00:18:50,974 --> 00:18:52,754
Isto já está a afetar-nos.

384
00:18:52,754 --> 00:18:56,384
Nos últimos 25 anos, à medida que a
produtividade do capital aumentou,

385
00:18:56,400 --> 00:19:00,588
a produtividade laboral manteve-se,
na verdade até desceu um pouco.

386
00:19:01,408 --> 00:19:04,149
Quero que tenhamos esta discussão agora.

387
00:19:04,149 --> 00:19:07,176
Sei que, quando falo disto às pessoas,

388
00:19:07,176 --> 00:19:08,666
elas mostram algum desdém.

389
00:19:08,666 --> 00:19:10,519
"Os computadores não conseguem pensar."

390
00:19:10,519 --> 00:19:13,367
"Eles não se emocionam,
nem percebem poesia."

391
00:19:13,367 --> 00:19:15,888
"Não percebemos, na verdade,
como funcionam."

392
00:19:15,888 --> 00:19:17,354
E depois?

393
00:19:17,354 --> 00:19:19,258
Os computadores conseguem
fazer as coisas

394
00:19:19,258 --> 00:19:22,327
que os humanos são pagos para fazer,
na maior parte do seu tempo.

395
00:19:22,327 --> 00:19:24,038
Este é o tempo para começar a pensar

396
00:19:24,038 --> 00:19:28,505
como vamos ajustar as nossas
estruturas sociais e económicas

397
00:19:28,505 --> 00:19:30,325
para fazer face a esta nova realidade.

398
00:19:30,325 --> 00:19:31,388
Obrigado.

399
00:19:31,388 --> 00:19:32,190
(Aplausos)