1
00:00:00,880 --> 00:00:04,893
Avant, si vous vouliez qu'un ordinateur
fasse quelque chose de nouveau,

2
00:00:04,893 --> 00:00:06,447
vous deviez le programmer.

3
00:00:06,447 --> 00:00:09,858
La programmation, pour ceux 
d'entre vous qui n'en ont jamais fait,

4
00:00:09,858 --> 00:00:13,360
nécessite de décrire,
à un niveau de détail effrayant,

5
00:00:13,360 --> 00:00:16,727
chaque étape que vous voulez
que l'ordinateur fasse

6
00:00:16,727 --> 00:00:19,089
pour atteindre votre but.

7
00:00:19,089 --> 00:00:22,585
Mais si ce que vous voulez, 
vous ne savez pas le faire vous-même,

8
00:00:22,585 --> 00:00:24,648
la programmation devient un immense défi.

9
00:00:24,648 --> 00:00:28,131
C'est à ce défi que se confronta
cet homme, Arthur Samuel.

10
00:00:28,131 --> 00:00:32,208
En 1956, il voulut que cet ordinateur

11
00:00:32,208 --> 00:00:34,548
soit capable de le battre au jeu de dames.

12
00:00:34,548 --> 00:00:36,588
Comment écrire un programme,

13
00:00:36,588 --> 00:00:40,394
décrire, en d'effrayants détails, comment 
être meilleur que vous aux dames ?

14
00:00:40,394 --> 00:00:42,116
Il eut une idée :

15
00:00:42,116 --> 00:00:45,840
faire jouer l'ordinateur contre
lui-même des milliers de fois

16
00:00:45,840 --> 00:00:48,274
et lui faire apprendre à jouer aux dames.

17
00:00:48,274 --> 00:00:51,544
Ça a si bien fonctionné que dès 1962

18
00:00:51,544 --> 00:00:55,561
l'ordinateur avait battu
le champion du Connecticut.

19
00:00:55,561 --> 00:00:58,534
Arthur Samuel est le père
de la machine apprenante,

20
00:00:58,534 --> 00:01:00,251
et j'ai une grande dette envers lui,

21
00:01:00,251 --> 00:01:03,014
parce que je travaille dans ce secteur.

22
00:01:03,014 --> 00:01:04,479
J'ai été président de Kaggle,

23
00:01:04,479 --> 00:01:07,867
une communauté de 200 000 praticiens 
de l'apprentissage automatique.

24
00:01:07,867 --> 00:01:09,925
Kaggle met en place des compétitions

25
00:01:09,925 --> 00:01:13,633
pour les amener à résoudre
des problèmes jusque là non résolus,

26
00:01:13,633 --> 00:01:17,470
et ça a été un succès
des centaines de fois.

27
00:01:17,470 --> 00:01:19,940
De ce point de vue privilégié,
j'ai pu découvrir

28
00:01:19,940 --> 00:01:23,890
beaucoup sur ce que l'apprentissage 
automatique pouvait et peut faire,

29
00:01:23,890 --> 00:01:26,252
et sur ce qu'il pourra faire demain.

30
00:01:26,252 --> 00:01:30,675
Le premier grand succès commercial, 
c'est peut-être Google.

31
00:01:30,675 --> 00:01:33,784
Google a montré qu'il était possible
de trouver des informations

32
00:01:33,784 --> 00:01:35,536
en utilisant un algorithme,

33
00:01:35,536 --> 00:01:38,437
et cet algorithme est basé
sur l'apprentissage automatique.

34
00:01:38,437 --> 00:01:42,323
L'apprentissage automatique a depuis connu
beaucoup d'autres succès commerciaux

35
00:01:42,323 --> 00:01:44,160
Des sociétés comme Amazon ou Netflix

36
00:01:44,160 --> 00:01:47,876
l'utilisent pour suggérer des produits 
que vous pourriez vouloir acheter,

37
00:01:47,876 --> 00:01:49,896
des films que vous pourriez aimer voir.

38
00:01:49,896 --> 00:01:51,653
Parfois, c'en est presque effrayant.

39
00:01:51,653 --> 00:01:53,657
Des entreprises comme LinkedIn et Facebook

40
00:01:53,657 --> 00:01:56,251
vous disent parfois qui
pourraient être vos amis

41
00:01:56,251 --> 00:01:58,228
et vous ne savez pas comment elles font,

42
00:01:58,228 --> 00:02:01,195
car elles utilisent le pouvoir
de l'apprentissage automatique.

43
00:02:01,195 --> 00:02:04,422
Ces algorithmes ont appris à le faire
à partir de données

44
00:02:04,422 --> 00:02:07,399
plutôt que d'être programmés manuellement.

45
00:02:07,399 --> 00:02:09,877
De la même manière, 
IBM a pu faire en sorte

46
00:02:09,877 --> 00:02:13,737
que Watson batte les champions du monde 
de « Jeopardy »,

47
00:02:13,737 --> 00:02:16,674
en répondant à des questions
très difficiles comme :

48
00:02:16,674 --> 00:02:19,799
« Le "Lion de Nimrud" a disparu
en 2003 du musée de cette ville »

49
00:02:19,799 --> 00:02:23,034
C'est aussi pourquoi nous voyons
les premières voitures autonomes.

50
00:02:23,034 --> 00:02:25,926
Être capable de faire
la différence entre, disons,

51
00:02:25,926 --> 00:02:28,298
un arbre et un piéton,
est plutôt important.

52
00:02:28,298 --> 00:02:31,075
Nous ne savons pas écrire
de tels programmes manuellement,

53
00:02:31,075 --> 00:02:34,072
mais l'apprentissage automatique
rend la chose possible.

54
00:02:34,072 --> 00:02:36,910
Cette voiture a roulé
plus de 1,6 millions de km

55
00:02:36,910 --> 00:02:40,196
sur des routes ordinaires,
sans le moindre accident.

56
00:02:40,196 --> 00:02:44,110
Nous savons maintenant que les ordinateurs
peuvent apprendre,

57
00:02:44,110 --> 00:02:46,010
et apprendre à faire des choses

58
00:02:46,010 --> 00:02:48,848
que nous ne savons pas 
toujours faire nous-mêmes,

59
00:02:48,848 --> 00:02:51,733
ou qu'ils peuvent peut-être
faire mieux que nous.

60
00:02:51,733 --> 00:02:55,928
Un des cas les plus étonnants
d'apprentissage automatique que j'ai vu

61
00:02:55,928 --> 00:02:58,320
s'est produit lors d'un projet de Kaggle,

62
00:02:58,320 --> 00:03:01,914
où une équipe dirigée par Geoffrey Hinton,

63
00:03:01,914 --> 00:03:03,463
de l'Université de Toronto,

64
00:03:03,463 --> 00:03:06,140
a gagné un concours de
découverte de la drogue.

65
00:03:06,140 --> 00:03:08,987
Ce qui est extraordinaire n'est
pas juste qu'ils aient battu

66
00:03:08,987 --> 00:03:13,003
tous les algorithmes de Merck ou de la
communauté universitaire internationale,

67
00:03:13,003 --> 00:03:18,059
mais que personne de l'équipe n'ait de
formation en chimie ou biologie,

68
00:03:18,059 --> 00:03:20,225
et qu'ils l'aient fait en deux semaines.

69
00:03:20,230 --> 00:03:22,421
Comment ont-ils fait ?

70
00:03:22,421 --> 00:03:25,342
Avec un algorithme génial
appelé apprentissage profond.

71
00:03:25,342 --> 00:03:28,291
Ça a été si important
que leur succès donna lieu

72
00:03:28,291 --> 00:03:31,412
à un article en une du New York Times
quelques semaines plus tard.

73
00:03:31,412 --> 00:03:34,147
Il s'agit de Geoffrey Hinton,
là, à gauche, sur l'écran.

74
00:03:34,147 --> 00:03:38,488
L'apprentissage profond s'inspire
du fonctionnement du cerveau :

75
00:03:38,488 --> 00:03:44,160
c'est un algorithme qui n'a donc
aucune limite théorique.

76
00:03:44,160 --> 00:03:46,964
Plus vous lui donnez de données,
et de temps de calcul,

77
00:03:46,964 --> 00:03:48,276
plus il devient meilleur.

78
00:03:48,276 --> 00:03:50,615
Le New York Times montra
aussi dans son article

79
00:03:50,615 --> 00:03:52,857
un autre résultat inouï
de l'apprentissage profond,

80
00:03:52,857 --> 00:03:55,569
que je vais maintenant vous montrer.

81
00:03:55,569 --> 00:04:00,510
Il montre que les ordinateurs
sont capables d'écouter et comprendre.

82
00:04:00,510 --> 00:04:03,221
(Vidéo) Richard Rashid:
La dernière étape

83
00:04:03,221 --> 00:04:06,246
que je voudrais pouvoir atteindre,

84
00:04:06,246 --> 00:04:10,959
c'est de vous parler en chinois.

85
00:04:10,959 --> 00:04:13,602
L'élément-clé ici, c'est

86
00:04:13,602 --> 00:04:18,596
que nous avons pu collecter beaucoup
de données auprès de nombreux sinophones

87
00:04:18,596 --> 00:04:21,148
et produire un système de vocalisation

88
00:04:21,148 --> 00:04:25,801
qui convertit du texte chinois
en parole chinoise,

89
00:04:25,801 --> 00:04:29,929
puis nous avons pris environ une heure
d'enregistrement de ma propre voix,

90
00:04:29,929 --> 00:04:31,820
et nous l'avons utilisé pour moduler

91
00:04:31,820 --> 00:04:36,364
le système de vocalisation,
afin que la voix ressemble à la mienne.

92
00:04:36,364 --> 00:04:38,904
Le résultat n'est pas parfait.

93
00:04:38,904 --> 00:04:41,552
Il y a un certain nombre d'erreurs.

94
00:04:41,552 --> 00:04:44,036
(En chinois)

95
00:04:44,036 --> 00:04:49,446
(Applaudissements)

96
00:04:49,446 --> 00:04:53,022
Il y a encore beaucoup de travail à faire

97
00:04:53,022 --> 00:04:56,667
(En chinois)

98
00:04:56,667 --> 00:05:01,345
(Applaudissements)

99
00:05:01,345 --> 00:05:04,744
J. H. : C'était une conférence en
Chine sur l'apprentissage automatique.

100
00:05:04,744 --> 00:05:07,111
Il est rare, 
lors de conférences universitaires,

101
00:05:07,111 --> 00:05:09,588
d'entendre des applaudissements spontanés,

102
00:05:09,588 --> 00:05:12,685
quoique cela arrive parfois aux
conférences TEDx. N'hésitez pas.

103
00:05:12,685 --> 00:05:15,482
L'apprentissage profond était
derrière tout ça.

104
00:05:15,482 --> 00:05:17,007
(Applaudissements)
Merci.

105
00:05:17,007 --> 00:05:19,529
La transcription en anglais,

106
00:05:19,529 --> 00:05:22,698
la traduction en chinois

107
00:05:22,698 --> 00:05:26,008
et la construction de la voix étaient
tous de l'apprentissage profond.

108
00:05:26,008 --> 00:05:29,242
L'apprentissage profond est
cette chose extraordinaire.

109
00:05:29,242 --> 00:05:32,341
C'est un seul algorithme qui semble
pouvoir presque tout faire,

110
00:05:32,341 --> 00:05:35,452
et j'ai découvert qu'un an plus tôt,
il avait aussi appris à voir.

111
00:05:35,452 --> 00:05:37,628
Dans une obscure compétition en Allemagne,

112
00:05:37,628 --> 00:05:40,225
le « Test de Reconnaissance
de Panneaux Routiers »,

113
00:05:40,225 --> 00:05:43,618
l'apprentissage profond a appris à
reconnaître des panneaux,

114
00:05:43,618 --> 00:05:47,482
non seulement mieux
que tous les autres algorithmes,

115
00:05:47,482 --> 00:05:50,189
mais également mieux
que les humains -

116
00:05:50,189 --> 00:05:52,041
environ deux fois mieux :

117
00:05:52,041 --> 00:05:54,037
dès 2011, nous avions un exemple

118
00:05:54,037 --> 00:05:57,442
d'ordinateurs pouvant voir
mieux qu'un être humain.

119
00:05:57,442 --> 00:05:59,491
Depuis, beaucoup de choses
se sont passées.

120
00:05:59,491 --> 00:06:03,005
En 2012, Google a annoncé qu'un
algorithme d'apprentissage profond,

121
00:06:03,005 --> 00:06:04,420
regardant des vidéos YouTube

122
00:06:04,420 --> 00:06:07,857
et analysant les données sur
16 000 ordinateurs pendant un mois,

123
00:06:07,857 --> 00:06:12,218
a pu apprendre, de lui-même, les concepts
de « chat » ou encore d'« être humain »,

124
00:06:12,218 --> 00:06:14,027
juste en regardant ces vidéos.

125
00:06:14,027 --> 00:06:16,379
Les êtres humains apprennent 
de la même manière :

126
00:06:16,379 --> 00:06:19,119
on n'apprend pas une chose
par explication,

127
00:06:19,119 --> 00:06:22,450
mais on l'apprend par 
les perceptions individuelles.

128
00:06:22,450 --> 00:06:25,819
En 2012 également, Geoffrey Hinton,
dont nous avons déjà parlé,

129
00:06:25,819 --> 00:06:28,677
a gagné le très réputé
concours « ImageNet »,

130
00:06:28,677 --> 00:06:32,818
où il s'agit d'identifier,
au sein d'un million et demi d'images,

131
00:06:32,818 --> 00:06:34,256
les images en question.

132
00:06:34,256 --> 00:06:37,789
En 2014, nous sommes tombés
à un taux d'erreur de 6%

133
00:06:37,789 --> 00:06:39,242
en reconnaissance visuelle.

134
00:06:39,242 --> 00:06:41,268
C'est, de nouveau,
mieux qu'un être humain.

135
00:06:41,268 --> 00:06:45,037
Les machines font vraiment
ici un travail extraordinaire,

136
00:06:45,037 --> 00:06:47,306
avec, désormais, des
applications industrielles.

137
00:06:47,306 --> 00:06:50,348
Par exemple, Google a annoncé l'an dernier

138
00:06:50,348 --> 00:06:54,933
qu'ils avaient cartographié l'ensemble
des lieux de France en deux heures,

139
00:06:54,933 --> 00:06:58,380
en fournissant des images
de Street View

140
00:06:58,380 --> 00:07:02,699
à un algorithme d'apprentissage profond,
pour qu'il reconnaisse les numéros de rue.

141
00:07:02,699 --> 00:07:04,919
Imaginez le temps
qu'il aurait fallu avant :

142
00:07:04,919 --> 00:07:08,274
des dizaines de personnes,
plusieurs années.

143
00:07:08,274 --> 00:07:10,185
C'est la même histoire en Chine.

144
00:07:10,185 --> 00:07:14,221
Baidu est, on peut dire,
une sorte de Google chinois.

145
00:07:14,221 --> 00:07:16,504
Ce que vous voyez en haut à gauche,

146
00:07:16,504 --> 00:07:20,478
est une photo que j'ai chargée sur le
système d'apprentissage profond de Baidu,

147
00:07:20,478 --> 00:07:24,247
et, dessous, vous voyez que le système
a compris ce qui était sur la photo,

148
00:07:24,247 --> 00:07:26,483
et trouvé des images similaires.

149
00:07:26,483 --> 00:07:29,219
Les images similaires ont le 
même arrière-plan,

150
00:07:29,219 --> 00:07:30,877
la tête dans le même sens,

151
00:07:30,877 --> 00:07:32,665
certaines même avec la langue sortie.

152
00:07:32,665 --> 00:07:35,695
Ce n'est pas une recherche
sur le texte d'une page web.

153
00:07:35,695 --> 00:07:37,107
Je n'ai chargé qu'une image.

154
00:07:37,107 --> 00:07:41,128
Les ordinateurs peuvent donc désormais
vraiment comprendre ce qu'ils voient,

155
00:07:41,128 --> 00:07:42,752
et consulter une base de données

156
00:07:42,752 --> 00:07:46,306
de centaines de millions d'images
en temps réel.

157
00:07:46,306 --> 00:07:49,536
Quelles conséquences, maintenant que
les ordinateurs peuvent voir ?

158
00:07:49,536 --> 00:07:51,553
Les machines ne savent pas seulement voir.

159
00:07:51,553 --> 00:07:53,622
L'apprentissage profond va plus loin.

160
00:07:53,622 --> 00:07:56,570
Une phrase complexe et
nuancée comme celle-ci,

161
00:07:56,570 --> 00:07:59,394
est maintenant compréhensible
par ces algorithmes.

162
00:07:59,394 --> 00:08:00,697
Comme vous pouvez le voir,

163
00:08:00,697 --> 00:08:03,465
ce système de Stanford,
avec le point rouge en haut,

164
00:08:03,465 --> 00:08:07,384
a compris que la phrase
comportait un jugement négatif.

165
00:08:07,384 --> 00:08:10,790
L'apprentissage profond est désormais
proche des performances humaines

166
00:08:10,802 --> 00:08:15,923
pour comprendre le sujet d'une phrase,
et le jugement qui y est exprimé.

167
00:08:15,923 --> 00:08:18,651
Il a aussi été utilisé
pour lire le chinois,

168
00:08:18,651 --> 00:08:21,807
à un niveau proche de
celui d'un locuteur natif.

169
00:08:21,807 --> 00:08:23,975
Cet algorithme a été développé en Suisse

170
00:08:23,975 --> 00:08:27,331
par des personnes dont aucune ne parlait
ni ne comprenait le chinois.

171
00:08:27,331 --> 00:08:29,382
Utiliser l'apprentissage profond

172
00:08:29,382 --> 00:08:31,601
constitue le meilleur système
dans ce cas,

173
00:08:31,601 --> 00:08:36,718
même comparé
à la compréhension humaine.

174
00:08:36,718 --> 00:08:39,682
Il s'agit ici d'un système
mis en place dans mon entreprise,

175
00:08:39,682 --> 00:08:41,728
qui regroupe tout ça.

176
00:08:41,728 --> 00:08:44,189
Ce sont des images qui ne sont
pas liées à du texte,

177
00:08:44,189 --> 00:08:46,541
et, alors que j'écris ici des phrases,

178
00:08:46,541 --> 00:08:49,510
en temps réel, le système comprend
les images,

179
00:08:49,510 --> 00:08:51,189
identifie leur sujet,

180
00:08:51,189 --> 00:08:54,352
et trouve des images correspondant au
texte que j'écris.

181
00:08:54,352 --> 00:08:57,108
Il comprend véritablement mes phrases,

182
00:08:57,108 --> 00:08:59,332
et comprend véritablement ces images.

183
00:08:59,332 --> 00:09:01,891
Je sais que vous voyez 
ça sur Google,

184
00:09:01,891 --> 00:09:04,666
où l'on peut trouver des images
en tapant un texte,

185
00:09:04,666 --> 00:09:08,090
mais ce n'est qu'une recherche
dans le texte de la page web.

186
00:09:08,090 --> 00:09:11,091
C'est très différent de comprendre
vraiment les images.

187
00:09:11,091 --> 00:09:13,843
C'est quelque chose que
les ordinateurs n'ont pu faire

188
00:09:13,843 --> 00:09:17,091
pour la première fois
que très récemment.

189
00:09:17,091 --> 00:09:21,182
Les ordinateurs peuvent donc
non seulement voir, mais aussi lire,

190
00:09:21,182 --> 00:09:24,947
et, bien sûr, nous avons montré qu'ils
peuvent comprendre ce qu'ils entendent.

191
00:09:24,947 --> 00:09:28,389
Pas très surprenant si je vous
dis maintenant qu'ils peuvent écrire.

192
00:09:28,389 --> 00:09:33,172
A partir d'un algorithme d'apprentissage
profond, j'ai généré ce texte hier.

193
00:09:33,172 --> 00:09:37,096
Ici, ce sont des textes générés par un
algorithme de Stanford.

194
00:09:37,096 --> 00:09:38,860
Chacune de ces phrases a été générée

195
00:09:38,860 --> 00:09:43,109
par un algorithme d'apprentissage profond
décrivant l'image au-dessus.

196
00:09:43,109 --> 00:09:47,581
Cet algorithme n'avait jamais vu un homme
habillé en noir jouant de la guitare.

197
00:09:47,581 --> 00:09:49,801
Il avait vu déjà vu un homme,
déjà vu du noir,

198
00:09:49,801 --> 00:09:51,400
déjà vu une guitare,

199
00:09:51,400 --> 00:09:55,694
mais a généré de manière autonome
cette nouvelle description de cette photo.

200
00:09:55,694 --> 00:09:59,196
Nous n'atteignons pas encore
les performances humaines, mais presque.

201
00:09:59,196 --> 00:10:03,264
Dans les tests réalisés, les personnes
préfèrent la légende de l'ordinateur

202
00:10:03,264 --> 00:10:04,791
une fois sur quatre.

203
00:10:04,791 --> 00:10:06,855
Ce système n'a que deux semaines,

204
00:10:06,855 --> 00:10:08,701
et l'on peut supposer que d'ici un an,

205
00:10:08,701 --> 00:10:11,502
l'algorithme aurait surpassé
les performances humaines

206
00:10:11,502 --> 00:10:13,364
- au rythme où ça va.

207
00:10:13,364 --> 00:10:16,413
Les ordinateurs peuvent donc aussi écrire.

208
00:10:16,413 --> 00:10:19,888
Si l'on rassemble tout ça, les
perspectives deviennent prometteuses.

209
00:10:19,888 --> 00:10:21,380
Par exemple, en médecine,

210
00:10:21,380 --> 00:10:23,905
une équipe de Boston a annoncé
qu'elle avait découvert

211
00:10:23,905 --> 00:10:26,854
des dizaines de nouveaux signes cliniques

212
00:10:26,854 --> 00:10:31,120
de tumeurs, qui aident les docteurs
à diagnostiquer un cancer.

213
00:10:32,220 --> 00:10:34,516
De façon très proche, à Stanford,

214
00:10:34,516 --> 00:10:38,179
une équipe a annoncé qu'en
observant des tissus au microscope,

215
00:10:38,179 --> 00:10:40,560
ils ont développé un système
de machine apprenante

216
00:10:40,560 --> 00:10:43,142
qui est vraiment meilleur
qu'un pathologiste

217
00:10:43,142 --> 00:10:47,519
pour prédire les taux de survie
de personnes atteintes de cancer.

218
00:10:47,519 --> 00:10:50,764
Dans ces deux cas, non seulement
les prévisions étaient meilleures,

219
00:10:50,764 --> 00:10:53,266
mais elles ont aussi permis
des découvertes majeures.

220
00:10:53,276 --> 00:10:54,781
Dans l'exemple en radiologie,

221
00:10:54,781 --> 00:10:57,876
de nouveaux signes cliniques
compréhensibles par l'homme.

222
00:10:57,876 --> 00:10:59,668
Dans l'exemple en pathologie,

223
00:10:59,668 --> 00:11:04,168
le système informatique a découvert
que les cellules autour du cancer

224
00:11:04,168 --> 00:11:07,508
étaient aussi importantes que les cellules
cancéreuses elles-mêmes

225
00:11:07,508 --> 00:11:09,260
pour porter un diagnostic,

226
00:11:09,260 --> 00:11:14,621
à rebours de ce qui a été enseigné
aux pathologistes pendant des décennies.

227
00:11:14,621 --> 00:11:17,913
Dans ces deux cas, les systèmes
ont été développés

228
00:11:17,913 --> 00:11:21,534
en associant experts médicaux et
experts de l'apprentissage automatique,

229
00:11:21,534 --> 00:11:24,275
mais, depuis l'an dernier,
un nouveau cap a été franchi.

230
00:11:24,275 --> 00:11:27,824
Il s'agit ici d'un exemple
d'identification de zones cancéreuses

231
00:11:27,824 --> 00:11:30,354
d'un tissu humain au microscope.

232
00:11:30,354 --> 00:11:34,967
Ce système peut identifier ces zones
avec plus de précisions,

233
00:11:34,967 --> 00:11:37,742
ou, du moins, avec autant de précision
qu'un pathologiste,

234
00:11:37,742 --> 00:11:41,134
mais a été entièrement créé par
l'apprentissage profond créé

235
00:11:41,134 --> 00:11:43,660
par des personnes n'ayant
pas de formation médicale.

236
00:11:44,730 --> 00:11:47,285
De même, pour cette
classification de neurones.

237
00:11:47,285 --> 00:11:50,953
On peut désormais classer les neurones
avec autant de précisions qu'un humain,

238
00:11:50,953 --> 00:11:53,670
et ce système a été créé
avec l'apprentissage profond,

239
00:11:53,670 --> 00:11:56,921
par des gens n'ayant pas de
connaissance médicale antérieure.

240
00:11:56,921 --> 00:12:00,148
Moi-même, sans connaissance
médicale antérieure,

241
00:12:00,148 --> 00:12:03,875
je semble être pleinement qualifié 
pour créer une entreprise dans la santé

242
00:12:03,875 --> 00:12:06,021
- ce que j'ai fait.

243
00:12:06,021 --> 00:12:07,761
J'étais terrifié à cette idée,

244
00:12:07,761 --> 00:12:10,650
mais, la théorie suggérait
qu'il devait être possible

245
00:12:10,650 --> 00:12:16,142
d'être utile dans ce secteur en ne maniant
que ces moyens d'analyse de données.

246
00:12:16,142 --> 00:12:18,622
Et, heureusement, les retours
ont été fabuleux,

247
00:12:18,622 --> 00:12:20,978
ceux des médias,
mais aussi ceux du corps médical,

248
00:12:20,978 --> 00:12:23,322
qui a été d'un grand soutien.

249
00:12:23,322 --> 00:12:27,471
La théorie, c'est que l'on peut isoler
la partie centrale du processus médical,

250
00:12:27,471 --> 00:12:30,374
pour procéder, autant que possible,
à des analyses de données,

251
00:12:30,374 --> 00:12:33,429
et laisser les médecins se consacrer
sur leurs forces.

252
00:12:33,429 --> 00:12:35,031
Je veux vous donner un exemple.

253
00:12:35,031 --> 00:12:39,975
Il nous faut désormais environ 15 minutes
pour faire un nouveau diagnostic médical,

254
00:12:39,975 --> 00:12:41,929
et je vais vous le montrer en temps réel,

255
00:12:41,929 --> 00:12:45,416
même si je l'ai réduit à trois minutes
en supprimant certaines parties.

256
00:12:45,416 --> 00:12:48,477
Plutôt que de vous montrer la création
d'un diagnostic médical,

257
00:12:48,477 --> 00:12:51,846
je vais vous montrer un diagnostic
d'images de voitures :

258
00:12:51,846 --> 00:12:54,068
c'est quelque chose que
tout le monde comprend.

259
00:12:54,068 --> 00:12:57,269
Nous commençons avec environ
1,5 million d'images de voitures,

260
00:12:57,269 --> 00:13:00,475
et ce que je veux, c'est les organiser
selon l'angle selon lequel

261
00:13:00,475 --> 00:13:02,698
la photo a été prise.

262
00:13:02,698 --> 00:13:06,586
Ces images ne sont pas cataloguées :
je dois partir de zéro.

263
00:13:06,586 --> 00:13:08,451
Notre algorithme
d'apprentissage profond

264
00:13:08,451 --> 00:13:12,158
permet d'identifier les structures
dans ces images.

265
00:13:12,158 --> 00:13:15,778
L'être humain et l'ordinateur peuvent
maintenant travailler ensemble.

266
00:13:15,778 --> 00:13:17,956
L'être humain, comme vous le voyez ici,

267
00:13:17,956 --> 00:13:20,631
indique à la machine
les zones d'intérêt,

268
00:13:20,631 --> 00:13:25,281
celles à lesquelles il veut qu'elle 
s'intéresse pour améliorer son algorithme.

269
00:13:25,281 --> 00:13:29,577
Les systèmes d'apprentissage profond sont
des espaces à 16 000 dimensions [sic],

270
00:13:29,577 --> 00:13:33,009
et vous pouvez voir ici l'ordinateur qui
pivote au sein de cet espace,

271
00:13:33,009 --> 00:13:35,001
pour trouver de nouvelles structures.

272
00:13:35,001 --> 00:13:36,782
Quand il y arrive,

273
00:13:36,782 --> 00:13:40,786
l'être humain peut ensuite lui signaler
les zones intéressantes.

274
00:13:40,786 --> 00:13:43,208
Ici, l'ordinateur a pu trouver
une zone avec,

275
00:13:43,208 --> 00:13:45,770
par exemple, des angles.

276
00:13:45,770 --> 00:13:47,376
Au fur et à mesure,

277
00:13:47,376 --> 00:13:49,716
nous en disons de plus en plus
à l'ordinateur

278
00:13:49,716 --> 00:13:52,144
sur le type de structures
que l'on recherche.

279
00:13:52,144 --> 00:13:53,916
Imaginez un diagnostic médical,

280
00:13:53,916 --> 00:13:57,266
par exemple un pathologiste identifiant
des zones malades,

281
00:13:57,266 --> 00:14:02,292
ou un radiologue montrant
des nodules potentiellement inquiétants.

282
00:14:02,292 --> 00:14:04,851
Parfois, cela devient difficile
pour l'algorithme.

283
00:14:04,851 --> 00:14:06,815
Ici, il s'est un peu emmêlé les pinceaux.

284
00:14:06,815 --> 00:14:09,365
L'avant et l'arrière des voitures
sont mêlés.

285
00:14:09,365 --> 00:14:11,437
Nous devons faire
un peu plus attention,

286
00:14:11,437 --> 00:14:14,669
et dissocier manuellement les avants
des arrières,

287
00:14:14,669 --> 00:14:21,525
puis dire à l'ordinateur que
cette classification nous importe.

288
00:14:21,525 --> 00:14:24,200
Nous continuons comme ça,
et, un peu plus tard,

289
00:14:24,200 --> 00:14:26,446
nous allons former l'algorithme

290
00:14:26,446 --> 00:14:28,420
sur la base de ces classifications,

291
00:14:28,420 --> 00:14:30,445
et espérer qu'il s'est amélioré.

292
00:14:30,445 --> 00:14:33,518
Comme vous le voyez, il a commencé à
estomper certaines photos,

293
00:14:33,518 --> 00:14:38,226
montrant qu'il sait déjà comment
comprendre certaines d'entre elles.

294
00:14:38,226 --> 00:14:41,128
Nous pouvons ensuite utiliser ce
concept d'images similaires,

295
00:14:41,128 --> 00:14:43,222
et, voir que, en s'en servant,

296
00:14:43,222 --> 00:14:47,241
l'ordinateur est désormais capable de
trouver seulement les avants de voiture.

297
00:14:47,241 --> 00:14:50,188
A ce stade, l'être humain
peut dire à l'ordinateur :

298
00:14:50,188 --> 00:14:53,645
«Ok, tu t'en es bien sorti. »

299
00:14:53,645 --> 00:14:56,402
Bien sûr, parfois, même à ce stade,

300
00:14:56,402 --> 00:14:59,511
il est encore difficile
de faire des groupes.

301
00:14:59,511 --> 00:15:03,395
Ici, même après avoir laissé l'ordinateur
pivoter pendant un moment,

302
00:15:03,399 --> 00:15:06,744
les photos de voitures vues de droite
et celles vues de gauche sont

303
00:15:06,744 --> 00:15:08,220
encore toutes mêlées.

304
00:15:08,220 --> 00:15:10,362
Nous lui donnons de nouveau
des indications,

305
00:15:10,362 --> 00:15:13,338
puis lui disons de chercher
une projection qui fait le tri

306
00:15:13,338 --> 00:15:15,945
entre les photos de droite et de gauche -

307
00:15:15,945 --> 00:15:18,067
avec l'algorithme d'apprentissage profond.

308
00:15:18,067 --> 00:15:21,009
Avec ces indications, nous avons réussi.

309
00:15:21,009 --> 00:15:26,281
Il a trouvé une manière de considérer
ces objets qui en permet le tri.

310
00:15:26,281 --> 00:15:28,709
Vous avez saisi l'idée.

311
00:15:28,709 --> 00:15:36,906
Nous ne somme pas ici dans une
substitution de l'homme par la machine,

312
00:15:36,906 --> 00:15:39,546
mais dans un travail conjoint.

313
00:15:39,546 --> 00:15:43,096
Ce que nous faisons, c'est prendre
quelque chose qui mobilisait une équipe

314
00:15:43,096 --> 00:15:45,098
de cinq ou six personnes pendant sept ans

315
00:15:45,098 --> 00:15:50,183
et y substituer quelque chose qui
prend 15 minutes à une seule personne.

316
00:15:50,208 --> 00:15:54,158
Cette méthode nécessite quatre
ou cinq itérations,

317
00:15:54,158 --> 00:15:56,024
et nous avons maintenant 62%

318
00:15:56,024 --> 00:15:58,976
de nos 1,5 million d'images
classifiées correctement.

319
00:15:58,976 --> 00:16:01,448
A ce stade, nous pouvons
commencer à prendre

320
00:16:01,448 --> 00:16:02,745
des parties entières,

321
00:16:02,745 --> 00:16:05,664
et vérifier rapidement
qu'il n'y a pas d'erreurs.

322
00:16:05,664 --> 00:16:09,616
Quand il y a des erreurs, nous en
informons l'ordinateur,

323
00:16:09,616 --> 00:16:12,661
et, en utilisant cette méthode
pour tous les groupes,

324
00:16:12,661 --> 00:16:15,148
nous en arrivons à un
taux de réussite de 80%

325
00:16:15,148 --> 00:16:17,563
dans la classification de ces images.

326
00:16:17,563 --> 00:16:19,641
A partir de là, il s'agit juste

327
00:16:19,641 --> 00:16:23,220
de trouver le petit nombre d'images
mal classées,

328
00:16:23,220 --> 00:16:26,108
et à essayer de comprendre pourquoi.

329
00:16:26,108 --> 00:16:27,851
Avec cette approche,

330
00:16:27,851 --> 00:16:31,972
en 15 minutes, nous parvenons à un 
taux de classification de 97%.

331
00:16:31,972 --> 00:16:36,572
Ce type de méthode pourrait nous
permettre de régler un problème majeur :

332
00:16:36,578 --> 00:16:39,614
le manque d'expertise médicale
dans le monde.

333
00:16:39,614 --> 00:16:43,103
Le Forum économique mondial estime
qu'il faudrait 10 à 20 fois plus

334
00:16:43,103 --> 00:16:45,727
de médecins dans les pays
en voie de développement

335
00:16:45,727 --> 00:16:47,840
et qu'il faudrait 300 ans

336
00:16:47,840 --> 00:16:50,734
pour former suffisamment de personnes
et régler ce problème.

337
00:16:50,734 --> 00:16:53,619
Imaginez alors que nous puissions
accroître leur productivité

338
00:16:53,619 --> 00:16:56,458
avec ces méthodes d'apprentissage profond.

339
00:16:56,458 --> 00:16:58,690
Les opportunités m'enchantent.

340
00:16:58,690 --> 00:17:01,279
Mais les dangers m’inquiètent.

341
00:17:01,279 --> 00:17:04,403
Le problème, c'est que dans tous les pays
en bleu sur la carte,

342
00:17:04,403 --> 00:17:08,172
le secteur tertiaire représente
plus de 80% de l'emploi.

343
00:17:08,172 --> 00:17:09,959
C'est quoi le secteur tertiaire ?

344
00:17:09,959 --> 00:17:11,473
C'est ça.

345
00:17:11,473 --> 00:17:15,627
Ce sont exactement ces choses que les
ordinateurs viennent d'apprendre à faire.

346
00:17:15,627 --> 00:17:19,431
80% des emplois dans les pays développés

347
00:17:19,431 --> 00:17:21,963
consiste en ce qu'une machine
sait désormais faire.

348
00:17:21,963 --> 00:17:23,403
Qu'est-ce que cela veut dire ?

349
00:17:23,403 --> 00:17:25,986
Tout ira bien.
D'autres emplois les remplaceront,

350
00:17:25,986 --> 00:17:28,693
par exemple, dans l'analyse de données.

351
00:17:28,693 --> 00:17:29,505
Pas vraiment.

352
00:17:29,505 --> 00:17:32,628
Ce n'est pas long pour un analyste de
données de construire ça.

353
00:17:32,628 --> 00:17:35,880
Par exemple, ces quatre algorithmes
sont tous de la même personne.

354
00:17:35,880 --> 00:17:38,318
Vous pensez peut-être
que c'est du déjà-vu,

355
00:17:38,318 --> 00:17:42,126
que nous connaissons les conséquences
de l'arrivée de nouvelles choses,

356
00:17:42,126 --> 00:17:44,378
de nouveaux emplois qui
remplacent les anciens.

357
00:17:44,378 --> 00:17:46,494
Que seront ces nouveaux emplois ?

358
00:17:46,494 --> 00:17:48,365
C'est très dur à estimer :

359
00:17:48,365 --> 00:17:51,104
l'amélioration des performances
humaines est graduelle,

360
00:17:51,104 --> 00:17:53,666
tandis que ce système,
l'apprentissage profond,

361
00:17:53,666 --> 00:17:56,893
s'améliore de façon exponentielle.

362
00:17:56,893 --> 00:17:58,498
Et nous en sommes là.

363
00:17:58,498 --> 00:18:00,559
En regardant autour de nous,
nous pensons :

364
00:18:00,559 --> 00:18:03,235
« Les machines sont
toujours idiotes ». Pas vrai ?

365
00:18:03,235 --> 00:18:06,664
Mais d'ici cinq ans, elles seront
bien plus haut dans la courbe.

366
00:18:06,664 --> 00:18:10,529
Nous devons commencer à penser
dès maintenant à ces capacités futures.

367
00:18:10,529 --> 00:18:12,579
Ce n'est pas la première fois, bien sûr.

368
00:18:12,579 --> 00:18:17,636
Les machines de la Révolution Industrielle
augmentèrent nos capacités.

369
00:18:17,636 --> 00:18:20,805
Mais, au bout d'un moment,
les choses se calmèrent.

370
00:18:20,805 --> 00:18:22,507
Il y eut des troubles sociaux, mais

371
00:18:22,507 --> 00:18:25,946
une fois les machines utilisées 
pour la plupart des cas utiles,

372
00:18:25,946 --> 00:18:28,300
les choses s'apaisèrent.

373
00:18:28,300 --> 00:18:30,133
La Révolution des Machines Apprenantes

374
00:18:30,133 --> 00:18:32,682
sera très différente
de la Révolution Industrielle,

375
00:18:32,682 --> 00:18:35,632
parce que dans son cas, les choses
ne se calmeront pas.

376
00:18:35,632 --> 00:18:38,614
Plus les ordinateurs progressent
dans les activités cérébrales,

377
00:18:38,614 --> 00:18:42,862
plus ils peuvent créer de meilleurs
ordinateurs, et progresser encore.

378
00:18:42,862 --> 00:18:44,770
Nous sommes devant un type d'évolution

379
00:18:44,770 --> 00:18:47,248
que le monde n'a jamais
expérimentée auparavant :

380
00:18:47,248 --> 00:18:50,554
notre compréhension antérieure
des possibles n'est pas adaptée.

381
00:18:50,974 --> 00:18:52,754
Nous en subissons déjà les impacts.

382
00:18:52,754 --> 00:18:56,384
Ces 25 dernières années, alors que
la productivité du capital augmentait,

383
00:18:56,400 --> 00:19:01,408
la productivité du travail restait stable,
était même légèrement en baisse.

384
00:19:01,408 --> 00:19:04,149
Je voudrais lancer
ce débat dès maintenant.

385
00:19:04,149 --> 00:19:07,176
Je sais d'expérience que lorsque
je parle de ça aux gens,

386
00:19:07,176 --> 00:19:08,666
ils peuvent être sceptiques.

387
00:19:08,666 --> 00:19:10,339
Les machines ne peuvent pas penser,

388
00:19:10,339 --> 00:19:13,367
elles n'ont pas d'émotions,
ne comprennent pas la poésie.

389
00:19:13,367 --> 00:19:15,888
Nous ne comprenons pas
comment elles fonctionnent.

390
00:19:15,888 --> 00:19:17,374
Et alors ?

391
00:19:17,374 --> 00:19:21,868
Elles peuvent dès maintenant faire
ce pour quoi les hommes sont payés.

392
00:19:21,897 --> 00:19:23,628
C'est le moment de commencer

393
00:19:23,628 --> 00:19:28,015
à réfléchir à la façon d'ajuster nos
structures sociales et économiques,

394
00:19:28,015 --> 00:19:29,995
d'être au fait de cette nouvelle réalité.

395
00:19:29,995 --> 00:19:31,098
Merci.

396
00:19:31,098 --> 00:19:32,190
(Applaudissements)