WEBVTT

00:00:00.880 --> 00:00:04.893
Avant, si vous vouliez qu'un ordinateur
fasse quelque chose de nouveau,

00:00:04.893 --> 00:00:06.447
vous deviez le programmer.

00:00:06.447 --> 00:00:09.858
La programmation, pour ceux 
d'entre vous qui n'en ont jamais fait,

00:00:09.858 --> 00:00:13.360
nécessite de décrire,
à un niveau de détail effrayant,

00:00:13.360 --> 00:00:16.727
chaque étape que vous voulez
que l'ordinateur fasse

00:00:16.727 --> 00:00:19.089
pour atteindre votre but.

00:00:19.089 --> 00:00:22.585
Mais si ce que vous voulez, 
vous ne savez pas le faire vous-même,

00:00:22.585 --> 00:00:24.648
la programmation devient un immense défi.

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
C'est à ce défi que se confronta
cet homme, Arthur Samuel.

00:00:28.131 --> 00:00:32.208
En 1956, il voulut que cet ordinateur

00:00:32.208 --> 00:00:34.548
soit capable de le battre au jeu de dames.

00:00:34.548 --> 00:00:36.588
Comment écrire un programme,

00:00:36.588 --> 00:00:40.394
décrire, en d'effrayants détails, comment 
être meilleur que vous aux dames ?

00:00:40.394 --> 00:00:42.116
Il eut une idée :

00:00:42.116 --> 00:00:45.840
faire jouer l'ordinateur contre
lui-même des milliers de fois

00:00:45.840 --> 00:00:48.274
et lui faire apprendre à jouer aux dames.

00:00:48.274 --> 00:00:51.544
Ça a si bien fonctionné que dès 1962

00:00:51.544 --> 00:00:55.561
l'ordinateur avait battu
le champion du Connecticut.

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
Arthur Samuel est le père
de la machine apprenante,

00:00:58.534 --> 00:01:00.251
et j'ai une grande dette envers lui,

00:01:00.251 --> 00:01:03.014
parce que je travaille dans ce secteur.

00:01:03.014 --> 00:01:04.479
J'ai été président de Kaggle,

00:01:04.479 --> 00:01:07.867
une communauté de 200 000 praticiens 
de l'apprentissage automatique.

00:01:07.867 --> 00:01:09.925
Kaggle met en place des compétitions

00:01:09.925 --> 00:01:13.633
pour les amener à résoudre
des problèmes jusque là non résolus,

00:01:13.633 --> 00:01:17.470
et ça a été un succès
des centaines de fois.

00:01:17.470 --> 00:01:19.940
De ce point de vue privilégié,
j'ai pu découvrir

00:01:19.940 --> 00:01:23.890
beaucoup sur ce que l'apprentissage 
automatique pouvait et peut faire,

00:01:23.890 --> 00:01:26.252
et sur ce qu'il pourra faire demain.

00:01:26.252 --> 00:01:30.675
Le premier grand succès commercial, 
c'est peut-être Google.

00:01:30.675 --> 00:01:33.784
Google a montré qu'il était possible
de trouver des informations

00:01:33.784 --> 00:01:35.536
en utilisant un algorithme,

00:01:35.536 --> 00:01:38.437
et cet algorithme est basé
sur l'apprentissage automatique.

00:01:38.437 --> 00:01:42.323
L'apprentissage automatique a depuis connu
beaucoup d'autres succès commerciaux

00:01:42.323 --> 00:01:44.160
Des sociétés comme Amazon ou Netflix

00:01:44.160 --> 00:01:47.876
l'utilisent pour suggérer des produits 
que vous pourriez vouloir acheter,

00:01:47.876 --> 00:01:49.896
des films que vous pourriez aimer voir.

00:01:49.896 --> 00:01:51.653
Parfois, c'en est presque effrayant.

00:01:51.653 --> 00:01:53.657
Des entreprises comme LinkedIn et Facebook

00:01:53.657 --> 00:01:56.251
vous disent parfois qui
pourraient être vos amis

00:01:56.251 --> 00:01:58.228
et vous ne savez pas comment elles font,

00:01:58.228 --> 00:02:01.195
car elles utilisent le pouvoir
de l'apprentissage automatique.

00:02:01.195 --> 00:02:04.422
Ces algorithmes ont appris à le faire
à partir de données

00:02:04.422 --> 00:02:07.399
plutôt que d'être programmés manuellement.

NOTE Paragraph

00:02:07.399 --> 00:02:09.877
De la même manière, 
IBM a pu faire en sorte

00:02:09.877 --> 00:02:13.737
que Watson batte les champions du monde 
de « Jeopardy »,

00:02:13.737 --> 00:02:16.674
en répondant à des questions
très difficiles comme :

00:02:16.674 --> 00:02:19.799
« Le "Lion de Nimrud" a disparu
en 2003 du musée de cette ville »

00:02:19.799 --> 00:02:23.034
C'est aussi pourquoi nous voyons
les premières voitures autonomes.

00:02:23.034 --> 00:02:25.926
Être capable de faire
la différence entre, disons,

00:02:25.926 --> 00:02:28.298
un arbre et un piéton,
est plutôt important.

00:02:28.298 --> 00:02:31.075
Nous ne savons pas écrire
de tels programmes manuellement,

00:02:31.075 --> 00:02:34.072
mais l'apprentissage automatique
rend la chose possible.

00:02:34.072 --> 00:02:36.910
Cette voiture a roulé
plus de 1,6 millions de km

00:02:36.910 --> 00:02:40.196
sur des routes ordinaires,
sans le moindre accident.

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
Nous savons maintenant que les ordinateurs
peuvent apprendre,

00:02:44.110 --> 00:02:46.010
et apprendre à faire des choses

00:02:46.010 --> 00:02:48.848
que nous ne savons pas 
toujours faire nous-mêmes,

00:02:48.848 --> 00:02:51.733
ou qu'ils peuvent peut-être
faire mieux que nous.

00:02:51.733 --> 00:02:55.928
Un des cas les plus étonnants
d'apprentissage automatique que j'ai vu

00:02:55.928 --> 00:02:58.320
s'est produit lors d'un projet de Kaggle,

00:02:58.320 --> 00:03:01.914
où une équipe dirigée par Geoffrey Hinton,

00:03:01.914 --> 00:03:03.463
de l'Université de Toronto,

00:03:03.463 --> 00:03:06.140
a gagné un concours de
découverte de la drogue.

00:03:06.140 --> 00:03:08.987
Ce qui est extraordinaire n'est
pas juste qu'ils aient battu

00:03:08.987 --> 00:03:13.003
tous les algorithmes de Merck ou de la
communauté universitaire internationale,

00:03:13.003 --> 00:03:18.059
mais que personne de l'équipe n'ait de
formation en chimie ou biologie,

00:03:18.059 --> 00:03:20.225
et qu'ils l'aient fait en deux semaines.

00:03:20.230 --> 00:03:22.421
Comment ont-ils fait ?

00:03:22.421 --> 00:03:25.342
Avec un algorithme génial
appelé apprentissage profond.

00:03:25.342 --> 00:03:28.291
Ça a été si important
que leur succès donna lieu

00:03:28.291 --> 00:03:31.412
à un article en une du New York Times
quelques semaines plus tard.

00:03:31.412 --> 00:03:34.147
Il s'agit de Geoffrey Hinton,
là, à gauche, sur l'écran.

00:03:34.147 --> 00:03:38.488
L'apprentissage profond s'inspire
du fonctionnement du cerveau :

00:03:38.488 --> 00:03:44.160
c'est un algorithme qui n'a donc
aucune limite théorique.

00:03:44.160 --> 00:03:46.964
Plus vous lui donnez de données,
et de temps de calcul,

00:03:46.964 --> 00:03:48.276
plus il devient meilleur.

NOTE Paragraph

00:03:48.276 --> 00:03:50.615
Le New York Times montra
aussi dans son article

00:03:50.615 --> 00:03:52.857
un autre résultat inouï
de l'apprentissage profond,

00:03:52.857 --> 00:03:55.569
que je vais maintenant vous montrer.

00:03:55.569 --> 00:04:00.510
Il montre que les ordinateurs
sont capables d'écouter et comprendre.

NOTE Paragraph

00:04:00.510 --> 00:04:03.221
(Vidéo) Richard Rashid:
La dernière étape

00:04:03.221 --> 00:04:06.246
que je voudrais pouvoir atteindre,

00:04:06.246 --> 00:04:10.959
c'est de vous parler en chinois.

00:04:10.959 --> 00:04:13.602
L'élément-clé ici, c'est

00:04:13.602 --> 00:04:18.596
que nous avons pu collecter beaucoup
de données auprès de nombreux sinophones

00:04:18.596 --> 00:04:21.148
et produire un système de vocalisation

00:04:21.148 --> 00:04:25.801
qui convertit du texte chinois
en parole chinoise,

00:04:25.801 --> 00:04:29.929
puis nous avons pris environ une heure
d'enregistrement de ma propre voix,

00:04:29.929 --> 00:04:31.820
et nous l'avons utilisé pour moduler

00:04:31.820 --> 00:04:36.364
le système de vocalisation,
afin que la voix ressemble à la mienne.

00:04:36.364 --> 00:04:38.904
Le résultat n'est pas parfait.

00:04:38.904 --> 00:04:41.552
Il y a un certain nombre d'erreurs.

00:04:41.552 --> 00:04:44.036
(En chinois)

00:04:44.036 --> 00:04:49.446
(Applaudissements)

00:04:49.446 --> 00:04:53.022
Il y a encore beaucoup de travail à faire

00:04:53.022 --> 00:04:56.667
(En chinois)

00:04:56.667 --> 00:05:01.345
(Applaudissements)

NOTE Paragraph

00:05:01.345 --> 00:05:04.744
J. H. : C'était une conférence en
Chine sur l'apprentissage automatique.

00:05:04.744 --> 00:05:07.111
Il est rare, 
lors de conférences universitaires,

00:05:07.111 --> 00:05:09.588
d'entendre des applaudissements spontanés,

00:05:09.588 --> 00:05:12.685
quoique cela arrive parfois aux
conférences TEDx. N'hésitez pas.

00:05:12.685 --> 00:05:15.482
L'apprentissage profond était
derrière tout ça.

00:05:15.482 --> 00:05:17.007
(Applaudissements)
Merci.

00:05:17.007 --> 00:05:19.529
La transcription en anglais,

00:05:19.529 --> 00:05:22.698
la traduction en chinois

00:05:22.698 --> 00:05:26.008
et la construction de la voix étaient
tous de l'apprentissage profond.

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
L'apprentissage profond est
cette chose extraordinaire.

00:05:29.242 --> 00:05:32.341
C'est un seul algorithme qui semble
pouvoir presque tout faire,

00:05:32.341 --> 00:05:35.452
et j'ai découvert qu'un an plus tôt,
il avait aussi appris à voir.

00:05:35.452 --> 00:05:37.628
Dans une obscure compétition en Allemagne,

00:05:37.628 --> 00:05:40.225
le « Test de Reconnaissance
de Panneaux Routiers »,

00:05:40.225 --> 00:05:43.618
l'apprentissage profond a appris à
reconnaître des panneaux,

00:05:43.618 --> 00:05:47.482
non seulement mieux
que tous les autres algorithmes,

00:05:47.482 --> 00:05:50.189
mais également mieux
que les humains -

00:05:50.189 --> 00:05:52.041
environ deux fois mieux :

00:05:52.041 --> 00:05:54.037
dès 2011, nous avions un exemple

00:05:54.037 --> 00:05:57.442
d'ordinateurs pouvant voir
mieux qu'un être humain.

00:05:57.442 --> 00:05:59.491
Depuis, beaucoup de choses
se sont passées.

00:05:59.491 --> 00:06:03.005
En 2012, Google a annoncé qu'un
algorithme d'apprentissage profond,

00:06:03.005 --> 00:06:04.420
regardant des vidéos YouTube

00:06:04.420 --> 00:06:07.857
et analysant les données sur
16 000 ordinateurs pendant un mois,

00:06:07.857 --> 00:06:12.218
a pu apprendre, de lui-même, les concepts
de « chat » ou encore d'« être humain »,

00:06:12.218 --> 00:06:14.027
juste en regardant ces vidéos.

00:06:14.027 --> 00:06:16.379
Les êtres humains apprennent 
de la même manière :

00:06:16.379 --> 00:06:19.119
on n'apprend pas une chose
par explication,

00:06:19.119 --> 00:06:22.450
mais on l'apprend par 
les perceptions individuelles.

00:06:22.450 --> 00:06:25.819
En 2012 également, Geoffrey Hinton,
dont nous avons déjà parlé,

00:06:25.819 --> 00:06:28.677
a gagné le très réputé
concours « ImageNet »,

00:06:28.677 --> 00:06:32.818
où il s'agit d'identifier,
au sein d'un million et demi d'images,

00:06:32.818 --> 00:06:34.256
les images en question.

00:06:34.256 --> 00:06:37.789
En 2014, nous sommes tombés
à un taux d'erreur de 6%

00:06:37.789 --> 00:06:39.242
en reconnaissance visuelle.

00:06:39.242 --> 00:06:41.268
C'est, de nouveau,
mieux qu'un être humain.

NOTE Paragraph

00:06:41.268 --> 00:06:45.037
Les machines font vraiment
ici un travail extraordinaire,

00:06:45.037 --> 00:06:47.306
avec, désormais, des
applications industrielles.

00:06:47.306 --> 00:06:50.348
Par exemple, Google a annoncé l'an dernier

00:06:50.348 --> 00:06:54.933
qu'ils avaient cartographié l'ensemble
des lieux de France en deux heures,

00:06:54.933 --> 00:06:58.380
en fournissant des images
de Street View

00:06:58.380 --> 00:07:02.699
à un algorithme d'apprentissage profond,
pour qu'il reconnaisse les numéros de rue.

00:07:02.699 --> 00:07:04.919
Imaginez le temps
qu'il aurait fallu avant :

00:07:04.919 --> 00:07:08.274
des dizaines de personnes,
plusieurs années.

00:07:08.274 --> 00:07:10.185
C'est la même histoire en Chine.

00:07:10.185 --> 00:07:14.221
Baidu est, on peut dire,
une sorte de Google chinois.

00:07:14.221 --> 00:07:16.504
Ce que vous voyez en haut à gauche,

00:07:16.504 --> 00:07:20.478
est une photo que j'ai chargée sur le
système d'apprentissage profond de Baidu,

00:07:20.478 --> 00:07:24.247
et, dessous, vous voyez que le système
a compris ce qui était sur la photo,

00:07:24.247 --> 00:07:26.483
et trouvé des images similaires.

00:07:26.483 --> 00:07:29.219
Les images similaires ont le 
même arrière-plan,

00:07:29.219 --> 00:07:30.877
la tête dans le même sens,

00:07:30.877 --> 00:07:32.665
certaines même avec la langue sortie.

00:07:32.665 --> 00:07:35.695
Ce n'est pas une recherche
sur le texte d'une page web.

00:07:35.695 --> 00:07:37.107
Je n'ai chargé qu'une image.

00:07:37.107 --> 00:07:41.128
Les ordinateurs peuvent donc désormais
vraiment comprendre ce qu'ils voient,

00:07:41.128 --> 00:07:42.752
et consulter une base de données

00:07:42.752 --> 00:07:46.306
de centaines de millions d'images
en temps réel.

NOTE Paragraph

00:07:46.306 --> 00:07:49.536
Quelles conséquences, maintenant que
les ordinateurs peuvent voir ?

00:07:49.536 --> 00:07:51.553
Les machines ne savent pas seulement voir.

00:07:51.553 --> 00:07:53.622
L'apprentissage profond va plus loin.

00:07:53.622 --> 00:07:56.570
Une phrase complexe et
nuancée comme celle-ci,

00:07:56.570 --> 00:07:59.394
est maintenant compréhensible
par ces algorithmes.

00:07:59.394 --> 00:08:00.697
Comme vous pouvez le voir,

00:08:00.697 --> 00:08:03.465
ce système de Stanford,
avec le point rouge en haut,

00:08:03.465 --> 00:08:07.384
a compris que la phrase
comportait un jugement négatif.

00:08:07.384 --> 00:08:10.790
L'apprentissage profond est désormais
proche des performances humaines

00:08:10.802 --> 00:08:15.923
pour comprendre le sujet d'une phrase,
et le jugement qui y est exprimé.

00:08:15.923 --> 00:08:18.651
Il a aussi été utilisé
pour lire le chinois,

00:08:18.651 --> 00:08:21.807
à un niveau proche de
celui d'un locuteur natif.

00:08:21.807 --> 00:08:23.975
Cet algorithme a été développé en Suisse

00:08:23.975 --> 00:08:27.331
par des personnes dont aucune ne parlait
ni ne comprenait le chinois.

00:08:27.331 --> 00:08:29.382
Utiliser l'apprentissage profond

00:08:29.382 --> 00:08:31.601
constitue le meilleur système
dans ce cas,

00:08:31.601 --> 00:08:36.718
même comparé
à la compréhension humaine.

NOTE Paragraph

00:08:36.718 --> 00:08:39.682
Il s'agit ici d'un système
mis en place dans mon entreprise,

00:08:39.682 --> 00:08:41.728
qui regroupe tout ça.

00:08:41.728 --> 00:08:44.189
Ce sont des images qui ne sont
pas liées à du texte,

00:08:44.189 --> 00:08:46.541
et, alors que j'écris ici des phrases,

00:08:46.541 --> 00:08:49.510
en temps réel, le système comprend
les images,

00:08:49.510 --> 00:08:51.189
identifie leur sujet,

00:08:51.189 --> 00:08:54.352
et trouve des images correspondant au
texte que j'écris.

00:08:54.352 --> 00:08:57.108
Il comprend véritablement mes phrases,

00:08:57.108 --> 00:08:59.332
et comprend véritablement ces images.

00:08:59.332 --> 00:09:01.891
Je sais que vous voyez 
ça sur Google,

00:09:01.891 --> 00:09:04.666
où l'on peut trouver des images
en tapant un texte,

00:09:04.666 --> 00:09:08.090
mais ce n'est qu'une recherche
dans le texte de la page web.

00:09:08.090 --> 00:09:11.091
C'est très différent de comprendre
vraiment les images.

00:09:11.091 --> 00:09:13.843
C'est quelque chose que
les ordinateurs n'ont pu faire

00:09:13.843 --> 00:09:17.091
pour la première fois
que très récemment.

NOTE Paragraph

00:09:17.091 --> 00:09:21.182
Les ordinateurs peuvent donc
non seulement voir, mais aussi lire,

00:09:21.182 --> 00:09:24.947
et, bien sûr, nous avons montré qu'ils
peuvent comprendre ce qu'ils entendent.

00:09:24.947 --> 00:09:28.389
Pas très surprenant si je vous
dis maintenant qu'ils peuvent écrire.

00:09:28.389 --> 00:09:33.172
A partir d'un algorithme d'apprentissage
profond, j'ai généré ce texte hier.

00:09:33.172 --> 00:09:37.096
Ici, ce sont des textes générés par un
algorithme de Stanford.

00:09:37.096 --> 00:09:38.860
Chacune de ces phrases a été générée

00:09:38.860 --> 00:09:43.109
par un algorithme d'apprentissage profond
décrivant l'image au-dessus.

00:09:43.109 --> 00:09:47.581
Cet algorithme n'avait jamais vu un homme
habillé en noir jouant de la guitare.

00:09:47.581 --> 00:09:49.801
Il avait vu déjà vu un homme,
déjà vu du noir,

00:09:49.801 --> 00:09:51.400
déjà vu une guitare,

00:09:51.400 --> 00:09:55.694
mais a généré de manière autonome
cette nouvelle description de cette photo.

00:09:55.694 --> 00:09:59.196
Nous n'atteignons pas encore
les performances humaines, mais presque.

00:09:59.196 --> 00:10:03.264
Dans les tests réalisés, les personnes
préfèrent la légende de l'ordinateur

00:10:03.264 --> 00:10:04.791
une fois sur quatre.

00:10:04.791 --> 00:10:06.855
Ce système n'a que deux semaines,

00:10:06.855 --> 00:10:08.701
et l'on peut supposer que d'ici un an,

00:10:08.701 --> 00:10:11.502
l'algorithme aurait surpassé
les performances humaines

00:10:11.502 --> 00:10:13.364
- au rythme où ça va.

00:10:13.364 --> 00:10:16.413
Les ordinateurs peuvent donc aussi écrire.

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
Si l'on rassemble tout ça, les
perspectives deviennent prometteuses.

00:10:19.888 --> 00:10:21.380
Par exemple, en médecine,

00:10:21.380 --> 00:10:23.905
une équipe de Boston a annoncé
qu'elle avait découvert

00:10:23.905 --> 00:10:26.854
des dizaines de nouveaux signes cliniques

00:10:26.854 --> 00:10:31.120
de tumeurs, qui aident les docteurs
à diagnostiquer un cancer.

00:10:32.220 --> 00:10:34.516
De façon très proche, à Stanford,

00:10:34.516 --> 00:10:38.179
une équipe a annoncé qu'en
observant des tissus au microscope,

00:10:38.179 --> 00:10:40.560
ils ont développé un système
de machine apprenante

00:10:40.560 --> 00:10:43.142
qui est vraiment meilleur
qu'un pathologiste

00:10:43.142 --> 00:10:47.519
pour prédire les taux de survie
de personnes atteintes de cancer.

00:10:47.519 --> 00:10:50.764
Dans ces deux cas, non seulement
les prévisions étaient meilleures,

00:10:50.764 --> 00:10:53.266
mais elles ont aussi permis
des découvertes majeures.

00:10:53.276 --> 00:10:54.781
Dans l'exemple en radiologie,

00:10:54.781 --> 00:10:57.876
de nouveaux signes cliniques
compréhensibles par l'homme.

00:10:57.876 --> 00:10:59.668
Dans l'exemple en pathologie,

00:10:59.668 --> 00:11:04.168
le système informatique a découvert
que les cellules autour du cancer

00:11:04.168 --> 00:11:07.508
étaient aussi importantes que les cellules
cancéreuses elles-mêmes

00:11:07.508 --> 00:11:09.260
pour porter un diagnostic,

00:11:09.260 --> 00:11:14.621
à rebours de ce qui a été enseigné
aux pathologistes pendant des décennies.

00:11:14.621 --> 00:11:17.913
Dans ces deux cas, les systèmes
ont été développés

00:11:17.913 --> 00:11:21.534
en associant experts médicaux et
experts de l'apprentissage automatique,

00:11:21.534 --> 00:11:24.275
mais, depuis l'an dernier,
un nouveau cap a été franchi.

00:11:24.275 --> 00:11:27.824
Il s'agit ici d'un exemple
d'identification de zones cancéreuses

00:11:27.824 --> 00:11:30.354
d'un tissu humain au microscope.

00:11:30.354 --> 00:11:34.967
Ce système peut identifier ces zones
avec plus de précisions,

00:11:34.967 --> 00:11:37.742
ou, du moins, avec autant de précision
qu'un pathologiste,

00:11:37.742 --> 00:11:41.134
mais a été entièrement créé par
l'apprentissage profond créé

00:11:41.134 --> 00:11:43.660
par des personnes n'ayant
pas de formation médicale.

00:11:44.730 --> 00:11:47.285
De même, pour cette
classification de neurones.

00:11:47.285 --> 00:11:50.953
On peut désormais classer les neurones
avec autant de précisions qu'un humain,

00:11:50.953 --> 00:11:53.670
et ce système a été créé
avec l'apprentissage profond,

00:11:53.670 --> 00:11:56.921
par des gens n'ayant pas de
connaissance médicale antérieure.

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
Moi-même, sans connaissance
médicale antérieure,

00:12:00.148 --> 00:12:03.875
je semble être pleinement qualifié 
pour créer une entreprise dans la santé

00:12:03.875 --> 00:12:06.021
- ce que j'ai fait.

00:12:06.021 --> 00:12:07.761
J'étais terrifié à cette idée,

00:12:07.761 --> 00:12:10.650
mais, la théorie suggérait
qu'il devait être possible

00:12:10.650 --> 00:12:16.142
d'être utile dans ce secteur en ne maniant
que ces moyens d'analyse de données.

00:12:16.142 --> 00:12:18.622
Et, heureusement, les retours
ont été fabuleux,

00:12:18.622 --> 00:12:20.978
ceux des médias,
mais aussi ceux du corps médical,

00:12:20.978 --> 00:12:23.322
qui a été d'un grand soutien.

00:12:23.322 --> 00:12:27.471
La théorie, c'est que l'on peut isoler
la partie centrale du processus médical,

00:12:27.471 --> 00:12:30.374
pour procéder, autant que possible,
à des analyses de données,

00:12:30.374 --> 00:12:33.429
et laisser les médecins se consacrer
sur leurs forces.

00:12:33.429 --> 00:12:35.031
Je veux vous donner un exemple.

00:12:35.031 --> 00:12:39.975
Il nous faut désormais environ 15 minutes
pour faire un nouveau diagnostic médical,

00:12:39.975 --> 00:12:41.929
et je vais vous le montrer en temps réel,

00:12:41.929 --> 00:12:45.416
même si je l'ai réduit à trois minutes
en supprimant certaines parties.

00:12:45.416 --> 00:12:48.477
Plutôt que de vous montrer la création
d'un diagnostic médical,

00:12:48.477 --> 00:12:51.846
je vais vous montrer un diagnostic
d'images de voitures :

00:12:51.846 --> 00:12:54.068
c'est quelque chose que
tout le monde comprend.

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
Nous commençons avec environ
1,5 million d'images de voitures,

00:12:57.269 --> 00:13:00.475
et ce que je veux, c'est les organiser
selon l'angle selon lequel

00:13:00.475 --> 00:13:02.698
la photo a été prise.

00:13:02.698 --> 00:13:06.586
Ces images ne sont pas cataloguées :
je dois partir de zéro.

00:13:06.586 --> 00:13:08.451
Notre algorithme
d'apprentissage profond

00:13:08.451 --> 00:13:12.158
permet d'identifier les structures
dans ces images.

00:13:12.158 --> 00:13:15.778
L'être humain et l'ordinateur peuvent
maintenant travailler ensemble.

00:13:15.778 --> 00:13:17.956
L'être humain, comme vous le voyez ici,

00:13:17.956 --> 00:13:20.631
indique à la machine
les zones d'intérêt,

00:13:20.631 --> 00:13:25.281
celles à lesquelles il veut qu'elle 
s'intéresse pour améliorer son algorithme.

00:13:25.281 --> 00:13:29.577
Les systèmes d'apprentissage profond sont
des espaces à 16 000 dimensions [sic],

00:13:29.577 --> 00:13:33.009
et vous pouvez voir ici l'ordinateur qui
pivote au sein de cet espace,

00:13:33.009 --> 00:13:35.001
pour trouver de nouvelles structures.

00:13:35.001 --> 00:13:36.782
Quand il y arrive,

00:13:36.782 --> 00:13:40.786
l'être humain peut ensuite lui signaler
les zones intéressantes.

00:13:40.786 --> 00:13:43.208
Ici, l'ordinateur a pu trouver
une zone avec,

00:13:43.208 --> 00:13:45.770
par exemple, des angles.

00:13:45.770 --> 00:13:47.376
Au fur et à mesure,

00:13:47.376 --> 00:13:49.716
nous en disons de plus en plus
à l'ordinateur

00:13:49.716 --> 00:13:52.144
sur le type de structures
que l'on recherche.

00:13:52.144 --> 00:13:53.916
Imaginez un diagnostic médical,

00:13:53.916 --> 00:13:57.266
par exemple un pathologiste identifiant
des zones malades,

00:13:57.266 --> 00:14:02.292
ou un radiologue montrant
des nodules potentiellement inquiétants.

00:14:02.292 --> 00:14:04.851
Parfois, cela devient difficile
pour l'algorithme.

00:14:04.851 --> 00:14:06.815
Ici, il s'est un peu emmêlé les pinceaux.

00:14:06.815 --> 00:14:09.365
L'avant et l'arrière des voitures
sont mêlés.

00:14:09.365 --> 00:14:11.437
Nous devons faire
un peu plus attention,

00:14:11.437 --> 00:14:14.669
et dissocier manuellement les avants
des arrières,

00:14:14.669 --> 00:14:21.525
puis dire à l'ordinateur que
cette classification nous importe.

NOTE Paragraph

00:14:21.525 --> 00:14:24.200
Nous continuons comme ça,
et, un peu plus tard,

00:14:24.200 --> 00:14:26.446
nous allons former l'algorithme

00:14:26.446 --> 00:14:28.420
sur la base de ces classifications,

00:14:28.420 --> 00:14:30.445
et espérer qu'il s'est amélioré.

00:14:30.445 --> 00:14:33.518
Comme vous le voyez, il a commencé à
estomper certaines photos,

00:14:33.518 --> 00:14:38.226
montrant qu'il sait déjà comment
comprendre certaines d'entre elles.

00:14:38.226 --> 00:14:41.128
Nous pouvons ensuite utiliser ce
concept d'images similaires,

00:14:41.128 --> 00:14:43.222
et, voir que, en s'en servant,

00:14:43.222 --> 00:14:47.241
l'ordinateur est désormais capable de
trouver seulement les avants de voiture.

00:14:47.241 --> 00:14:50.188
A ce stade, l'être humain
peut dire à l'ordinateur :

00:14:50.188 --> 00:14:53.645
«Ok, tu t'en es bien sorti. »

00:14:53.645 --> 00:14:56.402
Bien sûr, parfois, même à ce stade,

NOTE Paragraph

00:14:56.402 --> 00:14:59.511
il est encore difficile
de faire des groupes.

00:14:59.511 --> 00:15:03.395
Ici, même après avoir laissé l'ordinateur
pivoter pendant un moment,

00:15:03.399 --> 00:15:06.744
les photos de voitures vues de droite
et celles vues de gauche sont

00:15:06.744 --> 00:15:08.220
encore toutes mêlées.

00:15:08.220 --> 00:15:10.362
Nous lui donnons de nouveau
des indications,

00:15:10.362 --> 00:15:13.338
puis lui disons de chercher
une projection qui fait le tri

00:15:13.338 --> 00:15:15.945
entre les photos de droite et de gauche -

00:15:15.945 --> 00:15:18.067
avec l'algorithme d'apprentissage profond.

00:15:18.067 --> 00:15:21.009
Avec ces indications, nous avons réussi.

00:15:21.009 --> 00:15:26.281
Il a trouvé une manière de considérer
ces objets qui en permet le tri.

NOTE Paragraph

00:15:26.281 --> 00:15:28.709
Vous avez saisi l'idée.

00:15:28.709 --> 00:15:36.906
Nous ne somme pas ici dans une
substitution de l'homme par la machine,

00:15:36.906 --> 00:15:39.546
mais dans un travail conjoint.

00:15:39.546 --> 00:15:43.096
Ce que nous faisons, c'est prendre
quelque chose qui mobilisait une équipe

00:15:43.096 --> 00:15:45.098
de cinq ou six personnes pendant sept ans

00:15:45.098 --> 00:15:50.183
et y substituer quelque chose qui
prend 15 minutes à une seule personne.

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
Cette méthode nécessite quatre
ou cinq itérations,

00:15:54.158 --> 00:15:56.024
et nous avons maintenant 62%

00:15:56.024 --> 00:15:58.976
de nos 1,5 million d'images
classifiées correctement.

00:15:58.976 --> 00:16:01.448
A ce stade, nous pouvons
commencer à prendre

00:16:01.448 --> 00:16:02.745
des parties entières,

00:16:02.745 --> 00:16:05.664
et vérifier rapidement
qu'il n'y a pas d'erreurs.

00:16:05.664 --> 00:16:09.616
Quand il y a des erreurs, nous en
informons l'ordinateur,

00:16:09.616 --> 00:16:12.661
et, en utilisant cette méthode
pour tous les groupes,

00:16:12.661 --> 00:16:15.148
nous en arrivons à un
taux de réussite de 80%

00:16:15.148 --> 00:16:17.563
dans la classification de ces images.

00:16:17.563 --> 00:16:19.641
A partir de là, il s'agit juste

00:16:19.641 --> 00:16:23.220
de trouver le petit nombre d'images
mal classées,

00:16:23.220 --> 00:16:26.108
et à essayer de comprendre pourquoi.

00:16:26.108 --> 00:16:27.851
Avec cette approche,

00:16:27.851 --> 00:16:31.972
en 15 minutes, nous parvenons à un 
taux de classification de 97%.

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
Ce type de méthode pourrait nous
permettre de régler un problème majeur :

00:16:36.578 --> 00:16:39.614
le manque d'expertise médicale
dans le monde.

00:16:39.614 --> 00:16:43.103
Le Forum économique mondial estime
qu'il faudrait 10 à 20 fois plus

00:16:43.103 --> 00:16:45.727
de médecins dans les pays
en voie de développement

00:16:45.727 --> 00:16:47.840
et qu'il faudrait 300 ans

00:16:47.840 --> 00:16:50.734
pour former suffisamment de personnes
et régler ce problème.

00:16:50.734 --> 00:16:53.619
Imaginez alors que nous puissions
accroître leur productivité

00:16:53.619 --> 00:16:56.458
avec ces méthodes d'apprentissage profond.

NOTE Paragraph

00:16:56.458 --> 00:16:58.690
Les opportunités m'enchantent.

00:16:58.690 --> 00:17:01.279
Mais les dangers m’inquiètent.

00:17:01.279 --> 00:17:04.403
Le problème, c'est que dans tous les pays
en bleu sur la carte,

00:17:04.403 --> 00:17:08.172
le secteur tertiaire représente
plus de 80% de l'emploi.

00:17:08.172 --> 00:17:09.959
C'est quoi le secteur tertiaire ?

00:17:09.959 --> 00:17:11.473
C'est ça.

00:17:11.473 --> 00:17:15.627
Ce sont exactement ces choses que les
ordinateurs viennent d'apprendre à faire.

00:17:15.627 --> 00:17:19.431
80% des emplois dans les pays développés

00:17:19.431 --> 00:17:21.963
consiste en ce qu'une machine
sait désormais faire.

00:17:21.963 --> 00:17:23.403
Qu'est-ce que cela veut dire ?

00:17:23.403 --> 00:17:25.986
Tout ira bien.
D'autres emplois les remplaceront,

00:17:25.986 --> 00:17:28.693
par exemple, dans l'analyse de données.

00:17:28.693 --> 00:17:29.505
Pas vraiment.

00:17:29.505 --> 00:17:32.628
Ce n'est pas long pour un analyste de
données de construire ça.

00:17:32.628 --> 00:17:35.880
Par exemple, ces quatre algorithmes
sont tous de la même personne.

00:17:35.880 --> 00:17:38.318
Vous pensez peut-être
que c'est du déjà-vu,

00:17:38.318 --> 00:17:42.126
que nous connaissons les conséquences
de l'arrivée de nouvelles choses,

00:17:42.126 --> 00:17:44.378
de nouveaux emplois qui
remplacent les anciens.

00:17:44.378 --> 00:17:46.494
Que seront ces nouveaux emplois ?

00:17:46.494 --> 00:17:48.365
C'est très dur à estimer :

00:17:48.365 --> 00:17:51.104
l'amélioration des performances
humaines est graduelle,

00:17:51.104 --> 00:17:53.666
tandis que ce système,
l'apprentissage profond,

00:17:53.666 --> 00:17:56.893
s'améliore de façon exponentielle.

00:17:56.893 --> 00:17:58.498
Et nous en sommes là.

00:17:58.498 --> 00:18:00.559
En regardant autour de nous,
nous pensons :

00:18:00.559 --> 00:18:03.235
« Les machines sont
toujours idiotes ». Pas vrai ?

00:18:03.235 --> 00:18:06.664
Mais d'ici cinq ans, elles seront
bien plus haut dans la courbe.

00:18:06.664 --> 00:18:10.529
Nous devons commencer à penser
dès maintenant à ces capacités futures.

NOTE Paragraph

00:18:10.529 --> 00:18:12.579
Ce n'est pas la première fois, bien sûr.

00:18:12.579 --> 00:18:17.636
Les machines de la Révolution Industrielle
augmentèrent nos capacités.

00:18:17.636 --> 00:18:20.805
Mais, au bout d'un moment,
les choses se calmèrent.

00:18:20.805 --> 00:18:22.507
Il y eut des troubles sociaux, mais

00:18:22.507 --> 00:18:25.946
une fois les machines utilisées 
pour la plupart des cas utiles,

00:18:25.946 --> 00:18:28.300
les choses s'apaisèrent.

00:18:28.300 --> 00:18:30.133
La Révolution des Machines Apprenantes

00:18:30.133 --> 00:18:32.682
sera très différente
de la Révolution Industrielle,

00:18:32.682 --> 00:18:35.632
parce que dans son cas, les choses
ne se calmeront pas.

00:18:35.632 --> 00:18:38.614
Plus les ordinateurs progressent
dans les activités cérébrales,

00:18:38.614 --> 00:18:42.862
plus ils peuvent créer de meilleurs
ordinateurs, et progresser encore.

00:18:42.862 --> 00:18:44.770
Nous sommes devant un type d'évolution

00:18:44.770 --> 00:18:47.248
que le monde n'a jamais
expérimentée auparavant :

00:18:47.248 --> 00:18:50.554
notre compréhension antérieure
des possibles n'est pas adaptée.

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
Nous en subissons déjà les impacts.

00:18:52.754 --> 00:18:56.384
Ces 25 dernières années, alors que
la productivité du capital augmentait,

00:18:56.400 --> 00:19:01.408
la productivité du travail restait stable,
était même légèrement en baisse.

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
Je voudrais lancer
ce débat dès maintenant.

00:19:04.149 --> 00:19:07.176
Je sais d'expérience que lorsque
je parle de ça aux gens,

00:19:07.176 --> 00:19:08.666
ils peuvent être sceptiques.

00:19:08.666 --> 00:19:10.339
Les machines ne peuvent pas penser,

00:19:10.339 --> 00:19:13.367
elles n'ont pas d'émotions,
ne comprennent pas la poésie.

00:19:13.367 --> 00:19:15.888
Nous ne comprenons pas
comment elles fonctionnent.

00:19:15.888 --> 00:19:17.374
Et alors ?

00:19:17.374 --> 00:19:21.868
Elles peuvent dès maintenant faire
ce pour quoi les hommes sont payés.

00:19:21.897 --> 00:19:23.628
C'est le moment de commencer

00:19:23.628 --> 00:19:28.015
à réfléchir à la façon d'ajuster nos
structures sociales et économiques,

00:19:28.015 --> 00:19:29.995
d'être au fait de cette nouvelle réalité.

00:19:29.995 --> 00:19:31.098
Merci.

00:19:31.098 --> 00:19:32.190
(Applaudissements)