Avant, si vous vouliez qu'un ordinateur
fasse quelque chose de nouveau,
vous deviez le programmer.
La programmation, pour ceux
d'entre vous qui n'en ont jamais fait,
nécessite de décrire,
à un niveau de détail effrayant,
chaque étape que vous voulez
que l'ordinateur fasse
pour atteindre votre but.
Mais si ce que vous voulez,
vous ne savez pas le faire vous-même,
la programmation devient un immense défi.
C'est à ce défi que se confronta
cet homme, Arthur Samuel.
En 1956, il voulut que cet ordinateur
soit capable de le battre au jeu de dames.
Comment écrire un programme,
décrire, en d'effrayants détails, comment
être meilleur que vous aux dames ?
Il eut une idée :
faire jouer l'ordinateur contre
lui-même des milliers de fois
et lui faire apprendre à jouer aux dames.
Ça a si bien fonctionné que dès 1962
l'ordinateur avait battu
le champion du Connecticut.
Arthur Samuel est le père
de la machine apprenante,
et j'ai une grande dette envers lui,
parce que je travaille dans ce secteur.
J'ai été président de Kaggle,
une communauté de 200 000 praticiens
de l'apprentissage automatique.
Kaggle met en place des compétitions
pour les amener à résoudre
des problèmes jusque là non résolus,
et ça a été un succès
des centaines de fois.
De ce point de vue privilégié,
j'ai pu découvrir
beaucoup sur ce que l'apprentissage
automatique pouvait et peut faire,
et sur ce qu'il pourra faire demain.
Le premier grand succès commercial,
c'est peut-être Google.
Google a montré qu'il était possible
de trouver des informations
en utilisant un algorithme,
et cet algorithme est basé
sur l'apprentissage automatique.
L'apprentissage automatique a depuis connu
beaucoup d'autres succès commerciaux
Des sociétés comme Amazon ou Netflix
l'utilisent pour suggérer des produits
que vous pourriez vouloir acheter,
des films que vous pourriez aimer voir.
Parfois, c'en est presque effrayant.
Des entreprises comme LinkedIn et Facebook
vous disent parfois qui
pourraient être vos amis
et vous ne savez pas comment elles font,
car elles utilisent le pouvoir
de l'apprentissage automatique.
Ces algorithmes ont appris à le faire
à partir de données
plutôt que d'être programmés manuellement.
De la même manière,
IBM a pu faire en sorte
que Watson batte les champions du monde
de « Jeopardy »,
en répondant à des questions
très difficiles comme :
« Le "Lion de Nimrud" a disparu
en 2003 du musée de cette ville »
C'est aussi pourquoi nous voyons
les premières voitures autonomes.
Être capable de faire
la différence entre, disons,
un arbre et un piéton,
est plutôt important.
Nous ne savons pas écrire
de tels programmes manuellement,
mais l'apprentissage automatique
rend la chose possible.
Cette voiture a roulé
plus de 1,6 millions de km
sur des routes ordinaires,
sans le moindre accident.
Nous savons maintenant que les ordinateurs
peuvent apprendre,
et apprendre à faire des choses
que nous ne savons pas
toujours faire nous-mêmes,
ou qu'ils peuvent peut-être
faire mieux que nous.
Un des cas les plus étonnants
d'apprentissage automatique que j'ai vu
s'est produit lors d'un projet de Kaggle,
où une équipe dirigée par Geoffrey Hinton,
de l'Université de Toronto,
a gagné un concours de
découverte de la drogue.
Ce qui est extraordinaire n'est
pas juste qu'ils aient battu
tous les algorithmes de Merck ou de la
communauté universitaire internationale,
mais que personne de l'équipe n'ait de
formation en chimie ou biologie,
et qu'ils l'aient fait en deux semaines.
Comment ont-ils fait ?
Avec un algorithme génial
appelé apprentissage profond.
Ça a été si important
que leur succès donna lieu
à un article en une du New York Times
quelques semaines plus tard.
Il s'agit de Geoffrey Hinton,
là, à gauche, sur l'écran.
L'apprentissage profond s'inspire
du fonctionnement du cerveau :
c'est un algorithme qui n'a donc
aucune limite théorique.
Plus vous lui donnez de données,
et de temps de calcul,
plus il devient meilleur.
Le New York Times montra
aussi dans son article
un autre résultat inouï
de l'apprentissage profond,
que je vais maintenant vous montrer.
Il montre que les ordinateurs
sont capables d'écouter et comprendre.
(Vidéo) Richard Rashid:
La dernière étape
que je voudrais pouvoir atteindre,
c'est de vous parler en chinois.
L'élément-clé ici, c'est
que nous avons pu collecter beaucoup
de données auprès de nombreux sinophones
et produire un système de vocalisation
qui convertit du texte chinois
en parole chinoise,
puis nous avons pris environ une heure
d'enregistrement de ma propre voix,
et nous l'avons utilisé pour moduler
le système de vocalisation,
afin que la voix ressemble à la mienne.
Le résultat n'est pas parfait.
Il y a un certain nombre d'erreurs.
(En chinois)
(Applaudissements)
Il y a encore beaucoup de travail à faire
(En chinois)
(Applaudissements)
J. H. : C'était une conférence en
Chine sur l'apprentissage automatique.
Il est rare,
lors de conférences universitaires,
d'entendre des applaudissements spontanés,
quoique cela arrive parfois aux
conférences TEDx. N'hésitez pas.
L'apprentissage profond était
derrière tout ça.
(Applaudissements)
Merci.
La transcription en anglais,
la traduction en chinois
et la construction de la voix étaient
tous de l'apprentissage profond.
L'apprentissage profond est
cette chose extraordinaire.
C'est un seul algorithme qui semble
pouvoir presque tout faire,
et j'ai découvert qu'un an plus tôt,
il avait aussi appris à voir.
Dans une obscure compétition en Allemagne,
le « Test de Reconnaissance
de Panneaux Routiers »,
l'apprentissage profond a appris à
reconnaître des panneaux,
non seulement mieux
que tous les autres algorithmes,
mais également mieux
que les humains -
environ deux fois mieux :
dès 2011, nous avions un exemple
d'ordinateurs pouvant voir
mieux qu'un être humain.
Depuis, beaucoup de choses
se sont passées.
En 2012, Google a annoncé qu'un
algorithme d'apprentissage profond,
regardant des vidéos YouTube
et analysant les données sur
16 000 ordinateurs pendant un mois,
a pu apprendre, de lui-même, les concepts
de « chat » ou encore d'« être humain »,
juste en regardant ces vidéos.
Les êtres humains apprennent
de la même manière :
on n'apprend pas une chose
par explication,
mais on l'apprend par
les perceptions individuelles.
En 2012 également, Geoffrey Hinton,
dont nous avons déjà parlé,
a gagné le très réputé
concours « ImageNet »,
où il s'agit d'identifier,
au sein d'un million et demi d'images,
les images en question.
En 2014, nous sommes tombés
à un taux d'erreur de 6%
en reconnaissance visuelle.
C'est, de nouveau,
mieux qu'un être humain.
Les machines font vraiment
ici un travail extraordinaire,
avec, désormais, des
applications industrielles.
Par exemple, Google a annoncé l'an dernier
qu'ils avaient cartographié l'ensemble
des lieux de France en deux heures,
en fournissant des images
de Street View
à un algorithme d'apprentissage profond,
pour qu'il reconnaisse les numéros de rue.
Imaginez le temps
qu'il aurait fallu avant :
des dizaines de personnes,
plusieurs années.
C'est la même histoire en Chine.
Baidu est, on peut dire,
une sorte de Google chinois.
Ce que vous voyez en haut à gauche,
est une photo que j'ai chargée sur le
système d'apprentissage profond de Baidu,
et, dessous, vous voyez que le système
a compris ce qui était sur la photo,
et trouvé des images similaires.
Les images similaires ont le
même arrière-plan,
la tête dans le même sens,
certaines même avec la langue sortie.
Ce n'est pas une recherche
sur le texte d'une page web.
Je n'ai chargé qu'une image.
Les ordinateurs peuvent donc désormais
vraiment comprendre ce qu'ils voient,
et consulter une base de données
de centaines de millions d'images
en temps réel.
Quelles conséquences, maintenant que
les ordinateurs peuvent voir ?
Les machines ne savent pas seulement voir.
L'apprentissage profond va plus loin.
Une phrase complexe et
nuancée comme celle-ci,
est maintenant compréhensible
par ces algorithmes.
Comme vous pouvez le voir,
ce système de Stanford,
avec le point rouge en haut,
a compris que la phrase
comportait un jugement négatif.
L'apprentissage profond est désormais
proche des performances humaines
pour comprendre le sujet d'une phrase,
et le jugement qui y est exprimé.
Il a aussi été utilisé
pour lire le chinois,
à un niveau proche de
celui d'un locuteur natif.
Cet algorithme a été développé en Suisse
par des personnes dont aucune ne parlait
ni ne comprenait le chinois.
Utiliser l'apprentissage profond
constitue le meilleur système
dans ce cas,
même comparé
à la compréhension humaine.
Il s'agit ici d'un système
mis en place dans mon entreprise,
qui regroupe tout ça.
Ce sont des images qui ne sont
pas liées à du texte,
et, alors que j'écris ici des phrases,
en temps réel, le système comprend
les images,
identifie leur sujet,
et trouve des images correspondant au
texte que j'écris.
Il comprend véritablement mes phrases,
et comprend véritablement ces images.
Je sais que vous voyez
ça sur Google,
où l'on peut trouver des images
en tapant un texte,
mais ce n'est qu'une recherche
dans le texte de la page web.
C'est très différent de comprendre
vraiment les images.
C'est quelque chose que
les ordinateurs n'ont pu faire
pour la première fois
que très récemment.
Les ordinateurs peuvent donc
non seulement voir, mais aussi lire,
et, bien sûr, nous avons montré qu'ils
peuvent comprendre ce qu'ils entendent.
Pas très surprenant si je vous
dis maintenant qu'ils peuvent écrire.
A partir d'un algorithme d'apprentissage
profond, j'ai généré ce texte hier.
Ici, ce sont des textes générés par un
algorithme de Stanford.
Chacune de ces phrases a été générée
par un algorithme d'apprentissage profond
décrivant l'image au-dessus.
Cet algorithme n'avait jamais vu un homme
habillé en noir jouant de la guitare.
Il avait vu déjà vu un homme,
déjà vu du noir,
déjà vu une guitare,
mais a généré de manière autonome
cette nouvelle description de cette photo.
Nous n'atteignons pas encore
les performances humaines, mais presque.
Dans les tests réalisés, les personnes
préfèrent la légende de l'ordinateur
une fois sur quatre.
Ce système n'a que deux semaines,
et l'on peut supposer que d'ici un an,
l'algorithme aurait surpassé
les performances humaines
- au rythme où ça va.
Les ordinateurs peuvent donc aussi écrire.
Si l'on rassemble tout ça, les
perspectives deviennent prometteuses.
Par exemple, en médecine,
une équipe de Boston a annoncé
qu'elle avait découvert
des dizaines de nouveaux signes cliniques
de tumeurs, qui aident les docteurs
à diagnostiquer un cancer.
De façon très proche, à Stanford,
une équipe a annoncé qu'en
observant des tissus au microscope,
ils ont développé un système
de machine apprenante
qui est vraiment meilleur
qu'un pathologiste
pour prédire les taux de survie
de personnes atteintes de cancer.
Dans ces deux cas, non seulement
les prévisions étaient meilleures,
mais elles ont aussi permis
des découvertes majeures.
Dans l'exemple en radiologie,
de nouveaux signes cliniques
compréhensibles par l'homme.
Dans l'exemple en pathologie,
le système informatique a découvert
que les cellules autour du cancer
étaient aussi importantes que les cellules
cancéreuses elles-mêmes
pour porter un diagnostic,
à rebours de ce qui a été enseigné
aux pathologistes pendant des décennies.
Dans ces deux cas, les systèmes
ont été développés
en associant experts médicaux et
experts de l'apprentissage automatique,
mais, depuis l'an dernier,
un nouveau cap a été franchi.
Il s'agit ici d'un exemple
d'identification de zones cancéreuses
d'un tissu humain au microscope.
Ce système peut identifier ces zones
avec plus de précisions,
ou, du moins, avec autant de précision
qu'un pathologiste,
mais a été entièrement créé par
l'apprentissage profond créé
par des personnes n'ayant
pas de formation médicale.
De même, pour cette
classification de neurones.
On peut désormais classer les neurones
avec autant de précisions qu'un humain,
et ce système a été créé
avec l'apprentissage profond,
par des gens n'ayant pas de
connaissance médicale antérieure.
Moi-même, sans connaissance
médicale antérieure,
je semble être pleinement qualifié
pour créer une entreprise dans la santé
- ce que j'ai fait.
J'étais terrifié à cette idée,
mais, la théorie suggérait
qu'il devait être possible
d'être utile dans ce secteur en ne maniant
que ces moyens d'analyse de données.
Et, heureusement, les retours
ont été fabuleux,
ceux des médias,
mais aussi ceux du corps médical,
qui a été d'un grand soutien.
La théorie, c'est que l'on peut isoler
la partie centrale du processus médical,
pour procéder, autant que possible,
à des analyses de données,
et laisser les médecins se consacrer
sur leurs forces.
Je veux vous donner un exemple.
Il nous faut désormais environ 15 minutes
pour faire un nouveau diagnostic médical,
et je vais vous le montrer en temps réel,
même si je l'ai réduit à trois minutes
en supprimant certaines parties.
Plutôt que de vous montrer la création
d'un diagnostic médical,
je vais vous montrer un diagnostic
d'images de voitures :
c'est quelque chose que
tout le monde comprend.
Nous commençons avec environ
1,5 million d'images de voitures,
et ce que je veux, c'est les organiser
selon l'angle selon lequel
la photo a été prise.
Ces images ne sont pas cataloguées :
je dois partir de zéro.
Notre algorithme
d'apprentissage profond
permet d'identifier les structures
dans ces images.
L'être humain et l'ordinateur peuvent
maintenant travailler ensemble.
L'être humain, comme vous le voyez ici,
indique à la machine
les zones d'intérêt,
celles à lesquelles il veut qu'elle
s'intéresse pour améliorer son algorithme.
Les systèmes d'apprentissage profond sont
des espaces à 16 000 dimensions [sic],
et vous pouvez voir ici l'ordinateur qui
pivote au sein de cet espace,
pour trouver de nouvelles structures.
Quand il y arrive,
l'être humain peut ensuite lui signaler
les zones intéressantes.
Ici, l'ordinateur a pu trouver
une zone avec,
par exemple, des angles.
Au fur et à mesure,
nous en disons de plus en plus
à l'ordinateur
sur le type de structures
que l'on recherche.
Imaginez un diagnostic médical,
par exemple un pathologiste identifiant
des zones malades,
ou un radiologue montrant
des nodules potentiellement inquiétants.
Parfois, cela devient difficile
pour l'algorithme.
Ici, il s'est un peu emmêlé les pinceaux.
L'avant et l'arrière des voitures
sont mêlés.
Nous devons faire
un peu plus attention,
et dissocier manuellement les avants
des arrières,
puis dire à l'ordinateur que
cette classification nous importe.
Nous continuons comme ça,
et, un peu plus tard,
nous allons former l'algorithme
sur la base de ces classifications,
et espérer qu'il s'est amélioré.
Comme vous le voyez, il a commencé à
estomper certaines photos,
montrant qu'il sait déjà comment
comprendre certaines d'entre elles.
Nous pouvons ensuite utiliser ce
concept d'images similaires,
et, voir que, en s'en servant,
l'ordinateur est désormais capable de
trouver seulement les avants de voiture.
A ce stade, l'être humain
peut dire à l'ordinateur :
«Ok, tu t'en es bien sorti. »
Bien sûr, parfois, même à ce stade,
il est encore difficile
de faire des groupes.
Ici, même après avoir laissé l'ordinateur
pivoter pendant un moment,
les photos de voitures vues de droite
et celles vues de gauche sont
encore toutes mêlées.
Nous lui donnons de nouveau
des indications,
puis lui disons de chercher
une projection qui fait le tri
entre les photos de droite et de gauche -
avec l'algorithme d'apprentissage profond.
Avec ces indications, nous avons réussi.
Il a trouvé une manière de considérer
ces objets qui en permet le tri.
Vous avez saisi l'idée.
Nous ne somme pas ici dans une
substitution de l'homme par la machine,
mais dans un travail conjoint.
Ce que nous faisons, c'est prendre
quelque chose qui mobilisait une équipe
de cinq ou six personnes pendant sept ans
et y substituer quelque chose qui
prend 15 minutes à une seule personne.
Cette méthode nécessite quatre
ou cinq itérations,
et nous avons maintenant 62%
de nos 1,5 million d'images
classifiées correctement.
A ce stade, nous pouvons
commencer à prendre
des parties entières,
et vérifier rapidement
qu'il n'y a pas d'erreurs.
Quand il y a des erreurs, nous en
informons l'ordinateur,
et, en utilisant cette méthode
pour tous les groupes,
nous en arrivons à un
taux de réussite de 80%
dans la classification de ces images.
A partir de là, il s'agit juste
de trouver le petit nombre d'images
mal classées,
et à essayer de comprendre pourquoi.
Avec cette approche,
en 15 minutes, nous parvenons à un
taux de classification de 97%.
Ce type de méthode pourrait nous
permettre de régler un problème majeur :
le manque d'expertise médicale
dans le monde.
Le Forum économique mondial estime
qu'il faudrait 10 à 20 fois plus
de médecins dans les pays
en voie de développement
et qu'il faudrait 300 ans
pour former suffisamment de personnes
et régler ce problème.
Imaginez alors que nous puissions
accroître leur productivité
avec ces méthodes d'apprentissage profond.
Les opportunités m'enchantent.
Mais les dangers m’inquiètent.
Le problème, c'est que dans tous les pays
en bleu sur la carte,
le secteur tertiaire représente
plus de 80% de l'emploi.
C'est quoi le secteur tertiaire ?
C'est ça.
Ce sont exactement ces choses que les
ordinateurs viennent d'apprendre à faire.
80% des emplois dans les pays développés
consiste en ce qu'une machine
sait désormais faire.
Qu'est-ce que cela veut dire ?
Tout ira bien.
D'autres emplois les remplaceront,
par exemple, dans l'analyse de données.
Pas vraiment.
Ce n'est pas long pour un analyste de
données de construire ça.
Par exemple, ces quatre algorithmes
sont tous de la même personne.
Vous pensez peut-être
que c'est du déjà-vu,
que nous connaissons les conséquences
de l'arrivée de nouvelles choses,
de nouveaux emplois qui
remplacent les anciens.
Que seront ces nouveaux emplois ?
C'est très dur à estimer :
l'amélioration des performances
humaines est graduelle,
tandis que ce système,
l'apprentissage profond,
s'améliore de façon exponentielle.
Et nous en sommes là.
En regardant autour de nous,
nous pensons :
« Les machines sont
toujours idiotes ». Pas vrai ?
Mais d'ici cinq ans, elles seront
bien plus haut dans la courbe.
Nous devons commencer à penser
dès maintenant à ces capacités futures.
Ce n'est pas la première fois, bien sûr.
Les machines de la Révolution Industrielle
augmentèrent nos capacités.
Mais, au bout d'un moment,
les choses se calmèrent.
Il y eut des troubles sociaux, mais
une fois les machines utilisées
pour la plupart des cas utiles,
les choses s'apaisèrent.
La Révolution des Machines Apprenantes
sera très différente
de la Révolution Industrielle,
parce que dans son cas, les choses
ne se calmeront pas.
Plus les ordinateurs progressent
dans les activités cérébrales,
plus ils peuvent créer de meilleurs
ordinateurs, et progresser encore.
Nous sommes devant un type d'évolution
que le monde n'a jamais
expérimentée auparavant :
notre compréhension antérieure
des possibles n'est pas adaptée.
Nous en subissons déjà les impacts.
Ces 25 dernières années, alors que
la productivité du capital augmentait,
la productivité du travail restait stable,
était même légèrement en baisse.
Je voudrais lancer
ce débat dès maintenant.
Je sais d'expérience que lorsque
je parle de ça aux gens,
ils peuvent être sceptiques.
Les machines ne peuvent pas penser,
elles n'ont pas d'émotions,
ne comprennent pas la poésie.
Nous ne comprenons pas
comment elles fonctionnent.
Et alors ?
Elles peuvent dès maintenant faire
ce pour quoi les hommes sont payés.
C'est le moment de commencer
à réfléchir à la façon d'ajuster nos
structures sociales et économiques,
d'être au fait de cette nouvelle réalité.
Merci.
(Applaudissements)