Avant, si vous vouliez qu'un ordinateur fasse quelque chose de nouveau, vous deviez le programmer. La programmation, pour ceux d'entre vous qui n'en ont jamais fait, nécessite de décrire, à un niveau de détail effrayant, chaque étape que vous voulez que l'ordinateur fasse pour atteindre votre but. Mais si ce que vous voulez, vous ne savez pas le faire vous-même, la programmation devient un immense défi. C'est à ce défi que se confronta cet homme, Arthur Samuel. En 1956, il voulut que cet ordinateur soit capable de le battre au jeu de dames. Comment écrire un programme, décrire, en d'effrayants détails, comment être meilleur que vous aux dames ? Il eut une idée : faire jouer l'ordinateur contre lui-même des milliers de fois et lui faire apprendre à jouer aux dames. Ça a si bien fonctionné que dès 1962 l'ordinateur avait battu le champion du Connecticut. Arthur Samuel est le père de la machine apprenante, et j'ai une grande dette envers lui, parce que je travaille dans ce secteur. J'ai été président de Kaggle, une communauté de 200 000 praticiens de l'apprentissage automatique. Kaggle met en place des compétitions pour les amener à résoudre des problèmes jusque là non résolus, et ça a été un succès des centaines de fois. De ce point de vue privilégié, j'ai pu découvrir beaucoup sur ce que l'apprentissage automatique pouvait et peut faire, et sur ce qu'il pourra faire demain. Le premier grand succès commercial, c'est peut-être Google. Google a montré qu'il était possible de trouver des informations en utilisant un algorithme, et cet algorithme est basé sur l'apprentissage automatique. L'apprentissage automatique a depuis connu beaucoup d'autres succès commerciaux Des sociétés comme Amazon ou Netflix l'utilisent pour suggérer des produits que vous pourriez vouloir acheter, des films que vous pourriez aimer voir. Parfois, c'en est presque effrayant. Des entreprises comme LinkedIn et Facebook vous disent parfois qui pourraient être vos amis et vous ne savez pas comment elles font, car elles utilisent le pouvoir de l'apprentissage automatique. Ces algorithmes ont appris à le faire à partir de données plutôt que d'être programmés manuellement. De la même manière, IBM a pu faire en sorte que Watson batte les champions du monde de « Jeopardy », en répondant à des questions très difficiles comme : « Le "Lion de Nimrud" a disparu en 2003 du musée de cette ville » C'est aussi pourquoi nous voyons les premières voitures autonomes. Être capable de faire la différence entre, disons, un arbre et un piéton, est plutôt important. Nous ne savons pas écrire de tels programmes manuellement, mais l'apprentissage automatique rend la chose possible. Cette voiture a roulé plus de 1,6 millions de km sur des routes ordinaires, sans le moindre accident. Nous savons maintenant que les ordinateurs peuvent apprendre, et apprendre à faire des choses que nous ne savons pas toujours faire nous-mêmes, ou qu'ils peuvent peut-être faire mieux que nous. Un des cas les plus étonnants d'apprentissage automatique que j'ai vu s'est produit lors d'un projet de Kaggle, où une équipe dirigée par Geoffrey Hinton, de l'Université de Toronto, a gagné un concours de découverte de la drogue. Ce qui est extraordinaire n'est pas juste qu'ils aient battu tous les algorithmes de Merck ou de la communauté universitaire internationale, mais que personne de l'équipe n'ait de formation en chimie ou biologie, et qu'ils l'aient fait en deux semaines. Comment ont-ils fait ? Avec un algorithme génial appelé apprentissage profond. Ça a été si important que leur succès donna lieu à un article en une du New York Times quelques semaines plus tard. Il s'agit de Geoffrey Hinton, là, à gauche, sur l'écran. L'apprentissage profond s'inspire du fonctionnement du cerveau : c'est un algorithme qui n'a donc aucune limite théorique. Plus vous lui donnez de données, et de temps de calcul, plus il devient meilleur. Le New York Times montra aussi dans son article un autre résultat inouï de l'apprentissage profond, que je vais maintenant vous montrer. Il montre que les ordinateurs sont capables d'écouter et comprendre. (Vidéo) Richard Rashid: La dernière étape que je voudrais pouvoir atteindre, c'est de vous parler en chinois. L'élément-clé ici, c'est que nous avons pu collecter beaucoup de données auprès de nombreux sinophones et produire un système de vocalisation qui convertit du texte chinois en parole chinoise, puis nous avons pris environ une heure d'enregistrement de ma propre voix, et nous l'avons utilisé pour moduler le système de vocalisation, afin que la voix ressemble à la mienne. Le résultat n'est pas parfait. Il y a un certain nombre d'erreurs. (En chinois) (Applaudissements) Il y a encore beaucoup de travail à faire (En chinois) (Applaudissements) J. H. : C'était une conférence en Chine sur l'apprentissage automatique. Il est rare, lors de conférences universitaires, d'entendre des applaudissements spontanés, quoique cela arrive parfois aux conférences TEDx. N'hésitez pas. L'apprentissage profond était derrière tout ça. (Applaudissements) Merci. La transcription en anglais, la traduction en chinois et la construction de la voix étaient tous de l'apprentissage profond. L'apprentissage profond est cette chose extraordinaire. C'est un seul algorithme qui semble pouvoir presque tout faire, et j'ai découvert qu'un an plus tôt, il avait aussi appris à voir. Dans une obscure compétition en Allemagne, le « Test de Reconnaissance de Panneaux Routiers », l'apprentissage profond a appris à reconnaître des panneaux, non seulement mieux que tous les autres algorithmes, mais également mieux que les humains - environ deux fois mieux : dès 2011, nous avions un exemple d'ordinateurs pouvant voir mieux qu'un être humain. Depuis, beaucoup de choses se sont passées. En 2012, Google a annoncé qu'un algorithme d'apprentissage profond, regardant des vidéos YouTube et analysant les données sur 16 000 ordinateurs pendant un mois, a pu apprendre, de lui-même, les concepts de « chat » ou encore d'« être humain », juste en regardant ces vidéos. Les êtres humains apprennent de la même manière : on n'apprend pas une chose par explication, mais on l'apprend par les perceptions individuelles. En 2012 également, Geoffrey Hinton, dont nous avons déjà parlé, a gagné le très réputé concours « ImageNet », où il s'agit d'identifier, au sein d'un million et demi d'images, les images en question. En 2014, nous sommes tombés à un taux d'erreur de 6% en reconnaissance visuelle. C'est, de nouveau, mieux qu'un être humain. Les machines font vraiment ici un travail extraordinaire, avec, désormais, des applications industrielles. Par exemple, Google a annoncé l'an dernier qu'ils avaient cartographié l'ensemble des lieux de France en deux heures, en fournissant des images de Street View à un algorithme d'apprentissage profond, pour qu'il reconnaisse les numéros de rue. Imaginez le temps qu'il aurait fallu avant : des dizaines de personnes, plusieurs années. C'est la même histoire en Chine. Baidu est, on peut dire, une sorte de Google chinois. Ce que vous voyez en haut à gauche, est une photo que j'ai chargée sur le système d'apprentissage profond de Baidu, et, dessous, vous voyez que le système a compris ce qui était sur la photo, et trouvé des images similaires. Les images similaires ont le même arrière-plan, la tête dans le même sens, certaines même avec la langue sortie. Ce n'est pas une recherche sur le texte d'une page web. Je n'ai chargé qu'une image. Les ordinateurs peuvent donc désormais vraiment comprendre ce qu'ils voient, et consulter une base de données de centaines de millions d'images en temps réel. Quelles conséquences, maintenant que les ordinateurs peuvent voir ? Les machines ne savent pas seulement voir. L'apprentissage profond va plus loin. Une phrase complexe et nuancée comme celle-ci, est maintenant compréhensible par ces algorithmes. Comme vous pouvez le voir, ce système de Stanford, avec le point rouge en haut, a compris que la phrase comportait un jugement négatif. L'apprentissage profond est désormais proche des performances humaines pour comprendre le sujet d'une phrase, et le jugement qui y est exprimé. Il a aussi été utilisé pour lire le chinois, à un niveau proche de celui d'un locuteur natif. Cet algorithme a été développé en Suisse par des personnes dont aucune ne parlait ni ne comprenait le chinois. Utiliser l'apprentissage profond constitue le meilleur système dans ce cas, même comparé à la compréhension humaine. Il s'agit ici d'un système mis en place dans mon entreprise, qui regroupe tout ça. Ce sont des images qui ne sont pas liées à du texte, et, alors que j'écris ici des phrases, en temps réel, le système comprend les images, identifie leur sujet, et trouve des images correspondant au texte que j'écris. Il comprend véritablement mes phrases, et comprend véritablement ces images. Je sais que vous voyez ça sur Google, où l'on peut trouver des images en tapant un texte, mais ce n'est qu'une recherche dans le texte de la page web. C'est très différent de comprendre vraiment les images. C'est quelque chose que les ordinateurs n'ont pu faire pour la première fois que très récemment. Les ordinateurs peuvent donc non seulement voir, mais aussi lire, et, bien sûr, nous avons montré qu'ils peuvent comprendre ce qu'ils entendent. Pas très surprenant si je vous dis maintenant qu'ils peuvent écrire. A partir d'un algorithme d'apprentissage profond, j'ai généré ce texte hier. Ici, ce sont des textes générés par un algorithme de Stanford. Chacune de ces phrases a été générée par un algorithme d'apprentissage profond décrivant l'image au-dessus. Cet algorithme n'avait jamais vu un homme habillé en noir jouant de la guitare. Il avait vu déjà vu un homme, déjà vu du noir, déjà vu une guitare, mais a généré de manière autonome cette nouvelle description de cette photo. Nous n'atteignons pas encore les performances humaines, mais presque. Dans les tests réalisés, les personnes préfèrent la légende de l'ordinateur une fois sur quatre. Ce système n'a que deux semaines, et l'on peut supposer que d'ici un an, l'algorithme aurait surpassé les performances humaines - au rythme où ça va. Les ordinateurs peuvent donc aussi écrire. Si l'on rassemble tout ça, les perspectives deviennent prometteuses. Par exemple, en médecine, une équipe de Boston a annoncé qu'elle avait découvert des dizaines de nouveaux signes cliniques de tumeurs, qui aident les docteurs à diagnostiquer un cancer. De façon très proche, à Stanford, une équipe a annoncé qu'en observant des tissus au microscope, ils ont développé un système de machine apprenante qui est vraiment meilleur qu'un pathologiste pour prédire les taux de survie de personnes atteintes de cancer. Dans ces deux cas, non seulement les prévisions étaient meilleures, mais elles ont aussi permis des découvertes majeures. Dans l'exemple en radiologie, de nouveaux signes cliniques compréhensibles par l'homme. Dans l'exemple en pathologie, le système informatique a découvert que les cellules autour du cancer étaient aussi importantes que les cellules cancéreuses elles-mêmes pour porter un diagnostic, à rebours de ce qui a été enseigné aux pathologistes pendant des décennies. Dans ces deux cas, les systèmes ont été développés en associant experts médicaux et experts de l'apprentissage automatique, mais, depuis l'an dernier, un nouveau cap a été franchi. Il s'agit ici d'un exemple d'identification de zones cancéreuses d'un tissu humain au microscope. Ce système peut identifier ces zones avec plus de précisions, ou, du moins, avec autant de précision qu'un pathologiste, mais a été entièrement créé par l'apprentissage profond créé par des personnes n'ayant pas de formation médicale. De même, pour cette classification de neurones. On peut désormais classer les neurones avec autant de précisions qu'un humain, et ce système a été créé avec l'apprentissage profond, par des gens n'ayant pas de connaissance médicale antérieure. Moi-même, sans connaissance médicale antérieure, je semble être pleinement qualifié pour créer une entreprise dans la santé - ce que j'ai fait. J'étais terrifié à cette idée, mais, la théorie suggérait qu'il devait être possible d'être utile dans ce secteur en ne maniant que ces moyens d'analyse de données. Et, heureusement, les retours ont été fabuleux, ceux des médias, mais aussi ceux du corps médical, qui a été d'un grand soutien. La théorie, c'est que l'on peut isoler la partie centrale du processus médical, pour procéder, autant que possible, à des analyses de données, et laisser les médecins se consacrer sur leurs forces. Je veux vous donner un exemple. Il nous faut désormais environ 15 minutes pour faire un nouveau diagnostic médical, et je vais vous le montrer en temps réel, même si je l'ai réduit à trois minutes en supprimant certaines parties. Plutôt que de vous montrer la création d'un diagnostic médical, je vais vous montrer un diagnostic d'images de voitures : c'est quelque chose que tout le monde comprend. Nous commençons avec environ 1,5 million d'images de voitures, et ce que je veux, c'est les organiser selon l'angle selon lequel la photo a été prise. Ces images ne sont pas cataloguées : je dois partir de zéro. Notre algorithme d'apprentissage profond permet d'identifier les structures dans ces images. L'être humain et l'ordinateur peuvent maintenant travailler ensemble. L'être humain, comme vous le voyez ici, indique à la machine les zones d'intérêt, celles à lesquelles il veut qu'elle s'intéresse pour améliorer son algorithme. Les systèmes d'apprentissage profond sont des espaces à 16 000 dimensions [sic], et vous pouvez voir ici l'ordinateur qui pivote au sein de cet espace, pour trouver de nouvelles structures. Quand il y arrive, l'être humain peut ensuite lui signaler les zones intéressantes. Ici, l'ordinateur a pu trouver une zone avec, par exemple, des angles. Au fur et à mesure, nous en disons de plus en plus à l'ordinateur sur le type de structures que l'on recherche. Imaginez un diagnostic médical, par exemple un pathologiste identifiant des zones malades, ou un radiologue montrant des nodules potentiellement inquiétants. Parfois, cela devient difficile pour l'algorithme. Ici, il s'est un peu emmêlé les pinceaux. L'avant et l'arrière des voitures sont mêlés. Nous devons faire un peu plus attention, et dissocier manuellement les avants des arrières, puis dire à l'ordinateur que cette classification nous importe. Nous continuons comme ça, et, un peu plus tard, nous allons former l'algorithme sur la base de ces classifications, et espérer qu'il s'est amélioré. Comme vous le voyez, il a commencé à estomper certaines photos, montrant qu'il sait déjà comment comprendre certaines d'entre elles. Nous pouvons ensuite utiliser ce concept d'images similaires, et, voir que, en s'en servant, l'ordinateur est désormais capable de trouver seulement les avants de voiture. A ce stade, l'être humain peut dire à l'ordinateur : «Ok, tu t'en es bien sorti. » Bien sûr, parfois, même à ce stade, il est encore difficile de faire des groupes. Ici, même après avoir laissé l'ordinateur pivoter pendant un moment, les photos de voitures vues de droite et celles vues de gauche sont encore toutes mêlées. Nous lui donnons de nouveau des indications, puis lui disons de chercher une projection qui fait le tri entre les photos de droite et de gauche - avec l'algorithme d'apprentissage profond. Avec ces indications, nous avons réussi. Il a trouvé une manière de considérer ces objets qui en permet le tri. Vous avez saisi l'idée. Nous ne somme pas ici dans une substitution de l'homme par la machine, mais dans un travail conjoint. Ce que nous faisons, c'est prendre quelque chose qui mobilisait une équipe de cinq ou six personnes pendant sept ans et y substituer quelque chose qui prend 15 minutes à une seule personne. Cette méthode nécessite quatre ou cinq itérations, et nous avons maintenant 62% de nos 1,5 million d'images classifiées correctement. A ce stade, nous pouvons commencer à prendre des parties entières, et vérifier rapidement qu'il n'y a pas d'erreurs. Quand il y a des erreurs, nous en informons l'ordinateur, et, en utilisant cette méthode pour tous les groupes, nous en arrivons à un taux de réussite de 80% dans la classification de ces images. A partir de là, il s'agit juste de trouver le petit nombre d'images mal classées, et à essayer de comprendre pourquoi. Avec cette approche, en 15 minutes, nous parvenons à un taux de classification de 97%. Ce type de méthode pourrait nous permettre de régler un problème majeur : le manque d'expertise médicale dans le monde. Le Forum économique mondial estime qu'il faudrait 10 à 20 fois plus de médecins dans les pays en voie de développement et qu'il faudrait 300 ans pour former suffisamment de personnes et régler ce problème. Imaginez alors que nous puissions accroître leur productivité avec ces méthodes d'apprentissage profond. Les opportunités m'enchantent. Mais les dangers m’inquiètent. Le problème, c'est que dans tous les pays en bleu sur la carte, le secteur tertiaire représente plus de 80% de l'emploi. C'est quoi le secteur tertiaire ? C'est ça. Ce sont exactement ces choses que les ordinateurs viennent d'apprendre à faire. 80% des emplois dans les pays développés consiste en ce qu'une machine sait désormais faire. Qu'est-ce que cela veut dire ? Tout ira bien. D'autres emplois les remplaceront, par exemple, dans l'analyse de données. Pas vraiment. Ce n'est pas long pour un analyste de données de construire ça. Par exemple, ces quatre algorithmes sont tous de la même personne. Vous pensez peut-être que c'est du déjà-vu, que nous connaissons les conséquences de l'arrivée de nouvelles choses, de nouveaux emplois qui remplacent les anciens. Que seront ces nouveaux emplois ? C'est très dur à estimer : l'amélioration des performances humaines est graduelle, tandis que ce système, l'apprentissage profond, s'améliore de façon exponentielle. Et nous en sommes là. En regardant autour de nous, nous pensons : « Les machines sont toujours idiotes ». Pas vrai ? Mais d'ici cinq ans, elles seront bien plus haut dans la courbe. Nous devons commencer à penser dès maintenant à ces capacités futures. Ce n'est pas la première fois, bien sûr. Les machines de la Révolution Industrielle augmentèrent nos capacités. Mais, au bout d'un moment, les choses se calmèrent. Il y eut des troubles sociaux, mais une fois les machines utilisées pour la plupart des cas utiles, les choses s'apaisèrent. La Révolution des Machines Apprenantes sera très différente de la Révolution Industrielle, parce que dans son cas, les choses ne se calmeront pas. Plus les ordinateurs progressent dans les activités cérébrales, plus ils peuvent créer de meilleurs ordinateurs, et progresser encore. Nous sommes devant un type d'évolution que le monde n'a jamais expérimentée auparavant : notre compréhension antérieure des possibles n'est pas adaptée. Nous en subissons déjà les impacts. Ces 25 dernières années, alors que la productivité du capital augmentait, la productivité du travail restait stable, était même légèrement en baisse. Je voudrais lancer ce débat dès maintenant. Je sais d'expérience que lorsque je parle de ça aux gens, ils peuvent être sceptiques. Les machines ne peuvent pas penser, elles n'ont pas d'émotions, ne comprennent pas la poésie. Nous ne comprenons pas comment elles fonctionnent. Et alors ? Elles peuvent dès maintenant faire ce pour quoi les hommes sont payés. C'est le moment de commencer à réfléchir à la façon d'ajuster nos structures sociales et économiques, d'être au fait de cette nouvelle réalité. Merci. (Applaudissements)