WEBVTT 00:00:00.880 --> 00:00:04.893 Avant, si vous vouliez qu'un ordinateur fasse quelque chose de nouveau, 00:00:04.893 --> 00:00:06.447 vous deviez le programmer. 00:00:06.447 --> 00:00:09.858 La programmation, pour ceux d'entre vous qui n'en ont jamais fait, 00:00:09.858 --> 00:00:13.360 nécessite de décrire, à un niveau de détail effrayant, 00:00:13.360 --> 00:00:16.727 chaque étape que vous voulez que l'ordinateur fasse 00:00:16.727 --> 00:00:19.089 pour atteindre votre but. 00:00:19.089 --> 00:00:22.585 Mais si ce que vous voulez, vous ne savez pas le faire vous-même, 00:00:22.585 --> 00:00:24.648 la programmation devient un immense défi. NOTE Paragraph 00:00:24.648 --> 00:00:28.131 C'est à ce défi que se confronta cet homme, Arthur Samuel. 00:00:28.131 --> 00:00:32.208 En 1956, il voulut que cet ordinateur 00:00:32.208 --> 00:00:34.548 soit capable de le battre au jeu de dames. 00:00:34.548 --> 00:00:36.588 Comment écrire un programme, 00:00:36.588 --> 00:00:40.394 décrire, en d'effrayants détails, comment être meilleur que vous aux dames ? 00:00:40.394 --> 00:00:42.116 Il eut une idée : 00:00:42.116 --> 00:00:45.840 faire jouer l'ordinateur contre lui-même des milliers de fois 00:00:45.840 --> 00:00:48.274 et lui faire apprendre à jouer aux dames. 00:00:48.274 --> 00:00:51.544 Ça a si bien fonctionné que dès 1962 00:00:51.544 --> 00:00:55.561 l'ordinateur avait battu le champion du Connecticut. NOTE Paragraph 00:00:55.561 --> 00:00:58.534 Arthur Samuel est le père de la machine apprenante, 00:00:58.534 --> 00:01:00.251 et j'ai une grande dette envers lui, 00:01:00.251 --> 00:01:03.014 parce que je travaille dans ce secteur. 00:01:03.014 --> 00:01:04.479 J'ai été président de Kaggle, 00:01:04.479 --> 00:01:07.867 une communauté de 200 000 praticiens de l'apprentissage automatique. 00:01:07.867 --> 00:01:09.925 Kaggle met en place des compétitions 00:01:09.925 --> 00:01:13.633 pour les amener à résoudre des problèmes jusque là non résolus, 00:01:13.633 --> 00:01:17.470 et ça a été un succès des centaines de fois. 00:01:17.470 --> 00:01:19.940 De ce point de vue privilégié, j'ai pu découvrir 00:01:19.940 --> 00:01:23.890 beaucoup sur ce que l'apprentissage automatique pouvait et peut faire, 00:01:23.890 --> 00:01:26.252 et sur ce qu'il pourra faire demain. 00:01:26.252 --> 00:01:30.675 Le premier grand succès commercial, c'est peut-être Google. 00:01:30.675 --> 00:01:33.784 Google a montré qu'il était possible de trouver des informations 00:01:33.784 --> 00:01:35.536 en utilisant un algorithme, 00:01:35.536 --> 00:01:38.437 et cet algorithme est basé sur l'apprentissage automatique. 00:01:38.437 --> 00:01:42.323 L'apprentissage automatique a depuis connu beaucoup d'autres succès commerciaux 00:01:42.323 --> 00:01:44.160 Des sociétés comme Amazon ou Netflix 00:01:44.160 --> 00:01:47.876 l'utilisent pour suggérer des produits que vous pourriez vouloir acheter, 00:01:47.876 --> 00:01:49.896 des films que vous pourriez aimer voir. 00:01:49.896 --> 00:01:51.653 Parfois, c'en est presque effrayant. 00:01:51.653 --> 00:01:53.657 Des entreprises comme LinkedIn et Facebook 00:01:53.657 --> 00:01:56.251 vous disent parfois qui pourraient être vos amis 00:01:56.251 --> 00:01:58.228 et vous ne savez pas comment elles font, 00:01:58.228 --> 00:02:01.195 car elles utilisent le pouvoir de l'apprentissage automatique. 00:02:01.195 --> 00:02:04.422 Ces algorithmes ont appris à le faire à partir de données 00:02:04.422 --> 00:02:07.399 plutôt que d'être programmés manuellement. NOTE Paragraph 00:02:07.399 --> 00:02:09.877 De la même manière, IBM a pu faire en sorte 00:02:09.877 --> 00:02:13.737 que Watson batte les champions du monde de « Jeopardy », 00:02:13.737 --> 00:02:16.674 en répondant à des questions très difficiles comme : 00:02:16.674 --> 00:02:19.799 « Le "Lion de Nimrud" a disparu en 2003 du musée de cette ville » 00:02:19.799 --> 00:02:23.034 C'est aussi pourquoi nous voyons les premières voitures autonomes. 00:02:23.034 --> 00:02:25.926 Être capable de faire la différence entre, disons, 00:02:25.926 --> 00:02:28.298 un arbre et un piéton, est plutôt important. 00:02:28.298 --> 00:02:31.075 Nous ne savons pas écrire de tels programmes manuellement, 00:02:31.075 --> 00:02:34.072 mais l'apprentissage automatique rend la chose possible. 00:02:34.072 --> 00:02:36.910 Cette voiture a roulé plus de 1,6 millions de km 00:02:36.910 --> 00:02:40.196 sur des routes ordinaires, sans le moindre accident. NOTE Paragraph 00:02:40.196 --> 00:02:44.110 Nous savons maintenant que les ordinateurs peuvent apprendre, 00:02:44.110 --> 00:02:46.010 et apprendre à faire des choses 00:02:46.010 --> 00:02:48.848 que nous ne savons pas toujours faire nous-mêmes, 00:02:48.848 --> 00:02:51.733 ou qu'ils peuvent peut-être faire mieux que nous. 00:02:51.733 --> 00:02:55.928 Un des cas les plus étonnants d'apprentissage automatique que j'ai vu 00:02:55.928 --> 00:02:58.320 s'est produit lors d'un projet de Kaggle, 00:02:58.320 --> 00:03:01.914 où une équipe dirigée par Geoffrey Hinton, 00:03:01.914 --> 00:03:03.463 de l'Université de Toronto, 00:03:03.463 --> 00:03:06.140 a gagné un concours de découverte de la drogue. 00:03:06.140 --> 00:03:08.987 Ce qui est extraordinaire n'est pas juste qu'ils aient battu 00:03:08.987 --> 00:03:13.003 tous les algorithmes de Merck ou de la communauté universitaire internationale, 00:03:13.003 --> 00:03:18.059 mais que personne de l'équipe n'ait de formation en chimie ou biologie, 00:03:18.059 --> 00:03:20.225 et qu'ils l'aient fait en deux semaines. 00:03:20.230 --> 00:03:22.421 Comment ont-ils fait ? 00:03:22.421 --> 00:03:25.342 Avec un algorithme génial appelé apprentissage profond. 00:03:25.342 --> 00:03:28.291 Ça a été si important que leur succès donna lieu 00:03:28.291 --> 00:03:31.412 à un article en une du New York Times quelques semaines plus tard. 00:03:31.412 --> 00:03:34.147 Il s'agit de Geoffrey Hinton, là, à gauche, sur l'écran. 00:03:34.147 --> 00:03:38.488 L'apprentissage profond s'inspire du fonctionnement du cerveau : 00:03:38.488 --> 00:03:44.160 c'est un algorithme qui n'a donc aucune limite théorique. 00:03:44.160 --> 00:03:46.964 Plus vous lui donnez de données, et de temps de calcul, 00:03:46.964 --> 00:03:48.276 plus il devient meilleur. NOTE Paragraph 00:03:48.276 --> 00:03:50.615 Le New York Times montra aussi dans son article 00:03:50.615 --> 00:03:52.857 un autre résultat inouï de l'apprentissage profond, 00:03:52.857 --> 00:03:55.569 que je vais maintenant vous montrer. 00:03:55.569 --> 00:04:00.510 Il montre que les ordinateurs sont capables d'écouter et comprendre. NOTE Paragraph 00:04:00.510 --> 00:04:03.221 (Vidéo) Richard Rashid: La dernière étape 00:04:03.221 --> 00:04:06.246 que je voudrais pouvoir atteindre, 00:04:06.246 --> 00:04:10.959 c'est de vous parler en chinois. 00:04:10.959 --> 00:04:13.602 L'élément-clé ici, c'est 00:04:13.602 --> 00:04:18.596 que nous avons pu collecter beaucoup de données auprès de nombreux sinophones 00:04:18.596 --> 00:04:21.148 et produire un système de vocalisation 00:04:21.148 --> 00:04:25.801 qui convertit du texte chinois en parole chinoise, 00:04:25.801 --> 00:04:29.929 puis nous avons pris environ une heure d'enregistrement de ma propre voix, 00:04:29.929 --> 00:04:31.820 et nous l'avons utilisé pour moduler 00:04:31.820 --> 00:04:36.364 le système de vocalisation, afin que la voix ressemble à la mienne. 00:04:36.364 --> 00:04:38.904 Le résultat n'est pas parfait. 00:04:38.904 --> 00:04:41.552 Il y a un certain nombre d'erreurs. 00:04:41.552 --> 00:04:44.036 (En chinois) 00:04:44.036 --> 00:04:49.446 (Applaudissements) 00:04:49.446 --> 00:04:53.022 Il y a encore beaucoup de travail à faire 00:04:53.022 --> 00:04:56.667 (En chinois) 00:04:56.667 --> 00:05:01.345 (Applaudissements) NOTE Paragraph 00:05:01.345 --> 00:05:04.744 J. H. : C'était une conférence en Chine sur l'apprentissage automatique. 00:05:04.744 --> 00:05:07.111 Il est rare, lors de conférences universitaires, 00:05:07.111 --> 00:05:09.588 d'entendre des applaudissements spontanés, 00:05:09.588 --> 00:05:12.685 quoique cela arrive parfois aux conférences TEDx. N'hésitez pas. 00:05:12.685 --> 00:05:15.482 L'apprentissage profond était derrière tout ça. 00:05:15.482 --> 00:05:17.007 (Applaudissements) Merci. 00:05:17.007 --> 00:05:19.529 La transcription en anglais, 00:05:19.529 --> 00:05:22.698 la traduction en chinois 00:05:22.698 --> 00:05:26.008 et la construction de la voix étaient tous de l'apprentissage profond. NOTE Paragraph 00:05:26.008 --> 00:05:29.242 L'apprentissage profond est cette chose extraordinaire. 00:05:29.242 --> 00:05:32.341 C'est un seul algorithme qui semble pouvoir presque tout faire, 00:05:32.341 --> 00:05:35.452 et j'ai découvert qu'un an plus tôt, il avait aussi appris à voir. 00:05:35.452 --> 00:05:37.628 Dans une obscure compétition en Allemagne, 00:05:37.628 --> 00:05:40.225 le « Test de Reconnaissance de Panneaux Routiers », 00:05:40.225 --> 00:05:43.618 l'apprentissage profond a appris à reconnaître des panneaux, 00:05:43.618 --> 00:05:47.482 non seulement mieux que tous les autres algorithmes, 00:05:47.482 --> 00:05:50.189 mais également mieux que les humains - 00:05:50.189 --> 00:05:52.041 environ deux fois mieux : 00:05:52.041 --> 00:05:54.037 dès 2011, nous avions un exemple 00:05:54.037 --> 00:05:57.442 d'ordinateurs pouvant voir mieux qu'un être humain. 00:05:57.442 --> 00:05:59.491 Depuis, beaucoup de choses se sont passées. 00:05:59.491 --> 00:06:03.005 En 2012, Google a annoncé qu'un algorithme d'apprentissage profond, 00:06:03.005 --> 00:06:04.420 regardant des vidéos YouTube 00:06:04.420 --> 00:06:07.857 et analysant les données sur 16 000 ordinateurs pendant un mois, 00:06:07.857 --> 00:06:12.218 a pu apprendre, de lui-même, les concepts de « chat » ou encore d'« être humain », 00:06:12.218 --> 00:06:14.027 juste en regardant ces vidéos. 00:06:14.027 --> 00:06:16.379 Les êtres humains apprennent de la même manière : 00:06:16.379 --> 00:06:19.119 on n'apprend pas une chose par explication, 00:06:19.119 --> 00:06:22.450 mais on l'apprend par les perceptions individuelles. 00:06:22.450 --> 00:06:25.819 En 2012 également, Geoffrey Hinton, dont nous avons déjà parlé, 00:06:25.819 --> 00:06:28.677 a gagné le très réputé concours « ImageNet », 00:06:28.677 --> 00:06:32.818 où il s'agit d'identifier, au sein d'un million et demi d'images, 00:06:32.818 --> 00:06:34.256 les images en question. 00:06:34.256 --> 00:06:37.789 En 2014, nous sommes tombés à un taux d'erreur de 6% 00:06:37.789 --> 00:06:39.242 en reconnaissance visuelle. 00:06:39.242 --> 00:06:41.268 C'est, de nouveau, mieux qu'un être humain. NOTE Paragraph 00:06:41.268 --> 00:06:45.037 Les machines font vraiment ici un travail extraordinaire, 00:06:45.037 --> 00:06:47.306 avec, désormais, des applications industrielles. 00:06:47.306 --> 00:06:50.348 Par exemple, Google a annoncé l'an dernier 00:06:50.348 --> 00:06:54.933 qu'ils avaient cartographié l'ensemble des lieux de France en deux heures, 00:06:54.933 --> 00:06:58.380 en fournissant des images de Street View 00:06:58.380 --> 00:07:02.699 à un algorithme d'apprentissage profond, pour qu'il reconnaisse les numéros de rue. 00:07:02.699 --> 00:07:04.919 Imaginez le temps qu'il aurait fallu avant : 00:07:04.919 --> 00:07:08.274 des dizaines de personnes, plusieurs années. 00:07:08.274 --> 00:07:10.185 C'est la même histoire en Chine. 00:07:10.185 --> 00:07:14.221 Baidu est, on peut dire, une sorte de Google chinois. 00:07:14.221 --> 00:07:16.504 Ce que vous voyez en haut à gauche, 00:07:16.504 --> 00:07:20.478 est une photo que j'ai chargée sur le système d'apprentissage profond de Baidu, 00:07:20.478 --> 00:07:24.247 et, dessous, vous voyez que le système a compris ce qui était sur la photo, 00:07:24.247 --> 00:07:26.483 et trouvé des images similaires. 00:07:26.483 --> 00:07:29.219 Les images similaires ont le même arrière-plan, 00:07:29.219 --> 00:07:30.877 la tête dans le même sens, 00:07:30.877 --> 00:07:32.665 certaines même avec la langue sortie. 00:07:32.665 --> 00:07:35.695 Ce n'est pas une recherche sur le texte d'une page web. 00:07:35.695 --> 00:07:37.107 Je n'ai chargé qu'une image. 00:07:37.107 --> 00:07:41.128 Les ordinateurs peuvent donc désormais vraiment comprendre ce qu'ils voient, 00:07:41.128 --> 00:07:42.752 et consulter une base de données 00:07:42.752 --> 00:07:46.306 de centaines de millions d'images en temps réel. NOTE Paragraph 00:07:46.306 --> 00:07:49.536 Quelles conséquences, maintenant que les ordinateurs peuvent voir ? 00:07:49.536 --> 00:07:51.553 Les machines ne savent pas seulement voir. 00:07:51.553 --> 00:07:53.622 L'apprentissage profond va plus loin. 00:07:53.622 --> 00:07:56.570 Une phrase complexe et nuancée comme celle-ci, 00:07:56.570 --> 00:07:59.394 est maintenant compréhensible par ces algorithmes. 00:07:59.394 --> 00:08:00.697 Comme vous pouvez le voir, 00:08:00.697 --> 00:08:03.465 ce système de Stanford, avec le point rouge en haut, 00:08:03.465 --> 00:08:07.384 a compris que la phrase comportait un jugement négatif. 00:08:07.384 --> 00:08:10.790 L'apprentissage profond est désormais proche des performances humaines 00:08:10.802 --> 00:08:15.923 pour comprendre le sujet d'une phrase, et le jugement qui y est exprimé. 00:08:15.923 --> 00:08:18.651 Il a aussi été utilisé pour lire le chinois, 00:08:18.651 --> 00:08:21.807 à un niveau proche de celui d'un locuteur natif. 00:08:21.807 --> 00:08:23.975 Cet algorithme a été développé en Suisse 00:08:23.975 --> 00:08:27.331 par des personnes dont aucune ne parlait ni ne comprenait le chinois. 00:08:27.331 --> 00:08:29.382 Utiliser l'apprentissage profond 00:08:29.382 --> 00:08:31.601 constitue le meilleur système dans ce cas, 00:08:31.601 --> 00:08:36.718 même comparé à la compréhension humaine. NOTE Paragraph 00:08:36.718 --> 00:08:39.682 Il s'agit ici d'un système mis en place dans mon entreprise, 00:08:39.682 --> 00:08:41.728 qui regroupe tout ça. 00:08:41.728 --> 00:08:44.189 Ce sont des images qui ne sont pas liées à du texte, 00:08:44.189 --> 00:08:46.541 et, alors que j'écris ici des phrases, 00:08:46.541 --> 00:08:49.510 en temps réel, le système comprend les images, 00:08:49.510 --> 00:08:51.189 identifie leur sujet, 00:08:51.189 --> 00:08:54.352 et trouve des images correspondant au texte que j'écris. 00:08:54.352 --> 00:08:57.108 Il comprend véritablement mes phrases, 00:08:57.108 --> 00:08:59.332 et comprend véritablement ces images. 00:08:59.332 --> 00:09:01.891 Je sais que vous voyez ça sur Google, 00:09:01.891 --> 00:09:04.666 où l'on peut trouver des images en tapant un texte, 00:09:04.666 --> 00:09:08.090 mais ce n'est qu'une recherche dans le texte de la page web. 00:09:08.090 --> 00:09:11.091 C'est très différent de comprendre vraiment les images. 00:09:11.091 --> 00:09:13.843 C'est quelque chose que les ordinateurs n'ont pu faire 00:09:13.843 --> 00:09:17.091 pour la première fois que très récemment. NOTE Paragraph 00:09:17.091 --> 00:09:21.182 Les ordinateurs peuvent donc non seulement voir, mais aussi lire, 00:09:21.182 --> 00:09:24.947 et, bien sûr, nous avons montré qu'ils peuvent comprendre ce qu'ils entendent. 00:09:24.947 --> 00:09:28.389 Pas très surprenant si je vous dis maintenant qu'ils peuvent écrire. 00:09:28.389 --> 00:09:33.172 A partir d'un algorithme d'apprentissage profond, j'ai généré ce texte hier. 00:09:33.172 --> 00:09:37.096 Ici, ce sont des textes générés par un algorithme de Stanford. 00:09:37.096 --> 00:09:38.860 Chacune de ces phrases a été générée 00:09:38.860 --> 00:09:43.109 par un algorithme d'apprentissage profond décrivant l'image au-dessus. 00:09:43.109 --> 00:09:47.581 Cet algorithme n'avait jamais vu un homme habillé en noir jouant de la guitare. 00:09:47.581 --> 00:09:49.801 Il avait vu déjà vu un homme, déjà vu du noir, 00:09:49.801 --> 00:09:51.400 déjà vu une guitare, 00:09:51.400 --> 00:09:55.694 mais a généré de manière autonome cette nouvelle description de cette photo. 00:09:55.694 --> 00:09:59.196 Nous n'atteignons pas encore les performances humaines, mais presque. 00:09:59.196 --> 00:10:03.264 Dans les tests réalisés, les personnes préfèrent la légende de l'ordinateur 00:10:03.264 --> 00:10:04.791 une fois sur quatre. 00:10:04.791 --> 00:10:06.855 Ce système n'a que deux semaines, 00:10:06.855 --> 00:10:08.701 et l'on peut supposer que d'ici un an, 00:10:08.701 --> 00:10:11.502 l'algorithme aurait surpassé les performances humaines 00:10:11.502 --> 00:10:13.364 - au rythme où ça va. 00:10:13.364 --> 00:10:16.413 Les ordinateurs peuvent donc aussi écrire. NOTE Paragraph 00:10:16.413 --> 00:10:19.888 Si l'on rassemble tout ça, les perspectives deviennent prometteuses. 00:10:19.888 --> 00:10:21.380 Par exemple, en médecine, 00:10:21.380 --> 00:10:23.905 une équipe de Boston a annoncé qu'elle avait découvert 00:10:23.905 --> 00:10:26.854 des dizaines de nouveaux signes cliniques 00:10:26.854 --> 00:10:31.120 de tumeurs, qui aident les docteurs à diagnostiquer un cancer. 00:10:32.220 --> 00:10:34.516 De façon très proche, à Stanford, 00:10:34.516 --> 00:10:38.179 une équipe a annoncé qu'en observant des tissus au microscope, 00:10:38.179 --> 00:10:40.560 ils ont développé un système de machine apprenante 00:10:40.560 --> 00:10:43.142 qui est vraiment meilleur qu'un pathologiste 00:10:43.142 --> 00:10:47.519 pour prédire les taux de survie de personnes atteintes de cancer. 00:10:47.519 --> 00:10:50.764 Dans ces deux cas, non seulement les prévisions étaient meilleures, 00:10:50.764 --> 00:10:53.266 mais elles ont aussi permis des découvertes majeures. 00:10:53.276 --> 00:10:54.781 Dans l'exemple en radiologie, 00:10:54.781 --> 00:10:57.876 de nouveaux signes cliniques compréhensibles par l'homme. 00:10:57.876 --> 00:10:59.668 Dans l'exemple en pathologie, 00:10:59.668 --> 00:11:04.168 le système informatique a découvert que les cellules autour du cancer 00:11:04.168 --> 00:11:07.508 étaient aussi importantes que les cellules cancéreuses elles-mêmes 00:11:07.508 --> 00:11:09.260 pour porter un diagnostic, 00:11:09.260 --> 00:11:14.621 à rebours de ce qui a été enseigné aux pathologistes pendant des décennies. 00:11:14.621 --> 00:11:17.913 Dans ces deux cas, les systèmes ont été développés 00:11:17.913 --> 00:11:21.534 en associant experts médicaux et experts de l'apprentissage automatique, 00:11:21.534 --> 00:11:24.275 mais, depuis l'an dernier, un nouveau cap a été franchi. 00:11:24.275 --> 00:11:27.824 Il s'agit ici d'un exemple d'identification de zones cancéreuses 00:11:27.824 --> 00:11:30.354 d'un tissu humain au microscope. 00:11:30.354 --> 00:11:34.967 Ce système peut identifier ces zones avec plus de précisions, 00:11:34.967 --> 00:11:37.742 ou, du moins, avec autant de précision qu'un pathologiste, 00:11:37.742 --> 00:11:41.134 mais a été entièrement créé par l'apprentissage profond créé 00:11:41.134 --> 00:11:43.660 par des personnes n'ayant pas de formation médicale. 00:11:44.730 --> 00:11:47.285 De même, pour cette classification de neurones. 00:11:47.285 --> 00:11:50.953 On peut désormais classer les neurones avec autant de précisions qu'un humain, 00:11:50.953 --> 00:11:53.670 et ce système a été créé avec l'apprentissage profond, 00:11:53.670 --> 00:11:56.921 par des gens n'ayant pas de connaissance médicale antérieure. NOTE Paragraph 00:11:56.921 --> 00:12:00.148 Moi-même, sans connaissance médicale antérieure, 00:12:00.148 --> 00:12:03.875 je semble être pleinement qualifié pour créer une entreprise dans la santé 00:12:03.875 --> 00:12:06.021 - ce que j'ai fait. 00:12:06.021 --> 00:12:07.761 J'étais terrifié à cette idée, 00:12:07.761 --> 00:12:10.650 mais, la théorie suggérait qu'il devait être possible 00:12:10.650 --> 00:12:16.142 d'être utile dans ce secteur en ne maniant que ces moyens d'analyse de données. 00:12:16.142 --> 00:12:18.622 Et, heureusement, les retours ont été fabuleux, 00:12:18.622 --> 00:12:20.978 ceux des médias, mais aussi ceux du corps médical, 00:12:20.978 --> 00:12:23.322 qui a été d'un grand soutien. 00:12:23.322 --> 00:12:27.471 La théorie, c'est que l'on peut isoler la partie centrale du processus médical, 00:12:27.471 --> 00:12:30.374 pour procéder, autant que possible, à des analyses de données, 00:12:30.374 --> 00:12:33.429 et laisser les médecins se consacrer sur leurs forces. 00:12:33.429 --> 00:12:35.031 Je veux vous donner un exemple. 00:12:35.031 --> 00:12:39.975 Il nous faut désormais environ 15 minutes pour faire un nouveau diagnostic médical, 00:12:39.975 --> 00:12:41.929 et je vais vous le montrer en temps réel, 00:12:41.929 --> 00:12:45.416 même si je l'ai réduit à trois minutes en supprimant certaines parties. 00:12:45.416 --> 00:12:48.477 Plutôt que de vous montrer la création d'un diagnostic médical, 00:12:48.477 --> 00:12:51.846 je vais vous montrer un diagnostic d'images de voitures : 00:12:51.846 --> 00:12:54.068 c'est quelque chose que tout le monde comprend. NOTE Paragraph 00:12:54.068 --> 00:12:57.269 Nous commençons avec environ 1,5 million d'images de voitures, 00:12:57.269 --> 00:13:00.475 et ce que je veux, c'est les organiser selon l'angle selon lequel 00:13:00.475 --> 00:13:02.698 la photo a été prise. 00:13:02.698 --> 00:13:06.586 Ces images ne sont pas cataloguées : je dois partir de zéro. 00:13:06.586 --> 00:13:08.451 Notre algorithme d'apprentissage profond 00:13:08.451 --> 00:13:12.158 permet d'identifier les structures dans ces images. 00:13:12.158 --> 00:13:15.778 L'être humain et l'ordinateur peuvent maintenant travailler ensemble. 00:13:15.778 --> 00:13:17.956 L'être humain, comme vous le voyez ici, 00:13:17.956 --> 00:13:20.631 indique à la machine les zones d'intérêt, 00:13:20.631 --> 00:13:25.281 celles à lesquelles il veut qu'elle s'intéresse pour améliorer son algorithme. 00:13:25.281 --> 00:13:29.577 Les systèmes d'apprentissage profond sont des espaces à 16 000 dimensions [sic], 00:13:29.577 --> 00:13:33.009 et vous pouvez voir ici l'ordinateur qui pivote au sein de cet espace, 00:13:33.009 --> 00:13:35.001 pour trouver de nouvelles structures. 00:13:35.001 --> 00:13:36.782 Quand il y arrive, 00:13:36.782 --> 00:13:40.786 l'être humain peut ensuite lui signaler les zones intéressantes. 00:13:40.786 --> 00:13:43.208 Ici, l'ordinateur a pu trouver une zone avec, 00:13:43.208 --> 00:13:45.770 par exemple, des angles. 00:13:45.770 --> 00:13:47.376 Au fur et à mesure, 00:13:47.376 --> 00:13:49.716 nous en disons de plus en plus à l'ordinateur 00:13:49.716 --> 00:13:52.144 sur le type de structures que l'on recherche. 00:13:52.144 --> 00:13:53.916 Imaginez un diagnostic médical, 00:13:53.916 --> 00:13:57.266 par exemple un pathologiste identifiant des zones malades, 00:13:57.266 --> 00:14:02.292 ou un radiologue montrant des nodules potentiellement inquiétants. 00:14:02.292 --> 00:14:04.851 Parfois, cela devient difficile pour l'algorithme. 00:14:04.851 --> 00:14:06.815 Ici, il s'est un peu emmêlé les pinceaux. 00:14:06.815 --> 00:14:09.365 L'avant et l'arrière des voitures sont mêlés. 00:14:09.365 --> 00:14:11.437 Nous devons faire un peu plus attention, 00:14:11.437 --> 00:14:14.669 et dissocier manuellement les avants des arrières, 00:14:14.669 --> 00:14:21.525 puis dire à l'ordinateur que cette classification nous importe. NOTE Paragraph 00:14:21.525 --> 00:14:24.200 Nous continuons comme ça, et, un peu plus tard, 00:14:24.200 --> 00:14:26.446 nous allons former l'algorithme 00:14:26.446 --> 00:14:28.420 sur la base de ces classifications, 00:14:28.420 --> 00:14:30.445 et espérer qu'il s'est amélioré. 00:14:30.445 --> 00:14:33.518 Comme vous le voyez, il a commencé à estomper certaines photos, 00:14:33.518 --> 00:14:38.226 montrant qu'il sait déjà comment comprendre certaines d'entre elles. 00:14:38.226 --> 00:14:41.128 Nous pouvons ensuite utiliser ce concept d'images similaires, 00:14:41.128 --> 00:14:43.222 et, voir que, en s'en servant, 00:14:43.222 --> 00:14:47.241 l'ordinateur est désormais capable de trouver seulement les avants de voiture. 00:14:47.241 --> 00:14:50.188 A ce stade, l'être humain peut dire à l'ordinateur : 00:14:50.188 --> 00:14:53.645 «Ok, tu t'en es bien sorti. » 00:14:53.645 --> 00:14:56.402 Bien sûr, parfois, même à ce stade, NOTE Paragraph 00:14:56.402 --> 00:14:59.511 il est encore difficile de faire des groupes. 00:14:59.511 --> 00:15:03.395 Ici, même après avoir laissé l'ordinateur pivoter pendant un moment, 00:15:03.399 --> 00:15:06.744 les photos de voitures vues de droite et celles vues de gauche sont 00:15:06.744 --> 00:15:08.220 encore toutes mêlées. 00:15:08.220 --> 00:15:10.362 Nous lui donnons de nouveau des indications, 00:15:10.362 --> 00:15:13.338 puis lui disons de chercher une projection qui fait le tri 00:15:13.338 --> 00:15:15.945 entre les photos de droite et de gauche - 00:15:15.945 --> 00:15:18.067 avec l'algorithme d'apprentissage profond. 00:15:18.067 --> 00:15:21.009 Avec ces indications, nous avons réussi. 00:15:21.009 --> 00:15:26.281 Il a trouvé une manière de considérer ces objets qui en permet le tri. NOTE Paragraph 00:15:26.281 --> 00:15:28.709 Vous avez saisi l'idée. 00:15:28.709 --> 00:15:36.906 Nous ne somme pas ici dans une substitution de l'homme par la machine, 00:15:36.906 --> 00:15:39.546 mais dans un travail conjoint. 00:15:39.546 --> 00:15:43.096 Ce que nous faisons, c'est prendre quelque chose qui mobilisait une équipe 00:15:43.096 --> 00:15:45.098 de cinq ou six personnes pendant sept ans 00:15:45.098 --> 00:15:50.183 et y substituer quelque chose qui prend 15 minutes à une seule personne. NOTE Paragraph 00:15:50.208 --> 00:15:54.158 Cette méthode nécessite quatre ou cinq itérations, 00:15:54.158 --> 00:15:56.024 et nous avons maintenant 62% 00:15:56.024 --> 00:15:58.976 de nos 1,5 million d'images classifiées correctement. 00:15:58.976 --> 00:16:01.448 A ce stade, nous pouvons commencer à prendre 00:16:01.448 --> 00:16:02.745 des parties entières, 00:16:02.745 --> 00:16:05.664 et vérifier rapidement qu'il n'y a pas d'erreurs. 00:16:05.664 --> 00:16:09.616 Quand il y a des erreurs, nous en informons l'ordinateur, 00:16:09.616 --> 00:16:12.661 et, en utilisant cette méthode pour tous les groupes, 00:16:12.661 --> 00:16:15.148 nous en arrivons à un taux de réussite de 80% 00:16:15.148 --> 00:16:17.563 dans la classification de ces images. 00:16:17.563 --> 00:16:19.641 A partir de là, il s'agit juste 00:16:19.641 --> 00:16:23.220 de trouver le petit nombre d'images mal classées, 00:16:23.220 --> 00:16:26.108 et à essayer de comprendre pourquoi. 00:16:26.108 --> 00:16:27.851 Avec cette approche, 00:16:27.851 --> 00:16:31.972 en 15 minutes, nous parvenons à un taux de classification de 97%. NOTE Paragraph 00:16:31.972 --> 00:16:36.572 Ce type de méthode pourrait nous permettre de régler un problème majeur : 00:16:36.578 --> 00:16:39.614 le manque d'expertise médicale dans le monde. 00:16:39.614 --> 00:16:43.103 Le Forum économique mondial estime qu'il faudrait 10 à 20 fois plus 00:16:43.103 --> 00:16:45.727 de médecins dans les pays en voie de développement 00:16:45.727 --> 00:16:47.840 et qu'il faudrait 300 ans 00:16:47.840 --> 00:16:50.734 pour former suffisamment de personnes et régler ce problème. 00:16:50.734 --> 00:16:53.619 Imaginez alors que nous puissions accroître leur productivité 00:16:53.619 --> 00:16:56.458 avec ces méthodes d'apprentissage profond. NOTE Paragraph 00:16:56.458 --> 00:16:58.690 Les opportunités m'enchantent. 00:16:58.690 --> 00:17:01.279 Mais les dangers m’inquiètent. 00:17:01.279 --> 00:17:04.403 Le problème, c'est que dans tous les pays en bleu sur la carte, 00:17:04.403 --> 00:17:08.172 le secteur tertiaire représente plus de 80% de l'emploi. 00:17:08.172 --> 00:17:09.959 C'est quoi le secteur tertiaire ? 00:17:09.959 --> 00:17:11.473 C'est ça. 00:17:11.473 --> 00:17:15.627 Ce sont exactement ces choses que les ordinateurs viennent d'apprendre à faire. 00:17:15.627 --> 00:17:19.431 80% des emplois dans les pays développés 00:17:19.431 --> 00:17:21.963 consiste en ce qu'une machine sait désormais faire. 00:17:21.963 --> 00:17:23.403 Qu'est-ce que cela veut dire ? 00:17:23.403 --> 00:17:25.986 Tout ira bien. D'autres emplois les remplaceront, 00:17:25.986 --> 00:17:28.693 par exemple, dans l'analyse de données. 00:17:28.693 --> 00:17:29.505 Pas vraiment. 00:17:29.505 --> 00:17:32.628 Ce n'est pas long pour un analyste de données de construire ça. 00:17:32.628 --> 00:17:35.880 Par exemple, ces quatre algorithmes sont tous de la même personne. 00:17:35.880 --> 00:17:38.318 Vous pensez peut-être que c'est du déjà-vu, 00:17:38.318 --> 00:17:42.126 que nous connaissons les conséquences de l'arrivée de nouvelles choses, 00:17:42.126 --> 00:17:44.378 de nouveaux emplois qui remplacent les anciens. 00:17:44.378 --> 00:17:46.494 Que seront ces nouveaux emplois ? 00:17:46.494 --> 00:17:48.365 C'est très dur à estimer : 00:17:48.365 --> 00:17:51.104 l'amélioration des performances humaines est graduelle, 00:17:51.104 --> 00:17:53.666 tandis que ce système, l'apprentissage profond, 00:17:53.666 --> 00:17:56.893 s'améliore de façon exponentielle. 00:17:56.893 --> 00:17:58.498 Et nous en sommes là. 00:17:58.498 --> 00:18:00.559 En regardant autour de nous, nous pensons : 00:18:00.559 --> 00:18:03.235 « Les machines sont toujours idiotes ». Pas vrai ? 00:18:03.235 --> 00:18:06.664 Mais d'ici cinq ans, elles seront bien plus haut dans la courbe. 00:18:06.664 --> 00:18:10.529 Nous devons commencer à penser dès maintenant à ces capacités futures. NOTE Paragraph 00:18:10.529 --> 00:18:12.579 Ce n'est pas la première fois, bien sûr. 00:18:12.579 --> 00:18:17.636 Les machines de la Révolution Industrielle augmentèrent nos capacités. 00:18:17.636 --> 00:18:20.805 Mais, au bout d'un moment, les choses se calmèrent. 00:18:20.805 --> 00:18:22.507 Il y eut des troubles sociaux, mais 00:18:22.507 --> 00:18:25.946 une fois les machines utilisées pour la plupart des cas utiles, 00:18:25.946 --> 00:18:28.300 les choses s'apaisèrent. 00:18:28.300 --> 00:18:30.133 La Révolution des Machines Apprenantes 00:18:30.133 --> 00:18:32.682 sera très différente de la Révolution Industrielle, 00:18:32.682 --> 00:18:35.632 parce que dans son cas, les choses ne se calmeront pas. 00:18:35.632 --> 00:18:38.614 Plus les ordinateurs progressent dans les activités cérébrales, 00:18:38.614 --> 00:18:42.862 plus ils peuvent créer de meilleurs ordinateurs, et progresser encore. 00:18:42.862 --> 00:18:44.770 Nous sommes devant un type d'évolution 00:18:44.770 --> 00:18:47.248 que le monde n'a jamais expérimentée auparavant : 00:18:47.248 --> 00:18:50.554 notre compréhension antérieure des possibles n'est pas adaptée. NOTE Paragraph 00:18:50.974 --> 00:18:52.754 Nous en subissons déjà les impacts. 00:18:52.754 --> 00:18:56.384 Ces 25 dernières années, alors que la productivité du capital augmentait, 00:18:56.400 --> 00:19:01.408 la productivité du travail restait stable, était même légèrement en baisse. NOTE Paragraph 00:19:01.408 --> 00:19:04.149 Je voudrais lancer ce débat dès maintenant. 00:19:04.149 --> 00:19:07.176 Je sais d'expérience que lorsque je parle de ça aux gens, 00:19:07.176 --> 00:19:08.666 ils peuvent être sceptiques. 00:19:08.666 --> 00:19:10.339 Les machines ne peuvent pas penser, 00:19:10.339 --> 00:19:13.367 elles n'ont pas d'émotions, ne comprennent pas la poésie. 00:19:13.367 --> 00:19:15.888 Nous ne comprenons pas comment elles fonctionnent. 00:19:15.888 --> 00:19:17.374 Et alors ? 00:19:17.374 --> 00:19:21.868 Elles peuvent dès maintenant faire ce pour quoi les hommes sont payés. 00:19:21.897 --> 00:19:23.628 C'est le moment de commencer 00:19:23.628 --> 00:19:28.015 à réfléchir à la façon d'ajuster nos structures sociales et économiques, 00:19:28.015 --> 00:19:29.995 d'être au fait de cette nouvelle réalité. 00:19:29.995 --> 00:19:31.098 Merci. 00:19:31.098 --> 00:19:32.190 (Applaudissements)