1 00:00:00,880 --> 00:00:04,893 Avant, si vous vouliez qu'un ordinateur fasse quelque chose de nouveau, 2 00:00:04,893 --> 00:00:06,447 vous deviez le programmer. 3 00:00:06,447 --> 00:00:09,858 La programmation, pour ceux d'entre vous qui n'en ont jamais fait, 4 00:00:09,858 --> 00:00:13,360 nécessite de décrire, à un niveau de détail effrayant, 5 00:00:13,360 --> 00:00:16,727 chaque étape que vous voulez que l'ordinateur fasse 6 00:00:16,727 --> 00:00:19,089 pour atteindre votre but. 7 00:00:19,089 --> 00:00:22,585 Mais si ce que vous voulez, vous ne savez pas le faire vous-même, 8 00:00:22,585 --> 00:00:24,648 la programmation devient un immense défi. 9 00:00:24,648 --> 00:00:28,131 C'est à ce défi que se confronta cet homme, Arthur Samuel. 10 00:00:28,131 --> 00:00:32,208 En 1956, il voulut que cet ordinateur 11 00:00:32,208 --> 00:00:34,548 soit capable de le battre au jeu de dames. 12 00:00:34,548 --> 00:00:36,588 Comment écrire un programme, 13 00:00:36,588 --> 00:00:40,394 décrire, en d'effrayants détails, comment être meilleur que vous aux dames ? 14 00:00:40,394 --> 00:00:42,116 Il eut une idée : 15 00:00:42,116 --> 00:00:45,840 faire jouer l'ordinateur contre lui-même des milliers de fois 16 00:00:45,840 --> 00:00:48,274 et lui faire apprendre à jouer aux dames. 17 00:00:48,274 --> 00:00:51,544 Ça a si bien fonctionné que dès 1962 18 00:00:51,544 --> 00:00:55,561 l'ordinateur avait battu le champion du Connecticut. 19 00:00:55,561 --> 00:00:58,534 Arthur Samuel est le père de la machine apprenante, 20 00:00:58,534 --> 00:01:00,251 et j'ai une grande dette envers lui, 21 00:01:00,251 --> 00:01:03,014 parce que je travaille dans ce secteur. 22 00:01:03,014 --> 00:01:04,479 J'ai été président de Kaggle, 23 00:01:04,479 --> 00:01:07,867 une communauté de 200 000 praticiens de l'apprentissage automatique. 24 00:01:07,867 --> 00:01:09,925 Kaggle met en place des compétitions 25 00:01:09,925 --> 00:01:13,633 pour les amener à résoudre des problèmes jusque là non résolus, 26 00:01:13,633 --> 00:01:17,470 et ça a été un succès des centaines de fois. 27 00:01:17,470 --> 00:01:19,940 De ce point de vue privilégié, j'ai pu découvrir 28 00:01:19,940 --> 00:01:23,890 beaucoup sur ce que l'apprentissage automatique pouvait et peut faire, 29 00:01:23,890 --> 00:01:26,252 et sur ce qu'il pourra faire demain. 30 00:01:26,252 --> 00:01:30,675 Le premier grand succès commercial, c'est peut-être Google. 31 00:01:30,675 --> 00:01:33,784 Google a montré qu'il était possible de trouver des informations 32 00:01:33,784 --> 00:01:35,536 en utilisant un algorithme, 33 00:01:35,536 --> 00:01:38,437 et cet algorithme est basé sur l'apprentissage automatique. 34 00:01:38,437 --> 00:01:42,323 L'apprentissage automatique a depuis connu beaucoup d'autres succès commerciaux 35 00:01:42,323 --> 00:01:44,160 Des sociétés comme Amazon ou Netflix 36 00:01:44,160 --> 00:01:47,876 l'utilisent pour suggérer des produits que vous pourriez vouloir acheter, 37 00:01:47,876 --> 00:01:49,896 des films que vous pourriez aimer voir. 38 00:01:49,896 --> 00:01:51,653 Parfois, c'en est presque effrayant. 39 00:01:51,653 --> 00:01:53,657 Des entreprises comme LinkedIn et Facebook 40 00:01:53,657 --> 00:01:56,251 vous disent parfois qui pourraient être vos amis 41 00:01:56,251 --> 00:01:58,228 et vous ne savez pas comment elles font, 42 00:01:58,228 --> 00:02:01,195 car elles utilisent le pouvoir de l'apprentissage automatique. 43 00:02:01,195 --> 00:02:04,422 Ces algorithmes ont appris à le faire à partir de données 44 00:02:04,422 --> 00:02:07,399 plutôt que d'être programmés manuellement. 45 00:02:07,399 --> 00:02:09,877 De la même manière, IBM a pu faire en sorte 46 00:02:09,877 --> 00:02:13,737 que Watson batte les champions du monde de « Jeopardy », 47 00:02:13,737 --> 00:02:16,674 en répondant à des questions très difficiles comme : 48 00:02:16,674 --> 00:02:19,799 « Le "Lion de Nimrud" a disparu en 2003 du musée de cette ville » 49 00:02:19,799 --> 00:02:23,034 C'est aussi pourquoi nous voyons les premières voitures autonomes. 50 00:02:23,034 --> 00:02:25,926 Être capable de faire la différence entre, disons, 51 00:02:25,926 --> 00:02:28,298 un arbre et un piéton, est plutôt important. 52 00:02:28,298 --> 00:02:31,075 Nous ne savons pas écrire de tels programmes manuellement, 53 00:02:31,075 --> 00:02:34,072 mais l'apprentissage automatique rend la chose possible. 54 00:02:34,072 --> 00:02:36,910 Cette voiture a roulé plus de 1,6 millions de km 55 00:02:36,910 --> 00:02:40,196 sur des routes ordinaires, sans le moindre accident. 56 00:02:40,196 --> 00:02:44,110 Nous savons maintenant que les ordinateurs peuvent apprendre, 57 00:02:44,110 --> 00:02:46,010 et apprendre à faire des choses 58 00:02:46,010 --> 00:02:48,848 que nous ne savons pas toujours faire nous-mêmes, 59 00:02:48,848 --> 00:02:51,733 ou qu'ils peuvent peut-être faire mieux que nous. 60 00:02:51,733 --> 00:02:55,928 Un des cas les plus étonnants d'apprentissage automatique que j'ai vu 61 00:02:55,928 --> 00:02:58,320 s'est produit lors d'un projet de Kaggle, 62 00:02:58,320 --> 00:03:01,914 où une équipe dirigée par Geoffrey Hinton, 63 00:03:01,914 --> 00:03:03,463 de l'Université de Toronto, 64 00:03:03,463 --> 00:03:06,140 a gagné un concours de découverte de la drogue. 65 00:03:06,140 --> 00:03:08,987 Ce qui est extraordinaire n'est pas juste qu'ils aient battu 66 00:03:08,987 --> 00:03:13,003 tous les algorithmes de Merck ou de la communauté universitaire internationale, 67 00:03:13,003 --> 00:03:18,059 mais que personne de l'équipe n'ait de formation en chimie ou biologie, 68 00:03:18,059 --> 00:03:20,225 et qu'ils l'aient fait en deux semaines. 69 00:03:20,230 --> 00:03:22,421 Comment ont-ils fait ? 70 00:03:22,421 --> 00:03:25,342 Avec un algorithme génial appelé apprentissage profond. 71 00:03:25,342 --> 00:03:28,291 Ça a été si important que leur succès donna lieu 72 00:03:28,291 --> 00:03:31,412 à un article en une du New York Times quelques semaines plus tard. 73 00:03:31,412 --> 00:03:34,147 Il s'agit de Geoffrey Hinton, là, à gauche, sur l'écran. 74 00:03:34,147 --> 00:03:38,488 L'apprentissage profond s'inspire du fonctionnement du cerveau : 75 00:03:38,488 --> 00:03:44,160 c'est un algorithme qui n'a donc aucune limite théorique. 76 00:03:44,160 --> 00:03:46,964 Plus vous lui donnez de données, et de temps de calcul, 77 00:03:46,964 --> 00:03:48,276 plus il devient meilleur. 78 00:03:48,276 --> 00:03:50,615 Le New York Times montra aussi dans son article 79 00:03:50,615 --> 00:03:52,857 un autre résultat inouï de l'apprentissage profond, 80 00:03:52,857 --> 00:03:55,569 que je vais maintenant vous montrer. 81 00:03:55,569 --> 00:04:00,510 Il montre que les ordinateurs sont capables d'écouter et comprendre. 82 00:04:00,510 --> 00:04:03,221 (Vidéo) Richard Rashid: La dernière étape 83 00:04:03,221 --> 00:04:06,246 que je voudrais pouvoir atteindre, 84 00:04:06,246 --> 00:04:10,959 c'est de vous parler en chinois. 85 00:04:10,959 --> 00:04:13,602 L'élément-clé ici, c'est 86 00:04:13,602 --> 00:04:18,596 que nous avons pu collecter beaucoup de données auprès de nombreux sinophones 87 00:04:18,596 --> 00:04:21,148 et produire un système de vocalisation 88 00:04:21,148 --> 00:04:25,801 qui convertit du texte chinois en parole chinoise, 89 00:04:25,801 --> 00:04:29,929 puis nous avons pris environ une heure d'enregistrement de ma propre voix, 90 00:04:29,929 --> 00:04:31,820 et nous l'avons utilisé pour moduler 91 00:04:31,820 --> 00:04:36,364 le système de vocalisation, afin que la voix ressemble à la mienne. 92 00:04:36,364 --> 00:04:38,904 Le résultat n'est pas parfait. 93 00:04:38,904 --> 00:04:41,552 Il y a un certain nombre d'erreurs. 94 00:04:41,552 --> 00:04:44,036 (En chinois) 95 00:04:44,036 --> 00:04:49,446 (Applaudissements) 96 00:04:49,446 --> 00:04:53,022 Il y a encore beaucoup de travail à faire 97 00:04:53,022 --> 00:04:56,667 (En chinois) 98 00:04:56,667 --> 00:05:01,345 (Applaudissements) 99 00:05:01,345 --> 00:05:04,744 J. H. : C'était une conférence en Chine sur l'apprentissage automatique. 100 00:05:04,744 --> 00:05:07,111 Il est rare, lors de conférences universitaires, 101 00:05:07,111 --> 00:05:09,588 d'entendre des applaudissements spontanés, 102 00:05:09,588 --> 00:05:12,685 quoique cela arrive parfois aux conférences TEDx. N'hésitez pas. 103 00:05:12,685 --> 00:05:15,482 L'apprentissage profond était derrière tout ça. 104 00:05:15,482 --> 00:05:17,007 (Applaudissements) Merci. 105 00:05:17,007 --> 00:05:19,529 La transcription en anglais, 106 00:05:19,529 --> 00:05:22,698 la traduction en chinois 107 00:05:22,698 --> 00:05:26,008 et la construction de la voix étaient tous de l'apprentissage profond. 108 00:05:26,008 --> 00:05:29,242 L'apprentissage profond est cette chose extraordinaire. 109 00:05:29,242 --> 00:05:32,341 C'est un seul algorithme qui semble pouvoir presque tout faire, 110 00:05:32,341 --> 00:05:35,452 et j'ai découvert qu'un an plus tôt, il avait aussi appris à voir. 111 00:05:35,452 --> 00:05:37,628 Dans une obscure compétition en Allemagne, 112 00:05:37,628 --> 00:05:40,225 le « Test de Reconnaissance de Panneaux Routiers », 113 00:05:40,225 --> 00:05:43,618 l'apprentissage profond a appris à reconnaître des panneaux, 114 00:05:43,618 --> 00:05:47,482 non seulement mieux que tous les autres algorithmes, 115 00:05:47,482 --> 00:05:50,189 mais également mieux que les humains - 116 00:05:50,189 --> 00:05:52,041 environ deux fois mieux : 117 00:05:52,041 --> 00:05:54,037 dès 2011, nous avions un exemple 118 00:05:54,037 --> 00:05:57,442 d'ordinateurs pouvant voir mieux qu'un être humain. 119 00:05:57,442 --> 00:05:59,491 Depuis, beaucoup de choses se sont passées. 120 00:05:59,491 --> 00:06:03,005 En 2012, Google a annoncé qu'un algorithme d'apprentissage profond, 121 00:06:03,005 --> 00:06:04,420 regardant des vidéos YouTube 122 00:06:04,420 --> 00:06:07,857 et analysant les données sur 16 000 ordinateurs pendant un mois, 123 00:06:07,857 --> 00:06:12,218 a pu apprendre, de lui-même, les concepts de « chat » ou encore d'« être humain », 124 00:06:12,218 --> 00:06:14,027 juste en regardant ces vidéos. 125 00:06:14,027 --> 00:06:16,379 Les êtres humains apprennent de la même manière : 126 00:06:16,379 --> 00:06:19,119 on n'apprend pas une chose par explication, 127 00:06:19,119 --> 00:06:22,450 mais on l'apprend par les perceptions individuelles. 128 00:06:22,450 --> 00:06:25,819 En 2012 également, Geoffrey Hinton, dont nous avons déjà parlé, 129 00:06:25,819 --> 00:06:28,677 a gagné le très réputé concours « ImageNet », 130 00:06:28,677 --> 00:06:32,818 où il s'agit d'identifier, au sein d'un million et demi d'images, 131 00:06:32,818 --> 00:06:34,256 les images en question. 132 00:06:34,256 --> 00:06:37,789 En 2014, nous sommes tombés à un taux d'erreur de 6% 133 00:06:37,789 --> 00:06:39,242 en reconnaissance visuelle. 134 00:06:39,242 --> 00:06:41,268 C'est, de nouveau, mieux qu'un être humain. 135 00:06:41,268 --> 00:06:45,037 Les machines font vraiment ici un travail extraordinaire, 136 00:06:45,037 --> 00:06:47,306 avec, désormais, des applications industrielles. 137 00:06:47,306 --> 00:06:50,348 Par exemple, Google a annoncé l'an dernier 138 00:06:50,348 --> 00:06:54,933 qu'ils avaient cartographié l'ensemble des lieux de France en deux heures, 139 00:06:54,933 --> 00:06:58,380 en fournissant des images de Street View 140 00:06:58,380 --> 00:07:02,699 à un algorithme d'apprentissage profond, pour qu'il reconnaisse les numéros de rue. 141 00:07:02,699 --> 00:07:04,919 Imaginez le temps qu'il aurait fallu avant : 142 00:07:04,919 --> 00:07:08,274 des dizaines de personnes, plusieurs années. 143 00:07:08,274 --> 00:07:10,185 C'est la même histoire en Chine. 144 00:07:10,185 --> 00:07:14,221 Baidu est, on peut dire, une sorte de Google chinois. 145 00:07:14,221 --> 00:07:16,504 Ce que vous voyez en haut à gauche, 146 00:07:16,504 --> 00:07:20,478 est une photo que j'ai chargée sur le système d'apprentissage profond de Baidu, 147 00:07:20,478 --> 00:07:24,247 et, dessous, vous voyez que le système a compris ce qui était sur la photo, 148 00:07:24,247 --> 00:07:26,483 et trouvé des images similaires. 149 00:07:26,483 --> 00:07:29,219 Les images similaires ont le même arrière-plan, 150 00:07:29,219 --> 00:07:30,877 la tête dans le même sens, 151 00:07:30,877 --> 00:07:32,665 certaines même avec la langue sortie. 152 00:07:32,665 --> 00:07:35,695 Ce n'est pas une recherche sur le texte d'une page web. 153 00:07:35,695 --> 00:07:37,107 Je n'ai chargé qu'une image. 154 00:07:37,107 --> 00:07:41,128 Les ordinateurs peuvent donc désormais vraiment comprendre ce qu'ils voient, 155 00:07:41,128 --> 00:07:42,752 et consulter une base de données 156 00:07:42,752 --> 00:07:46,306 de centaines de millions d'images en temps réel. 157 00:07:46,306 --> 00:07:49,536 Quelles conséquences, maintenant que les ordinateurs peuvent voir ? 158 00:07:49,536 --> 00:07:51,553 Les machines ne savent pas seulement voir. 159 00:07:51,553 --> 00:07:53,622 L'apprentissage profond va plus loin. 160 00:07:53,622 --> 00:07:56,570 Une phrase complexe et nuancée comme celle-ci, 161 00:07:56,570 --> 00:07:59,394 est maintenant compréhensible par ces algorithmes. 162 00:07:59,394 --> 00:08:00,697 Comme vous pouvez le voir, 163 00:08:00,697 --> 00:08:03,465 ce système de Stanford, avec le point rouge en haut, 164 00:08:03,465 --> 00:08:07,384 a compris que la phrase comportait un jugement négatif. 165 00:08:07,384 --> 00:08:10,790 L'apprentissage profond est désormais proche des performances humaines 166 00:08:10,802 --> 00:08:15,923 pour comprendre le sujet d'une phrase, et le jugement qui y est exprimé. 167 00:08:15,923 --> 00:08:18,651 Il a aussi été utilisé pour lire le chinois, 168 00:08:18,651 --> 00:08:21,807 à un niveau proche de celui d'un locuteur natif. 169 00:08:21,807 --> 00:08:23,975 Cet algorithme a été développé en Suisse 170 00:08:23,975 --> 00:08:27,331 par des personnes dont aucune ne parlait ni ne comprenait le chinois. 171 00:08:27,331 --> 00:08:29,382 Utiliser l'apprentissage profond 172 00:08:29,382 --> 00:08:31,601 constitue le meilleur système dans ce cas, 173 00:08:31,601 --> 00:08:36,718 même comparé à la compréhension humaine. 174 00:08:36,718 --> 00:08:39,682 Il s'agit ici d'un système mis en place dans mon entreprise, 175 00:08:39,682 --> 00:08:41,728 qui regroupe tout ça. 176 00:08:41,728 --> 00:08:44,189 Ce sont des images qui ne sont pas liées à du texte, 177 00:08:44,189 --> 00:08:46,541 et, alors que j'écris ici des phrases, 178 00:08:46,541 --> 00:08:49,510 en temps réel, le système comprend les images, 179 00:08:49,510 --> 00:08:51,189 identifie leur sujet, 180 00:08:51,189 --> 00:08:54,352 et trouve des images correspondant au texte que j'écris. 181 00:08:54,352 --> 00:08:57,108 Il comprend véritablement mes phrases, 182 00:08:57,108 --> 00:08:59,332 et comprend véritablement ces images. 183 00:08:59,332 --> 00:09:01,891 Je sais que vous voyez ça sur Google, 184 00:09:01,891 --> 00:09:04,666 où l'on peut trouver des images en tapant un texte, 185 00:09:04,666 --> 00:09:08,090 mais ce n'est qu'une recherche dans le texte de la page web. 186 00:09:08,090 --> 00:09:11,091 C'est très différent de comprendre vraiment les images. 187 00:09:11,091 --> 00:09:13,843 C'est quelque chose que les ordinateurs n'ont pu faire 188 00:09:13,843 --> 00:09:17,091 pour la première fois que très récemment. 189 00:09:17,091 --> 00:09:21,182 Les ordinateurs peuvent donc non seulement voir, mais aussi lire, 190 00:09:21,182 --> 00:09:24,947 et, bien sûr, nous avons montré qu'ils peuvent comprendre ce qu'ils entendent. 191 00:09:24,947 --> 00:09:28,389 Pas très surprenant si je vous dis maintenant qu'ils peuvent écrire. 192 00:09:28,389 --> 00:09:33,172 A partir d'un algorithme d'apprentissage profond, j'ai généré ce texte hier. 193 00:09:33,172 --> 00:09:37,096 Ici, ce sont des textes générés par un algorithme de Stanford. 194 00:09:37,096 --> 00:09:38,860 Chacune de ces phrases a été générée 195 00:09:38,860 --> 00:09:43,109 par un algorithme d'apprentissage profond décrivant l'image au-dessus. 196 00:09:43,109 --> 00:09:47,581 Cet algorithme n'avait jamais vu un homme habillé en noir jouant de la guitare. 197 00:09:47,581 --> 00:09:49,801 Il avait vu déjà vu un homme, déjà vu du noir, 198 00:09:49,801 --> 00:09:51,400 déjà vu une guitare, 199 00:09:51,400 --> 00:09:55,694 mais a généré de manière autonome cette nouvelle description de cette photo. 200 00:09:55,694 --> 00:09:59,196 Nous n'atteignons pas encore les performances humaines, mais presque. 201 00:09:59,196 --> 00:10:03,264 Dans les tests réalisés, les personnes préfèrent la légende de l'ordinateur 202 00:10:03,264 --> 00:10:04,791 une fois sur quatre. 203 00:10:04,791 --> 00:10:06,855 Ce système n'a que deux semaines, 204 00:10:06,855 --> 00:10:08,701 et l'on peut supposer que d'ici un an, 205 00:10:08,701 --> 00:10:11,502 l'algorithme aurait surpassé les performances humaines 206 00:10:11,502 --> 00:10:13,364 - au rythme où ça va. 207 00:10:13,364 --> 00:10:16,413 Les ordinateurs peuvent donc aussi écrire. 208 00:10:16,413 --> 00:10:19,888 Si l'on rassemble tout ça, les perspectives deviennent prometteuses. 209 00:10:19,888 --> 00:10:21,380 Par exemple, en médecine, 210 00:10:21,380 --> 00:10:23,905 une équipe de Boston a annoncé qu'elle avait découvert 211 00:10:23,905 --> 00:10:26,854 des dizaines de nouveaux signes cliniques 212 00:10:26,854 --> 00:10:31,120 de tumeurs, qui aident les docteurs à diagnostiquer un cancer. 213 00:10:32,220 --> 00:10:34,516 De façon très proche, à Stanford, 214 00:10:34,516 --> 00:10:38,179 une équipe a annoncé qu'en observant des tissus au microscope, 215 00:10:38,179 --> 00:10:40,560 ils ont développé un système de machine apprenante 216 00:10:40,560 --> 00:10:43,142 qui est vraiment meilleur qu'un pathologiste 217 00:10:43,142 --> 00:10:47,519 pour prédire les taux de survie de personnes atteintes de cancer. 218 00:10:47,519 --> 00:10:50,764 Dans ces deux cas, non seulement les prévisions étaient meilleures, 219 00:10:50,764 --> 00:10:53,266 mais elles ont aussi permis des découvertes majeures. 220 00:10:53,276 --> 00:10:54,781 Dans l'exemple en radiologie, 221 00:10:54,781 --> 00:10:57,876 de nouveaux signes cliniques compréhensibles par l'homme. 222 00:10:57,876 --> 00:10:59,668 Dans l'exemple en pathologie, 223 00:10:59,668 --> 00:11:04,168 le système informatique a découvert que les cellules autour du cancer 224 00:11:04,168 --> 00:11:07,508 étaient aussi importantes que les cellules cancéreuses elles-mêmes 225 00:11:07,508 --> 00:11:09,260 pour porter un diagnostic, 226 00:11:09,260 --> 00:11:14,621 à rebours de ce qui a été enseigné aux pathologistes pendant des décennies. 227 00:11:14,621 --> 00:11:17,913 Dans ces deux cas, les systèmes ont été développés 228 00:11:17,913 --> 00:11:21,534 en associant experts médicaux et experts de l'apprentissage automatique, 229 00:11:21,534 --> 00:11:24,275 mais, depuis l'an dernier, un nouveau cap a été franchi. 230 00:11:24,275 --> 00:11:27,824 Il s'agit ici d'un exemple d'identification de zones cancéreuses 231 00:11:27,824 --> 00:11:30,354 d'un tissu humain au microscope. 232 00:11:30,354 --> 00:11:34,967 Ce système peut identifier ces zones avec plus de précisions, 233 00:11:34,967 --> 00:11:37,742 ou, du moins, avec autant de précision qu'un pathologiste, 234 00:11:37,742 --> 00:11:41,134 mais a été entièrement créé par l'apprentissage profond créé 235 00:11:41,134 --> 00:11:43,660 par des personnes n'ayant pas de formation médicale. 236 00:11:44,730 --> 00:11:47,285 De même, pour cette classification de neurones. 237 00:11:47,285 --> 00:11:50,953 On peut désormais classer les neurones avec autant de précisions qu'un humain, 238 00:11:50,953 --> 00:11:53,670 et ce système a été créé avec l'apprentissage profond, 239 00:11:53,670 --> 00:11:56,921 par des gens n'ayant pas de connaissance médicale antérieure. 240 00:11:56,921 --> 00:12:00,148 Moi-même, sans connaissance médicale antérieure, 241 00:12:00,148 --> 00:12:03,875 je semble être pleinement qualifié pour créer une entreprise dans la santé 242 00:12:03,875 --> 00:12:06,021 - ce que j'ai fait. 243 00:12:06,021 --> 00:12:07,761 J'étais terrifié à cette idée, 244 00:12:07,761 --> 00:12:10,650 mais, la théorie suggérait qu'il devait être possible 245 00:12:10,650 --> 00:12:16,142 d'être utile dans ce secteur en ne maniant que ces moyens d'analyse de données. 246 00:12:16,142 --> 00:12:18,622 Et, heureusement, les retours ont été fabuleux, 247 00:12:18,622 --> 00:12:20,978 ceux des médias, mais aussi ceux du corps médical, 248 00:12:20,978 --> 00:12:23,322 qui a été d'un grand soutien. 249 00:12:23,322 --> 00:12:27,471 La théorie, c'est que l'on peut isoler la partie centrale du processus médical, 250 00:12:27,471 --> 00:12:30,374 pour procéder, autant que possible, à des analyses de données, 251 00:12:30,374 --> 00:12:33,429 et laisser les médecins se consacrer sur leurs forces. 252 00:12:33,429 --> 00:12:35,031 Je veux vous donner un exemple. 253 00:12:35,031 --> 00:12:39,975 Il nous faut désormais environ 15 minutes pour faire un nouveau diagnostic médical, 254 00:12:39,975 --> 00:12:41,929 et je vais vous le montrer en temps réel, 255 00:12:41,929 --> 00:12:45,416 même si je l'ai réduit à trois minutes en supprimant certaines parties. 256 00:12:45,416 --> 00:12:48,477 Plutôt que de vous montrer la création d'un diagnostic médical, 257 00:12:48,477 --> 00:12:51,846 je vais vous montrer un diagnostic d'images de voitures : 258 00:12:51,846 --> 00:12:54,068 c'est quelque chose que tout le monde comprend. 259 00:12:54,068 --> 00:12:57,269 Nous commençons avec environ 1,5 million d'images de voitures, 260 00:12:57,269 --> 00:13:00,475 et ce que je veux, c'est les organiser selon l'angle selon lequel 261 00:13:00,475 --> 00:13:02,698 la photo a été prise. 262 00:13:02,698 --> 00:13:06,586 Ces images ne sont pas cataloguées : je dois partir de zéro. 263 00:13:06,586 --> 00:13:08,451 Notre algorithme d'apprentissage profond 264 00:13:08,451 --> 00:13:12,158 permet d'identifier les structures dans ces images. 265 00:13:12,158 --> 00:13:15,778 L'être humain et l'ordinateur peuvent maintenant travailler ensemble. 266 00:13:15,778 --> 00:13:17,956 L'être humain, comme vous le voyez ici, 267 00:13:17,956 --> 00:13:20,631 indique à la machine les zones d'intérêt, 268 00:13:20,631 --> 00:13:25,281 celles à lesquelles il veut qu'elle s'intéresse pour améliorer son algorithme. 269 00:13:25,281 --> 00:13:29,577 Les systèmes d'apprentissage profond sont des espaces à 16 000 dimensions [sic], 270 00:13:29,577 --> 00:13:33,009 et vous pouvez voir ici l'ordinateur qui pivote au sein de cet espace, 271 00:13:33,009 --> 00:13:35,001 pour trouver de nouvelles structures. 272 00:13:35,001 --> 00:13:36,782 Quand il y arrive, 273 00:13:36,782 --> 00:13:40,786 l'être humain peut ensuite lui signaler les zones intéressantes. 274 00:13:40,786 --> 00:13:43,208 Ici, l'ordinateur a pu trouver une zone avec, 275 00:13:43,208 --> 00:13:45,770 par exemple, des angles. 276 00:13:45,770 --> 00:13:47,376 Au fur et à mesure, 277 00:13:47,376 --> 00:13:49,716 nous en disons de plus en plus à l'ordinateur 278 00:13:49,716 --> 00:13:52,144 sur le type de structures que l'on recherche. 279 00:13:52,144 --> 00:13:53,916 Imaginez un diagnostic médical, 280 00:13:53,916 --> 00:13:57,266 par exemple un pathologiste identifiant des zones malades, 281 00:13:57,266 --> 00:14:02,292 ou un radiologue montrant des nodules potentiellement inquiétants. 282 00:14:02,292 --> 00:14:04,851 Parfois, cela devient difficile pour l'algorithme. 283 00:14:04,851 --> 00:14:06,815 Ici, il s'est un peu emmêlé les pinceaux. 284 00:14:06,815 --> 00:14:09,365 L'avant et l'arrière des voitures sont mêlés. 285 00:14:09,365 --> 00:14:11,437 Nous devons faire un peu plus attention, 286 00:14:11,437 --> 00:14:14,669 et dissocier manuellement les avants des arrières, 287 00:14:14,669 --> 00:14:21,525 puis dire à l'ordinateur que cette classification nous importe. 288 00:14:21,525 --> 00:14:24,200 Nous continuons comme ça, et, un peu plus tard, 289 00:14:24,200 --> 00:14:26,446 nous allons former l'algorithme 290 00:14:26,446 --> 00:14:28,420 sur la base de ces classifications, 291 00:14:28,420 --> 00:14:30,445 et espérer qu'il s'est amélioré. 292 00:14:30,445 --> 00:14:33,518 Comme vous le voyez, il a commencé à estomper certaines photos, 293 00:14:33,518 --> 00:14:38,226 montrant qu'il sait déjà comment comprendre certaines d'entre elles. 294 00:14:38,226 --> 00:14:41,128 Nous pouvons ensuite utiliser ce concept d'images similaires, 295 00:14:41,128 --> 00:14:43,222 et, voir que, en s'en servant, 296 00:14:43,222 --> 00:14:47,241 l'ordinateur est désormais capable de trouver seulement les avants de voiture. 297 00:14:47,241 --> 00:14:50,188 A ce stade, l'être humain peut dire à l'ordinateur : 298 00:14:50,188 --> 00:14:53,645 «Ok, tu t'en es bien sorti. » 299 00:14:53,645 --> 00:14:56,402 Bien sûr, parfois, même à ce stade, 300 00:14:56,402 --> 00:14:59,511 il est encore difficile de faire des groupes. 301 00:14:59,511 --> 00:15:03,395 Ici, même après avoir laissé l'ordinateur pivoter pendant un moment, 302 00:15:03,399 --> 00:15:06,744 les photos de voitures vues de droite et celles vues de gauche sont 303 00:15:06,744 --> 00:15:08,220 encore toutes mêlées. 304 00:15:08,220 --> 00:15:10,362 Nous lui donnons de nouveau des indications, 305 00:15:10,362 --> 00:15:13,338 puis lui disons de chercher une projection qui fait le tri 306 00:15:13,338 --> 00:15:15,945 entre les photos de droite et de gauche - 307 00:15:15,945 --> 00:15:18,067 avec l'algorithme d'apprentissage profond. 308 00:15:18,067 --> 00:15:21,009 Avec ces indications, nous avons réussi. 309 00:15:21,009 --> 00:15:26,281 Il a trouvé une manière de considérer ces objets qui en permet le tri. 310 00:15:26,281 --> 00:15:28,709 Vous avez saisi l'idée. 311 00:15:28,709 --> 00:15:36,906 Nous ne somme pas ici dans une substitution de l'homme par la machine, 312 00:15:36,906 --> 00:15:39,546 mais dans un travail conjoint. 313 00:15:39,546 --> 00:15:43,096 Ce que nous faisons, c'est prendre quelque chose qui mobilisait une équipe 314 00:15:43,096 --> 00:15:45,098 de cinq ou six personnes pendant sept ans 315 00:15:45,098 --> 00:15:50,183 et y substituer quelque chose qui prend 15 minutes à une seule personne. 316 00:15:50,208 --> 00:15:54,158 Cette méthode nécessite quatre ou cinq itérations, 317 00:15:54,158 --> 00:15:56,024 et nous avons maintenant 62% 318 00:15:56,024 --> 00:15:58,976 de nos 1,5 million d'images classifiées correctement. 319 00:15:58,976 --> 00:16:01,448 A ce stade, nous pouvons commencer à prendre 320 00:16:01,448 --> 00:16:02,745 des parties entières, 321 00:16:02,745 --> 00:16:05,664 et vérifier rapidement qu'il n'y a pas d'erreurs. 322 00:16:05,664 --> 00:16:09,616 Quand il y a des erreurs, nous en informons l'ordinateur, 323 00:16:09,616 --> 00:16:12,661 et, en utilisant cette méthode pour tous les groupes, 324 00:16:12,661 --> 00:16:15,148 nous en arrivons à un taux de réussite de 80% 325 00:16:15,148 --> 00:16:17,563 dans la classification de ces images. 326 00:16:17,563 --> 00:16:19,641 A partir de là, il s'agit juste 327 00:16:19,641 --> 00:16:23,220 de trouver le petit nombre d'images mal classées, 328 00:16:23,220 --> 00:16:26,108 et à essayer de comprendre pourquoi. 329 00:16:26,108 --> 00:16:27,851 Avec cette approche, 330 00:16:27,851 --> 00:16:31,972 en 15 minutes, nous parvenons à un taux de classification de 97%. 331 00:16:31,972 --> 00:16:36,572 Ce type de méthode pourrait nous permettre de régler un problème majeur : 332 00:16:36,578 --> 00:16:39,614 le manque d'expertise médicale dans le monde. 333 00:16:39,614 --> 00:16:43,103 Le Forum économique mondial estime qu'il faudrait 10 à 20 fois plus 334 00:16:43,103 --> 00:16:45,727 de médecins dans les pays en voie de développement 335 00:16:45,727 --> 00:16:47,840 et qu'il faudrait 300 ans 336 00:16:47,840 --> 00:16:50,734 pour former suffisamment de personnes et régler ce problème. 337 00:16:50,734 --> 00:16:53,619 Imaginez alors que nous puissions accroître leur productivité 338 00:16:53,619 --> 00:16:56,458 avec ces méthodes d'apprentissage profond. 339 00:16:56,458 --> 00:16:58,690 Les opportunités m'enchantent. 340 00:16:58,690 --> 00:17:01,279 Mais les dangers m’inquiètent. 341 00:17:01,279 --> 00:17:04,403 Le problème, c'est que dans tous les pays en bleu sur la carte, 342 00:17:04,403 --> 00:17:08,172 le secteur tertiaire représente plus de 80% de l'emploi. 343 00:17:08,172 --> 00:17:09,959 C'est quoi le secteur tertiaire ? 344 00:17:09,959 --> 00:17:11,473 C'est ça. 345 00:17:11,473 --> 00:17:15,627 Ce sont exactement ces choses que les ordinateurs viennent d'apprendre à faire. 346 00:17:15,627 --> 00:17:19,431 80% des emplois dans les pays développés 347 00:17:19,431 --> 00:17:21,963 consiste en ce qu'une machine sait désormais faire. 348 00:17:21,963 --> 00:17:23,403 Qu'est-ce que cela veut dire ? 349 00:17:23,403 --> 00:17:25,986 Tout ira bien. D'autres emplois les remplaceront, 350 00:17:25,986 --> 00:17:28,693 par exemple, dans l'analyse de données. 351 00:17:28,693 --> 00:17:29,505 Pas vraiment. 352 00:17:29,505 --> 00:17:32,628 Ce n'est pas long pour un analyste de données de construire ça. 353 00:17:32,628 --> 00:17:35,880 Par exemple, ces quatre algorithmes sont tous de la même personne. 354 00:17:35,880 --> 00:17:38,318 Vous pensez peut-être que c'est du déjà-vu, 355 00:17:38,318 --> 00:17:42,126 que nous connaissons les conséquences de l'arrivée de nouvelles choses, 356 00:17:42,126 --> 00:17:44,378 de nouveaux emplois qui remplacent les anciens. 357 00:17:44,378 --> 00:17:46,494 Que seront ces nouveaux emplois ? 358 00:17:46,494 --> 00:17:48,365 C'est très dur à estimer : 359 00:17:48,365 --> 00:17:51,104 l'amélioration des performances humaines est graduelle, 360 00:17:51,104 --> 00:17:53,666 tandis que ce système, l'apprentissage profond, 361 00:17:53,666 --> 00:17:56,893 s'améliore de façon exponentielle. 362 00:17:56,893 --> 00:17:58,498 Et nous en sommes là. 363 00:17:58,498 --> 00:18:00,559 En regardant autour de nous, nous pensons : 364 00:18:00,559 --> 00:18:03,235 « Les machines sont toujours idiotes ». Pas vrai ? 365 00:18:03,235 --> 00:18:06,664 Mais d'ici cinq ans, elles seront bien plus haut dans la courbe. 366 00:18:06,664 --> 00:18:10,529 Nous devons commencer à penser dès maintenant à ces capacités futures. 367 00:18:10,529 --> 00:18:12,579 Ce n'est pas la première fois, bien sûr. 368 00:18:12,579 --> 00:18:17,636 Les machines de la Révolution Industrielle augmentèrent nos capacités. 369 00:18:17,636 --> 00:18:20,805 Mais, au bout d'un moment, les choses se calmèrent. 370 00:18:20,805 --> 00:18:22,507 Il y eut des troubles sociaux, mais 371 00:18:22,507 --> 00:18:25,946 une fois les machines utilisées pour la plupart des cas utiles, 372 00:18:25,946 --> 00:18:28,300 les choses s'apaisèrent. 373 00:18:28,300 --> 00:18:30,133 La Révolution des Machines Apprenantes 374 00:18:30,133 --> 00:18:32,682 sera très différente de la Révolution Industrielle, 375 00:18:32,682 --> 00:18:35,632 parce que dans son cas, les choses ne se calmeront pas. 376 00:18:35,632 --> 00:18:38,614 Plus les ordinateurs progressent dans les activités cérébrales, 377 00:18:38,614 --> 00:18:42,862 plus ils peuvent créer de meilleurs ordinateurs, et progresser encore. 378 00:18:42,862 --> 00:18:44,770 Nous sommes devant un type d'évolution 379 00:18:44,770 --> 00:18:47,248 que le monde n'a jamais expérimentée auparavant : 380 00:18:47,248 --> 00:18:50,554 notre compréhension antérieure des possibles n'est pas adaptée. 381 00:18:50,974 --> 00:18:52,754 Nous en subissons déjà les impacts. 382 00:18:52,754 --> 00:18:56,384 Ces 25 dernières années, alors que la productivité du capital augmentait, 383 00:18:56,400 --> 00:19:01,408 la productivité du travail restait stable, était même légèrement en baisse. 384 00:19:01,408 --> 00:19:04,149 Je voudrais lancer ce débat dès maintenant. 385 00:19:04,149 --> 00:19:07,176 Je sais d'expérience que lorsque je parle de ça aux gens, 386 00:19:07,176 --> 00:19:08,666 ils peuvent être sceptiques. 387 00:19:08,666 --> 00:19:10,339 Les machines ne peuvent pas penser, 388 00:19:10,339 --> 00:19:13,367 elles n'ont pas d'émotions, ne comprennent pas la poésie. 389 00:19:13,367 --> 00:19:15,888 Nous ne comprenons pas comment elles fonctionnent. 390 00:19:15,888 --> 00:19:17,374 Et alors ? 391 00:19:17,374 --> 00:19:21,868 Elles peuvent dès maintenant faire ce pour quoi les hommes sont payés. 392 00:19:21,897 --> 00:19:23,628 C'est le moment de commencer 393 00:19:23,628 --> 00:19:28,015 à réfléchir à la façon d'ajuster nos structures sociales et économiques, 394 00:19:28,015 --> 00:19:29,995 d'être au fait de cette nouvelle réalité. 395 00:19:29,995 --> 00:19:31,098 Merci. 396 00:19:31,098 --> 00:19:32,190 (Applaudissements)