1 00:00:00,000 --> 00:00:03,733 2 00:00:03,733 --> 00:00:07,333 3 00:00:07,333 --> 00:00:11,000 L'apprentissage automatique n'est aussi bon que les données d'entraînement que vous y insérez. 4 00:00:11,000 --> 00:00:16,533 Donc, c'est très important d'utiliser des données de haute qualité, et beaucoup de celles-ci. 5 00:00:16,533 --> 00:00:21,866 Mais si les données sont si importantes, cela vaut la peine de demander d'où viennent les données de formation ? 6 00:00:21,866 --> 00:00:26,166 Souvent, les ordinateurs collectent les données de formation de personnes comme vous et moi, 7 00:00:26,166 --> 00:00:28,166 sans aucun effort de notre part. 8 00:00:28,166 --> 00:00:31,433 Un service de streaming vidéo peut garder une trace de ce que vous regardez, 9 00:00:31,433 --> 00:00:33,800 alors il peut reconnaître des modèles à partir de ces données 10 00:00:33,800 --> 00:00:37,400 pour vous recommander ce que vous voudriez peut-être regarder ensuite. 11 00:00:37,400 --> 00:00:40,333 D'autres fois, on vous demande directement d'aider, 12 00:00:40,333 --> 00:00:43,766 comme lorsqu'un site Web vous demande de repérer les panneaux de signalisation et les photos, 13 00:00:43,766 --> 00:00:47,633 vous fournissez des données d'entraînement pour aider une machine à apprendre à voir, 14 00:00:47,633 --> 00:00:51,600 et peut-être même un jour, conduire. 15 00:00:51,600 --> 00:00:55,266 Les chercheurs en médecine peuvent utiliser des images médicales comme données d'entraînement 16 00:00:55,266 --> 00:01:00,133 pour enseigner aux ordinateurs comment reconnaître et diagnostiquer les maladies. 17 00:01:00,133 --> 00:01:03,733 L'apprentissage automatique a besoin de centaines et de milliers d'images, 18 00:01:03,733 --> 00:01:06,100 et d'un guidage de la part d'un médecin, 19 00:01:06,100 --> 00:01:10,333 qui sait quoi rechercher avant de pouvoir identifier correctement la maladie. 20 00:01:10,333 --> 00:01:12,300 Même avec des milliers d'exemples, 21 00:01:12,300 --> 00:01:15,566 il peut y avoir des problèmes avec les prédictions de l'ordinateur. 22 00:01:15,566 --> 00:01:18,666 Si les données radiographiques ne sont collectées que sur des hommes, 23 00:01:18,666 --> 00:01:21,633 alors les prédictions de l'ordinateur ne peuvent fonctionner que pour les hommes. 24 00:01:21,633 --> 00:01:23,500 Il peut ne pas reconnaître les maladies 25 00:01:23,500 --> 00:01:26,600 lorsqu'on lui demande de diagnostiquer la radiographie d'une femme. 26 00:01:26,600 --> 00:01:30,966 Cet angle mort au niveau des données d'entraînement crée un élément appelé biais. 27 00:01:30,966 --> 00:01:36,000 Les données biaisées favorisent certaines choses, et dé-priorisent ou excluent les autres. 28 00:01:36,000 --> 00:01:38,333 En fonction de la manière dont les données d'entraînement sont collectées, 29 00:01:38,333 --> 00:01:42,366 qui effectue la collecte et comment les données sont introduites dans l'ordinateur, 30 00:01:42,366 --> 00:01:45,866 il est possible que des préjugés humains soient inclus dans les données. 31 00:01:45,866 --> 00:01:50,266 En apprenant des données de biais, l'ordinateur peut faire des prédictions biaisées, 32 00:01:50,266 --> 00:01:54,533 cela peut se produire, que les personnes qui forment l'ordinateur en soient conscientes ou non. 33 00:01:54,533 --> 00:01:58,300 Ainsi, lorsque vous consultez des données d'entraînement, posez-vous deux questions : 34 00:01:58,300 --> 00:02:01,300 Ces données sont-elles suffisantes pour entraîner avec précision un ordinateur ? 35 00:02:01,300 --> 00:02:07,400 Et, ces données représentent-elles tous les scénarios et les utilisateurs possibles sans biais ? 36 00:02:07,400 --> 00:02:11,133 C'est là que vous, en tant que formateur humain, pouvez jouer un rôle crucial. 37 00:02:11,133 --> 00:02:14,300 C'est à vous de donner à votre machine des données impartiales. 38 00:02:14,300 --> 00:02:19,000 Cela signifie collecter des tonnes d'exemples, souvent à partir de nombreuses sources. 39 00:02:19,000 --> 00:02:22,066 N'oubliez pas que lorsque vous choisissez des données pour l'apprentissage automatique, 40 00:02:22,066 --> 00:02:27,233 vous programmez en fait l'algorithme, en utilisant des données d'entraînement au lieu de code. 41 00:02:27,233 --> 00:02:29,733 Les données sont le code. 42 00:02:29,733 --> 00:02:33,499 Plus les données que vous fournissez sont bonnes, mieux l'ordinateur apprendra.