L'apprentissage automatique vaut autant que les données de formation que vous y mettez. Il est donc très important d’utiliser beaucoup de données et de très bonne qualité. Puisqu’elles sont importantes, cela vaut la peine de se demander d'où elles proviennent ? Souvent, les ordinateurs collectent des données de formation auprès de personnes comme vous et moi, sans aucun effort de notre part. Un service de streaming vidéo peut garder une trace de ce que vous regardez, puis élaborer des modèles à partir de ces données pour vous faire des suggestions futures à partir de là. D'autres fois, on vous demande directement votre aide, pour repérer des panneaux de signalisation et des photos sur un site web, au quel cas vous fournissez des données de formation pour aider une machine à apprendre à voir et peut-être même à conduire un jour. Les chercheurs en médecine peuvent utiliser des images médicales comme données de formation pour enseigner aux ordinateurs comment reconnaître et diagnostiquer des maladies. L'apprentissage automatique a besoin de centaines et de milliers d'images, et de la formation d'un médecin, qui sait quoi chercher avant de pouvoir identifier correctement la maladie. Même avec des milliers d'exemples, il peut y avoir des problèmes avec les prédictions de l'ordinateur. Si les données radiographiques ne sont collectées que chez les hommes, il se peut que les prédictions ne fonctionnent que pour eux. Il se peut que des maladies ne soient pas reconnues, comme lorsqu'on lui demande de diagnostiquer la radio d'une femme. Cet angle mort dans les données de formation crée ce que l’on appelle des données faussées. Elles favorisent certains éléments, tout en ne donnant pas la priorité à d'autres, voire en les excluant. En fonction de comment les données de formation sont collectées, de qui les recueille et comment elles sont saisies, il est possible que parmi toutes les données, certaines faussées y figurent. En se basant sur ces données faussées, l'ordinateur peut faire de fausses prédictions, selon si les personnes qui forment l’ordinateur en sont conscientes ou pas. Lorsque vous regardez les données de formation, posez-vous deux questions : Ces données sont-elles suffisantes pour former avec précision un ordinateur ? Représentent-elles tous les scénarios et utilisateurs possibles sans aucun parti pris ? C'est là que vous, en tant que formateur humain, jouez un rôle crucial. C'est à vous de fournir à votre machine des données impartiales. Cela signifie collecter des tonnes d'exemples, provenant de nombreuses sources. N'oubliez pas que lorsque vous choisissez des données pour l'apprentissage automatique, vous programmez réellement l'algorithme, en utilisant des données de formation au lieu du code. Les données SONT alors le code. Plus les données que vous fournissez sont de bonne qualité, mieux l’ordinateur apprendra.