-
-
-
L'apprentissage automatique n'est aussi bon que
les données d'entraînement que vous y insérez.
-
Donc, c'est très important d'utiliser
des données de haute qualité, et beaucoup de celles-ci.
-
Mais si les données sont si importantes, cela vaut la peine
de demander d'où viennent les données de formation ?
-
Souvent, les ordinateurs collectent les données
de formation de personnes comme vous et moi,
-
sans aucun effort de notre part.
-
Un service de streaming vidéo peut garder
une trace de ce que vous regardez,
-
alors il peut reconnaître des
modèles à partir de ces données
-
pour vous recommander ce que vous
voudriez peut-être regarder ensuite.
-
D'autres fois, on vous
demande directement d'aider,
-
comme lorsqu'un site Web vous demande
de repérer les panneaux de signalisation et les photos,
-
vous fournissez des données d'entraînement pour
aider une machine à apprendre à voir,
-
et peut-être même un jour, conduire.
-
Les chercheurs en médecine peuvent utiliser des images
médicales comme données d'entraînement
-
pour enseigner aux ordinateurs comment reconnaître
et diagnostiquer les maladies.
-
L'apprentissage automatique a besoin de
centaines et de milliers d'images,
-
et d'un guidage de la part d'un médecin,
-
qui sait quoi rechercher avant de pouvoir
identifier correctement la maladie.
-
Même avec des milliers d'exemples,
-
il peut y avoir des problèmes avec
les prédictions de l'ordinateur.
-
Si les données radiographiques ne sont collectées que sur des hommes,
-
alors les prédictions de l'ordinateur
ne peuvent fonctionner que pour les hommes.
-
Il peut ne pas reconnaître les maladies
-
lorsqu'on lui demande de diagnostiquer
la radiographie d'une femme.
-
Cet angle mort au niveau des données d'entraînement
crée un élément appelé biais.
-
Les données biaisées favorisent certaines choses,
et dé-priorisent ou excluent les autres.
-
En fonction de la manière dont les données d'entraînement sont collectées,
-
qui effectue la collecte et comment les données
sont introduites dans l'ordinateur,
-
il est possible que des préjugés humains soient
inclus dans les données.
-
En apprenant des données de biais, l'ordinateur
peut faire des prédictions biaisées,
-
cela peut se produire, que les personnes qui
forment l'ordinateur en soient conscientes ou non.
-
Ainsi, lorsque vous consultez des données d'entraînement,
posez-vous deux questions :
-
Ces données sont-elles suffisantes pour entraîner
avec précision un ordinateur ?
-
Et, ces données représentent-elles tous les scénarios
et les utilisateurs possibles sans biais ?
-
C'est là que vous, en tant que formateur humain,
pouvez jouer un rôle crucial.
-
C'est à vous de donner à votre machine des données impartiales.
-
Cela signifie collecter des tonnes d'exemples,
souvent à partir de nombreuses sources.
-
N'oubliez pas que lorsque vous choisissez des données
pour l'apprentissage automatique,
-
vous programmez en fait l'algorithme, en utilisant
des données d'entraînement au lieu de code.
-
Les données sont le code.
-
Plus les données que vous fournissez sont bonnes,
mieux l'ordinateur apprendra.