-
INTEL·LIGÈNCIA ARTIFICIAL
DADES D'ENTRENAMENT I BIAIX
-
L'aprenentatge automàtic és tan bo
com les dades d'entrenament que li dónes.
-
Així que és important
usar dades d'alta qualitat, i moltes.
-
Però si les dades són importants,
-
ens hem de preguntar
d'on vénen les dades d'entrenament?
-
Sovint, els ordinadors
treuen dades d'entrenament
-
de la gent com tu i com jo,
sense cap esforç per part nostra.
-
Una plataforma de vídeo
pot guardar què veus,
-
i reconèixer-hi patrons
per recomanar-te més coses per veure.
-
Altres cops,
se't demana ajuda directament,
-
com quan un web et demana que cliquis
als semàfors de les fotos.
-
Estàs aportant dades d'entrenament
perquè una màquina aprengui a veure-hi,
-
i potser a conduir algun dia.
-
Els investigadors mèdics usen
imatges mèdiques com dades d'entrenament
-
per ensenyar als ordinadors
com reconèixer i diagnosticar malalties.
-
L'aprenentatge automàtic requereix
centenars de milers d'imatges,
-
i consell formatiu d'un metge
que sap què buscar,
-
abans de poder identificar bé
una malaltia.
-
Fins i tot amb milers d'exemples,
-
hi pot haver problemes
amb les prediccions d'un ordinador.
-
Si només es recullen radiografies d'homes,
les prediccions només valdran per homes.
-
Pot no reconèixer-la bé,
si ha de diagnosticar-ne una d'una dona.
-
Aquest punt cec en les dades d'entrenament
crea una cosa que es diu biaix.
-
Les dades esbiaixades
afavoreixen unes bandes
-
i en perjudiquen o exclouen
unes altres.
-
En funció de com es recullen
les dades d'entrenament,
-
qui les recull
i com s'introdueixen,
-
hi ha opcions que les dades
incloguin biaix humà.
-
Si aprèn de dades esbiaixades,
la màquina farà prediccions esbiaixades,
-
encara que la gent que l'entrena
no en sigui conscient.
-
Quan veus dades d'entrenament,
fes-te dues preguntes:
-
Hi ha prou dades
per entrenar un ordinador?
-
I aquestes dades representen
-
qualsevol context
o usuari possible sense biaix?
-
Aquí és on tu, com a humà entrenador,
tens un paper vital.
-
Depèn de tu que donis
dades sense biaix a la màquina.
-
Això vol dir recollir milers d'exemples,
de moltes fons.
-
Recorda, quan esculls dades
per entrenament automàtic,
-
estàs programant l'algorisme,
amb dades enlloc de codi.
-
Les dades són el codi.
-
Com millors siguin les dades,
millor aprendrà l'ordinador.