A.I. - Intelligenza Artificiale - Dati: addestramento e distorsioni
L'efficacia dell'apprendimento automatico dipende totalmente
dalla bontà dei dati usati per l'addestramento.
Quindi, è estremamente importante
avere dati di alta qualità e in gran quantità.
Ma se i dati sono così importanti,
bisogna chiedersi da dove provengono i dati di addestramento?
Spesso, i computer recuperano i dati da persone come me e te,
senza sforzi particolari da parte nostra.
Un servizio di video online
può tenere traccia di ciò che guardi,
riconoscendo dei modelli nei dati,
per poterti consigliare altri video di tuo interesse.
Altre volte, ti viene espressamente chiesto un aiuto:
quando un sito web ti chiede di individuare
dei cartelli in alcune foto,
stai fornendo dei dati per addestrare una macchina
a capire cosa vede e forse in futuro a guidare.
I ricercatori medici possono utilizzare immagini mediche
come dati di addestramento
per insegnare ai computer
come riconoscere e diagnosticare le malattie.
Il Machine Learning (apprendimento automatico)
necessità di centinaia di migliaia di immagini
e le indicazioni di un medico che sa cosa cercare,
prima di poter identificare correttamente le malattie.
Anche con migliaia di esempi,
possono esserci dei problemi con le previsioni
date dal computer.
Se si raccolgono solo radiografie di uomini,
le previsioni del computer funzionano solo per gli uomini.
E potrebbe non riconoscere le malattie
quando gli viene chiesto di diagnosticare
la radiografia di una donna.
Questa carenza nei dati di addestramento
crea una distorsione.
I dati distorti favoriscono alcune cose
e ne penalizzano o escludono altre.
A seconda di come vengono raccolti i dati di addestramento,
di chi li raccoglie e di come vengono forniti,
c'è la possibilità che dei pregiudizi umani
siano incorporati nei dati.
Imparando da dati distorti,
il computer potrebbe fare delle previsioni distorte,
anche se chi si occupa dell'addestramento
non ne è consapevole.
Occorre analizzare i dati di addestramento
e porsi due domande:
Ci sono sufficienti dati per addestrare
accuratamente un computer?
E questi dati rappresentano tutti i possibili scenari
ed utenti senza parzialità o pregiudizi?
Ed è qui che tu, come essere umano,
svolgi un ruolo cruciale.
Sta a te dare alla macchina dei dati imparziali.
Ciò significa raccogliere un'infinità di esempi,
da molte fonti differenti.
Ricordati: quando scegli i dati per il Machine Learning,
stai effettivamente programmando un algoritmo,
usando i dati di addestramento invece del codice.
I dati SONO il codice.
Migliori sono i dati forniti, meglio il computer imparerà.