Intelligenza Artificiale
Dati di apprendimento e distorsioni
L'efficacia dell'apprendimento automatico dipende totalmente
dalla bontà dei dati usati per l'apprendimento.
Quindi, è estremamente importante
avere dati di alta qualità e in gran quantità.
Ma se i dati sono così importanti,
bisogna chiedersi da dove provengono i dati di apprendimento?
Spesso, i computer recuperano i dati da persone come me e te,
senza sforzi particolari da parte nostra.
Un servizio di video online
può tenere traccia di ciò che guardi,
riconoscendo degli schemi nei dati,
per poterti consigliare altri video di tuo interesse.
Altre volte, ti viene espressamente chiesto un aiuto:
quando un sito web ti chiede di individuare
dei cartelli in alcune foto,
stai fornendo dei dati per addestrare una macchina
a capire cosa vede e forse in futuro a guidare.
I ricercatori medici possono utilizzare immagini mediche
come dati di apprendimento
per insegnare ai computer
come riconoscere e diagnosticare le malattie.
L'Apprendimento Automatico (Machine Learning)
necessita di centinaia di migliaia di immagini
e delle indicazioni di un medico che sa cosa cercare,
prima di poter identificare correttamente le malattie.
Anche con migliaia di esempi,
possono esserci dei problemi con le previsioni
elaborate dal computer.
Se si raccolgono solo radiografie di uomini,
le previsioni del computer funzionano solo per gli uomini.
E potrebbe non riconoscere le malattie
quando gli viene chiesto di diagnosticare
la radiografia di una donna.
Questa carenza nei dati di apprendimento
crea una distorsione (bias).
I dati distorti favoriscono alcune cose
e ne penalizzano o escludono altre.
A seconda di come vengono raccolti i dati di apprendimento,
di chi li raccoglie e di come vengono forniti,
c'è la possibilità che dei pregiudizi umani
siano incorporati nei dati.
Imparando da dati distorti,
il computer potrebbe fare delle previsioni distorte,
anche se chi si occupa dell'apprendimento
non ne è consapevole.
Occorre analizzare i dati di apprendimento
e porsi due domande:
Ci sono sufficienti dati per addestrare
accuratamente un computer?
E questi dati rappresentano tutti i possibili scenari
ed utenti senza parzialità o pregiudizi?
Ed è qui che tu, come essere umano,
svolgi un ruolo cruciale.
Sta a te dare alla macchina dei dati imparziali.
Ciò significa raccogliere moltissimi esempi,
da molte fonti differenti.
Ricordati: quando scegli i dati per l'Apprendimento Automatico,
stai effettivamente programmando un algoritmo,
usando i dati di apprendimento invece del codice.
I dati SONO il codice.
Migliori sono i dati forniti, meglio il computer imparerà.