-
Intelligenza Artificiale
Dati di apprendimento e distorsioni
-
L'efficacia dell'apprendimento automatico dipende totalmente
-
dalla bontà dei dati usati per l'apprendimento.
-
Quindi, è estremamente importante
-
avere dati di alta qualità e in gran quantità.
-
Ma se i dati sono così importanti,
-
bisogna chiedersi da dove provengono i dati di apprendimento?
-
Spesso, i computer recuperano i dati da persone come me e te,
-
senza sforzi particolari da parte nostra.
-
Un servizio di video online
-
può tenere traccia di ciò che guardi,
-
riconoscendo degli schemi nei dati,
-
per poterti consigliare altri video di tuo interesse.
-
Altre volte, ti viene espressamente chiesto un aiuto:
-
quando un sito web ti chiede di individuare
dei cartelli in alcune foto,
-
stai fornendo dei dati per addestrare una macchina
-
a capire cosa vede e forse in futuro a guidare.
-
I ricercatori medici possono utilizzare immagini mediche
-
come dati di apprendimento
-
per insegnare ai computer
-
come riconoscere e diagnosticare le malattie.
-
L'Apprendimento Automatico (Machine Learning)
-
necessita di centinaia di migliaia di immagini
-
e delle indicazioni di un medico che sa cosa cercare,
-
prima di poter identificare correttamente le malattie.
-
Anche con migliaia di esempi,
-
possono esserci dei problemi con le previsioni
elaborate dal computer.
-
Se si raccolgono solo radiografie di uomini,
-
le previsioni del computer funzionano solo per gli uomini.
-
E potrebbe non riconoscere le malattie
-
quando gli viene chiesto di diagnosticare
la radiografia di una donna.
-
Questa carenza nei dati di apprendimento
-
crea una distorsione (bias).
-
I dati distorti favoriscono alcune cose
-
e ne penalizzano o escludono altre.
-
A seconda di come vengono raccolti i dati di apprendimento,
-
di chi li raccoglie e di come vengono forniti,
-
c'è la possibilità che dei pregiudizi umani
-
siano incorporati nei dati.
-
Imparando da dati distorti,
-
il computer potrebbe fare delle previsioni distorte,
-
anche se chi si occupa dell'apprendimento
-
non ne è consapevole.
-
Occorre analizzare i dati di apprendimento
-
e porsi due domande:
-
Ci sono sufficienti dati per addestrare
accuratamente un computer?
-
E questi dati rappresentano tutti i possibili scenari
ed utenti senza parzialità o pregiudizi?
-
Ed è qui che tu, come essere umano,
-
svolgi un ruolo cruciale.
-
Sta a te dare alla macchina dei dati imparziali.
-
Ciò significa raccogliere moltissimi esempi,
-
da molte fonti differenti.
-
Ricordati: quando scegli i dati per l'Apprendimento Automatico,
-
stai effettivamente programmando un algoritmo,
-
usando i dati di apprendimento invece del codice.
-
I dati SONO il codice.
-
Migliori sono i dati forniti, meglio il computer imparerà.