Intelligenza Artificiale
Dati di apprendimento e distorsioni

L'efficacia dell'apprendimento automatico dipende totalmente

dalla bontà dei dati usati per l'apprendimento.

Quindi, è estremamente importante

avere dati di alta qualità e in gran quantità.

Ma se i dati sono così importanti,

bisogna chiedersi da dove provengono i dati di apprendimento?

Spesso, i computer recuperano i dati da persone come me e te,

senza sforzi particolari da parte nostra.

Un servizio di video online

può tenere traccia di ciò che guardi,

riconoscendo degli schemi nei dati,

per poterti consigliare altri video di tuo interesse.

Altre volte, ti viene espressamente chiesto un aiuto:

quando un sito web ti chiede di individuare
dei cartelli in alcune foto,

stai fornendo dei dati per addestrare una macchina

a capire cosa vede e forse in futuro a guidare.

I ricercatori medici possono utilizzare immagini mediche

come dati di apprendimento

per insegnare ai computer

come riconoscere e diagnosticare le malattie.

L'Apprendimento Automatico (Machine Learning)

necessita di centinaia di migliaia di immagini

e delle indicazioni di un medico che sa cosa cercare,

prima di poter identificare correttamente le malattie.

Anche con migliaia di esempi,

possono esserci dei problemi con le previsioni
elaborate dal computer.

Se si raccolgono solo radiografie di uomini,

le previsioni del computer funzionano solo per gli uomini.

E potrebbe non riconoscere le malattie

quando gli viene chiesto di diagnosticare
la radiografia di una donna.

Questa carenza nei dati di apprendimento

crea una distorsione (bias).

I dati distorti favoriscono alcune cose

e ne penalizzano o escludono altre.

A seconda di come vengono raccolti i dati di apprendimento,

di chi li raccoglie e di come vengono forniti,

c'è la possibilità che dei pregiudizi umani

siano incorporati nei dati.

Imparando da dati distorti,

il computer potrebbe fare delle previsioni distorte,

anche se chi si occupa dell'apprendimento

non ne è consapevole.

Occorre analizzare i dati di apprendimento

e porsi due domande:

Ci sono sufficienti dati per addestrare
accuratamente un computer?

E questi dati rappresentano tutti i possibili scenari
ed utenti senza parzialità o pregiudizi?

Ed è qui che tu, come essere umano,

svolgi un ruolo cruciale.

Sta a te dare alla macchina dei dati imparziali.

Ciò significa raccogliere moltissimi esempi,

da molte fonti differenti.

Ricordati: quando scegli i dati per l'Apprendimento Automatico,

stai effettivamente programmando un algoritmo,

usando i dati di apprendimento invece del codice.

I dati SONO il codice.

Migliori sono i dati forniti, meglio il computer imparerà.