Intelligenza Artificiale Dati di apprendimento e distorsioni L'efficacia dell'apprendimento automatico dipende totalmente dalla bontà dei dati usati per l'apprendimento. Quindi, è estremamente importante avere dati di alta qualità e in gran quantità. Ma se i dati sono così importanti, bisogna chiedersi da dove provengono i dati di apprendimento? Spesso, i computer recuperano i dati da persone come me e te, senza sforzi particolari da parte nostra. Un servizio di video online può tenere traccia di ciò che guardi, riconoscendo degli schemi nei dati, per poterti consigliare altri video di tuo interesse. Altre volte, ti viene espressamente chiesto un aiuto: quando un sito web ti chiede di individuare dei cartelli in alcune foto, stai fornendo dei dati per addestrare una macchina a capire cosa vede e forse in futuro a guidare. I ricercatori medici possono utilizzare immagini mediche come dati di apprendimento per insegnare ai computer come riconoscere e diagnosticare le malattie. L'Apprendimento Automatico (Machine Learning) necessita di centinaia di migliaia di immagini e delle indicazioni di un medico che sa cosa cercare, prima di poter identificare correttamente le malattie. Anche con migliaia di esempi, possono esserci dei problemi con le previsioni elaborate dal computer. Se si raccolgono solo radiografie di uomini, le previsioni del computer funzionano solo per gli uomini. E potrebbe non riconoscere le malattie quando gli viene chiesto di diagnosticare la radiografia di una donna. Questa carenza nei dati di apprendimento crea una distorsione (bias). I dati distorti favoriscono alcune cose e ne penalizzano o escludono altre. A seconda di come vengono raccolti i dati di apprendimento, di chi li raccoglie e di come vengono forniti, c'è la possibilità che dei pregiudizi umani siano incorporati nei dati. Imparando da dati distorti, il computer potrebbe fare delle previsioni distorte, anche se chi si occupa dell'apprendimento non ne è consapevole. Occorre analizzare i dati di apprendimento e porsi due domande: Ci sono sufficienti dati per addestrare accuratamente un computer? E questi dati rappresentano tutti i possibili scenari ed utenti senza parzialità o pregiudizi? Ed è qui che tu, come essere umano, svolgi un ruolo cruciale. Sta a te dare alla macchina dei dati imparziali. Ciò significa raccogliere moltissimi esempi, da molte fonti differenti. Ricordati: quando scegli i dati per l'Apprendimento Automatico, stai effettivamente programmando un algoritmo, usando i dati di apprendimento invece del codice. I dati SONO il codice. Migliori sono i dati forniti, meglio il computer imparerà.