WEBVTT 00:00:03.470 --> 00:00:06.760 A.I. - Intelligenza Artificiale - Dati: addestramento e distorsioni 00:00:07.360 --> 00:00:09.560 L'efficacia dell'apprendimento automatico dipende totalmente 00:00:09.560 --> 00:00:11.369 dalla bontà dei dati usati per l'addestramento. 00:00:11.369 --> 00:00:12.956 Quindi, è estremamente importante 00:00:12.956 --> 00:00:16.547 avere dati di alta qualità e in gran quantità. 00:00:16.547 --> 00:00:18.479 Ma se i dati sono così importanti, 00:00:18.479 --> 00:00:21.600 bisogna chiedersi da dove provengono i dati di addestramento? 00:00:21.600 --> 00:00:26.260 Spesso, i computer recuperano i dati da persone come me e te, 00:00:26.260 --> 00:00:28.320 senza sforzi particolari da parte nostra. 00:00:28.320 --> 00:00:29.796 Un servizio di video online 00:00:29.796 --> 00:00:31.529 può tenere traccia di ciò che guardi, 00:00:31.529 --> 00:00:33.830 riconoscendo dei modelli nei dati, 00:00:33.830 --> 00:00:36.780 per poterti consigliare altri video di tuo interesse. 00:00:37.420 --> 00:00:40.253 Altre volte, ti viene espressamente chiesto un aiuto: 00:00:40.253 --> 00:00:43.900 quando un sito web ti chiede di individuare dei cartelli in alcune foto, 00:00:43.900 --> 00:00:46.530 stai fornendo dei dati per addestrare una macchina 00:00:46.530 --> 00:00:49.890 a capire cosa vede e forse in futuro a guidare. 00:00:51.770 --> 00:00:54.380 I ricercatori medici possono utilizzare immagini mediche 00:00:54.380 --> 00:00:55.679 come dati di addestramento 00:00:55.679 --> 00:00:57.240 per insegnare ai computer 00:00:57.240 --> 00:00:59.900 come riconoscere e diagnosticare le malattie. 00:01:00.300 --> 00:01:02.020 Il Machine Learning (apprendimento automatico) 00:01:02.020 --> 00:01:04.252 necessità di centinaia di migliaia di immagini 00:01:04.252 --> 00:01:07.780 e le indicazioni di un medico che sa cosa cercare, 00:01:07.780 --> 00:01:10.520 prima di poter identificare correttamente le malattie. 00:01:10.520 --> 00:01:12.665 Anche con migliaia di esempi, 00:01:12.665 --> 00:01:15.770 possono esserci dei problemi con le previsioni date dal computer. 00:01:15.770 --> 00:01:19.001 Se si raccolgono solo radiografie di uomini, 00:01:19.001 --> 00:01:21.880 le previsioni del computer funzionano solo per gli uomini. 00:01:21.880 --> 00:01:23.695 E potrebbe non riconoscere le malattie 00:01:23.695 --> 00:01:26.160 quando gli viene chiesto di diagnosticare la radiografia di una donna. 00:01:26.620 --> 00:01:28.720 Questa carenza nei dati di addestramento 00:01:28.720 --> 00:01:31.070 crea una distorsione. 00:01:31.070 --> 00:01:33.290 I dati distorti favoriscono alcune cose 00:01:33.290 --> 00:01:36.200 e ne penalizzano o escludono altre. 00:01:36.200 --> 00:01:38.563 A seconda di come vengono raccolti i dati di addestramento, 00:01:38.563 --> 00:01:42.120 di chi li raccoglie e di come vengono forniti, 00:01:42.120 --> 00:01:44.270 c'è la possibilità che dei pregiudizi umani 00:01:44.270 --> 00:01:45.880 siano incorporati nei dati. 00:01:45.880 --> 00:01:48.133 Imparando da dati distorti, 00:01:48.133 --> 00:01:50.747 il computer potrebbe fare delle previsioni distorte, 00:01:50.747 --> 00:01:53.070 anche se chi si occupa dell'addestramento 00:01:53.070 --> 00:01:54.760 non ne è consapevole. 00:01:54.760 --> 00:01:56.730 Occorre analizzare i dati di addestramento 00:01:56.730 --> 00:01:58.500 e porsi due domande: 00:01:58.500 --> 00:02:01.487 Ci sono sufficienti dati per addestrare accuratamente un computer? 00:02:01.487 --> 00:02:07.460 E questi dati rappresentano tutti i possibili scenari ed utenti senza parzialità o pregiudizi? 00:02:07.460 --> 00:02:09.570 Ed è qui che tu, come essere umano, 00:02:09.570 --> 00:02:11.160 svolgi un ruolo cruciale. 00:02:11.160 --> 00:02:14.316 Sta a te dare alla macchina dei dati imparziali. 00:02:14.316 --> 00:02:16.802 Ciò significa raccogliere un'infinità di esempi, 00:02:16.802 --> 00:02:19.070 da molte fonti differenti. 00:02:19.070 --> 00:02:22.149 Ricordati: quando scegli i dati per il Machine Learning, 00:02:22.149 --> 00:02:24.500 stai effettivamente programmando un algoritmo, 00:02:24.500 --> 00:02:27.100 usando i dati di addestramento invece del codice. 00:02:27.100 --> 00:02:30.180 I dati SONO il codice. 00:02:30.180 --> 00:02:34.400 Migliori sono i dati forniti, meglio il computer imparerà.