WEBVTT 00:00:00.880 --> 00:00:04.893 Un tempo se volevate far fare qualcosa di nuovo ad un computer 00:00:04.893 --> 00:00:06.447 dovevate programmarlo. 00:00:06.447 --> 00:00:09.858 La programmazione, per quelli di voi che non l'hanno mai provata, 00:00:09.858 --> 00:00:13.360 richiede una spiegazione dettagliata 00:00:13.360 --> 00:00:16.727 di ogni singolo passaggio che volete che il computer faccia 00:00:16.727 --> 00:00:19.089 per ottenere il vostro scopo. 00:00:19.089 --> 00:00:22.585 Se volete fare qualcosa che nemmeno voi sapete come si faccia, 00:00:22.585 --> 00:00:24.648 potrebbe essere una sfida eccezionale. NOTE Paragraph 00:00:24.648 --> 00:00:28.131 Questa è la sfida affrontata da quest'uomo, Arthur Samuel. 00:00:28.131 --> 00:00:32.208 Nel 1956 voleva che il suo computer 00:00:32.208 --> 00:00:34.548 fosse in grado di batterlo a dama. 00:00:34.548 --> 00:00:36.588 Come si può scrivere un programma 00:00:36.588 --> 00:00:40.394 che spieghi in modo dettagliato come essere migliori di voi a dama? 00:00:40.394 --> 00:00:42.116 Ebbe un'idea: 00:00:42.116 --> 00:00:45.840 fece giocare il computer contro sé stesso migliaia di volte 00:00:45.840 --> 00:00:48.364 per imparare a giocare a dama. 00:00:48.364 --> 00:00:51.544 E ha davvero funzionato, infatti nel 1962 00:00:51.544 --> 00:00:55.561 questo computer ha battuto il campione del Connecticut. NOTE Paragraph 00:00:55.561 --> 00:00:58.534 Così Arthur Samuel è stato il padre dell'apprendimento automatico, 00:00:58.534 --> 00:01:00.251 ed ho un grande debito con lui, 00:01:00.251 --> 00:01:03.014 perché sono un professionista dell'apprendimento automatico. 00:01:03.014 --> 00:01:04.488 Sono stato il presidente di Kaggle 00:01:04.488 --> 00:01:05.962 una comunità di oltre 200 000 00:01:05.962 --> 00:01:08.257 professionisti dell'apprendimento automatico. 00:01:08.257 --> 00:01:09.925 Kaggle crea delle competizioni 00:01:09.925 --> 00:01:13.633 per cercare di risolvere problemi irrisolti 00:01:13.633 --> 00:01:16.870 e ce l'ha fatta centinaia di volte. 00:01:16.870 --> 00:01:19.303 Da questo punto di osservazione sono stato in grado di scoprire 00:01:19.303 --> 00:01:21.736 molto su quanto l'apprendimento automatico 00:01:21.736 --> 00:01:24.170 ha potuto fare in passato, su quel che può fare oggi, 00:01:24.170 --> 00:01:26.421 e su cosa potrà fare in futuro. 00:01:26.421 --> 00:01:29.592 Probabilmente il primo grande successo dell'apprendimento automatico 00:01:29.592 --> 00:01:30.925 in commercio è stato Google. 00:01:30.925 --> 00:01:33.784 Google ha mostrato che è possibile trovare informazioni 00:01:33.784 --> 00:01:35.536 usando un algoritmo informatico, 00:01:35.536 --> 00:01:38.437 un algoritmo basato sull'apprendimento automatico. 00:01:38.437 --> 00:01:42.323 Da allora ci sono stati numerosi successi commerciali nell'apprendimento automatico. 00:01:42.323 --> 00:01:44.174 Società quali Amazon e Netflix 00:01:44.174 --> 00:01:46.025 usano l'apprendimento automatico per suggerire 00:01:46.025 --> 00:01:47.876 prodotti che potreste voler acquistare, 00:01:47.876 --> 00:01:49.896 film che potreste voler vedere. 00:01:49.896 --> 00:01:51.703 A volte è quasi inquietante. 00:01:51.703 --> 00:01:53.657 Società come Linkedin e Facebook 00:01:53.657 --> 00:01:56.251 talvolta vi diranno chi potrebbe essere vostro amico 00:01:56.251 --> 00:01:58.228 e non avete idea di come ci riescano 00:01:58.228 --> 00:02:01.195 e questo perché stanno utilizzando l'apprendimento automatico. 00:02:01.195 --> 00:02:04.152 Sono algoritmi che hanno imparato tutto questo dai dati 00:02:04.152 --> 00:02:07.399 invece che dalla programmazione manuale. NOTE Paragraph 00:02:07.399 --> 00:02:09.877 La IBM è riuscita in questo modo 00:02:09.877 --> 00:02:13.739 a far sì che Watson battesse due campioni mondiali di "Jeopardy" 00:02:13.739 --> 00:02:16.859 rispondendo a domande incredibilmente acute e complesse come queste. 00:02:16.859 --> 00:02:19.469 ["L'antico leone di Nimrud" è scomparso dal museo nazionale di questa città nel 2003 (insieme ad altro materiale)"] 00:02:19.469 --> 00:02:23.034 Ed ecco perché siamo in grado di vedere la prima auto che si guida da sola. 00:02:23.034 --> 00:02:25.856 Se vogliamo essere in grado di dire la differenza tra, diciamo, 00:02:25.856 --> 00:02:28.488 un albero ed un pedone, allora questo è piuttosto importante. 00:02:28.488 --> 00:02:31.075 Non sappiamo come scrivere questi programmi manualmente 00:02:31.075 --> 00:02:34.072 ma con l'apprendimento automatico adesso è possibile. 00:02:34.072 --> 00:02:36.680 Questa auto ha guidato per oltre un milione di chilometri, 00:02:36.680 --> 00:02:40.186 su strada normale, senza alcun incidente. NOTE Paragraph 00:02:40.196 --> 00:02:44.110 Adesso sappiamo che i computer possono imparare, 00:02:44.110 --> 00:02:45.988 i computer possono imparare a fare cose 00:02:45.988 --> 00:02:48.848 che nemmeno noi non sappiamo fare, 00:02:48.848 --> 00:02:51.733 o che magari possono fare meglio di noi. 00:02:51.733 --> 00:02:55.928 Uno degli esempi più impressionanti di apprendimento automatico che ho visto 00:02:55.928 --> 00:02:58.320 è stato durante un progetto che ho condotto a Kaggle 00:02:58.320 --> 00:03:01.911 dove un gruppo guidato da un tipo chiamato Geoffrey Hinton 00:03:01.911 --> 00:03:03.463 dell'università di Toronto 00:03:03.463 --> 00:03:06.250 ha vinto una competizione per la scoperta automatica di droghe. 00:03:06.250 --> 00:03:08.987 La cosa straordinaria qui, non è soltanto che hanno battuto 00:03:08.987 --> 00:03:12.011 tutti gli algoritmi sviluppati da Merck o dalla comunità accademica internazionale 00:03:12.011 --> 00:03:15.035 ma il fatto che nessuno nella squadra avesse mai avuto 00:03:15.035 --> 00:03:18.061 esperienza in chimica o in biologia o in scienze biologiche 00:03:18.061 --> 00:03:20.230 e l'hanno fatto in due settimane. 00:03:20.230 --> 00:03:21.591 Come ci sono riusciti? 00:03:21.591 --> 00:03:25.342 Hanno utilizzato un algoritmo fenomenale chiamato apprendimento approfondito. 00:03:25.342 --> 00:03:28.651 Questo successo è stato così importante da essere stato pubblicato in un articolo 00:03:28.651 --> 00:03:31.412 nella prima pagina del New York Times poche settimane dopo. 00:03:31.412 --> 00:03:33.770 Questo qui a sinistra è Geoffrey Hinton. 00:03:33.770 --> 00:03:36.128 Apprendimento approfondito è un algoritmo 00:03:36.128 --> 00:03:38.488 ispirato al funzionamento del cervello umano 00:03:38.488 --> 00:03:40.300 che ha come risultato un algoritmo 00:03:40.300 --> 00:03:44.141 che non ha limiti teorici su quel che può fare. 00:03:44.141 --> 00:03:46.964 Più dati gli si forniscono e più tempo di calcolo gli si dà, 00:03:46.964 --> 00:03:48.276 meglio funziona. NOTE Paragraph 00:03:48.276 --> 00:03:49.803 Il New York Times ha anche spiegato in questo articolo 00:03:49.803 --> 00:03:51.330 un altro straordinario 00:03:51.330 --> 00:03:52.857 risultato dell'apprendimento approfondito 00:03:52.857 --> 00:03:55.569 che sto per mostrarvi. 00:03:55.569 --> 00:04:00.510 Mostra che i computer possono ascoltare e capire. NOTE Paragraph 00:04:00.510 --> 00:04:03.221 (Video) Richard Rashid: l'ultimo passo 00:04:03.221 --> 00:04:06.246 che voglio essere in grado di compiere in questo processo 00:04:06.246 --> 00:04:10.961 è di parlarvi veramente in cinese. 00:04:10.961 --> 00:04:13.506 Il punto chiave qui 00:04:13.506 --> 00:04:16.051 è che siamo stati in grado di prendere una gran quantità 00:04:16.051 --> 00:04:18.598 di informazioni da numerosi parlanti cinesi 00:04:18.598 --> 00:04:21.128 per produrre un sistema da testo a voce 00:04:21.128 --> 00:04:25.801 che prende il testo cinese e lo converte in lingua cinese 00:04:25.801 --> 00:04:29.929 e abbiamo preso più o meno un'ora della mia stessa voce 00:04:29.929 --> 00:04:31.820 e l'abbiamo utilizzata per modulare 00:04:31.820 --> 00:04:36.364 un sistema standard da testo a voce in modo che suoni come la mia. 00:04:36.364 --> 00:04:38.904 Il risultato non è perfetto. 00:04:38.904 --> 00:04:41.552 In realtà ci sono un po' di errori. 00:04:41.552 --> 00:04:44.036 (In cinese) 00:04:44.036 --> 00:04:47.386 (Applausi) 00:04:47.386 --> 00:04:53.022 C'è ancora molto da fare in questo settore. 00:04:53.022 --> 00:04:56.667 (In cinese) 00:04:56.667 --> 00:04:59.359 (Applausi) 00:04:59.359 --> 00:05:01.154 Jeremy Howard: 00:05:01.154 --> 00:05:02.350 questo è accaduto alla conferenza NOTE Paragraph 00:05:03.546 --> 00:05:04.744 sull'apprendimento automatico in Cina. 00:05:04.744 --> 00:05:07.114 Non capita davvero spesso alle conferenze accademiche 00:05:07.114 --> 00:05:08.971 di sentire applausi spontanei 00:05:08.971 --> 00:05:10.828 benché ovviamente talvolta 00:05:10.828 --> 00:05:12.687 alle conferenze TEDx siate liberi di farlo. 00:05:12.687 --> 00:05:14.127 Tutto quello che avete visto è accaduto grazie all'apprendimento approfondito. 00:05:14.127 --> 00:05:15.567 (Applausi) 00:05:15.567 --> 00:05:17.007 Grazie. 00:05:17.007 --> 00:05:19.289 La trascrizione in inglese è apprendimento approfondito. 00:05:19.289 --> 00:05:22.701 La traduzione in cinese e il testo in alto a destra, apprendimento approfondito, 00:05:22.701 --> 00:05:26.008 e la costruzione della voce ancora apprendimento approfondito. NOTE Paragraph 00:05:26.008 --> 00:05:29.242 Dunque l'apprendimento approfondito è questa cosa straordinaria. 00:05:29.242 --> 00:05:32.341 È un singolo algoritmo che sembra essere in grado di fare qualsiasi cosa 00:05:32.341 --> 00:05:35.452 e ho scoperto che un anno prima ha anche imparato a vedere. 00:05:35.452 --> 00:05:37.628 In questa sconosciuta competizione dalla Germania 00:05:37.628 --> 00:05:40.225 chiamata lo Standard tedesco per il riconoscimento dei segnali stradali 00:05:40.225 --> 00:05:43.618 l'apprendimento approfondito ha imparato a riconoscere segnali stradali come questo. 00:05:43.618 --> 00:05:45.712 Non solo può riconoscere i segnali stradali 00:05:45.712 --> 00:05:47.470 meglio di qualunque altro algoritmo 00:05:47.470 --> 00:05:50.189 la classifica dei leader mostra che in realtà è stato migliore delle persone, 00:05:50.189 --> 00:05:52.041 almeno il doppio delle persone. 00:05:52.041 --> 00:05:54.037 Così nel 2011 abbiamo avuto il primo esempio 00:05:54.037 --> 00:05:57.442 di computer che può vedere meglio delle persone. 00:05:57.442 --> 00:05:59.491 Da allora sono successe molte cose. 00:05:59.491 --> 00:06:03.005 Nel 2012 Google ha annunciato che un algoritmo di apprendimento approfondito 00:06:03.005 --> 00:06:04.420 ha guardato i video di YouTube 00:06:04.420 --> 00:06:07.857 e ha suddiviso i dati su 16 000 computer per un mese 00:06:07.857 --> 00:06:12.218 e il computer ha imparato in modo autonomo concetti quali persone e gatti 00:06:12.218 --> 00:06:14.027 solo guardando i video. 00:06:14.027 --> 00:06:16.379 Assomiglia molto al modo di imparare degli uomini. 00:06:16.379 --> 00:06:19.119 Gli uomini non apprendono quando gli si dice cosa vedono, 00:06:19.119 --> 00:06:22.450 ma apprendendo da soli cosa sono queste cose. 00:06:22.450 --> 00:06:25.819 Anche nel 2012 Geoffrey Hinton, che abbiamo visto prima, 00:06:25.819 --> 00:06:28.677 ha vinto la popolarissima competizione ImageNet 00:06:28.677 --> 00:06:32.818 cercando di capire da un milione e mezzo di immagini 00:06:32.818 --> 00:06:34.256 di che cosa erano la foto. 00:06:34.256 --> 00:06:37.789 Già dal 2014 siamo a meno del sei percento del tasso di errore 00:06:37.789 --> 00:06:39.242 nel riconoscimento delle immagini. 00:06:39.242 --> 00:06:41.268 Ancora una volta meglio delle persone. NOTE Paragraph 00:06:41.268 --> 00:06:45.037 Le macchine stanno davvero facendo un lavoro straordinario qui 00:06:45.037 --> 00:06:47.306 e verrà utilizzato nell'industria. 00:06:47.306 --> 00:06:50.348 Per esempio, Google lo scorso anno ha annunciato 00:06:50.348 --> 00:06:54.933 che ha mappato ogni singola località in Francia in due ore 00:06:54.933 --> 00:06:57.521 e lo ha fatto fornendo immagini di strade 00:06:57.521 --> 00:07:00.109 ad un algoritmo di apprendimento approfondito 00:07:00.109 --> 00:07:02.699 per riconoscere e leggere i numeri civici. 00:07:02.699 --> 00:07:04.919 Immaginate quanto si sarebbe impiegato prima: 00:07:04.919 --> 00:07:08.274 dozzine di persone, diversi anni. 00:07:08.274 --> 00:07:10.185 Sta accadendo anche in Cina. 00:07:10.185 --> 00:07:14.221 Baidu è una sorta di Google cinese, immagino, 00:07:14.221 --> 00:07:16.306 e quel che potete vedere in alto a sinistra 00:07:16.306 --> 00:07:18.391 è un esempio delle immagini che ho caricato 00:07:18.391 --> 00:07:20.478 nel sistema di apprendimento approfondito di Baidu, 00:07:20.478 --> 00:07:24.247 al di sotto potete vedere che il sistema ha capito che cos'è quell'immagine 00:07:24.247 --> 00:07:26.483 e ha trovato immagini simili. 00:07:26.483 --> 00:07:29.219 In effetti le immagini simili hanno sfondi simili, 00:07:29.219 --> 00:07:30.877 simili direzioni dei volti, 00:07:30.877 --> 00:07:32.665 alcuni persino con la lingua fuori. 00:07:32.665 --> 00:07:35.695 Questo non sta certamente cercando il testo in una pagina del web. 00:07:35.695 --> 00:07:37.107 Tutto quello che ho caricato è un'immagine. 00:07:37.107 --> 00:07:41.128 Così adesso abbiamo computer che comprendono davvero quello che vedono 00:07:41.128 --> 00:07:42.752 e che possono di conseguenza cercare nei database 00:07:42.752 --> 00:07:46.306 di centinaia di milioni di immagini in tempo reale. NOTE Paragraph 00:07:46.306 --> 00:07:49.536 Cosa significa che i computer possono vedere? 00:07:49.536 --> 00:07:51.553 Non è solo che i computer possono vedere. 00:07:51.553 --> 00:07:53.622 Infatti l'apprendimento approfondito ha fatto molto più di questo. 00:07:53.622 --> 00:07:55.546 Frasi complesse e sfumate come questa 00:07:55.546 --> 00:07:57.470 adesso sono comprensibili 00:07:57.470 --> 00:07:59.394 con un algoritmo di apprendimento approfondito. 00:07:59.394 --> 00:08:00.697 Come potete vedere qui, 00:08:00.697 --> 00:08:03.465 questo sistema basato su Stanford che mostra punti rossi in cima 00:08:03.465 --> 00:08:07.384 ha capito che questa frase sta esprimendo un sentimento negativo. 00:08:07.384 --> 00:08:10.230 L'apprendimento approfondito è simile al comportamento umano 00:08:10.230 --> 00:08:13.076 nel comprendere quello di cui tratta 00:08:13.076 --> 00:08:15.923 la frase e che cosa sta dicendo su queste cose. 00:08:15.923 --> 00:08:18.651 L'apprendimento approfondito è stato utilizzato per leggere il cinese 00:08:18.651 --> 00:08:21.807 ad un livello simile a quello di un madrelingua. 00:08:21.807 --> 00:08:23.975 Questo algoritmo è stato sviluppato in Svizzera 00:08:23.975 --> 00:08:27.331 da persone che non parlavano o capivano il cinese. 00:08:27.331 --> 00:08:29.382 Come ho detto, l'uso dell'apprendimento approfondito 00:08:29.382 --> 00:08:31.601 è praticamente il sistema migliore del mondo per fare questo, 00:08:31.601 --> 00:08:36.718 anche paragonato alla conoscenza umana. NOTE Paragraph 00:08:36.718 --> 00:08:39.682 Questo è il sistema che abbiamo messo a punto nella mia azienda, 00:08:39.682 --> 00:08:41.728 che mostra come mettere tutto questo materiale insieme. 00:08:41.728 --> 00:08:44.189 Queste immagini non hanno alcun testo allegato 00:08:44.189 --> 00:08:46.541 e mentre sto digitando queste frasi 00:08:46.541 --> 00:08:49.510 in tempo reale sta capendo queste immagini 00:08:49.510 --> 00:08:51.189 e immaginando cosa riguardano 00:08:51.189 --> 00:08:54.352 e trovando immagini simili al testo che sto scrivendo. 00:08:54.352 --> 00:08:57.108 Come potete vedere, sta effettivamente capendo le mie frasi 00:08:57.108 --> 00:08:59.332 e sta realmente comprendendo queste immagini. 00:08:59.332 --> 00:09:01.891 So che avete visto qualcosa di simile su Google 00:09:01.891 --> 00:09:04.637 dove potete digitare cose e lui vi mostra delle immagini, 00:09:04.643 --> 00:09:08.090 ma in realtà quello che fa è cercare una pagina web riferita al testo. 00:09:08.090 --> 00:09:11.091 È molto diverso dal capire davvero le immagini. 00:09:11.091 --> 00:09:13.843 È una cosa che i computer sono stati in grado di fare 00:09:13.843 --> 00:09:16.289 per la prima volta negli ultimi mesi. 00:09:16.289 --> 00:09:18.735 Vediamo che i computer non soltanto NOTE Paragraph 00:09:18.735 --> 00:09:21.182 possono vedere le immagini, possono anche leggere 00:09:21.182 --> 00:09:23.584 e ovviamente mostrare che possono comprendere quello che sentono. 00:09:23.584 --> 00:09:25.986 Forse non vi sorprenderà quello che sto per dirvi, 00:09:25.986 --> 00:09:28.381 cioè che sono in grado di scrivere. 00:09:28.381 --> 00:09:30.776 Ecco un testo che ho scritto ieri utilizzando 00:09:30.776 --> 00:09:33.172 un algoritmo di apprendimento approfondito. 00:09:33.172 --> 00:09:37.096 Ed ecco un testo che un algoritmo di Stanford ha creato. 00:09:37.096 --> 00:09:39.100 Ognuna di queste frasi è stata creata 00:09:39.100 --> 00:09:41.104 da un algoritmo di apprendimento approfondito 00:09:41.104 --> 00:09:43.263 per descrivere ognuna di queste immagini. 00:09:43.263 --> 00:09:45.422 Questo algoritmo non ha mai visto 00:09:45.422 --> 00:09:47.581 un uomo in maglietta nera che suona la chitarra. 00:09:47.581 --> 00:09:49.801 Ha già visto un uomo prima, ha già visto il nero prima, 00:09:49.801 --> 00:09:51.400 ha già visto una chitarra prima, 00:09:51.400 --> 00:09:55.694 ma ha generato in modo autonomo questa nuova descrizione di questa fotografia. 00:09:55.694 --> 00:09:59.196 Non è ancora una prestazione umana, ma ci siamo vicini. 00:09:59.196 --> 00:10:03.264 Nei test, gli uomini preferiscono un sottotitolo generato dal computer 00:10:03.264 --> 00:10:04.791 una volta su quattro. 00:10:04.791 --> 00:10:06.855 Questo sistema ha soltanto due settimane, 00:10:06.855 --> 00:10:08.701 quindi forse entro il prossimo anno 00:10:08.701 --> 00:10:11.502 l'algoritmo informatico sarà oltre la prestazione umana 00:10:11.502 --> 00:10:13.364 alla velocità con cui vanno le cose. 00:10:13.364 --> 00:10:16.413 I computer possono anche scrivere. NOTE Paragraph 00:10:16.413 --> 00:10:19.888 Abbiamo messo tutto insieme e ci ha portato ad opportunità emozionanti. 00:10:19.888 --> 00:10:21.380 Per esempio in medicina 00:10:21.380 --> 00:10:23.905 un gruppo di Boston ha annunciato che ha scoperto 00:10:23.905 --> 00:10:26.854 dozzine di caratteristiche dei tumori clinicamente rilevanti 00:10:26.854 --> 00:10:31.120 che aiutano i medici nel fare una prognosi del cancro. 00:10:31.130 --> 00:10:34.516 Analogamente, a Stanford 00:10:34.516 --> 00:10:38.179 un gruppo ha annunciato che osservando i tessuti ingranditi 00:10:38.179 --> 00:10:40.560 hanno sviluppato un sistema basato sull'apprendimento automatico 00:10:40.560 --> 00:10:43.142 che è migliore dei patologi umani 00:10:43.142 --> 00:10:47.519 nel predire le percentuali di sopravvivenza nei malati di cancro. 00:10:47.519 --> 00:10:50.764 In entrambi i casi non solo le previsioni sono più accurate 00:10:50.764 --> 00:10:53.266 ma generano una nuova scienza intelligente. 00:10:53.276 --> 00:10:54.781 Nel caso della radiologia 00:10:54.781 --> 00:10:57.876 sono nuovi indicatori clinici che gli umani possono comprendere. 00:10:57.876 --> 00:10:59.668 Nel caso di questa patologia 00:10:59.668 --> 00:11:04.168 il sistema informatico ha scoperto che le cellule intorno al cancro 00:11:04.168 --> 00:11:07.508 sono importanti quanto le cellule tumorali stesse 00:11:07.508 --> 00:11:09.260 per fare una diagnosi. 00:11:09.260 --> 00:11:14.621 È il contrario di quanto è stato insegnato ai patologi per decenni. 00:11:14.621 --> 00:11:17.913 In ognuno dei due casi sono sistemi sviluppati 00:11:17.913 --> 00:11:20.033 da una combinazione di esperti in medicina 00:11:20.033 --> 00:11:22.153 e di esperti in apprendimento automatico 00:11:22.153 --> 00:11:24.275 ma a partire dallo scorso anno siamo andati anche oltre. 00:11:24.275 --> 00:11:27.824 Questo è un esempio di identificazione delle aree tumorali 00:11:27.824 --> 00:11:30.354 di un tessuto umano al microscopio. 00:11:30.354 --> 00:11:34.967 Questo sistema può identificare le aree con maggiore accuratezza 00:11:34.967 --> 00:11:37.022 o con la stessa accuratezza di un patologo umano 00:11:37.022 --> 00:11:38.392 ma è stato costruito interamente 00:11:38.392 --> 00:11:39.762 con l'apprendimento approfondito 00:11:39.762 --> 00:11:41.134 senza utilizzare la competenza medica 00:11:41.134 --> 00:11:44.090 da persone che non hanno alcuna competenza in questo settore. 00:11:44.090 --> 00:11:46.377 Analogamente qui c'è la segmentazione di un neurone. 00:11:46.377 --> 00:11:48.664 Ora siamo in grado di segmentare 00:11:48.664 --> 00:11:50.953 i neuroni con la stessa accuratezza degli uomini, 00:11:50.953 --> 00:11:53.670 ma questo sistema è stato sviluppato con l'apprendimento approfondito 00:11:53.670 --> 00:11:56.921 da persone con nessuna competenza in medicina. NOTE Paragraph 00:11:56.921 --> 00:12:00.148 Io stesso, da persona senza alcuna competenza in medicina, 00:12:00.148 --> 00:12:03.875 sono pienamente qualificato per iniziare una nuova società medica, 00:12:03.875 --> 00:12:06.021 cosa che ho fatto. 00:12:06.021 --> 00:12:07.761 Ero piuttosto spaventato nel farlo 00:12:07.761 --> 00:12:10.650 ma la teoria sembrava suggerire che era possibile 00:12:10.650 --> 00:12:16.142 fare medicina molto utile utilizzando soltanto queste tecniche di analisi dati. 00:12:16.142 --> 00:12:18.622 Fortunatamente abbiamo avuto un fantastico riscontro 00:12:18.622 --> 00:12:20.978 non soltanto dai media, ma anche dalla comunità medica, 00:12:20.978 --> 00:12:23.322 che è stata di grande supporto. 00:12:23.322 --> 00:12:27.471 La teoria è che possiamo prendere la parte centrale di un processo medico 00:12:27.471 --> 00:12:30.364 e trasformarla in un analisi di dati per quanto possibile, 00:12:30.364 --> 00:12:33.429 lasciando i medici a fare quel che fanno meglio. 00:12:33.429 --> 00:12:35.031 Voglio farvi un esempio. 00:12:35.031 --> 00:12:39.975 Ad oggi occorrono 15 minuti per produrre un nuovo test medico diagnostico, 00:12:39.975 --> 00:12:41.929 io ve lo mostrerò in tempo reale, 00:12:41.929 --> 00:12:45.416 ma l'ho compresso a tre minuti eliminando qualche parte. 00:12:45.416 --> 00:12:48.477 Invece di farvi vedere la creazione di un test medico diagnostico 00:12:48.477 --> 00:12:51.846 sto per mostrarvi un test diagnostico con immagini di auto, 00:12:51.846 --> 00:12:54.068 perché è qualcosa che possiamo comprendere tutti. NOTE Paragraph 00:12:54.068 --> 00:12:57.269 Quindi inizieremo con circa un milione e mezzo di immagini di auto 00:12:57.269 --> 00:13:00.475 e voglio creare qualcosa che le suddivida per l'angolazione 00:13:00.475 --> 00:13:02.698 con cui sono state scattate le fotografie. 00:13:02.698 --> 00:13:06.586 Queste immagini non sono etichettate, quindi dovrò cominciare da zero. 00:13:06.586 --> 00:13:08.443 Con il nostro algoritmo per l'apprendimento approfondito 00:13:08.443 --> 00:13:10.300 si possono identificare automaticamente 00:13:10.300 --> 00:13:12.158 le aree delle strutture in queste immagini. 00:13:12.158 --> 00:13:15.778 La cosa bella è che l'uomo e il computer possono lavorare insieme. 00:13:15.778 --> 00:13:17.956 L'uomo, come potete vedere qui, 00:13:17.956 --> 00:13:20.631 sta spiegando al computer le aree di interesse 00:13:20.631 --> 00:13:23.613 che vuole che il computer utilizzi per migliorare l'algoritmo. 00:13:23.613 --> 00:13:26.595 In realtà questi sistemi di apprendimento approfondito 00:13:26.595 --> 00:13:29.577 sono in uno spazio di 16 000 dimensioni 00:13:29.577 --> 00:13:33.009 così potete vedere qui il computer che lo ruota attraverso quello spazio 00:13:33.009 --> 00:13:35.001 cercando di trovare nuove aree di struttura. 00:13:35.001 --> 00:13:36.782 Quando ci riesce 00:13:36.782 --> 00:13:40.786 l'uomo che lo sta guidando può poi segnalare le aree interessanti. 00:13:40.786 --> 00:13:43.208 Qui il computer ha trovato con successo le aree 00:13:43.208 --> 00:13:45.770 ad esempio, gli spigoli. 00:13:45.770 --> 00:13:47.376 Durante questo processo 00:13:47.376 --> 00:13:49.904 stiamo dicendo gradualmente al computer sempre di più 00:13:49.904 --> 00:13:52.144 sul tipo di strutture che stiamo cercando. 00:13:52.144 --> 00:13:53.851 Potete immaginare in un test diagnostico 00:13:53.851 --> 00:13:55.558 che questo potrebbe essere un patologo che identifica 00:13:55.558 --> 00:13:57.266 le aree malate, oppure ad esempio 00:13:57.266 --> 00:14:02.292 un radiologo che indica i noduli potenzialmente problematici. 00:14:02.292 --> 00:14:04.851 Talvolta può essere difficile per l'algoritmo. 00:14:04.851 --> 00:14:06.815 Qui è in un qualche modo confuso. 00:14:06.815 --> 00:14:09.365 Le immagini della parte anteriore e posteriore delle auto sono mescolate. 00:14:09.365 --> 00:14:11.437 In questo caso dobbiamo essere un po' più cauti, 00:14:11.437 --> 00:14:14.669 selezionando le parti anteriori come opposte alle parti posteriori. 00:14:14.669 --> 00:14:20.175 e dicendo al computer che questo è il tipo di gruppo 00:14:20.175 --> 00:14:21.523 a cui siamo interessati. NOTE Paragraph 00:14:21.523 --> 00:14:24.200 Lo facciamo per un po', tralasciando qualcosa, 00:14:24.200 --> 00:14:26.446 così addestriamo l'algoritmo per l'apprendimento automatico 00:14:26.446 --> 00:14:28.420 basandoci su queste coppie di centinaia di cose 00:14:28.420 --> 00:14:30.445 sperando che il risultato sia migliore. 00:14:30.445 --> 00:14:33.518 Potete vedere che sta iniziando a dissolvere alcune di queste fotografie 00:14:33.518 --> 00:14:38.226 mostrandoci che sta già riconoscendo come capire da solo alcune di queste. 00:14:38.226 --> 00:14:41.128 Possiamo utilizzare questo concetto di immagini simili, 00:14:41.128 --> 00:14:43.222 e utilizzando immagini simili, come potete vedere. 00:14:43.222 --> 00:14:47.241 il computer a questo punto è in grado di trovare la parte anteriore delle auto. 00:14:47.241 --> 00:14:50.189 A questo punto l'uomo può dire al computer 00:14:50.189 --> 00:14:52.462 va bene, hai fatto un buon lavoro. NOTE Paragraph 00:14:52.462 --> 00:14:55.837 Talvolta, ovviamente, persino a questo punto 00:14:55.837 --> 00:14:58.356 è ancora difficile separare i gruppi. 00:14:58.356 --> 00:15:00.875 In questo caso anche dopo aver lasciato 00:15:00.875 --> 00:15:03.395 il computer a provare a ruotarlo per un po' 00:15:03.399 --> 00:15:06.744 troveremo ancora che le immagini dei lati sinistri e dei lati destri 00:15:06.744 --> 00:15:08.222 sono tutte mescolate. 00:15:08.222 --> 00:15:10.362 Così possiamo dare ulteriori indicazioni al computer 00:15:10.362 --> 00:15:13.338 e dire, va bene, prova a trovare una proiezione per separare 00:15:13.338 --> 00:15:15.945 i lati sinistri da quelli destri per quanto possibile 00:15:15.945 --> 00:15:18.067 utilizzando questo algoritmo di apprendimento approfondito. 00:15:18.067 --> 00:15:21.009 Dandogli quel suggerimento -- ecco, c'è riuscito. 00:15:21.009 --> 00:15:23.891 È riuscito a trovare un modo per pensare a questi oggetti 00:15:23.891 --> 00:15:26.271 separandoli dagli altri. NOTE Paragraph 00:15:26.271 --> 00:15:28.709 Vi state facendo un'idea. 00:15:28.709 --> 00:15:36.906 Questo non è un caso in cui l'uomo è rimpiazzato dal computer, 00:15:36.906 --> 00:15:39.546 ma uno in cui lavorano insieme. 00:15:39.546 --> 00:15:43.096 Quello che stiamo facendo qui è sostituire qualcosa per il quale serviva una squadra 00:15:43.096 --> 00:15:45.098 di cinque o sei persone per circa sette anni 00:15:45.098 --> 00:15:47.703 e sostituirlo con qualcosa che impiega 15 minuti 00:15:47.703 --> 00:15:50.208 e una persona che lavora da sola. NOTE Paragraph 00:15:50.208 --> 00:15:54.158 Questo processo richiede all'incirca quattro o cinque ripetizioni. 00:15:54.158 --> 00:15:56.017 Potete vedere che adesso abbiamo il 62 per cento 00:15:56.017 --> 00:15:58.976 del nostro milione e mezzo di immagini classificato correttamente. 00:15:58.976 --> 00:16:01.448 A questo punto possiamo iniziare a prendere piuttosto 00:16:01.448 --> 00:16:02.745 velocemente grandi sezioni, 00:16:02.745 --> 00:16:05.664 controllarle per essere sicuri che non ci siano errori. 00:16:05.664 --> 00:16:09.616 Dove ci sono errori, possiamo farlo sapere al computer. 00:16:09.616 --> 00:16:12.661 Utilizzando questo tipo di processo per ognuno dei diversi gruppi 00:16:12.661 --> 00:16:15.148 siamo vicini ad un tasso di successo dell'80 per cento 00:16:15.148 --> 00:16:17.563 nel classificare un milione e mezzo di immagini. 00:16:17.563 --> 00:16:19.641 A questo punto è solo si tratta solo 00:16:19.641 --> 00:16:23.220 di trovare trova la piccola parte che non è classificata correttamente 00:16:23.220 --> 00:16:26.108 e si cerca di capire perché. 00:16:26.108 --> 00:16:27.851 Usando questo approccio 00:16:27.851 --> 00:16:31.972 in 15 minuti arriviamo a un tasso di classificazione del 97 per cento. NOTE Paragraph 00:16:31.972 --> 00:16:36.572 Questo tipo di tecnica può permetterci di risolvere un problema più grande, 00:16:36.578 --> 00:16:38.753 cioè che c'è una mancanza di competenza medica nel mondo. 00:16:38.753 --> 00:16:40.928 Il Forum Economico Mondiale riporta che ci sono 00:16:40.928 --> 00:16:43.103 dalle 10 alle 20 volte meno medici del necessario 00:16:43.103 --> 00:16:45.727 nei paesi in via di sviluppo 00:16:45.727 --> 00:16:47.840 e serviranno circa 300 anni 00:16:47.840 --> 00:16:50.734 per formare abbastanza persone per risolvere il problema. 00:16:50.734 --> 00:16:53.619 Quindi immaginate se potessimo aiutare a migliorare la loro efficacia 00:16:53.619 --> 00:16:56.458 utilizzando l'approccio con questo apprendimento approfondito? NOTE Paragraph 00:16:56.458 --> 00:16:58.690 Sono davvero entusiasta di questa opportunità. 00:16:58.690 --> 00:17:01.279 Sono anche preoccupato per i problemi. 00:17:01.279 --> 00:17:04.403 Il problema è che ogni area in blu su questa mappa 00:17:04.403 --> 00:17:08.172 indica un posto dove i servizi sono oltre l'80 per cento del lavoro. 00:17:08.172 --> 00:17:09.959 Cosa sono i servizi? 00:17:09.959 --> 00:17:11.473 Questi sono i servizi. 00:17:11.473 --> 00:17:15.627 Questi sono anche proprio quello che i computer hanno appena imparato a fare. 00:17:15.627 --> 00:17:19.431 Così l'80 per cento dell'occupazione mondiale nel mondo sviluppato 00:17:19.431 --> 00:17:21.963 è in qualcosa che i computer hanno appena imparato a fare. 00:17:21.963 --> 00:17:23.403 Cosa significa tutto ciò? 00:17:23.403 --> 00:17:25.986 Che andrà tutto bene. Saranno sostituiti da altri lavori. 00:17:25.986 --> 00:17:28.693 Ad esempio ci sarà più lavoro per i data scientist. 00:17:28.693 --> 00:17:29.510 Veramente no. 00:17:29.510 --> 00:17:32.628 Non occorrono molti data scientist per costruire questi. 00:17:32.628 --> 00:17:35.880 Ad esempio questi quattro algoritmi sono stati creati dalla stessa persona. 00:17:35.880 --> 00:17:38.318 Così se pensate: è già accaduto prima 00:17:38.318 --> 00:17:42.126 abbiamo visto in passato i risultati di quando arrivano novità 00:17:42.126 --> 00:17:44.378 e vengono sostituite da nuovi lavori, 00:17:44.378 --> 00:17:46.494 ma come saranno questi nuovi lavori? 00:17:46.494 --> 00:17:48.365 È molto difficile per noi prevederlo 00:17:48.365 --> 00:17:51.104 perché la conoscenza umana cresce ad un tasso graduale, 00:17:51.104 --> 00:17:53.666 mentre ora che abbiamo questo sistema di apprendimento approfondito 00:17:53.666 --> 00:17:56.893 che sappiamo che ha una conoscenza che cresce a livello esponenziale. 00:17:56.893 --> 00:17:58.498 Siamo qui. 00:17:58.498 --> 00:18:00.077 Attualmente vediamo le cose intorno a noi 00:18:00.077 --> 00:18:01.656 e diciamo: "I computer sono ancora piuttosto stupidi" 00:18:01.656 --> 00:18:03.235 Giusto? 00:18:03.235 --> 00:18:06.664 Ma fra cinque anni saranno fuori da questo diagramma. 00:18:06.664 --> 00:18:10.529 Così dobbiamo iniziare a pensare a questa capacità proprio adesso. NOTE Paragraph 00:18:10.529 --> 00:18:12.579 L'abbiamo già visto, ovviamente. 00:18:12.579 --> 00:18:13.966 Nella Rivoluzione Industriale 00:18:13.966 --> 00:18:17.137 abbiamo visto un cambio di passo nella capacità grazie al motore. 00:18:17.157 --> 00:18:20.805 Il punto è tuttavia che dopo un po' le cose si sono appiattite. 00:18:20.805 --> 00:18:22.507 Ci sono stati disordini sociali, 00:18:22.507 --> 00:18:25.946 ma una volta che il motore è stato usato per generare energia in ogni situazione 00:18:25.946 --> 00:18:28.300 le cose si sono assestate. 00:18:28.300 --> 00:18:29.773 La Rivoluzione dell'Apprendimento Automatico 00:18:29.773 --> 00:18:32.682 sarà molto diversa dalla Rivoluzione Industriale 00:18:32.682 --> 00:18:35.632 perché la Rivoluzione dell'Apprendimento Automatico non si assesterà. 00:18:35.632 --> 00:18:38.042 Più i computer miglioreranno le attività intellettuali 00:18:38.042 --> 00:18:40.452 più si potranno costruire computer migliori 00:18:40.452 --> 00:18:42.862 che miglioreranno le capacità intellettuali, 00:18:42.862 --> 00:18:44.770 quindi questo sarà un cambiamento 00:18:44.770 --> 00:18:47.248 che il mondo non ha davvero mai sperimentato prima 00:18:47.248 --> 00:18:50.554 quindi la vostra comprensione precedente su quel che è possibile, è diverso. NOTE Paragraph 00:18:50.974 --> 00:18:52.754 Sta già avendo un impatto su di noi. 00:18:52.754 --> 00:18:56.384 Negli ultimi 25 anni la produttività del capitale è cresciuta, 00:18:56.400 --> 00:19:00.588 la produttività del lavoro è rimasta uguale, è persino calata un po'. NOTE Paragraph 00:19:01.408 --> 00:19:04.149 Quindi voglio che iniziamo a discuterne sin da adesso. 00:19:04.149 --> 00:19:07.176 So che spesso quando parlo alle persone di questa situazione 00:19:07.176 --> 00:19:08.666 le persone sono piuttosto sprezzanti. 00:19:08.666 --> 00:19:10.339 Del resto i computer non possono veramente pensare, 00:19:10.339 --> 00:19:13.367 non hanno emozioni, non comprendono la poesia, 00:19:13.367 --> 00:19:15.888 non capiamo davvero come funzionano. 00:19:15.888 --> 00:19:17.374 Quindi? 00:19:17.374 --> 00:19:19.668 Già adesso i computer possono fare cose 00:19:19.668 --> 00:19:21.897 per fare le quali le persone vengono pagate, 00:19:21.897 --> 00:19:23.628 quindi è tempo di iniziare a pensare 00:19:23.628 --> 00:19:28.015 a come dovremo modificare le nostre strutture sociali ed economiche 00:19:28.015 --> 00:19:29.855 per diventare consapevoli di questa nuova realtà. 00:19:29.855 --> 00:19:31.388 Grazie. 00:19:31.388 --> 00:19:32.190 (Applausi)