WEBVTT

00:00:00.880 --> 00:00:04.893
Un tempo se volevate 
far fare qualcosa di nuovo ad un computer

00:00:04.893 --> 00:00:06.447
dovevate programmarlo.

00:00:06.447 --> 00:00:09.858
La programmazione, per quelli di voi 
che non l'hanno mai provata,

00:00:09.858 --> 00:00:13.360
richiede una spiegazione dettagliata

00:00:13.360 --> 00:00:16.727
di ogni singolo passaggio che volete 
che il computer faccia

00:00:16.727 --> 00:00:19.089
per ottenere il vostro scopo.

00:00:19.089 --> 00:00:22.585
Se volete fare qualcosa 
che nemmeno voi sapete come si faccia,

00:00:22.585 --> 00:00:24.648
potrebbe essere una sfida eccezionale.

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
Questa è la sfida affrontata 
da quest'uomo, Arthur Samuel.

00:00:28.131 --> 00:00:32.208
Nel 1956 voleva che il suo computer

00:00:32.208 --> 00:00:34.548
fosse in grado di batterlo a dama.

00:00:34.548 --> 00:00:36.588
Come si può scrivere un programma

00:00:36.588 --> 00:00:40.394
che spieghi in modo dettagliato 
come essere migliori di voi a dama?

00:00:40.394 --> 00:00:42.116
Ebbe un'idea:

00:00:42.116 --> 00:00:45.840
fece giocare il computer 
contro sé stesso migliaia di volte

00:00:45.840 --> 00:00:48.364
per imparare a giocare a dama.

00:00:48.364 --> 00:00:51.544
E ha davvero funzionato, 
infatti nel 1962

00:00:51.544 --> 00:00:55.561
questo computer ha battuto 
il campione del Connecticut.

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
Così Arthur Samuel è stato 
il padre dell'apprendimento automatico,

00:00:58.534 --> 00:01:00.251
ed ho un grande debito con lui,

00:01:00.251 --> 00:01:03.014
perché sono un professionista 
dell'apprendimento automatico.

00:01:03.014 --> 00:01:04.488
Sono stato il presidente di Kaggle

00:01:04.488 --> 00:01:05.962
una comunità di oltre 200 000

00:01:05.962 --> 00:01:08.257
professionisti 
dell'apprendimento automatico.

00:01:08.257 --> 00:01:09.925
Kaggle crea delle competizioni

00:01:09.925 --> 00:01:13.633
per cercare di risolvere 
problemi irrisolti

00:01:13.633 --> 00:01:16.870
e ce l'ha fatta
centinaia di volte.

00:01:16.870 --> 00:01:19.303
Da questo punto di osservazione 
sono stato in grado di scoprire

00:01:19.303 --> 00:01:21.736
molto su quanto l'apprendimento automatico

00:01:21.736 --> 00:01:24.170
ha potuto fare in passato, 
su quel che può fare oggi,

00:01:24.170 --> 00:01:26.421
e su cosa potrà fare in futuro.

00:01:26.421 --> 00:01:29.592
Probabilmente il primo grande successo 
dell'apprendimento automatico

00:01:29.592 --> 00:01:30.925
in commercio è stato Google.

00:01:30.925 --> 00:01:33.784
Google ha mostrato che 
è possibile trovare informazioni

00:01:33.784 --> 00:01:35.536
usando un algoritmo informatico,

00:01:35.536 --> 00:01:38.437
un algoritmo basato 
sull'apprendimento automatico.

00:01:38.437 --> 00:01:42.323
Da allora ci sono stati numerosi successi 
commerciali nell'apprendimento automatico.

00:01:42.323 --> 00:01:44.174
Società quali Amazon e Netflix

00:01:44.174 --> 00:01:46.025
usano l'apprendimento automatico 
per suggerire

00:01:46.025 --> 00:01:47.876
prodotti che potreste voler acquistare,

00:01:47.876 --> 00:01:49.896
film che potreste voler vedere.

00:01:49.896 --> 00:01:51.703
A volte è quasi inquietante.

00:01:51.703 --> 00:01:53.657
Società come Linkedin e Facebook

00:01:53.657 --> 00:01:56.251
talvolta vi diranno 
chi potrebbe essere vostro amico

00:01:56.251 --> 00:01:58.228
e non avete idea di come ci riescano

00:01:58.228 --> 00:02:01.195
e questo perché stanno utilizzando 
l'apprendimento automatico.

00:02:01.195 --> 00:02:04.152
Sono algoritmi che hanno imparato 
tutto questo dai dati

00:02:04.152 --> 00:02:07.399
invece che dalla programmazione manuale.

NOTE Paragraph

00:02:07.399 --> 00:02:09.877
La IBM è riuscita in questo modo

00:02:09.877 --> 00:02:13.739
a far sì che Watson battesse 
due campioni mondiali di "Jeopardy"

00:02:13.739 --> 00:02:16.859
rispondendo a domande incredibilmente 
acute e complesse come queste.

00:02:16.859 --> 00:02:19.469
["L'antico leone di Nimrud" è scomparso 
dal museo nazionale di questa città nel 2003 
(insieme ad altro materiale)"]

00:02:19.469 --> 00:02:23.034
Ed ecco perché siamo in grado di vedere 
la prima auto che si guida da sola.

00:02:23.034 --> 00:02:25.856
Se vogliamo essere in grado di dire 
la differenza tra, diciamo,

00:02:25.856 --> 00:02:28.488
un albero ed un pedone, 
allora questo è piuttosto importante.

00:02:28.488 --> 00:02:31.075
Non sappiamo come scrivere 
questi programmi manualmente

00:02:31.075 --> 00:02:34.072
ma con l'apprendimento automatico 
adesso è possibile.

00:02:34.072 --> 00:02:36.680
Questa auto ha guidato 
per oltre un milione di chilometri,

00:02:36.680 --> 00:02:40.186
su strada normale, senza alcun incidente.

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
Adesso sappiamo che i computer 
possono imparare,

00:02:44.110 --> 00:02:45.988
i computer possono imparare a fare cose

00:02:45.988 --> 00:02:48.848
che nemmeno noi non sappiamo fare,

00:02:48.848 --> 00:02:51.733
o che magari possono fare meglio di noi.

00:02:51.733 --> 00:02:55.928
Uno degli esempi più impressionanti 
di apprendimento automatico che ho visto

00:02:55.928 --> 00:02:58.320
è stato durante un progetto 
che ho condotto a Kaggle

00:02:58.320 --> 00:03:01.911
dove un gruppo guidato da un tipo 
chiamato Geoffrey Hinton

00:03:01.911 --> 00:03:03.463
dell'università di Toronto

00:03:03.463 --> 00:03:06.250
ha vinto una competizione 
per la scoperta automatica di droghe.

00:03:06.250 --> 00:03:08.987
La cosa straordinaria qui, 
non è soltanto che hanno battuto

00:03:08.987 --> 00:03:12.011
tutti gli algoritmi sviluppati da Merck 
o dalla comunità accademica internazionale

00:03:12.011 --> 00:03:15.035
ma il fatto che nessuno nella squadra 
avesse mai avuto

00:03:15.035 --> 00:03:18.061
esperienza in chimica o in biologia 
o in scienze biologiche

00:03:18.061 --> 00:03:20.230
e l'hanno fatto in due settimane.

00:03:20.230 --> 00:03:21.591
Come ci sono riusciti?

00:03:21.591 --> 00:03:25.342
Hanno utilizzato un algoritmo fenomenale 
chiamato apprendimento approfondito.

00:03:25.342 --> 00:03:28.651
Questo successo è stato così importante 
da essere stato pubblicato in un articolo

00:03:28.651 --> 00:03:31.412
nella prima pagina del New York Times 
poche settimane dopo.

00:03:31.412 --> 00:03:33.770
Questo qui a sinistra è Geoffrey Hinton.

00:03:33.770 --> 00:03:36.128
Apprendimento approfondito è un algoritmo

00:03:36.128 --> 00:03:38.488
ispirato al funzionamento 
del cervello umano

00:03:38.488 --> 00:03:40.300
che ha come risultato un algoritmo

00:03:40.300 --> 00:03:44.141
che non ha limiti teorici 
su quel che può fare.

00:03:44.141 --> 00:03:46.964
Più dati gli si forniscono 
e più tempo di calcolo gli si dà,

00:03:46.964 --> 00:03:48.276
meglio funziona.

NOTE Paragraph

00:03:48.276 --> 00:03:49.803
Il New York Times ha anche spiegato 
in questo articolo

00:03:49.803 --> 00:03:51.330
un altro straordinario

00:03:51.330 --> 00:03:52.857
risultato dell'apprendimento approfondito

00:03:52.857 --> 00:03:55.569
che sto per mostrarvi.

00:03:55.569 --> 00:04:00.510
Mostra che i computer 
possono ascoltare e capire.

NOTE Paragraph

00:04:00.510 --> 00:04:03.221
(Video) Richard Rashid: l'ultimo passo

00:04:03.221 --> 00:04:06.246
che voglio essere in grado 
di compiere in questo processo

00:04:06.246 --> 00:04:10.961
è di parlarvi veramente in cinese.

00:04:10.961 --> 00:04:13.506
Il punto chiave qui

00:04:13.506 --> 00:04:16.051
è che siamo stati in grado 
di prendere una gran quantità

00:04:16.051 --> 00:04:18.598
di informazioni 
da numerosi parlanti cinesi

00:04:18.598 --> 00:04:21.128
per produrre un sistema da testo a voce

00:04:21.128 --> 00:04:25.801
che prende il testo cinese 
e lo converte in lingua cinese

00:04:25.801 --> 00:04:29.929
e abbiamo preso 
più o meno un'ora della mia stessa voce

00:04:29.929 --> 00:04:31.820
e l'abbiamo utilizzata per modulare

00:04:31.820 --> 00:04:36.364
un sistema standard da testo a voce 
in modo che suoni come la mia.

00:04:36.364 --> 00:04:38.904
Il risultato non è perfetto.

00:04:38.904 --> 00:04:41.552
In realtà ci sono un po' di errori.

00:04:41.552 --> 00:04:44.036
(In cinese)

00:04:44.036 --> 00:04:47.386
(Applausi)

00:04:47.386 --> 00:04:53.022
C'è ancora molto 
da fare in questo settore.

00:04:53.022 --> 00:04:56.667
(In cinese)

00:04:56.667 --> 00:04:59.359
(Applausi)

00:04:59.359 --> 00:05:01.154
Jeremy Howard:

00:05:01.154 --> 00:05:02.350
questo è accaduto alla conferenza

NOTE Paragraph

00:05:03.546 --> 00:05:04.744
sull'apprendimento automatico in Cina.

00:05:04.744 --> 00:05:07.114
Non capita davvero spesso 
alle conferenze accademiche

00:05:07.114 --> 00:05:08.971
di sentire applausi spontanei

00:05:08.971 --> 00:05:10.828
benché ovviamente talvolta

00:05:10.828 --> 00:05:12.687
alle conferenze TEDx 
siate liberi di farlo.

00:05:12.687 --> 00:05:14.127
Tutto quello che avete visto è accaduto 
grazie all'apprendimento approfondito.

00:05:14.127 --> 00:05:15.567
(Applausi)

00:05:15.567 --> 00:05:17.007
Grazie.

00:05:17.007 --> 00:05:19.289
La trascrizione in inglese 
è apprendimento approfondito.

00:05:19.289 --> 00:05:22.701
La traduzione in cinese e il testo in alto 
a destra, apprendimento approfondito,

00:05:22.701 --> 00:05:26.008
e la costruzione della voce 
ancora apprendimento approfondito.

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
Dunque l'apprendimento approfondito 
è questa cosa straordinaria.

00:05:29.242 --> 00:05:32.341
È un singolo algoritmo che sembra 
essere in grado di fare qualsiasi cosa

00:05:32.341 --> 00:05:35.452
e ho scoperto che un anno prima
ha anche imparato a vedere.

00:05:35.452 --> 00:05:37.628
In questa sconosciuta 
competizione dalla Germania

00:05:37.628 --> 00:05:40.225
chiamata lo Standard tedesco 
per il riconoscimento dei segnali stradali

00:05:40.225 --> 00:05:43.618
l'apprendimento approfondito ha imparato 
a riconoscere segnali stradali come questo.

00:05:43.618 --> 00:05:45.712
Non solo può 
riconoscere i segnali stradali

00:05:45.712 --> 00:05:47.470
meglio di qualunque altro algoritmo

00:05:47.470 --> 00:05:50.189
la classifica dei leader mostra che 
in realtà è stato migliore delle persone,

00:05:50.189 --> 00:05:52.041
almeno il doppio delle persone.

00:05:52.041 --> 00:05:54.037
Così nel 2011 abbiamo avuto 
il primo esempio

00:05:54.037 --> 00:05:57.442
di computer che può vedere 
meglio delle persone.

00:05:57.442 --> 00:05:59.491
Da allora sono successe molte cose.

00:05:59.491 --> 00:06:03.005
Nel 2012 Google ha annunciato che 
un algoritmo di apprendimento approfondito

00:06:03.005 --> 00:06:04.420
ha guardato i video di YouTube

00:06:04.420 --> 00:06:07.857
e ha suddiviso i dati
su 16 000 computer per un mese

00:06:07.857 --> 00:06:12.218
e il computer ha imparato in modo 
autonomo concetti quali persone e gatti

00:06:12.218 --> 00:06:14.027
solo guardando i video.

00:06:14.027 --> 00:06:16.379
Assomiglia molto al modo 
di imparare degli uomini.

00:06:16.379 --> 00:06:19.119
Gli uomini non apprendono 
quando gli si dice cosa vedono,

00:06:19.119 --> 00:06:22.450
ma apprendendo da soli 
cosa sono queste cose.

00:06:22.450 --> 00:06:25.819
Anche nel 2012 Geoffrey Hinton, 
che abbiamo visto prima,

00:06:25.819 --> 00:06:28.677
ha vinto la popolarissima 
competizione ImageNet

00:06:28.677 --> 00:06:32.818
cercando di capire 
da un milione e mezzo di immagini

00:06:32.818 --> 00:06:34.256
di che cosa erano la foto.

00:06:34.256 --> 00:06:37.789
Già dal 2014 siamo a meno 
del sei percento del tasso di errore

00:06:37.789 --> 00:06:39.242
nel riconoscimento delle immagini.

00:06:39.242 --> 00:06:41.268
Ancora una volta meglio delle persone.

NOTE Paragraph

00:06:41.268 --> 00:06:45.037
Le macchine stanno davvero 
facendo un lavoro straordinario qui

00:06:45.037 --> 00:06:47.306
e verrà utilizzato nell'industria.

00:06:47.306 --> 00:06:50.348
Per esempio, 
Google lo scorso anno ha annunciato

00:06:50.348 --> 00:06:54.933
che ha mappato ogni singola 
località in Francia in due ore

00:06:54.933 --> 00:06:57.521
e lo ha fatto 
fornendo immagini di strade

00:06:57.521 --> 00:07:00.109
ad un algoritmo 
di apprendimento approfondito

00:07:00.109 --> 00:07:02.699
per riconoscere e leggere i numeri civici.

00:07:02.699 --> 00:07:04.919
Immaginate quanto 
si sarebbe impiegato prima:

00:07:04.919 --> 00:07:08.274
dozzine di persone, diversi anni.

00:07:08.274 --> 00:07:10.185
Sta accadendo anche in Cina.

00:07:10.185 --> 00:07:14.221
Baidu è una sorta 
di Google cinese, immagino,

00:07:14.221 --> 00:07:16.306
e quel che potete vedere 
in alto a sinistra

00:07:16.306 --> 00:07:18.391
è un esempio delle immagini 
che ho caricato

00:07:18.391 --> 00:07:20.478
nel sistema di apprendimento 
approfondito di Baidu,

00:07:20.478 --> 00:07:24.247
al di sotto potete vedere che il sistema 
ha capito che cos'è quell'immagine

00:07:24.247 --> 00:07:26.483
e ha trovato immagini simili.

00:07:26.483 --> 00:07:29.219
In effetti le immagini simili 
hanno sfondi simili,

00:07:29.219 --> 00:07:30.877
simili direzioni dei volti,

00:07:30.877 --> 00:07:32.665
alcuni persino con la lingua fuori.

00:07:32.665 --> 00:07:35.695
Questo non sta certamente cercando 
il testo in una pagina del web.

00:07:35.695 --> 00:07:37.107
Tutto quello che ho caricato 
è un'immagine.

00:07:37.107 --> 00:07:41.128
Così adesso abbiamo computer che 
comprendono davvero quello che vedono

00:07:41.128 --> 00:07:42.752
e che possono di conseguenza 
cercare nei database

00:07:42.752 --> 00:07:46.306
di centinaia di milioni 
di immagini in tempo reale.

NOTE Paragraph

00:07:46.306 --> 00:07:49.536
Cosa significa 
che i computer possono vedere?

00:07:49.536 --> 00:07:51.553
Non è solo che 
i computer possono vedere.

00:07:51.553 --> 00:07:53.622
Infatti l'apprendimento approfondito 
ha fatto molto più di questo.

00:07:53.622 --> 00:07:55.546
Frasi complesse e sfumate come questa

00:07:55.546 --> 00:07:57.470
adesso sono comprensibili

00:07:57.470 --> 00:07:59.394
con un algoritmo 
di apprendimento approfondito.

00:07:59.394 --> 00:08:00.697
Come potete vedere qui,

00:08:00.697 --> 00:08:03.465
questo sistema basato su Stanford 
che mostra punti rossi in cima

00:08:03.465 --> 00:08:07.384
ha capito che questa frase 
sta esprimendo un sentimento negativo.

00:08:07.384 --> 00:08:10.230
L'apprendimento approfondito 
è simile al comportamento umano

00:08:10.230 --> 00:08:13.076
nel comprendere quello di cui tratta

00:08:13.076 --> 00:08:15.923
la frase e che cosa sta dicendo 
su queste cose.

00:08:15.923 --> 00:08:18.651
L'apprendimento approfondito 
è stato utilizzato per leggere il cinese

00:08:18.651 --> 00:08:21.807
ad un livello simile 
a quello di un madrelingua.

00:08:21.807 --> 00:08:23.975
Questo algoritmo è stato sviluppato 
in Svizzera

00:08:23.975 --> 00:08:27.331
da persone che non parlavano 
o capivano il cinese.

00:08:27.331 --> 00:08:29.382
Come ho detto, l'uso 
dell'apprendimento approfondito

00:08:29.382 --> 00:08:31.601
è praticamente il sistema migliore 
del mondo per fare questo,

00:08:31.601 --> 00:08:36.718
anche paragonato 
alla conoscenza umana.

NOTE Paragraph

00:08:36.718 --> 00:08:39.682
Questo è il sistema che abbiamo 
messo a punto nella mia azienda,

00:08:39.682 --> 00:08:41.728
che mostra come mettere 
tutto questo materiale insieme.

00:08:41.728 --> 00:08:44.189
Queste immagini non hanno 
alcun testo allegato

00:08:44.189 --> 00:08:46.541
e mentre sto digitando queste frasi

00:08:46.541 --> 00:08:49.510
in tempo reale sta capendo 
queste immagini

00:08:49.510 --> 00:08:51.189
e immaginando cosa riguardano

00:08:51.189 --> 00:08:54.352
e trovando immagini simili 
al testo che sto scrivendo.

00:08:54.352 --> 00:08:57.108
Come potete vedere, sta effettivamente 
capendo le mie frasi

00:08:57.108 --> 00:08:59.332
e sta realmente comprendendo 
queste immagini.

00:08:59.332 --> 00:09:01.891
So che avete visto 
qualcosa di simile su Google

00:09:01.891 --> 00:09:04.637
dove potete digitare cose 
e lui vi mostra delle immagini,

00:09:04.643 --> 00:09:08.090
ma in realtà quello che fa è 
cercare una pagina web riferita al testo.

00:09:08.090 --> 00:09:11.091
È molto diverso 
dal capire davvero le immagini.

00:09:11.091 --> 00:09:13.843
È una cosa che i computer 
sono stati in grado di fare

00:09:13.843 --> 00:09:16.289
per la prima volta negli ultimi mesi.

00:09:16.289 --> 00:09:18.735
Vediamo che i computer non soltanto

NOTE Paragraph

00:09:18.735 --> 00:09:21.182
possono vedere le immagini, 
possono anche leggere

00:09:21.182 --> 00:09:23.584
e ovviamente mostrare che possono 
comprendere quello che sentono.

00:09:23.584 --> 00:09:25.986
Forse non vi sorprenderà 
quello che sto per dirvi,

00:09:25.986 --> 00:09:28.381
cioè che sono in grado di scrivere.

00:09:28.381 --> 00:09:30.776
Ecco un testo 
che ho scritto ieri utilizzando

00:09:30.776 --> 00:09:33.172
un algoritmo 
di apprendimento approfondito.

00:09:33.172 --> 00:09:37.096
Ed ecco un testo che un algoritmo 
di Stanford ha creato.

00:09:37.096 --> 00:09:39.100
Ognuna di queste frasi è stata creata

00:09:39.100 --> 00:09:41.104
da un algoritmo 
di apprendimento approfondito

00:09:41.104 --> 00:09:43.263
per descrivere ognuna di queste immagini.

00:09:43.263 --> 00:09:45.422
Questo algoritmo non ha mai visto

00:09:45.422 --> 00:09:47.581
un uomo in maglietta nera 
che suona la chitarra.

00:09:47.581 --> 00:09:49.801
Ha già visto un uomo prima, 
ha già visto il nero prima,

00:09:49.801 --> 00:09:51.400
ha già visto una chitarra prima,

00:09:51.400 --> 00:09:55.694
ma ha generato in modo autonomo questa 
nuova descrizione di questa fotografia.

00:09:55.694 --> 00:09:59.196
Non è ancora una prestazione umana, 
ma ci siamo vicini.

00:09:59.196 --> 00:10:03.264
Nei test, gli uomini preferiscono 
un sottotitolo generato dal computer

00:10:03.264 --> 00:10:04.791
una volta su quattro.

00:10:04.791 --> 00:10:06.855
Questo sistema ha soltanto due settimane,

00:10:06.855 --> 00:10:08.701
quindi forse entro il prossimo anno

00:10:08.701 --> 00:10:11.502
l'algoritmo informatico sarà 
oltre la prestazione umana

00:10:11.502 --> 00:10:13.364
alla velocità con cui vanno le cose.

00:10:13.364 --> 00:10:16.413
I computer possono anche scrivere.

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
Abbiamo messo tutto insieme e ci ha
portato ad opportunità emozionanti.

00:10:19.888 --> 00:10:21.380
Per esempio in medicina

00:10:21.380 --> 00:10:23.905
un gruppo di Boston 
ha annunciato che ha scoperto

00:10:23.905 --> 00:10:26.854
dozzine di caratteristiche dei tumori 
clinicamente rilevanti

00:10:26.854 --> 00:10:31.120
che aiutano i medici nel fare 
una prognosi del cancro.

00:10:31.130 --> 00:10:34.516
Analogamente, a Stanford

00:10:34.516 --> 00:10:38.179
un gruppo ha annunciato 
che osservando i tessuti ingranditi

00:10:38.179 --> 00:10:40.560
hanno sviluppato un sistema basato 
sull'apprendimento automatico

00:10:40.560 --> 00:10:43.142
che è migliore dei patologi umani

00:10:43.142 --> 00:10:47.519
nel predire le percentuali 
di sopravvivenza nei malati di cancro.

00:10:47.519 --> 00:10:50.764
In entrambi i casi non solo 
le previsioni sono più accurate

00:10:50.764 --> 00:10:53.266
ma generano una nuova 
scienza intelligente.

00:10:53.276 --> 00:10:54.781
Nel caso della radiologia

00:10:54.781 --> 00:10:57.876
sono nuovi indicatori clinici 
che gli umani possono comprendere.

00:10:57.876 --> 00:10:59.668
Nel caso di questa patologia

00:10:59.668 --> 00:11:04.168
il sistema informatico ha scoperto 
che le cellule intorno al cancro

00:11:04.168 --> 00:11:07.508
sono importanti quanto 
le cellule tumorali stesse

00:11:07.508 --> 00:11:09.260
per fare una diagnosi.

00:11:09.260 --> 00:11:14.621
È il contrario di quanto è stato 
insegnato ai patologi per decenni.

00:11:14.621 --> 00:11:17.913
In ognuno dei due casi 
sono sistemi sviluppati

00:11:17.913 --> 00:11:20.033
da una combinazione 
di esperti in medicina

00:11:20.033 --> 00:11:22.153
e di esperti 
in apprendimento automatico

00:11:22.153 --> 00:11:24.275
ma a partire dallo scorso anno
siamo andati anche oltre.

00:11:24.275 --> 00:11:27.824
Questo è un esempio 
di identificazione delle aree tumorali

00:11:27.824 --> 00:11:30.354
di un tessuto umano al microscopio.

00:11:30.354 --> 00:11:34.967
Questo sistema può identificare 
le aree con maggiore accuratezza

00:11:34.967 --> 00:11:37.022
o con la stessa accuratezza 
di un patologo umano

00:11:37.022 --> 00:11:38.392
ma è stato costruito interamente

00:11:38.392 --> 00:11:39.762
con l'apprendimento approfondito

00:11:39.762 --> 00:11:41.134

senza utilizzare la competenza medica

00:11:41.134 --> 00:11:44.090
da persone che non hanno 
alcuna competenza in questo settore.

00:11:44.090 --> 00:11:46.377
Analogamente qui c'è 
la segmentazione di un neurone.

00:11:46.377 --> 00:11:48.664
Ora siamo in grado di segmentare

00:11:48.664 --> 00:11:50.953
i neuroni con la stessa 
accuratezza degli uomini,

00:11:50.953 --> 00:11:53.670
ma questo sistema è stato sviluppato 
con l'apprendimento approfondito

00:11:53.670 --> 00:11:56.921
da persone con nessuna 
competenza in medicina.

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
Io stesso, da persona 
senza alcuna competenza in medicina,

00:12:00.148 --> 00:12:03.875
sono pienamente qualificato 
per iniziare una nuova società medica,

00:12:03.875 --> 00:12:06.021
cosa che ho fatto.

00:12:06.021 --> 00:12:07.761
Ero piuttosto spaventato nel farlo

00:12:07.761 --> 00:12:10.650
ma la teoria sembrava suggerire 
che era possibile

00:12:10.650 --> 00:12:16.142
fare medicina molto utile utilizzando 
soltanto queste tecniche di analisi dati.

00:12:16.142 --> 00:12:18.622
Fortunatamente abbiamo avuto 
un fantastico riscontro

00:12:18.622 --> 00:12:20.978
non soltanto dai media, 
ma anche dalla comunità medica,

00:12:20.978 --> 00:12:23.322
che è stata di grande supporto.

00:12:23.322 --> 00:12:27.471
La teoria è che possiamo prendere 
la parte centrale di un processo medico

00:12:27.471 --> 00:12:30.364
e trasformarla in un analisi di dati 
per quanto possibile,

00:12:30.364 --> 00:12:33.429
lasciando i medici a fare 
quel che fanno meglio.

00:12:33.429 --> 00:12:35.031
Voglio farvi un esempio.

00:12:35.031 --> 00:12:39.975
Ad oggi occorrono 15 minuti per produrre 
un nuovo test medico diagnostico,

00:12:39.975 --> 00:12:41.929
io ve lo mostrerò in tempo reale,

00:12:41.929 --> 00:12:45.416
ma l'ho compresso a tre minuti 
eliminando qualche parte.

00:12:45.416 --> 00:12:48.477
Invece di farvi vedere 
la creazione di un test medico diagnostico

00:12:48.477 --> 00:12:51.846
sto per mostrarvi 
un test diagnostico con immagini di auto,

00:12:51.846 --> 00:12:54.068
perché è qualcosa 
che possiamo comprendere tutti.

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
Quindi inizieremo con circa 
un milione e mezzo di immagini di auto

00:12:57.269 --> 00:13:00.475
e voglio creare qualcosa 
che le suddivida per l'angolazione

00:13:00.475 --> 00:13:02.698
con cui sono state scattate le fotografie.

00:13:02.698 --> 00:13:06.586
Queste immagini non sono etichettate, 
quindi dovrò cominciare da zero.

00:13:06.586 --> 00:13:08.443
Con il nostro algoritmo 
per l'apprendimento approfondito

00:13:08.443 --> 00:13:10.300
si possono identificare automaticamente

00:13:10.300 --> 00:13:12.158
le aree delle strutture 
in queste immagini.

00:13:12.158 --> 00:13:15.778
La cosa bella è che l'uomo 
e il computer possono lavorare insieme.

00:13:15.778 --> 00:13:17.956
L'uomo, come potete vedere qui,

00:13:17.956 --> 00:13:20.631
sta spiegando al computer 
le aree di interesse

00:13:20.631 --> 00:13:23.613
che vuole che il computer 
utilizzi per migliorare l'algoritmo.

00:13:23.613 --> 00:13:26.595
In realtà questi sistemi 
di apprendimento approfondito

00:13:26.595 --> 00:13:29.577
sono in uno spazio di 16 000 dimensioni

00:13:29.577 --> 00:13:33.009
così potete vedere qui il computer
che lo ruota attraverso quello spazio

00:13:33.009 --> 00:13:35.001
cercando di trovare 
nuove aree di struttura.

00:13:35.001 --> 00:13:36.782
Quando ci riesce

00:13:36.782 --> 00:13:40.786
l'uomo che lo sta guidando può poi 
segnalare le aree interessanti.

00:13:40.786 --> 00:13:43.208
Qui il computer ha trovato 
con successo le aree

00:13:43.208 --> 00:13:45.770
ad esempio, gli spigoli.

00:13:45.770 --> 00:13:47.376
Durante questo processo

00:13:47.376 --> 00:13:49.904
stiamo dicendo gradualmente 
al computer sempre di più

00:13:49.904 --> 00:13:52.144
sul tipo di strutture che stiamo cercando.

00:13:52.144 --> 00:13:53.851
Potete immaginare in un test diagnostico

00:13:53.851 --> 00:13:55.558
che questo potrebbe essere 
un patologo che identifica

00:13:55.558 --> 00:13:57.266
le aree malate, oppure ad esempio

00:13:57.266 --> 00:14:02.292
un radiologo che indica 
i noduli potenzialmente problematici.

00:14:02.292 --> 00:14:04.851
Talvolta può essere 
difficile per l'algoritmo.

00:14:04.851 --> 00:14:06.815
Qui è in un qualche modo confuso.

00:14:06.815 --> 00:14:09.365
Le immagini della parte anteriore 
e posteriore delle auto sono mescolate.

00:14:09.365 --> 00:14:11.437
In questo caso dobbiamo 
essere un po' più cauti,

00:14:11.437 --> 00:14:14.669
selezionando le parti anteriori 
come opposte alle parti posteriori.

00:14:14.669 --> 00:14:20.175
e dicendo al computer 
che questo è il tipo di gruppo

00:14:20.175 --> 00:14:21.523
a cui siamo interessati.

NOTE Paragraph

00:14:21.523 --> 00:14:24.200
Lo facciamo per un po', 
tralasciando qualcosa,

00:14:24.200 --> 00:14:26.446
così addestriamo l'algoritmo 
per l'apprendimento automatico

00:14:26.446 --> 00:14:28.420
basandoci su queste coppie 
di centinaia di cose

00:14:28.420 --> 00:14:30.445
sperando che il risultato sia migliore.

00:14:30.445 --> 00:14:33.518
Potete vedere che sta iniziando 
a dissolvere alcune di queste fotografie

00:14:33.518 --> 00:14:38.226
mostrandoci che sta già riconoscendo
come capire da solo alcune di queste.

00:14:38.226 --> 00:14:41.128
Possiamo utilizzare questo concetto 
di immagini simili,

00:14:41.128 --> 00:14:43.222
e utilizzando immagini simili, 
come potete vedere.

00:14:43.222 --> 00:14:47.241
il computer a questo punto è in grado 
di trovare la parte anteriore delle auto.

00:14:47.241 --> 00:14:50.189
A questo punto l'uomo 
può dire al computer

00:14:50.189 --> 00:14:52.462
va bene, hai fatto 
un buon lavoro.

NOTE Paragraph

00:14:52.462 --> 00:14:55.837
Talvolta, ovviamente, 
persino a questo punto

00:14:55.837 --> 00:14:58.356
è ancora difficile 
separare i gruppi.

00:14:58.356 --> 00:15:00.875
In questo caso anche dopo aver lasciato

00:15:00.875 --> 00:15:03.395
il computer a provare 
a ruotarlo per un po'

00:15:03.399 --> 00:15:06.744
troveremo ancora che le immagini 
dei lati sinistri e dei lati destri

00:15:06.744 --> 00:15:08.222
sono tutte mescolate.

00:15:08.222 --> 00:15:10.362
Così possiamo dare ulteriori 
indicazioni al computer

00:15:10.362 --> 00:15:13.338
e dire, va bene, prova a trovare 
una proiezione per separare

00:15:13.338 --> 00:15:15.945
i lati sinistri da quelli destri 
per quanto possibile

00:15:15.945 --> 00:15:18.067
utilizzando questo algoritmo 
di apprendimento approfondito.

00:15:18.067 --> 00:15:21.009
Dandogli quel suggerimento -- 
ecco, c'è riuscito.

00:15:21.009 --> 00:15:23.891
È riuscito a trovare un modo 
per pensare a questi oggetti

00:15:23.891 --> 00:15:26.271
separandoli dagli altri.

NOTE Paragraph

00:15:26.271 --> 00:15:28.709
Vi state facendo un'idea.

00:15:28.709 --> 00:15:36.906
Questo non è un caso in cui l'uomo 
è rimpiazzato dal computer,

00:15:36.906 --> 00:15:39.546
ma uno in cui lavorano insieme.

00:15:39.546 --> 00:15:43.096
Quello che stiamo facendo qui è sostituire 
qualcosa per il quale serviva una squadra

00:15:43.096 --> 00:15:45.098
di cinque o sei persone 
per circa sette anni

00:15:45.098 --> 00:15:47.703
e sostituirlo con qualcosa 
che impiega 15 minuti

00:15:47.703 --> 00:15:50.208
e una persona che lavora da sola.

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
Questo processo richiede all'incirca 
quattro o cinque ripetizioni.

00:15:54.158 --> 00:15:56.017
Potete vedere che adesso abbiamo 
il 62 per cento

00:15:56.017 --> 00:15:58.976
del nostro milione e mezzo di immagini 
classificato correttamente.

00:15:58.976 --> 00:16:01.448
A questo punto possiamo iniziare 
a prendere piuttosto

00:16:01.448 --> 00:16:02.745
velocemente grandi sezioni,

00:16:02.745 --> 00:16:05.664
controllarle per essere sicuri 
che non ci siano errori.

00:16:05.664 --> 00:16:09.616
Dove ci sono errori, possiamo 
farlo sapere al computer.

00:16:09.616 --> 00:16:12.661
Utilizzando questo tipo di processo 
per ognuno dei diversi gruppi

00:16:12.661 --> 00:16:15.148
siamo vicini ad un tasso 
di successo dell'80 per cento

00:16:15.148 --> 00:16:17.563
nel classificare un milione 
e mezzo di immagini.

00:16:17.563 --> 00:16:19.641
A questo punto è solo si tratta solo

00:16:19.641 --> 00:16:23.220
di trovare trova la piccola parte 
che non è classificata correttamente

00:16:23.220 --> 00:16:26.108
e si cerca di capire perché.

00:16:26.108 --> 00:16:27.851
Usando questo approccio

00:16:27.851 --> 00:16:31.972
in 15 minuti arriviamo a un tasso 
di classificazione del 97 per cento.

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
Questo tipo di tecnica può permetterci 
di risolvere un problema più grande,

00:16:36.578 --> 00:16:38.753
cioè che c'è una mancanza 
di competenza medica nel mondo.

00:16:38.753 --> 00:16:40.928
Il Forum Economico Mondiale 
riporta che ci sono

00:16:40.928 --> 00:16:43.103
dalle 10 alle 20 volte meno 
medici del necessario

00:16:43.103 --> 00:16:45.727
nei paesi in via di sviluppo

00:16:45.727 --> 00:16:47.840
e serviranno circa 300 anni

00:16:47.840 --> 00:16:50.734
per formare abbastanza persone 
per risolvere il problema.

00:16:50.734 --> 00:16:53.619
Quindi immaginate se potessimo aiutare 
a migliorare la loro efficacia

00:16:53.619 --> 00:16:56.458
utilizzando l'approccio con questo 
apprendimento approfondito?

NOTE Paragraph

00:16:56.458 --> 00:16:58.690
Sono davvero entusiasta 
di questa opportunità.

00:16:58.690 --> 00:17:01.279
Sono anche preoccupato per i problemi.

00:17:01.279 --> 00:17:04.403
Il problema è che 
ogni area in blu su questa mappa

00:17:04.403 --> 00:17:08.172
indica un posto dove i servizi 
sono oltre l'80 per cento del lavoro.

00:17:08.172 --> 00:17:09.959
Cosa sono i servizi?

00:17:09.959 --> 00:17:11.473
Questi sono i servizi.

00:17:11.473 --> 00:17:15.627
Questi sono anche proprio quello che 
i computer hanno appena imparato a fare.

00:17:15.627 --> 00:17:19.431
Così l'80 per cento dell'occupazione mondiale 
nel mondo sviluppato

00:17:19.431 --> 00:17:21.963
è in qualcosa che i computer 
hanno appena imparato a fare.

00:17:21.963 --> 00:17:23.403
Cosa significa tutto ciò?

00:17:23.403 --> 00:17:25.986
Che andrà tutto bene. 
Saranno sostituiti da altri lavori.

00:17:25.986 --> 00:17:28.693
Ad esempio ci sarà 
più lavoro per i data scientist.

00:17:28.693 --> 00:17:29.510
Veramente no.

00:17:29.510 --> 00:17:32.628
Non occorrono molti data scientist 
per costruire questi.

00:17:32.628 --> 00:17:35.880
Ad esempio questi quattro algoritmi 
sono stati creati dalla stessa persona.

00:17:35.880 --> 00:17:38.318
Così se pensate: 
è già accaduto prima

00:17:38.318 --> 00:17:42.126
abbiamo visto in passato i risultati 
di quando arrivano novità

00:17:42.126 --> 00:17:44.378
e vengono sostituite da nuovi lavori,

00:17:44.378 --> 00:17:46.494
ma come saranno questi nuovi lavori?

00:17:46.494 --> 00:17:48.365
È molto difficile per noi prevederlo

00:17:48.365 --> 00:17:51.104
perché la conoscenza umana 
cresce ad un tasso graduale,

00:17:51.104 --> 00:17:53.666
mentre ora che abbiamo questo 
sistema di apprendimento approfondito

00:17:53.666 --> 00:17:56.893
che sappiamo che ha una conoscenza 
che cresce a livello esponenziale.

00:17:56.893 --> 00:17:58.498
Siamo qui.

00:17:58.498 --> 00:18:00.077
Attualmente vediamo le cose intorno a noi

00:18:00.077 --> 00:18:01.656
e diciamo: "I computer
sono ancora piuttosto stupidi"

00:18:01.656 --> 00:18:03.235
Giusto?

00:18:03.235 --> 00:18:06.664
Ma fra cinque anni 
saranno fuori da questo diagramma.

00:18:06.664 --> 00:18:10.529
Così dobbiamo iniziare a pensare 
a questa capacità proprio adesso.

NOTE Paragraph

00:18:10.529 --> 00:18:12.579
L'abbiamo già visto, ovviamente.

00:18:12.579 --> 00:18:13.966
Nella Rivoluzione Industriale

00:18:13.966 --> 00:18:17.137
abbiamo visto un cambio di passo 
nella capacità grazie al motore.

00:18:17.157 --> 00:18:20.805
Il punto è tuttavia che dopo 
un po' le cose si sono appiattite.

00:18:20.805 --> 00:18:22.507
Ci sono stati disordini sociali,

00:18:22.507 --> 00:18:25.946
ma una volta che il motore è stato usato 
per generare energia in ogni situazione

00:18:25.946 --> 00:18:28.300
le cose si sono assestate.

00:18:28.300 --> 00:18:29.773
La Rivoluzione dell'Apprendimento 
Automatico

00:18:29.773 --> 00:18:32.682
sarà molto diversa 
dalla Rivoluzione Industriale

00:18:32.682 --> 00:18:35.632
perché la Rivoluzione dell'Apprendimento 
Automatico non si assesterà.

00:18:35.632 --> 00:18:38.042
Più i computer miglioreranno 
le attività intellettuali

00:18:38.042 --> 00:18:40.452
più si potranno costruire 
computer migliori

00:18:40.452 --> 00:18:42.862
che miglioreranno 
le capacità intellettuali,

00:18:42.862 --> 00:18:44.770
quindi questo sarà un cambiamento

00:18:44.770 --> 00:18:47.248
che il mondo non ha davvero 
mai sperimentato prima

00:18:47.248 --> 00:18:50.554
quindi la vostra comprensione precedente 
su quel che è possibile, è diverso.

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
Sta già avendo un impatto su di noi.

00:18:52.754 --> 00:18:56.384
Negli ultimi 25 anni 
la produttività del capitale è cresciuta,

00:18:56.400 --> 00:19:00.588
la produttività del lavoro è rimasta 
uguale, è persino calata un po'.

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
Quindi voglio che iniziamo 
a discuterne sin da adesso.

00:19:04.149 --> 00:19:07.176
So che spesso quando parlo alle persone 
di questa situazione

00:19:07.176 --> 00:19:08.666
le persone sono piuttosto sprezzanti.

00:19:08.666 --> 00:19:10.339
Del resto i computer 
non possono veramente pensare,

00:19:10.339 --> 00:19:13.367
non hanno emozioni, 
non comprendono la poesia,

00:19:13.367 --> 00:19:15.888
non capiamo davvero come funzionano.

00:19:15.888 --> 00:19:17.374
Quindi?

00:19:17.374 --> 00:19:19.668
Già adesso i computer possono fare cose

00:19:19.668 --> 00:19:21.897
per fare le quali le persone 
vengono pagate,

00:19:21.897 --> 00:19:23.628
quindi è tempo di iniziare a pensare

00:19:23.628 --> 00:19:28.015
a come dovremo modificare 
le nostre strutture sociali ed economiche

00:19:28.015 --> 00:19:29.855
per diventare consapevoli 
di questa nuova realtà.

00:19:29.855 --> 00:19:31.388
Grazie.

00:19:31.388 --> 00:19:32.190
(Applausi)