1
00:00:00,000 --> 00:00:03,924
Dunque, sono a capo di un team di Google
che lavora sull'intelligenza artificiale;

2
00:00:03,948 --> 00:00:08,598
in altre parole l'ingegneria che si occupa
di creare computer ed altri dispositivi

3
00:00:08,622 --> 00:00:11,371
in grado di fare alcune delle cose
che fa il cervello.

4
00:00:11,439 --> 00:00:14,538
E questo ci ha fatto interessare
al cervello vero

5
00:00:14,562 --> 00:00:15,851
e alla neuroscienza,

6
00:00:15,875 --> 00:00:20,047
ed in particolare a quelle cose che
fa il nostro cervello

7
00:00:20,071 --> 00:00:25,113
che sono di gran lunga superiori 
alle capacità dei computer.

8
00:00:25,209 --> 00:00:28,818
Storicamente, una di queste aree
è stata la percezione,

9
00:00:28,842 --> 00:00:31,881
il processo con cui le cose
nel mod,

10
00:00:31,905 --> 00:00:33,489
suoni ed immagini,

11
00:00:33,513 --> 00:00:36,181
possono diventare concetti
nella nostra mente.

12
00:00:36,235 --> 00:00:38,752
Questo è essenziale
per il nostro cervello,

13
00:00:38,776 --> 00:00:41,046
ed è anche piuttosto utile
per un computer.

14
00:00:41,046 --> 00:00:44,986
Gli algoritmi di percezione della macchina
per esempio, elaborati dal nostro team,

15
00:00:45,010 --> 00:00:48,884
sono ciò che rende le vostre foto
su Google Foto cercabili,

16
00:00:48,908 --> 00:00:51,545
in base a ciò
che c'è nelle foto.

17
00:00:51,594 --> 00:00:55,087
L'altro lato della percezione
è la creatività:

18
00:00:55,111 --> 00:00:58,149
trasformare un concetto in qualcosa
che esiste nel mondo reale.

19
00:00:58,173 --> 00:01:01,728
Così l'anno scorso, il nostro lavoro
sulla percezione delle macchine,

20
00:01:01,752 --> 00:01:06,611
ci ha inaspettatamente condotto
al mondo della creatività nelle macchine

21
00:01:06,635 --> 00:01:08,495
e dell'arte nelle macchine.

22
00:01:08,556 --> 00:01:11,840
Penso che Michelangelo 
ebbe una profonda intuizione

23
00:01:11,864 --> 00:01:16,010
riguardo questa duplice relazione
tra percezione e creatività.

24
00:01:16,023 --> 00:01:18,029
Questo è una sua famosa citazione:

25
00:01:18,134 --> 00:01:21,134
"Ogni blocco di pietra
ha una statua dentro di sè

26
00:01:21,134 --> 00:01:24,134
ed è compito dello scultore scoprirla".

27
00:01:26,029 --> 00:01:29,245
Penso che quello che 
Michelangelo intendesse dire

28
00:01:29,269 --> 00:01:32,449
è che creiamo dalla percezione,

29
00:01:32,473 --> 00:01:35,496
e che la percezione stessa
è un atto dell'immaginazione

30
00:01:35,520 --> 00:01:38,621
ed è qualcosa della creatività.

31
00:01:38,691 --> 00:01:42,616
L'organo che si occupa di pensare
percepire ed immaginare

32
00:01:42,640 --> 00:01:45,038
naturalmente è il cervello.

33
00:01:45,089 --> 00:01:47,634
Vorrei cominciare con un breve
resoconto sulla storia

34
00:01:47,658 --> 00:01:49,986
della nostra conoscenza del cervello.

35
00:01:49,986 --> 00:01:52,942
Perché a differenza, per esempio,
del cuore o dell'intestino,

36
00:01:52,966 --> 00:01:56,110
non possiamo dire molto del cervello
solo osservandolo,

37
00:01:56,134 --> 00:01:57,986
almeno ad occhio nudo.

38
00:01:57,986 --> 00:02:00,399
I primi anatomisti
che studiarono il cervello

39
00:02:00,423 --> 00:02:04,230
diedero alle superficiali strutture
di questa cosa nomi fantasiosi,

40
00:02:04,254 --> 00:02:06,687
come ippocampo, che significa 
"gamberetto".

41
00:02:06,711 --> 00:02:09,475
Ma naturalmente questo
non ci dice molto

42
00:02:09,499 --> 00:02:12,717
su cosa realmente succede all'interno.

43
00:02:12,780 --> 00:02:16,347
Il primo che, credo, sviluppò davvero
una qualche intuizione

44
00:02:16,347 --> 00:02:18,347
su cosa succedesse
all'interno del cervello

45
00:02:18,371 --> 00:02:22,291
fu il grande neuroanatomista spagnolo
Santiago Ramón y Cajal,

46
00:02:22,315 --> 00:02:23,859
nel XIX secolo,

47
00:02:23,883 --> 00:02:27,638
che utilizzò il microscopio
e speciali tinture

48
00:02:27,662 --> 00:02:31,832
che potevano selettivamente riempire
o risaltare in elevato contrasto


49
00:02:31,856 --> 00:02:33,864
le singole cellule del cervello,

50
00:02:33,888 --> 00:02:37,902
per iniziare a comprenderne
la morfologia.

51
00:02:37,972 --> 00:02:40,863
E questi sono gli schizzi
che fece dei neuroni

52
00:02:40,887 --> 00:02:42,096
nel XIX secolo.

53
00:02:42,120 --> 00:02:44,004
Questo è il cervello di un uccello.

54
00:02:44,028 --> 00:02:47,085
Vedete l'incredibile varietà
di cellule differenti,

55
00:02:47,109 --> 00:02:50,544
persino la teoria cellulare stessa
era abbastanza nuova all'epoca.

56
00:02:50,568 --> 00:02:51,846
E queste strutture,

57
00:02:51,870 --> 00:02:54,033
queste cellule che hanno
queste ramificazioni,

58
00:02:54,033 --> 00:02:57,201
questi rami che possono percorrere
distanze davvero lunghissime...

59
00:02:57,201 --> 00:02:59,001
questa era una vera novità all'epoca.

60
00:02:59,001 --> 00:03:01,682
E naturalmente, ci ricordano
dei fili elettrici.

61
00:03:01,706 --> 00:03:05,163
Questo sarebbe potuto essere ovvio
per alcuni nel XIX secolo;

62
00:03:05,187 --> 00:03:09,931
le rivoluzioni dei circuiti,
dell'elettricità stavano cominciando.

63
00:03:09,971 --> 00:03:11,142
Ma in molti modi,

64
00:03:11,166 --> 00:03:14,479
i disegni di microanatomia
di Ramón y Cajal, come questo,

65
00:03:14,503 --> 00:03:16,835
sono ancora in qualche modo attuali.

66
00:03:16,859 --> 00:03:18,257
Dopo più di un secolo,

67
00:03:18,257 --> 00:03:21,562
stiamo ancora cercando di finire
il lavoro iniziato da Ramón y Cajal.

68
00:03:21,586 --> 00:03:24,720
Questi sono dati grezzi
dai nostri collaboratori

69
00:03:24,744 --> 00:03:27,439
all'Istituto Max Planck di Neuroscienze.

70
00:03:27,439 --> 00:03:29,439
Ciò che hanno fatto
i nostri collaboratori

71
00:03:29,463 --> 00:03:34,464
è rappresentare frammenti
di tessuto celebrale.

72
00:03:34,488 --> 00:03:37,814
L'intero campione qui è di circa
un millimetro cubico,

73
00:03:37,838 --> 00:03:40,459
e ve ne sto mostrando
un pezzo piccolissimo qui.

74
00:03:40,483 --> 00:03:42,829
Quella barra a sinistra
è di circa un micron.

75
00:03:42,853 --> 00:03:45,262
Le strutture che vedete
sono i mitocondri

76
00:03:45,286 --> 00:03:47,330
che sono delle dimensioni
dei batteri.

77
00:03:47,354 --> 00:03:49,275
E queste sono sezioni consecutive

78
00:03:49,275 --> 00:03:52,077
di questo minuscolo
blocco di tessuto.

79
00:03:52,101 --> 00:03:54,504
Solo per fare un confronto,

80
00:03:54,528 --> 00:03:57,584
il diametro medio di un capello
misura circa 100 microns.

81
00:03:57,584 --> 00:04:00,618
Quindi stiamo osservando qualcosa
di molto, molto più piccolo

82
00:04:00,642 --> 00:04:02,040
di un singolo capello.

83
00:04:02,064 --> 00:04:06,095
E da queste serie di parti
microscopiche di elettroni,

84
00:04:06,119 --> 00:04:11,127
si possono cominciare ricostruzioni
3D dei neuroni che appaiono come questi.

85
00:04:11,151 --> 00:04:14,072
Sono in qualche modo simili al lavoro
svolto da Ramón y Cajal.

86
00:04:14,072 --> 00:04:15,824
Solo pochi neuroni
sono evidenziati,

87
00:04:15,848 --> 00:04:18,629
perché altrimenti non potremmo
osservare nulla qui.

88
00:04:18,653 --> 00:04:19,965
Sarebbe molto affollato

89
00:04:19,989 --> 00:04:21,319
e pieno di strutture,

90
00:04:21,343 --> 00:04:25,267
di fili che uniscono tutti
i neutroni tra loro.

91
00:04:25,293 --> 00:04:28,097
Quindi, Ramón y Cajal era un po' avanti
per i suoi tempi,

92
00:04:28,121 --> 00:04:30,676
e gli sviluppi sulla comprensione
del cervello

93
00:04:30,700 --> 00:04:33,431
avanzarono lentamente nel corso
dei decenni successivi.

94
00:04:33,455 --> 00:04:35,642
Ma sapevamo che i neuroni
usano l'elettricità,

95
00:04:35,642 --> 00:04:39,268
e dalla Seconda Guerra Mondiale, la nostra
tecnologia era abbastanza avanzata

96
00:04:39,292 --> 00:04:42,208
da iniziare a fare veri esperimenti
elettrici su neuroni vivi

97
00:04:42,208 --> 00:04:44,628
per capire meglio il loro funzionamento.

98
00:04:44,631 --> 00:04:48,987
Questa fu l'epoca in cui vennero
inventati i computer,

99
00:04:49,011 --> 00:04:52,111
basati fondamentalmente
sul modello del cervello,

100
00:04:52,135 --> 00:04:55,220
di "macchina intelligente"
come Alan Turing lo chiamò,

101
00:04:55,244 --> 00:04:57,875
uno dei padri della scienza del computer.

102
00:04:57,923 --> 00:05:02,555
Warren MacCulloch e Walter Pitts 
studiarono i disegni di Ramón y Cajal

103
00:05:02,579 --> 00:05:03,896
della corteccia visiva,

104
00:05:03,920 --> 00:05:05,482
che vi mostro qui.

105
00:05:05,506 --> 00:05:10,378
Questa è la corteccia che elabora
le immagini provenienti dall'occhio.

106
00:05:10,424 --> 00:05:14,332
Secondo loro, ciò appariva
come un diagramma di un circuito.

107
00:05:14,353 --> 00:05:18,188
Molti dettagli dei diagrammi
di MacCulloch e Pitts

108
00:05:18,212 --> 00:05:19,564
non sono proprio corretti.

109
00:05:19,588 --> 00:05:20,823
Ma questa idea di base

110
00:05:20,847 --> 00:05:24,839
che la corteccia visiva lavorasse
come una serie di elementi di calcolo

111
00:05:24,863 --> 00:05:27,609
che trasmettono informazioni
l'un l'altra in sequenza

112
00:05:27,633 --> 00:05:29,235
è essenzialmente corretto.

113
00:05:29,259 --> 00:05:31,609
Analizziamo un attimo

114
00:05:31,633 --> 00:05:36,185
ciò che un modello di elaborazione
di informazioni visive dovrebbe fare.

115
00:05:36,228 --> 00:05:38,969
Il compito fondamentale
della percezione

116
00:05:38,993 --> 00:05:43,187
è di catturare un'immagine
come questa e dire:

117
00:05:43,211 --> 00:05:44,387
"Questo è un uccello,"

118
00:05:44,411 --> 00:05:47,285
che è una cosa molto semplice
per il nostro cervello.

119
00:05:47,309 --> 00:05:50,730
Ma tutti voi dovreste capire
che per un computer,

120
00:05:50,754 --> 00:05:53,841
ciò era praticamente impossibile
sino a qualche anno fa.

121
00:05:53,865 --> 00:05:55,781
Il classico paradigma di calcolo

122
00:05:55,805 --> 00:05:59,302
in questo caso non è
così semplice da realizzare.

123
00:05:59,366 --> 00:06:01,918
Ciò che accade
tra i pixel,

124
00:06:01,942 --> 00:06:05,970
tra l'immagine dell'uccello e
la parola "uccello",

125
00:06:05,994 --> 00:06:08,808
essenzialmente è un gruppo
di neuroni connessi tra loro

126
00:06:08,832 --> 00:06:09,861
in una rete neurale,

127
00:06:09,861 --> 00:06:11,234
come sto schematizzando qui.

128
00:06:11,258 --> 00:06:15,040
Questa rete neurale può essere
biologica, nella nostra corteccia visuale,

129
00:06:15,040 --> 00:06:16,716
oppure, oggi, possiamo

130
00:06:16,740 --> 00:06:19,774
modellare queste reti neuronali
su un computer.

131
00:06:19,834 --> 00:06:22,187
E vi mostrerò come in realtà ciò appaia.

132
00:06:22,211 --> 00:06:25,627
Quindi i pixel potete immaginarli
come un primo strato di neuroni,

133
00:06:25,651 --> 00:06:27,890
ed è così, infatti, che funziona l'occhio:

134
00:06:27,914 --> 00:06:29,577
questi sono i neuroni della retina.

135
00:06:29,601 --> 00:06:31,101
Ed essi trasmettono

136
00:06:31,125 --> 00:06:34,528
da uno strato all'altro,

137
00:06:34,552 --> 00:06:37,399
tutti connessi da sinapsi di
peso differente.

138
00:06:37,399 --> 00:06:38,944
Il comportamento
di questa rete

139
00:06:38,968 --> 00:06:42,252
è caratterizzato dalle forze
di tutte queste sinapsi.

140
00:06:42,276 --> 00:06:45,564
Esse caratterizzano le proprietà
di calcolo di questa rete.

141
00:06:45,588 --> 00:06:47,058
E alla fine della giornata,

142
00:06:47,082 --> 00:06:49,529
abbiamo un neurone o 
un piccolo gruppo di neuroni

143
00:06:49,553 --> 00:06:51,790
che si accendono e dicono "uccello".

144
00:06:51,820 --> 00:06:54,956
Adesso vi mostrerò
queste tre cose:

145
00:06:54,980 --> 00:06:59,676
i pixel di input, le sinapsi
nella rete neurale,

146
00:06:59,700 --> 00:07:01,285
e l'uccello, il risultato,

147
00:07:01,309 --> 00:07:04,663
attraverso tre variabili: x, w ed y.

148
00:07:04,663 --> 00:07:06,664
Ci sono forse un milione
di x più o meno,

149
00:07:06,688 --> 00:07:08,641
un milione di pixel in questa immagine.

150
00:07:08,665 --> 00:07:11,111
Ci sono miliardi o triliardi di w,

151
00:07:11,135 --> 00:07:14,556
che rappresentano il peso di tutte queste
sinapsi nella rete neurale.

152
00:07:14,580 --> 00:07:16,455
E c'è un piccolissimo numero di y,

153
00:07:16,479 --> 00:07:18,337
di uscite che ha quella rete.

154
00:07:18,361 --> 00:07:21,040
Uccello è di sole tre sillabe,
giusto?

155
00:07:21,088 --> 00:07:24,514
Facciamo finta che sia solo
una semplice formula,

156
00:07:24,538 --> 00:07:26,701
x "x" w = y.

157
00:07:26,725 --> 00:07:28,761
Sto mettendo il "per" tra virgolette

158
00:07:28,785 --> 00:07:31,065
perché cio che realmente accade,
ovviamente,

159
00:07:31,089 --> 00:07:35,115
è una complicatissima serie
di operazioni matematiche.

160
00:07:35,172 --> 00:07:36,393
Questa è un'equazione.

161
00:07:36,417 --> 00:07:38,089
Ci sono tre variabili.

162
00:07:38,113 --> 00:07:40,839
E sappiamo tutti che se hai un'equazione,

163
00:07:40,863 --> 00:07:45,105
puoi risolvere una variabile
conoscendo le altre due.

164
00:07:45,158 --> 00:07:48,538
Quindi il problema
di arrivare alla soluzione,

165
00:07:48,562 --> 00:07:51,435
vale a dire, capire che l'immagine
dell'uccello è un uccello,

166
00:07:51,459 --> 00:07:52,733
è questo:

167
00:07:52,757 --> 00:07:56,216
è che y è l'incognita
e w ed x i termini noti.

168
00:07:56,240 --> 00:07:58,543
Conoscete la rete neurale
e conoscete i pixel.

169
00:07:58,543 --> 00:08:02,050
Come potete vedere questo in realtà
è un problema relativamente semplice.

170
00:08:02,074 --> 00:08:04,790
Moltiplicate per due volte tre
ed è fatta.

171
00:08:04,862 --> 00:08:06,669
Vi mostro una rete
neurale artificiale

172
00:08:06,669 --> 00:08:09,705
che abbiamo recentemente realizzato 
facendo esattamente questo.

173
00:08:09,705 --> 00:08:12,494
Funziona in tempo reale
su un cellulare,

174
00:08:12,518 --> 00:08:15,831
e questo è di certo
sorprendente di per sè,

175
00:08:15,855 --> 00:08:19,323
che i cellulari possono fare
miliardi e triliardi di operazioni


176
00:08:19,347 --> 00:08:20,259
al secondo.

177
00:08:20,259 --> 00:08:22,234
Quello che state guardando
è un cellulare

178
00:08:22,258 --> 00:08:25,805
che guarda un'immagine
di un uccello dopo l'altra

179
00:08:25,829 --> 00:08:28,544
ed in realtà non dice solo:
"Sì, è un uccello",

180
00:08:28,568 --> 00:08:32,829
ma identifica le specie di uccello
con una rete di questo tipo.

181
00:08:32,890 --> 00:08:34,716
Quindi in questa foto,

182
00:08:34,740 --> 00:08:38,542
la x e la w sono note,
e la y è l'incognita.

183
00:08:38,566 --> 00:08:41,074
Sto tralasciando la parte più
difficile ovviamente,

184
00:08:41,098 --> 00:08:44,959
che è come diamine
ci immaginiamo la w,

185
00:08:44,983 --> 00:08:47,170
il cervello che può fare una cosa simile ?

186
00:08:47,194 --> 00:08:49,388
Come potremmo mai conoscere
un simile modello?

187
00:08:49,418 --> 00:08:52,651
Così questo processo di apprendimento
di risolvere tramite la w,

188
00:08:52,675 --> 00:08:55,322
se stavamo facendo questo
con una semplice equazione

189
00:08:55,346 --> 00:08:57,346
nella quale pensiamo a questi come numeri,

190
00:08:57,370 --> 00:09:00,057
sappiamo esattamente come fare:
6 = 2 x w,

191
00:09:00,081 --> 00:09:03,963
bene, dividiamo per due ed è fatta.

192
00:09:04,001 --> 00:09:06,761
Il problema sta in questa operazione.

193
00:09:06,823 --> 00:09:07,808
La divisione...

194
00:09:07,808 --> 00:09:11,119
abbiamo usato la divisione perché 
è l'inverso della moltiplicazione,

195
00:09:11,143 --> 00:09:12,583
ma come abbiamo appena detto,

196
00:09:12,607 --> 00:09:15,056
la moltiplicazione è un bugia qui.

197
00:09:15,080 --> 00:09:18,406
Questa è un'operazione complicatissima,
davvero non semplice;

198
00:09:18,430 --> 00:09:20,134
non ha l'inverso.

199
00:09:20,158 --> 00:09:23,308
Cosi dobbiamo cercare
di risolvere l'equazione

200
00:09:23,332 --> 00:09:25,356
senza un'operazione di divisione.

201
00:09:25,380 --> 00:09:27,723
E fare ciò
è abbastanza semplice.

202
00:09:27,747 --> 00:09:30,418
Diciamo solo che facciamo un
trucchetto algebrico,

203
00:09:30,442 --> 00:09:33,348
e spostiamo il sei nella parte
a destra dell'equazione.

204
00:09:33,372 --> 00:09:35,638
Ora, stiamo ancora usando
la moltiplicazione.

205
00:09:35,675 --> 00:09:38,989
E quello zero, pensiamolo come un errore.

206
00:09:38,989 --> 00:09:41,794
In altre parole, se abbiamo risolto
la w in modo corretto,

207
00:09:41,818 --> 00:09:43,474
allora l'errore sarà lo zero.

208
00:09:43,498 --> 00:09:45,436
E se non l'abbiamo fatto giusto,

209
00:09:45,460 --> 00:09:47,209
l'errore sarà maggiore di zero.

210
00:09:47,233 --> 00:09:50,263
Cosi ora possiamo fare delle prove
per minimizzare l'errore

211
00:09:50,263 --> 00:09:53,310
e questo è il genere di cose
in cui i computer sono molto bravi.

212
00:09:53,334 --> 00:09:55,387
Quindi abbiamo
un valore fittizio iniziale:

213
00:09:55,387 --> 00:09:56,107
se w = 0?

214
00:09:56,131 --> 00:09:57,371
Beh, allora l'errore è 6.

215
00:09:57,395 --> 00:09:58,505
Se w = 1? L'errore è 4.

216
00:09:58,505 --> 00:10:01,232
E così il computer può giocare
ad una sorta di Marco Polo,

217
00:10:01,256 --> 00:10:03,623
e abbassare il margine
di errore vicino allo zero.

218
00:10:03,647 --> 00:10:07,021
E così facendo, sta ottenendo
continue approssimazioni per w.

219
00:10:07,045 --> 00:10:10,701
Generalmente, non ci si avvicina mai,
ma dopo una dozzina di passaggi

220
00:10:10,725 --> 00:10:16,182
arriviamo a w = 2,999,
che è abbastanza vicino.

221
00:10:16,182 --> 00:10:18,116
E questo è il processo
di apprendimento.

222
00:10:18,140 --> 00:10:20,870
Quindi, ricordate che quello
che succede qui

223
00:10:20,894 --> 00:10:25,272
è che abbiamo preso un mucchio 
di x note ed y note

224
00:10:25,296 --> 00:10:28,750
e abbiamo risolto la w nel mezzo
attraverso un processo iterativo.

225
00:10:28,774 --> 00:10:32,330
È esattamente lo stesso processo
che utilizziamo per apprendere.

226
00:10:32,354 --> 00:10:34,584
Riceviamo moltissime
immagini da bambini

227
00:10:34,608 --> 00:10:37,641
che ci dicono: "questo è un uccello;
questo non è un uccello."

228
00:10:37,714 --> 00:10:39,812
E con il tempo, attraverso l'iterazione,

229
00:10:39,836 --> 00:10:43,444
risolviamo la w, risolviamo
quei collegamenti neurali.

230
00:10:43,460 --> 00:10:47,400
Quindi adesso abbiamo mantenuto 
fisse x ed w per risolvere y;

231
00:10:47,400 --> 00:10:49,351
questa è la rapida percezione quotidiana.

232
00:10:49,351 --> 00:10:50,968
Abbiamo capito
come risolvere la w,

233
00:10:50,968 --> 00:10:53,015
che è apprendere,
che è molto più difficile,

234
00:10:53,015 --> 00:10:55,210
perché abbiamo bisogno
di minimizzare l'errore,

235
00:10:55,210 --> 00:10:56,951
usando molti esempi
come allenamento.

236
00:10:56,951 --> 00:11:00,062
E circa un anno fa, 
Alex Mordvintsev, nel nostro team,

237
00:11:00,086 --> 00:11:03,636
decise di sperimentare cosa
accade se cerchiamo di risolvere x,

238
00:11:03,660 --> 00:11:06,097
conoscendo w e y.

239
00:11:06,124 --> 00:11:07,275
In altre parole,

240
00:11:07,299 --> 00:11:08,651
sapete che è un uccello,

241
00:11:08,675 --> 00:11:11,978
e avete già la rete neurale
che avete allenato sugli uccelli,

242
00:11:12,002 --> 00:11:14,976
ma cos'è l'immagine di un uccello?

243
00:11:15,034 --> 00:11:20,058
È venuto fuori che utilizzando la stessa 
procedura di minimizzazione dell'errore,

244
00:11:20,082 --> 00:11:23,512
si può fare con la rete allenata
a riconoscere gli uccelli,

245
00:11:23,536 --> 00:11:30,374
ed il risultato è...

246
00:11:30,400 --> 00:11:32,765
un'immagine di uccelli.

247
00:11:32,814 --> 00:11:36,551
Quindi questa è un'immagine di uccelli
interamente generata dalla rete neurale

248
00:11:36,575 --> 00:11:38,401
allenata a riconoscere gli uccelli,

249
00:11:38,425 --> 00:11:41,963
risolvendo solo x
piuttosto che risolvere y,

250
00:11:41,987 --> 00:11:43,695
e facendolo in modo iterativo.

251
00:11:43,732 --> 00:11:45,579
Ho qui un altro esempio divertente.

252
00:11:45,603 --> 00:11:49,040
Questo era un lavoro fatto
da Mike Tyra nel nostro gruppo

253
00:11:49,064 --> 00:11:51,372
che lui chiama "Parata degli animali".

254
00:11:51,396 --> 00:11:54,272
Mi ricorda un po' le opere d'arte
di William Kentridge,

255
00:11:54,296 --> 00:11:56,785
in cui fa schizzi, li cancella,

256
00:11:56,809 --> 00:11:58,083
fa schizzi, li cancella,

257
00:11:58,083 --> 00:11:59,691
ed in questa maniera
crea un film.

258
00:11:59,715 --> 00:12:00,866
In questo caso,

259
00:12:00,890 --> 00:12:04,167
quello che Mike fa è variare
la y tra diversi animali,

260
00:12:04,191 --> 00:12:06,573
in una rete disegnata per riconoscere
e distinguere

261
00:12:06,597 --> 00:12:08,407
diversi animali l'uno dall''altro.

262
00:12:08,431 --> 00:12:14,202
E si ottiene questa strana trasformazione
stile Escher da un animale all'altro.

263
00:12:14,221 --> 00:12:18,835
Qui lui ed Alex insieme
hanno cercato di ridurre

264
00:12:18,859 --> 00:12:21,618
la y ad uno spazio di sole due dimensioni,

265
00:12:21,642 --> 00:12:25,080
in modo tale da creare una mappa
a aprtire dallo spazio delle cose

266
00:12:25,104 --> 00:12:26,823
riconosciute da questa rete.

267
00:12:26,847 --> 00:12:28,754
Facendo questo tipo di sintesi

268
00:12:28,754 --> 00:12:31,240
o generazione di immagini
su tutta quella superficie,

269
00:12:31,240 --> 00:12:34,146
variando y sulla superficie,
si può creare una sorta di mappa,

270
00:12:34,170 --> 00:12:37,311
una mappa visuale di tutte le cose
che la rete sa come riconoscere.

271
00:12:37,335 --> 00:12:40,880
Gli animali sono tutti qui;
"armadillo" è in quel posto.

272
00:12:40,919 --> 00:12:43,398
Potete fare questo anche
con altri generi di reti.

273
00:12:43,422 --> 00:12:46,296
Questa è una rete disegnata
per riconoscere i visi,

274
00:12:46,320 --> 00:12:48,340
per distinguere una faccia da un'altra.

275
00:12:48,340 --> 00:12:50,814
E qui, stiamo inserendo
una y che dice "me",

276
00:12:50,833 --> 00:12:52,623
i miei parametri facciali.

277
00:12:52,623 --> 00:12:54,316
E quando questa cosa risolve la x,

278
00:12:54,322 --> 00:12:57,572
genera questa specie di pazza,

279
00:12:57,592 --> 00:13:02,030
cubista, surreale, psichedelica
immagine di me stesso

280
00:13:02,040 --> 00:13:03,860
da molteplici punti di vista insieme.

281
00:13:03,870 --> 00:13:06,616
La ragione per cui sembrano
più punti di vista insieme

282
00:13:06,626 --> 00:13:10,344
è che la rete è costruita per
scartare le ambiguità

283
00:13:10,344 --> 00:13:12,835
di un volto che sia in una posa
o in un'altra

284
00:13:12,835 --> 00:13:16,135
guardato con un tipo di luce,
poi con un altro.

285
00:13:16,135 --> 00:13:18,345
Così quando si fa questo tipo
di ricostruzione,

286
00:13:18,345 --> 00:13:20,682
se non si usa una qualche sorta
di immagine guida,

287
00:13:20,682 --> 00:13:21,912
o statistica guida,

288
00:13:21,912 --> 00:13:25,697
otterrete una sorta di confusione
di differenti punti di vista,

289
00:13:25,697 --> 00:13:27,786
perchè è ambiguo.

290
00:13:27,786 --> 00:13:31,998
Questo è quello che succede se Alex
usa la sua faccia come immagine campione

291
00:13:32,028 --> 00:13:36,269
durante il processo di ottimizzazione
per ricostruire il mio viso.

292
00:13:36,279 --> 00:13:38,644
Come potete vedere non è perfetto.

293
00:13:38,644 --> 00:13:40,532
C'è ancora un bel po' di lavoro da fare

294
00:13:40,542 --> 00:13:42,830
su come migliorare
il processo di ottimizzazione.

295
00:13:42,830 --> 00:13:45,887
Ma si è cominciato ad ottenere 
qualcosa di più simile a un viso,

296
00:13:45,887 --> 00:13:48,888
usando la mia faccia come modello.

297
00:13:48,888 --> 00:13:51,416
Non è necessario iniziare
con una tela bianca

298
00:13:51,416 --> 00:13:52,603
o con un rumore bianco.

299
00:13:52,603 --> 00:13:53,933
Quando risolvete la x,

300
00:13:53,933 --> 00:13:57,841
potete iniziare con una x, che di per sè
è già una qualche altra immagine.

301
00:13:57,841 --> 00:14:00,424
Questa ne è
una piccola dimostrazione.

302
00:14:00,424 --> 00:14:04,374
Questa è una reta
disegnata per categorizzare

303
00:14:04,374 --> 00:14:07,710
ogni genere di oggetti diversi:
strutture create dall'uomo, animali...

304
00:14:07,710 --> 00:14:10,323
Qui cominciamo semplicemente
con una foto di nubi,

305
00:14:10,323 --> 00:14:12,020
e appena ottimizziamo,

306
00:14:12,020 --> 00:14:16,925
sostanzialmente, questa rete cerca
di capire ciò che vede nelle nubi.

307
00:14:16,925 --> 00:14:19,275
E più tempo state a guardarla,

308
00:14:19,275 --> 00:14:23,001
più cose riuscirete
a vedere nelle nubi.

309
00:14:23,001 --> 00:14:26,398
Si potrebbe anche utilizzare
la rete dei visi per allucinarla

310
00:14:26,398 --> 00:14:28,239
ed ottenere cose piuttosto folli.

311
00:14:28,239 --> 00:14:30,399
(Risate)

312
00:14:30,399 --> 00:14:33,169
Oppure, Mike ha fatto
qualche altro esperimento

313
00:14:33,169 --> 00:14:37,095
in cui prende questa immagine
di nuvole

314
00:14:37,095 --> 00:14:40,634
allucinata, zoomata, allucinata
zoomata, allucinata, zoomata.

315
00:14:40,634 --> 00:14:41,799
Ed in questo modo,

316
00:14:41,799 --> 00:14:45,500
è possibile ottenere una sorta di stato
di fuga dalla rete, suppongo,

317
00:14:45,500 --> 00:14:49,209
o una sorta di libera associazione,

318
00:14:49,209 --> 00:14:51,463
nella quale la rete
si morde la coda.

319
00:14:51,463 --> 00:14:54,904
Così ogni immagine è adesso la base per:

320
00:14:54,904 --> 00:14:56,349
"Cosa penso di vedere dopo?

321
00:14:56,349 --> 00:14:59,494
Cosa penso di vedere dopo?
Cosa penso di vedere dopo?"

322
00:14:59,494 --> 00:15:02,451
Ho mostrato questa cosa
per la prima volta in pubblico

323
00:15:02,451 --> 00:15:07,913
a un gruppo in una conferenza a Seattle
chiamato "Istruzione superiore",

324
00:15:07,913 --> 00:15:10,374
subito dopo che 
la marijuana fu legalizzata.

325
00:15:10,374 --> 00:15:14,625
(Risate)

326
00:15:14,625 --> 00:15:16,764
Così mi piacerebbe
concludere velocemente

327
00:15:16,764 --> 00:15:21,031
semplicemente facendovi notare
che questa tecnologia non è vincolata.

328
00:15:21,031 --> 00:15:24,720
Vi ho mostrato esempi puramente visuali
perché sono divertenti da vedere.

329
00:15:24,720 --> 00:15:26,949
Ma non è una tecnologia puramente visiva.

330
00:15:26,949 --> 00:15:29,204
Il nostro collaboratore artistico,
Ross Goodwin,

331
00:15:29,224 --> 00:15:32,911
ha fatto esperimenti con una fotocamera
che cattura un'immagine,

332
00:15:32,911 --> 00:15:37,166
e con un computer nel suo zaino
che scrive una poesia usando reti neurali,

333
00:15:37,166 --> 00:15:39,144
basata sui contenuti dell'immagine.

334
00:15:39,144 --> 00:15:42,112
E quella rete neurale di poesia
è stata allenata

335
00:15:42,112 --> 00:15:44,373
su un vasto materiale di poesie
del XX secolo.

336
00:15:44,373 --> 00:15:45,891
E, sapete, la poesia,

337
00:15:45,891 --> 00:15:47,834
secondo me, in realtà non è male.

338
00:15:47,834 --> 00:15:49,232
(Risate)

339
00:15:49,232 --> 00:15:50,420
Per finire,

340
00:15:50,420 --> 00:15:52,573
penso che Michelangelo

341
00:15:52,573 --> 00:15:53,829
avesse ragione;

342
00:15:53,829 --> 00:15:57,607
percezione e creatività 
sono strettamente correlate.

343
00:15:57,607 --> 00:16:00,267
Quello che abbiamo appena visto
sono reti neurali

344
00:16:00,267 --> 00:16:02,595
che sono completamente
allenate a distinguere

345
00:16:02,595 --> 00:16:04,862
o a riconoscere differenti cose
nel mondo,

346
00:16:04,862 --> 00:16:08,048
e se attivate al contrario, per creare.

347
00:16:08,048 --> 00:16:09,853
Una delle cose che mi suggerisce

348
00:16:09,853 --> 00:16:12,280
è che non solo Michelangelo
potesse davvero vedere

349
00:16:12,280 --> 00:16:14,752
la scultura all'interno
del blocco di pietra,

350
00:16:14,752 --> 00:16:18,408
ma che ogni creatura,
ogni essere, ogni alieno

351
00:16:18,408 --> 00:16:21,910
che è in grado di eseguire
atti percettivi di questo genere

352
00:16:21,910 --> 00:16:23,181
è anche in grado di creare

353
00:16:23,181 --> 00:16:26,740
perché è esattamente la stessa macchina
che viene usata in entrambi i casi.

354
00:16:26,740 --> 00:16:31,298
Inoltre penso che la percezione
e la creazione non siano

355
00:16:31,298 --> 00:16:32,534
mezzi unicamente umani.

356
00:16:32,534 --> 00:16:36,258
Iniziamo ad avere modelli di computer
che fanno proprio questo genere di cose.

357
00:16:36,258 --> 00:16:39,620
E questo non dovrebbe sorprendere;
il cervello è computazionale.

358
00:16:39,620 --> 00:16:41,302
Ed infine,

359
00:16:41,302 --> 00:16:45,993
il calcolo iniziò come un esercizio per
creare macchine intelligenti.

360
00:16:45,993 --> 00:16:48,475
È iniziato dall'idea

361
00:16:48,475 --> 00:16:51,341
che potessimo creare
macchine intelligenti.

362
00:16:51,341 --> 00:16:53,698
E finalmente stiamo iniziando
ad adempiere adesso

363
00:16:53,698 --> 00:16:56,134
ad alcune delle promesse
di quei primi pionieri,

364
00:16:56,134 --> 00:16:57,874
di Turing e von Neumann,

365
00:16:57,874 --> 00:17:00,151
di MacCulloch e Pitts.

366
00:17:00,151 --> 00:17:04,280
E pens che l'informatica
non sia solo calcolare

367
00:17:04,280 --> 00:17:06,322
o giocare a Candy Crush o altro.

368
00:17:06,322 --> 00:17:09,063
Fin dal principio, l'abbiamo
modellata sulle nostre menti.

369
00:17:09,063 --> 00:17:12,515
Ed essa ci hanno fornito sia la capacità
di capire meglio la nostra mente

370
00:17:12,515 --> 00:17:14,618
sia di ampliarla.

371
00:17:14,618 --> 00:17:15,824
Grazie mille.

372
00:17:15,824 --> 00:17:18,144
(ApplausiI)