1
00:00:00,800 --> 00:00:03,924
我在 Google 帶領
一個團隊做機械智慧；

2
00:00:03,948 --> 00:00:08,598
換句話說，就是制定一些訓練方法，

3
00:00:08,622 --> 00:00:11,041
讓電腦和裝置能做些大腦做的事。

4
00:00:11,439 --> 00:00:14,538
而這也讓我們對真實的大腦

5
00:00:14,562 --> 00:00:15,851
以及神經科學產生了興趣，

6
00:00:15,875 --> 00:00:20,047
特別是一些我們大腦能做

7
00:00:20,071 --> 00:00:24,113
但電腦仍無法呈現出來的事。

8
00:00:25,209 --> 00:00:28,818
長期以來，機械智慧的
其中一個領域談的就是機械感知，

9
00:00:28,842 --> 00:00:31,881
它是一種轉化的過程——

10
00:00:31,905 --> 00:00:33,489
像是把聲音和影像——

11
00:00:33,513 --> 00:00:35,691
轉化成心智上的概念。

12
00:00:36,235 --> 00:00:38,752
這是我們大腦必備的能力，

13
00:00:38,776 --> 00:00:41,240
這個能力對電腦來說也很有用。

14
00:00:41,636 --> 00:00:44,986
所謂的機械感知演算法，
像是我們團隊做的，

15
00:00:45,010 --> 00:00:48,884
能讓你 Google 相簿裡的照片

16
00:00:48,908 --> 00:00:51,295
根據照片裡的東西
把它們變成可以被搜尋的資料。

17
00:00:51,594 --> 00:00:55,087
感知的另一面是創意：

18
00:00:55,111 --> 00:00:58,149
把概念轉化成另一種東西。

19
00:00:58,173 --> 00:01:01,728
所以過去幾年，
我們團隊在機器感知上的努力，

20
00:01:01,752 --> 00:01:05,005
已經可以把創意與

21
00:01:05,005 --> 00:01:07,795
機器藝術結合在一起。

22
00:01:08,556 --> 00:01:11,840
我覺得米開朗基羅對「感知」
與「創意」這兩者之間的關係

23
00:01:11,864 --> 00:01:15,520
有一種很透析的看法。

24
00:01:16,023 --> 00:01:18,029
他有一句名言：

25
00:01:18,053 --> 00:01:21,376
「每一塊石頭裡都藏著一座雕像，

26
00:01:22,036 --> 00:01:25,038
等待雕刻家將它雕塑出來。」

27
00:01:26,029 --> 00:01:29,245
所以我覺得米開朗基羅
當時的體悟是：

28
00:01:29,269 --> 00:01:32,449
我們的「創意」來自「感知」，

29
00:01:32,473 --> 00:01:35,590
而感知本身就是一個想像行為

30
00:01:35,590 --> 00:01:38,261
及創意的來源。

31
00:01:38,691 --> 00:01:42,616
人體中有一個器官
能做出思考、感受和想像，

32
00:01:42,640 --> 00:01:44,228
當然，那就是我們的大腦。

33
00:01:45,089 --> 00:01:47,634
我想先簡單地來談一談

34
00:01:47,658 --> 00:01:49,960
我們對大腦認知的歷史。

35
00:01:50,496 --> 00:01:52,942
因為大腦不像我們的心臟或腸道，

36
00:01:52,966 --> 00:01:56,110
你不能光用看的來瞭解大腦，

37
00:01:56,134 --> 00:01:57,546
光靠肉眼根本看不出個所以然來。

38
00:01:57,983 --> 00:02:00,399
早期研究大腦的解剖學家，

39
00:02:00,423 --> 00:02:04,230
在大腦表皮結構上
取了許多稀奇古怪的名字，

40
00:02:04,254 --> 00:02:06,687
例如海馬體，意思是「小蝦子」。

41
00:02:06,711 --> 00:02:08,119
當然，這樣的命名方式

42
00:02:08,119 --> 00:02:12,627
並沒有讓我們對
大腦的認識有太多的幫助。

43
00:02:12,780 --> 00:02:16,393
我認為，第一個有真正深入了解

44
00:02:16,417 --> 00:02:18,347
大腦如何運作的，

45
00:02:18,371 --> 00:02:22,291
是偉大的西班牙神經解剖學家
桑地牙哥·拉蒙卡哈，

46
00:02:22,315 --> 00:02:23,859
他在十九世紀，

47
00:02:23,883 --> 00:02:27,638
就已經開始用顯微鏡和特殊染劑

48
00:02:27,662 --> 00:02:31,832
把大腦裡的特定細胞篩選出來染色，

49
00:02:31,856 --> 00:02:33,864
或以強烈的對比色來觀察細胞，

50
00:02:33,888 --> 00:02:37,442
這樣做，是為了瞭解
它們的形態結構。

51
00:02:37,972 --> 00:02:40,863
這些是他在十九世紀時

52
00:02:40,887 --> 00:02:42,096
畫的神經細胞圖，

53
00:02:42,120 --> 00:02:44,004
這一張是鳥的大腦。

54
00:02:44,028 --> 00:02:47,085
但當時已經可以看到
各式各樣不同的細胞圖片，

55
00:02:47,109 --> 00:02:50,544
即使細胞的原理
在當時是個相當新穎的概念。

56
00:02:50,568 --> 00:02:51,846
這些結構，

57
00:02:51,870 --> 00:02:54,129
這些樹枝狀的細胞結構，

58
00:02:54,153 --> 00:02:56,761
可以延伸到相當相當長──

59
00:02:56,785 --> 00:02:58,631
在當時來講，
這樣的發現算是相當神奇了。

60
00:02:58,779 --> 00:03:01,682
當然，它們也會讓人聯想到電線，

61
00:03:01,706 --> 00:03:05,163
這對 19 世紀的人來說，
這樣的比喻可能比較恰當，

62
00:03:05,187 --> 00:03:09,501
因為當時電線和電力的變革
正如火如荼的進行。

63
00:03:09,964 --> 00:03:11,142
但就很多方面來說，

64
00:03:11,166 --> 00:03:14,479
像拉蒙卡哈這樣的顯微鏡解剖圖

65
00:03:14,503 --> 00:03:16,835
現在看來還是很厲害。

66
00:03:16,859 --> 00:03:18,713
但我們卻在一個世紀後，

67
00:03:18,737 --> 00:03:21,562
才想試著去完成
當年拉蒙卡哈的研究。

68
00:03:21,586 --> 00:03:24,720
這些原始資料，來自我們

69
00:03:24,744 --> 00:03:27,625
馬克斯·普朗克
神經科學機構的合作夥伴。

70
00:03:27,649 --> 00:03:29,439
而我們的合作夥伴的工作就是

71
00:03:29,463 --> 00:03:34,464
把大腦組織切成
一小片一小片的圖像。

72
00:03:34,488 --> 00:03:37,814
整個樣本的大小
大約只有 1 立方毫米，

73
00:03:37,838 --> 00:03:40,459
我展示給各位看的只有小小的一片。

74
00:03:40,483 --> 00:03:42,829
你可以看到，
左邊的長度標誌僅有一微米。

75
00:03:42,853 --> 00:03:45,262
各位現在看到的結構是粒線體，

76
00:03:45,286 --> 00:03:47,330
大小跟細菌一樣。

77
00:03:47,354 --> 00:03:48,905
這些連續切片圖，

78
00:03:48,929 --> 00:03:52,077
是由一塊很小的組織中
一片片切出來的。

79
00:03:52,101 --> 00:03:54,504
舉個例子做比較，

80
00:03:54,528 --> 00:03:58,320
一根頭髮的直徑
大約有 100 微米。

81
00:03:58,344 --> 00:03:59,542
我們在研究的

82
00:03:59,542 --> 00:04:02,040
是比一根頭髮還更細更小的東西。

83
00:04:02,064 --> 00:04:06,095
而這一系列的電子顯微鏡切片圖像，

84
00:04:06,119 --> 00:04:11,127
可以組成像這樣的
神經元 3D 立體成像。

85
00:04:11,151 --> 00:04:14,308
這些和拉蒙卡哈
當年的研究相去不遠。

86
00:04:14,332 --> 00:04:15,824
但只有幾個神經元可以打光，

87
00:04:15,848 --> 00:04:18,629
否則我們會看不到東西。

88
00:04:18,653 --> 00:04:19,965
因為空間太壅擠、

89
00:04:19,989 --> 00:04:21,319
結構太複雜了，

90
00:04:21,343 --> 00:04:24,067
神經元蜿蜒地一個接著一個。

91
00:04:25,293 --> 00:04:28,097
所以，拉蒙卡哈在當時
也算是走在時代的尖端，

92
00:04:28,121 --> 00:04:30,676
但在那之後的幾十年，

93
00:04:30,700 --> 00:04:32,971
人類對大腦的認識卻相當緩慢。

94
00:04:33,455 --> 00:04:36,308
但我們已經知道
神經元是利用電子傳遞訊號，

95
00:04:36,332 --> 00:04:39,268
到第二次世界大戰前，
我們的科技已經進步到

96
00:04:39,292 --> 00:04:42,098
可以在活體神經元上做電子實驗，

97
00:04:42,122 --> 00:04:44,228
用來更好地理解它們是如何運作的。

98
00:04:44,631 --> 00:04:48,987
這也是電腦被發明出來的時間，

99
00:04:49,011 --> 00:04:52,111
當初有一個模擬人腦的基礎想法——

100
00:04:52,135 --> 00:04:55,220
是由艾倫·圖靈所提出，
他稱之為「智能機械」，

101
00:04:55,244 --> 00:04:57,235
他是計算機科學之父之一。

102
00:04:57,923 --> 00:05:02,555
當時沃倫麥卡洛克和華特彼特斯
（人工神經科學家）

103
00:05:02,579 --> 00:05:03,896
看到的視覺皮質圖，

104
00:05:03,920 --> 00:05:05,482
就是上面這張拉蒙卡哈的圖片。

105
00:05:05,506 --> 00:05:09,948
這個皮質層是負責把
眼睛傳來的訊號轉換成圖像。

106
00:05:10,424 --> 00:05:13,932
他們當時發現，
它看起來像是一張電路圖。

107
00:05:14,353 --> 00:05:17,362
雖然麥卡洛克和彼特斯

108
00:05:17,362 --> 00:05:19,564
在電路圖上有很多細節不太正確，

109
00:05:19,588 --> 00:05:20,823
但這樣的基礎概念，

110
00:05:20,847 --> 00:05:24,839
視覺皮層的工作原理

111
00:05:24,863 --> 00:05:27,609
像一系列的計算子
在串聯的電路圖上傳遞著資訊，

112
00:05:27,633 --> 00:05:29,235
這樣的概念卻是相當正確的。

113
00:05:29,259 --> 00:05:31,609
我們稍微聊一下，

114
00:05:31,633 --> 00:05:35,665
產生視覺資訊的模型，
需要做哪些事情。

115
00:05:36,228 --> 00:05:38,969
覺察力的基本任務就是

116
00:05:38,993 --> 00:05:42,761
比如說，看到這一張圖片，

117
00:05:42,761 --> 00:05:44,387
就要會判斷出，「這是一隻鳥」，

118
00:05:44,411 --> 00:05:47,285
這對我們大腦來說是很簡單的任務。

119
00:05:47,309 --> 00:05:50,730
但各位要知道，這對電腦來說

120
00:05:50,754 --> 00:05:53,841
在幾年前根本是不可能的事。

121
00:05:53,865 --> 00:05:55,781
傳統的計算模式

122
00:05:55,805 --> 00:05:58,312
根本不太容易跑出來這樣的任務。

123
00:05:59,366 --> 00:06:01,918
所以，像素、

124
00:06:01,942 --> 00:06:05,970
鳥圖與文字之間，

125
00:06:05,994 --> 00:06:08,362
一定要有一組彼此連結的神經元

126
00:06:08,362 --> 00:06:09,987
在神經網路內相互作用著，

127
00:06:10,011 --> 00:06:11,234
就像我這張示意圖。

128
00:06:11,258 --> 00:06:14,530
這張神經網路圖
就像我們的視覺皮質運作原理。

129
00:06:14,554 --> 00:06:16,716
如今，我們已經有能力

130
00:06:16,740 --> 00:06:19,194
用電腦來模擬這樣的神經網路。

131
00:06:19,834 --> 00:06:22,187
接下來我向各位展示一下，
實際的操作大概是怎樣。

132
00:06:22,211 --> 00:06:25,627
圖片的像素你可以把它想像成是
第一層的神經元，

133
00:06:25,651 --> 00:06:27,890
實際上，就是眼睛裡面
像素的呈現方式，

134
00:06:27,914 --> 00:06:29,577
像素是透過
視網膜上的神經元做傳遞。

135
00:06:29,601 --> 00:06:31,101
而這些前饋資訊

136
00:06:31,125 --> 00:06:34,528
會一層一層地傳遞到下一層神經元，

137
00:06:34,552 --> 00:06:37,585
全部由不同的「突觸權重」所連結。

138
00:06:37,609 --> 00:06:38,944
神經網路的行為

139
00:06:38,968 --> 00:06:42,252
全都由這些突觸的強度所控制。

140
00:06:42,276 --> 00:06:45,564
它們決定了神經網路的計算模式。

141
00:06:45,588 --> 00:06:47,058
最後，

142
00:06:47,082 --> 00:06:49,529
會有一個或一小群的
神經元發出訊號，

143
00:06:49,553 --> 00:06:51,650
辨識出該圖片就是，「鳥」。

144
00:06:51,824 --> 00:06:54,956
我現在要來解釋一下這三個元素——

145
00:06:54,980 --> 00:06:59,676
輸入的「像素」、
神經網路裡的「突觸」、

146
00:06:59,700 --> 00:07:01,285
還有「鳥」這個輸出的字元——
它們是如何運作的。

147
00:07:01,309 --> 00:07:04,366
它們是由三種變數所組成，
x、w 和 y。

148
00:07:04,853 --> 00:07:06,664
圖片中可能有一百多萬個 x ——

149
00:07:06,688 --> 00:07:08,641
100 多萬個像素。

150
00:07:08,665 --> 00:07:11,111
而 w 可能有數十億或好幾兆個，

151
00:07:11,135 --> 00:07:14,556
它們代表著神經網路中
各個突觸的權重。

152
00:07:14,580 --> 00:07:16,455
而這個網路能輸出的 y

153
00:07:16,479 --> 00:07:18,337
只有少數幾個。

154
00:07:18,361 --> 00:07:20,110
「bird」只有四個字母，對吧?

155
00:07:21,088 --> 00:07:24,514
我們假設它的原理是
一個簡單的公式，

156
00:07:24,538 --> 00:07:26,701
x 「乘以」 w = y

157
00:07:26,725 --> 00:07:28,761
我把乘法符號用引號標示起來

158
00:07:28,785 --> 00:07:31,065
因為它其實是一個

159
00:07:31,089 --> 00:07:34,135
非常複雜的數學運算概念。

160
00:07:35,172 --> 00:07:36,393
這個方程式

161
00:07:36,417 --> 00:07:38,089
有三個變數，

162
00:07:38,113 --> 00:07:40,839
我們都知道，如果你想要
解開這個方程式，

163
00:07:40,863 --> 00:07:44,505
可以從兩個已知數
交叉算出未知的數。

164
00:07:45,158 --> 00:07:48,538
所以要推斷出

165
00:07:48,562 --> 00:07:51,435
圖片中的影像是一隻鳥，

166
00:07:51,459 --> 00:07:52,733
可以用這種方式得知：

167
00:07:52,757 --> 00:07:56,216
y 是未知數，而 w 和 x 是已知數。

168
00:07:56,240 --> 00:07:58,699
已知神經網路和圖片像素，

169
00:07:58,723 --> 00:08:02,050
其實可以很直接的就得到答案，

170
00:08:02,074 --> 00:08:04,260
2x3=6，就做完了。

171
00:08:04,862 --> 00:08:06,985
我向各位展示一個

172
00:08:07,009 --> 00:08:09,305
我們最近做的人工神經網路，

173
00:08:09,634 --> 00:08:12,494
它可以在手機上做及時的操作，

174
00:08:12,518 --> 00:08:15,831
當然，手機的運算能力相當驚人，

175
00:08:15,855 --> 00:08:17,647
手機每秒

176
00:08:17,647 --> 00:08:20,595
可以做出數十億至上兆次的運算。

177
00:08:20,619 --> 00:08:22,514
你現在看到的是一隻手機

178
00:08:22,514 --> 00:08:25,805
正對著一張張的鳥圖拍照，

179
00:08:25,829 --> 00:08:28,544
手機不但可以正確的說出，
「是的，這是一隻鳥。」

180
00:08:28,568 --> 00:08:31,979
還能透過神經網路分類
分辨出這是哪一種鳥。

181
00:08:32,890 --> 00:08:34,716
所以，在這些圖片上，

182
00:08:34,740 --> 00:08:38,542
x 和 w 是已知，而 y 是未知。

183
00:08:38,566 --> 00:08:41,074
我現在來解釋一下這個
最困難的 「w」，

184
00:08:41,098 --> 00:08:44,959
我們到底是如何算出來的？

185
00:08:44,983 --> 00:08:47,170
為什麼大腦可以做出這樣的判斷？

186
00:08:47,194 --> 00:08:49,238
我們到底是如何學到
這樣的認知模式的？

187
00:08:49,418 --> 00:08:52,651
這個學習的過程，
是一個求解 w 的過程，

188
00:08:52,675 --> 00:08:55,322
如果我們要解這個一次方程式，

189
00:08:55,346 --> 00:08:57,346
當它們都是數字時，

190
00:08:57,370 --> 00:09:00,057
我們都知道如何解 6=2 x w，

191
00:09:00,081 --> 00:09:03,393
我們只要把 6 除以 2 
就可以得到答案。

192
00:09:04,001 --> 00:09:06,221
問題在於這個運算符號，

193
00:09:06,823 --> 00:09:07,974
除法這個符號——

194
00:09:07,998 --> 00:09:11,119
我們會用除法的方式求解，
是因為它跟乘法相反，

195
00:09:11,143 --> 00:09:12,583
但就如同我剛剛提到的，

196
00:09:12,607 --> 00:09:15,056
乘法在這裡有點像是個幌子。

197
00:09:15,080 --> 00:09:18,406
這是非常非常複雜的概念，
它們是「非線性運算」的概念；

198
00:09:18,430 --> 00:09:20,134
無法直接用除的求解。

199
00:09:20,158 --> 00:09:23,308
所以，我們要另外
找個方法來解方程式，

200
00:09:23,332 --> 00:09:25,356
而不能直接用除的。

201
00:09:25,380 --> 00:09:27,723
方法相當簡單，

202
00:09:27,747 --> 00:09:30,418
可以說，我們只用了點
代數的小技巧，

203
00:09:30,442 --> 00:09:33,348
將 6 移動到等號的右邊。

204
00:09:33,372 --> 00:09:35,198
如此我們就可以繼續用乘法來運算。

205
00:09:35,675 --> 00:09:39,255
而等號左邊的零——
我們把它想像成是誤差。

206
00:09:39,279 --> 00:09:41,794
換言之，如果要解出 w，

207
00:09:41,818 --> 00:09:43,474
誤差就要變成 0。

208
00:09:43,498 --> 00:09:45,436
如果我們沒找到答案

209
00:09:45,460 --> 00:09:47,209
誤差會永遠大於 0。

210
00:09:47,233 --> 00:09:50,599
所以，我們現在
只能用猜的來縮小誤差，

211
00:09:50,623 --> 00:09:53,310
而這就是電腦非常擅長的地方。

212
00:09:53,334 --> 00:09:54,927
所以，你會從頭開始猜：

213
00:09:54,951 --> 00:09:56,107
假設 w=0

214
00:09:56,131 --> 00:09:57,371
那誤差會等於6

215
00:09:57,395 --> 00:09:58,841
但假如 w=1 呢？誤差等於 4。

216
00:09:58,865 --> 00:10:01,232
接下來電腦有點像是在玩
馬可波羅探索遊戲，

217
00:10:01,256 --> 00:10:03,623
探索到誤差接近零為止。

218
00:10:03,647 --> 00:10:07,021
當它一直探索到零，
那麼 w 就解出來了。

219
00:10:07,045 --> 00:10:10,701
原則上，它會不停探索直到接近零，
但大約經過多次步驟後，

220
00:10:10,725 --> 00:10:15,349
我們就能得出 w=2.999，
相當接近了。

221
00:10:16,302 --> 00:10:18,116
這就是電腦學習的過程。

222
00:10:18,140 --> 00:10:20,870
回想一下剛剛發生了什麼事情，

223
00:10:20,894 --> 00:10:25,272
我們有很多已知的 x 和 y，

224
00:10:25,296 --> 00:10:28,750
透過重複迭代的過程解出了 w。

225
00:10:28,774 --> 00:10:32,330
而這就是我們人類學習的過程，

226
00:10:32,354 --> 00:10:34,584
我們從小看了很多圖片

227
00:10:34,608 --> 00:10:37,241
被告知「這是鳥」，「這不是鳥」；

228
00:10:37,714 --> 00:10:39,812
經過了一段時間，不停地重複，

229
00:10:39,836 --> 00:10:43,294
我們解出了 w，
產生了神經元的連結關係。

230
00:10:43,460 --> 00:10:47,546
所以現在，我們的 x 和 w 
是固定數，可以解出 y；

231
00:10:47,570 --> 00:10:49,417
這就是我們人類每天
經常性的快速直覺判斷。

232
00:10:49,441 --> 00:10:51,204
我們搞懂了如何解出 w，

233
00:10:51,228 --> 00:10:53,131
而學習本身是一條相當艱辛的路程，

234
00:10:53,155 --> 00:10:55,140
因為為了讓誤差最小化，

235
00:10:55,164 --> 00:10:56,851
我們必須使用很多的訓練樣本。

236
00:10:56,875 --> 00:11:00,062
約一年前，我們團隊的
艾力克斯摩文斯夫

237
00:11:00,086 --> 00:11:02,360
決定做個實驗，

238
00:11:02,360 --> 00:11:05,697
看看如果我們試著給出了 w 和 y，
解出來的 x 會變什麼樣。

239
00:11:06,124 --> 00:11:07,275
換句話說，

240
00:11:07,299 --> 00:11:08,651
電腦知道它是一隻鳥，

241
00:11:08,675 --> 00:11:11,978
電腦有你給它訓練出來
辨識鳥圖片的神經網路，

242
00:11:12,002 --> 00:11:14,346
但對電腦而言，鳥是怎樣的圖像？

243
00:11:15,034 --> 00:11:20,058
原來，使用一模一樣的
「誤差最小化」程序

244
00:11:20,082 --> 00:11:23,512
以及訓練出來
用來辨識鳥的神經網路，

245
00:11:23,536 --> 00:11:26,924
你就能辨識出……

246
00:11:30,400 --> 00:11:32,485
這是一張鳥圖，

247
00:11:32,814 --> 00:11:35,755
所以，這是一張完全由

248
00:11:35,755 --> 00:11:38,401
訓練辨認鳥的神經網路
自行創造出來的鳥圖，

249
00:11:38,425 --> 00:11:41,477
只要透過不斷地重複解出 x，

250
00:11:41,477 --> 00:11:43,575
而不是解 y 就可以了。

251
00:11:43,732 --> 00:11:45,579
這裡有另一個有趣的範例。

252
00:11:45,603 --> 00:11:49,040
我們團隊裡的
另外一位組員麥克泰卡，

253
00:11:49,064 --> 00:11:51,372
他稱這些畫為《動物大遊行》。

254
00:11:51,396 --> 00:11:54,272
這讓我有點回想起了
威廉肯特基的作品，

255
00:11:54,296 --> 00:11:56,785
他畫好素描後，擦掉它，

256
00:11:56,809 --> 00:11:58,269
然後反覆地畫、反覆地擦

257
00:11:58,293 --> 00:11:59,691
透過這樣的方式，
創造出了一部影片。

258
00:11:59,715 --> 00:12:00,866
在這個展示裡，

259
00:12:00,890 --> 00:12:04,167
麥可做的就是把不同動物的 y ，

260
00:12:04,191 --> 00:12:06,573
透過設計好的神經網路，

261
00:12:06,597 --> 00:12:08,407
彼此辨認並分別出不一樣的動物。

262
00:12:08,431 --> 00:12:12,182
如此，你就能得到一張像艾雪一樣的
不同動物的變體圖像。

263
00:12:14,221 --> 00:12:18,835
這一張是他和艾力克斯一起完成的，

264
00:12:18,859 --> 00:12:21,618
他們試著減少 y 的數量，
將這些圖案丟到一個 2D 平面上，

265
00:12:21,642 --> 00:12:25,080
透過這個網路的辨識，

266
00:12:25,104 --> 00:12:26,823
創造出了這一張有各種動物的地圖。

267
00:12:26,847 --> 00:12:28,870
要做出這樣的綜合體，

268
00:12:28,894 --> 00:12:31,276
或透過整張圖面產出圖像，

269
00:12:31,300 --> 00:12:34,146
你只要在圖面上給出各式各樣的 y ，
你就能做出一張地圖來——

270
00:12:34,170 --> 00:12:37,311
一張由神經網路辨識出的視覺地圖。

271
00:12:37,335 --> 00:12:40,200
所有動物都會在這上面，
犰狳就在圖上這個點。

272
00:12:40,919 --> 00:12:43,398
你也可以透過不同的神經網路，
做出類似這樣的作品，

273
00:12:43,422 --> 00:12:46,296
這一張由辨識臉的神經網路

274
00:12:46,320 --> 00:12:48,320
所做出來的作品，

275
00:12:48,344 --> 00:12:51,593
這一張是用「我」當作 y ，
所做出來的圖畫，

276
00:12:51,617 --> 00:12:53,192
用我的臉當參數。

277
00:12:53,216 --> 00:12:54,922
當電腦解出 x 後，

278
00:12:54,946 --> 00:12:57,564
它就畫出了這一張相當瘋狂、

279
00:12:57,588 --> 00:13:02,016
有點像立體派藝術、
超現實、迷幻效果的我，

280
00:13:02,040 --> 00:13:03,846
同一張圖卻有不同的視角。

281
00:13:03,870 --> 00:13:06,604
而會有這種「同一張圖
不同視角」的感覺，

282
00:13:06,628 --> 00:13:10,315
是因為這個神經網路的設計，

283
00:13:10,339 --> 00:13:13,285
可以將不同姿勢臉之間的
模糊地帶移除掉，

284
00:13:13,285 --> 00:13:16,215
透過觀察不同的光源就可以做到。

285
00:13:16,239 --> 00:13:18,324
所以，當你重新製作圖像時，

286
00:13:18,348 --> 00:13:20,652
如果你沒有使用指導圖，

287
00:13:20,676 --> 00:13:21,887
或特定的統計資料，

288
00:13:21,911 --> 00:13:25,676
那你就能得到來自
不同角度的混合體圖像，

289
00:13:25,700 --> 00:13:27,548
因為它是模糊的。

290
00:13:27,786 --> 00:13:32,009
所以如果艾力克斯
用他自己的臉當作指導圖

291
00:13:32,033 --> 00:13:35,354
在優化過程中重新建造我的臉，
就會產生這樣的圖像。

292
00:13:36,284 --> 00:13:38,612
各位可以看到，
這作品還不是很完美，

293
00:13:38,636 --> 00:13:40,510
在圖像優化的過程方面，

294
00:13:40,534 --> 00:13:42,987
還有很多工作要做。

295
00:13:43,011 --> 00:13:45,838
但如果用我的臉當指導圖，

296
00:13:45,862 --> 00:13:48,736
就能漸漸地顯現出比較
條理分明的臉。

297
00:13:48,892 --> 00:13:51,393
你不需要從一張空白的畫布

298
00:13:51,417 --> 00:13:52,573
或用白雜訊畫起。

299
00:13:52,597 --> 00:13:53,901
當你解出 x 後，

300
00:13:53,925 --> 00:13:57,814
你就可以從 x 開始畫起，
因為它本身就有一些圖像。

301
00:13:57,838 --> 00:14:00,394
這個小小的展示
說明了它的運作原理。

302
00:14:00,418 --> 00:14:04,540
這個網路是設計用來
分辨各種不同的物體，

303
00:14:04,564 --> 00:14:07,683
像是人造結構、動物……等。

304
00:14:07,707 --> 00:14:10,300
這一張畫我們是從
雲朵的圖像開始畫起的，

305
00:14:10,324 --> 00:14:11,995
當我們把它優化後，

306
00:14:12,019 --> 00:14:16,505
基本上，這個神經網路
正在搞懂它在雲朵中看見了什麼。

307
00:14:16,931 --> 00:14:19,251
當你看得越久，

308
00:14:19,275 --> 00:14:22,028
你就能在雲層中看得越多。

309
00:14:23,004 --> 00:14:26,379
你也可以運用人臉網路
讓它產生幻覺，

310
00:14:26,403 --> 00:14:28,215
然後就會跑出相當瘋狂的畫作。

311
00:14:28,239 --> 00:14:29,389
（笑聲）

312
00:14:30,401 --> 00:14:33,145
或者，麥可已經有作出
一些其它的實驗，

313
00:14:33,169 --> 00:14:37,074
他用那張雲朵的圖像，

314
00:14:37,098 --> 00:14:40,605
使電腦產生幻覺、然後放大、
產生幻覺、再放大。

315
00:14:40,629 --> 00:14:41,780
用這樣的方式，

316
00:14:41,804 --> 00:14:45,479
我在想，你就能得到一種
像是在神遊狀態的網路，

317
00:14:45,503 --> 00:14:49,183
或者像是一種無拘束的聯想，

318
00:14:49,207 --> 00:14:51,434
彷彿神經網路正在吃著自己的尾巴。

319
00:14:51,458 --> 00:14:54,879
所以每一張圖像基本上像是正在想：

320
00:14:54,903 --> 00:14:56,324
「我接下來會看到什麼？

321
00:14:56,348 --> 00:14:59,151
接下來會看到什麼？
接下來會看到什麼？」

322
00:14:59,487 --> 00:15:02,423
我第一次在一個
公眾場合上展示這個影片，

323
00:15:02,447 --> 00:15:07,884
是在西雅圖的「高等教育」
機構做演說時展示的，

324
00:15:07,908 --> 00:15:10,345
當時剛好是大麻剛合法化的時候。

325
00:15:10,369 --> 00:15:12,784
（笑聲）

326
00:15:14,627 --> 00:15:16,731
所以，我快速總結一下，

327
00:15:16,755 --> 00:15:21,010
這項技術並不會受到約束。

328
00:15:21,034 --> 00:15:24,699
我剛剛展示的是純粹的視覺範例，
因為觀察它的變化，真的很好玩。

329
00:15:24,723 --> 00:15:27,174
它不單只有視覺科技。

330
00:15:27,198 --> 00:15:29,191
我們的藝術合作者，羅斯谷穎
已經做了一些實驗，

331
00:15:29,215 --> 00:15:32,886
他用相機拍了一張照片，

332
00:15:32,910 --> 00:15:37,144
然後他背包裡的電腦
會根據圖片上的內容，

333
00:15:37,168 --> 00:15:39,112
透過神經網路，創作出一首詩。

334
00:15:39,136 --> 00:15:42,083
這個會作詩的神經網路

335
00:15:42,107 --> 00:15:44,341
是透過大量 20 世紀的詩集
所訓練出來的，

336
00:15:44,365 --> 00:15:45,864
而做出來的詩，

337
00:15:45,888 --> 00:15:47,802
實際上，我覺得還得不錯。

338
00:15:47,826 --> 00:15:49,210
（笑聲）

339
00:15:49,234 --> 00:15:50,393
整體而言，

340
00:15:50,417 --> 00:15:52,549
我在想，米開朗基羅，

341
00:15:52,573 --> 00:15:53,807
他是對的；

342
00:15:53,831 --> 00:15:57,267
感知和創意的關係是相當緊密的。

343
00:15:57,611 --> 00:16:00,245
我們剛剛看的神經網路，

344
00:16:00,269 --> 00:16:02,572
它們是被訓練出來分辯

345
00:16:02,596 --> 00:16:04,838
或辨認世界上不同的東西，

346
00:16:04,862 --> 00:16:08,023
也可以反過來，自行創作出東西來。

347
00:16:08,047 --> 00:16:09,830
而我從中所得到的

348
00:16:09,854 --> 00:16:12,252
不僅有米開朗基羅的啟發：

349
00:16:12,276 --> 00:16:14,728
「看見石頭裡的雕像」，

350
00:16:14,752 --> 00:16:18,390
還有任何能做出感知活動的
生物、生命、外來物種

351
00:16:18,414 --> 00:16:22,071
都能透過這樣的方式

352
00:16:22,095 --> 00:16:23,470
被呈現並創造出來，

353
00:16:23,494 --> 00:16:26,718
因為這兩者與剛才舉的例子
都有著相同的機制。

354
00:16:26,742 --> 00:16:30,668
我也認為，感知及創意

355
00:16:30,668 --> 00:16:32,508
不是只有我們人類獨有。

356
00:16:32,532 --> 00:16:36,240
我們已經有電腦模式
可以做出相當類似的事。

357
00:16:36,264 --> 00:16:39,592
所以不需要感到驚訝；
因為大腦是會運算的。

358
00:16:39,616 --> 00:16:41,273
最後，我要說的是，

359
00:16:41,297 --> 00:16:45,965
設計智能機器已經開始成為
電腦界的活動。

360
00:16:45,989 --> 00:16:48,451
在如何讓機器更智能的領域方面，

361
00:16:48,475 --> 00:16:51,488
已經有很多的模式產生。

362
00:16:51,512 --> 00:16:53,674
我們終於開始

363
00:16:53,698 --> 00:16:56,104
完成一些早期前輩們

364
00:16:56,128 --> 00:16:57,841
像是圖靈、馮諾伊曼、

365
00:16:57,865 --> 00:17:00,130
馬庫洛奇和皮斯的期望。

366
00:17:00,154 --> 00:17:04,252
而我也認為電腦不是只有拿來計算

367
00:17:04,276 --> 00:17:06,423
或玩玩 Candy Crush 而已，

368
00:17:06,447 --> 00:17:09,025
回到初衷，我們想要的
是讓電腦能仿效人腦。

369
00:17:09,049 --> 00:17:11,842
它不僅讓我們更了解了人類的心智，

370
00:17:11,842 --> 00:17:14,581
並讓我們獲得延伸發展心智的能力。

371
00:17:14,627 --> 00:17:15,794
非常感謝大家。

372
00:17:15,818 --> 00:17:21,757
（掌聲）