1 00:00:00,800 --> 00:00:03,924 我在 Google 帶領 一個團隊做機械智慧; 2 00:00:03,948 --> 00:00:08,598 換句話說,就是制定一些訓練方法, 3 00:00:08,622 --> 00:00:11,041 讓電腦和裝置能做些大腦做的事。 4 00:00:11,439 --> 00:00:14,538 而這也讓我們對真實的大腦 5 00:00:14,562 --> 00:00:15,851 以及神經科學產生了興趣, 6 00:00:15,875 --> 00:00:20,047 特別是一些我們大腦能做 7 00:00:20,071 --> 00:00:24,113 但電腦仍無法呈現出來的事。 8 00:00:25,209 --> 00:00:28,818 長期以來,機械智慧的 其中一個領域談的就是機械感知, 9 00:00:28,842 --> 00:00:31,881 它是一種轉化的過程—— 10 00:00:31,905 --> 00:00:33,489 像是把聲音和影像—— 11 00:00:33,513 --> 00:00:35,691 轉化成心智上的概念。 12 00:00:36,235 --> 00:00:38,752 這是我們大腦必備的能力, 13 00:00:38,776 --> 00:00:41,240 這個能力對電腦來說也很有用。 14 00:00:41,636 --> 00:00:44,986 所謂的機械感知演算法, 像是我們團隊做的, 15 00:00:45,010 --> 00:00:48,884 能讓你 Google 相簿裡的照片 16 00:00:48,908 --> 00:00:51,295 根據照片裡的東西 把它們變成可以被搜尋的資料。 17 00:00:51,594 --> 00:00:55,087 感知的另一面是創意: 18 00:00:55,111 --> 00:00:58,149 把概念轉化成另一種東西。 19 00:00:58,173 --> 00:01:01,728 所以過去幾年, 我們團隊在機器感知上的努力, 20 00:01:01,752 --> 00:01:05,005 已經可以把創意與 21 00:01:05,005 --> 00:01:07,795 機器藝術結合在一起。 22 00:01:08,556 --> 00:01:11,840 我覺得米開朗基羅對「感知」 與「創意」這兩者之間的關係 23 00:01:11,864 --> 00:01:15,520 有一種很透析的看法。 24 00:01:16,023 --> 00:01:18,029 他有一句名言: 25 00:01:18,053 --> 00:01:21,376 「每一塊石頭裡都藏著一座雕像, 26 00:01:22,036 --> 00:01:25,038 等待雕刻家將它雕塑出來。」 27 00:01:26,029 --> 00:01:29,245 所以我覺得米開朗基羅 當時的體悟是: 28 00:01:29,269 --> 00:01:32,449 我們的「創意」來自「感知」, 29 00:01:32,473 --> 00:01:35,590 而感知本身就是一個想像行為 30 00:01:35,590 --> 00:01:38,261 及創意的來源。 31 00:01:38,691 --> 00:01:42,616 人體中有一個器官 能做出思考、感受和想像, 32 00:01:42,640 --> 00:01:44,228 當然,那就是我們的大腦。 33 00:01:45,089 --> 00:01:47,634 我想先簡單地來談一談 34 00:01:47,658 --> 00:01:49,960 我們對大腦認知的歷史。 35 00:01:50,496 --> 00:01:52,942 因為大腦不像我們的心臟或腸道, 36 00:01:52,966 --> 00:01:56,110 你不能光用看的來瞭解大腦, 37 00:01:56,134 --> 00:01:57,546 光靠肉眼根本看不出個所以然來。 38 00:01:57,983 --> 00:02:00,399 早期研究大腦的解剖學家, 39 00:02:00,423 --> 00:02:04,230 在大腦表皮結構上 取了許多稀奇古怪的名字, 40 00:02:04,254 --> 00:02:06,687 例如海馬體,意思是「小蝦子」。 41 00:02:06,711 --> 00:02:08,119 當然,這樣的命名方式 42 00:02:08,119 --> 00:02:12,627 並沒有讓我們對 大腦的認識有太多的幫助。 43 00:02:12,780 --> 00:02:16,393 我認為,第一個有真正深入了解 44 00:02:16,417 --> 00:02:18,347 大腦如何運作的, 45 00:02:18,371 --> 00:02:22,291 是偉大的西班牙神經解剖學家 桑地牙哥·拉蒙卡哈, 46 00:02:22,315 --> 00:02:23,859 他在十九世紀, 47 00:02:23,883 --> 00:02:27,638 就已經開始用顯微鏡和特殊染劑 48 00:02:27,662 --> 00:02:31,832 把大腦裡的特定細胞篩選出來染色, 49 00:02:31,856 --> 00:02:33,864 或以強烈的對比色來觀察細胞, 50 00:02:33,888 --> 00:02:37,442 這樣做,是為了瞭解 它們的形態結構。 51 00:02:37,972 --> 00:02:40,863 這些是他在十九世紀時 52 00:02:40,887 --> 00:02:42,096 畫的神經細胞圖, 53 00:02:42,120 --> 00:02:44,004 這一張是鳥的大腦。 54 00:02:44,028 --> 00:02:47,085 但當時已經可以看到 各式各樣不同的細胞圖片, 55 00:02:47,109 --> 00:02:50,544 即使細胞的原理 在當時是個相當新穎的概念。 56 00:02:50,568 --> 00:02:51,846 這些結構, 57 00:02:51,870 --> 00:02:54,129 這些樹枝狀的細胞結構, 58 00:02:54,153 --> 00:02:56,761 可以延伸到相當相當長── 59 00:02:56,785 --> 00:02:58,631 在當時來講, 這樣的發現算是相當神奇了。 60 00:02:58,779 --> 00:03:01,682 當然,它們也會讓人聯想到電線, 61 00:03:01,706 --> 00:03:05,163 這對 19 世紀的人來說, 這樣的比喻可能比較恰當, 62 00:03:05,187 --> 00:03:09,501 因為當時電線和電力的變革 正如火如荼的進行。 63 00:03:09,964 --> 00:03:11,142 但就很多方面來說, 64 00:03:11,166 --> 00:03:14,479 像拉蒙卡哈這樣的顯微鏡解剖圖 65 00:03:14,503 --> 00:03:16,835 現在看來還是很厲害。 66 00:03:16,859 --> 00:03:18,713 但我們卻在一個世紀後, 67 00:03:18,737 --> 00:03:21,562 才想試著去完成 當年拉蒙卡哈的研究。 68 00:03:21,586 --> 00:03:24,720 這些原始資料,來自我們 69 00:03:24,744 --> 00:03:27,625 馬克斯·普朗克 神經科學機構的合作夥伴。 70 00:03:27,649 --> 00:03:29,439 而我們的合作夥伴的工作就是 71 00:03:29,463 --> 00:03:34,464 把大腦組織切成 一小片一小片的圖像。 72 00:03:34,488 --> 00:03:37,814 整個樣本的大小 大約只有 1 立方毫米, 73 00:03:37,838 --> 00:03:40,459 我展示給各位看的只有小小的一片。 74 00:03:40,483 --> 00:03:42,829 你可以看到, 左邊的長度標誌僅有一微米。 75 00:03:42,853 --> 00:03:45,262 各位現在看到的結構是粒線體, 76 00:03:45,286 --> 00:03:47,330 大小跟細菌一樣。 77 00:03:47,354 --> 00:03:48,905 這些連續切片圖, 78 00:03:48,929 --> 00:03:52,077 是由一塊很小的組織中 一片片切出來的。 79 00:03:52,101 --> 00:03:54,504 舉個例子做比較, 80 00:03:54,528 --> 00:03:58,320 一根頭髮的直徑 大約有 100 微米。 81 00:03:58,344 --> 00:03:59,542 我們在研究的 82 00:03:59,542 --> 00:04:02,040 是比一根頭髮還更細更小的東西。 83 00:04:02,064 --> 00:04:06,095 而這一系列的電子顯微鏡切片圖像, 84 00:04:06,119 --> 00:04:11,127 可以組成像這樣的 神經元 3D 立體成像。 85 00:04:11,151 --> 00:04:14,308 這些和拉蒙卡哈 當年的研究相去不遠。 86 00:04:14,332 --> 00:04:15,824 但只有幾個神經元可以打光, 87 00:04:15,848 --> 00:04:18,629 否則我們會看不到東西。 88 00:04:18,653 --> 00:04:19,965 因為空間太壅擠、 89 00:04:19,989 --> 00:04:21,319 結構太複雜了, 90 00:04:21,343 --> 00:04:24,067 神經元蜿蜒地一個接著一個。 91 00:04:25,293 --> 00:04:28,097 所以,拉蒙卡哈在當時 也算是走在時代的尖端, 92 00:04:28,121 --> 00:04:30,676 但在那之後的幾十年, 93 00:04:30,700 --> 00:04:32,971 人類對大腦的認識卻相當緩慢。 94 00:04:33,455 --> 00:04:36,308 但我們已經知道 神經元是利用電子傳遞訊號, 95 00:04:36,332 --> 00:04:39,268 到第二次世界大戰前, 我們的科技已經進步到 96 00:04:39,292 --> 00:04:42,098 可以在活體神經元上做電子實驗, 97 00:04:42,122 --> 00:04:44,228 用來更好地理解它們是如何運作的。 98 00:04:44,631 --> 00:04:48,987 這也是電腦被發明出來的時間, 99 00:04:49,011 --> 00:04:52,111 當初有一個模擬人腦的基礎想法—— 100 00:04:52,135 --> 00:04:55,220 是由艾倫·圖靈所提出, 他稱之為「智能機械」, 101 00:04:55,244 --> 00:04:57,235 他是計算機科學之父之一。 102 00:04:57,923 --> 00:05:02,555 當時沃倫麥卡洛克和華特彼特斯 (人工神經科學家) 103 00:05:02,579 --> 00:05:03,896 看到的視覺皮質圖, 104 00:05:03,920 --> 00:05:05,482 就是上面這張拉蒙卡哈的圖片。 105 00:05:05,506 --> 00:05:09,948 這個皮質層是負責把 眼睛傳來的訊號轉換成圖像。 106 00:05:10,424 --> 00:05:13,932 他們當時發現, 它看起來像是一張電路圖。 107 00:05:14,353 --> 00:05:17,362 雖然麥卡洛克和彼特斯 108 00:05:17,362 --> 00:05:19,564 在電路圖上有很多細節不太正確, 109 00:05:19,588 --> 00:05:20,823 但這樣的基礎概念, 110 00:05:20,847 --> 00:05:24,839 視覺皮層的工作原理 111 00:05:24,863 --> 00:05:27,609 像一系列的計算子 在串聯的電路圖上傳遞著資訊, 112 00:05:27,633 --> 00:05:29,235 這樣的概念卻是相當正確的。 113 00:05:29,259 --> 00:05:31,609 我們稍微聊一下, 114 00:05:31,633 --> 00:05:35,665 產生視覺資訊的模型, 需要做哪些事情。 115 00:05:36,228 --> 00:05:38,969 覺察力的基本任務就是 116 00:05:38,993 --> 00:05:42,761 比如說,看到這一張圖片, 117 00:05:42,761 --> 00:05:44,387 就要會判斷出,「這是一隻鳥」, 118 00:05:44,411 --> 00:05:47,285 這對我們大腦來說是很簡單的任務。 119 00:05:47,309 --> 00:05:50,730 但各位要知道,這對電腦來說 120 00:05:50,754 --> 00:05:53,841 在幾年前根本是不可能的事。 121 00:05:53,865 --> 00:05:55,781 傳統的計算模式 122 00:05:55,805 --> 00:05:58,312 根本不太容易跑出來這樣的任務。 123 00:05:59,366 --> 00:06:01,918 所以,像素、 124 00:06:01,942 --> 00:06:05,970 鳥圖與文字之間, 125 00:06:05,994 --> 00:06:08,362 一定要有一組彼此連結的神經元 126 00:06:08,362 --> 00:06:09,987 在神經網路內相互作用著, 127 00:06:10,011 --> 00:06:11,234 就像我這張示意圖。 128 00:06:11,258 --> 00:06:14,530 這張神經網路圖 就像我們的視覺皮質運作原理。 129 00:06:14,554 --> 00:06:16,716 如今,我們已經有能力 130 00:06:16,740 --> 00:06:19,194 用電腦來模擬這樣的神經網路。 131 00:06:19,834 --> 00:06:22,187 接下來我向各位展示一下, 實際的操作大概是怎樣。 132 00:06:22,211 --> 00:06:25,627 圖片的像素你可以把它想像成是 第一層的神經元, 133 00:06:25,651 --> 00:06:27,890 實際上,就是眼睛裡面 像素的呈現方式, 134 00:06:27,914 --> 00:06:29,577 像素是透過 視網膜上的神經元做傳遞。 135 00:06:29,601 --> 00:06:31,101 而這些前饋資訊 136 00:06:31,125 --> 00:06:34,528 會一層一層地傳遞到下一層神經元, 137 00:06:34,552 --> 00:06:37,585 全部由不同的「突觸權重」所連結。 138 00:06:37,609 --> 00:06:38,944 神經網路的行為 139 00:06:38,968 --> 00:06:42,252 全都由這些突觸的強度所控制。 140 00:06:42,276 --> 00:06:45,564 它們決定了神經網路的計算模式。 141 00:06:45,588 --> 00:06:47,058 最後, 142 00:06:47,082 --> 00:06:49,529 會有一個或一小群的 神經元發出訊號, 143 00:06:49,553 --> 00:06:51,650 辨識出該圖片就是,「鳥」。 144 00:06:51,824 --> 00:06:54,956 我現在要來解釋一下這三個元素—— 145 00:06:54,980 --> 00:06:59,676 輸入的「像素」、 神經網路裡的「突觸」、 146 00:06:59,700 --> 00:07:01,285 還有「鳥」這個輸出的字元—— 它們是如何運作的。 147 00:07:01,309 --> 00:07:04,366 它們是由三種變數所組成, x、w 和 y。 148 00:07:04,853 --> 00:07:06,664 圖片中可能有一百多萬個 x —— 149 00:07:06,688 --> 00:07:08,641 100 多萬個像素。 150 00:07:08,665 --> 00:07:11,111 而 w 可能有數十億或好幾兆個, 151 00:07:11,135 --> 00:07:14,556 它們代表著神經網路中 各個突觸的權重。 152 00:07:14,580 --> 00:07:16,455 而這個網路能輸出的 y 153 00:07:16,479 --> 00:07:18,337 只有少數幾個。 154 00:07:18,361 --> 00:07:20,110 「bird」只有四個字母,對吧? 155 00:07:21,088 --> 00:07:24,514 我們假設它的原理是 一個簡單的公式, 156 00:07:24,538 --> 00:07:26,701 x 「乘以」 w = y 157 00:07:26,725 --> 00:07:28,761 我把乘法符號用引號標示起來 158 00:07:28,785 --> 00:07:31,065 因為它其實是一個 159 00:07:31,089 --> 00:07:34,135 非常複雜的數學運算概念。 160 00:07:35,172 --> 00:07:36,393 這個方程式 161 00:07:36,417 --> 00:07:38,089 有三個變數, 162 00:07:38,113 --> 00:07:40,839 我們都知道,如果你想要 解開這個方程式, 163 00:07:40,863 --> 00:07:44,505 可以從兩個已知數 交叉算出未知的數。 164 00:07:45,158 --> 00:07:48,538 所以要推斷出 165 00:07:48,562 --> 00:07:51,435 圖片中的影像是一隻鳥, 166 00:07:51,459 --> 00:07:52,733 可以用這種方式得知: 167 00:07:52,757 --> 00:07:56,216 y 是未知數,而 w 和 x 是已知數。 168 00:07:56,240 --> 00:07:58,699 已知神經網路和圖片像素, 169 00:07:58,723 --> 00:08:02,050 其實可以很直接的就得到答案, 170 00:08:02,074 --> 00:08:04,260 2x3=6,就做完了。 171 00:08:04,862 --> 00:08:06,985 我向各位展示一個 172 00:08:07,009 --> 00:08:09,305 我們最近做的人工神經網路, 173 00:08:09,634 --> 00:08:12,494 它可以在手機上做及時的操作, 174 00:08:12,518 --> 00:08:15,831 當然,手機的運算能力相當驚人, 175 00:08:15,855 --> 00:08:17,647 手機每秒 176 00:08:17,647 --> 00:08:20,595 可以做出數十億至上兆次的運算。 177 00:08:20,619 --> 00:08:22,514 你現在看到的是一隻手機 178 00:08:22,514 --> 00:08:25,805 正對著一張張的鳥圖拍照, 179 00:08:25,829 --> 00:08:28,544 手機不但可以正確的說出, 「是的,這是一隻鳥。」 180 00:08:28,568 --> 00:08:31,979 還能透過神經網路分類 分辨出這是哪一種鳥。 181 00:08:32,890 --> 00:08:34,716 所以,在這些圖片上, 182 00:08:34,740 --> 00:08:38,542 x 和 w 是已知,而 y 是未知。 183 00:08:38,566 --> 00:08:41,074 我現在來解釋一下這個 最困難的 「w」, 184 00:08:41,098 --> 00:08:44,959 我們到底是如何算出來的? 185 00:08:44,983 --> 00:08:47,170 為什麼大腦可以做出這樣的判斷? 186 00:08:47,194 --> 00:08:49,238 我們到底是如何學到 這樣的認知模式的? 187 00:08:49,418 --> 00:08:52,651 這個學習的過程, 是一個求解 w 的過程, 188 00:08:52,675 --> 00:08:55,322 如果我們要解這個一次方程式, 189 00:08:55,346 --> 00:08:57,346 當它們都是數字時, 190 00:08:57,370 --> 00:09:00,057 我們都知道如何解 6=2 x w, 191 00:09:00,081 --> 00:09:03,393 我們只要把 6 除以 2 就可以得到答案。 192 00:09:04,001 --> 00:09:06,221 問題在於這個運算符號, 193 00:09:06,823 --> 00:09:07,974 除法這個符號—— 194 00:09:07,998 --> 00:09:11,119 我們會用除法的方式求解, 是因為它跟乘法相反, 195 00:09:11,143 --> 00:09:12,583 但就如同我剛剛提到的, 196 00:09:12,607 --> 00:09:15,056 乘法在這裡有點像是個幌子。 197 00:09:15,080 --> 00:09:18,406 這是非常非常複雜的概念, 它們是「非線性運算」的概念; 198 00:09:18,430 --> 00:09:20,134 無法直接用除的求解。 199 00:09:20,158 --> 00:09:23,308 所以,我們要另外 找個方法來解方程式, 200 00:09:23,332 --> 00:09:25,356 而不能直接用除的。 201 00:09:25,380 --> 00:09:27,723 方法相當簡單, 202 00:09:27,747 --> 00:09:30,418 可以說,我們只用了點 代數的小技巧, 203 00:09:30,442 --> 00:09:33,348 將 6 移動到等號的右邊。 204 00:09:33,372 --> 00:09:35,198 如此我們就可以繼續用乘法來運算。 205 00:09:35,675 --> 00:09:39,255 而等號左邊的零—— 我們把它想像成是誤差。 206 00:09:39,279 --> 00:09:41,794 換言之,如果要解出 w, 207 00:09:41,818 --> 00:09:43,474 誤差就要變成 0。 208 00:09:43,498 --> 00:09:45,436 如果我們沒找到答案 209 00:09:45,460 --> 00:09:47,209 誤差會永遠大於 0。 210 00:09:47,233 --> 00:09:50,599 所以,我們現在 只能用猜的來縮小誤差, 211 00:09:50,623 --> 00:09:53,310 而這就是電腦非常擅長的地方。 212 00:09:53,334 --> 00:09:54,927 所以,你會從頭開始猜: 213 00:09:54,951 --> 00:09:56,107 假設 w=0 214 00:09:56,131 --> 00:09:57,371 那誤差會等於6 215 00:09:57,395 --> 00:09:58,841 但假如 w=1 呢?誤差等於 4。 216 00:09:58,865 --> 00:10:01,232 接下來電腦有點像是在玩 馬可波羅探索遊戲, 217 00:10:01,256 --> 00:10:03,623 探索到誤差接近零為止。 218 00:10:03,647 --> 00:10:07,021 當它一直探索到零, 那麼 w 就解出來了。 219 00:10:07,045 --> 00:10:10,701 原則上,它會不停探索直到接近零, 但大約經過多次步驟後, 220 00:10:10,725 --> 00:10:15,349 我們就能得出 w=2.999, 相當接近了。 221 00:10:16,302 --> 00:10:18,116 這就是電腦學習的過程。 222 00:10:18,140 --> 00:10:20,870 回想一下剛剛發生了什麼事情, 223 00:10:20,894 --> 00:10:25,272 我們有很多已知的 x 和 y, 224 00:10:25,296 --> 00:10:28,750 透過重複迭代的過程解出了 w。 225 00:10:28,774 --> 00:10:32,330 而這就是我們人類學習的過程, 226 00:10:32,354 --> 00:10:34,584 我們從小看了很多圖片 227 00:10:34,608 --> 00:10:37,241 被告知「這是鳥」,「這不是鳥」; 228 00:10:37,714 --> 00:10:39,812 經過了一段時間,不停地重複, 229 00:10:39,836 --> 00:10:43,294 我們解出了 w, 產生了神經元的連結關係。 230 00:10:43,460 --> 00:10:47,546 所以現在,我們的 x 和 w 是固定數,可以解出 y; 231 00:10:47,570 --> 00:10:49,417 這就是我們人類每天 經常性的快速直覺判斷。 232 00:10:49,441 --> 00:10:51,204 我們搞懂了如何解出 w, 233 00:10:51,228 --> 00:10:53,131 而學習本身是一條相當艱辛的路程, 234 00:10:53,155 --> 00:10:55,140 因為為了讓誤差最小化, 235 00:10:55,164 --> 00:10:56,851 我們必須使用很多的訓練樣本。 236 00:10:56,875 --> 00:11:00,062 約一年前,我們團隊的 艾力克斯摩文斯夫 237 00:11:00,086 --> 00:11:02,360 決定做個實驗, 238 00:11:02,360 --> 00:11:05,697 看看如果我們試著給出了 w 和 y, 解出來的 x 會變什麼樣。 239 00:11:06,124 --> 00:11:07,275 換句話說, 240 00:11:07,299 --> 00:11:08,651 電腦知道它是一隻鳥, 241 00:11:08,675 --> 00:11:11,978 電腦有你給它訓練出來 辨識鳥圖片的神經網路, 242 00:11:12,002 --> 00:11:14,346 但對電腦而言,鳥是怎樣的圖像? 243 00:11:15,034 --> 00:11:20,058 原來,使用一模一樣的 「誤差最小化」程序 244 00:11:20,082 --> 00:11:23,512 以及訓練出來 用來辨識鳥的神經網路, 245 00:11:23,536 --> 00:11:26,924 你就能辨識出…… 246 00:11:30,400 --> 00:11:32,485 這是一張鳥圖, 247 00:11:32,814 --> 00:11:35,755 所以,這是一張完全由 248 00:11:35,755 --> 00:11:38,401 訓練辨認鳥的神經網路 自行創造出來的鳥圖, 249 00:11:38,425 --> 00:11:41,477 只要透過不斷地重複解出 x, 250 00:11:41,477 --> 00:11:43,575 而不是解 y 就可以了。 251 00:11:43,732 --> 00:11:45,579 這裡有另一個有趣的範例。 252 00:11:45,603 --> 00:11:49,040 我們團隊裡的 另外一位組員麥克泰卡, 253 00:11:49,064 --> 00:11:51,372 他稱這些畫為《動物大遊行》。 254 00:11:51,396 --> 00:11:54,272 這讓我有點回想起了 威廉肯特基的作品, 255 00:11:54,296 --> 00:11:56,785 他畫好素描後,擦掉它, 256 00:11:56,809 --> 00:11:58,269 然後反覆地畫、反覆地擦 257 00:11:58,293 --> 00:11:59,691 透過這樣的方式, 創造出了一部影片。 258 00:11:59,715 --> 00:12:00,866 在這個展示裡, 259 00:12:00,890 --> 00:12:04,167 麥可做的就是把不同動物的 y , 260 00:12:04,191 --> 00:12:06,573 透過設計好的神經網路, 261 00:12:06,597 --> 00:12:08,407 彼此辨認並分別出不一樣的動物。 262 00:12:08,431 --> 00:12:12,182 如此,你就能得到一張像艾雪一樣的 不同動物的變體圖像。 263 00:12:14,221 --> 00:12:18,835 這一張是他和艾力克斯一起完成的, 264 00:12:18,859 --> 00:12:21,618 他們試著減少 y 的數量, 將這些圖案丟到一個 2D 平面上, 265 00:12:21,642 --> 00:12:25,080 透過這個網路的辨識, 266 00:12:25,104 --> 00:12:26,823 創造出了這一張有各種動物的地圖。 267 00:12:26,847 --> 00:12:28,870 要做出這樣的綜合體, 268 00:12:28,894 --> 00:12:31,276 或透過整張圖面產出圖像, 269 00:12:31,300 --> 00:12:34,146 你只要在圖面上給出各式各樣的 y , 你就能做出一張地圖來—— 270 00:12:34,170 --> 00:12:37,311 一張由神經網路辨識出的視覺地圖。 271 00:12:37,335 --> 00:12:40,200 所有動物都會在這上面, 犰狳就在圖上這個點。 272 00:12:40,919 --> 00:12:43,398 你也可以透過不同的神經網路, 做出類似這樣的作品, 273 00:12:43,422 --> 00:12:46,296 這一張由辨識臉的神經網路 274 00:12:46,320 --> 00:12:48,320 所做出來的作品, 275 00:12:48,344 --> 00:12:51,593 這一張是用「我」當作 y , 所做出來的圖畫, 276 00:12:51,617 --> 00:12:53,192 用我的臉當參數。 277 00:12:53,216 --> 00:12:54,922 當電腦解出 x 後, 278 00:12:54,946 --> 00:12:57,564 它就畫出了這一張相當瘋狂、 279 00:12:57,588 --> 00:13:02,016 有點像立體派藝術、 超現實、迷幻效果的我, 280 00:13:02,040 --> 00:13:03,846 同一張圖卻有不同的視角。 281 00:13:03,870 --> 00:13:06,604 而會有這種「同一張圖 不同視角」的感覺, 282 00:13:06,628 --> 00:13:10,315 是因為這個神經網路的設計, 283 00:13:10,339 --> 00:13:13,285 可以將不同姿勢臉之間的 模糊地帶移除掉, 284 00:13:13,285 --> 00:13:16,215 透過觀察不同的光源就可以做到。 285 00:13:16,239 --> 00:13:18,324 所以,當你重新製作圖像時, 286 00:13:18,348 --> 00:13:20,652 如果你沒有使用指導圖, 287 00:13:20,676 --> 00:13:21,887 或特定的統計資料, 288 00:13:21,911 --> 00:13:25,676 那你就能得到來自 不同角度的混合體圖像, 289 00:13:25,700 --> 00:13:27,548 因為它是模糊的。 290 00:13:27,786 --> 00:13:32,009 所以如果艾力克斯 用他自己的臉當作指導圖 291 00:13:32,033 --> 00:13:35,354 在優化過程中重新建造我的臉, 就會產生這樣的圖像。 292 00:13:36,284 --> 00:13:38,612 各位可以看到, 這作品還不是很完美, 293 00:13:38,636 --> 00:13:40,510 在圖像優化的過程方面, 294 00:13:40,534 --> 00:13:42,987 還有很多工作要做。 295 00:13:43,011 --> 00:13:45,838 但如果用我的臉當指導圖, 296 00:13:45,862 --> 00:13:48,736 就能漸漸地顯現出比較 條理分明的臉。 297 00:13:48,892 --> 00:13:51,393 你不需要從一張空白的畫布 298 00:13:51,417 --> 00:13:52,573 或用白雜訊畫起。 299 00:13:52,597 --> 00:13:53,901 當你解出 x 後, 300 00:13:53,925 --> 00:13:57,814 你就可以從 x 開始畫起, 因為它本身就有一些圖像。 301 00:13:57,838 --> 00:14:00,394 這個小小的展示 說明了它的運作原理。 302 00:14:00,418 --> 00:14:04,540 這個網路是設計用來 分辨各種不同的物體, 303 00:14:04,564 --> 00:14:07,683 像是人造結構、動物……等。 304 00:14:07,707 --> 00:14:10,300 這一張畫我們是從 雲朵的圖像開始畫起的, 305 00:14:10,324 --> 00:14:11,995 當我們把它優化後, 306 00:14:12,019 --> 00:14:16,505 基本上,這個神經網路 正在搞懂它在雲朵中看見了什麼。 307 00:14:16,931 --> 00:14:19,251 當你看得越久, 308 00:14:19,275 --> 00:14:22,028 你就能在雲層中看得越多。 309 00:14:23,004 --> 00:14:26,379 你也可以運用人臉網路 讓它產生幻覺, 310 00:14:26,403 --> 00:14:28,215 然後就會跑出相當瘋狂的畫作。 311 00:14:28,239 --> 00:14:29,389 (笑聲) 312 00:14:30,401 --> 00:14:33,145 或者,麥可已經有作出 一些其它的實驗, 313 00:14:33,169 --> 00:14:37,074 他用那張雲朵的圖像, 314 00:14:37,098 --> 00:14:40,605 使電腦產生幻覺、然後放大、 產生幻覺、再放大。 315 00:14:40,629 --> 00:14:41,780 用這樣的方式, 316 00:14:41,804 --> 00:14:45,479 我在想,你就能得到一種 像是在神遊狀態的網路, 317 00:14:45,503 --> 00:14:49,183 或者像是一種無拘束的聯想, 318 00:14:49,207 --> 00:14:51,434 彷彿神經網路正在吃著自己的尾巴。 319 00:14:51,458 --> 00:14:54,879 所以每一張圖像基本上像是正在想: 320 00:14:54,903 --> 00:14:56,324 「我接下來會看到什麼? 321 00:14:56,348 --> 00:14:59,151 接下來會看到什麼? 接下來會看到什麼?」 322 00:14:59,487 --> 00:15:02,423 我第一次在一個 公眾場合上展示這個影片, 323 00:15:02,447 --> 00:15:07,884 是在西雅圖的「高等教育」 機構做演說時展示的, 324 00:15:07,908 --> 00:15:10,345 當時剛好是大麻剛合法化的時候。 325 00:15:10,369 --> 00:15:12,784 (笑聲) 326 00:15:14,627 --> 00:15:16,731 所以,我快速總結一下, 327 00:15:16,755 --> 00:15:21,010 這項技術並不會受到約束。 328 00:15:21,034 --> 00:15:24,699 我剛剛展示的是純粹的視覺範例, 因為觀察它的變化,真的很好玩。 329 00:15:24,723 --> 00:15:27,174 它不單只有視覺科技。 330 00:15:27,198 --> 00:15:29,191 我們的藝術合作者,羅斯谷穎 已經做了一些實驗, 331 00:15:29,215 --> 00:15:32,886 他用相機拍了一張照片, 332 00:15:32,910 --> 00:15:37,144 然後他背包裡的電腦 會根據圖片上的內容, 333 00:15:37,168 --> 00:15:39,112 透過神經網路,創作出一首詩。 334 00:15:39,136 --> 00:15:42,083 這個會作詩的神經網路 335 00:15:42,107 --> 00:15:44,341 是透過大量 20 世紀的詩集 所訓練出來的, 336 00:15:44,365 --> 00:15:45,864 而做出來的詩, 337 00:15:45,888 --> 00:15:47,802 實際上,我覺得還得不錯。 338 00:15:47,826 --> 00:15:49,210 (笑聲) 339 00:15:49,234 --> 00:15:50,393 整體而言, 340 00:15:50,417 --> 00:15:52,549 我在想,米開朗基羅, 341 00:15:52,573 --> 00:15:53,807 他是對的; 342 00:15:53,831 --> 00:15:57,267 感知和創意的關係是相當緊密的。 343 00:15:57,611 --> 00:16:00,245 我們剛剛看的神經網路, 344 00:16:00,269 --> 00:16:02,572 它們是被訓練出來分辯 345 00:16:02,596 --> 00:16:04,838 或辨認世界上不同的東西, 346 00:16:04,862 --> 00:16:08,023 也可以反過來,自行創作出東西來。 347 00:16:08,047 --> 00:16:09,830 而我從中所得到的 348 00:16:09,854 --> 00:16:12,252 不僅有米開朗基羅的啟發: 349 00:16:12,276 --> 00:16:14,728 「看見石頭裡的雕像」, 350 00:16:14,752 --> 00:16:18,390 還有任何能做出感知活動的 生物、生命、外來物種 351 00:16:18,414 --> 00:16:22,071 都能透過這樣的方式 352 00:16:22,095 --> 00:16:23,470 被呈現並創造出來, 353 00:16:23,494 --> 00:16:26,718 因為這兩者與剛才舉的例子 都有著相同的機制。 354 00:16:26,742 --> 00:16:30,668 我也認為,感知及創意 355 00:16:30,668 --> 00:16:32,508 不是只有我們人類獨有。 356 00:16:32,532 --> 00:16:36,240 我們已經有電腦模式 可以做出相當類似的事。 357 00:16:36,264 --> 00:16:39,592 所以不需要感到驚訝; 因為大腦是會運算的。 358 00:16:39,616 --> 00:16:41,273 最後,我要說的是, 359 00:16:41,297 --> 00:16:45,965 設計智能機器已經開始成為 電腦界的活動。 360 00:16:45,989 --> 00:16:48,451 在如何讓機器更智能的領域方面, 361 00:16:48,475 --> 00:16:51,488 已經有很多的模式產生。 362 00:16:51,512 --> 00:16:53,674 我們終於開始 363 00:16:53,698 --> 00:16:56,104 完成一些早期前輩們 364 00:16:56,128 --> 00:16:57,841 像是圖靈、馮諾伊曼、 365 00:16:57,865 --> 00:17:00,130 馬庫洛奇和皮斯的期望。 366 00:17:00,154 --> 00:17:04,252 而我也認為電腦不是只有拿來計算 367 00:17:04,276 --> 00:17:06,423 或玩玩 Candy Crush 而已, 368 00:17:06,447 --> 00:17:09,025 回到初衷,我們想要的 是讓電腦能仿效人腦。 369 00:17:09,049 --> 00:17:11,842 它不僅讓我們更了解了人類的心智, 370 00:17:11,842 --> 00:17:14,581 並讓我們獲得延伸發展心智的能力。 371 00:17:14,627 --> 00:17:15,794 非常感謝大家。 372 00:17:15,818 --> 00:17:21,757 (掌聲)