我在 Google 帶領 一個團隊做機械智慧; 換句話說,就是制定一些訓練方法, 讓電腦和裝置能做些大腦做的事。 而這也讓我們對真實的大腦 以及神經科學產生了興趣, 特別是一些我們大腦能做 但電腦仍無法呈現出來的事。 長期以來,機械智慧的 其中一個領域談的就是機械感知, 它是一種轉化的過程—— 像是把聲音和影像—— 轉化成心智上的概念。 這是我們大腦必備的能力, 這個能力對電腦來說也很有用。 所謂的機械感知演算法, 像是我們團隊做的, 能讓你 Google 相簿裡的照片 根據照片裡的東西 把它們變成可以被搜尋的資料。 感知的另一面是創意: 把概念轉化成另一種東西。 所以過去幾年, 我們團隊在機器感知上的努力, 已經可以把創意與 機器藝術結合在一起。 我覺得米開朗基羅對「感知」 與「創意」這兩者之間的關係 有一種很透析的看法。 他有一句名言: 「每一塊石頭裡都藏著一座雕像, 等待雕刻家將它雕塑出來。」 所以我覺得米開朗基羅 當時的體悟是: 我們的「創意」來自「感知」, 而感知本身就是一個想像行為 及創意的來源。 人體中有一個器官 能做出思考、感受和想像, 當然,那就是我們的大腦。 我想先簡單地來談一談 我們對大腦認知的歷史。 因為大腦不像我們的心臟或腸道, 你不能光用看的來瞭解大腦, 光靠肉眼根本看不出個所以然來。 早期研究大腦的解剖學家, 在大腦表皮結構上 取了許多稀奇古怪的名字, 例如海馬體,意思是「小蝦子」。 當然,這樣的命名方式 並沒有讓我們對 大腦的認識有太多的幫助。 我認為,第一個有真正深入了解 大腦如何運作的, 是偉大的西班牙神經解剖學家 桑地牙哥·拉蒙卡哈, 他在十九世紀, 就已經開始用顯微鏡和特殊染劑 把大腦裡的特定細胞篩選出來染色, 或以強烈的對比色來觀察細胞, 這樣做,是為了瞭解 它們的形態結構。 這些是他在十九世紀時 畫的神經細胞圖, 這一張是鳥的大腦。 但當時已經可以看到 各式各樣不同的細胞圖片, 即使細胞的原理 在當時是個相當新穎的概念。 這些結構, 這些樹枝狀的細胞結構, 可以延伸到相當相當長── 在當時來講, 這樣的發現算是相當神奇了。 當然,它們也會讓人聯想到電線, 這對 19 世紀的人來說, 這樣的比喻可能比較恰當, 因為當時電線和電力的變革 正如火如荼的進行。 但就很多方面來說, 像拉蒙卡哈這樣的顯微鏡解剖圖 現在看來還是很厲害。 但我們卻在一個世紀後, 才想試著去完成 當年拉蒙卡哈的研究。 這些原始資料,來自我們 馬克斯·普朗克 神經科學機構的合作夥伴。 而我們的合作夥伴的工作就是 把大腦組織切成 一小片一小片的圖像。 整個樣本的大小 大約只有 1 立方毫米, 我展示給各位看的只有小小的一片。 你可以看到, 左邊的長度標誌僅有一微米。 各位現在看到的結構是粒線體, 大小跟細菌一樣。 這些連續切片圖, 是由一塊很小的組織中 一片片切出來的。 舉個例子做比較, 一根頭髮的直徑 大約有 100 微米。 我們在研究的 是比一根頭髮還更細更小的東西。 而這一系列的電子顯微鏡切片圖像, 可以組成像這樣的 神經元 3D 立體成像。 這些和拉蒙卡哈 當年的研究相去不遠。 但只有幾個神經元可以打光, 否則我們會看不到東西。 因為空間太壅擠、 結構太複雜了, 神經元蜿蜒地一個接著一個。 所以,拉蒙卡哈在當時 也算是走在時代的尖端, 但在那之後的幾十年, 人類對大腦的認識卻相當緩慢。 但我們已經知道 神經元是利用電子傳遞訊號, 到第二次世界大戰前, 我們的科技已經進步到 可以在活體神經元上做電子實驗, 用來更好地理解它們是如何運作的。 這也是電腦被發明出來的時間, 當初有一個模擬人腦的基礎想法—— 是由艾倫·圖靈所提出, 他稱之為「智能機械」, 他是計算機科學之父之一。 當時沃倫麥卡洛克和華特彼特斯 (人工神經科學家) 看到的視覺皮質圖, 就是上面這張拉蒙卡哈的圖片。 這個皮質層是負責把 眼睛傳來的訊號轉換成圖像。 他們當時發現, 它看起來像是一張電路圖。 雖然麥卡洛克和彼特斯 在電路圖上有很多細節不太正確, 但這樣的基礎概念, 視覺皮層的工作原理 像一系列的計算子 在串聯的電路圖上傳遞著資訊, 這樣的概念卻是相當正確的。 我們稍微聊一下, 產生視覺資訊的模型, 需要做哪些事情。 覺察力的基本任務就是 比如說,看到這一張圖片, 就要會判斷出,「這是一隻鳥」, 這對我們大腦來說是很簡單的任務。 但各位要知道,這對電腦來說 在幾年前根本是不可能的事。 傳統的計算模式 根本不太容易跑出來這樣的任務。 所以,像素、 鳥圖與文字之間, 一定要有一組彼此連結的神經元 在神經網路內相互作用著, 就像我這張示意圖。 這張神經網路圖 就像我們的視覺皮質運作原理。 如今,我們已經有能力 用電腦來模擬這樣的神經網路。 接下來我向各位展示一下, 實際的操作大概是怎樣。 圖片的像素你可以把它想像成是 第一層的神經元, 實際上,就是眼睛裡面 像素的呈現方式, 像素是透過 視網膜上的神經元做傳遞。 而這些前饋資訊 會一層一層地傳遞到下一層神經元, 全部由不同的「突觸權重」所連結。 神經網路的行為 全都由這些突觸的強度所控制。 它們決定了神經網路的計算模式。 最後, 會有一個或一小群的 神經元發出訊號, 辨識出該圖片就是,「鳥」。 我現在要來解釋一下這三個元素—— 輸入的「像素」、 神經網路裡的「突觸」、 還有「鳥」這個輸出的字元—— 它們是如何運作的。 它們是由三種變數所組成, x、w 和 y。 圖片中可能有一百多萬個 x —— 100 多萬個像素。 而 w 可能有數十億或好幾兆個, 它們代表著神經網路中 各個突觸的權重。 而這個網路能輸出的 y 只有少數幾個。 「bird」只有四個字母,對吧? 我們假設它的原理是 一個簡單的公式, x 「乘以」 w = y 我把乘法符號用引號標示起來 因為它其實是一個 非常複雜的數學運算概念。 這個方程式 有三個變數, 我們都知道,如果你想要 解開這個方程式, 可以從兩個已知數 交叉算出未知的數。 所以要推斷出 圖片中的影像是一隻鳥, 可以用這種方式得知: y 是未知數,而 w 和 x 是已知數。 已知神經網路和圖片像素, 其實可以很直接的就得到答案, 2x3=6,就做完了。 我向各位展示一個 我們最近做的人工神經網路, 它可以在手機上做及時的操作, 當然,手機的運算能力相當驚人, 手機每秒 可以做出數十億至上兆次的運算。 你現在看到的是一隻手機 正對著一張張的鳥圖拍照, 手機不但可以正確的說出, 「是的,這是一隻鳥。」 還能透過神經網路分類 分辨出這是哪一種鳥。 所以,在這些圖片上, x 和 w 是已知,而 y 是未知。 我現在來解釋一下這個 最困難的 「w」, 我們到底是如何算出來的? 為什麼大腦可以做出這樣的判斷? 我們到底是如何學到 這樣的認知模式的? 這個學習的過程, 是一個求解 w 的過程, 如果我們要解這個一次方程式, 當它們都是數字時, 我們都知道如何解 6=2 x w, 我們只要把 6 除以 2 就可以得到答案。 問題在於這個運算符號, 除法這個符號—— 我們會用除法的方式求解, 是因為它跟乘法相反, 但就如同我剛剛提到的, 乘法在這裡有點像是個幌子。 這是非常非常複雜的概念, 它們是「非線性運算」的概念; 無法直接用除的求解。 所以,我們要另外 找個方法來解方程式, 而不能直接用除的。 方法相當簡單, 可以說,我們只用了點 代數的小技巧, 將 6 移動到等號的右邊。 如此我們就可以繼續用乘法來運算。 而等號左邊的零—— 我們把它想像成是誤差。 換言之,如果要解出 w, 誤差就要變成 0。 如果我們沒找到答案 誤差會永遠大於 0。 所以,我們現在 只能用猜的來縮小誤差, 而這就是電腦非常擅長的地方。 所以,你會從頭開始猜: 假設 w=0 那誤差會等於6 但假如 w=1 呢?誤差等於 4。 接下來電腦有點像是在玩 馬可波羅探索遊戲, 探索到誤差接近零為止。 當它一直探索到零, 那麼 w 就解出來了。 原則上,它會不停探索直到接近零, 但大約經過多次步驟後, 我們就能得出 w=2.999, 相當接近了。 這就是電腦學習的過程。 回想一下剛剛發生了什麼事情, 我們有很多已知的 x 和 y, 透過重複迭代的過程解出了 w。 而這就是我們人類學習的過程, 我們從小看了很多圖片 被告知「這是鳥」,「這不是鳥」; 經過了一段時間,不停地重複, 我們解出了 w, 產生了神經元的連結關係。 所以現在,我們的 x 和 w 是固定數,可以解出 y; 這就是我們人類每天 經常性的快速直覺判斷。 我們搞懂了如何解出 w, 而學習本身是一條相當艱辛的路程, 因為為了讓誤差最小化, 我們必須使用很多的訓練樣本。 約一年前,我們團隊的 艾力克斯摩文斯夫 決定做個實驗, 看看如果我們試著給出了 w 和 y, 解出來的 x 會變什麼樣。 換句話說, 電腦知道它是一隻鳥, 電腦有你給它訓練出來 辨識鳥圖片的神經網路, 但對電腦而言,鳥是怎樣的圖像? 原來,使用一模一樣的 「誤差最小化」程序 以及訓練出來 用來辨識鳥的神經網路, 你就能辨識出…… 這是一張鳥圖, 所以,這是一張完全由 訓練辨認鳥的神經網路 自行創造出來的鳥圖, 只要透過不斷地重複解出 x, 而不是解 y 就可以了。 這裡有另一個有趣的範例。 我們團隊裡的 另外一位組員麥克泰卡, 他稱這些畫為《動物大遊行》。 這讓我有點回想起了 威廉肯特基的作品, 他畫好素描後,擦掉它, 然後反覆地畫、反覆地擦 透過這樣的方式, 創造出了一部影片。 在這個展示裡, 麥可做的就是把不同動物的 y , 透過設計好的神經網路, 彼此辨認並分別出不一樣的動物。 如此,你就能得到一張像艾雪一樣的 不同動物的變體圖像。 這一張是他和艾力克斯一起完成的, 他們試著減少 y 的數量, 將這些圖案丟到一個 2D 平面上, 透過這個網路的辨識, 創造出了這一張有各種動物的地圖。 要做出這樣的綜合體, 或透過整張圖面產出圖像, 你只要在圖面上給出各式各樣的 y , 你就能做出一張地圖來—— 一張由神經網路辨識出的視覺地圖。 所有動物都會在這上面, 犰狳就在圖上這個點。 你也可以透過不同的神經網路, 做出類似這樣的作品, 這一張由辨識臉的神經網路 所做出來的作品, 這一張是用「我」當作 y , 所做出來的圖畫, 用我的臉當參數。 當電腦解出 x 後, 它就畫出了這一張相當瘋狂、 有點像立體派藝術、 超現實、迷幻效果的我, 同一張圖卻有不同的視角。 而會有這種「同一張圖 不同視角」的感覺, 是因為這個神經網路的設計, 可以將不同姿勢臉之間的 模糊地帶移除掉, 透過觀察不同的光源就可以做到。 所以,當你重新製作圖像時, 如果你沒有使用指導圖, 或特定的統計資料, 那你就能得到來自 不同角度的混合體圖像, 因為它是模糊的。 所以如果艾力克斯 用他自己的臉當作指導圖 在優化過程中重新建造我的臉, 就會產生這樣的圖像。 各位可以看到, 這作品還不是很完美, 在圖像優化的過程方面, 還有很多工作要做。 但如果用我的臉當指導圖, 就能漸漸地顯現出比較 條理分明的臉。 你不需要從一張空白的畫布 或用白雜訊畫起。 當你解出 x 後, 你就可以從 x 開始畫起, 因為它本身就有一些圖像。 這個小小的展示 說明了它的運作原理。 這個網路是設計用來 分辨各種不同的物體, 像是人造結構、動物……等。 這一張畫我們是從 雲朵的圖像開始畫起的, 當我們把它優化後, 基本上,這個神經網路 正在搞懂它在雲朵中看見了什麼。 當你看得越久, 你就能在雲層中看得越多。 你也可以運用人臉網路 讓它產生幻覺, 然後就會跑出相當瘋狂的畫作。 (笑聲) 或者,麥可已經有作出 一些其它的實驗, 他用那張雲朵的圖像, 使電腦產生幻覺、然後放大、 產生幻覺、再放大。 用這樣的方式, 我在想,你就能得到一種 像是在神遊狀態的網路, 或者像是一種無拘束的聯想, 彷彿神經網路正在吃著自己的尾巴。 所以每一張圖像基本上像是正在想: 「我接下來會看到什麼? 接下來會看到什麼? 接下來會看到什麼?」 我第一次在一個 公眾場合上展示這個影片, 是在西雅圖的「高等教育」 機構做演說時展示的, 當時剛好是大麻剛合法化的時候。 (笑聲) 所以,我快速總結一下, 這項技術並不會受到約束。 我剛剛展示的是純粹的視覺範例, 因為觀察它的變化,真的很好玩。 它不單只有視覺科技。 我們的藝術合作者,羅斯谷穎 已經做了一些實驗, 他用相機拍了一張照片, 然後他背包裡的電腦 會根據圖片上的內容, 透過神經網路,創作出一首詩。 這個會作詩的神經網路 是透過大量 20 世紀的詩集 所訓練出來的, 而做出來的詩, 實際上,我覺得還得不錯。 (笑聲) 整體而言, 我在想,米開朗基羅, 他是對的; 感知和創意的關係是相當緊密的。 我們剛剛看的神經網路, 它們是被訓練出來分辯 或辨認世界上不同的東西, 也可以反過來,自行創作出東西來。 而我從中所得到的 不僅有米開朗基羅的啟發: 「看見石頭裡的雕像」, 還有任何能做出感知活動的 生物、生命、外來物種 都能透過這樣的方式 被呈現並創造出來, 因為這兩者與剛才舉的例子 都有著相同的機制。 我也認為,感知及創意 不是只有我們人類獨有。 我們已經有電腦模式 可以做出相當類似的事。 所以不需要感到驚訝; 因為大腦是會運算的。 最後,我要說的是, 設計智能機器已經開始成為 電腦界的活動。 在如何讓機器更智能的領域方面, 已經有很多的模式產生。 我們終於開始 完成一些早期前輩們 像是圖靈、馮諾伊曼、 馬庫洛奇和皮斯的期望。 而我也認為電腦不是只有拿來計算 或玩玩 Candy Crush 而已, 回到初衷,我們想要的 是讓電腦能仿效人腦。 它不僅讓我們更了解了人類的心智, 並讓我們獲得延伸發展心智的能力。 非常感謝大家。 (掌聲)