我們的世界在許多方面一直在變,
其中一樣會對我們的未來
產生巨大影響的是
人工智慧(AI),
將會帶來另一場工業革命。
之前的工業革命
擴大了人類的機械能力;
這場新的革命,
這第二次的機械時代
將會拓展我們的認知能力和腦力。
電腦不僅將取代體力勞動,
還將取代腦力活動。
那麼我們如今立足在何處呢?
你可能聽說去年三月發生的事情,
一個被稱為 AlphaGo 的
機器學習系統
用深度學習擊敗了
當時的世界圍棋冠軍。
圍棋是古老的中國棋戲,
對於電腦來說,
遠比西洋棋更難掌握。
經過幾十年的人工智慧研究,
我們如今是如何辦到的?
AlphaGo 專門被訓練來下圍棋,
先是大量觀察人類高段棋手
數千萬次的出招。
接著自我對弈幾百萬次。
機器學習讓電腦從實例中學習,
從數據中學習。
機器學習已成為
將知識塞進電腦裡的關鍵。
這很重要,
因為知識是智能發展的推手。
之前要把知識放進電腦,
對人工智慧而言極具挑戰性。
為什麼?
我們憑直覺認知很多事情,
無法口頭表達,
無法有意識地取用哪些知識。
在無所知的情況下
如何為電腦寫程式呢?
怎麼解決呢?
就是讓機器自己學習知識,
和我們人類一樣。
這非常重要,
因為知識是智能發展的推手。
我的任務就是通過學習
來發現和理解智能發展的原理,
無論是動物、人類還是機器學習。
我們相信有幾個關鍵原則,
正如物理定律一樣。
簡單的原理可以解釋我們自身的智能,
幫助我們建造智能的機器。
以空氣動力學定律為例,
它足以解釋鳥類和飛機的飛行。
若能發現同樣簡單卻有力的原理
用來解釋智能本身,
豈不是很棒?
我們已有若干進展。
這些年來,我和合作者
貢獻於人工智慧領域的變革,
藉由研究神經網路和深度學習,
那是種受大腦啟發的機器學習法。
它始於手機上的語音識別,
自 2012 年起就用了神經網路。
不久後在電腦視覺上取得了突破。
現在電腦極會辨識圖像的內容。
事實上,過去五年在一些基準上
已近似於人類的表現。
現在電腦已能直覺地
以視覺辨讀圍棋的棋盤,
足以和人類的高手媲美。
最近,
根據我實驗室的一些發現,
深度學習被用來翻譯語言,
已經被用在谷歌翻譯上。
它拓展了電腦
理解和生成自然語言的能力。
但是,別被愚弄了。
機器要能夠像人類那樣
學習掌握世界各方面的事情
還非常非常遙遠。
讓我們舉個例子。
即使是兩歲的孩子
也能夠用電腦現在
無法做到的方式學習事物。
兩歲的孩子其實已經
掌握直觀的物理學。
她知道如果扔了球,球會落下。
當她把液體灑出來,
她能預期會弄髒地板。
根本不需要她的父母教她
牛頓定律或者微分方程。
她以「無監督學習」方式,
自己發現這一切。
事實上,無監督學習仍是
人工智慧所面臨的關鍵挑戰之一,
可能還需要花上
好幾十年的基礎研究
來解開這個結。
事實上,無監督學習
試圖發現數據的表現形式。
讓我舉個例子。
試想你用雙眼看著屏幕上的一頁,
電腦則將其視為一堆像素的圖像。
為了回答圖像內容之類的問題,
你需要理解它的高層次含義。
這種高層次含義對應
你腦中的最高層表現形式;
往下是單詞的個別含義;
更往下是由字母拼湊出來的單詞。
這些字母可由不同筆劃構成,
以不同的方式呈現。
這些筆劃是由「邊線」所組成的,
而這些邊線則是像素組成的。
以上這些是不同層次的表現形式。
但是像素本身不足以讓圖像
能夠回答頁面內容這樣的高層次問題。
事實上,你的大腦有
不同層級的表現形式。
從大腦皮層的第一個視覺區域的
神經元開始——V1,
它會識別圖像的邊線。
接著,在大腦皮層
第二個視覺區的神經元——V2
能識別筆劃和小圖形。
再往上有神經元來識別物體的局部,
然後是物體和整個場景。
受過圖像訓練的神經網路
真能發現這類層次的表達形式,
與我們腦中觀察到的十分吻合。
無論是生物的神經網路,
也就是我們腦中的神經網路,
還是在機器上訓練的深層神經網路,
都能學會把某一層的表現形式,
轉變成下一層的形式;
越高層次的表現形式
對應越抽象的概念。
例如,字母 A 的抽象概念
在最底層可有許多不同的表現形式,
可以呈現出許多不同的像素配置,
根據位置、旋轉、字體等配置。
那麼該如何學習這些
高層次的表現形式呢?
目前為止,深度學習的
某種應用非常成功,
我們稱之為「監督學習」。
在監督學習的情況下,
電腦需被拉著手學習,
人類必須告訴電腦
許多問題的答案。
例如在數百萬的圖像中,
人們必須告訴機器,
這張圖是一隻貓,
這張圖是一隻狗,
這張圖是一台筆電,
這張圖是個鍵盤等等,
以此類推數百萬次。
這工作非常惱人,
所以我們用群眾外包來做。
雖然它非常強,
讓我們能夠解決許多有趣的問題,
但是人類更強,
人類能夠更加自主學習
世上更多不同層面的事。
如同我們所見,孩子直觀學習物理。
無監督學習也能幫我們研發自駕車。
讓我來解釋一下:
無監督學習讓電腦
將自己投射到未來,
根據當前的情況生成可信的未來。
這讓電腦能夠推理和提前計劃。
即使碰上還未訓練的情境也能處理。
這很重要,
因為用監督學習,
必須告訴電腦,
汽車可能會遇到的各種情況
以及人們在這些情況下的反應。
人怎麼學會避免危險的駕駛行為呢?
難道必須死於交通事故一千次嗎?
(笑聲)
這是我們現在訓練機器的方法。
所以它不會飛、至少不會開車。
(笑聲)
因此我們需要訓練模型
能夠產生可信的圖像或未來,
然後變得有創造性。
我們正在這方面取得進展。
我們正在訓練這些深層神經網路
從高層次的含義到像素,
而不是從像素到高層次含義,
是從另一個方向表達。
這樣電腦能生成新的圖像,
和它們受訓時所見的圖像完全不同。
(註:分為訓練數據和測試數據)
但這些是可信,看起來自然的圖像。
我們也可以用這些模型
來幻想一些奇怪
甚至可怕的圖像,
像我們在夢裡、噩夢裡看到的那樣。
這裡有些電腦用深度圖表模型
所合成的圖像。
它們看上去就像自然圖像,
但是如果近看就會發現還是有區別,
它們仍缺少一些
我們視為自然的重要細節。
大約 10 年前,
無監督學習是我們
突破深度學習的關鍵。
這種情況發生在少數實驗室,
包括我的實驗室,
當時神經網路還未流行,
幾乎被科學界所拋棄。
如今大不相同,
它已成為火熱的領域。
如今每年有成百上千的學生
申請研究所入學,
到我的實驗室
和我的同仁一起工作。
蒙特利爾已成為世界上最大的
深度學習研究人員學術聚集地。
我們剛收到 9400 萬美元的
巨額研究經費,
用於推動人工智慧
和數據科學的發展,
把深度學習技術
和數據科學技轉到工業界。
受到這些刺激的商業人士
新創公司、工業實驗室,
其中許多間就座落於大學附近。
例如幾週前
我們宣布成立一家名為
「Element AI」的新創工廠,
它將專注於深度學習的應用上。
深度學習的專家不多,
所以那些專家被支付高薪。
許多我學術界的前同事
接受公司給的高薪
去工業實驗室工作。
我自己選擇待在大學
為公眾利益工作,
和學生們一起工作,
保持獨立,
指導下一代的深度學習專家。
除了商業價值,
我們還思考人工智慧對社會的影響。
我們中的許多人現在開始把目光
投向於社會增值應用,例如健康。
我們認為可以利用深度學習
來改進個別化的治療。
我相信在未來,
在收集全球數百萬、
數十億人的更多數據後,
我們將能夠提供醫療建議
給數十億現在得不到的人。
我們想像人工智慧
在社會價值方面的許多其他應用。
例如,我們對自然語言理解的研究,
將會為那些無法負擔的人們
提供各式各樣的服務,
比如法律服務。
我們如今同樣也將目光
轉向了人工智慧
對我們社區的社會影響。
但這不僅僅是專家需要思考的問題。
我相信這事超越數學和專業術語,
普通人能充分知曉
幕後發生了什麼事,
從而參與未來幾年,乃至幾十年的
有關人工智慧的重要決策。
所以,
請預留費用和空間讓自己去學習吧。
我和合作者寫了幾篇介紹性論文
和一本名為《深度學習》的書,
來幫助學生和工程師
進入這個令人興奮的領域。
同樣也有許多線上的資源:
軟體、學習指南、影片等等。
許多大學生自學了
很多關於深度學習的研究,
為了之後加入實驗室的行列,
像是我的實驗室。
人工智慧將對我們社會
產生深遠的影響。
所以重要的是問:我們該如何用它?
巨大的正面影響可能伴隨負面影響,
譬如軍事的應用
或急速顛覆性的就業市場變化。
為了確保在未來的幾年內
人工智慧所面臨的集體選擇
將會對所有人有利,
每一個公民應該積極發揮作用
共同來定義人工智慧
將如何塑造我們的未來。
謝謝。
(掌聲)