WEBVTT 00:00:17.816 --> 00:00:21.325 我們的世界在許多方面一直在變, 00:00:21.325 --> 00:00:25.975 其中一樣會對我們的未來 產生巨大影響的是 00:00:25.975 --> 00:00:29.363 人工智慧(AI), 00:00:29.363 --> 00:00:32.953 將會帶來另一場工業革命。 00:00:33.627 --> 00:00:39.504 之前的工業革命 擴大了人類的機械能力; 00:00:40.014 --> 00:00:42.143 這場新的革命, 00:00:42.143 --> 00:00:45.572 這第二次的機械時代 00:00:45.572 --> 00:00:51.710 將會拓展我們的認知能力和腦力。 00:00:52.782 --> 00:00:57.177 電腦不僅將取代體力勞動, 00:00:57.597 --> 00:00:59.897 還將取代腦力活動。 00:01:00.500 --> 00:01:03.450 那麼我們如今立足在何處呢? 00:01:04.034 --> 00:01:07.724 你可能聽說去年三月發生的事情, 00:01:07.724 --> 00:01:11.776 一個被稱為 AlphaGo 的 機器學習系統 00:01:11.776 --> 00:01:17.708 用深度學習擊敗了 當時的世界圍棋冠軍。 00:01:18.279 --> 00:01:20.679 圍棋是古老的中國棋戲, 00:01:20.679 --> 00:01:23.288 對於電腦來說, 00:01:23.288 --> 00:01:25.982 遠比西洋棋更難掌握。 00:01:26.893 --> 00:01:32.086 經過幾十年的人工智慧研究, 我們如今是如何辦到的? 00:01:33.068 --> 00:01:36.698 AlphaGo 專門被訓練來下圍棋, 00:01:37.678 --> 00:01:41.300 先是大量觀察人類高段棋手 00:01:41.814 --> 00:01:46.894 數千萬次的出招。 00:01:47.746 --> 00:01:52.496 接著自我對弈幾百萬次。 00:01:54.222 --> 00:01:59.941 機器學習讓電腦從實例中學習, 00:02:00.465 --> 00:02:02.575 從數據中學習。 00:02:03.885 --> 00:02:06.675 機器學習已成為 00:02:06.675 --> 00:02:11.635 將知識塞進電腦裡的關鍵。 00:02:12.174 --> 00:02:14.066 這很重要, 00:02:14.066 --> 00:02:19.296 因為知識是智能發展的推手。 00:02:20.438 --> 00:02:26.768 之前要把知識放進電腦, 對人工智慧而言極具挑戰性。 00:02:27.515 --> 00:02:28.745 為什麼? 00:02:29.059 --> 00:02:34.589 我們憑直覺認知很多事情, 00:02:34.601 --> 00:02:38.611 無法口頭表達, 00:02:38.619 --> 00:02:42.420 無法有意識地取用哪些知識。 00:02:43.270 --> 00:02:46.811 在無所知的情況下 如何為電腦寫程式呢? 00:02:47.664 --> 00:02:49.114 怎麼解決呢? 00:02:49.314 --> 00:02:55.343 就是讓機器自己學習知識, 00:02:55.343 --> 00:02:56.443 和我們人類一樣。 00:02:56.443 --> 00:02:58.048 這非常重要, 00:02:58.048 --> 00:03:02.969 因為知識是智能發展的推手。 00:03:02.969 --> 00:03:06.974 我的任務就是通過學習 00:03:06.974 --> 00:03:12.676 來發現和理解智能發展的原理, 00:03:13.166 --> 00:03:17.828 無論是動物、人類還是機器學習。 00:03:19.450 --> 00:03:25.066 我們相信有幾個關鍵原則, 00:03:25.066 --> 00:03:27.296 正如物理定律一樣。 00:03:27.885 --> 00:03:32.745 簡單的原理可以解釋我們自身的智能, 00:03:32.745 --> 00:03:36.741 幫助我們建造智能的機器。 00:03:37.885 --> 00:03:41.595 以空氣動力學定律為例, 00:03:41.595 --> 00:03:48.036 它足以解釋鳥類和飛機的飛行。 00:03:49.146 --> 00:03:52.263 若能發現同樣簡單卻有力的原理 00:03:52.263 --> 00:03:55.381 用來解釋智能本身, 00:03:55.381 --> 00:03:59.186 豈不是很棒? 00:04:00.026 --> 00:04:03.394 我們已有若干進展。 00:04:04.384 --> 00:04:06.220 這些年來,我和合作者 00:04:06.220 --> 00:04:11.940 貢獻於人工智慧領域的變革, 00:04:11.950 --> 00:04:16.397 藉由研究神經網路和深度學習, 00:04:16.397 --> 00:04:20.693 那是種受大腦啟發的機器學習法。 00:04:22.041 --> 00:04:26.743 它始於手機上的語音識別, 00:04:26.743 --> 00:04:29.963 自 2012 年起就用了神經網路。 00:04:30.977 --> 00:04:35.647 不久後在電腦視覺上取得了突破。 00:04:36.680 --> 00:04:43.087 現在電腦極會辨識圖像的內容。 00:04:43.674 --> 00:04:49.597 事實上,過去五年在一些基準上 已近似於人類的表現。 00:04:50.711 --> 00:04:57.297 現在電腦已能直覺地 以視覺辨讀圍棋的棋盤, 00:04:58.191 --> 00:05:01.356 足以和人類的高手媲美。 00:05:01.763 --> 00:05:03.454 最近, 00:05:03.454 --> 00:05:06.584 根據我實驗室的一些發現, 00:05:06.584 --> 00:05:11.408 深度學習被用來翻譯語言, 00:05:11.414 --> 00:05:14.441 已經被用在谷歌翻譯上。 00:05:15.191 --> 00:05:18.192 它拓展了電腦 00:05:18.192 --> 00:05:22.532 理解和生成自然語言的能力。 00:05:23.550 --> 00:05:25.517 但是,別被愚弄了。 00:05:25.517 --> 00:05:30.085 機器要能夠像人類那樣 00:05:30.085 --> 00:05:34.800 學習掌握世界各方面的事情 00:05:34.800 --> 00:05:37.588 還非常非常遙遠。 00:05:38.541 --> 00:05:41.237 讓我們舉個例子。 00:05:41.637 --> 00:05:44.707 即使是兩歲的孩子 00:05:44.707 --> 00:05:50.657 也能夠用電腦現在 無法做到的方式學習事物。 00:05:51.767 --> 00:05:56.169 兩歲的孩子其實已經 掌握直觀的物理學。 00:05:56.968 --> 00:06:01.908 她知道如果扔了球,球會落下。 00:06:02.493 --> 00:06:06.093 當她把液體灑出來, 她能預期會弄髒地板。 00:06:06.586 --> 00:06:09.516 根本不需要她的父母教她 00:06:09.516 --> 00:06:12.980 牛頓定律或者微分方程。 00:06:13.840 --> 00:06:20.200 她以「無監督學習」方式, 自己發現這一切。 00:06:21.352 --> 00:06:27.712 事實上,無監督學習仍是 人工智慧所面臨的關鍵挑戰之一, 00:06:28.184 --> 00:06:33.014 可能還需要花上 好幾十年的基礎研究 00:06:33.014 --> 00:06:34.674 來解開這個結。 00:06:34.674 --> 00:06:40.895 事實上,無監督學習 試圖發現數據的表現形式。 00:06:41.729 --> 00:06:43.779 讓我舉個例子。 00:06:44.364 --> 00:06:49.346 試想你用雙眼看著屏幕上的一頁, 00:06:49.346 --> 00:06:54.196 電腦則將其視為一堆像素的圖像。 00:06:54.993 --> 00:07:00.113 為了回答圖像內容之類的問題, 00:07:00.863 --> 00:07:05.211 你需要理解它的高層次含義。 00:07:05.674 --> 00:07:08.808 這種高層次含義對應 00:07:08.808 --> 00:07:12.321 你腦中的最高層表現形式; 00:07:12.906 --> 00:07:18.308 往下是單詞的個別含義; 00:07:19.188 --> 00:07:23.798 更往下是由字母拼湊出來的單詞。 00:07:24.810 --> 00:07:27.677 這些字母可由不同筆劃構成, 00:07:27.677 --> 00:07:30.879 以不同的方式呈現。 00:07:31.559 --> 00:07:34.839 這些筆劃是由「邊線」所組成的, 00:07:34.839 --> 00:07:37.284 而這些邊線則是像素組成的。 00:07:37.284 --> 00:07:40.454 以上這些是不同層次的表現形式。 00:07:41.079 --> 00:07:46.550 但是像素本身不足以讓圖像 00:07:46.584 --> 00:07:51.904 能夠回答頁面內容這樣的高層次問題。 00:07:52.932 --> 00:07:57.594 事實上,你的大腦有 不同層級的表現形式。 00:07:57.594 --> 00:08:02.291 從大腦皮層的第一個視覺區域的 神經元開始——V1, 00:08:02.291 --> 00:08:04.596 它會識別圖像的邊線。 00:08:04.596 --> 00:08:09.334 接著,在大腦皮層 第二個視覺區的神經元——V2 00:08:09.334 --> 00:08:12.800 能識別筆劃和小圖形。 00:08:12.800 --> 00:08:17.060 再往上有神經元來識別物體的局部, 00:08:17.060 --> 00:08:19.992 然後是物體和整個場景。 00:08:21.182 --> 00:08:24.757 受過圖像訓練的神經網路 00:08:24.757 --> 00:08:28.860 真能發現這類層次的表達形式, 00:08:28.860 --> 00:08:32.778 與我們腦中觀察到的十分吻合。 00:08:33.638 --> 00:08:38.798 無論是生物的神經網路, 也就是我們腦中的神經網路, 00:08:38.804 --> 00:08:42.828 還是在機器上訓練的深層神經網路, 00:08:42.845 --> 00:08:48.075 都能學會把某一層的表現形式, 轉變成下一層的形式; 00:08:48.369 --> 00:08:53.299 越高層次的表現形式 對應越抽象的概念。 00:08:53.299 --> 00:08:57.562 例如,字母 A 的抽象概念 00:08:57.562 --> 00:09:00.891 在最底層可有許多不同的表現形式, 00:09:00.891 --> 00:09:03.887 可以呈現出許多不同的像素配置, 00:09:03.887 --> 00:09:09.097 根據位置、旋轉、字體等配置。 00:09:10.445 --> 00:09:15.815 那麼該如何學習這些 高層次的表現形式呢? 00:09:16.962 --> 00:09:23.066 目前為止,深度學習的 某種應用非常成功, 00:09:23.066 --> 00:09:25.985 我們稱之為「監督學習」。 00:09:26.297 --> 00:09:31.588 在監督學習的情況下, 電腦需被拉著手學習, 00:09:31.594 --> 00:09:35.467 人類必須告訴電腦 許多問題的答案。 00:09:35.467 --> 00:09:39.238 例如在數百萬的圖像中, 00:09:39.238 --> 00:09:41.420 人們必須告訴機器, 00:09:41.420 --> 00:09:44.271 這張圖是一隻貓, 00:09:44.511 --> 00:09:47.095 這張圖是一隻狗, 00:09:47.095 --> 00:09:49.585 這張圖是一台筆電, 00:09:49.605 --> 00:09:52.600 這張圖是個鍵盤等等, 00:09:52.600 --> 00:09:55.595 以此類推數百萬次。 00:09:56.066 --> 00:10:01.026 這工作非常惱人, 所以我們用群眾外包來做。 00:10:01.461 --> 00:10:03.396 雖然它非常強, 00:10:03.416 --> 00:10:06.269 讓我們能夠解決許多有趣的問題, 00:10:06.269 --> 00:10:08.313 但是人類更強, 00:10:08.313 --> 00:10:13.560 人類能夠更加自主學習 世上更多不同層面的事。 00:10:13.809 --> 00:10:17.609 如同我們所見,孩子直觀學習物理。 00:10:17.625 --> 00:10:23.739 無監督學習也能幫我們研發自駕車。 00:10:24.567 --> 00:10:26.097 讓我來解釋一下: 00:10:26.097 --> 00:10:31.835 無監督學習讓電腦 將自己投射到未來, 00:10:31.835 --> 00:10:37.205 根據當前的情況生成可信的未來。 00:10:38.369 --> 00:10:42.899 這讓電腦能夠推理和提前計劃。 00:10:43.450 --> 00:10:47.985 即使碰上還未訓練的情境也能處理。 00:10:48.751 --> 00:10:50.441 這很重要, 00:10:50.441 --> 00:10:53.951 因為用監督學習, 必須告訴電腦, 00:10:53.951 --> 00:10:57.395 汽車可能會遇到的各種情況 00:10:57.395 --> 00:11:01.375 以及人們在這些情況下的反應。 00:11:02.451 --> 00:11:06.191 人怎麼學會避免危險的駕駛行為呢? 00:11:07.276 --> 00:11:10.791 難道必須死於交通事故一千次嗎? 00:11:10.793 --> 00:11:12.106 (笑聲) 00:11:12.106 --> 00:11:14.606 這是我們現在訓練機器的方法。 00:11:15.175 --> 00:11:18.340 所以它不會飛、至少不會開車。 00:11:18.340 --> 00:11:19.928 (笑聲) 00:11:21.288 --> 00:11:25.657 因此我們需要訓練模型 00:11:25.657 --> 00:11:31.924 能夠產生可信的圖像或未來, 然後變得有創造性。 00:11:31.924 --> 00:11:33.934 我們正在這方面取得進展。 00:11:33.934 --> 00:11:37.457 我們正在訓練這些深層神經網路 00:11:37.463 --> 00:11:40.818 從高層次的含義到像素, 00:11:40.818 --> 00:11:43.298 而不是從像素到高層次含義, 00:11:43.307 --> 00:11:46.787 是從另一個方向表達。 00:11:46.787 --> 00:11:51.181 這樣電腦能生成新的圖像, 00:11:51.191 --> 00:11:56.312 和它們受訓時所見的圖像完全不同。 (註:分為訓練數據和測試數據) 00:11:57.018 --> 00:12:00.369 但這些是可信,看起來自然的圖像。 00:12:01.888 --> 00:12:06.332 我們也可以用這些模型 來幻想一些奇怪 00:12:06.342 --> 00:12:09.492 甚至可怕的圖像, 00:12:09.492 --> 00:12:11.795 像我們在夢裡、噩夢裡看到的那樣。 00:12:12.682 --> 00:12:16.847 這裡有些電腦用深度圖表模型 00:12:16.847 --> 00:12:19.826 所合成的圖像。 00:12:19.826 --> 00:12:21.651 它們看上去就像自然圖像, 00:12:21.651 --> 00:12:25.191 但是如果近看就會發現還是有區別, 00:12:25.191 --> 00:12:30.616 它們仍缺少一些 我們視為自然的重要細節。 00:12:31.995 --> 00:12:33.951 大約 10 年前, 00:12:33.951 --> 00:12:36.725 無監督學習是我們 00:12:36.725 --> 00:12:41.798 突破深度學習的關鍵。 00:12:44.140 --> 00:12:48.055 這種情況發生在少數實驗室, 包括我的實驗室, 00:12:48.055 --> 00:12:51.455 當時神經網路還未流行, 00:12:51.455 --> 00:12:55.217 幾乎被科學界所拋棄。 00:12:56.394 --> 00:12:58.935 如今大不相同, 00:12:58.935 --> 00:13:01.375 它已成為火熱的領域。 00:13:01.384 --> 00:13:06.933 如今每年有成百上千的學生 申請研究所入學, 00:13:06.954 --> 00:13:09.784 到我的實驗室 和我的同仁一起工作。 00:13:11.010 --> 00:13:14.652 蒙特利爾已成為世界上最大的 00:13:14.652 --> 00:13:19.387 深度學習研究人員學術聚集地。 00:13:20.182 --> 00:13:26.115 我們剛收到 9400 萬美元的 巨額研究經費, 00:13:26.127 --> 00:13:29.797 用於推動人工智慧 和數據科學的發展, 00:13:29.797 --> 00:13:36.067 把深度學習技術 和數據科學技轉到工業界。 00:13:37.249 --> 00:13:43.791 受到這些刺激的商業人士 新創公司、工業實驗室, 00:13:43.791 --> 00:13:46.914 其中許多間就座落於大學附近。 00:13:48.543 --> 00:13:51.265 例如幾週前 00:13:51.265 --> 00:13:54.733 我們宣布成立一家名為 00:13:54.733 --> 00:13:56.507 「Element AI」的新創工廠, 00:13:56.507 --> 00:13:59.605 它將專注於深度學習的應用上。 00:14:01.562 --> 00:14:05.722 深度學習的專家不多, 00:14:06.355 --> 00:14:10.677 所以那些專家被支付高薪。 00:14:11.027 --> 00:14:17.212 許多我學術界的前同事 接受公司給的高薪 00:14:17.228 --> 00:14:20.518 去工業實驗室工作。 00:14:21.081 --> 00:14:25.010 我自己選擇待在大學 00:14:25.010 --> 00:14:27.166 為公眾利益工作, 00:14:27.166 --> 00:14:28.886 和學生們一起工作, 00:14:28.902 --> 00:14:30.592 保持獨立, 00:14:30.596 --> 00:14:34.836 指導下一代的深度學習專家。 00:14:35.294 --> 00:14:41.024 除了商業價值, 00:14:41.024 --> 00:14:44.654 我們還思考人工智慧對社會的影響。 00:14:45.881 --> 00:14:50.026 我們中的許多人現在開始把目光 00:14:50.026 --> 00:14:55.986 投向於社會增值應用,例如健康。 00:14:56.457 --> 00:14:58.956 我們認為可以利用深度學習 00:14:58.956 --> 00:15:02.696 來改進個別化的治療。 00:15:03.956 --> 00:15:05.671 我相信在未來, 00:15:05.671 --> 00:15:10.361 在收集全球數百萬、 數十億人的更多數據後, 00:15:10.361 --> 00:15:13.856 我們將能夠提供醫療建議 00:15:13.856 --> 00:15:17.246 給數十億現在得不到的人。 00:15:17.601 --> 00:15:22.724 我們想像人工智慧 在社會價值方面的許多其他應用。 00:15:23.140 --> 00:15:28.244 例如,我們對自然語言理解的研究, 00:15:29.058 --> 00:15:31.199 將會為那些無法負擔的人們 00:15:31.199 --> 00:15:34.059 提供各式各樣的服務, 比如法律服務。 00:15:34.512 --> 00:15:37.342 我們如今同樣也將目光 00:15:37.342 --> 00:15:41.132 轉向了人工智慧 對我們社區的社會影響。 00:15:41.690 --> 00:15:44.801 但這不僅僅是專家需要思考的問題。 00:15:46.026 --> 00:15:49.936 我相信這事超越數學和專業術語, 00:15:49.936 --> 00:15:53.102 普通人能充分知曉 00:15:53.138 --> 00:15:55.901 幕後發生了什麼事, 00:15:55.901 --> 00:16:01.191 從而參與未來幾年,乃至幾十年的 00:16:01.191 --> 00:16:06.547 有關人工智慧的重要決策。 00:16:07.580 --> 00:16:09.280 所以, 00:16:09.930 --> 00:16:16.230 請預留費用和空間讓自己去學習吧。 00:16:17.842 --> 00:16:22.532 我和合作者寫了幾篇介紹性論文 00:16:22.542 --> 00:16:25.376 和一本名為《深度學習》的書, 00:16:25.376 --> 00:16:29.619 來幫助學生和工程師 進入這個令人興奮的領域。 00:16:30.659 --> 00:16:35.784 同樣也有許多線上的資源: 軟體、學習指南、影片等等。 00:16:36.310 --> 00:16:41.210 許多大學生自學了 00:16:41.210 --> 00:16:44.548 很多關於深度學習的研究, 00:16:44.548 --> 00:16:47.835 為了之後加入實驗室的行列, 像是我的實驗室。 00:16:49.370 --> 00:16:55.170 人工智慧將對我們社會 產生深遠的影響。 00:16:56.652 --> 00:17:01.672 所以重要的是問:我們該如何用它? 00:17:03.368 --> 00:17:07.896 巨大的正面影響可能伴隨負面影響, 00:17:07.896 --> 00:17:10.166 譬如軍事的應用 00:17:10.797 --> 00:17:15.357 或急速顛覆性的就業市場變化。 00:17:15.948 --> 00:17:19.349 為了確保在未來的幾年內 00:17:19.349 --> 00:17:23.074 人工智慧所面臨的集體選擇 00:17:23.074 --> 00:17:25.144 將會對所有人有利, 00:17:25.144 --> 00:17:28.684 每一個公民應該積極發揮作用 00:17:28.684 --> 00:17:32.911 共同來定義人工智慧 將如何塑造我們的未來。 00:17:33.871 --> 00:17:34.891 謝謝。 00:17:35.065 --> 00:17:39.395 (掌聲)