WEBVTT 00:00:00.570 --> 00:00:03.924 私はGoogleで 機械知能に取り組む 開発チームを率いています 00:00:03.948 --> 00:00:07.262 機械知能とは コンピューターや いろいろな種類の端末に 00:00:07.262 --> 00:00:11.359 人間の脳のような機能を 持たせるための技術です 00:00:11.359 --> 00:00:14.222 仕事上 私たちは 人間の脳の働きや 00:00:14.222 --> 00:00:15.941 神経科学に関心があり 00:00:15.941 --> 00:00:20.047 脳が未だコンピューターより はるかに優れている領域に 00:00:20.071 --> 00:00:24.113 特に興味を持っています NOTE Paragraph 00:00:25.009 --> 00:00:28.818 そのような領域として 古くから認識されていたのは 知覚です 00:00:28.842 --> 00:00:31.605 知覚とは 外界に存在するもの― 00:00:31.605 --> 00:00:33.489 つまり 音や映像のようなものを 00:00:33.513 --> 00:00:36.145 心の中の概念に 変えるプロセスです 00:00:36.145 --> 00:00:38.892 これは 人間の脳に 本質的に備わっている能力ですが 00:00:38.892 --> 00:00:41.400 コンピューターにも 有用なものです 00:00:41.416 --> 00:00:44.986 例えば 私の部署で作っている 機械知覚アルゴリズムは 00:00:45.010 --> 00:00:47.098 Googleフォトの画像を 00:00:47.098 --> 00:00:50.785 写っているものに基づいて 検索できるようにする技術です 00:00:51.594 --> 00:00:54.861 一方 知覚と対照的なものに 創造性があります 00:00:54.861 --> 00:00:58.259 創造性とは 概念を 何かの形で世に生み出すことです 00:00:58.259 --> 00:01:02.058 この1年の我々の 機械知覚への取り組みの中で 00:01:02.058 --> 00:01:06.015 コンピューターによる創造 「機械芸術」の世界との 00:01:06.015 --> 00:01:08.545 意外な接点を見ました NOTE Paragraph 00:01:08.556 --> 00:01:11.794 ミケランジェロには 先見の明があり 00:01:11.794 --> 00:01:15.943 この「知覚と創造の二重の関係」を 見ていたのだと思います 00:01:15.943 --> 00:01:18.169 彼は 有名な言葉を残しています 00:01:18.169 --> 00:01:21.766 「どんな石の塊にも 彫像が隠れており 00:01:21.766 --> 00:01:25.618 彫刻家の仕事は その像を見出すことである」 00:01:26.029 --> 00:01:29.159 ミケランジェロが気づいていたのは 00:01:29.159 --> 00:01:32.449 我々は 知覚によって 創造しているということで 00:01:32.473 --> 00:01:35.496 知覚自体が 想像する行為であり 00:01:35.520 --> 00:01:38.511 創造的なものだということです NOTE Paragraph 00:01:38.691 --> 00:01:42.616 人体の中で 思考 知覚 想像を行う器官は 00:01:42.640 --> 00:01:44.608 言うまでもなく 脳です 00:01:45.089 --> 00:01:47.634 そこで 脳科学の歩みについて 00:01:47.658 --> 00:01:50.220 簡単に振り返りましょう 00:01:50.496 --> 00:01:52.942 心臓や腸などとは違い 00:01:52.966 --> 00:01:56.110 脳については 外観からは 分からないことが多いからです 00:01:56.134 --> 00:01:57.996 少なくとも 肉眼で見た場合には 00:01:57.996 --> 00:02:00.779 脳に注目した 昔の解剖学者たちは 00:02:00.779 --> 00:02:04.054 脳の外部構造を見て しゃれた名前を付けました 00:02:04.054 --> 00:02:06.767 例えば「海馬」 これは タツノオトシゴのことです 00:02:06.767 --> 00:02:08.729 しかし そのように付けられた名前は 00:02:08.729 --> 00:02:12.127 その働きについて ほとんど何も示していません NOTE Paragraph 00:02:12.610 --> 00:02:16.393 脳内で起きていることについて 本当の知見を初めて得たのは 00:02:16.417 --> 00:02:19.657 19世紀の 偉大な スペイン人神経解剖学者 00:02:19.657 --> 00:02:22.291 サンティアゴ・ラモン・イ・カハールだと 00:02:22.315 --> 00:02:23.859 私は思います 00:02:23.883 --> 00:02:27.808 彼は顕微鏡と 選択的に染める特殊な染料を使って 00:02:27.808 --> 00:02:31.832 脳内の個々の細胞を 非常にはっきりした形で 00:02:31.856 --> 00:02:33.608 見られるようにし 00:02:33.608 --> 00:02:37.412 そこから 形態学的理解が 進むようになりました 00:02:37.972 --> 00:02:40.863 19世紀に 彼が描いた 神経のイメージは 00:02:40.887 --> 00:02:42.096 このようなものでした NOTE Paragraph 00:02:42.120 --> 00:02:44.004 これは 鳥の脳です 00:02:44.028 --> 00:02:47.085 このように 驚くほど 多様な細胞があります 00:02:47.109 --> 00:02:50.544 当時は 細胞説自体が ごく新しいものでした 00:02:50.568 --> 00:02:52.366 この構造 この細胞には 00:02:52.366 --> 00:02:54.129 樹状突起があります 00:02:54.153 --> 00:02:56.761 この突起は 非常に長く伸びうるのですが 00:02:56.785 --> 00:02:58.761 これも 当時は目新しいことでした 00:02:58.779 --> 00:03:01.682 樹状突起は 配線のようにも見えます 00:03:01.706 --> 00:03:05.163 このことは 19世紀の一部の人には 一目瞭然だったかもしれません 00:03:05.187 --> 00:03:09.501 電気による革命が進み 配線が普及し始めた時代だったからです 00:03:09.824 --> 00:03:11.322 しかし いろいろな面で 00:03:11.322 --> 00:03:14.619 ラモン・イ・カハールが提示した 微細解剖学的な図は 00:03:14.619 --> 00:03:16.835 ある意味 今なお越えられていません NOTE Paragraph 00:03:16.859 --> 00:03:18.427 1世紀を経た今も 我々は 00:03:18.427 --> 00:03:22.052 ラモン・イ・カハールが始めた仕事を 完成させようと試み続けています 00:03:22.052 --> 00:03:23.894 これは 我々が提携している 00:03:23.894 --> 00:03:27.625 マックス・プランク神経科学研究所による 生のデータです 00:03:27.649 --> 00:03:29.439 彼らが行ったのは 00:03:29.463 --> 00:03:34.464 脳の組織の小さな断片を 可視化するということです 00:03:34.488 --> 00:03:37.814 この試料全体の大きさは 1立方ミリメートルで 00:03:37.838 --> 00:03:40.459 今 お見せしているのは そのごく一部です 00:03:40.483 --> 00:03:42.829 左の棒の長さが 1ミクロンです 00:03:42.853 --> 00:03:45.262 ご覧の構造は ミトコンドリアで 00:03:45.286 --> 00:03:47.330 大きさとしては バクテリアと同程度です 00:03:47.354 --> 00:03:49.315 ごく小さな組織片の 00:03:49.315 --> 00:03:52.077 連続的断面を映しています 00:03:52.101 --> 00:03:54.168 比較のために言うと 00:03:54.168 --> 00:03:58.320 髪の毛の直径は 平均約100ミクロンです 00:03:58.344 --> 00:04:00.618 ご覧のものは 髪の毛の直径よりも 00:04:00.642 --> 00:04:02.040 はるかに小さいんです NOTE Paragraph 00:04:02.064 --> 00:04:05.939 このような 電子顕微鏡による 連続断面像から 00:04:05.939 --> 00:04:11.111 ニューロンの3次元像を 再構成できます 00:04:11.111 --> 00:04:13.942 ここでは ラモン・イ・カハールが したのと同じように 00:04:13.942 --> 00:04:16.014 ごく一部のニューロンだけを示しています 00:04:16.014 --> 00:04:18.083 そうしなければ あまりに密集していて 00:04:18.083 --> 00:04:20.104 わけが分からなくなってしまいます 00:04:20.104 --> 00:04:22.069 ニューロンは 互いに結合し合った — 00:04:22.069 --> 00:04:24.407 非常に複雑な構造をしているためです NOTE Paragraph 00:04:25.083 --> 00:04:27.931 ラモン・イ・カハールは 時代の先を行っていて 00:04:27.931 --> 00:04:30.070 脳に対する理解は 00:04:30.070 --> 00:04:33.381 その後の数十年で ゆっくりと進んでいきました 00:04:33.395 --> 00:04:36.308 やがて ニューロンは 電気を使っていることが発見され 00:04:36.332 --> 00:04:38.362 第二次世界大戦の頃には 00:04:38.362 --> 00:04:41.492 仕組みの解明のため 生きたニューロンを使って 00:04:41.492 --> 00:04:44.578 電気的な実験ができるくらいに 技術が進歩しました 00:04:44.631 --> 00:04:48.611 ほぼ同時期に コンピューターも発明されましたが 00:04:48.611 --> 00:04:52.211 これは 人間の脳をモデル化するという アイデアに基づいていました 00:04:52.211 --> 00:04:55.204 コンピュータ科学の父の1人である アラン・チューリングは 00:04:55.204 --> 00:04:57.793 これを「知的機械」と呼びました NOTE Paragraph 00:04:57.793 --> 00:05:00.799 そしてウォーレン・マカロックと ウォルター・ピッツが 00:05:00.799 --> 00:05:03.840 ラモン・イ・カハールの 視覚野の図に 目を向けました 00:05:03.840 --> 00:05:05.752 今 ここでお見せしているものです 00:05:05.752 --> 00:05:10.118 これは 目から受け取ったイメージを 処理する皮質です 00:05:10.424 --> 00:05:14.292 2人には これが 回路図のように見えました 00:05:14.353 --> 00:05:18.002 マカロックとピッツの回路図の 細かい部分には 00:05:18.002 --> 00:05:19.564 間違いが たくさんありますが 00:05:19.588 --> 00:05:21.123 その基本的な概念 00:05:21.123 --> 00:05:24.839 つまり 視覚野は一連の 計算要素のように働き 00:05:24.863 --> 00:05:27.609 段階的に情報を 受け渡していくという概念は 00:05:27.633 --> 00:05:29.235 本質的に正しいものでした NOTE Paragraph 00:05:29.259 --> 00:05:31.609 ここで 少し時間を取って 00:05:31.633 --> 00:05:36.135 視覚情報処理が どんなことをするのか 説明しようと思います 00:05:36.228 --> 00:05:39.129 知覚の基本的な仕事は 00:05:39.129 --> 00:05:43.187 このような画像を見て 識別をすることです 00:05:43.211 --> 00:05:44.387 「あれは鳥だ」と 00:05:44.411 --> 00:05:47.285 人間の脳は この処理を簡単にやってのけますが 00:05:47.309 --> 00:05:50.730 コンピューターにとっては難問で 00:05:50.754 --> 00:05:53.841 数年前までは ほとんど不可能でした 00:05:53.865 --> 00:05:55.781 従来の コンピューターの構造は 00:05:55.805 --> 00:05:58.552 こういうタスクには不向きなんです NOTE Paragraph 00:05:59.366 --> 00:06:01.918 鳥のピクセル画像と 00:06:01.942 --> 00:06:05.970 「鳥」という言葉の間にあるのは 00:06:05.994 --> 00:06:07.852 ニューラルネットワークの中の 00:06:07.852 --> 00:06:09.881 結合しあった 一連のニューロンです 00:06:09.881 --> 00:06:11.274 図示すると こうなります 00:06:11.274 --> 00:06:14.930 このニューラルネットワークは 視覚野内に生物学的なものとして存在し 00:06:14.930 --> 00:06:17.376 また最近では コンピューター上に 00:06:17.376 --> 00:06:19.504 モデル化できるようになりました 00:06:19.834 --> 00:06:22.187 どのように動作するか お見せしましょう NOTE Paragraph 00:06:22.211 --> 00:06:25.627 画像は ニューロンの 第1層を示しています 00:06:25.651 --> 00:06:27.644 これは目で言うと 00:06:27.644 --> 00:06:29.577 網膜内のニューロンに相当します 00:06:29.601 --> 00:06:31.025 情報は 00:06:31.025 --> 00:06:34.528 ニューロンの1つの層から別の層へと 次々と受け渡され 00:06:34.552 --> 00:06:37.755 ニューロン同士は 重みの異なる シナプスでつながれています 00:06:37.755 --> 00:06:39.484 このネットワークの動作は 00:06:39.484 --> 00:06:42.252 シナプス結合の 強さによって変わり 00:06:42.276 --> 00:06:45.564 それが ネットワークの 計算的特徴を決めます 00:06:45.588 --> 00:06:47.058 そうして最終的には 00:06:47.082 --> 00:06:49.529 少数のニューロン群が反応し 00:06:49.553 --> 00:06:51.500 「鳥」だと認識されます NOTE Paragraph 00:06:51.824 --> 00:06:54.956 ここで3つの対象物 ― 00:06:54.980 --> 00:06:59.676 入力されたピクセル ニューラルネットワーク内のシナプス 00:06:59.700 --> 00:07:01.285 出力である「鳥」 00:07:01.309 --> 00:07:04.846 この3つを 「x」「w」「y」と置きましょう 00:07:04.853 --> 00:07:06.984 xは 画像中のピクセルなので 00:07:06.984 --> 00:07:08.811 100万個くらいあり 00:07:08.811 --> 00:07:11.111 wは数十億から数兆個 00:07:11.135 --> 00:07:14.556 ニューラルネット内の全シナプスの 結合強度を表します 00:07:14.580 --> 00:07:16.455 このネットワークからの 出力である 00:07:16.479 --> 00:07:18.337 yの個数はごくわずかです 00:07:18.361 --> 00:07:20.470 「bird」は たった4文字ですよね? 00:07:21.088 --> 00:07:24.514 ここで 次の簡単な式が 成立すると仮定します 00:07:24.538 --> 00:07:26.701 x “×” w =y 00:07:26.725 --> 00:07:28.761 「かける」に引用符を付けたのは 00:07:28.785 --> 00:07:31.065 この場面で実行される演算は 00:07:31.089 --> 00:07:34.635 実際には 非常に複雑な 数学的な計算だからです NOTE Paragraph 00:07:35.002 --> 00:07:36.393 1つの方程式があって 00:07:36.417 --> 00:07:38.089 3個の変数があります 00:07:38.113 --> 00:07:41.569 ご存じのように 3つの変数のうち 2つの値が分かれば 00:07:41.569 --> 00:07:44.895 残りの変数の値も求められます 00:07:45.158 --> 00:07:47.052 ここでの問題は 00:07:47.052 --> 00:07:49.129 鳥の画像から 00:07:49.129 --> 00:07:52.733 それが鳥だと推論する ということでした 00:07:52.757 --> 00:07:56.216 つまり y が未知で xとwが分かっています 00:07:56.240 --> 00:07:58.919 画像 x と ネットワーク w は 与えられています 00:07:58.919 --> 00:08:01.724 ご覧のように 比較的単純な問題です 00:08:01.724 --> 00:08:04.730 2と3を掛け合わせれば 答えは出ます 00:08:04.752 --> 00:08:07.779 我々が最近構築した ニューラルネットワークでは 00:08:07.779 --> 00:08:09.725 まさに これを実行しています NOTE Paragraph 00:08:09.725 --> 00:08:12.494 携帯電話上で リアルタイムで処理をしています 00:08:12.518 --> 00:08:15.605 こんなに すごいことができるのも 00:08:15.605 --> 00:08:19.197 現在の携帯電話では 1秒当たり 数十億~数兆の命令を 00:08:19.197 --> 00:08:20.595 実行できるからです 00:08:20.619 --> 00:08:22.234 ご覧いただいているのは 00:08:22.258 --> 00:08:25.805 携帯電話で次々に出す 鳥の画像に対し 00:08:25.829 --> 00:08:28.544 ニューラルネットが 「これは鳥だ」と言うだけでなく 00:08:28.568 --> 00:08:32.309 鳥の種類まで 特定しているところです 00:08:32.890 --> 00:08:34.716 この式で言うと 00:08:34.740 --> 00:08:38.506 xとwが既知で yが未知の場合です 00:08:38.506 --> 00:08:41.283 ここで 難しい部分を はしょっていました 00:08:41.283 --> 00:08:44.959 wは そもそも どうやって求めたらいいのか 00:08:44.983 --> 00:08:47.170 脳がやっているようなことですが 00:08:47.194 --> 00:08:49.428 人間は どうやって学ぶのでしょう? NOTE Paragraph 00:08:49.428 --> 00:08:52.651 この学習プロセス wを解くという問題は 00:08:52.675 --> 00:08:55.322 変数が数値の 簡単な式であれば 00:08:55.346 --> 00:08:57.346 どうすればよいか分かります 00:08:57.370 --> 00:09:00.057 6=2×w を解くには 00:09:00.081 --> 00:09:03.393 両辺を2で割れば済みます 00:09:04.001 --> 00:09:06.811 ここで問題になるのは この演算子です 00:09:06.823 --> 00:09:08.084 今 割り算をしましたが 00:09:08.084 --> 00:09:11.119 それは割り算が 掛け算の逆演算だからです 00:09:11.143 --> 00:09:12.583 しかし 先ほど言ったとおり 00:09:12.607 --> 00:09:15.056 掛け算と見るのには ウソがあり 00:09:15.080 --> 00:09:18.406 実際には とても複雑な非線形演算で 00:09:18.430 --> 00:09:20.134 逆演算が存在しません 00:09:20.158 --> 00:09:23.308 だから 除算演算子を使わずに 00:09:23.332 --> 00:09:25.356 これを解かなければなりません 00:09:25.380 --> 00:09:27.723 でも そのやり方はそう難しくありません 00:09:27.747 --> 00:09:30.418 代数学的な ちょっとしたワザを使うんです 00:09:30.442 --> 00:09:33.348 まず「6」を式の右辺に移します 00:09:33.372 --> 00:09:35.698 依然として乗算を使っています 00:09:35.698 --> 00:09:39.255 そして 左辺の「0」を誤差と考えます 00:09:39.279 --> 00:09:41.794 つまり wを正しく求められれば 00:09:41.818 --> 00:09:43.474 誤差の値は0になります 00:09:43.498 --> 00:09:45.300 wの値が 正しくない場合 00:09:45.300 --> 00:09:47.209 誤差は0より大きくなります NOTE Paragraph 00:09:47.233 --> 00:09:50.483 誤差の値が最小になるよう 推量をします 00:09:50.483 --> 00:09:52.864 こういう処理なら コンピューターは大得意です 00:09:52.864 --> 00:09:54.291 最初の推測値として 00:09:54.291 --> 00:09:55.481 w=0では どうでしょう? 00:09:55.481 --> 00:09:56.545 誤差は6です 00:09:56.545 --> 00:09:58.255 w=1の場合 誤差は4 00:09:58.255 --> 00:10:01.232 マルコ・ポーロ式鬼ごっこのような調子で 00:10:01.256 --> 00:10:03.623 誤差を0に近づけていき 00:10:03.647 --> 00:10:06.885 そうやってwの近似値を求めます 00:10:06.885 --> 00:10:10.701 通常 正解そのものにたどり着くことは ありませんが 00:10:10.725 --> 00:10:15.739 数十回繰り返すと w=2.999のような 十分近い値が求まります 00:10:16.302 --> 00:10:18.116 これが 学習プロセスです NOTE Paragraph 00:10:18.140 --> 00:10:20.870 ここで改めて 思い出してください 00:10:20.894 --> 00:10:25.226 私たちがやっていたのは 既知の xとyに対し 00:10:25.226 --> 00:10:28.960 反復的プロセスによって 真ん中の wの値を求めるということです 00:10:28.960 --> 00:10:32.330 これは人間がものごとを学習するのと 同じやり方です 00:10:32.354 --> 00:10:34.584 赤ちゃんのとき たくさんの絵を見せられ 00:10:34.608 --> 00:10:37.681 「これは鳥 これは鳥じゃない」と 教わります 00:10:37.714 --> 00:10:39.812 この学習を反復することで 00:10:39.836 --> 00:10:43.444 wを解いて 神経結合を作り出すんです NOTE Paragraph 00:10:43.460 --> 00:10:47.350 xと w に対して y を求めるというのは 00:10:47.350 --> 00:10:49.231 高速な日常的「知覚」です 00:10:49.231 --> 00:10:51.204 w を求める方法を 先ほど考えましたが 00:10:51.228 --> 00:10:53.251 これは「学習」であり ずっと難しいことです 00:10:53.251 --> 00:10:55.134 なぜなら 多くの訓練例を使って 00:10:55.134 --> 00:10:57.081 誤差を最小化する必要が あるからです NOTE Paragraph 00:10:57.081 --> 00:11:00.202 1年ほど前 私のチームの アレックス・モードヴィンツェフは 00:11:00.202 --> 00:11:03.636 既知の w と y に対して x の値を求めるとどうなるか 00:11:03.660 --> 00:11:06.127 実験してみることにしました 00:11:06.127 --> 00:11:07.275 言い換えると 00:11:07.299 --> 00:11:10.031 鳥に対してトレーニングされた ニューラルネットが 00:11:10.031 --> 00:11:11.978 鳥だと答えを出す 00:11:12.002 --> 00:11:14.954 「鳥の絵」はどんなものか ということです 00:11:14.954 --> 00:11:20.138 鳥を認識するネットワークを訓練するのと 同じ誤差最小化の手順が 00:11:20.138 --> 00:11:23.512 この場合も使えることが 分かりました 00:11:23.536 --> 00:11:27.304 結果として出てきたのは — 00:11:30.140 --> 00:11:32.295 一種の鳥の絵です 00:11:32.814 --> 00:11:36.385 これは「鳥」を認識するように訓練した ニューラルネットワークによって 00:11:36.385 --> 00:11:38.401 生成された鳥のイメージです 00:11:38.425 --> 00:11:40.717 yの値を求めるかわりに 00:11:40.717 --> 00:11:43.615 反復によって xを求めたんです NOTE Paragraph 00:11:43.632 --> 00:11:45.579 別の面白い例を 紹介しましょう 00:11:45.603 --> 00:11:49.040 私のグループのマイク・タイカが 作ってくれたものです 00:11:49.064 --> 00:11:51.372 マイクは「動物のパレード」と呼んでました 00:11:51.396 --> 00:11:54.272 ウィリアム・ケントリッジの作品を 思わせます 00:11:54.296 --> 00:11:56.699 ケントリッジは スケッチを描いては消し 00:11:56.699 --> 00:11:58.253 また 描いては消しして 00:11:58.253 --> 00:11:59.801 アニメーションを作り出します 00:11:59.801 --> 00:12:00.830 この場合 00:12:00.830 --> 00:12:04.167 マイクは 動物種の集合の中で yの値を変えていて 00:12:04.191 --> 00:12:06.953 動物の種類を識別するよう 設計された 00:12:06.953 --> 00:12:08.407 ネットワークを使っています 00:12:08.431 --> 00:12:12.582 エッシャーのだまし絵のように 動物が別の動物へと変形していきます NOTE Paragraph 00:12:14.221 --> 00:12:18.289 次は マイクとアレックスが 協力して作ったもので 00:12:18.289 --> 00:12:21.618 y を二次元空間に 収めようと試みていて 00:12:21.642 --> 00:12:25.034 ネットワークが認識するもの 全てを含む空間の 00:12:25.034 --> 00:12:26.627 地図を作っています 00:12:26.627 --> 00:12:29.080 この画像合成・画像生成を 00:12:29.080 --> 00:12:32.206 yの値を変化させながら 画面全体にわたって行うことで 00:12:32.206 --> 00:12:34.406 このような地図が できあがります 00:12:34.406 --> 00:12:37.421 ネットワークが認識するものすべての 視覚地図です 00:12:37.421 --> 00:12:40.679 いろんな動物が現れます あそこにアルマジロがいますね NOTE Paragraph 00:12:40.679 --> 00:12:43.252 他のネットワークでも 同様の処理が実行できます 00:12:43.252 --> 00:12:45.510 これは 人物の顔を見分ける― 00:12:45.510 --> 00:12:48.550 顔認識のために設計された ネットワークです 00:12:48.550 --> 00:12:51.593 ここで yは「私」です 00:12:51.617 --> 00:12:53.192 私の顔をパラメータにして 00:12:53.216 --> 00:12:55.422 このネットワークを使い xの値を求めると 00:12:55.422 --> 00:12:57.744 かなり ぶっ飛んだ 画像が作られます 00:12:57.744 --> 00:13:01.850 キュービズムというか シュールというか サイケな感じの 私の絵です 00:13:01.850 --> 00:13:03.736 複数の視点を 1つにまとめています 00:13:03.736 --> 00:13:06.368 このように 複数の視点が 1つになっている理由は 00:13:06.368 --> 00:13:10.315 このネットワークが あいまいさを除去する 設計になっているためです 00:13:10.339 --> 00:13:13.345 人の顔の見え方は 見る角度によって変わり 00:13:13.345 --> 00:13:16.215 光の当たり方によっても 変わります 00:13:16.239 --> 00:13:18.324 だから このような再構成を行う場合 00:13:18.348 --> 00:13:21.732 ガイドとなる画像や 統計値がないと 00:13:21.732 --> 00:13:23.637 視点に関して 00:13:23.637 --> 00:13:25.260 混乱が生じるんです 00:13:25.260 --> 00:13:27.398 あいまいさがあるためです 00:13:27.786 --> 00:13:32.009 ここでは 私の顔を再構成する 最適化プロセスで 00:13:32.033 --> 00:13:35.854 アレックスの顔の映像を ガイドとして使っています 00:13:36.284 --> 00:13:38.612 完璧とは言えず 00:13:38.636 --> 00:13:40.980 この最適化プロセスを 改善するために 00:13:40.980 --> 00:13:42.987 やることは まだまだありますが 00:13:43.011 --> 00:13:45.612 とりあえず 顔をガイドとして使うことで 00:13:45.612 --> 00:13:48.522 統一感のあるイメージが できるようになります NOTE Paragraph 00:13:48.522 --> 00:13:50.277 別に 真っ白なキャンバスや 00:13:50.277 --> 00:13:52.513 ホワイトノイズから 始める必要はありません 00:13:52.513 --> 00:13:53.971 xを求めるという場合 00:13:53.971 --> 00:13:57.814 xとして 何か別の画像から 出発してもいいんです 00:13:57.838 --> 00:14:00.394 それを説明するデモを お見せしましょう 00:14:00.418 --> 00:14:04.540 これは 人工物であれ 動物であれ 00:14:04.564 --> 00:14:07.683 あらゆるものを分類するよう 設計されたネットワークです 00:14:07.707 --> 00:14:10.300 この雲の写真からスタートします 00:14:10.324 --> 00:14:11.995 これを最適化すると 00:14:12.019 --> 00:14:16.505 このネットワークは 「雲の中に何が見えるか」を探します 00:14:16.931 --> 00:14:19.251 画面をじっと見ているうちに 00:14:19.275 --> 00:14:22.428 雲の中に いろんなものが 見えてきます 00:14:22.794 --> 00:14:26.379 これに顔認識ネットワークを使うと 幻覚っぽい映像になります 00:14:26.403 --> 00:14:28.215 ちょっと頭がおかしくなりそうな NOTE Paragraph 00:14:28.239 --> 00:14:29.389 (笑) NOTE Paragraph 00:14:30.401 --> 00:14:33.145 マイクはまた 00:14:33.169 --> 00:14:37.074 この雲の画像で 別の実験もしています 00:14:37.098 --> 00:14:40.605 幻視とズームを繰り返していくと 00:14:40.629 --> 00:14:41.780 こんな感じに 00:14:41.804 --> 00:14:45.759 フーガのような 自由連想のような映像を 00:14:45.759 --> 00:14:48.917 このネットワークから 作り出せます 00:14:48.917 --> 00:14:51.754 ネットワークが 自分の尻尾を食べています 00:14:51.754 --> 00:14:54.879 それそれのイメージが 次のイメージのベースになっています 00:14:54.903 --> 00:14:56.324 「次に 何が見える? 00:14:56.348 --> 00:14:59.461 次に 何が見える? 次に 何が見える?」という風に NOTE Paragraph 00:14:59.487 --> 00:15:02.423 ちなみに このデモを 最初に披露したのは 00:15:02.447 --> 00:15:07.518 シアトルで開かれた 「高等教育」と題した講演会で 00:15:07.518 --> 00:15:10.345 マリファナが合法化された 直後のことでした NOTE Paragraph 00:15:10.369 --> 00:15:12.784 (笑) NOTE Paragraph 00:15:14.627 --> 00:15:16.485 最後にまとめとして 00:15:16.485 --> 00:15:21.010 この技術は お見せしたようなものに 限定されないことを指摘しておきます 00:15:21.034 --> 00:15:24.563 今回は視覚的にちょっと面白い例を 紹介しましたが 00:15:24.563 --> 00:15:27.088 別に 視覚のテクノロジー というわけではないんです 00:15:27.088 --> 00:15:30.561 我々の協力者でアーティストの ロス・グッドウィンによる実験ですが 00:15:30.561 --> 00:15:32.886 彼がカメラで写真を撮ると 00:15:32.910 --> 00:15:36.718 その写真の中身を元に 背負っているコンピューターが 00:15:36.718 --> 00:15:39.112 ニューラルネットワークで 詩を書きます 00:15:39.136 --> 00:15:41.397 詩のニューラルネットワークは 00:15:41.397 --> 00:15:44.441 20世紀の詩の 膨大なコーパスで トレーニングされています 00:15:44.441 --> 00:15:45.904 そうやって書かれた詩は 00:15:45.904 --> 00:15:47.982 どうして そう悪くないと思います NOTE Paragraph 00:15:47.982 --> 00:15:49.210 (笑) NOTE Paragraph 00:15:49.234 --> 00:15:50.393 まとめになりますが 00:15:50.417 --> 00:15:52.549 ミケランジェロは正しかったと 00:15:52.573 --> 00:15:53.807 つくづく思います 00:15:53.831 --> 00:15:57.521 知覚と創造性とは 密接に結びついているんです 00:15:57.521 --> 00:16:00.245 先ほどお見せした ニューラルネットワークは 00:16:00.269 --> 00:16:02.752 世の中の さまざまなものを区別するよう 00:16:02.752 --> 00:16:04.838 学習させたものですが 00:16:04.862 --> 00:16:08.023 処理を逆転させて 新しいものを作り出すこともできます 00:16:08.047 --> 00:16:09.830 そこで気づかされるのは 00:16:09.854 --> 00:16:12.252 石の塊の中に 彫刻を見ることができるのは 00:16:12.276 --> 00:16:14.728 ミケランジェロだけではないということ 00:16:14.752 --> 00:16:18.840 どんな生物であれ どんな存在 地球外生命体だろうと 00:16:18.840 --> 00:16:21.665 知覚を行う能力のあるものは 00:16:21.665 --> 00:16:23.470 創造もできるということです 00:16:23.494 --> 00:16:26.718 どちらも同じメカニズムで できることだからです NOTE Paragraph 00:16:26.742 --> 00:16:29.488 そして 知覚と創造は 00:16:29.488 --> 00:16:32.492 決して 人間に限られたものではありません 00:16:32.492 --> 00:16:36.310 私たちは そのようなことができる コンピューターモデルを作り始めています 00:16:36.310 --> 00:16:39.592 驚くことではありません 脳もまた計算機械だからです NOTE Paragraph 00:16:39.616 --> 00:16:41.273 最後に 00:16:41.297 --> 00:16:45.965 コンピューティングは 知的機械の設計から始まり 00:16:45.989 --> 00:16:49.181 機械はいかに知的になれるか という発想から 00:16:49.181 --> 00:16:51.402 モデル化されましたが 00:16:51.402 --> 00:16:53.934 今や我々は 昔の先駆者が 夢見た世界を 00:16:53.934 --> 00:16:56.078 ようやく実現させつつあります 00:16:56.078 --> 00:16:57.931 チューリングやフォン・ノイマンの夢 00:16:57.931 --> 00:17:00.294 マカロックやピッツの夢を 00:17:00.294 --> 00:17:02.986 コンピューティングは 会計処理だとか 00:17:02.986 --> 00:17:06.403 キャンディークラッシュで 遊ぶだけのものではありません 00:17:06.403 --> 00:17:09.585 コンピューターはそもそも 人間の脳をモデルとしたものでしたが 00:17:09.585 --> 00:17:12.082 それは 人間の知性を よりよく理解するためにも 00:17:12.082 --> 00:17:14.551 人間の知性を拡張するためにも 使えるのです NOTE Paragraph 00:17:14.627 --> 00:17:15.794 ありがとうございました NOTE Paragraph 00:17:15.818 --> 00:17:21.757 (拍手)