WEBVTT

00:00:00.570 --> 00:00:03.924
私はGoogleで 機械知能に取り組む
開発チームを率いています

00:00:03.948 --> 00:00:07.262
機械知能とは コンピューターや
いろいろな種類の端末に

00:00:07.262 --> 00:00:11.359
人間の脳のような機能を
持たせるための技術です

00:00:11.359 --> 00:00:14.222
仕事上 私たちは 
人間の脳の働きや

00:00:14.222 --> 00:00:15.941
神経科学に関心があり

00:00:15.941 --> 00:00:20.047
脳が未だコンピューターより
はるかに優れている領域に

00:00:20.071 --> 00:00:24.113
特に興味を持っています

NOTE Paragraph

00:00:25.009 --> 00:00:28.818
そのような領域として
古くから認識されていたのは 知覚です

00:00:28.842 --> 00:00:31.605
知覚とは 外界に存在するもの―

00:00:31.605 --> 00:00:33.489
つまり 音や映像のようなものを

00:00:33.513 --> 00:00:36.145
心の中の概念に 変えるプロセスです

00:00:36.145 --> 00:00:38.892
これは 人間の脳に
本質的に備わっている能力ですが

00:00:38.892 --> 00:00:41.400
コンピューターにも 有用なものです

00:00:41.416 --> 00:00:44.986
例えば 私の部署で作っている
機械知覚アルゴリズムは

00:00:45.010 --> 00:00:47.098
Googleフォトの画像を

00:00:47.098 --> 00:00:50.785
写っているものに基づいて
検索できるようにする技術です

00:00:51.594 --> 00:00:54.861
一方 知覚と対照的なものに
創造性があります

00:00:54.861 --> 00:00:58.259
創造性とは 概念を
何かの形で世に生み出すことです

00:00:58.259 --> 00:01:02.058
この１年の我々の
機械知覚への取り組みの中で

00:01:02.058 --> 00:01:06.015
コンピューターによる創造
「機械芸術」の世界との

00:01:06.015 --> 00:01:08.545
意外な接点を見ました

NOTE Paragraph

00:01:08.556 --> 00:01:11.794
ミケランジェロには 
先見の明があり

00:01:11.794 --> 00:01:15.943
この「知覚と創造の二重の関係」を
見ていたのだと思います

00:01:15.943 --> 00:01:18.169
彼は 有名な言葉を残しています

00:01:18.169 --> 00:01:21.766
「どんな石の塊にも 彫像が隠れており

00:01:21.766 --> 00:01:25.618
彫刻家の仕事は 
その像を見出すことである」

00:01:26.029 --> 00:01:29.159
ミケランジェロが気づいていたのは

00:01:29.159 --> 00:01:32.449
我々は 知覚によって
創造しているということで

00:01:32.473 --> 00:01:35.496
知覚自体が 想像する行為であり

00:01:35.520 --> 00:01:38.511
創造的なものだということです

NOTE Paragraph

00:01:38.691 --> 00:01:42.616
人体の中で 思考 知覚 想像を行う器官は

00:01:42.640 --> 00:01:44.608
言うまでもなく 脳です

00:01:45.089 --> 00:01:47.634
そこで 脳科学の歩みについて

00:01:47.658 --> 00:01:50.220
簡単に振り返りましょう

00:01:50.496 --> 00:01:52.942
心臓や腸などとは違い

00:01:52.966 --> 00:01:56.110
脳については 外観からは
分からないことが多いからです

00:01:56.134 --> 00:01:57.996
少なくとも 肉眼で見た場合には

00:01:57.996 --> 00:02:00.779
脳に注目した 昔の解剖学者たちは

00:02:00.779 --> 00:02:04.054
脳の外部構造を見て
しゃれた名前を付けました

00:02:04.054 --> 00:02:06.767
例えば「海馬」
これは タツノオトシゴのことです

00:02:06.767 --> 00:02:08.729
しかし そのように付けられた名前は

00:02:08.729 --> 00:02:12.127
その働きについて
ほとんど何も示していません

NOTE Paragraph

00:02:12.610 --> 00:02:16.393
脳内で起きていることについて
本当の知見を初めて得たのは

00:02:16.417 --> 00:02:19.657
19世紀の 偉大な
スペイン人神経解剖学者

00:02:19.657 --> 00:02:22.291
サンティアゴ・ラモン・イ・カハールだと

00:02:22.315 --> 00:02:23.859
私は思います

00:02:23.883 --> 00:02:27.808
彼は顕微鏡と
選択的に染める特殊な染料を使って

00:02:27.808 --> 00:02:31.832
脳内の個々の細胞を 
非常にはっきりした形で

00:02:31.856 --> 00:02:33.608
見られるようにし

00:02:33.608 --> 00:02:37.412
そこから 形態学的理解が
進むようになりました

00:02:37.972 --> 00:02:40.863
19世紀に 彼が描いた
神経のイメージは

00:02:40.887 --> 00:02:42.096
このようなものでした

NOTE Paragraph

00:02:42.120 --> 00:02:44.004
これは 鳥の脳です

00:02:44.028 --> 00:02:47.085
このように 驚くほど
多様な細胞があります

00:02:47.109 --> 00:02:50.544
当時は 細胞説自体が
ごく新しいものでした

00:02:50.568 --> 00:02:52.366
この構造 この細胞には

00:02:52.366 --> 00:02:54.129
樹状突起があります

00:02:54.153 --> 00:02:56.761
この突起は
非常に長く伸びうるのですが

00:02:56.785 --> 00:02:58.761
これも 当時は目新しいことでした

00:02:58.779 --> 00:03:01.682
樹状突起は 配線のようにも見えます

00:03:01.706 --> 00:03:05.163
このことは 19世紀の一部の人には
一目瞭然だったかもしれません

00:03:05.187 --> 00:03:09.501
電気による革命が進み
配線が普及し始めた時代だったからです

00:03:09.824 --> 00:03:11.322
しかし いろいろな面で

00:03:11.322 --> 00:03:14.619
ラモン・イ・カハールが提示した
微細解剖学的な図は

00:03:14.619 --> 00:03:16.835
ある意味 今なお越えられていません

NOTE Paragraph

00:03:16.859 --> 00:03:18.427
１世紀を経た今も 我々は

00:03:18.427 --> 00:03:22.052
ラモン・イ・カハールが始めた仕事を
完成させようと試み続けています

00:03:22.052 --> 00:03:23.894
これは 我々が提携している

00:03:23.894 --> 00:03:27.625
マックス・プランク神経科学研究所による
生のデータです

00:03:27.649 --> 00:03:29.439
彼らが行ったのは

00:03:29.463 --> 00:03:34.464
脳の組織の小さな断片を
可視化するということです

00:03:34.488 --> 00:03:37.814
この試料全体の大きさは 
１立方ミリメートルで

00:03:37.838 --> 00:03:40.459
今 お見せしているのは 
そのごく一部です

00:03:40.483 --> 00:03:42.829
左の棒の長さが
１ミクロンです

00:03:42.853 --> 00:03:45.262
ご覧の構造は ミトコンドリアで

00:03:45.286 --> 00:03:47.330
大きさとしては
バクテリアと同程度です

00:03:47.354 --> 00:03:49.315
ごく小さな組織片の

00:03:49.315 --> 00:03:52.077
連続的断面を映しています

00:03:52.101 --> 00:03:54.168
比較のために言うと

00:03:54.168 --> 00:03:58.320
髪の毛の直径は
平均約100ミクロンです

00:03:58.344 --> 00:04:00.618
ご覧のものは
髪の毛の直径よりも

00:04:00.642 --> 00:04:02.040
はるかに小さいんです

NOTE Paragraph

00:04:02.064 --> 00:04:05.939
このような 電子顕微鏡による
連続断面像から

00:04:05.939 --> 00:04:11.111
ニューロンの３次元像を
再構成できます

00:04:11.111 --> 00:04:13.942
ここでは ラモン・イ・カハールが
したのと同じように

00:04:13.942 --> 00:04:16.014
ごく一部のニューロンだけを示しています

00:04:16.014 --> 00:04:18.083
そうしなければ
あまりに密集していて

00:04:18.083 --> 00:04:20.104
わけが分からなくなってしまいます

00:04:20.104 --> 00:04:22.069
ニューロンは 互いに結合し合った —

00:04:22.069 --> 00:04:24.407
非常に複雑な構造をしているためです

NOTE Paragraph

00:04:25.083 --> 00:04:27.931
ラモン・イ・カハールは
時代の先を行っていて

00:04:27.931 --> 00:04:30.070
脳に対する理解は

00:04:30.070 --> 00:04:33.381
その後の数十年で
ゆっくりと進んでいきました

00:04:33.395 --> 00:04:36.308
やがて ニューロンは
電気を使っていることが発見され

00:04:36.332 --> 00:04:38.362
第二次世界大戦の頃には

00:04:38.362 --> 00:04:41.492
仕組みの解明のため
生きたニューロンを使って

00:04:41.492 --> 00:04:44.578
電気的な実験ができるくらいに
技術が進歩しました

00:04:44.631 --> 00:04:48.611
ほぼ同時期に
コンピューターも発明されましたが

00:04:48.611 --> 00:04:52.211
これは 人間の脳をモデル化するという
アイデアに基づいていました

00:04:52.211 --> 00:04:55.204
コンピュータ科学の父の１人である
アラン・チューリングは

00:04:55.204 --> 00:04:57.793
これを「知的機械」と呼びました

NOTE Paragraph

00:04:57.793 --> 00:05:00.799
そしてウォーレン・マカロックと
ウォルター・ピッツが

00:05:00.799 --> 00:05:03.840
ラモン・イ・カハールの
視覚野の図に 目を向けました

00:05:03.840 --> 00:05:05.752
今 ここでお見せしているものです

00:05:05.752 --> 00:05:10.118
これは 目から受け取ったイメージを
処理する皮質です

00:05:10.424 --> 00:05:14.292
２人には これが
回路図のように見えました

00:05:14.353 --> 00:05:18.002
マカロックとピッツの回路図の
細かい部分には

00:05:18.002 --> 00:05:19.564
間違いが たくさんありますが

00:05:19.588 --> 00:05:21.123
その基本的な概念

00:05:21.123 --> 00:05:24.839
つまり 視覚野は一連の
計算要素のように働き

00:05:24.863 --> 00:05:27.609
段階的に情報を
受け渡していくという概念は

00:05:27.633 --> 00:05:29.235
本質的に正しいものでした

NOTE Paragraph

00:05:29.259 --> 00:05:31.609
ここで 少し時間を取って

00:05:31.633 --> 00:05:36.135
視覚情報処理が どんなことをするのか
説明しようと思います

00:05:36.228 --> 00:05:39.129
知覚の基本的な仕事は

00:05:39.129 --> 00:05:43.187
このような画像を見て 識別をすることです

00:05:43.211 --> 00:05:44.387
「あれは鳥だ」と

00:05:44.411 --> 00:05:47.285
人間の脳は
この処理を簡単にやってのけますが

00:05:47.309 --> 00:05:50.730
コンピューターにとっては難問で

00:05:50.754 --> 00:05:53.841
数年前までは ほとんど不可能でした

00:05:53.865 --> 00:05:55.781
従来の コンピューターの構造は

00:05:55.805 --> 00:05:58.552
こういうタスクには不向きなんです

NOTE Paragraph

00:05:59.366 --> 00:06:01.918
鳥のピクセル画像と

00:06:01.942 --> 00:06:05.970
「鳥」という言葉の間にあるのは

00:06:05.994 --> 00:06:07.852
ニューラルネットワークの中の

00:06:07.852 --> 00:06:09.881
結合しあった 一連のニューロンです

00:06:09.881 --> 00:06:11.274
図示すると こうなります

00:06:11.274 --> 00:06:14.930
このニューラルネットワークは
視覚野内に生物学的なものとして存在し

00:06:14.930 --> 00:06:17.376
また最近では コンピューター上に

00:06:17.376 --> 00:06:19.504
モデル化できるようになりました

00:06:19.834 --> 00:06:22.187
どのように動作するか お見せしましょう

NOTE Paragraph

00:06:22.211 --> 00:06:25.627
画像は ニューロンの
第１層を示しています

00:06:25.651 --> 00:06:27.644
これは目で言うと

00:06:27.644 --> 00:06:29.577
網膜内のニューロンに相当します

00:06:29.601 --> 00:06:31.025
情報は

00:06:31.025 --> 00:06:34.528
ニューロンの１つの層から別の層へと 
次々と受け渡され

00:06:34.552 --> 00:06:37.755
ニューロン同士は 重みの異なる
シナプスでつながれています

00:06:37.755 --> 00:06:39.484
このネットワークの動作は

00:06:39.484 --> 00:06:42.252
シナプス結合の
強さによって変わり

00:06:42.276 --> 00:06:45.564
それが ネットワークの
計算的特徴を決めます

00:06:45.588 --> 00:06:47.058
そうして最終的には

00:06:47.082 --> 00:06:49.529
少数のニューロン群が反応し

00:06:49.553 --> 00:06:51.500
「鳥」だと認識されます

NOTE Paragraph

00:06:51.824 --> 00:06:54.956
ここで３つの対象物 ―

00:06:54.980 --> 00:06:59.676
入力されたピクセル
ニューラルネットワーク内のシナプス

00:06:59.700 --> 00:07:01.285
出力である「鳥」

00:07:01.309 --> 00:07:04.846
この３つを
「ｘ」「ｗ」「ｙ」と置きましょう

00:07:04.853 --> 00:07:06.984
ｘは 画像中のピクセルなので

00:07:06.984 --> 00:07:08.811
100万個くらいあり

00:07:08.811 --> 00:07:11.111
ｗは数十億から数兆個

00:07:11.135 --> 00:07:14.556
ニューラルネット内の全シナプスの
結合強度を表します

00:07:14.580 --> 00:07:16.455
このネットワークからの
出力である

00:07:16.479 --> 00:07:18.337
ｙの個数はごくわずかです

00:07:18.361 --> 00:07:20.470
「bird」は たった４文字ですよね？

00:07:21.088 --> 00:07:24.514
ここで 次の簡単な式が
成立すると仮定します

00:07:24.538 --> 00:07:26.701
ｘ “×” ｗ ＝ｙ

00:07:26.725 --> 00:07:28.761
「かける」に引用符を付けたのは

00:07:28.785 --> 00:07:31.065
この場面で実行される演算は

00:07:31.089 --> 00:07:34.635
実際には 非常に複雑な
数学的な計算だからです

NOTE Paragraph

00:07:35.002 --> 00:07:36.393
１つの方程式があって

00:07:36.417 --> 00:07:38.089
３個の変数があります

00:07:38.113 --> 00:07:41.569
ご存じのように 
３つの変数のうち ２つの値が分かれば

00:07:41.569 --> 00:07:44.895
残りの変数の値も求められます

00:07:45.158 --> 00:07:47.052
ここでの問題は

00:07:47.052 --> 00:07:49.129
鳥の画像から

00:07:49.129 --> 00:07:52.733
それが鳥だと推論する
ということでした

00:07:52.757 --> 00:07:56.216
つまり y が未知で
ｘとｗが分かっています

00:07:56.240 --> 00:07:58.919
画像 x と ネットワーク w は
与えられています

00:07:58.919 --> 00:08:01.724
ご覧のように
比較的単純な問題です

00:08:01.724 --> 00:08:04.730
２と３を掛け合わせれば
答えは出ます

00:08:04.752 --> 00:08:07.779
我々が最近構築した
ニューラルネットワークでは

00:08:07.779 --> 00:08:09.725
まさに これを実行しています

NOTE Paragraph

00:08:09.725 --> 00:08:12.494
携帯電話上で
リアルタイムで処理をしています

00:08:12.518 --> 00:08:15.605
こんなに すごいことができるのも

00:08:15.605 --> 00:08:19.197
現在の携帯電話では １秒当たり
数十億～数兆の命令を

00:08:19.197 --> 00:08:20.595
実行できるからです

00:08:20.619 --> 00:08:22.234
ご覧いただいているのは

00:08:22.258 --> 00:08:25.805
携帯電話で次々に出す
鳥の画像に対し

00:08:25.829 --> 00:08:28.544
ニューラルネットが
「これは鳥だ」と言うだけでなく

00:08:28.568 --> 00:08:32.309
鳥の種類まで
特定しているところです

00:08:32.890 --> 00:08:34.716
この式で言うと

00:08:34.740 --> 00:08:38.506
ｘとｗが既知で ｙが未知の場合です

00:08:38.506 --> 00:08:41.283
ここで 難しい部分を はしょっていました

00:08:41.283 --> 00:08:44.959
ｗは そもそも
どうやって求めたらいいのか

00:08:44.983 --> 00:08:47.170
脳がやっているようなことですが

00:08:47.194 --> 00:08:49.428
人間は どうやって学ぶのでしょう？

NOTE Paragraph

00:08:49.428 --> 00:08:52.651
この学習プロセス
ｗを解くという問題は

00:08:52.675 --> 00:08:55.322
変数が数値の 簡単な式であれば

00:08:55.346 --> 00:08:57.346
どうすればよいか分かります

00:08:57.370 --> 00:09:00.057
６＝２×ｗ を解くには

00:09:00.081 --> 00:09:03.393
両辺を２で割れば済みます

00:09:04.001 --> 00:09:06.811
ここで問題になるのは 
この演算子です

00:09:06.823 --> 00:09:08.084
今 割り算をしましたが

00:09:08.084 --> 00:09:11.119
それは割り算が
掛け算の逆演算だからです

00:09:11.143 --> 00:09:12.583
しかし 先ほど言ったとおり

00:09:12.607 --> 00:09:15.056
掛け算と見るのには ウソがあり

00:09:15.080 --> 00:09:18.406
実際には とても複雑な非線形演算で

00:09:18.430 --> 00:09:20.134
逆演算が存在しません

00:09:20.158 --> 00:09:23.308
だから 除算演算子を使わずに

00:09:23.332 --> 00:09:25.356
これを解かなければなりません

00:09:25.380 --> 00:09:27.723
でも そのやり方はそう難しくありません

00:09:27.747 --> 00:09:30.418
代数学的な ちょっとしたワザを使うんです

00:09:30.442 --> 00:09:33.348
まず「６」を式の右辺に移します

00:09:33.372 --> 00:09:35.698
依然として乗算を使っています

00:09:35.698 --> 00:09:39.255
そして 左辺の「０」を誤差と考えます

00:09:39.279 --> 00:09:41.794
つまり ｗを正しく求められれば

00:09:41.818 --> 00:09:43.474
誤差の値は０になります

00:09:43.498 --> 00:09:45.300
ｗの値が 正しくない場合

00:09:45.300 --> 00:09:47.209
誤差は０より大きくなります

NOTE Paragraph

00:09:47.233 --> 00:09:50.483
誤差の値が最小になるよう
推量をします

00:09:50.483 --> 00:09:52.864
こういう処理なら
コンピューターは大得意です

00:09:52.864 --> 00:09:54.291
最初の推測値として

00:09:54.291 --> 00:09:55.481
ｗ＝０では どうでしょう？

00:09:55.481 --> 00:09:56.545
誤差は６です

00:09:56.545 --> 00:09:58.255
ｗ＝１の場合 誤差は４

00:09:58.255 --> 00:10:01.232
マルコ・ポーロ式鬼ごっこのような調子で

00:10:01.256 --> 00:10:03.623
誤差を０に近づけていき

00:10:03.647 --> 00:10:06.885
そうやってｗの近似値を求めます

00:10:06.885 --> 00:10:10.701
通常 正解そのものにたどり着くことは
ありませんが

00:10:10.725 --> 00:10:15.739
数十回繰り返すと ｗ＝2.999のような
十分近い値が求まります

00:10:16.302 --> 00:10:18.116
これが 学習プロセスです

NOTE Paragraph

00:10:18.140 --> 00:10:20.870
ここで改めて 思い出してください

00:10:20.894 --> 00:10:25.226
私たちがやっていたのは
既知の ｘとｙに対し

00:10:25.226 --> 00:10:28.960
反復的プロセスによって
真ん中の ｗの値を求めるということです

00:10:28.960 --> 00:10:32.330
これは人間がものごとを学習するのと
同じやり方です

00:10:32.354 --> 00:10:34.584
赤ちゃんのとき
たくさんの絵を見せられ

00:10:34.608 --> 00:10:37.681
「これは鳥 これは鳥じゃない」と
教わります

00:10:37.714 --> 00:10:39.812
この学習を反復することで

00:10:39.836 --> 00:10:43.444
ｗを解いて
神経結合を作り出すんです

NOTE Paragraph

00:10:43.460 --> 00:10:47.350
ｘと w に対して
y を求めるというのは

00:10:47.350 --> 00:10:49.231
高速な日常的「知覚」です

00:10:49.231 --> 00:10:51.204
w を求める方法を
先ほど考えましたが

00:10:51.228 --> 00:10:53.251
これは「学習」であり
ずっと難しいことです

00:10:53.251 --> 00:10:55.134
なぜなら 多くの訓練例を使って

00:10:55.134 --> 00:10:57.081
誤差を最小化する必要が
あるからです

NOTE Paragraph

00:10:57.081 --> 00:11:00.202
１年ほど前 私のチームの
アレックス・モードヴィンツェフは

00:11:00.202 --> 00:11:03.636
既知の w と y に対して
x の値を求めるとどうなるか

00:11:03.660 --> 00:11:06.127
実験してみることにしました

00:11:06.127 --> 00:11:07.275
言い換えると

00:11:07.299 --> 00:11:10.031
鳥に対してトレーニングされた
ニューラルネットが

00:11:10.031 --> 00:11:11.978
鳥だと答えを出す

00:11:12.002 --> 00:11:14.954
「鳥の絵」はどんなものか
ということです

00:11:14.954 --> 00:11:20.138
鳥を認識するネットワークを訓練するのと
同じ誤差最小化の手順が

00:11:20.138 --> 00:11:23.512
この場合も使えることが
分かりました

00:11:23.536 --> 00:11:27.304
結果として出てきたのは —

00:11:30.140 --> 00:11:32.295
一種の鳥の絵です

00:11:32.814 --> 00:11:36.385
これは「鳥」を認識するように訓練した
ニューラルネットワークによって

00:11:36.385 --> 00:11:38.401
生成された鳥のイメージです

00:11:38.425 --> 00:11:40.717
ｙの値を求めるかわりに

00:11:40.717 --> 00:11:43.615
反復によって ｘを求めたんです

NOTE Paragraph

00:11:43.632 --> 00:11:45.579
別の面白い例を 紹介しましょう

00:11:45.603 --> 00:11:49.040
私のグループのマイク・タイカが
作ってくれたものです

00:11:49.064 --> 00:11:51.372
マイクは「動物のパレード」と呼んでました

00:11:51.396 --> 00:11:54.272
ウィリアム・ケントリッジの作品を
思わせます

00:11:54.296 --> 00:11:56.699
ケントリッジは 
スケッチを描いては消し

00:11:56.699 --> 00:11:58.253
また 描いては消しして

00:11:58.253 --> 00:11:59.801
アニメーションを作り出します

00:11:59.801 --> 00:12:00.830
この場合

00:12:00.830 --> 00:12:04.167
マイクは 動物種の集合の中で
ｙの値を変えていて

00:12:04.191 --> 00:12:06.953
動物の種類を識別するよう
設計された

00:12:06.953 --> 00:12:08.407
ネットワークを使っています

00:12:08.431 --> 00:12:12.582
エッシャーのだまし絵のように
動物が別の動物へと変形していきます

NOTE Paragraph

00:12:14.221 --> 00:12:18.289
次は マイクとアレックスが
協力して作ったもので

00:12:18.289 --> 00:12:21.618
y を二次元空間に
収めようと試みていて

00:12:21.642 --> 00:12:25.034
ネットワークが認識するもの
全てを含む空間の

00:12:25.034 --> 00:12:26.627
地図を作っています

00:12:26.627 --> 00:12:29.080
この画像合成・画像生成を

00:12:29.080 --> 00:12:32.206
ｙの値を変化させながら
画面全体にわたって行うことで

00:12:32.206 --> 00:12:34.406
このような地図が できあがります

00:12:34.406 --> 00:12:37.421
ネットワークが認識するものすべての
視覚地図です

00:12:37.421 --> 00:12:40.679
いろんな動物が現れます
あそこにアルマジロがいますね

NOTE Paragraph

00:12:40.679 --> 00:12:43.252
他のネットワークでも
同様の処理が実行できます

00:12:43.252 --> 00:12:45.510
これは 人物の顔を見分ける―

00:12:45.510 --> 00:12:48.550
顔認識のために設計された
ネットワークです

00:12:48.550 --> 00:12:51.593
ここで ｙは「私」です

00:12:51.617 --> 00:12:53.192
私の顔をパラメータにして

00:12:53.216 --> 00:12:55.422
このネットワークを使い
ｘの値を求めると

00:12:55.422 --> 00:12:57.744
かなり ぶっ飛んだ
画像が作られます

00:12:57.744 --> 00:13:01.850
キュービズムというか シュールというか
サイケな感じの 私の絵です

00:13:01.850 --> 00:13:03.736
複数の視点を
１つにまとめています

00:13:03.736 --> 00:13:06.368
このように 複数の視点が
１つになっている理由は

00:13:06.368 --> 00:13:10.315
このネットワークが あいまいさを除去する
設計になっているためです

00:13:10.339 --> 00:13:13.345
人の顔の見え方は
見る角度によって変わり

00:13:13.345 --> 00:13:16.215
光の当たり方によっても
変わります

00:13:16.239 --> 00:13:18.324
だから このような再構成を行う場合

00:13:18.348 --> 00:13:21.732
ガイドとなる画像や
統計値がないと

00:13:21.732 --> 00:13:23.637
視点に関して

00:13:23.637 --> 00:13:25.260
混乱が生じるんです

00:13:25.260 --> 00:13:27.398
あいまいさがあるためです

00:13:27.786 --> 00:13:32.009
ここでは 私の顔を再構成する
最適化プロセスで

00:13:32.033 --> 00:13:35.854
アレックスの顔の映像を
ガイドとして使っています

00:13:36.284 --> 00:13:38.612
完璧とは言えず

00:13:38.636 --> 00:13:40.980
この最適化プロセスを
改善するために

00:13:40.980 --> 00:13:42.987
やることは まだまだありますが

00:13:43.011 --> 00:13:45.612
とりあえず 
顔をガイドとして使うことで

00:13:45.612 --> 00:13:48.522
統一感のあるイメージが
できるようになります

NOTE Paragraph

00:13:48.522 --> 00:13:50.277
別に 真っ白なキャンバスや

00:13:50.277 --> 00:13:52.513
ホワイトノイズから
始める必要はありません

00:13:52.513 --> 00:13:53.971
ｘを求めるという場合

00:13:53.971 --> 00:13:57.814
ｘとして 何か別の画像から
出発してもいいんです

00:13:57.838 --> 00:14:00.394
それを説明するデモを
お見せしましょう

00:14:00.418 --> 00:14:04.540
これは 人工物であれ 動物であれ

00:14:04.564 --> 00:14:07.683
あらゆるものを分類するよう
設計されたネットワークです

00:14:07.707 --> 00:14:10.300
この雲の写真からスタートします

00:14:10.324 --> 00:14:11.995
これを最適化すると

00:14:12.019 --> 00:14:16.505
このネットワークは
「雲の中に何が見えるか」を探します

00:14:16.931 --> 00:14:19.251
画面をじっと見ているうちに

00:14:19.275 --> 00:14:22.428
雲の中に いろんなものが
見えてきます

00:14:22.794 --> 00:14:26.379
これに顔認識ネットワークを使うと
幻覚っぽい映像になります

00:14:26.403 --> 00:14:28.215
ちょっと頭がおかしくなりそうな

NOTE Paragraph

00:14:28.239 --> 00:14:29.389
（笑）

NOTE Paragraph

00:14:30.401 --> 00:14:33.145
マイクはまた

00:14:33.169 --> 00:14:37.074
この雲の画像で 別の実験もしています

00:14:37.098 --> 00:14:40.605
幻視とズームを繰り返していくと

00:14:40.629 --> 00:14:41.780
こんな感じに

00:14:41.804 --> 00:14:45.759
フーガのような 自由連想のような映像を

00:14:45.759 --> 00:14:48.917
このネットワークから 作り出せます

00:14:48.917 --> 00:14:51.754
ネットワークが
自分の尻尾を食べています

00:14:51.754 --> 00:14:54.879
それそれのイメージが
次のイメージのベースになっています

00:14:54.903 --> 00:14:56.324
「次に 何が見える？

00:14:56.348 --> 00:14:59.461
次に 何が見える？
次に 何が見える？」という風に

NOTE Paragraph

00:14:59.487 --> 00:15:02.423
ちなみに
このデモを 最初に披露したのは

00:15:02.447 --> 00:15:07.518
シアトルで開かれた
「高等教育」と題した講演会で

00:15:07.518 --> 00:15:10.345
マリファナが合法化された
直後のことでした

NOTE Paragraph

00:15:10.369 --> 00:15:12.784
（笑）

NOTE Paragraph

00:15:14.627 --> 00:15:16.485
最後にまとめとして

00:15:16.485 --> 00:15:21.010
この技術は お見せしたようなものに
限定されないことを指摘しておきます

00:15:21.034 --> 00:15:24.563
今回は視覚的にちょっと面白い例を
紹介しましたが

00:15:24.563 --> 00:15:27.088
別に 視覚のテクノロジー
というわけではないんです

00:15:27.088 --> 00:15:30.561
我々の協力者でアーティストの
ロス・グッドウィンによる実験ですが

00:15:30.561 --> 00:15:32.886
彼がカメラで写真を撮ると

00:15:32.910 --> 00:15:36.718
その写真の中身を元に
背負っているコンピューターが

00:15:36.718 --> 00:15:39.112
ニューラルネットワークで 
詩を書きます

00:15:39.136 --> 00:15:41.397
詩のニューラルネットワークは

00:15:41.397 --> 00:15:44.441
20世紀の詩の 膨大なコーパスで
トレーニングされています

00:15:44.441 --> 00:15:45.904
そうやって書かれた詩は

00:15:45.904 --> 00:15:47.982
どうして そう悪くないと思います

NOTE Paragraph

00:15:47.982 --> 00:15:49.210
（笑）

NOTE Paragraph

00:15:49.234 --> 00:15:50.393
まとめになりますが

00:15:50.417 --> 00:15:52.549
ミケランジェロは正しかったと

00:15:52.573 --> 00:15:53.807
つくづく思います

00:15:53.831 --> 00:15:57.521
知覚と創造性とは
密接に結びついているんです

00:15:57.521 --> 00:16:00.245
先ほどお見せした 
ニューラルネットワークは

00:16:00.269 --> 00:16:02.752
世の中の さまざまなものを区別するよう

00:16:02.752 --> 00:16:04.838
学習させたものですが

00:16:04.862 --> 00:16:08.023
処理を逆転させて
新しいものを作り出すこともできます

00:16:08.047 --> 00:16:09.830
そこで気づかされるのは

00:16:09.854 --> 00:16:12.252
石の塊の中に 彫刻を見ることができるのは

00:16:12.276 --> 00:16:14.728
ミケランジェロだけではないということ

00:16:14.752 --> 00:16:18.840
どんな生物であれ どんな存在
地球外生命体だろうと

00:16:18.840 --> 00:16:21.665
知覚を行う能力のあるものは

00:16:21.665 --> 00:16:23.470
創造もできるということです

00:16:23.494 --> 00:16:26.718
どちらも同じメカニズムで
できることだからです

NOTE Paragraph

00:16:26.742 --> 00:16:29.488
そして 知覚と創造は

00:16:29.488 --> 00:16:32.492
決して 人間に限られたものではありません

00:16:32.492 --> 00:16:36.310
私たちは そのようなことができる
コンピューターモデルを作り始めています

00:16:36.310 --> 00:16:39.592
驚くことではありません
脳もまた計算機械だからです

NOTE Paragraph

00:16:39.616 --> 00:16:41.273
最後に

00:16:41.297 --> 00:16:45.965
コンピューティングは 
知的機械の設計から始まり

00:16:45.989 --> 00:16:49.181
機械はいかに知的になれるか
という発想から

00:16:49.181 --> 00:16:51.402
モデル化されましたが

00:16:51.402 --> 00:16:53.934
今や我々は 昔の先駆者が
夢見た世界を

00:16:53.934 --> 00:16:56.078
ようやく実現させつつあります

00:16:56.078 --> 00:16:57.931
チューリングやフォン・ノイマンの夢

00:16:57.931 --> 00:17:00.294
マカロックやピッツの夢を

00:17:00.294 --> 00:17:02.986
コンピューティングは 会計処理だとか

00:17:02.986 --> 00:17:06.403
キャンディークラッシュで
遊ぶだけのものではありません

00:17:06.403 --> 00:17:09.585
コンピューターはそもそも
人間の脳をモデルとしたものでしたが

00:17:09.585 --> 00:17:12.082
それは 人間の知性を
よりよく理解するためにも

00:17:12.082 --> 00:17:14.551
人間の知性を拡張するためにも
使えるのです

NOTE Paragraph

00:17:14.627 --> 00:17:15.794
ありがとうございました

NOTE Paragraph

00:17:15.818 --> 00:17:21.757
（拍手）