0:00:00.830,0:00:04.721 私たちはみんな動きというのは[br]見えるものだと思っています 0:00:05.889,0:00:10.977 私がステージの上を歩き [br]話しながら身振り手振りをする 0:00:10.977,0:00:13.238 そのような動きは[br]目に見えるものです 0:00:14.255,0:00:19.737 しかしあまりに小さくて人の目には留まらない[br]重要な動きの世界があります 0:00:19.737,0:00:21.778 この何年か私たちは 0:00:21.778,0:00:24.395 そういった動きが[br]人の目には見えなくとも 0:00:24.395,0:00:27.325 カメラなら捉えられることに[br]注意を払うようになりました 0:00:28.305,0:00:29.856 どういうことか[br]説明しましょう 0:00:30.717,0:00:34.339 左側は人の手の映像で 0:00:34.339,0:00:37.486 右側は眠っている[br]赤ちゃんの映像です 0:00:37.486,0:00:40.412 しかし もし私が[br]ビデオだと言わなければ 0:00:40.412,0:00:44.183 皆さん写真を見ているのだと[br]思ったことでしょう 0:00:44.183,0:00:45.945 どちらの映像にも 0:00:45.945,0:00:49.112 ほとんど動きがないからです 0:00:50.175,0:00:53.920 それでもここには[br]沢山の微細な動きがあります 0:00:53.920,0:00:56.452 左側の人の[br]手首に触れてみたなら 0:00:56.452,0:00:58.448 脈を感じるだろうし 0:00:58.448,0:01:00.933 右側の赤ちゃんを[br]抱きかかえたなら 0:01:00.933,0:01:03.324 呼吸に応じて赤ちゃんの胸が[br]上下するのを 0:01:03.324,0:01:04.714 感じられることでしょう 0:01:05.762,0:01:09.338 これらの動きは[br]大切なものですが 0:01:09.338,0:01:12.681 あまりに小さくて[br]見ただけでは分からないため 0:01:12.681,0:01:14.957 手で直に触って 0:01:14.957,0:01:17.857 感じ取る必要があるのです 0:01:18.997,0:01:20.262 しかし数年前に 0:01:20.262,0:01:24.667 MITの同僚が「モーション・マイクロスコープ」[br]というのを作りました 0:01:24.667,0:01:29.951 映像の中の このような小さな動きを[br]検出して拡大し 0:01:29.951,0:01:33.023 目で見て分かるようにする[br]ソフトウェアです 0:01:33.416,0:01:36.899 そのソフトウェアを[br]左の映像に使うと 0:01:36.899,0:01:40.149 手首の脈動が[br]目に見えるようになり 0:01:40.149,0:01:41.664 脈を数えて 0:01:41.664,0:01:44.199 心拍数を測定する[br]ことだってできます 0:01:45.095,0:01:48.160 そのソフトウェアを[br]右の映像に使ったなら 0:01:48.160,0:01:51.387 赤ちゃんのする呼吸が[br]目に見えるようになり 0:01:51.387,0:01:55.934 触れることなく赤ちゃんの呼吸の状況を[br]モニタできるようになります 0:01:56.884,0:01:59.962 これはとても[br]強力な技術です 0:01:59.962,0:02:04.239 通常は触れなければ[br]分からない現象を 0:02:04.239,0:02:07.876 接触せずに視覚だけで[br]捉えられるからです 0:02:09.104,0:02:13.515 2年ほど前から私は このソフトウェアを[br]考案した人たちと共同で研究するようになり 0:02:13.515,0:02:16.882 奇想天外なアイデアに[br]挑戦することにしました 0:02:16.882,0:02:19.575 このソフトウェアで 0:02:19.575,0:02:22.710 小さな動きを可視化して 0:02:22.710,0:02:27.168 あたかも触覚が拡張されたかのように[br]できるのはすごいけど 0:02:27.168,0:02:31.227 これを聴覚にも適用できないだろうか[br]と思ったのです 0:02:32.508,0:02:36.523 音による振動というのもまた 0:02:36.523,0:02:39.710 一種の動きなのだから 0:02:39.710,0:02:44.266 それを捉えて目に付くものすべてを[br]マイクに変えてしまうことはできないか? 0:02:44.266,0:02:46.207 これはちょっと奇妙な[br]アイデアなので 0:02:46.207,0:02:48.793 分かるように[br]説明しましょう 0:02:49.523,0:02:53.011 普通のマイクというのは[br]中にある振動板の動きを 0:02:53.011,0:02:56.610 電気信号に変換する[br]仕組みになっています 0:02:56.610,0:03:00.928 振動板は音に敏感に反応して[br]動くようにデザインされていて 0:03:00.928,0:03:05.255 その動きを音として解釈し[br]記録できるようになっています 0:03:05.255,0:03:09.403 しかし音はどんな物でも[br]振動させます 0:03:09.403,0:03:14.883 ただそういった振動はあまりに小さく速いため[br]目に見えないだけです 0:03:14.883,0:03:18.621 この振動を[br]高速度カメラで撮影して 0:03:18.621,0:03:22.197 ソフトウェアで[br]その小さな動きを取り出し 0:03:22.197,0:03:24.287 分析することで 0:03:24.287,0:03:28.561 その振動を作り出したのがどんな音か[br]知ることはできないだろうか? 0:03:29.859,0:03:35.798 それができれば 離れたところにあるものを[br]視覚的なマイクへと変えることができます 0:03:37.080,0:03:39.023 それで試してみました 0:03:39.023,0:03:41.190 ご覧頂くのは[br]行った実験の1つで 0:03:41.190,0:03:44.139 右の鉢植えの植物を 0:03:44.139,0:03:46.577 高速度カメラで[br]撮影しながら 0:03:46.577,0:03:50.106 近くに置いたスピーカーで[br]こんな音を流しました 0:03:50.275,0:03:58.465 (曲 『メリーさんのひつじ』) 0:03:59.820,0:04:02.644 これが撮影したビデオで 0:04:02.644,0:04:06.568 毎秒数千フレームで[br]撮っていますが 0:04:06.568,0:04:08.890 目をこらしてみても 0:04:08.890,0:04:11.891 ただ葉っぱが[br]じっとしているようにしか 0:04:11.891,0:04:13.906 見えないでしょう 0:04:13.906,0:04:18.712 音による葉っぱの動きは[br]1ミクロン程度だからです 0:04:19.103,0:04:23.379 1センチの1万分の1です 0:04:23.379,0:04:27.675 この映像で1ピクセルの[br]百分の1から千分の1の間 0:04:27.675,0:04:29.834 というところです 0:04:29.881,0:04:32.768 だからいくら[br]目をこらしたところで 0:04:32.768,0:04:36.453 そのような小さな動きは[br]目では捉えられないのです 0:04:37.667,0:04:41.824 しかし知覚的には[br]感知できなくとも 0:04:41.824,0:04:44.633 数値的には[br]有意な変化があり 0:04:44.633,0:04:46.635 適切なアルゴリズムを使えば 0:04:46.635,0:04:50.112 この静止しているようにしか[br]見えない映像から 0:04:50.112,0:04:52.449 このような音を[br]取り出すことができます 0:04:52.690,0:05:00.074 (曲 『メリーさんのひつじ』) 0:05:00.074,0:05:05.902 (拍手) 0:05:10.058,0:05:11.997 どうしてそんなことが[br]可能なのか? 0:05:11.997,0:05:16.341 そんな小さな動きからどうやって[br]これほど多くの情報を取り出せるのか? 0:05:16.341,0:05:21.702 葉っぱの動きが[br]ちょうど1ミクロンで 0:05:21.702,0:05:26.010 映像の中の動きは[br]千分の1ピクセルだったとしましょう 0:05:27.269,0:05:29.841 これは わずかなものに[br]見えますが 0:05:29.841,0:05:31.837 ビデオの1フレームの中には 0:05:31.837,0:05:35.094 何十万というピクセルがあり 0:05:35.094,0:05:38.548 そういった小さな動きを 0:05:38.548,0:05:40.846 映像全体から集めれば 0:05:40.846,0:05:43.469 千分の1ピクセルが[br]積み重なって 0:05:43.469,0:05:46.244 十分大きなものになるのです 0:05:46.870,0:05:50.505 個人的なことですが このことを発見した時には[br]すごく興奮しましたね 0:05:50.505,0:05:52.825 (笑) 0:05:52.825,0:05:56.078 優れたアルゴリズムはありましたが 0:05:56.078,0:05:59.695 パズルの重要なピースが[br]まだ欠けていました 0:05:59.695,0:06:03.299 この手法がうまくいくかに[br]影響する要因は 0:06:03.299,0:06:05.296 たくさんあります 0:06:05.296,0:06:08.500 対象がどんな物で [br]どれくらい離れているか 0:06:08.500,0:06:10.894 どんなカメラや[br]レンズを使うか 0:06:10.894,0:06:14.985 物に当てる光の強さや[br]音の大きさはどれくらいか 0:06:15.945,0:06:19.320 そしてアルゴリズムは[br]優れているにしても 0:06:19.320,0:06:22.710 初期の実験はすごく[br]慎重にやる必要がありました 0:06:22.710,0:06:25.102 そういった要因の[br]何か1つでもまずいと 0:06:25.102,0:06:27.470 何が悪かったのかも分からず 0:06:27.470,0:06:30.117 ただノイズが[br]出てくるだけだからです 0:06:30.117,0:06:33.437 ですから初期の実験は[br]このような設定で行ったのです 0:06:33.437,0:06:35.643 私が写っています 0:06:35.643,0:06:39.683 左下に高速度カメラが[br]設置されていて 0:06:39.683,0:06:41.866 ポテトチップの袋に[br]向けられています 0:06:41.866,0:06:44.815 そして全体が明るい照明で[br]照らされています 0:06:44.815,0:06:49.180 申し上げたように初期の実験は[br]非常に慎重を期して進めました 0:06:49.180,0:06:51.688 これがその様子です 0:06:51.688,0:06:55.229 (男性の声) 3 2 1 ハイ 0:06:55.229,0:07:00.836 (デイヴィスが大声で) メリーさんの[br]ヒツジ ヒツジ ヒツジ 0:07:00.836,0:07:05.336 (笑) 0:07:05.336,0:07:08.150 ご覧のように[br]馬鹿みたいに見える実験でした 0:07:08.150,0:07:09.938 (笑) 0:07:09.938,0:07:12.283 私がポテトチップの袋に向かって[br]大声を張り上げています 0:07:12.283,0:07:13.834 (笑) 0:07:13.834,0:07:16.321 おまけにすごく強い照明を[br]当てていたので 0:07:16.321,0:07:20.415 最初のポテトチップの袋は[br]熱で文字通り溶けてしまいました (笑) 0:07:20.415,0:07:23.659 しかし いかに馬鹿みたいに[br]見えようとも 0:07:23.659,0:07:25.587 この実験はとても[br]重要なものでした 0:07:25.587,0:07:28.513 このような音を取り出すことに[br]成功したからです 0:07:28.513,0:07:33.225 Mary had a little lamb! [br]Little lamb! Little lamb! 0:07:33.225,0:07:37.313 (拍手) 0:07:37.313,0:07:39.194 とても重要な瞬間でした 0:07:39.194,0:07:43.343 物を撮した[br]音声のない映像から 0:07:43.343,0:07:45.765 聞き取れる人の声を[br]初めて復元できたからです 0:07:45.765,0:07:48.156 この実験を基準点として 0:07:48.156,0:07:52.016 私たちはいろいろ変化をつけた[br]実験を始めました 0:07:52.016,0:07:55.911 異なる物を使う [br]物をもっと離れたところに置く 0:07:55.911,0:07:58.681 光を弱くする [br]音を小さくする 0:07:59.887,0:08:02.761 そういった実験の結果を[br]分析して 0:08:02.761,0:08:06.383 この手法の限界を[br]見極めました 0:08:06.383,0:08:08.333 ひとたび限界が分かれば 0:08:08.333,0:08:10.679 どう押し広げられるかも[br]分かるからです 0:08:10.679,0:08:13.860 そうやってこんな実験に[br]たどり着きました 0:08:13.860,0:08:16.599 ここでもポテトチップの袋に向けて[br]音を流しますが 0:08:16.599,0:08:21.429 今回はカメラが[br]5メートル離れていて 0:08:21.429,0:08:24.262 防音ガラスの[br]背後にあります 0:08:24.262,0:08:27.065 照らしている光も[br]自然の太陽光です 0:08:28.529,0:08:32.443 ご覧いただいているのが[br]撮影した映像です 0:08:32.450,0:08:37.009 そしてこれが部屋の中で[br]ポテトチップの袋の横で流していた音です 0:08:37.009,0:08:42.047 Mary had a little lamb whose fleece was white as snow,[br](メリーさんは小さな羊を飼っていた 雪のように白い毛をして) 0:08:42.047,0:08:47.666 and everywhere that Mary went, that lamb was sure to go.[br](メリーさんの行くところは どこにでも付いてきた) 0:08:47.666,0:08:50.103 そしてこれが[br]窓の背後から撮した 0:08:50.103,0:08:53.698 無音の映像から[br]取り出した音声です 0:08:53.698,0:08:58.463 Mary had a little lamb[br]whose fleece was white as snow, 0:08:58.463,0:09:03.920 and everywhere that Mary went,[br]that lamb was sure to go. 0:09:03.920,0:09:10.421 (拍手) 0:09:10.421,0:09:13.963 限界を押し広げる方法は[br]他にもあります 0:09:13.963,0:09:15.761 こちらはもっと静かな実験で 0:09:15.761,0:09:19.871 ノートPCに繋いだ[br]イヤホンを撮しています 0:09:19.871,0:09:21.401 この時の目標は 0:09:21.401,0:09:25.430 2つの小さなプラスチック製イヤホンを撮した[br]無音の映像から 0:09:25.430,0:09:28.787 かけている曲を復元する[br]ということでした 0:09:28.787,0:09:30.860 これはすごく[br]うまくいって 0:09:30.860,0:09:33.761 結果から曲名を[br]Shazamで当てることさえできました 0:09:33.761,0:09:35.842 (笑) 0:09:37.191,0:09:49.565 (曲 クイーン 『アンダー・プレッシャー』) 0:09:49.565,0:09:54.584 (拍手) 0:09:54.584,0:09:59.135 使用するハードウェアという点でも[br]限界を押し広げることができます 0:09:59.135,0:10:01.596 ここまで ご覧頂いた実験は 0:10:01.596,0:10:03.918 どれも高速度カメラを使っていて 0:10:03.918,0:10:06.797 これは通常携帯についている[br]カメラよりも 0:10:06.797,0:10:09.014 100倍高速に[br]撮影することができます 0:10:09.014,0:10:11.533 しかし私たちは[br]普通のカメラで 0:10:11.533,0:10:13.763 この手法を使う方法も[br]見つけました 0:10:13.763,0:10:17.832 ローリングシャッターと呼ばれる技術を[br]利用しています 0:10:17.832,0:10:22.630 多くのカメラは[br]画像を1行ずつ記録しています 0:10:22.630,0:10:28.332 1枚の画像の記録中に[br]撮影対象が動くと 0:10:28.344,0:10:31.061 各行に時間的な[br]ズレがあるため 0:10:31.061,0:10:33.668 ビデオの各フレームに 0:10:33.668,0:10:37.701 小さなゆがみが[br]記録されることになります 0:10:37.701,0:10:41.507 このゆがみを分析したところ 0:10:41.507,0:10:46.122 アルゴリズムを改良すれば[br]そこから音を復元できることが分かりました 0:10:46.122,0:10:48.034 これが行った実験で 0:10:48.034,0:10:49.729 キャンディの袋を撮し 0:10:49.729,0:10:52.690 横では同じ『メリーさんのひつじ』を 0:10:52.690,0:10:54.442 スピーカーで流していますが 0:10:54.442,0:10:58.645 今回は お店で買える[br]普通のカメラを使っています 0:10:58.645,0:11:01.819 これから取り出した音を[br]お聞かせします 0:11:01.819,0:11:03.869 音にひずみがありますが 0:11:03.869,0:11:07.085 それでも何の曲か[br]おわかりになると思います 0:11:07.723,0:11:13.946 (曲 『メリーさんのひつじ』) 0:11:25.527,0:11:28.992 音にひずみがあるにしても 0:11:28.992,0:11:31.288 これが意味深いのは 0:11:31.288,0:11:34.254 家電量販店で買える[br]普通のカメラで 0:11:34.254,0:11:37.688 このようなことが[br]できたということです 0:11:39.122,0:11:41.105 ここまで ご覧頂いたことから 0:11:41.105,0:11:43.599 多くの人が思い浮かべるのは 0:11:43.599,0:11:45.872 スパイ活動でしょう 0:11:45.872,0:11:49.787 確かに誰かをスパイするために[br]この技術を使うというのは 0:11:49.787,0:11:52.420 容易に想像できることですが 0:11:52.420,0:11:56.107 考えてほしいのは[br]スパイ活動に関しては多くの成熟した技術が 0:11:56.107,0:11:57.946 すでに存在する[br]ということです 0:11:57.946,0:12:00.886 実際 盗聴のために 遠くから物に[br]レーザーを照射するというのは 0:12:00.886,0:12:02.835 何十年も前から[br]行われています 0:12:03.978,0:12:06.003 私たちの技術が[br]本当に新しく 0:12:06.003,0:12:07.443 違っている点は 0:12:07.443,0:12:11.738 物の振動を見る方法を[br]手に入れたということで 0:12:11.738,0:12:15.151 これは世界を見る[br]新しいレンズになります 0:12:15.151,0:12:16.661 このレンズを使うと 0:12:16.661,0:12:21.560 物を振動させる音のような力について[br]学べるだけでなく 0:12:21.560,0:12:24.018 物自体についても[br]学ぶことができます 0:12:24.975,0:12:26.668 ここで視野を広げて 0:12:26.668,0:12:30.917 これが私たちのビデオの使い方を[br]いかに変えうるかを考えてみましょう 0:12:30.917,0:12:34.470 通常私たちは物を見るために[br]ビデオを使います 0:12:34.470,0:12:37.392 それから音を聞くためにも[br]使えることを 0:12:37.392,0:12:38.649 お見せしました 0:12:38.649,0:12:42.620 しかし私たちが世界について学ぶ重要な方法が[br]もう1つあります 0:12:42.620,0:12:44.895 働きかけることによってです 0:12:44.895,0:12:48.856 押したり 引いたり [br]つついたり 揺すったりして 0:12:48.856,0:12:51.187 何が起きるか見るのです 0:12:51.187,0:12:55.460 これはビデオでは[br]できないことです 0:12:55.460,0:12:57.596 少なくとも[br]普通のビデオでは 0:12:57.596,0:12:59.546 これからお見せするのは[br]最新の研究で 0:12:59.546,0:13:02.213 ほんの2、3ヶ月前に思いついた[br]アイデアを元にしています 0:13:02.213,0:13:05.514 公の場で見せるのは[br]これが初めてです 0:13:05.514,0:13:10.877 基本的なアイデアは [br]映像の中の振動をヒントに 0:13:10.877,0:13:12.748 物の性質を取り出して 0:13:12.748,0:13:17.702 働きかけて反応を見られるような[br]形にするということです 0:13:19.120,0:13:20.884 これが対象とする物で 0:13:20.884,0:13:24.716 人の形をした[br]針金人形です 0:13:24.716,0:13:27.804 これを普通のカメラで[br]ビデオ撮影します 0:13:27.804,0:13:29.928 カメラに特別なものは[br]使いません 0:13:29.928,0:13:32.889 実際 以前は私の携帯電話を[br]使っていました 0:13:32.889,0:13:35.141 振動する様子を[br]見たいので 0:13:35.141,0:13:36.274 撮影中に 0:13:36.274,0:13:39.620 人形が置かれている[br]台の上を 0:13:39.620,0:13:41.758 ちょっと叩いてやります 0:13:47.038,0:13:51.069 これだけです[br]5秒間の普通のビデオで 0:13:51.069,0:13:53.205 台を叩いています 0:13:53.205,0:13:56.718 この映像の中の[br]振動を使って 0:13:56.718,0:14:01.262 物の構造的・物質的な性質について[br]学ぼうというのです 0:14:01.262,0:14:06.096 そしてその情報を使って[br]新たなインタラクティブな物を作ります 0:14:12.866,0:14:15.519 そうしてできたものが[br]これです 0:14:15.519,0:14:17.748 何の変哲もない[br]画像に見えますが 0:14:17.748,0:14:20.859 これは画像ではなく [br]ビデオでもありません 0:14:20.859,0:14:23.227 この人形はマウスを使って 0:14:23.227,0:14:26.086 いじってやることが[br]できるんです 0:14:32.936,0:14:35.289 ご覧頂いているのは 0:14:35.289,0:14:37.615 目にしたことのない[br]新しい働きかけに対して 0:14:37.615,0:14:42.073 物がどう反応するかいう[br]シミュレーションです 0:14:42.073,0:14:45.706 これをたった5秒間の[br]普通のビデオから作ったんです 0:14:47.249,0:14:51.964 (拍手) 0:14:57.421,0:15:00.648 これは世界を見る[br]新しい強力な方法です 0:15:00.648,0:15:03.620 新たな状況に対して[br]物がどう反応するかを 0:15:03.620,0:15:05.443 予測することが[br]できるからです 0:15:05.443,0:15:08.916 たとえば古い橋を前にして 0:15:08.916,0:15:12.443 車で渡っても大丈夫か[br]分かりかねているという状況を 0:15:12.443,0:15:15.276 想像できるでしょう 0:15:15.276,0:15:18.050 この質問の答えは 0:15:18.050,0:15:20.610 橋を渡り始める前に[br]知りたいはずです 0:15:21.988,0:15:24.880 もちろんこの手法にも[br]限界はあり 0:15:24.880,0:15:27.722 その点は視覚的マイクロフォンと[br]同じです 0:15:27.722,0:15:29.483 しかしこの方法は 0:15:29.483,0:15:32.778 予想以上に[br]多くの状況で使え 0:15:32.778,0:15:35.546 長いビデオがある場合には[br]特にそうです 0:15:35.546,0:15:36.964 たとえばこれは 0:15:36.964,0:15:40.353 私のアパートの前の[br]藪を撮したビデオで 0:15:40.353,0:15:43.441 私は藪に対して[br]何もしていません 0:15:43.441,0:15:46.146 しかし1分間[br]撮している間に 0:15:46.146,0:15:50.014 やさしいそよ風が この藪について学ぶのに[br]十分な振動を生み出してくれ 0:15:50.014,0:15:53.111 このようなシミュレーションを[br]作れました 0:15:55.270,0:16:01.412 (拍手) 0:16:01.412,0:16:04.384 この技術を手にした[br]映画監督は 0:16:04.384,0:16:06.103 映像が撮影された後に 0:16:06.103,0:16:11.025 風の強さや向きを変えるのに[br]使うかもしれません 0:16:12.810,0:16:17.345 こちらでは吊された[br]カーテンを撮していて 0:16:17.345,0:16:21.294 動きは見られませんが 0:16:21.294,0:16:24.399 2分のビデオがあれば 0:16:24.399,0:16:27.267 室内の自然な空気の[br]対流で生じた 0:16:27.267,0:16:31.249 気付かないような[br]微かな動きや振動から 0:16:31.249,0:16:34.064 シミュレーションを作るのに[br]十分な情報が得られます 0:16:36.243,0:16:38.609 このようなインタラクティブなものは 0:16:38.609,0:16:41.697 ビデオゲームや3Dモデルの中の 0:16:41.697,0:16:44.344 架空の物として 0:16:44.344,0:16:47.641 見慣れていると思いますが 0:16:47.641,0:16:52.045 現実の世界の実際の物から[br]普通のビデオ映像を使って 0:16:52.045,0:16:54.862 このような情報を[br]引き出すというのは 0:16:54.862,0:16:57.155 新しいことであり [br]大きな可能性があります 0:16:58.410,0:17:03.314 このプロジェクトに一緒に取り組んでいる[br]素晴らしい仲間たちです 0:17:04.057,0:17:09.653 (拍手) 0:17:12.819,0:17:15.876 今日お見せしたものは[br]始まりにすぎません 0:17:15.876,0:17:18.789 私たちはこのような映像技術で[br]可能になることの 0:17:18.789,0:17:20.961 ほんの表面に[br]触れたに過ぎません 0:17:20.961,0:17:23.367 この技術は 誰でも[br]手に入れられる道具だけで 0:17:23.367,0:17:28.066 周りの世界の違った見方を[br]可能にしてくれるからです 0:17:28.066,0:17:29.995 この先 この技術が 0:17:29.995,0:17:32.032 世界について教えてくれることを[br]探求していくのは 0:17:32.032,0:17:33.888 本当に心躍ることだと[br]思います 0:17:34.381,0:17:35.585 ありがとうございました 0:17:35.610,0:17:41.717 (拍手)