私たちはみんな動きというのは 見えるものだと思っています 私がステージの上を歩き 話しながら身振り手振りをする そのような動きは 目に見えるものです しかしあまりに小さくて人の目には留まらない 重要な動きの世界があります この何年か私たちは そういった動きが 人の目には見えなくとも カメラなら捉えられることに 注意を払うようになりました どういうことか 説明しましょう 左側は人の手の映像で 右側は眠っている 赤ちゃんの映像です しかし もし私が ビデオだと言わなければ 皆さん写真を見ているのだと 思ったことでしょう どちらの映像にも ほとんど動きがないからです それでもここには 沢山の微細な動きがあります 左側の人の 手首に触れてみたなら 脈を感じるだろうし 右側の赤ちゃんを 抱きかかえたなら 呼吸に応じて赤ちゃんの胸が 上下するのを 感じられることでしょう これらの動きは 大切なものですが あまりに小さくて 見ただけでは分からないため 手で直に触って 感じ取る必要があるのです しかし数年前に MITの同僚が「モーション・マイクロスコープ」 というのを作りました 映像の中の このような小さな動きを 検出して拡大し 目で見て分かるようにする ソフトウェアです そのソフトウェアを 左の映像に使うと 手首の脈動が 目に見えるようになり 脈を数えて 心拍数を測定する ことだってできます そのソフトウェアを 右の映像に使ったなら 赤ちゃんのする呼吸が 目に見えるようになり 触れることなく赤ちゃんの呼吸の状況を モニタできるようになります これはとても 強力な技術です 通常は触れなければ 分からない現象を 接触せずに視覚だけで 捉えられるからです 2年ほど前から私は このソフトウェアを 考案した人たちと共同で研究するようになり 奇想天外なアイデアに 挑戦することにしました このソフトウェアで 小さな動きを可視化して あたかも触覚が拡張されたかのように できるのはすごいけど これを聴覚にも適用できないだろうか と思ったのです 音による振動というのもまた 一種の動きなのだから それを捉えて目に付くものすべてを マイクに変えてしまうことはできないか? これはちょっと奇妙な アイデアなので 分かるように 説明しましょう 普通のマイクというのは 中にある振動板の動きを 電気信号に変換する 仕組みになっています 振動板は音に敏感に反応して 動くようにデザインされていて その動きを音として解釈し 記録できるようになっています しかし音はどんな物でも 振動させます ただそういった振動はあまりに小さく速いため 目に見えないだけです この振動を 高速度カメラで撮影して ソフトウェアで その小さな動きを取り出し 分析することで その振動を作り出したのがどんな音か 知ることはできないだろうか? それができれば 離れたところにあるものを 視覚的なマイクへと変えることができます それで試してみました ご覧頂くのは 行った実験の1つで 右の鉢植えの植物を 高速度カメラで 撮影しながら 近くに置いたスピーカーで こんな音を流しました (曲 『メリーさんのひつじ』) これが撮影したビデオで 毎秒数千フレームで 撮っていますが 目をこらしてみても ただ葉っぱが じっとしているようにしか 見えないでしょう 音による葉っぱの動きは 1ミクロン程度だからです 1センチの1万分の1です この映像で1ピクセルの 百分の1から千分の1の間 というところです だからいくら 目をこらしたところで そのような小さな動きは 目では捉えられないのです しかし知覚的には 感知できなくとも 数値的には 有意な変化があり 適切なアルゴリズムを使えば この静止しているようにしか 見えない映像から このような音を 取り出すことができます (曲 『メリーさんのひつじ』) (拍手) どうしてそんなことが 可能なのか? そんな小さな動きからどうやって これほど多くの情報を取り出せるのか? 葉っぱの動きが ちょうど1ミクロンで 映像の中の動きは 千分の1ピクセルだったとしましょう これは わずかなものに 見えますが ビデオの1フレームの中には 何十万というピクセルがあり そういった小さな動きを 映像全体から集めれば 千分の1ピクセルが 積み重なって 十分大きなものになるのです 個人的なことですが このことを発見した時には すごく興奮しましたね (笑) 優れたアルゴリズムはありましたが パズルの重要なピースが まだ欠けていました この手法がうまくいくかに 影響する要因は たくさんあります 対象がどんな物で どれくらい離れているか どんなカメラや レンズを使うか 物に当てる光の強さや 音の大きさはどれくらいか そしてアルゴリズムは 優れているにしても 初期の実験はすごく 慎重にやる必要がありました そういった要因の 何か1つでもまずいと 何が悪かったのかも分からず ただノイズが 出てくるだけだからです ですから初期の実験は このような設定で行ったのです 私が写っています 左下に高速度カメラが 設置されていて ポテトチップの袋に 向けられています そして全体が明るい照明で 照らされています 申し上げたように初期の実験は 非常に慎重を期して進めました これがその様子です (男性の声) 3 2 1 ハイ (デイヴィスが大声で) メリーさんの ヒツジ ヒツジ ヒツジ (笑) ご覧のように 馬鹿みたいに見える実験でした (笑) 私がポテトチップの袋に向かって 大声を張り上げています (笑) おまけにすごく強い照明を 当てていたので 最初のポテトチップの袋は 熱で文字通り溶けてしまいました (笑) しかし いかに馬鹿みたいに 見えようとも この実験はとても 重要なものでした このような音を取り出すことに 成功したからです Mary had a little lamb! Little lamb! Little lamb! (拍手) とても重要な瞬間でした 物を撮した 音声のない映像から 聞き取れる人の声を 初めて復元できたからです この実験を基準点として 私たちはいろいろ変化をつけた 実験を始めました 異なる物を使う 物をもっと離れたところに置く 光を弱くする 音を小さくする そういった実験の結果を 分析して この手法の限界を 見極めました ひとたび限界が分かれば どう押し広げられるかも 分かるからです そうやってこんな実験に たどり着きました ここでもポテトチップの袋に向けて 音を流しますが 今回はカメラが 5メートル離れていて 防音ガラスの 背後にあります 照らしている光も 自然の太陽光です ご覧いただいているのが 撮影した映像です そしてこれが部屋の中で ポテトチップの袋の横で流していた音です Mary had a little lamb whose fleece was white as snow, (メリーさんは小さな羊を飼っていた 雪のように白い毛をして) and everywhere that Mary went, that lamb was sure to go. (メリーさんの行くところは どこにでも付いてきた) そしてこれが 窓の背後から撮した 無音の映像から 取り出した音声です Mary had a little lamb whose fleece was white as snow, and everywhere that Mary went, that lamb was sure to go. (拍手) 限界を押し広げる方法は 他にもあります こちらはもっと静かな実験で ノートPCに繋いだ イヤホンを撮しています この時の目標は 2つの小さなプラスチック製イヤホンを撮した 無音の映像から かけている曲を復元する ということでした これはすごく うまくいって 結果から曲名を Shazamで当てることさえできました (笑) (曲 クイーン 『アンダー・プレッシャー』) (拍手) 使用するハードウェアという点でも 限界を押し広げることができます ここまで ご覧頂いた実験は どれも高速度カメラを使っていて これは通常携帯についている カメラよりも 100倍高速に 撮影することができます しかし私たちは 普通のカメラで この手法を使う方法も 見つけました ローリングシャッターと呼ばれる技術を 利用しています 多くのカメラは 画像を1行ずつ記録しています 1枚の画像の記録中に 撮影対象が動くと 各行に時間的な ズレがあるため ビデオの各フレームに 小さなゆがみが 記録されることになります このゆがみを分析したところ アルゴリズムを改良すれば そこから音を復元できることが分かりました これが行った実験で キャンディの袋を撮し 横では同じ『メリーさんのひつじ』を スピーカーで流していますが 今回は お店で買える 普通のカメラを使っています これから取り出した音を お聞かせします 音にひずみがありますが それでも何の曲か おわかりになると思います (曲 『メリーさんのひつじ』) 音にひずみがあるにしても これが意味深いのは 家電量販店で買える 普通のカメラで このようなことが できたということです ここまで ご覧頂いたことから 多くの人が思い浮かべるのは スパイ活動でしょう 確かに誰かをスパイするために この技術を使うというのは 容易に想像できることですが 考えてほしいのは スパイ活動に関しては多くの成熟した技術が すでに存在する ということです 実際 盗聴のために 遠くから物に レーザーを照射するというのは 何十年も前から 行われています 私たちの技術が 本当に新しく 違っている点は 物の振動を見る方法を 手に入れたということで これは世界を見る 新しいレンズになります このレンズを使うと 物を振動させる音のような力について 学べるだけでなく 物自体についても 学ぶことができます ここで視野を広げて これが私たちのビデオの使い方を いかに変えうるかを考えてみましょう 通常私たちは物を見るために ビデオを使います それから音を聞くためにも 使えることを お見せしました しかし私たちが世界について学ぶ重要な方法が もう1つあります 働きかけることによってです 押したり 引いたり つついたり 揺すったりして 何が起きるか見るのです これはビデオでは できないことです 少なくとも 普通のビデオでは これからお見せするのは 最新の研究で ほんの2、3ヶ月前に思いついた アイデアを元にしています 公の場で見せるのは これが初めてです 基本的なアイデアは 映像の中の振動をヒントに 物の性質を取り出して 働きかけて反応を見られるような 形にするということです これが対象とする物で 人の形をした 針金人形です これを普通のカメラで ビデオ撮影します カメラに特別なものは 使いません 実際 以前は私の携帯電話を 使っていました 振動する様子を 見たいので 撮影中に 人形が置かれている 台の上を ちょっと叩いてやります これだけです 5秒間の普通のビデオで 台を叩いています この映像の中の 振動を使って 物の構造的・物質的な性質について 学ぼうというのです そしてその情報を使って 新たなインタラクティブな物を作ります そうしてできたものが これです 何の変哲もない 画像に見えますが これは画像ではなく ビデオでもありません この人形はマウスを使って いじってやることが できるんです ご覧頂いているのは 目にしたことのない 新しい働きかけに対して 物がどう反応するかいう シミュレーションです これをたった5秒間の 普通のビデオから作ったんです (拍手) これは世界を見る 新しい強力な方法です 新たな状況に対して 物がどう反応するかを 予測することが できるからです たとえば古い橋を前にして 車で渡っても大丈夫か 分かりかねているという状況を 想像できるでしょう この質問の答えは 橋を渡り始める前に 知りたいはずです もちろんこの手法にも 限界はあり その点は視覚的マイクロフォンと 同じです しかしこの方法は 予想以上に 多くの状況で使え 長いビデオがある場合には 特にそうです たとえばこれは 私のアパートの前の 藪を撮したビデオで 私は藪に対して 何もしていません しかし1分間 撮している間に やさしいそよ風が この藪について学ぶのに 十分な振動を生み出してくれ このようなシミュレーションを 作れました (拍手) この技術を手にした 映画監督は 映像が撮影された後に 風の強さや向きを変えるのに 使うかもしれません こちらでは吊された カーテンを撮していて 動きは見られませんが 2分のビデオがあれば 室内の自然な空気の 対流で生じた 気付かないような 微かな動きや振動から シミュレーションを作るのに 十分な情報が得られます このようなインタラクティブなものは ビデオゲームや3Dモデルの中の 架空の物として 見慣れていると思いますが 現実の世界の実際の物から 普通のビデオ映像を使って このような情報を 引き出すというのは 新しいことであり 大きな可能性があります このプロジェクトに一緒に取り組んでいる 素晴らしい仲間たちです (拍手) 今日お見せしたものは 始まりにすぎません 私たちはこのような映像技術で 可能になることの ほんの表面に 触れたに過ぎません この技術は 誰でも 手に入れられる道具だけで 周りの世界の違った見方を 可能にしてくれるからです この先 この技術が 世界について教えてくれることを 探求していくのは 本当に心躍ることだと 思います ありがとうございました (拍手)