私たちはみんな動きというのは
見えるものだと思っています
私がステージの上を歩き
話しながら身振り手振りをする
そのような動きは
目に見えるものです
しかしあまりに小さくて人の目には留まらない
重要な動きの世界があります
この何年か私たちは
そういった動きが
人の目には見えなくとも
カメラなら捉えられることに
注意を払うようになりました
どういうことか
説明しましょう
左側は人の手の映像で
右側は眠っている
赤ちゃんの映像です
しかし もし私が
ビデオだと言わなければ
皆さん写真を見ているのだと
思ったことでしょう
どちらの映像にも
ほとんど動きがないからです
それでもここには
沢山の微細な動きがあります
左側の人の
手首に触れてみたなら
脈を感じるだろうし
右側の赤ちゃんを
抱きかかえたなら
呼吸に応じて赤ちゃんの胸が
上下するのを
感じられることでしょう
これらの動きは
大切なものですが
あまりに小さくて
見ただけでは分からないため
手で直に触って
感じ取る必要があるのです
しかし数年前に
MITの同僚が「モーション・マイクロスコープ」
というのを作りました
映像の中の このような小さな動きを
検出して拡大し
目で見て分かるようにする
ソフトウェアです
そのソフトウェアを
左の映像に使うと
手首の脈動が
目に見えるようになり
脈を数えて
心拍数を測定する
ことだってできます
そのソフトウェアを
右の映像に使ったなら
赤ちゃんのする呼吸が
目に見えるようになり
触れることなく赤ちゃんの呼吸の状況を
モニタできるようになります
これはとても
強力な技術です
通常は触れなければ
分からない現象を
接触せずに視覚だけで
捉えられるからです
2年ほど前から私は このソフトウェアを
考案した人たちと共同で研究するようになり
奇想天外なアイデアに
挑戦することにしました
このソフトウェアで
小さな動きを可視化して
あたかも触覚が拡張されたかのように
できるのはすごいけど
これを聴覚にも適用できないだろうか
と思ったのです
音による振動というのもまた
一種の動きなのだから
それを捉えて目に付くものすべてを
マイクに変えてしまうことはできないか?
これはちょっと奇妙な
アイデアなので
分かるように
説明しましょう
普通のマイクというのは
中にある振動板の動きを
電気信号に変換する
仕組みになっています
振動板は音に敏感に反応して
動くようにデザインされていて
その動きを音として解釈し
記録できるようになっています
しかし音はどんな物でも
振動させます
ただそういった振動はあまりに小さく速いため
目に見えないだけです
この振動を
高速度カメラで撮影して
ソフトウェアで
その小さな動きを取り出し
分析することで
その振動を作り出したのがどんな音か
知ることはできないだろうか?
それができれば 離れたところにあるものを
視覚的なマイクへと変えることができます
それで試してみました
ご覧頂くのは
行った実験の1つで
右の鉢植えの植物を
高速度カメラで
撮影しながら
近くに置いたスピーカーで
こんな音を流しました
(曲 『メリーさんのひつじ』)
これが撮影したビデオで
毎秒数千フレームで
撮っていますが
目をこらしてみても
ただ葉っぱが
じっとしているようにしか
見えないでしょう
音による葉っぱの動きは
1ミクロン程度だからです
1センチの1万分の1です
この映像で1ピクセルの
百分の1から千分の1の間
というところです
だからいくら
目をこらしたところで
そのような小さな動きは
目では捉えられないのです
しかし知覚的には
感知できなくとも
数値的には
有意な変化があり
適切なアルゴリズムを使えば
この静止しているようにしか
見えない映像から
このような音を
取り出すことができます
(曲 『メリーさんのひつじ』)
(拍手)
どうしてそんなことが
可能なのか?
そんな小さな動きからどうやって
これほど多くの情報を取り出せるのか?
葉っぱの動きが
ちょうど1ミクロンで
映像の中の動きは
千分の1ピクセルだったとしましょう
これは わずかなものに
見えますが
ビデオの1フレームの中には
何十万というピクセルがあり
そういった小さな動きを
映像全体から集めれば
千分の1ピクセルが
積み重なって
十分大きなものになるのです
個人的なことですが このことを発見した時には
すごく興奮しましたね
(笑)
優れたアルゴリズムはありましたが
パズルの重要なピースが
まだ欠けていました
この手法がうまくいくかに
影響する要因は
たくさんあります
対象がどんな物で
どれくらい離れているか
どんなカメラや
レンズを使うか
物に当てる光の強さや
音の大きさはどれくらいか
そしてアルゴリズムは
優れているにしても
初期の実験はすごく
慎重にやる必要がありました
そういった要因の
何か1つでもまずいと
何が悪かったのかも分からず
ただノイズが
出てくるだけだからです
ですから初期の実験は
このような設定で行ったのです
私が写っています
左下に高速度カメラが
設置されていて
ポテトチップの袋に
向けられています
そして全体が明るい照明で
照らされています
申し上げたように初期の実験は
非常に慎重を期して進めました
これがその様子です
(男性の声) 3 2 1 ハイ
(デイヴィスが大声で) メリーさんの
ヒツジ ヒツジ ヒツジ
(笑)
ご覧のように
馬鹿みたいに見える実験でした
(笑)
私がポテトチップの袋に向かって
大声を張り上げています
(笑)
おまけにすごく強い照明を
当てていたので
最初のポテトチップの袋は
熱で文字通り溶けてしまいました (笑)
しかし いかに馬鹿みたいに
見えようとも
この実験はとても
重要なものでした
このような音を取り出すことに
成功したからです
Mary had a little lamb!
Little lamb! Little lamb!
(拍手)
とても重要な瞬間でした
物を撮した
音声のない映像から
聞き取れる人の声を
初めて復元できたからです
この実験を基準点として
私たちはいろいろ変化をつけた
実験を始めました
異なる物を使う
物をもっと離れたところに置く
光を弱くする
音を小さくする
そういった実験の結果を
分析して
この手法の限界を
見極めました
ひとたび限界が分かれば
どう押し広げられるかも
分かるからです
そうやってこんな実験に
たどり着きました
ここでもポテトチップの袋に向けて
音を流しますが
今回はカメラが
5メートル離れていて
防音ガラスの
背後にあります
照らしている光も
自然の太陽光です
ご覧いただいているのが
撮影した映像です
そしてこれが部屋の中で
ポテトチップの袋の横で流していた音です
Mary had a little lamb whose fleece was white as snow,
(メリーさんは小さな羊を飼っていた 雪のように白い毛をして)
and everywhere that Mary went, that lamb was sure to go.
(メリーさんの行くところは どこにでも付いてきた)
そしてこれが
窓の背後から撮した
無音の映像から
取り出した音声です
Mary had a little lamb
whose fleece was white as snow,
and everywhere that Mary went,
that lamb was sure to go.
(拍手)
限界を押し広げる方法は
他にもあります
こちらはもっと静かな実験で
ノートPCに繋いだ
イヤホンを撮しています
この時の目標は
2つの小さなプラスチック製イヤホンを撮した
無音の映像から
かけている曲を復元する
ということでした
これはすごく
うまくいって
結果から曲名を
Shazamで当てることさえできました
(笑)
(曲 クイーン 『アンダー・プレッシャー』)
(拍手)
使用するハードウェアという点でも
限界を押し広げることができます
ここまで ご覧頂いた実験は
どれも高速度カメラを使っていて
これは通常携帯についている
カメラよりも
100倍高速に
撮影することができます
しかし私たちは
普通のカメラで
この手法を使う方法も
見つけました
ローリングシャッターと呼ばれる技術を
利用しています
多くのカメラは
画像を1行ずつ記録しています
1枚の画像の記録中に
撮影対象が動くと
各行に時間的な
ズレがあるため
ビデオの各フレームに
小さなゆがみが
記録されることになります
このゆがみを分析したところ
アルゴリズムを改良すれば
そこから音を復元できることが分かりました
これが行った実験で
キャンディの袋を撮し
横では同じ『メリーさんのひつじ』を
スピーカーで流していますが
今回は お店で買える
普通のカメラを使っています
これから取り出した音を
お聞かせします
音にひずみがありますが
それでも何の曲か
おわかりになると思います
(曲 『メリーさんのひつじ』)
音にひずみがあるにしても
これが意味深いのは
家電量販店で買える
普通のカメラで
このようなことが
できたということです
ここまで ご覧頂いたことから
多くの人が思い浮かべるのは
スパイ活動でしょう
確かに誰かをスパイするために
この技術を使うというのは
容易に想像できることですが
考えてほしいのは
スパイ活動に関しては多くの成熟した技術が
すでに存在する
ということです
実際 盗聴のために 遠くから物に
レーザーを照射するというのは
何十年も前から
行われています
私たちの技術が
本当に新しく
違っている点は
物の振動を見る方法を
手に入れたということで
これは世界を見る
新しいレンズになります
このレンズを使うと
物を振動させる音のような力について
学べるだけでなく
物自体についても
学ぶことができます
ここで視野を広げて
これが私たちのビデオの使い方を
いかに変えうるかを考えてみましょう
通常私たちは物を見るために
ビデオを使います
それから音を聞くためにも
使えることを
お見せしました
しかし私たちが世界について学ぶ重要な方法が
もう1つあります
働きかけることによってです
押したり 引いたり
つついたり 揺すったりして
何が起きるか見るのです
これはビデオでは
できないことです
少なくとも
普通のビデオでは
これからお見せするのは
最新の研究で
ほんの2、3ヶ月前に思いついた
アイデアを元にしています
公の場で見せるのは
これが初めてです
基本的なアイデアは
映像の中の振動をヒントに
物の性質を取り出して
働きかけて反応を見られるような
形にするということです
これが対象とする物で
人の形をした
針金人形です
これを普通のカメラで
ビデオ撮影します
カメラに特別なものは
使いません
実際 以前は私の携帯電話を
使っていました
振動する様子を
見たいので
撮影中に
人形が置かれている
台の上を
ちょっと叩いてやります
これだけです
5秒間の普通のビデオで
台を叩いています
この映像の中の
振動を使って
物の構造的・物質的な性質について
学ぼうというのです
そしてその情報を使って
新たなインタラクティブな物を作ります
そうしてできたものが
これです
何の変哲もない
画像に見えますが
これは画像ではなく
ビデオでもありません
この人形はマウスを使って
いじってやることが
できるんです
ご覧頂いているのは
目にしたことのない
新しい働きかけに対して
物がどう反応するかいう
シミュレーションです
これをたった5秒間の
普通のビデオから作ったんです
(拍手)
これは世界を見る
新しい強力な方法です
新たな状況に対して
物がどう反応するかを
予測することが
できるからです
たとえば古い橋を前にして
車で渡っても大丈夫か
分かりかねているという状況を
想像できるでしょう
この質問の答えは
橋を渡り始める前に
知りたいはずです
もちろんこの手法にも
限界はあり
その点は視覚的マイクロフォンと
同じです
しかしこの方法は
予想以上に
多くの状況で使え
長いビデオがある場合には
特にそうです
たとえばこれは
私のアパートの前の
藪を撮したビデオで
私は藪に対して
何もしていません
しかし1分間
撮している間に
やさしいそよ風が この藪について学ぶのに
十分な振動を生み出してくれ
このようなシミュレーションを
作れました
(拍手)
この技術を手にした
映画監督は
映像が撮影された後に
風の強さや向きを変えるのに
使うかもしれません
こちらでは吊された
カーテンを撮していて
動きは見られませんが
2分のビデオがあれば
室内の自然な空気の
対流で生じた
気付かないような
微かな動きや振動から
シミュレーションを作るのに
十分な情報が得られます
このようなインタラクティブなものは
ビデオゲームや3Dモデルの中の
架空の物として
見慣れていると思いますが
現実の世界の実際の物から
普通のビデオ映像を使って
このような情報を
引き出すというのは
新しいことであり
大きな可能性があります
このプロジェクトに一緒に取り組んでいる
素晴らしい仲間たちです
(拍手)
今日お見せしたものは
始まりにすぎません
私たちはこのような映像技術で
可能になることの
ほんの表面に
触れたに過ぎません
この技術は 誰でも
手に入れられる道具だけで
周りの世界の違った見方を
可能にしてくれるからです
この先 この技術が
世界について教えてくれることを
探求していくのは
本当に心躍ることだと
思います
ありがとうございました
(拍手)