Return to Video

コンピュータが写真を理解するようになるまで

  • 0:02 - 0:06
    まずこのビデオを
    ご覧ください
  • 0:06 - 0:10
    (女の子の声) ネコがベッドに座ってる
  • 0:10 - 0:14
    男の子が象をなでてる
  • 0:14 - 0:18
    飛行機へ行く人たち
  • 0:18 - 0:21
    大きな飛行機よ
  • 0:21 - 0:24
    (講演者) これは3歳児が
  • 0:24 - 0:27
    見た写真を
    説明しているところです
  • 0:27 - 0:31
    彼女にはこの世界で学ぶことが
    まだまだあるかもしれませんが
  • 0:31 - 0:35
    ひとつの重要な作業については
    すでにエキスパートです
  • 0:35 - 0:38
    見たものを理解する
    ということです
  • 0:38 - 0:42
    私たちの社会は技術的に
    かつてなく進歩しています
  • 0:42 - 0:46
    月へと人を送り込み
    人に話しかける電話を作り
  • 0:46 - 0:51
    自分の好きな曲だけがかかるように
    ラジオをカスタマイズしています
  • 0:51 - 0:55
    しかしながら最先端の
    コンピュータでも
  • 0:55 - 0:58
    まだこの作業には
    手こずっているんです
  • 0:58 - 1:01
    私は今日コンピュータビジョンの
  • 1:01 - 1:05
    最新動向について
    お伝えするために来ました
  • 1:05 - 1:10
    これはコンピュータサイエンスの中でも
    先端にあって
  • 1:10 - 1:13
    画期的なものになる
    可能性のある技術です
  • 1:13 - 1:17
    自分で運転する車の
    プロトタイプが作られていますが
  • 1:17 - 1:21
    知的な視覚処理能力がなかったら
  • 1:21 - 1:25
    踏みつぶしても問題のない
    道路上の丸めた紙袋と
  • 1:25 - 1:29
    避けて通るべき同じ大きさの石とを
    見分けることもできません
  • 1:29 - 1:33
    すごいメガピクセルの
    カメラが作られていますが
  • 1:33 - 1:36
    盲目の人に視力を与えることは
    できていません
  • 1:36 - 1:40
    無人機を広大な土地の上に
    飛ばすことはできても
  • 1:40 - 1:43
    熱帯雨林の変化を
    追跡できるだけの
  • 1:43 - 1:45
    画像技術はまだありません
  • 1:45 - 1:48
    監視カメラが至る所に
    設置されていますが
  • 1:48 - 1:53
    プールで溺れている子がいても
    警告してはくれません
  • 1:54 - 2:00
    写真やビデオは世界において
    生活に不可欠な一部をなしています
  • 2:00 - 2:04
    どんな個人であれ チームであれ
    見切れないほどのペースで
  • 2:04 - 2:07
    映像が量産されています
  • 2:07 - 2:11
    そして私たちも ここTEDで
    それに貢献しています
  • 2:11 - 2:14
    しかし最も進んだ
    ソフトウェアでさえ
  • 2:14 - 2:20
    この膨大な映像を理解し管理するのに
    手こずっています
  • 2:20 - 2:22
    言ってみれば
  • 2:22 - 2:25
    私たちの社会は
    集合的に盲目であり
  • 2:25 - 2:30
    それは最も知的な機械が
    いまだ盲目だからです
  • 2:31 - 2:34
    なぜそんなに難しいのかと
    思うかもしれません
  • 2:34 - 2:37
    カメラはこのような写真を撮って
  • 2:37 - 2:39
    光をピクセルと呼ばれる
  • 2:39 - 2:43
    数字の2次元配列へと
    変換しますが
  • 2:43 - 2:45
    これは死んだ数字の列に
    過ぎません
  • 2:45 - 2:48
    数字自体に意味はありません
  • 2:48 - 2:52
    単に音が耳に入ってくるのと
    「聴く」のとは違うように
  • 2:52 - 2:57
    「写真を撮る」のと「見る」のとは
    同じではありません
  • 2:57 - 3:00
    「見る」ということには
    理解することが含まれているのです
  • 3:01 - 3:04
    実際この仕事を
    成し遂げられるようにするために
  • 3:04 - 3:09
    母なる自然は 5億4千万年という
    長い歳月を必要としたのです
  • 3:09 - 3:11
    そしてその努力の多くは
  • 3:11 - 3:14
    目そのものではなく
  • 3:14 - 3:19
    脳の視覚処理能力を発達させるために
    費やされました
  • 3:19 - 3:22
    視覚というのは
    目から始まりますが
  • 3:22 - 3:26
    それが本当に起きているのは
    脳の中なのです
  • 3:26 - 3:31
    これまで15年間
    カリフォルニア工科大学の博士課程の頃から
  • 3:31 - 3:34
    スタンフォード大でコンピュータビジョン研究室を
    率いている今に到るまで
  • 3:34 - 3:39
    私は指導教官や共同研究者や
    学生達とともに
  • 3:39 - 3:42
    コンピュータに見ることを
    教えようとしてきました
  • 3:43 - 3:46
    私たちの研究領域は
    コンピュータビジョンと機械学習で
  • 3:46 - 3:50
    これは人工知能の分野の一部です
  • 3:51 - 3:56
    最終的に私たちがしたいのは
    機械も人間のようにものを見られるようにすることです
  • 3:56 - 4:02
    物が何か言い当て 人を識別し
    3次元的な配置を推量し
  • 4:02 - 4:08
    関係や感情や行動や意図を
    理解するということです
  • 4:08 - 4:11
    私たち人間は一目見ただけで
  • 4:11 - 4:16
    人 場所 物の織りなす物語全体を
    捉えることができます
  • 4:17 - 4:20
    この目標に向けた第一歩は
  • 4:20 - 4:26
    コンピュータに視覚世界の構成要素である物を
    見られるようにすることです
  • 4:26 - 4:28
    簡単に言うと
  • 4:28 - 4:31
    ネコのような特定の物の
  • 4:31 - 4:37
    訓練用画像を
    コンピュータに与えて
  • 4:37 - 4:41
    それらの画像から学習する
    モデルを設計するんです
  • 4:41 - 4:43
    簡単そうに聞こえますよね?
  • 4:43 - 4:47
    ネコの画像は色と形の
    集まりに過ぎません
  • 4:47 - 4:52
    これは初期のオブジェクト・モデリングで
    私たちがやっていたことでした
  • 4:52 - 4:55
    数学的な言語を使って
    コンピュータアルゴリズムに
  • 4:55 - 4:59
    ネコには 丸い顔と
    ぽっちゃりした体と
  • 4:59 - 5:01
    2つのとがった耳と
    長いしっぽがあると教え
  • 5:01 - 5:02
    それでうまくいきそうでした
  • 5:03 - 5:05
    でもこのネコはどうでしょう?
  • 5:05 - 5:06
    (笑)
  • 5:06 - 5:08
    体がすっかり反り返っています
  • 5:08 - 5:12
    オブジェクトモデルに新しい形と視点を
    追加する必要があります
  • 5:12 - 5:14
    でもネコが一部隠れていたら
    どうでしょう?
  • 5:15 - 5:17
    このおかしなネコたちはどうでしょう?
  • 5:19 - 5:22
    言いたいこと分かりますよね?
  • 5:22 - 5:25
    身近なペットのネコという
    シンプルなものでさえ
  • 5:25 - 5:29
    オブジェクトモデルに
    無数のバリエーションを定義する必要があり
  • 5:29 - 5:32
    しかもこれは沢山あるものの
    1つに過ぎないんです
  • 5:33 - 5:35
    8年ほど前
  • 5:35 - 5:40
    とてもシンプルながら本質的なある観察が
    私の考え方を変えました
  • 5:41 - 5:44
    子供は教えられなくても
  • 5:44 - 5:47
    成長の初期に
    ものの見方を身に付けるということです
  • 5:47 - 5:51
    子供は現実の世界における
    経験と例を通して学ぶのです
  • 5:51 - 5:54
    子供の目が
    生きたカメラで
  • 5:54 - 5:57
    200ミリ秒ごとに1枚
  • 5:57 - 6:01
    写真を撮っていると
    考えてみましょう
  • 6:01 - 6:04
    これは目が動く
    平均時間です
  • 6:04 - 6:08
    すると子供は3歳になるまでに
    何億枚という
  • 6:08 - 6:11
    現実世界の写真を
    見ていることになります
  • 6:11 - 6:14
    膨大な量の訓練例です
  • 6:14 - 6:20
    それで気が付いたのは
    アルゴリズムの改良ばかりに集中するのではなく
  • 6:20 - 6:26
    子供が経験を通じて
    受け取るような
  • 6:26 - 6:29
    量と質の訓練データを
  • 6:29 - 6:33
    アルゴリズムに与えてはどうか
    ということでした
  • 6:33 - 6:35
    このことに気付いた時
  • 6:35 - 6:38
    私たちが持っているよりも
    遙かに多くの画像データを
  • 6:38 - 6:42
    集めなければならないことが
    明らかでした
  • 6:42 - 6:45
    何千倍も必要です
  • 6:45 - 6:49
    それで私はプリンストン大学の
    カイ・リー教授と一緒に
  • 6:49 - 6:54
    2007年にImageNetプロジェクトを
    立ち上げました
  • 6:54 - 6:57
    幸い私たちは
    頭にカメラを付けて
  • 6:57 - 6:59
    何年も歩き回る必要は
    ありませんでした
  • 6:59 - 7:02
    人類がかつて作った
    最大の画像の宝庫
  • 7:02 - 7:05
    インターネットに
    向かったのです
  • 7:05 - 7:08
    私たちは10億枚近い画像を
    ダウンロードし
  • 7:08 - 7:14
    アマゾン・メカニカル・タークのような
    クラウドソーシング技術を使って
  • 7:14 - 7:16
    それらの画像に
    ラベル付けをしました
  • 7:16 - 7:21
    最盛期にはImageNetは
    アマゾン・メカニカル・ターク作業者の
  • 7:21 - 7:24
    最大の雇用者の1つに
    なっていました
  • 7:24 - 7:28
    167カ国の
  • 7:28 - 7:32
    5万人近い作業者が
  • 7:32 - 7:36
    10億枚近い画像を
    整理しラベル付けする作業に
  • 7:36 - 7:40
    携わりました
  • 7:41 - 7:43
    子供がその成長の初期に
    受け取るのに
  • 7:43 - 7:47
    匹敵する量の画像を
    用意するためには
  • 7:47 - 7:51
    それほどの労力が
    必要だったのです
  • 7:52 - 7:56
    コンピュータアルゴリズムの訓練に
    ビッグデータを使うというアイデアは
  • 7:56 - 8:01
    今からすると
    自明なものに見えるでしょうが
  • 8:01 - 8:05
    2007年当時は
    そうではありませんでした
  • 8:05 - 8:09
    かなり長い間 こんなことをやっている人は
    私たち以外にいませんでした
  • 8:09 - 8:14
    親切な同僚が将来の職のためにもう少し有用なことを
    した方がいいとアドバイスしてくれたくらいです
  • 8:14 - 8:18
    研究資金には
    いつも困っていました
  • 8:18 - 8:22
    ImageNetの資金調達のために
    クリーニング屋をまた開こうかしらと
  • 8:22 - 8:24
    学生に冗談で言ったくらいです
  • 8:24 - 8:29
    私が学生の頃 学費のために
    やっていたことです
  • 8:29 - 8:31
    私たちは進み続け
  • 8:31 - 8:35
    2009年に
    ImageNetプロジェクトは
  • 8:35 - 8:39
    日常的な英語を使って
    2万2千のカテゴリに分類した
  • 8:39 - 8:44
    1500万枚の画像の
    データベースを
  • 8:44 - 8:47
    完成させました
  • 8:47 - 8:50
    これは量という点でも
    質という点でも
  • 8:50 - 8:53
    かつてないスケールのものでした
  • 8:53 - 8:55
    一例を挙げると
  • 8:55 - 8:59
    ネコの画像は
    6万2千点以上あって
  • 8:59 - 9:03
    様々な見かけや
    ポーズのネコがいて
  • 9:03 - 9:08
    飼い猫から山猫まで
    あらゆる種類を網羅しています
  • 9:08 - 9:12
    私たちはImageNetが
    できあがったことを喜び
  • 9:12 - 9:16
    世界の研究者にも
    その恩恵を受けて欲しいと思い
  • 9:16 - 9:20
    TEDの流儀で
    データセットをまるごと
  • 9:20 - 9:23
    無償で世界の研究者コミュニティに
    公開しました
  • 9:23 - 9:28
    (拍手)
  • 9:29 - 9:34
    こうしてコンピュータの脳を
    育てるためのデータができ
  • 9:34 - 9:38
    アルゴリズムに取り組む
    用意が整いました
  • 9:38 - 9:43
    それで分かったのは
    ImageNetが提供する豊かな情報に適した
  • 9:43 - 9:48
    機械学習アルゴリズムがあることです
  • 9:48 - 9:50
    畳み込みニューラルネットワークと言って
  • 9:50 - 9:55
    福島邦彦 ジェフリー・ヒントン
    ヤン・ルカンといった人たちが
  • 9:55 - 9:59
    1970年代から1980年代にかけて
    開拓した領域です
  • 9:59 - 10:05
    脳が何十億という高度に結合し合った
    ニューロンからできているように
  • 10:05 - 10:08
    ニューラルネットワークの
    基本要素となっているのは
  • 10:08 - 10:11
    ニューロンのようなノードです
  • 10:11 - 10:13
    他のノードからの入力を受けて
  • 10:13 - 10:16
    他のノードへ出力を渡します
  • 10:16 - 10:21
    何十万 何百万という
    このようなノードが
  • 10:21 - 10:24
    これも脳と同様に
  • 10:24 - 10:27
    階層的に組織化されています
  • 10:27 - 10:32
    物を認識するモデルを訓練するために
    私たちが通常使うニューラルネットワークには
  • 10:32 - 10:35
    2千4百万のノード
  • 10:35 - 10:37
    1億4千万のパラメータ
  • 10:37 - 10:40
    150億の結合があります
  • 10:40 - 10:43
    ものすごく大きなモデルです
  • 10:43 - 10:47
    ImageNetの膨大なデータと
  • 10:47 - 10:52
    現代のCPUやGPUの性能を使って
    このような巨大なモデルを訓練することで
  • 10:52 - 10:55
    畳み込みニューラルネットワークは
  • 10:55 - 10:58
    誰も予想しなかったくらいに
    大きく花開きました
  • 10:58 - 11:02
    これは物の認識において
    目覚ましい結果を出す
  • 11:02 - 11:06
    大当たりのアーキテクチャとなっています
  • 11:06 - 11:09
    ここではコンピュータが
  • 11:09 - 11:11
    写真の中にネコがいることと
  • 11:11 - 11:13
    その場所を示しています
  • 11:13 - 11:15
    もちろんネコ以外のものも
    認識できます
  • 11:15 - 11:18
    こちらではコンピュータアルゴリズムが
  • 11:18 - 11:21
    写真の中に男の子とテディベアが
    写っていることを教えています
  • 11:21 - 11:25
    犬と 人物と 後方に小さな凧が
    あることを示しています
  • 11:25 - 11:28
    とても沢山のものが
    写った写真から
  • 11:28 - 11:33
    男性 スケートボード 手すり
    街灯などを見分けています
  • 11:33 - 11:38
    写っているものが何なのか コンピュータが
    そんなに自信を持てない場合もあります [動物]
  • 11:39 - 11:42
    コンピュータには
    当て推量をするよりは
  • 11:42 - 11:46
    確かなところを答えるよう
    教えています
  • 11:46 - 11:48
    ちょうど私たち自身がするように
  • 11:48 - 11:53
    一方で何が写っているかについて
    コンピュータアルゴリズムが
  • 11:53 - 11:55
    驚くほど正確に
    言い当てることもあります
  • 11:55 - 11:59
    たとえば自動車の車種や
    モデルや年式のような
  • 11:59 - 12:04
    このアルゴリズムを
    アメリカの数百都市の
  • 12:04 - 12:07
    何百万という
    Googleストリートビュー画像に適用した結果
  • 12:07 - 12:10
    面白い発見がありました
  • 12:10 - 12:13
    まず 車の値段は
  • 12:13 - 12:17
    家計収入とよく相関しているという
  • 12:17 - 12:19
    予想が裏付けられました
  • 12:19 - 12:23
    でも驚いたことに
    車の値段は
  • 12:23 - 12:26
    街の犯罪率とも
    よく相関していたんです
  • 12:27 - 12:31
    それはまた郵便番号区域ごとの
    投票傾向とも相関しています
  • 12:32 - 12:34
    それでは コンピュータは
  • 12:34 - 12:39
    既に人間の能力に追いつき
    追い越しているのでしょうか?
  • 12:39 - 12:42
    結論を急がないで
  • 12:42 - 12:46
    これまでのところ 私たちは
    コンピュータに物の見方を教えただけです
  • 12:46 - 12:51
    小さな子供が名詞をいくつか
    言えるようになったようなものです
  • 12:51 - 12:54
    ものすごい成果ですが
  • 12:54 - 12:56
    まだ第一歩にすぎず
  • 12:56 - 13:00
    次の開発目標があります
  • 13:00 - 13:03
    子供は文章でコミュニケーションを
    するようになります
  • 13:03 - 13:08
    だから写真を見て小さな女の子が
    単にネコと言わずに
  • 13:08 - 13:13
    ネコがベッドに座っていると
    言うのを聞いたわけです
  • 13:13 - 13:18
    コンピュータが写真を見て
    文章を作れるよう教えるために
  • 13:18 - 13:22
    このビッグデータと
    機械学習の結びつきが
  • 13:22 - 13:25
    新たなステップを
    踏む必要があります
  • 13:25 - 13:29
    コンピュータは
    写真だけでなく
  • 13:29 - 13:32
    人が発する自然言語の文章も
  • 13:32 - 13:35
    学ぶ必要があります
  • 13:35 - 13:39
    脳が視覚と言語を
    結びつけるように
  • 13:39 - 13:44
    画像の断片のような
    視覚的なものの一部と
  • 13:44 - 13:48
    文章の中の単語やフレーズを
    繋ぎ合わせるモデルを
  • 13:48 - 13:50
    私たちは開発しました
  • 13:50 - 13:53
    4ヶ月ほど前
  • 13:53 - 13:56
    ついに私たちは
    すべてをまとめ
  • 13:56 - 13:59
    初めて見た写真について
  • 13:59 - 14:03
    人が書いたような
    記述文を生成できる
  • 14:03 - 14:07
    最初のコンピュータ・ビジョン・
    モデルを作り上げました
  • 14:07 - 14:12
    冒頭で小さな女の子が説明したのと
    同じ写真を見て
  • 14:12 - 14:14
    そのコンピュータが何と言ったか
  • 14:14 - 14:17
    お見せしましょう
  • 14:19 - 14:23
    「ゾウの横に立っている男」
  • 14:24 - 14:28
    「空港の滑走路にいる大きな飛行機」
  • 14:29 - 14:33
    私たちは今もアルゴリズムを改良しようと
    熱心に取り組んでいて
  • 14:33 - 14:36
    学ぶべきことは
    まだまだあります
  • 14:36 - 14:38
    (拍手)
  • 14:40 - 14:43
    コンピュータは
    まだ間違いを犯します
  • 14:43 - 14:46
    「ベッドの上の毛布の中のネコ」
  • 14:46 - 14:49
    ネコを沢山見過ぎたせいで
  • 14:49 - 14:52
    何でもネコみたいに
    見えるのかもしれません
  • 14:53 - 14:56
    「野球バットを持つ小さな男の子」
  • 14:56 - 14:58
    (笑)
  • 14:58 - 15:03
    歯ブラシを見たことがないと
    野球バットと混同してしまいます
  • 15:03 - 15:07
    「建物脇の道を馬に乗って行く男」
  • 15:07 - 15:09
    (笑)
  • 15:09 - 15:12
    美術はまだコンピュータに
    教えていませんでした
  • 15:14 - 15:17
    「草原に立つシマウマ」
  • 15:17 - 15:20
    私たちのように
    自然の美を慈しむことは
  • 15:20 - 15:22
    まだ学んでいません
  • 15:22 - 15:25
    長い道のりでした
  • 15:25 - 15:30
    0歳から3歳まで行くのは
    大変でした
  • 15:30 - 15:35
    でも本当の挑戦は3歳から13歳
    さらにその先へと行くことです
  • 15:35 - 15:39
    あの男の子とケーキの写真を
    もう一度見てみましょう
  • 15:39 - 15:44
    私たちはコンピュータに
    物を識別することを教え
  • 15:44 - 15:48
    写真を簡単に説明することさえ
    教えました
  • 15:48 - 15:52
    「ケーキのあるテーブルにつく人」
  • 15:52 - 15:54
    しかしこの写真には
    単に人とケーキというよりも
  • 15:54 - 15:56
    遙かに多くのものがあります
  • 15:56 - 16:01
    コンピュータが見なかったのは
    このケーキが特別なイタリアのケーキで
  • 16:01 - 16:04
    イースターの時に
    食べるものだということです
  • 16:04 - 16:07
    男の子が着ているのは
    お気に入りのTシャツで
  • 16:07 - 16:11
    お父さんがシドニー旅行の
    おみやげにくれたものだということ
  • 16:11 - 16:15
    私たちはみんな
    この男の子がどんなに喜んでいるか
  • 16:15 - 16:18
    何を思っているかが分かります
  • 16:19 - 16:22
    これは息子のレオです
  • 16:22 - 16:25
    視覚的な知性を
    追い求める探求の中で
  • 16:25 - 16:27
    私はいつもレオのことや
  • 16:27 - 16:30
    レオが住むであろう
    未来の世界のことを考えています
  • 16:30 - 16:32
    機械に見ることが
    できるようになれば
  • 16:32 - 16:37
    医師や看護師は疲れを知らない
    別の目を手に入れて
  • 16:37 - 16:41
    患者の診断や世話に
    役立てられるでしょう
  • 16:41 - 16:45
    自動車は道路をより賢明に
    安全に走行するようになるでしょう
  • 16:45 - 16:48
    人間だけでなくロボットも
  • 16:48 - 16:53
    災害地域に取り残され負傷した人々を救出する
    手助けができるようになるでしょう
  • 16:54 - 16:58
    私たちは機械の助けを借りて
    新種の生物やより優れた素材を発見し
  • 16:58 - 17:02
    未だ見ぬフロンティアを
    探検するようになるでしょう
  • 17:03 - 17:07
    私たちは少しずつ機械に
    視覚を与えています
  • 17:07 - 17:10
    最初に私たちが
    機械に見ることを教え
  • 17:10 - 17:13
    それから機械が より良く見られるよう
    私たちを助けてくれることでしょう
  • 17:13 - 17:17
    歴史上初めて
    人間以外の目が
  • 17:17 - 17:20
    世界について考察し
    探求するようになるのです
  • 17:20 - 17:23
    私たちは機械の知性を
    利用するだけでなく
  • 17:23 - 17:30
    想像もできないような方法で
    機械と人間が協力し合うようになるでしょう
  • 17:30 - 17:32
    私が追い求めているのは
  • 17:32 - 17:34
    コンピュータに視覚的な知性を与え
  • 17:34 - 17:40
    レオや世界のために
    より良い未来を作り出すということです
  • 17:40 - 17:41
    ありがとうございました
  • 17:41 - 17:45
    (拍手)
Title:
コンピュータが写真を理解するようになるまで
Speaker:
フェイフェイ・リー
Description:

小さな子供は写真を見て「ネコ」や「本」や「椅子」のような簡単な要素を識別できます。今やコンピュータも同じことができるくらいに賢くなりました。次は何でしょう? この胸躍る講演で、コンピュータビジョンの専門家であるフェイフェイ・リーが、写真を理解できるようコンピュータに「教える」ために構築された1500万の画像データベースをはじめとする、この分野の最先端と今後について語ります。

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
17:58

Japanese subtitles

Revisions