Return to Video

09-35 Pomdp

  • 0:00 - 0:07
    この問題について簡単な環境を用いて説明します
  • 0:07 - 0:09
    このような世界に住んでいるとします
  • 0:09 - 0:13
    エージェントはここから始まり
    2つの結果があります
  • 0:13 - 0:18
    ここにある迷路を出ると+100で
  • 0:18 - 0:22
    こちらの迷路を出ると-100をもらえます
  • 0:22 - 0:28
    完全観測可能かつ決定的なケースで
  • 0:28 - 0:32
    最適なプランはこのようになると思います
  • 0:32 - 0:35
    ここを真っすぐ進むかどうかは詳細次第です
  • 0:35 - 0:38
    例えばエージェントの運動量の有無などです
  • 0:38 - 0:44
    しかし早く+100に近づくため
    なるべく近くで角を曲がった場合の
  • 0:44 - 0:47
    単一の行為と状態を見つけます
  • 0:47 - 0:50
    これは一般的なプランニングです
  • 0:50 - 0:53
    すでに学んだケースで対比してみましょう
  • 0:53 - 0:57
    つまり完全観測可能ではあるが確率的なケースです
  • 0:57 - 1:01
    ベストな計算方法はすべての状態に
  • 1:01 - 1:04
    最適な行為を割り当てるポリシーだと学びました
  • 1:04 - 1:07
    単純に話すとこれは次のようなことです
  • 1:07 - 1:12
    この矢印はそれぞれが
    サンプルの制御ポリシーに一致しています
  • 1:12 - 1:16
    遠くの状態空間も定義しています
  • 1:16 - 1:22
    つまりこれはすべての矢印が徐々にここに向く
    制御ポリシーの一例になります
  • 1:22 - 1:25
    これはMDPや価値反復法で学びました
  • 1:25 - 1:29
    目指すケースは部分観測可能なケースで
  • 1:29 - 1:32
    最終的にはこれをPOMDPで解決します
  • 1:32 - 1:37
    このケースでは観測可能な迷路に
    エージェントを置きます
  • 1:37 - 1:43
    観測不可能な部分は+100と
  • 1:43 - 1:45
    -100を受け取る場所です
  • 1:45 - 1:48
    その代わりにここにサインを置き
  • 1:48 - 1:53
    エージェントに+100や-100を
    予測できる場所を教えます
  • 1:53 - 1:57
    つまり最適ポリシーはまずサインまで行き
  • 1:57 - 1:59
    サインを読み
  • 1:59 - 2:03
    戻って対応する出口に向かうことです
  • 2:03 - 2:07
    つまりエージェントは+100を
    受け取る場所が分かっています
  • 2:07 - 2:12
    例えばこの出口で+100を受け取れるなら
    サインには左と書かれます
  • 2:12 - 2:15
    もしこの出口が+100になるなら
    サインには右と書かれます
  • 2:15 - 2:17
    この環境が興味深いのは
  • 2:17 - 2:23
    エージェントがどの出口が+100になるか分かれば
    出発点から北を目指すことです
  • 2:23 - 2:26
    情報を集めるためだけに南に向かいます
  • 2:26 - 2:30
    次のことを理解するプランニングの
    方法を考えてください
  • 2:30 - 2:36
    最適な出口で+100を受け取りたい場合
  • 2:36 - 2:40
    情報を収集して迂回する必要があります
  • 2:40 - 2:42
    解決方法に効果がないのは
  • 2:42 - 2:46
    エージェントが2つの違う世界に
    いるからかもしれません
  • 2:46 - 2:49
    +100は左側にある世界かもしれません
  • 2:49 - 2:51
    +100は右側にある世界かもしれません
  • 2:51 - 2:53
    -100は対応する他の出口にあります
  • 2:53 - 2:59
    これらのケースの問題が解けないまま
    解決方法をまとめても効果はありません
  • 2:59 - 3:02
    例えば平均化してみます
  • 3:02 - 3:08
    効果がないのはこのエージェントが
    平均化すると北に向かうからです
  • 3:08 - 3:11
    サインを読んで最適な出口へ向かうために
  • 3:11 - 3:15
    南へ向かうことに
    価値があるという考えはありません
  • 3:15 - 3:18
    到着すると最後にここの交差点で
  • 3:18 - 3:20
    何をすべきか分からなくなります
  • 3:20 - 3:25
    効果がある状況にすると情報空間もしくは
    信念空間が関係してきます
  • 3:25 - 3:29
    情報空間もしくは信念空間で
    表現をプランニングします
  • 3:29 - 3:34
    それは物理世界の状態の集合ではなく
    この状態について知っていることからです
  • 3:34 - 3:39
    よく見るとたくさんの
    信念状態があることが分かります
  • 3:39 - 3:44
    これが1つ目です
    100をもらえる場所は分かりません
  • 3:44 - 3:48
    動き回ってこの出口かサインのうち
    一方にたどり着いたら
  • 3:48 - 3:51
    100をもらう場所が突然分かります
  • 3:51 - 3:55
    そして信念状態を変えさせます
  • 3:55 - 3:58
    また信念状態を変えさせます
  • 3:58 - 4:03
    例えば100は左にあると分かれば
    信念状態はこのようになります
  • 4:03 - 4:05
    あいまいさが解決しましたね
  • 4:05 - 4:09
    さてこれらの状態空間から
    どうやって遷移しましょうか?
  • 4:09 - 4:12
    答えはこれです サインを読んだ時に
  • 4:12 - 4:19
    この場所がこの場所へ
    移動するという結果になる確率は50%です
  • 4:19 - 4:23
    左側に+100がある確率が50%だからです
  • 4:23 - 4:28
    右側に+100がある確率も50%です
  • 4:28 - 4:31
    つまりここの遷移は確率的です
  • 4:31 - 4:35
    50%の確率でここへと移動する結果になります
  • 4:35 - 4:39
    この信念空間でMDPトリックを使えば
  • 4:39 - 4:44
    ここに水を注いで流れると
  • 4:44 - 4:48
    前と同じ勾配を作るでしょう
  • 4:48 - 4:53
    ここでも同じことをします
    左側にある出口を目指す勾配を作ります
  • 4:53 - 4:58
    最終的に水はこの部分を流れ
    このような傾斜を作ります
  • 4:58 - 5:02
    ここで逆流してこのような勾配ができます
  • 5:02 - 5:06
    つまり価値関数はここで+100で
    この部分でも+100になります
  • 5:06 - 5:08
    ここで徐々に減っていきます
  • 5:08 - 5:11
    さらにここでも徐々に減っていきます
  • 5:11 - 5:15
    さらに減ってこのような矢印になります
  • 5:15 - 5:20
    この信念空間で
    解決方法が見つけられると示しました
  • 5:20 - 5:24
    実際にMDPの価値反復法を使えば
  • 5:24 - 5:30
    この新しい空間で複雑な部分的観測の
    プランニング過程の解決方法を見つけられます
  • 5:30 - 5:33
    その解決方法を繰り返してください
  • 5:33 - 5:37
    提案としてはまず南に向かってサインを読みます
  • 5:37 - 5:41
    確実な自信を持って+100を獲得できる
  • 5:41 - 5:45
    左か右の世界のランダムな位置に向かいます
Title:
09-35 Pomdp
Description:

Unit 9 35 POMDP

more » « less
Team:
Udacity
Project:
CS271 - Intro to Artificial Intelligence
Duration:
05:46

Japanese subtitles

Revisions