Return to Video

09-31 Value Iterations And Policy 2

  • 0:00 - 0:04
    収束後の価値関数とそれに対応するポリシーの例を
  • 0:04 - 0:07
    いくつか示したいと思います
  • 0:07 - 0:11
    γが1で吸収状態でない場合の報酬は
    以前と同様に-3とします
  • 0:11 - 0:15
    すると収束の後には
    次のような近似価値関数が得られます
  • 0:15 - 0:21
    対応するポリシーは次のようになります
  • 0:21 - 0:25
    上の方では吸収状態に向かって右に向かい
  • 0:25 - 0:27
    ここでは北が選ばれています
  • 0:27 - 0:31
    ここでは左でこちらはまた北となっています
  • 0:31 - 0:33
    吸収状態のポリシーは空白です
  • 0:33 - 0:36
    ここで選ばれる行為がないからです
  • 0:36 - 0:42
    -100に陥るリスクは時間経過のペナルティで
  • 0:42 - 0:45
    バランスが取られている状態です
  • 0:45 - 0:52
    ここでは10%の-100のリスクを取っています
  • 0:52 - 0:58
    これはコストが-3のモデルのため
    南よりも好まれるようになっているからです
  • 0:58 - 1:02
    次にすべての状態の報酬が0の場合を考えましょう
  • 1:02 - 1:09
    この場合の価値関数は興味深い形に収束します
  • 1:09 - 1:13
    少し考えると
    それがどのようなものか分かると思います
  • 1:13 - 1:16
    すべての値がちょうど100になります
  • 1:16 - 1:21
    もしコストが0ならば
    どれだけ長く動きまわっても問題がないからです
  • 1:21 - 1:24
    いずれ100にたどり着くことが保証されているので
  • 1:24 - 1:28
    バックアップの結果100という価値になります
  • 1:28 - 1:32
    対応するポリシーは以前議論したものと同じです
  • 1:32 - 1:35
    この状態では南に行くようになっていて
  • 1:35 - 1:38
    時間をかける選択をするということが重要です
  • 1:38 - 1:40
    この状態では西に行きます
  • 1:40 - 1:44
    ここもまた-100を避けるため
    時間をかける選択をするようになっています
  • 1:44 - 1:52
    他の状態は期待していた通り
    このような形になっています
  • 1:52 - 2:02
    もしコストが-200なら各ステップが
    -100に落ちるよりもコストが高い状態で
  • 2:02 - 2:05
    どの場所もとても小さな価値になります
  • 2:05 - 2:08
    ここの価直が最も小さくなります
  • 2:08 - 2:11
    ポリシーはさらに興味深くなっています
  • 2:11 - 2:18
    エージェントは-200のペナルティを避けるために
    できるだけ早くゲームを終えようとする状況です
  • 2:18 - 2:23
    ここでも北に進んで
    -200のペナルティを得てから100を目指すよりも
  • 2:23 - 2:27
    -100に行ったほうがよいという
    ポリシーになっています
  • 2:27 - 2:35
    同様にここでも北に向かって
    できるだけ早く終えることを目指しています
  • 2:35 - 2:37
    これは極端な場合です
  • 2:37 - 2:39
    生きることに対して死を選ぶことよりも
  • 2:39 - 2:45
    悪いペナルティを与えることに
    意味があるのかは分かりませんが
  • 2:45 - 2:50
    極端な場合にはこれが価直反復の結果になります
Title:
09-31 Value Iterations And Policy 2
Description:

Unit 9 31 Value Iterations and Policy 2

more » « less
Team:
Udacity
Project:
CS271 - Intro to Artificial Intelligence
Duration:
02:49

Japanese subtitles

Revisions