YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Japanese subtitles

← 09-16 Mdp And Costs

Unit 9 16 MDP and Costs

Get Embed Code
2 Languages

Showing Revision 1 created 12/03/2014 by K2480.

  1. 単純なグリッドワールドでも
    確率論な行為を仮定すると
  2. 吸収状態以外のコストがなくても
    最適なポリシーは自明ではありません
  3. 詳しく見てみましょう
  4. この辺りは明らかですが
  5. このb3とc4の状態については
    -100を避けるために行為を選んでいます
  6. このことは+100へ進むことよりも重要です
  7. これは明らかにマルコフ決定過程では
    標準的ではありませんし
  8. 単に-100を避けるために壁に向かって
    移動しようとするのは違和感があります
  9. このように非直感的な結果となってしまう理由は
  10. 移動コストを考慮していないからです
  11. 日常生活では移動コストがかかります
  12. マルコフ決定過程はコストを考慮し
  13. 報酬関数をすべての状態に対して設定することで
    コストを表現できます
  14. もしa4に行けば+100でb4に行けば-100です
  15. 他の状態には-3を割り当ててみましょう
  16. これは他の状態に行くと
    3のコストが必要であることを表しています
  17. これは短い手順で吸収状態へ行く
    インセンティブとなります
  18. MDPの真の目的関数を定める準備ができました
  19. 単にある瞬間のコストではなく将来的な
    すべての報酬の総和を最大化する関数です
  20. これをRtと表記し時刻tに受け取る報酬を示します
  21. この報酬は確率論的なので期待値を取る必要があり
  22. これが私たちが最大化すべき関数となります
  23. この式を最大化するポリシーを
    見つけるのが問題です
  24. もう1つ興味深い変形として
    この式に割引率を加えることがあります
  25. ここに割引率のt乗 例えば0.9を入れ
  26. これによって未来の報酬を割引します
  27. 直近の報酬を重視するようにし
  28. コストを定める方法もあります
  29. 他の状態に
    マイナスの報酬を割り当てる方法もあります
  30. 他にも割引率を導入することで
  31. +100からステップ数を引く方法もあります
  32. これもまた早く吸収状態へ行く
    インセンティブとなります
  33. 数学的に良い性質としてこの割引率によって
    この期待値は上界を持つということがあります
  34. この割引された期待値は
    1/(1-γ)×|Rmax|です
  35. この場合割引されない期待値は100です