Japanese subtitles

← 10-07 Solving A Mdp

Unit 10 07 Solving a MDP.mp4

Get Embed Code
2 Languages

Showing Revision 1 created 12/03/2014 by K2480.

  1. さてMDPを解いてみましょう
  2. Π(S)というポリシーを見つけてみましょう
  3. それが答えです
  4. 最適ポリシーであるΠは
  5. 割引した全体の報酬を最大化します
  6. どういうことかというと
    未来の報酬を時間に関して
  7. 足し合わせていくということです
  8. その報酬というものは時間tにいる状態で
  9. ポリシーを適用させ
  10. 新しいt+1における状態に関するものです
  11. 合計を最大化しようとしていますが
  12. 合計は無限かもしれません
  13. そこで私たちはこの値γをt乗します
  14. 未来の報酬を現在の報酬よりも
    小さく数えようとしています
  15. 合計には上限があることを確認しましょう
  16. 結果を最大化するポリシーが必要です
  17. マルコフ決定過程を解くことで
    状態の効用が分かれば
  18. いずれの状態sの効用も
  19. すべての可能性のある行動を取った時の期待値が
  20. 最大値に等しくなります
  21. 期待値とは何でしょう?
  22. それはすべての遷移モデルの状態の
    結果の合計です
  23. 出発状態で最適ポリシーによって
    特定された行動を取った時
  24. s´に遷移する確率と
    結果状態の効用を乗算します
  25. 可能性のある行動をすべて見てください
  26. 確率の効用において期待される中で
    一番いい行動を選んでください