Return to Video

09-32 Mdp Conclusion

  • 0:00 - 0:02
    多くのことを学んできましたね
  • 0:02 - 0:06
    マルコフ決定過程についても学びました
  • 0:06 - 0:10
    状態の集合や対応する行為は完全観測可能です
  • 0:10 - 0:14
    それらの確率論的な行為の影響は
  • 0:14 - 0:21
    状態Sで行為Aを取った状態S′の
    条件付きの確率によって特徴づけられています
  • 0:21 - 0:25
    状態に対して定義される報酬関数を最大化します
  • 0:25 - 0:30
    状態を行為の組で定義することもできます
  • 0:30 - 0:36
    目的関数は将来的な累積報酬や割引報酬を
    最大化する関数でした
  • 0:36 - 0:38
    式はこの通りです
  • 0:38 - 0:42
    解決のカギとなるのは価値反復法です
  • 0:42 - 0:45
    V(S)は各状態へ価値を割り当てました
  • 0:45 - 0:50
    またその代わりに状態Sと行為Aに価値を割り当てる
    Q(s,a)を使うこともできますが
  • 0:50 - 0:53
    今までこれは考慮しませんでした
  • 0:53 - 0:58
    V(S)を再帰的に更新する
    論理的なルールを定めました
  • 0:58 - 1:00
    行為に選択肢があると考えますが
  • 1:00 - 1:07
    実際は遷移確率によって行為の結果が選択されます
  • 1:07 - 1:10
    そして価値反復が収束すると
  • 1:10 - 1:16
    argmaxを取ると仮定することで
    ポリシーπを決定することができます
  • 1:16 - 1:18
    ここの式は省略しましょう
  • 1:18 - 1:20
    これが美しいフレームワークです
  • 1:20 - 1:22
    以前のプランニングとはまったく違うのは
  • 1:22 - 1:26
    行為の影響が確率論的だからです
  • 1:26 - 1:31
    決定的なプランニングにおけるケースで
    一連の状態と行為を作るというよりも
  • 1:31 - 1:35
    ポリシーと呼ばれる全体のフィールドを作り
  • 1:35 - 1:39
    すべての可能な状態に対して
    行為を割り当てています
  • 1:39 - 1:42
    計算する時には価値反復法を使います
  • 1:42 - 1:48
    価値反復法は状態のフィールドから
    逆方向に値を展開する手法です
Title:
09-32 Mdp Conclusion
Description:

Unit 9 32 MDP Conclusion

more » « less
Team:
Udacity
Project:
CS271 - Intro to Artificial Intelligence
Duration:
01:47

Japanese subtitles

Revisions