Japanese subtitles

← 10-14 Active Reinforcement Learning

Unit 10 14 Active Reinforcement Learning.mp4

Get Embed Code
2 Languages

Showing Revision 1 created 12/03/2014 by K2480.

  1. 能動強化学習に移りましょう
  2. ここでは特に貧欲強化学習と呼ばれる
  3. 単純なアプローチで考察していきます
  4. これはすでに学んだ受動TD学習アルゴリズムと
  5. 同じアルゴリズムで機能します
  6. しかし効用を更新するたび
  7. もしくは何度か更新したあと
  8. 効用は変更されます
  9. そこで新しい最適ポリシーπを再計算します
  10. 古いπ₁は削除され新しいπ₂に置き換えられます
  11. π₂は新しい効用値で表された
    マルコフ決定過程から得られます
  12. 新しいポリシーを得たので
  13. これを用いて学習を続けます
  14. 最初に得たポリシーが無効なら
  15. 貧欲アルゴリズムは
    より有効なポリシーへ向かいます
  16. どう機能するか見ていきましょう