Japanese subtitles

← 10-10 Passive Temporal Difference Learning

Unit 10 10 Passive Temporal Difference Learning.mp4

Get Embed Code
2 Languages

Showing Revision 1 created 12/03/2014 by K2480.

  1. 受動強化学習について見てみましょう
  2. TD学習もしくはTDと呼ばれる
    アルゴリズムを書いてみます
  3. 有名人の名前のようですが
  4. ある状態から次へ動くという意味です
  5. そして2つの状態の差を見て
  6. 学んだあとに次々と値を元に戻します
  7. 固定されたポリシーであるΠに従うと
  8. ポリシーは次に進む方向を教えるでしょう
  9. 結局+1の報酬を手に入れると学び
  10. +1に戻り始めるでしょう
  11. もしここで+1を獲得すべきなら
    この状態にいるのがよいでしょう
  12. この状態にいるのもよいと思います
    出発状態に戻ります
  13. このアルゴリズムを実行するため
  14. それぞれの状態に関する効用や
    方法に沿った効用の表を作り
  15. それらを訪ねた回数を追ってみましょう
  16. さて効用の表の空白から始めます
  17. 0や定義がされていない場所からは出発しません
  18. 数の表では0で始めます
  19. それぞれ状態に向かうのは
    0回ということです
  20. 私たちがやるのはポリシーの実行です
  21. その状態を経験する実験をしましょう
  22. 終着の状態にたどり着く時
  23. 私たちはまた出発点から実行します
  24. それぞれの状態を訪ねる回数を追います
  25. 効用を更新して効用をよりよく評価します
  26. これがアルゴリズムの内側のループです
  27. では追ってみましょう 出発点から初めて
  28. ポリシーを適用します するとポリシーが
    動く方向を教えてくれます
  29. ここで報酬を手にします
  30. つまり0です
  31. そしてアルゴリズムで報酬を見ます
  32. アルゴリズムは状態が新規か教えてくれます
  33. ここは初めてですね
  34. その状態の効用に新しい報酬を
    設定します つまり0です
  35. 今ここに0があります
  36. そして次の段階でここに動きます
  37. そしてまた0があります
  38. 私たちのポリシーはよいものに見えます
  39. そしてここで手にします 0です
  40. ここで0を手にします
  41. そしてここで1の報酬を得るので
    状態は1の効用を手にします
  42. あらゆる点においてどうやって
    この値を戻すかも考える必要があります
  43. ですのでここに着いた時に
    この式を見る必要があります
  44. どのように前の状態の効用を
    更新するでしょうか?
  45. この状態とこの状態の差は0です
  46. この差も0になるでしょう
  47. 報酬0の状態は更新されません
  48. しかし最後に初めて更新することになります
  49. この状態を+1に更新します
  50. さてこの状態の変更を考えてみましょう
  51. 何が古い効用ですか? それは0です
  52. αという要素があります
  53. つまり学習率です
  54. どのくらいこの効用をよりよい評価へ
    動かしたいかを教えてくれます
  55. 学習率は次のような方法です
  56. もしまったく新しいものがあれば
    大きく動かしたいですよね
  57. この状態を何回も見ると値に自信がついて
    小さなステップにしようとします
  58. さてアルファ関数が1/n+1です
    つまりnがゼロの時
  59. 1/n+1にはならないはずです
  60. 1/n+1は1/2になります
  61. そしてこの状態での報酬は0です
  62. さらにγを加えます
  63. γが1ならば割引されません
  64. そして結果状態の効用との差を見ます
  65. つまり1です
  66. そこからこの状態の効用を引くと0です
  67. 1/2×(1-0)は1/2です
  68. 更新してこの0を1/2に変更します
  69. では最初からやり直してみましょう
  70. ポリシーが計画通りに進んだ場合
    確率的に普通のことが起こります
  71. 同じ道をたどっても更新しません
  72. この道がずっと0だからです
  73. このルートを通っていきます
  74. ここで更新します
  75. 0から1/2へと遷移しました
  76. どうやって更新しますか?
  77. 前の状態は0でした
  78. 今は1/n+1になります
  79. 例えば1/3とします
  80. 二度も通ったので少し慣れてきましたね
  81. この状態の報酬は0でした
  82. この2つの状態間の差を見てみましょう
  83. これがTDという名前になった部分です
  84. ここが1/2-0で
  85. 1/3×1/2なので答えは1/6になります
  86. この状態を更新します
  87. 0でしたが1/6になります
  88. +1という結果が逆方向に
    増え始める様子が分かります
  89. ゆっくり増えていきます
  90. 逆方向に増える結果を得るため
    1回につき実験は1つです
  91. さてこの状態の更新はどうなるでしょう?
  92. 今ここは1/2です 古い効用は1/2になります
  93. αつまり学習率は1/3です
  94. 古い状態の報酬は0でした
  95. この2つの状態の差を加えると
    1-1/2です
  96. そして1/2+1/6は2/3です
  97. 2回目でこの状態の効用を
    1/2から2/3に更新しました
  98. そして続けると
    逆方向へ増える正の結果が分かります
  99. もしここを通して更に例を使えば
    反対方向へ増える負の結果が分かります
  100. 最終的にこのポリシーに関して
    正しい効用へと収束します