Japanese subtitles

← 10-08 Agents Of Reinforcement Learning

Unit 10 08 Agents of Reinforcement Learning.mp4

Get Embed Code
2 Languages

Showing Revision 1 created 12/03/2014 by K2480.

  1. 強化学習を実際にやってみましょう
  2. もし報酬関数Rを知らないとしたら?
  3. 世界の遷移モデルPを知らないとしたら?
  4. 解くために必要なものがないので
    マルコフ決定過程を解けません
  5. しかしながら強化学習で
  6. 世界に作用することでRとPを学習できることや
    知っている限り代用できることを学んだので
  7. 実際にRとPを計算する必要はありません
  8. 学ぶ内容は既に知っている事や
    やりたいことによります
  9. ですので選択肢があります
  10. 1つ目の選択は
    効用ベースエージェントを作ることです
  11. 私たちが知っている事や学んだ事
  12. 一度学んで利用した事に基づいて
    エージェントのタイプをリスト化します
  13. 効用ベースエージェントに関して
    遷移モデルPを既に知っていて
  14. 報酬モデルRを知らなくても
    Rを学習して利用できます
  15. Pと共に効用関数を勉強して
    効用関数を使います
  16. 普通のマルコフ決定過程と同じで
    1つのエージェントデザインです
  17. このレッスンで見る次のデザインは
    Q学習エージェントといいます
  18. この中でPかRを知る必要はありません
  19. Qによって与えられる価値関数を学びます
  20. それが効用の種類です
  21. 状態を通した効用であればそれは状態と
    行動の組み合わせで次の事を教えてくれます
  22. 与えられた状態と行動に関して
  23. 効用と報酬それぞれを知らない
    結果の効用とは何でしょうか?
  24. 直接Qを利用できます
  25. 実際に遷移モデルPを
    Q学習エージェントで学ぶ必要はありません
  26. 最後に反射エージェントです
  27. これもPとRを知る必要はありません
  28. 直接ポリシーであるΠ(S)を勉強して
  29. それを応用していきます
  30. それを反射エージェントといいます
    単純な刺激反応だからです
  31. ある状態である行動を取ったとします
  32. 世界をモデル化することについて
    考える必要はありません
  33. 何が遷移で次にどこに行くでしょう?
  34. ただ行動して進むだけです