Japanese subtitles

← 10-02 Successes

Unit 10 2 Successes.mp4

Get Embed Code
3 Languages

Showing Revision 1 created 12/03/2014 by K2480.

  1. 例えば4×3のグリッドワールドで
  2. 出発時に+1と-1の報酬がある場所を
    知らなかったとしたら?
  3. 強化学習のエージェントは領域を探索して学び
  4. どこに報酬があるかを見つけて
    最適ポリシーを学びます
  5. 一方MDP解法は報酬の場所を
    正確に知っているだけでいいのです
  6. この+1と-1を動き回って見つける考えは
  7. バックギャモンのような
    多くのゲームの形と似ています
  8. バックギャモンは確率的なゲームで
  9. 最後は勝つか負けるかです
  10. 1990年代にIBMでゲイリー・テザウロが
  11. バックギャモンで遊ぶプログラムを書きました
  12. 彼の最初の試みはバックギャモンが得意な
    プレーヤーがラベル付けした例を使って
  13. ゲームの状態の効用を学ぶことでした
  14. しかし上級のプレーヤーには面白みがないので
    小さい数字の状態だけをラベル付けしました
  15. プログラムは教師あり学習を使い
    一般化しようするので
  16. うまくいきませんでした
  17. そこで彼は二度目の試みで
    プレーヤーや人間や学習を使わずに
  18. プログラムのコピーに対戦させました
  19. ゲームの最後に勝者は正報酬を手にしました
  20. 敗者は負の報酬です
  21. そして彼は強化学習を利用しました
  22. ゲームの状態すべての知識の記録を取り
    人間からの入力がないにも関わらず
  23. 世界で一番のプレーヤーと
  24. 同じ水準のプレイをすることができる
    機能までたどりつきました
  25. 約20万のゲーム例から
    学んだあとに実行できたのです
  26. 数が多く見えるかもしれませんが
  27. 実際はバックギャモンのすべての状態空間の
  28. 約1兆分の1をカバーしているだけです
  29. さて他の例です
  30. これはリモートコントロールのヘリコプターです
  31. スタンフォード大学のイング教授が
    強化学習を使い訓練しました
  32. このヘリコプターは…失礼しました
  33. 間違えました この絵を逆さまにしましょう
  34. イング教授はヘリコプターを
    高度な方法で飛ばせるよう訓練しました
  35. 例えば逆さまでの飛行です
  36. 彼はプロの操縦士の訓練データを数時間だけ見て
  37. この逆さまでの飛行を成功させたのです
  38. 操縦士が操縦かんを次々に引き継いで
    ヘリを操縦しそれをすべて記録します
  39. いい事をした時や悪い事をした時は
    見返りがあります
  40. イング教授は自動操縦のパイロットを作るため
  41. この訓練データから強化学習を利用しました
  42. そして自動操縦のパイロットも
  43. 一握りの人間しかできないトリックを使えます
  44. 静止画は十分ですね 動画でイング教授の
    ヘリコプターを見ましょう
  45. スタンフォード大学
    自動操縦ヘリコプター