Return to Video

10-02 Successes

  • 0:00 - 0:03
    例えば4×3のグリッドワールドで
  • 0:03 - 0:08
    出発時に+1と-1の報酬がある場所を
    知らなかったとしたら?
  • 0:08 - 0:13
    強化学習のエージェントは領域を探索して学び
  • 0:13 - 0:17
    どこに報酬があるかを見つけて
    最適ポリシーを学びます
  • 0:17 - 0:22
    一方MDP解法は報酬の場所を
    正確に知っているだけでいいのです
  • 0:22 - 0:27
    この+1と-1を動き回って見つける考えは
  • 0:27 - 0:32
    バックギャモンのような
    多くのゲームの形と似ています
  • 0:32 - 0:35
    バックギャモンは確率的なゲームで
  • 0:35 - 0:38
    最後は勝つか負けるかです
  • 0:38 - 0:40
    1990年代にIBMでゲイリー・テザウロが
  • 0:40 - 0:43
    バックギャモンで遊ぶプログラムを書きました
  • 0:43 - 0:49
    彼の最初の試みはバックギャモンが得意な
    プレーヤーがラベル付けした例を使って
  • 0:49 - 0:53
    ゲームの状態の効用を学ぶことでした
  • 0:53 - 0:58
    しかし上級のプレーヤーには面白みがないので
    小さい数字の状態だけをラベル付けしました
  • 0:58 - 1:02
    プログラムは教師あり学習を使い
    一般化しようするので
  • 1:02 - 1:04
    うまくいきませんでした
  • 1:04 - 1:11
    そこで彼は二度目の試みで
    プレーヤーや人間や学習を使わずに
  • 1:11 - 1:14
    プログラムのコピーに対戦させました
  • 1:14 - 1:18
    ゲームの最後に勝者は正報酬を手にしました
  • 1:18 - 1:20
    敗者は負の報酬です
  • 1:20 - 1:22
    そして彼は強化学習を利用しました
  • 1:22 - 1:27
    ゲームの状態すべての知識の記録を取り
    人間からの入力がないにも関わらず
  • 1:27 - 1:30
    世界で一番のプレーヤーと
  • 1:30 - 1:35
    同じ水準のプレイをすることができる
    機能までたどりつきました
  • 1:35 - 1:41
    約20万のゲーム例から
    学んだあとに実行できたのです
  • 1:41 - 1:43
    数が多く見えるかもしれませんが
  • 1:43 - 1:46
    実際はバックギャモンのすべての状態空間の
  • 1:46 - 1:49
    約1兆分の1をカバーしているだけです
  • 1:49 - 1:51
    さて他の例です
  • 1:51 - 1:54
    これはリモートコントロールのヘリコプターです
  • 1:54 - 1:58
    スタンフォード大学のイング教授が
    強化学習を使い訓練しました
  • 1:58 - 2:00
    このヘリコプターは…失礼しました
  • 2:00 - 2:04
    間違えました この絵を逆さまにしましょう
  • 2:04 - 2:08
    イング教授はヘリコプターを
    高度な方法で飛ばせるよう訓練しました
  • 2:08 - 2:11
    例えば逆さまでの飛行です
  • 2:11 - 2:15
    彼はプロの操縦士の訓練データを数時間だけ見て
  • 2:15 - 2:18
    この逆さまでの飛行を成功させたのです
  • 2:18 - 2:23
    操縦士が操縦かんを次々に引き継いで
    ヘリを操縦しそれをすべて記録します
  • 2:23 - 2:29
    いい事をした時や悪い事をした時は
    見返りがあります
  • 2:29 - 2:32
    イング教授は自動操縦のパイロットを作るため
  • 2:32 - 2:36
    この訓練データから強化学習を利用しました
  • 2:36 - 2:39
    そして自動操縦のパイロットも
  • 2:39 - 2:43
    一握りの人間しかできないトリックを使えます
  • 2:43 - 2:49
    静止画は十分ですね 動画でイング教授の
    ヘリコプターを見ましょう
  • 2:49 - 2:52
    スタンフォード大学
    自動操縦ヘリコプター
Title:
10-02 Successes
Description:

Unit 10 2 Successes.mp4

more » « less
Team:
Udacity
Project:
CS271 - Intro to Artificial Intelligence
Duration:
03:11

Japanese subtitles

Revisions