Return to Video

09-30 Value Iterations And Policy 1

  • 0:00 - 0:03
    価値のバックアップ式について詳細に見てきました
  • 0:03 - 0:07
    次の問題は“最適なポリシーは何か”です
  • 0:07 - 0:12
    価値バックアップ式が
    どの行為を選ぶかを示すことで
  • 0:12 - 0:14
    最適なポリシーを定めます
  • 0:14 - 0:18
    最適なポリシーとは
    式のこの部分を最大化する行為です
  • 0:18 - 0:22
    任意の状態sと任意の価値関数Vに対し
  • 0:22 - 0:24
    ポリシーを定義できます
  • 0:24 - 0:31
    それは式のこの部分を最大化する行為を
    argmaxで取ってきたものです
  • 0:31 - 0:35
    最大化において
    報酬とγは影響しないので取り除けます
  • 0:35 - 0:41
    価直反復の更新式で既に最適な行為を取ったので
  • 0:41 - 0:43
    それを明示的に書きました
  • 0:43 - 0:48
    これにより価値を伝播し価値を求めれば
  • 0:48 - 0:51
    最適なポリシーを見つける手段になります
Title:
09-30 Value Iterations And Policy 1
Description:

Unit 9 30 Value Iterations and Policy 1

more » « less
Team:
Udacity
Project:
CS271 - Intro to Artificial Intelligence
Duration:
0:51

Japanese subtitles

Revisions