This question involves function generalization in reinforcement learning,
and we're operating in a 1-dimensional environment of squares,
and we're going to consider a state generalization function,
that is a function that takes a state such as this and condenses it into some features
to represent that state.
The first function we're going to consider F has these features--
f1 is the distance from the Agent represented by A to the goal represented by G,
and f2--the distance from the Agent to the closest Bad guy
which is represented by a B.
So that's the function F, and we also want to consider the function G
which has the same 2 features--f1 and f2--and adds a third feature
which is the distance of the closest Bad guy to the goal.
That is distance from the goal to the Bad guy--the minimum of that over
all possible Bad guys,
and now I want you to say which of the states below--these 3 states--
have the same value as the state above--this state--under the functions F and G.
And click off the ones that have the same, and then I want you to answer for me--
In this world, agents and Bad guys can move one Square at a time,
and the agent tries to get to the goal without encountering Bad guys,
and for the agent to do that, which is a more useful generalization function
to use over these states--F or G?
次は強化学習内の汎化能力に関係する問題です
一次元の環境で実行し
状態を汎化能力として考えてみます
つまりこのような状態をとる機能であり
その状態を表す特徴をまとめます
まずこの特徴を持つ能力Fについて考えます
f1はAで表すエージェントから
Gで表すゴールまでの距離で
f2はエージェントからBで表す
最も近くの悪者までの距離です
これが能力Fです
同じように能力Gを見てみると
こちらにもf1とf2の2つの特徴があり
さらに3つ目の特徴である
最も近くにいる悪者から
ゴールまでの距離を追加します
これはゴールから悪者までの距離を表し
すべての可能な悪者までの最短距離です
さてこちらにある3つの状態の中で
この能力FとGがある場合
どれがこの上の状態と同じ値になるでしょう?
同じ値になるものを選んで回答してください
この世界ではエージェントや悪者は
1回に1マス動くことができます
エージェントが悪者に遭遇せず
ゴールを目指す場合
この状態を利用した有効な汎用能力は
FとGのどちらでしょう?