The answer is according to the policy the agent would prefer to follow this straight line,
because it is the most direct, and it is the longer goal.
Now, at any point he might slip off to one of these squares.
Those would all potentially be explored,
but if he did he would go back down onto the road.
Likewise, he might fall off onto any of of these squares,
but if he did, he would also go back towards the road.
That's certainly true under this situation, when he's off road,
but it also turns out to be true here and here,
because the closest way to get to the goal would be to go in the north direction.
Therefore, these three rows could all potentially be explored,
but the bottom two rows would never be explored under any conditions
no matter what happens stochastically as long as the agent is following this fixed policy.
ポリシーに従うとエージェントは
この直線の道を選ぶでしょう
ゴールに直接向かっているからです
しかしこの上のマスのどこかに
外れる可能性もあります
これらはすべて探索可能ですが
そこを探索すれば元の道に戻ります
同じようにこの道の下のマスに
外れるかもしれません
その場合も同じように元の道に戻ってくるでしょう
道を外れた時このマスの状況は確かに真ですが
しかしこことここも真になるのです
なぜならゴールへの近道が
北に向かっているからです
従ってこの3列はすべて探索可能になります
しかしエージェントが
この固定されたポリシーに従っている限り
確率論的に何があろうとどんな状況でも
下の2列は探索可能にはなりません