1
2
否,值函数
在不确定/随机情况下,概率之和将乘以状态值,但这仍然与任何策略无关。总和仅对不同的未来可能状态求和,但每次乘法都涉及完全相同的(独立于策略的)操作
也确实存在政策的价值函数,当谈到政策的符号时,应该包括在内。但这通常是
不
什么是“价值函数”,以及
与你给我们展示的方程式不匹配
. 依赖策略的功能将取代
|
2
2
是的,你的假设完全正确。在强化学习领域 值函数 是从特定状态开始并遵循策略获得的回报。所以,是的,严格地说,它应该与政策标志相伴随。 Bellman方程基本上是递归地表示值函数。然而,应注意,有两种Bellman方程:
在您的情况下,方程式2.6基于Bellman方程式,因此应删除
|