代码之家  ›  专栏  ›  技术社区  ›  Søren Koch

有政策的状态值和状态行动值-有政策的Bellman方程

  •  3
  • Søren Koch  · 技术社区  · 6 年前

    我刚刚开始深入强化学习,我正试图打破这个概念。

    我有一个确定的bellman方程

    deterministic bellman equation

    当我从MDP实现随机性时,我得到2.6a

    Implement MDP in deterministic bellman

    我的公式是这个假设是正确的。我看到这个实现2.6a在状态值函数上没有策略标志。但对我来说,这是没有意义的,因为我使用的是我可能会进入的不同后续步骤的概率。我想这和说政策是一样的。如果2.6a是正确的,那么我可以假设其余的(2.6b和2.6c),因为我想这样写动作状态函数:

    State action function with policy

    我之所以这样做,是因为我想从确定性的角度到非确定性的角度来解释自己。

    我希望有人能帮上忙!

    向Sren Koch致意

    2 回复  |  直到 6 年前
        1
  •  2
  •   Dennis Soemers    6 年前

    否,值函数 V(s_t) 不依赖于策略。你可以在方程中看到,它是用一个动作来定义的 a_t 使数量最大化,因此它不是根据任何策略所选择的操作来定义的。

    在不确定/随机情况下,概率之和将乘以状态值,但这仍然与任何策略无关。总和仅对不同的未来可能状态求和,但每次乘法都涉及完全相同的(独立于策略的)操作 a\u t . 拥有这些概率的唯一原因是,在不确定的情况下,特定状态下的特定操作可能导致多个不同的可能状态之一。这不是由于政策,而是由于环境本身的随机性。


    也确实存在政策的价值函数,当谈到政策的符号时,应该包括在内。但这通常是 什么是“价值函数”,以及 与你给我们展示的方程式不匹配 . 依赖策略的功能将取代 max_{a_t} 对所有动作求和 a ,在总和内为概率 pi(s_t, a) 本政策的 pi 选择操作 处于状态 s_t .

        2
  •  2
  •   Pablo EM    6 年前

    是的,你的假设完全正确。在强化学习领域 值函数 是从特定状态开始并遵循策略获得的回报。所以,是的,严格地说,它应该与政策标志相伴随。

    Bellman方程基本上是递归地表示值函数。然而,应注意,有两种Bellman方程:

    • Bellman最优性方程 ,它表征了最优值函数。在这种情况下,值函数it与最优策略隐式关联。该方程具有非线性 max 运算符,是您发布的。(最佳)策略依赖性有时用星号表示,如下所示: enter image description here 也许一些短文或论文忽略了这种依赖性,假设它很明显,但我认为任何RL教科书最初都应该包含它。例如,参见, Sutton & Barto Busoniu et al . 书

    • 贝尔曼方程 ,表示值函数的特征,在这种情况下,与任何策略相关: enter image description here

    在您的情况下,方程式2.6基于Bellman方程式,因此应删除 最大值 运算符,并包括所有操作和可能的后续状态的总和。从…起 萨顿和;巴尔托 (很抱歉,您的问题中出现了符号变化,但我认为这是可以理解的): enter image description here