1
0
在强化学习中,没有正确的状态表示。但存在错误的国家陈述。至少,也就是说,Q学习和其他RL技术对状态表示做出了一定的假设。 假设这些状态是 马尔可夫决策过程 . MDP是一种在当前状态下“预测”(即使是以概率方式)所需知道的一切都可用的程序。也就是说,代理必须不需要记忆过去的状态来做出决定。 现实生活中很少有马尔可夫决策过程。但很多时候,你会发现一些相近的东西,经验证明这对于RL算法来说已经足够了。 “状态设计器” 您希望创建一个状态,使您的任务尽可能接近MDP。在您的具体情况下,如果您有 距离作为你的状态,几乎没有信息可以预测下一个状态 因为它描述了任务的整个状态,而没有透露任务的实际目标。它也很好地映射到卷积网络。 距离方法可能会更快地收敛,但我认为这有点像作弊,因为你实际上告诉了代理它需要寻找什么。在更复杂的情况下,这几乎是不可能的。 |
2
0
最后一个建议是将状态表示为函数近似器(尤其是神经网络)的输入的最通用方法。通过该表示法,还可以添加更多尺寸,表示不可访问的块,甚至 其他代理人 . 因此,您可以推广表示,并将其应用于其他RL域。您还将有机会尝试更大网格的卷积神经网络。 |
Asmaa ALrubia · 强化学习-贪婪方法与最优行动 6 年前 |
sachinruk · 深度Q学习是如何工作的 7 年前 |
Adam Dohnal · 电网世界的状态表示 7 年前 |
zimmerrol · Sarsa结合神经网络求解山地车任务 7 年前 |
Fardin K. · Q-Learning值过高 8 年前 |