1
0
首先是关于伪代码的简要说明:我不认为这会起作用,因为您不会模拟不同操作对系统的影响 副本 游戏状态,但只是对游戏状态直接。您可能希望先创建游戏状态的单独副本,然后在不同的副本上运行每个操作一次。
无论如何,这种算法通常被认为在强化学习环境下是不可能的。在RL中,我们通常在没有“模拟器”或“前向模型”之类的假设下操作。我们通常假设我们有一个处于真实环境中的代理,在这个环境中我们可以产生可以用来学习的经验。在这种假设下,我们不能实施这种做法
当然,在实践中这样做通常是可能的,因为我们通常有一个模拟器(例如机器人模拟器或游戏等)。在RL中的大多数研究仍然假设我们没有这样的模拟器,因为这导致算法最终可能在“真实世界”的情况下可用(例如,真实世界的物理机器人)。实现你上面描述的想法实际上意味着你正在朝着 搜索算法
即使你包含了一个类似搜索的过程,循环所有的动作并模拟它们的所有效果,但我怀疑如果你想收敛到好的策略,你仍然需要进行某种形式的探索,所以有时你必须采取不贪婪的行动。是的,看起来这会导致你的算法收敛到不同于传统的“最优策略”的解释。如果你的epsilon很低的话,这并不是一个太大的问题。在实践中,这将可能是一个稍微“安全”的政策,是学习。另请参见 my answer to this other question . 论政策 算法而不是 关闭策略 算法(标准Q-学习是关闭策略,因为它学习贪婪策略,同时通过非贪婪策略生成经验)。我在上面提到的大多数问题的答案也详细讨论了这一区别。 |
Asmaa ALrubia · 强化学习-贪婪方法与最优行动 6 年前 |
sachinruk · 深度Q学习是如何工作的 7 年前 |
Adam Dohnal · 电网世界的状态表示 7 年前 |
zimmerrol · Sarsa结合神经网络求解山地车任务 7 年前 |
Fardin K. · Q-Learning值过高 8 年前 |