代码之家 › 专栏 › 技术社区 › zimmerrol

Sarsa结合神经网络求解山地车任务

sarsa reinforcement-learning

zimmerrol · 技术社区 · 7 年前

Mountain Car Task q neural network this 密码但遗憾的是,我的经纪人并没有真正学会解决这项任务。在某些情况下,可以很快找到解决方案(100-200步),但有时代理需要超过30k步。我认为,我在实现中犯了一些基本错误,但我自己找不到。有人能帮我,并指出我实施中的错误/错误吗?

1 回复 | 直到 7 年前

zimmerrol 7 年前

我通过改变网络结构来解决这个问题:而不是使用 (state, action) Q-value 当然,我改变了 DQN 它:我预测 value

推荐文章

Asmaa ALrubia · 强化学习-贪婪方法与最优行动

6 年前

Rokas98765 · OpenAI将自定义游戏集成到健身房环境中[关闭]

6 年前

Søren Koch · 有政策的状态值和状态行动值-有政策的Bellman方程

7 年前

erlengzi · 使用DQN时epsilon贪婪策略中的退火epsilon

7 年前

sachinruk · 深度Q学习是如何工作的

7 年前

Adam Dohnal · 电网世界的状态表示

7 年前

uruz7_arx8 · 为什么keras rl示例总是在输出层选择线性激活?

7 年前

zimmerrol · Sarsa结合神经网络求解山地车任务

7 年前

Matheus Mendonça · 使用Tensorflow无法获得具有LSTM层的A3C

7 年前

Fardin K. · Q-Learning值过高

8 年前