代码之家 › 专栏 › 技术社区 › GPrathap

奖励是如何融入学习过程的?

stable-baselines reinforcement-learning pytorch deep-learning

GPrathap · 技术社区 · 3 年前

我有一个环境,在这个环境中,我试图使用 baseline3 图书馆。由于我的例子很大,我使用以下例子来澄清我的问题。

问题

在学习过程中,环境重构实际上融入了哪些方面?
奖励有上限和下限吗?

我的代码:

from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2

env = gym.make('CartPole-v1')
   

model = PPO2(MlpPolicy, env, verbose=1)
model.learn(total_timesteps=10000)

obs = env.reset()
for i in range(1000):
    action, _states = model.predict(obs)
    obs, rewards, dones, info = env.step(action)
    env.render()

我还没有找到任何关于这方面的信息。

0 回复 | 直到 3 年前

推荐文章

Ze0ruso · 做模型。eval()在代码中的位置有什么关系?

2 年前

rkraaijveld · sklearn的Coef。线性回归为无

2 年前

Ellis Thompson · 填充一个numpym数组以满足所需的大小

2 年前

Adam · 如何在多个模型上并行运行PyTorch推理?

2 年前

quinlan · 是dgl。nn。皮托克。GraphConv聚合边缘信息?

2 年前

Ofek Nourian · 完全连通的简单自回归模型预测

2 年前

MrThiele1708 · 运行时错误:mat1和mat2形状不能相乘(5400x64和5400x64)

2 年前

Moodhi · 计算GEC的F分数

2 年前

john wang · matlab使用可调用的python函数,但需要输入

2 年前

odbhut.shei.chhele · 如何解决错误:RuntimeError:收到0项ancdata

2 年前