代码之家  ›  专栏  ›  技术社区  ›  GPrathap

奖励是如何融入学习过程的?

  •  0
  • GPrathap  · 技术社区  · 3 年前

    我有一个环境,在这个环境中,我试图使用 baseline3 图书馆。由于我的例子很大,我使用以下例子来澄清我的问题。

    问题

    1. 在学习过程中,环境重构实际上融入了哪些方面?

    2. 奖励有上限和下限吗?

    我的代码:

    from stable_baselines.common.policies import MlpPolicy
    from stable_baselines.common.vec_env import DummyVecEnv
    from stable_baselines import PPO2
    
    env = gym.make('CartPole-v1')
       
    
    model = PPO2(MlpPolicy, env, verbose=1)
    model.learn(total_timesteps=10000)
    
    obs = env.reset()
    for i in range(1000):
        action, _states = model.predict(obs)
        obs, rewards, dones, info = env.step(action)
        env.render()
    

    我还没有找到任何关于这方面的信息。

    0 回复  |  直到 3 年前