代码之家  ›  专栏  ›  技术社区  ›  Beginner

如何在训练后找到“人形-v2”特工行进的距离?

  •  0
  • Beginner  · 技术社区  · 6 年前

    我训练过“人形-v2”( https://github.com/openai/gym/wiki/Humanoid-V1 走路。在训练期间奖励会增加。但是,我还需要一个性能矩阵来告诉我 探员走了多远?

    这个探员有376个观察结果( https://github.com/openai/gym/wiki/humanoid-v1 ) 哪个值对应于代理的xml文件第27行中提到的位置x、y、z : https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27 ?

    谢谢

    1 回复  |  直到 6 年前
        1
  •  1
  •   zishan ahmed    6 年前
    • 设初始位置为(x1,y1,z1),步进后的位置为(x2,y2,z2)
    • 特工一步走的距离如下:

    dist=tf.加(tf.平方差(x2,x1),tf.平方差(y2,y1),tf.平方差 (Z2,Z1)

    • 把记忆中的距离加起来,直到故事结束