我正试图创建一个自定义的环境,以加强与OpenAI健身房的学习。我需要表示环境将在一个名为
observation_space
. 代理有3个可能的操作可供调用
action_space
更具体地说
观察空间
是一个温度传感器,可以看到50到150度的可能范围,我认为我可以通过以下方式表示所有这些:
编辑,我把操作空间numpy数组搞错了
import numpy as np
action_space = np.array([ 0, 1, 2])
observation_space = np.arange(50,150,1)
有没有更好的方法
观察空间
我可以把数据放在哪里?也就是说,把20个箱子做成50-55、55-60、60-65等。
我想我有的东西会有用,但看起来有点麻烦…我相信有一个更好的实践,因为我在这个问题上没有太多的智慧。这将打印出一个Q表:
action_size = action_space.shape[0]
state_size = observation_space.shape[0]
qtable = np.zeros((state_size, action_size))
print(qtable)