При использовании MlpLnLstmPolicy в стабильных базовых показателях спросите о настраиваемых действиях в прогнозировании
Я успешно обучаю модель с помощью MlpLnLstmPolicy. и я также предсказываю, используя модель. Я хочу выполнить действие custum на определенном шаге, возможно ли это в lstm?
Как в коде ниже
def predict():
env = make_vec_env(HarmonyEnv, n_envs=8*4*2)
model = PPO2.load('best_model.pkl', env=env)
observation = env.reset()
done = [False]
action = None
reward = None
info = None
reasons = []
state = None
step = 0
while not np.all(done):
if step == 10:
action = 1
else :
action, state = model.predict(observation, state=state)
observation, r, done, info = env.step(action)
reasons.append(info)
reward =+ r