При использовании MlpLnLstmPolicy в стабильных базовых показателях спросите о настраиваемых действиях в прогнозировании

Я успешно обучаю модель с помощью MlpLnLstmPolicy. и я также предсказываю, используя модель. Я хочу выполнить действие custum на определенном шаге, возможно ли это в lstm?

Как в коде ниже

def predict():
    env = make_vec_env(HarmonyEnv, n_envs=8*4*2)
    model = PPO2.load('best_model.pkl', env=env)
    observation = env.reset()
    done = [False]
    action = None
    reward = None
    info = None

    reasons = []
    state = None
    step = 0
    while not np.all(done):
        if step == 10:
            action = 1
        else :
            action, state = model.predict(observation, state=state)
        observation, r, done, info = env.step(action)
        reasons.append(info)
        reward =+ r

0 ответов

Другие вопросы по тегам