Зачем помощнику по оценке Stable Baselines среда?

При создании модели в Stable Baselines требуется среда. например

env = gym.make('CartPole-v1')
model = PPO2(MlpPolicy, env)

Помощнику оценки также необходимо указать среду. т.е.

mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100)

Какова цель среды, указанной в помощнике оценки, если она уже указана в модели? Среда - это обязательный параметр как при создании, так и при оценке модели.

Спасибо

1 ответ

Я думаю, что это позволяет проводить оценку в других средах, а не в той, которая использовалась для обучения модели.

Другие вопросы по тегам