Зачем помощнику по оценке Stable Baselines среда?
При создании модели в Stable Baselines требуется среда. например
env = gym.make('CartPole-v1')
model = PPO2(MlpPolicy, env)
Помощнику оценки также необходимо указать среду. т.е.
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100)
Какова цель среды, указанной в помощнике оценки, если она уже указана в модели? Среда - это обязательный параметр как при создании, так и при оценке модели.
Спасибо
1 ответ
Я думаю, что это позволяет проводить оценку в других средах, а не в той, которая использовалась для обучения модели.