RLlib изменяет форму наблюдения, добавляя [None] к кортежу формы
RLlib (версия 0.7.3) поставляется с формой наблюдения Box(10, 3), которую я хотел использовать с агентом FCN. Но библиотека, кажется, добавляет к этому еще одно измерение. Из-за этого дополнения RLlib пытается использовать для агента сеть технического зрения.
Как я могу использовать это с агентом FCN.
В строке 108 файла ray/rllib/policy/dynamic_tf_policy.py.
if existing_inputs is not None:
obs = existing_inputs[SampleBatch.CUR_OBS]
if self._obs_include_prev_action_reward:
prev_actions = existing_inputs[SampleBatch.PREV_ACTIONS]
prev_rewards = existing_inputs[SampleBatch.PREV_REWARDS]
else:
obs = tf.placeholder(
tf.float32,
shape=[None] + list(obs_space.shape), # <----------------
name="observation")
if self._obs_include_prev_action_reward:
prev_actions = ModelCatalog.get_action_placeholder(
action_space)
prev_rewards = tf.placeholder(
tf.float32, [None], name="prev_reward")
self.input_dict = {
SampleBatch.CUR_OBS: obs,
SampleBatch.PREV_ACTIONS: prev_actions,
SampleBatch.PREV_REWARDS: prev_rewards,
"is_training": self._get_is_training_placeholder(),
}