keras_rl: Как использовать агент DQN с action_space, отличным от Discrete(2)

Я пытаюсь обучить DQNAgent с помощью типа action_space gym.spaces.Box(4). Но внутри функции соответствия возвращаемое действие всегда равно o или 1. Это приводит к сбою шага func в моем env.

Как я могу использовать его для своих целей?