Количество временных шагов в одной итерации обучения RLlib

Question

Количество временных шагов в одной итерации обучения RLlib

Я новичок в обучении с подкреплением и работаю над RL настраиваемой среды в тренажерном зале OpenAI с RLlib. Когда я создаю настраиваемую среду, нужно ли мне указывать количество серий в__init__()метод? ТАКЖЕ, когда я тренирую агента с

for _ in range(10):
     trainer.train()

сколько временных шагов делается за одну итерацию? равно ли оно количеству серий, определенному в пользовательской среде? Спасибо.

5

python reinforcement-learning ray rllib

Источник

user3443033 04 июн '20 в 03:29

2 ответа

Другие вопросы по тегам python reinforcement-learning ray rllib

user9783253 02 июл '21 в 00:25 2021-07-02 00:25 · Answer 1 · 2021-07-02 00:25

Я думаю, что вам нужно установить для максимального количества шагов в одном эпизоде гиперпараметр "горизонт".

1

Источник

user9783253 02 июл '21 в 00:25

user188587 26 июл '20 в 11:10 2020-07-26 11:10 · Answer 2 · 2020-07-26 11:10

Я обнаружил с Рэем, что эпизоды завершаются только тогда, когда в вашей среде установлено "done/_terminated". При работе в других фреймворках у алгоритмов часто был гиперпараметр для num_steps и т. Д. Я обнаружил это, потому что, если мой агент застрял, он просто сидел там вечно, поэтому мне нужно было добавить проверку максимального времени шагов в самой среде.

Однако количество серий устанавливается вне среды.