Количество временных шагов в одной итерации обучения RLlib

Я новичок в обучении с подкреплением и работаю над RL настраиваемой среды в тренажерном зале OpenAI с RLlib. Когда я создаю настраиваемую среду, нужно ли мне указывать количество серий в__init__()метод? ТАКЖЕ, когда я тренирую агента с

for _ in range(10):
     trainer.train()

сколько временных шагов делается за одну итерацию? равно ли оно количеству серий, определенному в пользовательской среде? Спасибо.

2 ответа

Я думаю, что вам нужно установить для максимального количества шагов в одном эпизоде ​​гиперпараметр "горизонт".

Я обнаружил с Рэем, что эпизоды завершаются только тогда, когда в вашей среде установлено "done/_terminated". При работе в других фреймворках у алгоритмов часто был гиперпараметр для num_steps и т. Д. Я обнаружил это, потому что, если мой агент застрял, он просто сидел там вечно, поэтому мне нужно было добавить проверку максимального времени шагов в самой среде.

Однако количество серий устанавливается вне среды.

Другие вопросы по тегам