Количество временных шагов в одной итерации обучения RLlib
Я новичок в обучении с подкреплением и работаю над RL настраиваемой среды в тренажерном зале OpenAI с RLlib. Когда я создаю настраиваемую среду, нужно ли мне указывать количество серий в__init__()
метод? ТАКЖЕ, когда я тренирую агента с
for _ in range(10):
trainer.train()
сколько временных шагов делается за одну итерацию? равно ли оно количеству серий, определенному в пользовательской среде? Спасибо.
2 ответа
Я думаю, что вам нужно установить для максимального количества шагов в одном эпизоде гиперпараметр "горизонт".
Я обнаружил с Рэем, что эпизоды завершаются только тогда, когда в вашей среде установлено "done/_terminated". При работе в других фреймворках у алгоритмов часто был гиперпараметр для num_steps и т. Д. Я обнаружил это, потому что, если мой агент застрял, он просто сидел там вечно, поэтому мне нужно было добавить проверку максимального времени шагов в самой среде.
Однако количество серий устанавливается вне среды.