DQN вообще не обучается с Breakout-ram-v0?

Я пытаюсь обучить двойной DQN с буфером ответа в версии OpenAI Breakout Ram (пробовал как Breakout-ram-v0, так и Breakout-ram-v4). Код здесь (tf 2.0).

Я перепробовал так много настроек параметров вместе со многими другими деталями. Оборудование ограничено, поэтому я тренировался на моем MacBook Pro только для 200 эпизодов и около ~4 тыс. Шагов. (Хотя это не должно быть проблемой) Общая награда в каждой игре по-прежнему составляет от 0 до 5.

Если бы кто-нибудь мог дать мне какие-либо предложения / советы, я был бы очень признателен!!! Сейчас очень запутался. Спасибо!

0 ответов

Другие вопросы по тегам