DQN вообще не обучается с Breakout-ram-v0?
Я пытаюсь обучить двойной DQN с буфером ответа в версии OpenAI Breakout Ram (пробовал как Breakout-ram-v0, так и Breakout-ram-v4). Код здесь (tf 2.0).
Я перепробовал так много настроек параметров вместе со многими другими деталями. Оборудование ограничено, поэтому я тренировался на моем MacBook Pro только для 200 эпизодов и около ~4 тыс. Шагов. (Хотя это не должно быть проблемой) Общая награда в каждой игре по-прежнему составляет от 0 до 5.
Если бы кто-нибудь мог дать мне какие-либо предложения / советы, я был бы очень признателен!!! Сейчас очень запутался. Спасибо!