Потеря периодического обучения Deep Q

Я пытаюсь обучить Double-DQN (с буфером воспроизведения опыта) на своей собственной проблеме, но сталкиваюсь с проблемой "периодических потерь".

Когда убыток увеличивается, награда также увеличивается, но через некоторое время убыток уменьшается, и награда также уменьшается и так далее и тому подобное. Я использую оптимизатор RMSprop (rho=0.9).

Я уже пытался снизить скорость обучения, но безуспешно.

Есть ли у кого-нибудь советы или предложения по возможным причинам этого явления?

Спасибо за вашу помощь!

Награда и проигрыш в сравнении с номером серии

0 ответов

Другие вопросы по тегам