Потеря периодического обучения Deep Q
Я пытаюсь обучить Double-DQN (с буфером воспроизведения опыта) на своей собственной проблеме, но сталкиваюсь с проблемой "периодических потерь".
Когда убыток увеличивается, награда также увеличивается, но через некоторое время убыток уменьшается, и награда также уменьшается и так далее и тому подобное. Я использую оптимизатор RMSprop (rho=0.9).
Я уже пытался снизить скорость обучения, но безуспешно.
Есть ли у кого-нибудь советы или предложения по возможным причинам этого явления?
Спасибо за вашу помощь!