Нестабильные прогнозы DQN

Question

Нестабильные прогнозы DQN

Я реализовал DQN с нуля на java, все сделано на заказ. Я сделал это для игры в змейку, и результаты действительно хорошие. Но у меня проблема.

Чтобы сделать сеть максимально стабильной, я использую replay memory а также target network. Сеть действительно хорошо сходится. Но через какое-то время просто ломается.

Это график (X - сыгранные матчи, Y - среднее количество набранных очков)

Этот "перерыв" обычно случается в нескольких играх после обновления. target сеть с policy сеть.

Настройки, которые я использую для DQN:

 discount factor: 0.9
 learning rate: 0.001
 steps to update target network: 300 000 (means every 300k steps i update target network with policy)
 replay memory size: 300 000
 replay memory batch size: 256 (every step i take 256 samples from replay memory and train network)

Есть идеи, что может быть не так? Спасибо за ответы.

0

deep-learning neural-network reinforcement-learning q-learning dqn

Источник

user9612885 08 мар '20 в 13:26

1 ответ

Другие вопросы по тегам deep-learning neural-network reinforcement-learning q-learning dqn

user15377880 11 мар '21 в 18:40 2021-03-11 18:40 · Answer 1 · 2021-03-11 18:40

Найдите "катастрофическое забывание"

Попробуйте настроить размер памяти воспроизведения и количество шагов для обновления целевой сети.

0

Источник

user15377880 11 мар '21 в 18:40