Двойной DQN для продолжения онлайн-задач [закрыто]
У меня вопрос из двух частей:
Можно ли использовать Double DQN для непрерывной онлайн-задачи с точки зрения времени, необходимого для уверенности в правильных решениях (я знаю, что это связано с частотой обновлений и отказоустойчивостью приложения), но есть ли способ оценить этот раз?
Абсолютный максимум моего вознаграждения изменяется в зависимости от зоны, в которой находится дрон, это влияет на общую производительность, поскольку я пытался использовать стратегию среднего вознаграждения перед переходом в DDQN, это вызывает нестабильность, так как среднее вознаграждение обновляется через некоторое время. Какие-либо предложения?