Двойной DQN для продолжения онлайн-задач [закрыто]

Question

У меня вопрос из двух частей:

Можно ли использовать Double DQN для непрерывной онлайн-задачи с точки зрения времени, необходимого для уверенности в правильных решениях (я знаю, что это связано с частотой обновлений и отказоустойчивостью приложения), но есть ли способ оценить этот раз?
Абсолютный максимум моего вознаграждения изменяется в зависимости от зоны, в которой находится дрон, это влияет на общую производительность, поскольку я пытался использовать стратегию среднего вознаграждения перед переходом в DDQN, это вызывает нестабильность, так как среднее вознаграждение обновляется через некоторое время. Какие-либо предложения?

machine-learning deep-learning reinforcement-learning dqn online-machine-learning

Источник

29 сен '21 в 20:57

0 ответов

Другие вопросы по тегам machine-learning deep-learning reinforcement-learning dqn online-machine-learning