Отжиг эпсилона в эпсилон-жадной политике при использовании DQN
При использовании DQN мне сказали, что перед запоминанием лучше заполнить всю память воспроизведения. Мне интересно, как отжигать эпсилон, если я использую эпсилон-жадную политику. Скажем, объем памяти воспроизведения равен 10000, поэтому агент должен выполнить 10000 шагов перед обучением. Должен ли я начать отжиг эпсилона во время 10000 шагов или после начала обучения? Заранее спасибо.
1 ответ
Решение
Цель постепенного сокращения параметра эпсилон в эпсилон-жадной политике состоит в том, чтобы перейти от более исследовательской политики к более эксплуатационной. Этот шаг имеет смысл только тогда, когда агент чему-то научился, т. Е. Когда у него есть знания для использования.
Короче говоря, вы должны начать отжиг после начала обучения.