Отжиг эпсилона в эпсилон-жадной политике при использовании DQN

При использовании DQN мне сказали, что перед запоминанием лучше заполнить всю память воспроизведения. Мне интересно, как отжигать эпсилон, если я использую эпсилон-жадную политику. Скажем, объем памяти воспроизведения равен 10000, поэтому агент должен выполнить 10000 шагов перед обучением. Должен ли я начать отжиг эпсилона во время 10000 шагов или после начала обучения? Заранее спасибо.

1 ответ

Решение

Цель постепенного сокращения параметра эпсилон в эпсилон-жадной политике состоит в том, чтобы перейти от более исследовательской политики к более эксплуатационной. Этот шаг имеет смысл только тогда, когда агент чему-то научился, т. Е. Когда у него есть знания для использования.

Короче говоря, вы должны начать отжиг после начала обучения.

Другие вопросы по тегам