Влияние разной эпсилон-ценности на Q-learning и SARSA
Поскольку я начинаю в этой области, у меня возникли сомнения относительно того, как различные значения epsilon будут влиять на SARSA и Qlearning с помощью жадного алгоритма epsilon для выбора действий.
Я понимаю, что когда эпсилон равен 0, действия всегда выбираются на основе политики, полученной из Q. Поэтому Q-learning сначала обновляет Q, и он выбирает следующее действие на основе обновленного Q. С другой стороны, SARSA выбирает следующее действие и после обновления Q.
Как насчет того, когда ε равно 1? и ε - увеличение от 0 до 1?
Спасибо!
1 ответ
Политика ε-жадности выбирает случайное действие с вероятностью ε или самое известное действие с вероятностью 1-ε. При ε=1 он всегда выберет случайное действие. Эта ценность делает компромисс между разведкой и эксплуатацией: вы хотите использовать имеющиеся у вас знания, но вы также хотите искать лучшие альтернативы.