Обновить правило во временной разнице

Правило обновления TD(0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Затем выполните текущее наилучшее действие (для оптимизации) или случайное действие (для исследователя).

Где MaxNextQ - максимальное значение Q, которое можно получить в следующем состоянии...


Но в TD(1) я думаю, что правило обновления будет:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Мой вопрос:
Семестр gamma * Reward(t-1) означает, что я всегда буду делать все возможное в t-1.. который я думаю, будет препятствовать исследованию..
Может кто-нибудь дать мне подсказку?

Спасибо

1 ответ

Решение

Вы говорите об использовании "следов приемлемости", верно? Смотрите уравнения и алгоритм.

Обратите внимание на уравнение e_t(s, a). При использовании шага исследования штраф не применяется.

Другие вопросы по тегам