Как понять RLstep в Keepaway (сравните с Sarsa)

Question

Как понять RLstep в Keepaway (сравните с Sarsa)

В "Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульмане. " Обучение усилению для робокопа ". Адаптивное поведение 13.3 (2005): 165-188.", Псевдокод RLstep, кажется, немного отличается от Сарсы (λ) Авторы говорят, что RLStep реализует.

Вот псевдокод RLstep, а вот псевдокод Sarsa (лямбда).

Области путаницы:

Строка 10 в псевдокоде Sarsa(λ) обновляет значение Q для каждой пары состояние-действие после добавления 1 к e(s,a), Но в псевдокоде RLstep обновление трассы приемлемости (строка 19) происходит только после обновления значения (строка 17).
Строки 18 и 19 в RLstep кажутся совершенно отличными от псевдокода Sarsa(λ).
Что строки 20-25 делают с трассой соответствия?

1

reinforcement-learning sarsa

Источник

user6917815 21 окт '16 в 00:32

0 ответов

Другие вопросы по тегам reinforcement-learning sarsa