Как понять RLstep в Keepaway (сравните с Sarsa)
В "Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульмане. " Обучение усилению для робокопа ". Адаптивное поведение 13.3 (2005): 165-188.", Псевдокод RLstep, кажется, немного отличается от Сарсы (λ) Авторы говорят, что RLStep реализует.
Вот псевдокод RLstep, а вот псевдокод Sarsa (лямбда).
Области путаницы:
Строка 10 в псевдокоде Sarsa(λ) обновляет значение Q для каждой пары состояние-действие после добавления 1 к
e(s,a)
, Но в псевдокоде RLstep обновление трассы приемлемости (строка 19) происходит только после обновления значения (строка 17).Строки 18 и 19 в RLstep кажутся совершенно отличными от псевдокода Sarsa(λ).
Что строки 20-25 делают с трассой соответствия?