Как понять RLstep в Keepaway (сравните с Sarsa)

В "Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульмане. " Обучение усилению для робокопа ". Адаптивное поведение 13.3 (2005): 165-188.", Псевдокод RLstep, кажется, немного отличается от Сарсы (λ) Авторы говорят, что RLStep реализует.

Вот псевдокод RLstep, а вот псевдокод Sarsa (лямбда).

Области путаницы:

  • Строка 10 в псевдокоде Sarsa(λ) обновляет значение Q для каждой пары состояние-действие после добавления 1 к e(s,a), Но в псевдокоде RLstep обновление трассы приемлемости (строка 19) происходит только после обновления значения (строка 17).

  • Строки 18 и 19 в RLstep кажутся совершенно отличными от псевдокода Sarsa(λ).

  • Что строки 20-25 делают с трассой соответствия?

0 ответов

Другие вопросы по тегам