Это ошибка в теме SARSA λ книги Саттона и Барто?

В sarsa λ с накопительными следами соответствия ( http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) данный алгоритм не совпадает с формулой.

Формула говорит E ← ɣλE+1

где, когда [algo] обновляется сначала E ← E+1, затем E ← ɣλE, производя обновление эффективно
E ← ɣλ.(E+1)

что правильно? Я также видел исследовательские работы с точно такой же формулой и алгоритмом.

Является ли несоответствием в публикации то, что они пропустили установку пары скобок вокруг E+1?
Если так, то как получается, что большинство научных работ повторяют одну и ту же ошибку.

ИЛИ ЖЕ
если я что-то неправильно понял, пожалуйста, укажите.

1 ответ

Я думаю, что они не пропустили ни одной скобки, это E ← ɣλE+1. Поскольку E должно уменьшаться на ɣλ каждый раз, если только s не является текущим. поэтому 1 относится к текущему с. Здесь есть фигура http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html, которая может помочь вам лучше понять эту идею, она находится между Equ(7.5) и (7.6).

Другие вопросы по тегам