Дзета-переменная САРСА (лямда)
1 ответ
Как вы уже заявили, дзета представляет следы соответствия. Интуитивно это можно понимать как содержащую "разложившуюся смесь всех векторов признаков состояния-действия, встречающихся на всех предыдущих временных шагах". Это след того, что мы видели ранее, и поэтому мы должны отдать должное тем наградам, которые мы наблюдаем сейчас.
Более формально, это просто то, что требуется, если вы хотите писать инкрементальные реализации (с равномерным распределением времени вычислений по всем вашим временным шагам) алгоритмов RL, которые при написании более простым / очевидным / наивным способом могут быть реализованы только в неинкрементным образом, потому что они имеют обновленные правила, которые требуют информации от всех временных шагов в вашем эпизоде (например, лямбда-возврат / Монте-Карло возвращается). Возможно, это звучит довольно сложно, но лучше придерживаться интуитивного объяснения.
Что касается того, как это выглядело бы в C++, да, в значительной степени вектор удваивается. "z \in R^d
"Прямо перед первой строкой кода на изображении означает, что это d
-мерный вектор действительных чисел (удваивается или плавает в C++), где d
это размерность ваших векторов признаков состояния-действия (phi
).
Вы также можете сказать, что это должно быть d
вектор из-за того, что он должен быть добавлен к другим d
векторы (phi
а также theta
) в нескольких других местах псевдокода. Это может правильно сработать только математически, если сам дзета также d
вектор.