Повторная инициализация трассы соответствия между эпизодами в реализации SARSA-Lambda
Я смотрю на эту реализацию SARSA-Lambda (то есть: SARSA со следами соответствия), и есть деталь, которую я до сих пор не понимаю.
(Изображение из http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)
Поэтому я понимаю, что все Q(s,a) обновляются, а не только те, которые агент выбрал для данного временного шага. Я также понимаю, что матрица Е не сбрасывается в начале каждого эпизода.
Давайте на минуту предположим, что панель 3 на рисунке 7.12 была конечным состоянием эпизода 1.
В начале эпизода 2 агент движется на север, а не на восток, и давайте предположим, что это дает ему награду -500. Не отразится ли это также на всех штатах, которые посещались в предыдущем эпизоде?
Если идея состоит в том, чтобы вознаградить те состояния, которые были посещены в текущем эпизоде, то почему матрица, содержащая все значения e (s, a), не сбрасывается в начале каждого эпизода? Похоже, что с этой реализацией состояния, которые были посещены в предыдущем эпизоде, "наказываются" или "вознаграждаются" за действия, совершенные агентом в этом новом эпизоде.
1 ответ
Я согласен с вами на 100%. Неудача сброса электронной матрицы в начале каждого эпизода имеет именно те проблемы, которые вы описываете. Насколько я могу судить, это ошибка в псевдокоде. Ссылка, которую вы цитируете, очень популярна, поэтому ошибка была распространена на многие другие ссылки. Тем не менее, в этой хорошо цитируемой статье очень четко говорится, что e-матрица должна быть повторно инициализирована между эпизодами:
Следы соответствия инициализируются нулями, а в эпизодических задачах они повторно инициализируются нулями после каждого эпизода.
В качестве еще одного доказательства, методы этой статьи:
Трасса e устанавливается в 0 в начале каждого эпизода.
и сноска № 3 из этой статьи:
... трассы соответствия были обнулены в начале каждого испытания.
предположить, что это обычная практика, так как оба относятся к повторной инициализации между эпизодами. Я ожидаю, что есть еще много таких примеров.
На практике многие применения этого алгоритма не включают несколько эпизодов или имеют такие длинные эпизоды относительно их скоростей распада, что это не становится проблемой. Я ожидаю, что именно поэтому это еще не было разъяснено более явно в других местах в Интернете.