Повторная инициализация трассы соответствия между эпизодами в реализации SARSA-Lambda

Question

Повторная инициализация трассы соответствия между эпизодами в реализации SARSA-Lambda

Я смотрю на эту реализацию SARSA-Lambda (то есть: SARSA со следами соответствия), и есть деталь, которую я до сих пор не понимаю.

(Изображение из http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)

Поэтому я понимаю, что все Q(s,a) обновляются, а не только те, которые агент выбрал для данного временного шага. Я также понимаю, что матрица Е не сбрасывается в начале каждого эпизода.

Давайте на минуту предположим, что панель 3 на рисунке 7.12 была конечным состоянием эпизода 1.

В начале эпизода 2 агент движется на север, а не на восток, и давайте предположим, что это дает ему награду -500. Не отразится ли это также на всех штатах, которые посещались в предыдущем эпизоде?

Если идея состоит в том, чтобы вознаградить те состояния, которые были посещены в текущем эпизоде, то почему матрица, содержащая все значения e (s, a), не сбрасывается в начале каждого эпизода? Похоже, что с этой реализацией состояния, которые были посещены в предыдущем эпизоде, "наказываются" или "вознаграждаются" за действия, совершенные агентом в этом новом эпизоде.

17

machine-learning reinforcement-learning sarsa

Источник

user1876047 27 апр '15 в 19:25

1 ответ

Решение

Другие вопросы по тегам machine-learning reinforcement-learning sarsa

user1560599 03 май '15 в 07:07 2015-05-03 07:07 · Accepted Answer · 2015-05-03 07:07

Я согласен с вами на 100%. Неудача сброса электронной матрицы в начале каждого эпизода имеет именно те проблемы, которые вы описываете. Насколько я могу судить, это ошибка в псевдокоде. Ссылка, которую вы цитируете, очень популярна, поэтому ошибка была распространена на многие другие ссылки. Тем не менее, в этой хорошо цитируемой статье очень четко говорится, что e-матрица должна быть повторно инициализирована между эпизодами:

Следы соответствия инициализируются нулями, а в эпизодических задачах они повторно инициализируются нулями после каждого эпизода.

В качестве еще одного доказательства, методы этой статьи:

Трасса e устанавливается в 0 в начале каждого эпизода.

и сноска № 3 из этой статьи:

... трассы соответствия были обнулены в начале каждого испытания.

предположить, что это обычная практика, так как оба относятся к повторной инициализации между эпизодами. Я ожидаю, что есть еще много таких примеров.

На практике многие применения этого алгоритма не включают несколько эпизодов или имеют такие длинные эпизоды относительно их скоростей распада, что это не становится проблемой. Я ожидаю, что именно поэтому это еще не было разъяснено более явно в других местах в Интернете.