Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она взрывается и вызывает все переполниться. Как этого можно избежать?

1 ответ

Решение

Если я правильно понял ваш вопрос, проблема в том, что трассировка для данного состояния слишком сильно увеличивается. В этом случае потенциальное решение состоит в том, чтобы использовать заменяющие следы вместо классических добавочных следов.

Идея в замене трасс состоит в том, чтобы при каждом посещении состояния сбрасывать трассу в значение (обычно 1). На следующем рисунке показано основное различие между обоими видами трассировок:

Вы можете найти больше информации в классической книге " Укрепление: Саттон и Барто" : введение, особенно в разделе 7.8.

Другие вопросы по тегам