Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?
Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она взрывается и вызывает все переполниться. Как этого можно избежать?
1 ответ
Если я правильно понял ваш вопрос, проблема в том, что трассировка для данного состояния слишком сильно увеличивается. В этом случае потенциальное решение состоит в том, чтобы использовать заменяющие следы вместо классических добавочных следов.
Идея в замене трасс состоит в том, чтобы при каждом посещении состояния сбрасывать трассу в значение (обычно 1). На следующем рисунке показано основное различие между обоими видами трассировок:
Вы можете найти больше информации в классической книге " Укрепление: Саттон и Барто" : введение, особенно в разделе 7.8.