Выбор активных функций для функции прибл. С радиальными базисными функциями в обучении подкреплению?
Я не понимаю, как трассы соответствия вписываются в обучение с подкреплением при использовании радиальных базисных функций (RBF) для аппроксимации функции значения с помощью переменных непрерывного состояния. В частности, как вы решаете, какие функции являются "активными" для данного состояния?
При использовании кодирования или грубого кодирования каждый фрагмент (а не каждый фрагмент), по сути, является признаком, поэтому трассы приемлемости для каждого фрагмента увеличиваются (в зависимости от того, используете ли вы заменяющие или накапливающие трассы), когда состояние проходит через каждый элемент. плитка, и некоторые плитки не будут иметь увеличенный след. Однако при использовании радиальных базисных функций признаками являются расстояния между состоянием и центрами сети Rbf, оцениваемые выбранным ядром. Их можно оценить для любой позиции состояния и любой позиции центра, поэтому нет четкой картины того, какие функции активированы для данного состояния (все они могут быть активированы в большей или меньшей степени), и поэтому не ясно, какие функции должны иметь увеличенные следы.
Как следует корректировать трассы соответствия критериям, генерируемым RBF на каждом временном шаге моделирования?
Нужно ли предполагать, что ядра RBF усечены?