Градиент темпоральной разности лямбда без приближения функций
Кажется, что в каждом формализме ГТД (λ) он определяется в терминах приближения функции, используя θ и некоторый весовой вектор w.
Я понимаю, что потребность в градиентных методах широко возникла из-за их свойств сходимости для аппроксиматоров линейных функций, но я хотел бы использовать GTD для выборки по важности.
Можно ли воспользоваться GTD без приближения функций? Если да, как формализуются уравнения обновления?
1 ответ
Я понимаю, что когда вы говорите "без приближения функции", вы имеете в виду представление функции значения V в виде таблицы. В этом случае табличное представление V также можно рассматривать как аппроксиматор функции.
Например, если мы определим функцию приближенного значения как:
Затем, используя табличное представление, имеется столько объектов, сколько состояний, и вектор признаков для данного состояния s равен нулю для всех состояний, кроме s (то есть равен единице), а вектор параметров theta хранит значение для каждого состояния, Поэтому GTD, как и другие алгоритмы, могут использоваться без каких-либо изменений в табличной форме.