Градиент темпоральной разности лямбда без приближения функций

Кажется, что в каждом формализме ГТД (λ) он определяется в терминах приближения функции, используя θ и некоторый весовой вектор w.

Я понимаю, что потребность в градиентных методах широко возникла из-за их свойств сходимости для аппроксиматоров линейных функций, но я хотел бы использовать GTD для выборки по важности.

Можно ли воспользоваться GTD без приближения функций? Если да, как формализуются уравнения обновления?

1 ответ

Решение

Я понимаю, что когда вы говорите "без приближения функции", вы имеете в виду представление функции значения V в виде таблицы. В этом случае табличное представление V также можно рассматривать как аппроксиматор функции.

Например, если мы определим функцию приближенного значения как:

уравнения латекса

Затем, используя табличное представление, имеется столько объектов, сколько состояний, и вектор признаков для данного состояния s равен нулю для всех состояний, кроме s (то есть равен единице), а вектор параметров theta хранит значение для каждого состояния, Поэтому GTD, как и другие алгоритмы, могут использоваться без каких-либо изменений в табличной форме.

Другие вопросы по тегам