Градиент темпоральной разности лямбда без приближения функций

Question

Градиент темпоральной разности лямбда без приближения функций

Кажется, что в каждом формализме ГТД (λ) он определяется в терминах приближения функции, используя θ и некоторый весовой вектор w.

Я понимаю, что потребность в градиентных методах широко возникла из-за их свойств сходимости для аппроксиматоров линейных функций, но я хотел бы использовать GTD для выборки по важности.

Можно ли воспользоваться GTD без приближения функций? Если да, как формализуются уравнения обновления?

2

machine-learning reinforcement-learning temporal-difference

Источник

user2844792 30 апр '16 в 15:43

1 ответ

Решение

Другие вопросы по тегам machine-learning reinforcement-learning temporal-difference

user3782161 04 май '16 в 11:49 2016-05-04 11:49 · Accepted Answer · 2016-05-04 11:49

Я понимаю, что когда вы говорите "без приближения функции", вы имеете в виду представление функции значения V в виде таблицы. В этом случае табличное представление V также можно рассматривать как аппроксиматор функции.

Например, если мы определим функцию приближенного значения как:

Затем, используя табличное представление, имеется столько объектов, сколько состояний, и вектор признаков для данного состояния s равен нулю для всех состояний, кроме s (то есть равен единице), а вектор параметров theta хранит значение для каждого состояния, Поэтому GTD, как и другие алгоритмы, могут использоваться без каких-либо изменений в табличной форме.