Какой смысл вообще использовать временную разность?

Question

Какой смысл вообще использовать временную разность?

Насколько я знаю, для конкретной политики \pi, изучение временных разностей позволяет нам вычислить ожидаемое значение, следующее этой политике \pi, но в чем смысл знания конкретной политики?

Разве мы не должны пытаться найти оптимальную политику для данной среды? Какой смысл делать конкретный \ пи, используя временное разностное обучение вообще?

0

reinforcement-learning temporal-difference

Источник

user5217363 26 ноя '17 в 07:58

1 ответ

Решение

Другие вопросы по тегам reinforcement-learning temporal-difference

user3782161 26 ноя '17 в 18:49 2017-11-26 18:49 · Accepted Answer · 2017-11-26 18:49

Как вы сказали, только нахождение функции значения для данной политики не очень полезно в общем случае, когда целью является поиск оптимальной политики. Тем не менее, несколько классических алгоритмов, таких как SARSA или же Q-learning может рассматриваться как особый случай generalized policy iteration где самая трудная часть - найти функцию стоимости политики. Когда вы знаете функцию значения, легко найти лучшую политику, затем снова найти функцию значения недавно вычисленной политики и так далее. Этот процесс при определенных условиях сходится к оптимальной политике.

В итоге, temporal difference learning является ключевым шагом в других алгоритмах, позволяющих найти оптимальную политику.