Какой смысл вообще использовать временную разность?

Насколько я знаю, для конкретной политики \pi, изучение временных разностей позволяет нам вычислить ожидаемое значение, следующее этой политике \pi, но в чем смысл знания конкретной политики?

Разве мы не должны пытаться найти оптимальную политику для данной среды? Какой смысл делать конкретный \ пи, используя временное разностное обучение вообще?

1 ответ

Решение

Как вы сказали, только нахождение функции значения для данной политики не очень полезно в общем случае, когда целью является поиск оптимальной политики. Тем не менее, несколько классических алгоритмов, таких как SARSA или же Q-learning может рассматриваться как особый случай generalized policy iteration где самая трудная часть - найти функцию стоимости политики. Когда вы знаете функцию значения, легко найти лучшую политику, затем снова найти функцию значения недавно вычисленной политики и так далее. Этот процесс при определенных условиях сходится к оптимальной политике.

В итоге, temporal difference learning является ключевым шагом в других алгоритмах, позволяющих найти оптимальную политику.

Другие вопросы по тегам