Какой смысл вообще использовать временную разность?
Насколько я знаю, для конкретной политики \pi, изучение временных разностей позволяет нам вычислить ожидаемое значение, следующее этой политике \pi, но в чем смысл знания конкретной политики?
Разве мы не должны пытаться найти оптимальную политику для данной среды? Какой смысл делать конкретный \ пи, используя временное разностное обучение вообще?
1 ответ
Как вы сказали, только нахождение функции значения для данной политики не очень полезно в общем случае, когда целью является поиск оптимальной политики. Тем не менее, несколько классических алгоритмов, таких как SARSA
или же Q-learning
может рассматриваться как особый случай generalized policy iteration
где самая трудная часть - найти функцию стоимости политики. Когда вы знаете функцию значения, легко найти лучшую политику, затем снова найти функцию значения недавно вычисленной политики и так далее. Этот процесс при определенных условиях сходится к оптимальной политике.
В итоге, temporal difference learning
является ключевым шагом в других алгоритмах, позволяющих найти оптимальную политику.