Как Value Iteration определяет оптимальную политику?
Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику.
В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значение одного состояния поднимается выше остальных. Является ли итерация значения просто положением, что оптимальная политика - это та, которая удерживает агента в состоянии с наибольшим значением?