Как Value Iteration определяет оптимальную политику?

Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику.

В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значение одного состояния поднимается выше остальных. Является ли итерация значения просто положением, что оптимальная политика - это та, которая удерживает агента в состоянии с наибольшим значением?

0 ответов

Другие вопросы по тегам