Как Value Iteration определяет оптимальную политику?

Question

Как Value Iteration определяет оптимальную политику?

Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику.

В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значение одного состояния поднимается выше остальных. Является ли итерация значения просто положением, что оптимальная политика - это та, которая удерживает агента в состоянии с наибольшим значением?

0

artificial-intelligence markov markov-decision-process value-iteration

Источник

user6637004 09 окт '18 в 01:55

0 ответов

Другие вопросы по тегам artificial-intelligence markov markov-decision-process value-iteration