Интуиция за итерацией политики в мире сетки

Я должен придумать агент MDP, который использует итерацию политики и итерацию значения для назначения, и сравнить его производительность со значением полезности состояния.

Как агент MDP, учитывая, что он знает вероятности и награды перехода, знает, какое действие нужно переместить?

Насколько я понимаю, агент MDP будет выполнять итерации политики и, учитывая политику, вычислять вознаграждения, которые он получил при достижении состояния завершения. Эта политика разработана на основе алгоритма итерации значений.

Может ли кто-нибудь предоставить некоторую интуицию о том, как работает итерация политики?

1 ответ

Предполагая, что вы уже видели, что такое алгоритмы итерации и итерации политики, агент просто создает новую политику, выбирая действие с наибольшим значением для каждого состояния.

Значение действия - это сумма вероятности достижения следующего состояния * (значение следующего состояния + награда за переход) во всех возможных следующих состояниях для этого действия.

Другие вопросы по тегам