Интуиция за итерацией политики в мире сетки
Я должен придумать агент MDP, который использует итерацию политики и итерацию значения для назначения, и сравнить его производительность со значением полезности состояния.
Как агент MDP, учитывая, что он знает вероятности и награды перехода, знает, какое действие нужно переместить?
Насколько я понимаю, агент MDP будет выполнять итерации политики и, учитывая политику, вычислять вознаграждения, которые он получил при достижении состояния завершения. Эта политика разработана на основе алгоритма итерации значений.
Может ли кто-нибудь предоставить некоторую интуицию о том, как работает итерация политики?
1 ответ
Предполагая, что вы уже видели, что такое алгоритмы итерации и итерации политики, агент просто создает новую политику, выбирая действие с наибольшим значением для каждого состояния.
Значение действия - это сумма вероятности достижения следующего состояния * (значение следующего состояния + награда за переход) во всех возможных следующих состояниях для этого действия.