Интуиция за итерацией политики в мире сетки

Question

Интуиция за итерацией политики в мире сетки

Я должен придумать агент MDP, который использует итерацию политики и итерацию значения для назначения, и сравнить его производительность со значением полезности состояния.

Как агент MDP, учитывая, что он знает вероятности и награды перехода, знает, какое действие нужно переместить?

Насколько я понимаю, агент MDP будет выполнять итерации политики и, учитывая политику, вычислять вознаграждения, которые он получил при достижении состояния завершения. Эта политика разработана на основе алгоритма итерации значений.

Может ли кто-нибудь предоставить некоторую интуицию о том, как работает итерация политики?

3

artificial-intelligence reinforcement-learning markov

Источник

user992618 29 окт '12 в 00:20

1 ответ

Другие вопросы по тегам artificial-intelligence reinforcement-learning markov

user1713099 26 июн '13 в 20:27 2013-06-26 20:27 · Answer 1 · 2013-06-26 20:27

Предполагая, что вы уже видели, что такое алгоритмы итерации и итерации политики, агент просто создает новую политику, выбирая действие с наибольшим значением для каждого состояния.

Значение действия - это сумма вероятности достижения следующего состояния * (значение следующего состояния + награда за переход) во всех возможных следующих состояниях для этого действия.