Шаг по улучшению политики итерации политики

Здравствуйте, уважаемое сообщество Stackru!

Сейчас я прохожу курс обучения по усилению и у меня возникла путаница с методом итераций политики.

В итерации политики у нас есть случайная политика в начале и функции значений для каждого состояния. В части "Оценка политики" процесса повторения политики мы находим новые функции значений для каждого состояния. После этого в части "Улучшение политики", основанной на новых функциях значения, мы обновляем нашу политику. Мы делаем эти шаги итеративно, пока наши функции значения не сойдутся. Но моя проблема в том, как мы адаптируем нашу новую политику для следующего процесса оценки политики? Позвольте мне объяснить мою точку зрения на примере.

Пример сетки мира:

Как вы можете видеть на картинке, черные ящики являются терминальными состояниями, наша немедленная награда равна -1, коэффициент дисконтирования равен 1, и вероятность 0,25 для всех направлений в начале. В политике, которую мы получаем в части улучшения политики k = 1, мы должны идти влево от состояния, которое находится справа от самого верхнего состояния терминала. После этого, при обновлении функций значения для k = 2, почему бы нам не рассмотреть это изменение и не записать -1,75 (сокращенно -1,7) в это состояние, как если бы мы могли идти по всем направлениям? По моему так же математически

новая функция значения для этого состояния = -1 + 1 * (0.0) = -1

Это должно быть так, потому что у нас есть только одно возможное действие из этого состояния на основе нашей последней политики вместо:

-1,7 = ((-1) + 1 * (-1)) * (0,75) + (-1 + 1 * (0,0)) * (0,25)

Если мы делаем это так, то каковы промежуточные задачи этой политики? Просто сделайте это как итерацию значения, если мы не используем их для новых функций значения!

Я так растерялся, не могли бы вы мне помочь?

0 ответов

Другие вопросы по тегам