Шаг по улучшению политики итерации политики
Здравствуйте, уважаемое сообщество Stackru!
Сейчас я прохожу курс обучения по усилению и у меня возникла путаница с методом итераций политики.
В итерации политики у нас есть случайная политика в начале и функции значений для каждого состояния. В части "Оценка политики" процесса повторения политики мы находим новые функции значений для каждого состояния. После этого в части "Улучшение политики", основанной на новых функциях значения, мы обновляем нашу политику. Мы делаем эти шаги итеративно, пока наши функции значения не сойдутся. Но моя проблема в том, как мы адаптируем нашу новую политику для следующего процесса оценки политики? Позвольте мне объяснить мою точку зрения на примере.
Как вы можете видеть на картинке, черные ящики являются терминальными состояниями, наша немедленная награда равна -1, коэффициент дисконтирования равен 1, и вероятность 0,25 для всех направлений в начале. В политике, которую мы получаем в части улучшения политики k = 1, мы должны идти влево от состояния, которое находится справа от самого верхнего состояния терминала. После этого, при обновлении функций значения для k = 2, почему бы нам не рассмотреть это изменение и не записать -1,75 (сокращенно -1,7) в это состояние, как если бы мы могли идти по всем направлениям? По моему так же математически
новая функция значения для этого состояния = -1 + 1 * (0.0) = -1
Это должно быть так, потому что у нас есть только одно возможное действие из этого состояния на основе нашей последней политики вместо:
-1,7 = ((-1) + 1 * (-1)) * (0,75) + (-1 + 1 * (0,0)) * (0,25)
Если мы делаем это так, то каковы промежуточные задачи этой политики? Просто сделайте это как итерацию значения, если мы не используем их для новых функций значения!
Я так растерялся, не могли бы вы мне помочь?