Эквивалентны ли эти две разные формулы для обновления Value-Iteration?

Question

Эквивалентны ли эти две разные формулы для обновления Value-Iteration?

Изучая MDP из разных источников, я наткнулся на две разные формулы для обновления значения в алгоритме Value-Iteration.

Первый (тот, что есть в Википедии и пара книг):

.
И второй (в некоторых вопросах здесь, в стеке и на слайдах моего курса):

Для конкретной итерации они, похоже, не дают одинаковый ответ. Один из них быстрее подходит к решению?

0

formula mdp value-iteration

Источник

user5183410 10 дек '19 в 04:17

1 ответ

Другие вопросы по тегам formula mdp value-iteration

user6026739 11 мар '20 в 20:34 2020-03-11 20:34 · Answer 1 · 2020-03-11 20:34

На самом деле разница заключается в функциях вознаграждения R(s, s') или R(s) во второй формуле.

Первое уравнение является обобщенным.

В первом вознаграждении будет R_a(s, s') при переходе из состоянияs государству s' должное действие a'. Награда могла быть разной за разные состояния и действия.

Но если для каждого штата s у нас есть заранее определенная награда (независимо от предыдущего состояния и действия, которое приводит к s), то мы можем упростить формулу до второй.

Окончательные значения не обязательно равны, но политика одинакова.