Путаница в понимании формулы Q(s,a) для обучения усилению MDP?

Я пытался понять, почему теорема улучшения политики может быть применена к эпсилон-жадной политике.

Доказательство начинается с математического определения -

Барто и Саттон - Укрепление обучения: Введение

Я запутался в самой первой строке доказательства.

введите описание изображения здесь

Это уравнение является уравнением ожидания Беллмана для Q(s,a), тогда как V(s) и Q (s, a) следуют соотношению -

введите описание изображения здесь

Так как же мы можем получить первую строку доказательства?

1 ответ

Задача оптимального управления была впервые введена в 1950-х годах. Проблема заключалась в том, чтобы разработать контроллер для максимизации или минимизации целевой функции. Ричард Беллман подошел к этой задаче оптимального управления, введя уравнение Беллмана:

введите описание изображения здесь

Где значение эквивалентно дисконтированной сумме вознаграждений. Если мы сделаем первый шаг, мы получим следующее:

введите описание изображения здесь

Впоследствии классическое обучение с подкреплением основано на процессе принятия решений Маркова и предполагает, что все переходы между состояниями известны. Таким образом, уравнение становится следующим:

введите описание изображения здесь

То есть суммирование эквивалентно суммированию всех возможных переходов из этого состояния, умноженному на вознаграждение за достижение нового состояния.

Вышеуказанные уравнения записаны в виде значения. Иногда мы хотим, чтобы значение также было функцией действия, создавая, таким образом, значение действия. Преобразование вышеприведенного уравнения в форму значения действия:

введите описание изображения здесь

Самая большая проблема с этим уравнением состоит в том, что в реальной жизни переходные вероятности фактически не известны. Невозможно узнать переходные вероятности каждого отдельного состояния, если проблема не предельно проста. Чтобы решить эту проблему, мы обычно просто берем максимум будущей дисконтированной части. То есть мы предполагаем, что в будущем мы будем вести себя оптимально, а не усреднять все возможные сценарии.

введите описание изображения здесь

Однако в реальном сценарии среда может быть сильно стохастической. Следовательно, лучшая оценка функции-значения в любом состоянии - это просто оценка. И пост вероятностный случай - ожидаемое значение. Таким образом, давая вам:

введите описание изображения здесь

Обозначение награды - это t+1 в вашем уравнении. Это в основном из-за разных интерпретаций. Приведенное выше доказательство остается верным для вашей записи. Это просто говорит, что вы не будете знать свою награду, пока не дойдете до следующего времени отбора проб.