Частично наблюдаемый марковский процесс принятия решения

Я новичок в марковских процессах, и у меня есть некоторые основные (я думаю) вопросы относительно теории. Было бы здорово, если бы вы помогли мне разобраться со следующими вопросами:

  1. Что мы подразумеваем под контролируемыми действиями в частично наблюдаемом процессе принятия решений по Маркову (pomdp)? Или никаких контролируемых действий в скрытых марковских государствах?
  2. Можем ли мы сказать, что при вычислении политик с помощью значений или итераций политик pomdp является экспертной системой (потому что мы моделируем среду)? тогда как при использовании Q-learning более гибкая система с точки зрения интеллекта или адаптируемости к изменяющейся среде?

Спасибо

1 ответ

Решение

действия

Контролируемые действия - это результаты выбора, который принимает лицо, принимающее решения. В классической проблеме тигра POMDP за одной из двух дверей спрятан тигр. На каждом временном шаге лицо, принимающее решение, может выбрать, слушать или открыть одну из дверей. Действия в этом сценарии: {слушать, открыть левую дверь, открыть правую дверь}. Функция перехода из одного состояния в другое зависит как от предыдущего состояния, так и от выбранного действия.

В скрытой модели Маркова (HMM) нет никаких действий для лица, принимающего решение. В контексте проблемы тигра это означает, что участник может только слушать, не открывая двери. В этом случае функция перехода зависит только от предыдущего состояния, поскольку никаких действий нет.

Более подробную информацию о проблеме тигра можно найти в документе POMDP Кельблинга Литтмана и Кассандры за 1998 год, раздел 5.1. В этом уроке также есть более вводный обзор.

адаптируемость

Основная интуиция в вашем вопросе верна, но может быть уточнена. POMDP - это класс моделей, а Q-обучение - это метод решения. Основное различие в вашем вопросе заключается в подходах, основанных на модели и без модели. POMDP основаны на модели, хотя частичная наблюдаемость допускает дополнительную неопределенность. Усиленное обучение может применяться в модельном контексте, с Q-learning. Безмодельный подход будет более гибким для нестационарных задач. При этом, в зависимости от сложности проблемы, вы можете включить нестационарность в саму модель и рассматривать ее как MDP.

В ответе на этот вопрос очень подробно обсуждаются эти нестационарные компромиссные модели.

Наконец, правильно, что POMDP можно считать экспертными системами. Мазумдар и др. (2017) предложили рассматривать марковские процессы принятия решений (MDP) как экспертные системы.