Марковский процесс принятия решений - допускается ли несколько выборок между эпохами принятия решений?

У меня просто есть простой вопрос о Марковском процессе принятия решений (MDP), на который я не смог получить прямого ответа из литературы:

Я понимаю, что период принятия решений (время между эпохами принятия решений) в MDP является постоянным, в отличие от полу-MDP. Однако меня смущает, если этот период принятия решения с постоянным / фиксированным временем может содержать несколько выборок (необязательно фиксированное количество выборок), на основе которых оценивается текущее состояние и решение принимается в эпоху принятия решения?

Моя проблема в том, что я не могу определить вышеупомянутый подход ни со стандартным определением MDP (с одним образцом периода принятия решения), ни с определением SMDP, где период удержания / период принятия решения является переменным, и действие выполняется только при изменении состояния. Кроме того, другие сложные расширения MDP, например, POMDP, CMDP, не кажутся подходящими для этого простого, немного отличающегося подхода MDP.

Любое предложение / понимание по этой теме будет высоко ценится. Заранее спасибо!

0 ответов

Другие вопросы по тегам