Непрерывно-временная MDP с конечным горизонтом

Есть ли какой-нибудь алгоритм для решения полу-марковского процесса принятия решений с конечным горизонтом?

Я хочу найти оптимальную политику для последовательного решения задачи с конечным пространством действий, конечным пространством состояний и крайним сроком. Критически, различные действия занимают различное количество времени, и для одного из действий эта продолжительность является стохастической. Я могу моделировать время как дискретное или непрерывное в зависимости от доступных методов.

Мне известны алгоритмы дисконтированных полу-MDP с бесконечным горизонтом, но я не могу найти работы по полу-MDP с конечным горизонтом. Этот класс проблем изучался раньше?

1 ответ

Решение

Как и почти с любым MDP, обратное динамическое программирование должно работать. Вы можете дискретизировать свой конечный горизонт небольшими шагами от 0 до крайнего срока, а затем рекурсивно обновлять значения, начиная с крайнего срока. В пространстве состояний вы должны отслеживать текущее действие, общее время, затраченное на это действие, и уже выполненные действия. Количество возможных состояний может быть довольно большим.

В динамической программе вы можете воспользоваться тем, что вы можете выбрать функцию значения для состояния в момент завершения действия.