Непрерывно-временная MDP с конечным горизонтом

Question

Непрерывно-временная MDP с конечным горизонтом

Есть ли какой-нибудь алгоритм для решения полу-марковского процесса принятия решений с конечным горизонтом?

Я хочу найти оптимальную политику для последовательного решения задачи с конечным пространством действий, конечным пространством состояний и крайним сроком. Критически, различные действия занимают различное количество времени, и для одного из действий эта продолжительность является стохастической. Я могу моделировать время как дискретное или непрерывное в зависимости от доступных методов.

Мне известны алгоритмы дисконтированных полу-MDP с бесконечным горизонтом, но я не могу найти работы по полу-MDP с конечным горизонтом. Этот класс проблем изучался раньше?

0

dynamic-programming reinforcement-learning markov-chains markov-models control-theory

Источник

user2880800 03 май '16 в 01:23

1 ответ

Решение

Другие вопросы по тегам dynamic-programming reinforcement-learning markov-chains markov-models control-theory

user1479342 03 май '16 в 10:42 2016-05-03 10:42 · Accepted Answer · 2016-05-03 10:42

Как и почти с любым MDP, обратное динамическое программирование должно работать. Вы можете дискретизировать свой конечный горизонт небольшими шагами от 0 до крайнего срока, а затем рекурсивно обновлять значения, начиная с крайнего срока. В пространстве состояний вы должны отслеживать текущее действие, общее время, затраченное на это действие, и уже выполненные действия. Количество возможных состояний может быть довольно большим.

В динамической программе вы можете воспользоваться тем, что вы можете выбрать функцию значения для состояния в момент завершения действия.