Оптимальная политика в зависимости от начального состояния MDPToolbox Python
Я пытаюсь использовать MDP Toolbox для реализации алгоритма для критерия вознаграждения «средний бесконечный» для случайного MDP, который я сгенерировал с помощью библиотеки Python MDPToolbox. Хотя эта библиотека обеспечивает оптимальную политику для такой цели во всех начальных состояниях, я хочу найти существующую реализацию алгоритма, который обеспечивает оптимальную политику для MDP, начиная с заданного начального состояния. Я читаю документ, в котором они впервые представили пакет, и в нем они решают проблему оптимизации, когда начальным состоянием является «доступны все состояния». Я хочу знать, могу ли я каким-либо образом настроить этот алгоритм, чтобы решить его для одного начального состояния (т.е. сделать его проще).
Одно из предположений, которые я сделал, заключалось в том, что это решает проблему для начального состояния по 0-му индексу матрицы перехода, поэтому я мог бы просто выполнить переназначение матриц перехода, чтобы решить проблему для другого начального состояния, но я не уверен, что это решение действительно работает.
Кто-нибудь знает, позволят ли MDPToolbox или любые другие библиотеки Pythonic решить эту проблему?