Оптимальная политика в зависимости от начального состояния MDPToolbox Python

Question

Оптимальная политика в зависимости от начального состояния MDPToolbox Python

Я пытаюсь использовать MDP Toolbox для реализации алгоритма для критерия вознаграждения «средний бесконечный» для случайного MDP, который я сгенерировал с помощью библиотеки Python MDPToolbox. Хотя эта библиотека обеспечивает оптимальную политику для такой цели во всех начальных состояниях, я хочу найти существующую реализацию алгоритма, который обеспечивает оптимальную политику для MDP, начиная с заданного начального состояния. Я читаю документ, в котором они впервые представили пакет, и в нем они решают проблему оптимизации, когда начальным состоянием является «доступны все состояния». Я хочу знать, могу ли я каким-либо образом настроить этот алгоритм, чтобы решить его для одного начального состояния (т.е. сделать его проще).

Одно из предположений, которые я сделал, заключалось в том, что это решает проблему для начального состояния по 0-му индексу матрицы перехода, поэтому я мог бы просто выполнить переназначение матриц перехода, чтобы решить проблему для другого начального состояния, но я не уверен, что это решение действительно работает.

Кто-нибудь знает, позволят ли MDPToolbox или любые другие библиотеки Pythonic решить эту проблему?

0

python python-3.x markov-decision-process mdptoolbox

Источник

user11600399 29 янв '21 в 20:54

0 ответов

Другие вопросы по тегам python python-3.x markov-decision-process mdptoolbox