Понимание значений аргументов для примера леса mdptoolbox
Я пытаюсь понять, как использовать mdptoolbox и у меня было несколько вопросов.
Что значит 20
значит в следующем утверждении?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
Я это понимаю 10
здесь обозначает количество возможных состояний. Что значит 20
значит здесь? Представляет ли это общее количество действий на штат? Я хочу ограничить MDP ровно 2 действиями в каждом штате. Как я мог это сделать?
Форма P
вернулся выше (2, 10, 10)
, Что значит 2
представлять здесь? Независимо от того, какие значения я использую для общих состояний и действий, это всегда 2
,
1 ответ
Код, который вы запускаете, является правильным, но то, что вы используете, является примером из набора инструментов.
Пожалуйста, внимательно изучите документацию.
В следующем коде:
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
Второй аргумент не является аргументом действия для MDP. Его документация объясняет второй аргумент следующим образом:
Награда, когда лес находится в самом старом состоянии и выполняется действие "Ожидание". По умолчанию: 4.
В вашем случае значение вознаграждения передается как 20
когда лес в старейшем состоянии и действие Wait
выполняется.
В этом примере лес управляется двумя действиями: ‘Wait’
а также ‘Cut’
, Пожалуйста, обратитесь к этой документации для более подробной информации. Поскольку возможно 2 действия, матрица вероятности перехода P
возвращаемый этой функцией также имеет первый размерный размер как 2
, Вам не нужно вручную ограничивать размер пространства действия 2
,
Чтобы понять, как использовать этот инструментарий, вы также должны пройти по этой ссылке.