Понимание значений аргументов для примера леса mdptoolbox

Я пытаюсь понять, как использовать mdptoolbox и у меня было несколько вопросов.

Что значит 20 значит в следующем утверждении?

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

Я это понимаю 10 здесь обозначает количество возможных состояний. Что значит 20 значит здесь? Представляет ли это общее количество действий на штат? Я хочу ограничить MDP ровно 2 действиями в каждом штате. Как я мог это сделать?

Форма P вернулся выше (2, 10, 10), Что значит 2 представлять здесь? Независимо от того, какие значения я использую для общих состояний и действий, это всегда 2,

1 ответ

Решение

Код, который вы запускаете, является правильным, но то, что вы используете, является примером из набора инструментов.

Пожалуйста, внимательно изучите документацию.

В следующем коде:

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

Второй аргумент не является аргументом действия для MDP. Его документация объясняет второй аргумент следующим образом:

Награда, когда лес находится в самом старом состоянии и выполняется действие "Ожидание". По умолчанию: 4.

В вашем случае значение вознаграждения передается как 20 когда лес в старейшем состоянии и действие Wait выполняется.

В этом примере лес управляется двумя действиями: ‘Wait’ а также ‘Cut’, Пожалуйста, обратитесь к этой документации для более подробной информации. Поскольку возможно 2 действия, матрица вероятности перехода P возвращаемый этой функцией также имеет первый размерный размер как 2, Вам не нужно вручную ограничивать размер пространства действия 2,

Чтобы понять, как использовать этот инструментарий, вы также должны пройти по этой ссылке.

Другие вопросы по тегам