Почему итерация политики быстрее, чем итерация значения?

Мы знаем, что итерация политики дает нам политику напрямую и, следовательно, выполняется быстрее. Но может ли кто-нибудь объяснить это некоторыми примерами.

1 ответ

Решение

Причина, по которой итерация политики выполняется быстрее, потому что - одна политика может быть представлена ​​бесконечным числом функций значений, поэтому при итерации политики, когда вы переходите от одной политики к другой... вы по существу перепрыгиваете через бесконечное количество функций значений.

Например:

p1 = [0, 1, 1]

- это политика для 3 состояний и 2 действий, где она выбирает действие 0 в состоянии 0 и действие 1 в состояниях 1 и 2.

Теперь давайте рассмотрим две функции значений:

v1 = [[0,9, 0,6], [0,6, 0,8], [0,8, 0,9]]

v2 = [[0,9, 0,6], [0,7, 0,8], [0,6, 0,9]]

Здесь и v1, и v2 сопоставляются с одной и той же политикой, поэтому, когда вы выполняете итерацию политики, вам кажется, что вы не заботитесь об этих двух функциях как о разных функциях значений, поскольку они сопоставляются с одной и той же политикой. Таким образом, когда вы обновляете политику, вы по существу отбрасываете огромное количество этих функций значений, каждую из которых вы могли повторять (в худшем случае) при выполнении итерации значений.

Другие вопросы по тегам