В обучении с подкреплением, в чем разница между оптимальной политикой и кусочно-оптимальной политикой?

Как мы можем определить оптимальную политику и по частям оптимальную политику?

Я думаю, это зависит от того, является ли это проблемой с непрерывным или дискретным временем. Для дискретного времени оба должны быть одинаковыми. Я прав?

1 ответ

Я хотел бы добавить ответ сам.

Кусочная оптимальная политика - это та, в которой мы жадно выбираем оптимальное действие (т. Е. Оптимальное только для следующего момента). Однако оптимальным будет тот, в котором мы выбираем политику на временном горизонте (как в эпизодической MDP). Продолжительность временного горизонта зависит от приложения.

Другие вопросы по тегам