В обучении с подкреплением, в чем разница между оптимальной политикой и кусочно-оптимальной политикой?
Как мы можем определить оптимальную политику и по частям оптимальную политику?
Я думаю, это зависит от того, является ли это проблемой с непрерывным или дискретным временем. Для дискретного времени оба должны быть одинаковыми. Я прав?
1 ответ
Я хотел бы добавить ответ сам.
Кусочная оптимальная политика - это та, в которой мы жадно выбираем оптимальное действие (т. Е. Оптимальное только для следующего момента). Однако оптимальным будет тот, в котором мы выбираем политику на временном горизонте (как в эпизодической MDP). Продолжительность временного горизонта зависит от приложения.