Когда использовать итерацию политики вместо итерации значения

Question

Когда использовать итерацию политики вместо итерации значения

В настоящее время я изучаю динамические программные решения для процессов принятия решений Маркова. Я чувствую, что у меня есть приличный контроль над VI и PI, и мотивация для PI довольно ясна для меня (сходиться к правильным утилитам состояния кажется ненужной работой, когда все, что нам нужно - это правильная политика). Однако ни один из моих экспериментов не показал PI в благоприятном свете с точки зрения времени выполнения. Похоже, что последовательно занять больше времени, независимо от размера государственного пространства и коэффициента дисконтирования.

Это может быть связано с реализацией (я использую библиотеку BURLAP) или с плохими экспериментами с моей стороны. Тем не менее, даже тенденции, похоже, не приносят пользы. Следует отметить, что реализация PI BURLAP на самом деле представляет собой "модифицированную итерацию политики", которая запускает ограниченный вариант VI на каждой итерации. Мой вопрос к вам: знаете ли вы какие-либо ситуации, теоретические или практические, в которых (модифицированный) ИП должен превосходить ВИ?

1

mdp

Источник

user834214 13 ноя '14 в 22:12

1 ответ

Решение

Другие вопросы по тегам mdp

user834214 17 ноя '14 в 05:23 2014-11-17 05:23 · Accepted Answer · 2014-11-17 05:23

Оказывается, что повторение политик, в частности модификация итераций политик, может превзойти итерацию значений, когда коэффициент дисконтирования (гамма) очень высок.

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

2

Источник

user834214 17 ноя '14 в 05:23