Когда использовать итерацию политики вместо итерации значения
В настоящее время я изучаю динамические программные решения для процессов принятия решений Маркова. Я чувствую, что у меня есть приличный контроль над VI и PI, и мотивация для PI довольно ясна для меня (сходиться к правильным утилитам состояния кажется ненужной работой, когда все, что нам нужно - это правильная политика). Однако ни один из моих экспериментов не показал PI в благоприятном свете с точки зрения времени выполнения. Похоже, что последовательно занять больше времени, независимо от размера государственного пространства и коэффициента дисконтирования.
Это может быть связано с реализацией (я использую библиотеку BURLAP) или с плохими экспериментами с моей стороны. Тем не менее, даже тенденции, похоже, не приносят пользы. Следует отметить, что реализация PI BURLAP на самом деле представляет собой "модифицированную итерацию политики", которая запускает ограниченный вариант VI на каждой итерации. Мой вопрос к вам: знаете ли вы какие-либо ситуации, теоретические или практические, в которых (модифицированный) ИП должен превосходить ВИ?
1 ответ
Оказывается, что повторение политик, в частности модификация итераций политик, может превзойти итерацию значений, когда коэффициент дисконтирования (гамма) очень высок.
http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf