Значение итерации для определения вероятности выигрыша в кости игры "Свинья"

Недавно я занимался оптимизацией игры в кости "Свинья" и наткнулся на статью Тодда Неллера "Оптимальная игра в игру" Свинья в кости " ". В этой статье он использует итерацию значения, чтобы определить вероятность выигрыша в игре из каждого возможного состояния игры, используя оптимальную стратегию.

В более поздней статье он рассказывает о сравнении политик, одной из которых является стратегия "Держись в 20". Он включает в себя вероятности того, что оптимальный игрок победит игрока "Hold at 20", однако никогда не дает понять, как он добился этих результатов. Есть ли способ рассчитать вероятность выигрыша в игре из каждого состояния при использовании "Hold at 20", как при оптимальной игре, с использованием итерации значения или какой-либо другой техники? Если это так, то представляется возможным сравнить стратегии, используя указанный алгоритм.

0 ответов