Взвешенный Ним стеками вместо стопок, и каждый игрок выбирает с противоположных сторон
Там n стопок монет. Каждая стопка содержит k_i монет, и монеты в определенной стопке имеют разные значения. В каждый ход вы можете выбрать одну монету из верхней части любой стопки, а ваш оппонент может выбрать одну монету из нижней части любой стопки. Выигрывает человек с наибольшей стоимостью монет.
Какая стратегия была бы оптимальной для этой игры?
Я думаю, это должен быть какой-то жадный алгоритм в сочетании с ответом оппонентов и, может быть, разделение каждого стека пополам для сравнения значений?
2 ответа
Значение для четных стеков
В качестве частного случая рассмотрим, все ли стеки четные.
Второй игрок может скопировать первого игрока, чтобы получить значение, равное всем нижним половинам стопки. Это показывает, что ценность игры для второго игрока не ниже низа-верха (т.е. ценность игры для первого игрока не выше верх-низ).
Точно так же первый игрок может взять из любой стопки, затем скопировать второго игрока, чтобы получить значение, равное всем верхним половинам стопки. (Если второй игрок играет из нечетной стопки, первый игрок снова может брать из любой стопки.) Эта стратегия гарантирует, что первый игрок получит значение, равное всем верхним половинам стопки. Это показывает, что ценность игры для первого игрока как минимум сверху-снизу.
Следовательно, значение этой игры точно верх-низ и оптимальной стратегией по крайней мере для одного игрока является такой подход копирования. Конечно, если игроки играют неоптимально, возможно, можно добиться большего, но это теоретическое оптимальное значение с лучшей игрой с обеих сторон.
При использовании стеков нечетного размера необходимо уделять больше внимания центральным значениям каждого стека.
Значение для общих стеков
Как правило, значение для набора стеков задается путем добавления значений на вашей стороне, вычитания значений на другой стороне и по очереди добавления/вычитания любых центральных значений (в порядке убывания размера). (Если это ваша очередь, первое значение добавляется, в противном случае первое значение вычитается.)
В Python это можно было бы записать так:
def compute_value(stacks):
t=0
middle=[]
for S in stacks:
n=len(S)
n2,r = divmod(n,2)
t += sum(S[:n2]) - sum(S[n2+r:])
if r:
middle.append(S[n2])
middle.sort(reverse=True)
for i,m in enumerate(middle):
if i%2==0:
t += m
else:
t -= m
return t
Оптимальная стратегия
Это приводит к эффективной оптимальной стратегии. Просто возьмите по одной монете из каждой стопки, подсчитайте стоимость получившихся стопок (с точки зрения оппонентов) и выберите вариант, который даст вам наивысший балл (счет = стоимость монеты + стоимость результирующих стопок).
Обратите внимание, что это эффективно, потому что вам нужно учитывать только один ход вперед, вам не нужно исследовать все дерево ходов.
(Это также может быть дополнительно оптимизировано, поскольку все значения в стеках могут быть проигнорированы, кроме монет, которые можно взять в этот ход, центральных монет и монет, которые могут стать центральными монетами.)
Сначала попробуем определить, какие драгоценные камни будут взяты, если оба игрока будут играть оптимально. Вместо стопки предположим, что драгоценные камни выстроены в ряд, и игроки ставят метки рядом с выбранными ими драгоценными камнями.
Лемма 5.1: Сначала давайте докажем, что если любой игрок сделает выбор, он может принудительно разделить все стеки настолько равномерно, насколько это возможно. Для этого игрок просто должен зеркально отражать ходы своих противников, и все стеки в конечном итоге будут разделены максимально равномерно.
Гипотеза, основанная на интуиции, заключается в том, что если оба игрока играют оптимально, то в конечном итоге они будут собирать драгоценные камни только со своей половины. Мы сравниваем только два стека из всех стеков. Таким образом, мы получим 3 случая:
Случай 1: четный и четный
Возьмем какие-то две стопки камней по $2m$ и $2n$ и пусть камни пронумерованы как $a_1,a_2,...,a_{2m}$ и $b_1,b_2,...,b_{2n}$ слева направо соответственно, и игрок 1 выбирает слева, а игрок 2 справа.
Интуитивно мы ожидаем, что игроки будут делить каждый стек совершенно поровну между собой. Предположим противное, что в итоге игрок 1 выбрал драгоценные камни $a_1,a_2,...,a_m,...,a_{m+k}$ и $b_1,b_2,...,b_{ nk}$ и игрок 2 выбрали оставшиеся драгоценные камни в этих двух стопках.
Из леммы 5.1 мы знаем, что любой игрок мог форсировать разделение, но поскольку он этого не сделал, мы можем предположить, что сумма значений драгоценных камней из $a_{m+1},...,a_{m+k}$ и из $b_{n-k+1},...,b_n$ равны, иначе это означало бы, что игроки играли неоптимально. Возможно, что значения равны, но когда мы играем, мы можем разделить их поровну для простоты.
Случай 2: нечетное и нечетное
Давайте сделаем то же самое, что и раньше, но с двумя стопками, состоящими из камней по $2m+1$ и $2n+1$. Таким образом, в центре большинства драгоценных камней находятся $a_{m+1}$ и $b_{n+1}$.
Снова предположим, что в итоге игрок 1 выбрал драгоценные камни $a_1,a_2,...,a_{m+1},...,a_{m+1+k}$ и $b_1,b_2,.. .,b_{n+1-k}$ и игрок 2 выбрали оставшиеся драгоценные камни в этих двух стопках. Как и в предыдущем случае, сумма значений драгоценных камней из $a_{m+2},...,a_{m+1+k}$ и из $b_{n+1-k+1},...,b_{n+1}$ должны быть равны, поскольку предполагается, что оба игрока играют оптимально. Единственная разница в этом случае заключается в том, что игрок, который ходит первым, может выбрать больший из драгоценных камней между $a_{m+1}$ и $b_{n+1}$. Таким образом, мы можем разделить стопки поровну, и нам нужно сравнить только центральные драгоценные камни.
Случай 3: четное и нечетное
Давайте сделаем то же самое, что и раньше, но две стопки по 2m и 2n+1 драгоценных камней. Таким образом, центральным камнем для стека B является b_(n+1). Предположим, что игрок 1 делает выбор первым.
Предположим, что в итоге игрок 1 выбрал камни $a_1,a_2,...,a_m,...,a_{m+k}$ и $b_1,b_2,...,b_{n+1- k}$ и игрок 2 выбрали оставшиеся драгоценные камни в этих двух стопках. Как и в предыдущем случае, сумма значений драгоценных камней из $a_{m+1},...,a_{m+k}$ и из $b_{n+1-k+1},...,b_{n+1}$ должны быть равны.
Аналогично, если в итоге игрок 1 выбрал драгоценные камни $a_1,a_2,...,a_{mk}$ и $b_1,b_2,...,b_{n+1},...,b_{n +1+k}$ и игрок 2 выбрал оставшиеся драгоценные камни, затем сумма значений драгоценных камней из $a_{m-k+1},...,a_m$ и из $b_{n+2},. ..,b_{n+1+k}$ должны быть равны. Поэтому мы можем просто разделить каждый стек пополам для простоты.
Следовательно, оптимальной стратегией (для обоих игроков) было бы разделить каждую стопку с четным количеством драгоценных камней пополам и упорядочить все стопки с нечетным количеством драгоценных камней по убыванию в зависимости от стоимости их центральных драгоценных камней, а затем 1-го стек будет разделен таким образом, что игрок 1(предположим, что игрок 1 начинает) получает центральный камень, а второй стек будет разделен таким образом, что игрок 2 получит центральный камень, а стек $(2n-1)th$ с нечетное количество драгоценных камней будет разделено, и игрок 1 получит центральный драгоценный камень, а стопка $(2n)th$ с нечетным количеством драгоценных камней будет разделена, и игрок 2 получит центральный драгоценный камень.
Следовательно, если мы ходим первыми, мы должны выбрать стек с нечетным количеством драгоценных камней и самым ценным центральным камнем, и мы можем просто отражать ходы бота до тех пор, пока стек не будет удален, потому что мы предполагаем, что бот также играет оптимально. . Если в вашем ходу нет частично пустых стопок, вы должны выбрать стопку с нечетным количеством драгоценных камней с самым ценным на данный момент драгоценным камнем в центре.
Отсортируем и пронумеруем все стопки с нечетным количеством драгоценных камней по убыванию, исходя из их центрального драгоценного камня, от 1 до $k$.
Согласно этой стратегии, если оба игрока играют оптимально, предполагая, что игрок 1 ходит первым и выбирает сверху,
Счет игрока 1 = сумма значений всех драгоценных камней в верхней половине всех стопок с четным количеством драгоценных камней + сумма значений всех драгоценных камней в верхней половине стопок с нечетным количеством драгоценных камней { включая центральный драгоценный камень если стопка пронумерована как нечетное число, и исключая центральный драгоценный камень, если стопка пронумерована как четное число}
Счет игрока 2 = сумма значений оставшихся драгоценных камней
Я думаю, что это результат, если оба игрока играют с (как я думаю) наиболее оптимальной стратегией.