Connect 4 с обучением через самостоятельную игру (например, alphazero) не играет оптимально

После прочтения этой статьи Дэвидом Фостером ( https://medium.com/applied-data-science/how-to-build-your-own-alphazero-ai-using-python-and-keras-7f664945c188) и обучения моделям в течение нескольких дней, пока ошибка не перестала уменьшаться, я обнаружил, что AI Connect 4 в некоторых ситуациях плохо реагирует...

введите описание изображения здесь

Как видно на картинке, я ('o') играю против AI ('x'), в этой ситуации, когда у него уже есть 3-в-ряд в столбце 4, если я решу играть в столбце 7, чтобы чтобы получить мои собственные 3-в-ряд, ИИ фактически отдает предпочтение игре поверх моих 3-х (р =0,52), а не заканчивая игру, соединяя 4 со своими 3-х-рядными (р =0,18).

Я уже пытался тренироваться с более высокими настройками (как объяснил Дэвид в статье, сила ИИ будет лучше с эпизодами = 75, MCTS_SIMS = 100, Memory_size = 90000), но происходит аналогичный результат. Я предположил, что это связано с отсутствием исследования против эксплуатации, поэтому я поднял параметр исследования MCTS c (CPUCT в файле config.py) до 2 с его первоначального значения 1, но это не имело значения.

Хотелось бы узнать, есть ли у кого-нибудь идея, почему. Возможно ли решить эту проблему путем настройки параметров, или это единственное решение для добавления логики, чтобы ИИ определенно подключал 4-й из, если это возможно?

0 ответов

Другие вопросы по тегам