Оптимизация параметров для настольной игры AI
Я создал небольшую программу ИИ, которая может играть в Отелло. Алгоритм, который я использую (MCTS UTC), имеет параметр, с помощью которого я могу настроить соотношение разведки и эксплуатации. Это одно значение с плавающей точкой в диапазоне от 0 до 10 (бесконечность возможна, но высокие значения не имеют большого смысла)
Я могу легко позволить алгоритму играть против себя с различными значениями этого параметра. Это дало бы мне представление о том, какое из двух значений лучше.
Что такое хороший алгоритм для оптимизации этого параметра?
(Я предпочитаю алгоритм, в котором есть некоторые исследования или публикации, чтобы понять, почему или когда он работает лучше.)
1 ответ
Рассмотрим кое-что в порядке генетического алгоритма, в котором программа играет сама с собой, и соотношение победителей сохраняется и немного варьируется. Следите за ценностями. Со временем это может привести к "лучшему" балансу.