Оптимизация проксимальной политики в настольных играх
Последние несколько дней я бездельничал с PPO, и мне удалось заставить его работать в некоторых примерах из спортзала. Затем я переключился на свое собственное окружение, представляющее собой настольную игру (соединение 4), но я не могу заставить ее играть точно.
Я знаю такие системы, как AlphaZero
лучше, и я успешно реализовал один. Несмотря на это, я хотел попробовать PPO
в этих настольных играх.
Мой вопрос: PPO
и другие методы градиента политики, такие как A2C и A3C, хорошо подходят для такой среды? Почему или почему нет.
Спасибо