Оптимизация проксимальной политики в настольных играх

Последние несколько дней я бездельничал с PPO, и мне удалось заставить его работать в некоторых примерах из спортзала. Затем я переключился на свое собственное окружение, представляющее собой настольную игру (соединение 4), но я не могу заставить ее играть точно.

Я знаю такие системы, как AlphaZero лучше, и я успешно реализовал один. Несмотря на это, я хотел попробовать PPO в этих настольных играх.

Мой вопрос: PPOи другие методы градиента политики, такие как A2C и A3C, хорошо подходят для такой среды? Почему или почему нет.

Спасибо

0 ответов

Другие вопросы по тегам