Тренинг по усиленному обучению
Я новичок в изучении подкрепления и делаю проект о шахматах. Я использую нейронную сеть и обучение разнице во времени, чтобы обучить движок изучению игры.
Нейронная сеть имеет один входной слой (из 385 объектов), два скрытых слоя и один выходной слой, диапазон которого [-1,1], где -1 означает проигрыш и 1 выигрыш (0 розыгрыш). Я использую TD-лямбду для самостоятельного изучения шахмат, и по умолчанию рассматривается только следующие 10 ходов. Все веса инициализируются в диапазоне [-1, 1].
Я использую прямое распространение, чтобы оценить значение состояния, но большинство значений очень близко к 1 или -1, даже результат - ничья, которую, я думаю, двигатель не изучает хорошо. Я думаю, что некоторые значения велики и доминируют в результате, изменение малых весов не помогает. Я изменяю размер двух скрытых слоев, но это не работает (тем не менее, я попробовал игрушечный пример с небольшим размером и размером, он может сходиться, и оценочное значение очень близко к целевому после десятков итераций). Я не знаю, как это исправить, может кто-нибудь дать мне совет?
Спасибо.
Некоторые ссылки перечислены ниже