Как вы оцениваете обученного агента обучения с подкреплением, независимо от того, обучен он или нет?
Я новичок в обучении агентов обучения с подкреплением. Я читал об алгоритме PPO и использовал библиотеку стабильных базовых показателей для обучения агента с помощью PPO. Итак, мой вопрос заключается в том, как мне оценить обученного агента RL. Рассмотрим проблему регрессии или классификации, у меня есть такие показатели, как r2_score или точность и т. Д. Существуют ли такие параметры или как мне протестировать агент, сделать вывод, хорошо или плохо обучен агент.
Спасибо
2 ответа
Вы можете запустить свою среду со случайной политикой, а затем запустить ту же среду с тем же случайным начальным значением с обученной моделью PPO. Сравнение накопленных вознаграждений дает вам некоторые первые мысли о производительности обученной модели.
Поскольку вы используете PPO, вам может потребоваться проверить траектории градиентов и значения расхождения KL, чтобы увидеть, правильно ли вы определили порог для принятия шага градиента. Если допустимых шагов градиента очень мало, вы можете изменить свои параметры.
Хороший способ оценить агент RL - запустить его в среде N раз и вычислить средний доход от N запусков.
Вышеупомянутый этап оценки обычно выполняют в течение всего тренировочного процесса и строят график средней отдачи по мере прохождения тренировки. Вы ожидаете, что средняя отдача увеличится, указывая на то, что тренинг приносит что-то полезное.
Например, на рисунке 3 статьи PPO авторы изобразили график средней отдачи с шагами обучения, чтобы показать, что PPO работает лучше, чем другие алгоритмы.