Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики?

Привет, сообщество Stackru,

У меня проблема с методами градиента политики в обучении с подкреплением.

В методах градиента политики мы увеличиваем / уменьшаем логарифмическую вероятность действия, основываясь на возврате (то есть общем вознаграждении) с этого шага и далее. Поэтому, если наше возвращение велико, мы увеличиваем его, но у меня есть проблемы на этом этапе.

Скажем, у нас есть три награды в нашем возвращении. Хотя сумма всех этих трех наград высока, вторая награда действительно плохая.

Как мы решаем эту проблему? Как мы оцениваем каждую награду отдельно? Есть ли альтернативная версия этой политики градиентных методов?

1 ответ

Это многоцелевая проблема, где награда не скалярная, а векторная. По определению, не существует единой оптимальной политики в классическом смысле, но есть набор оптимальных по Парето политик, т. Е. Для которых вы не можете добиться лучших результатов в достижении цели (например, максимальной суммы первой награды), не теряя чего-либо на другая цель (максимальная сумма других наград). Существует много способов решения многоцелевых задач, как в оптимизации (часто генетические алгоритмы), так и в RL. Наивно, вы можете просто применить скаляризацию к вознаграждениям с помощью линейного взвешивания, но это действительно неэффективно. Более сложные подходы изучают многообразие в пространстве параметров политики (например, это).

Другие вопросы по тегам