Как получается уравнение в "Стратегиях эволюции как масштабируемой альтернативе обучению усилению"?

Как излагается уравнение на странице 3 в документе OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления"?

1

1 ответ

Решение

Оно не "выведено" в том смысле, что это уравнение не было естественной прогрессией по сравнению с предыдущим уравнением, представленным в статье.

Эта формула демонстрирует, как авторы решили применить стохастическое градиентное восхождение. Это математическое представление алгоритма, который они использовали.

Прямо под этим уравнением они объясняют, как оно работает:

Результирующий алгоритм многократно выполняет две фазы: 1) Стохастически возмущает параметры политики и оценивает результирующие параметры, выполняя эпизод в среде, и 2) Объединяя результаты этих эпизодов, вычисляя оценку стохастического градиента и обновляя параметры,

Это может помочь перезапустить статью с самого начала и читать очень медленно и внимательно. Если вы столкнетесь с чем-то, что не имеет смысла, найдите его и не продолжайте читать статью, пока не поймете, что авторы пытаются вам сказать.

Другие вопросы по тегам