Как получается уравнение в "Стратегиях эволюции как масштабируемой альтернативе обучению усилению"?
Как излагается уравнение на странице 3 в документе OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления"?
1 ответ
Оно не "выведено" в том смысле, что это уравнение не было естественной прогрессией по сравнению с предыдущим уравнением, представленным в статье.
Эта формула демонстрирует, как авторы решили применить стохастическое градиентное восхождение. Это математическое представление алгоритма, который они использовали.
Прямо под этим уравнением они объясняют, как оно работает:
Результирующий алгоритм многократно выполняет две фазы: 1) Стохастически возмущает параметры политики и оценивает результирующие параметры, выполняя эпизод в среде, и 2) Объединяя результаты этих эпизодов, вычисляя оценку стохастического градиента и обновляя параметры,
Это может помочь перезапустить статью с самого начала и читать очень медленно и внимательно. Если вы столкнетесь с чем-то, что не имеет смысла, найдите его и не продолжайте читать статью, пока не поймете, что авторы пытаются вам сказать.