Укрепление обучения против операций исследования

Мне было интересно, когда кто-то решит прибегнуть к обучению в области подкрепления к проблемам, которые ранее решались методами математической оптимизации - например, проблема коммивояжера или планирование работы или проблемы совместного использования такси.

Поскольку обучение в области подкрепления направлено на минимизацию / максимизацию определенной функции "затраты / вознаграждение" аналогично тому, как "Оперативное исследование" пытается оптимизировать результат определенной функции стоимости, я бы предположил, что проблемы, которые могут быть решены одной из двух сторон, могут быть решены другим. Однако так ли это? Есть ли компромиссы между двумя? Я действительно не видел слишком много исследований, проведенных на RL относительно проблем, указанных выше, но я могу ошибаться.

Если у кого-то есть какие-либо идеи, они будут высоко оценены!

2 ответа

Пабло дал отличное объяснение. Мое исследование на самом деле в обучении подкрепления против модели прогнозного контроля. А MPC - это контрольный подход, основанный на оптимизации траектории. Усиленное обучение - это всего лишь алгоритм оптимизации, управляемый данными, который можно использовать в приведенных выше примерах. Вот статья для задачи коммивояжера с использованием RL.

Самые большие различия действительно следующие:

Метод обучения подкреплению

  • Не нужна модель, но есть "игровая площадка", чтобы попробовать различные действия в среде и извлечь из нее уроки (т. Е. Подход, основанный на данных)
  • НЕ гарантирует оптимальности в сложных задачах из-за нелинейного отображения состояний на действия. В задачах с несколькими входами и несколькими выходами RL использует нелинейные аппроксиматоры функций для решения задач. Но нет гарантированной конвергенции в тот момент, когда они используются
  • Отлично подходит для задач, для которых трудно или невозможно найти модель.
  • Чрезвычайно сложно тренироваться, но дешевый онлайн расчет
  • Присущий адаптивный характер. Если условия среды меняются, RL обычно может адаптироваться, изучая новую среду.
  • Хуже всего то, что решения, принимаемые RL, не могут быть истолкованы. Усовершенствованные алгоритмы RL состоят из нескольких нейронных сетей, поэтому, если наш водитель RL-автомобиля съезжает с обрыва, почти невозможно определить, почему он так поступил.

Подходы к оптимизации

  • Производительность зависит от модели. Если модель плохая, оптимизация будет ужасной.

  • Поскольку производительность основана на модели, определение "идеальной" модели чрезвычайно дорого. В энергетической отрасли такая модель для одного завода стоит миллионы, особенно потому, что условия работы меняются со временем.

  • ГАРАНТИРУЕТ оптимальность. Опубликовано много работ, в которых приводятся доказательства того, что эти подходы гарантируют надежность, осуществимость и стабильность.

  • Легко интерпретировать. Элементы управления и решения, использующие подход оптимизации, легко интерпретировать, поскольку вы можете войти в модель и рассчитать, почему было выполнено определенное действие. В случае RL это обычно нейронная сеть и полностью черный ящик. Поэтому для проблем, чувствительных к безопасности, RL в настоящее время используется редко.

  • Очень дорогой онлайн-расчет в зависимости от горизонта прогнозирования, потому что на каждом временном шаге мы должны оптимизировать траекторию с учетом текущих состояний.

Вот мои два цента. Я думаю, что хотя оба приближения имеют общую цель (оптимальное принятие решений), их основные принципы работы различны. По сути, Reinforcement Learning - это подход, основанный на данных, где процесс оптимизации достигается взаимодействием агента с средой (т. Е. Данными). С другой стороны, Optimization Research использует другие методы, которые требуют более глубокого знания проблемы и / или навязывают больше предположений.

Есть много проблем, особенно академических или игрушечных, где могут применяться оба приближения, RL и OR. В реальных приложениях, я полагаю, что если вы сможете удовлетворить все предположения, требуемые OR, RL не достигнет лучших результатов. К сожалению, это не всегда так, поэтому RL более полезен в таких случаях.

Заметьте, однако, что существуют методы, в которых не ясна разница между RL и OR.