Укрепление обучения против операций исследования
Мне было интересно, когда кто-то решит прибегнуть к обучению в области подкрепления к проблемам, которые ранее решались методами математической оптимизации - например, проблема коммивояжера или планирование работы или проблемы совместного использования такси.
Поскольку обучение в области подкрепления направлено на минимизацию / максимизацию определенной функции "затраты / вознаграждение" аналогично тому, как "Оперативное исследование" пытается оптимизировать результат определенной функции стоимости, я бы предположил, что проблемы, которые могут быть решены одной из двух сторон, могут быть решены другим. Однако так ли это? Есть ли компромиссы между двумя? Я действительно не видел слишком много исследований, проведенных на RL относительно проблем, указанных выше, но я могу ошибаться.
Если у кого-то есть какие-либо идеи, они будут высоко оценены!
2 ответа
Пабло дал отличное объяснение. Мое исследование на самом деле в обучении подкрепления против модели прогнозного контроля. А MPC - это контрольный подход, основанный на оптимизации траектории. Усиленное обучение - это всего лишь алгоритм оптимизации, управляемый данными, который можно использовать в приведенных выше примерах. Вот статья для задачи коммивояжера с использованием RL.
Самые большие различия действительно следующие:
Метод обучения подкреплению
- Не нужна модель, но есть "игровая площадка", чтобы попробовать различные действия в среде и извлечь из нее уроки (т. Е. Подход, основанный на данных)
- НЕ гарантирует оптимальности в сложных задачах из-за нелинейного отображения состояний на действия. В задачах с несколькими входами и несколькими выходами RL использует нелинейные аппроксиматоры функций для решения задач. Но нет гарантированной конвергенции в тот момент, когда они используются
- Отлично подходит для задач, для которых трудно или невозможно найти модель.
- Чрезвычайно сложно тренироваться, но дешевый онлайн расчет
- Присущий адаптивный характер. Если условия среды меняются, RL обычно может адаптироваться, изучая новую среду.
- Хуже всего то, что решения, принимаемые RL, не могут быть истолкованы. Усовершенствованные алгоритмы RL состоят из нескольких нейронных сетей, поэтому, если наш водитель RL-автомобиля съезжает с обрыва, почти невозможно определить, почему он так поступил.
Подходы к оптимизации
Производительность зависит от модели. Если модель плохая, оптимизация будет ужасной.
Поскольку производительность основана на модели, определение "идеальной" модели чрезвычайно дорого. В энергетической отрасли такая модель для одного завода стоит миллионы, особенно потому, что условия работы меняются со временем.
ГАРАНТИРУЕТ оптимальность. Опубликовано много работ, в которых приводятся доказательства того, что эти подходы гарантируют надежность, осуществимость и стабильность.
Легко интерпретировать. Элементы управления и решения, использующие подход оптимизации, легко интерпретировать, поскольку вы можете войти в модель и рассчитать, почему было выполнено определенное действие. В случае RL это обычно нейронная сеть и полностью черный ящик. Поэтому для проблем, чувствительных к безопасности, RL в настоящее время используется редко.
Очень дорогой онлайн-расчет в зависимости от горизонта прогнозирования, потому что на каждом временном шаге мы должны оптимизировать траекторию с учетом текущих состояний.
Вот мои два цента. Я думаю, что хотя оба приближения имеют общую цель (оптимальное принятие решений), их основные принципы работы различны. По сути, Reinforcement Learning - это подход, основанный на данных, где процесс оптимизации достигается взаимодействием агента с средой (т. Е. Данными). С другой стороны, Optimization Research использует другие методы, которые требуют более глубокого знания проблемы и / или навязывают больше предположений.
Есть много проблем, особенно академических или игрушечных, где могут применяться оба приближения, RL и OR. В реальных приложениях, я полагаю, что если вы сможете удовлетворить все предположения, требуемые OR, RL не достигнет лучших результатов. К сожалению, это не всегда так, поэтому RL более полезен в таких случаях.
Заметьте, однако, что существуют методы, в которых не ясна разница между RL и OR.