Укрепление обучения с MDP для оптимизации доходов
Я хочу смоделировать услугу продажи мест в самолете как MDP(процесс принятия решения Маркова), чтобы использовать обучение с подкреплением для оптимизации доходов авиакомпаний, для этого мне нужно было определить, что будет: состояния, действия, политика, стоимость и вознаграждение. Я немного подумал об этом, но думаю, что все еще чего-то не хватает.
Я моделирую свою систему следующим образом:
States = (r,c)
где r - количество пассажиров, а c - количество купленных мест,r>=c
,Actions = (p1,p2,p3)
это 3 цены. цель состоит в том, чтобы решить, кто из них даст больше доходов.- Награда: доходы.
Не могли бы вы сказать мне, что вы думаете и помочь мне?
После моделирования я должен реализовать все это с помощью Reinforcement Learning. Есть ли пакет, который делает работу?
2 ответа
Я думаю, что самое большое, чего не хватает в вашей формулировке - это последовательная часть. Усиленное обучение полезно при последовательном использовании, когда следующее состояние должно зависеть от текущего состояния (таким образом, "марковское"). В этой формулировке вы не указали никакого марковского поведения вообще. Кроме того, награда - это скаляр, который зависит либо от текущего состояния, либо от комбинации текущего состояния и действия. В вашем случае выручка зависит от цены (действия), но не имеет отношения к состоянию (месту). Это две большие проблемы, которые я вижу в вашей формулировке, есть и другие. Я предлагаю вам пройтись по теории RL (онлайн-курсы и т. Д.) И написать несколько примеров задач, прежде чем пытаться сформулировать свою собственную.
Добавляю это сюда для тех, кто наткнулся на эту тему и ищет ответ:
Последовательная часть должна представлять собой различные временные этапы (например, дни/часы) для реализации определенного ценового действия. Вознаграждение — это доход, полученный за этот временной интервал (цена*количество), а будущие вознаграждения будут зависеть от количества оставшихся непроданных мест и потенциальных цен, по которым они могут быть проданы.
Состояние: текущее количество мест, оставшихся непроданными, и количество пассажиров, желающих приобрести.
Действия: потенциальные цены на места с вероятностью продажи различного количества мест по разным ценам (вероятности перехода)
Награды: доход от мест, проданных в текущем состоянии.
С точки зрения последующей оптимизации уравнение Беллмана является распространенным подходом.