Укрепление обучения с MDP для оптимизации доходов

Я хочу смоделировать услугу продажи мест в самолете как MDP(процесс принятия решения Маркова), чтобы использовать обучение с подкреплением для оптимизации доходов авиакомпаний, для этого мне нужно было определить, что будет: состояния, действия, политика, стоимость и вознаграждение. Я немного подумал об этом, но думаю, что все еще чего-то не хватает.

Я моделирую свою систему следующим образом:

  • States = (r,c) где r - количество пассажиров, а c - количество купленных мест, r>=c,
  • Actions = (p1,p2,p3) это 3 цены. цель состоит в том, чтобы решить, кто из них даст больше доходов.
  • Награда: доходы.

Не могли бы вы сказать мне, что вы думаете и помочь мне?

После моделирования я должен реализовать все это с помощью Reinforcement Learning. Есть ли пакет, который делает работу?

2 ответа

Решение

Я думаю, что самое большое, чего не хватает в вашей формулировке - это последовательная часть. Усиленное обучение полезно при последовательном использовании, когда следующее состояние должно зависеть от текущего состояния (таким образом, "марковское"). В этой формулировке вы не указали никакого марковского поведения вообще. Кроме того, награда - это скаляр, который зависит либо от текущего состояния, либо от комбинации текущего состояния и действия. В вашем случае выручка зависит от цены (действия), но не имеет отношения к состоянию (месту). Это две большие проблемы, которые я вижу в вашей формулировке, есть и другие. Я предлагаю вам пройтись по теории RL (онлайн-курсы и т. Д.) И написать несколько примеров задач, прежде чем пытаться сформулировать свою собственную.

Добавляю это сюда для тех, кто наткнулся на эту тему и ищет ответ:

Последовательная часть должна представлять собой различные временные этапы (например, дни/часы) для реализации определенного ценового действия. Вознаграждение — это доход, полученный за этот временной интервал (цена*количество), а будущие вознаграждения будут зависеть от количества оставшихся непроданных мест и потенциальных цен, по которым они могут быть проданы.

Состояние: текущее количество мест, оставшихся непроданными, и количество пассажиров, желающих приобрести.

Действия: потенциальные цены на места с вероятностью продажи различного количества мест по разным ценам (вероятности перехода)

Награды: доход от мест, проданных в текущем состоянии.

С точки зрения последующей оптимизации уравнение Беллмана является распространенным подходом.

Другие вопросы по тегам