Укрепление обучения с MDP для оптимизации доходов

Question

Укрепление обучения с MDP для оптимизации доходов

Я хочу смоделировать услугу продажи мест в самолете как MDP(процесс принятия решения Маркова), чтобы использовать обучение с подкреплением для оптимизации доходов авиакомпаний, для этого мне нужно было определить, что будет: состояния, действия, политика, стоимость и вознаграждение. Я немного подумал об этом, но думаю, что все еще чего-то не хватает.

Я моделирую свою систему следующим образом:

States = (r,c) где r - количество пассажиров, а c - количество купленных мест, r>=c,
Actions = (p1,p2,p3) это 3 цены. цель состоит в том, чтобы решить, кто из них даст больше доходов.
Награда: доходы.

Не могли бы вы сказать мне, что вы думаете и помочь мне?

После моделирования я должен реализовать все это с помощью Reinforcement Learning. Есть ли пакет, который делает работу?

0

python optimization reinforcement-learning markov-decision-process

Источник

user9907816 07 июн '18 в 09:27

2 ответа

Решение

Добавляю это сюда для тех, кто наткнулся на эту тему и ищет ответ:

Последовательная часть должна представлять собой различные временные этапы (например, дни/часы) для реализации определенного ценового действия. Вознаграждение — это доход, полученный за этот временной интервал (цена*количество), а будущие вознаграждения будут зависеть от количества оставшихся непроданных мест и потенциальных цен, по которым они могут быть проданы.

Состояние: текущее количество мест, оставшихся непроданными, и количество пассажиров, желающих приобрести.

Действия: потенциальные цены на места с вероятностью продажи различного количества мест по разным ценам (вероятности перехода)

Награды: доход от мест, проданных в текущем состоянии.

С точки зрения последующей оптимизации уравнение Беллмана является распространенным подходом.

0

Источник

user17219043 18 июл '23 в 14:41

Другие вопросы по тегам python optimization reinforcement-learning markov-decision-process

user1042017 07 июн '18 в 18:33 2018-06-07 18:33 · Accepted Answer · 2018-06-07 18:33

Я думаю, что самое большое, чего не хватает в вашей формулировке - это последовательная часть. Усиленное обучение полезно при последовательном использовании, когда следующее состояние должно зависеть от текущего состояния (таким образом, "марковское"). В этой формулировке вы не указали никакого марковского поведения вообще. Кроме того, награда - это скаляр, который зависит либо от текущего состояния, либо от комбинации текущего состояния и действия. В вашем случае выручка зависит от цены (действия), но не имеет отношения к состоянию (месту). Это две большие проблемы, которые я вижу в вашей формулировке, есть и другие. Я предлагаю вам пройтись по теории RL (онлайн-курсы и т. Д.) И написать несколько примеров задач, прежде чем пытаться сформулировать свою собственную.