Как решить детерминированный MDP в нестационарной среде

Question

Как решить детерминированный MDP в нестационарной среде

Я ищу метод решения Марковского процесса принятия решений (MDP). Я знаю, что переход из одного состояния в другое является детерминированным, но среда не является стационарной. Это означает, что награда, которую получает агент, может быть разной при повторном посещении того же состояния. Есть ли такой алгоритм, как Q-Learning или SARSA, который я могу использовать для решения своей проблемы?

3

reinforcement-learning expert-system markov-decision-process

Источник

user9462497 09 мар '18 в 12:03

1 ответ

Решение

Другие вопросы по тегам reinforcement-learning expert-system markov-decision-process

user6735980 09 мар '18 в 16:14 2018-03-09 16:14 · Accepted Answer · 2018-03-09 16:14

Теоретически это будет очень сложная проблема. То есть будет очень трудно найти алгоритм с теоретическими доказательствами сходимости к какому-либо (оптимальному) решению.

На практике любой стандартный алгоритм RL (например, те, что вы назвали) может быть вполне подходящим, если он не слишком "нестационарный". Имея это в виду, на практике, вероятно, будет хорошо, если ваша среда не будет меняться слишком быстро / внезапно / часто. Возможно, вы захотите использовать немного более высокую скорость исследования и / или более высокую скорость обучения, чем в стационарных условиях, потому что вам нужно иметь возможность продолжать обучение, и более поздний опыт будет более информативным, чем более старый опыт.