Как решить детерминированный MDP в нестационарной среде
Я ищу метод решения Марковского процесса принятия решений (MDP). Я знаю, что переход из одного состояния в другое является детерминированным, но среда не является стационарной. Это означает, что награда, которую получает агент, может быть разной при повторном посещении того же состояния. Есть ли такой алгоритм, как Q-Learning или SARSA, который я могу использовать для решения своей проблемы?
1 ответ
Теоретически это будет очень сложная проблема. То есть будет очень трудно найти алгоритм с теоретическими доказательствами сходимости к какому-либо (оптимальному) решению.
На практике любой стандартный алгоритм RL (например, те, что вы назвали) может быть вполне подходящим, если он не слишком "нестационарный". Имея это в виду, на практике, вероятно, будет хорошо, если ваша среда не будет меняться слишком быстро / внезапно / часто. Возможно, вы захотите использовать немного более высокую скорость исследования и / или более высокую скорость обучения, чем в стационарных условиях, потому что вам нужно иметь возможность продолжать обучение, и более поздний опыт будет более информативным, чем более старый опыт.