Описание тега markov-decision-process
0
ответов
Simpy может использоваться для определения сумм во времени (t+1) на основе времени (t) при моделировании процесса принятия решений Маркова.
Я новый пользователь с Simpy. Я хочу знать, когда это будет более полезным? Я в замешательстве, когда хочу определить суммы (во времени (t+1) на основе времени (t)) в процессе принятия решений по Маркову с использованием записи RL с помощью simpy (п…
21 фев '18 в 20:59
0
ответов
Марковский процесс принятия решений - допускается ли несколько выборок между эпохами принятия решений?
У меня просто есть простой вопрос о Марковском процессе принятия решений (MDP), на который я не смог получить прямого ответа из литературы: Я понимаю, что период принятия решений (время между эпохами принятия решений) в MDP является постоянным, в от…
12 янв '19 в 03:01
1
ответ
Следующее действие a из состояния s, является ли результат вероятным или детерминированным?
Я изо всех сил пытаюсь понять один аспект Марковского процесса принятия решений. Когда я нахожусь в состоянии s и выполняю действие a, является ли это детерминированным или стохастическим, чтобы прийти в состояние s+1? В большинстве примеров это каж…
16 ноя '17 в 15:18
0
ответов
pomdp лабиринт Pybrain не может быть запущен
Мне нужно изменить следующий лабиринт mdp на лабиринт pomdp, используя библиотеку pybrain. Следующий код реализует лабиринт mdp (учебники по Pybrain): rl.py from scipy import * #@unusedwildimport import matplotlib.pyplot as plt from pybrain.rl.envir…
05 июн '18 в 14:07
0
ответов
Как получить P и R матрицы для марковского процесса принятия решений в мире сетки?
Возьмите пример канонического мира сетки 3х4 ниже. Как бы выглядели матрицы P и R для этой проблемы? Я знаю, что P будет AxSxS, а R будет AxS, но у меня много проблем с размышлениями о том, как именно это работает. P должно быть 4 матрицы 12x12, есл…
12 апр '18 в 14:21
0
ответов
Моделирование доходности кредитной карты с помощью процесса принятия решений Маркова.
Это со ссылкой на документ, опубликованный по моделированию доходности кредитных карт обработанным Марковым решением. Я пытаюсь реализовать то же самое в python, используя Mdptoolbox, но не получаю вывод в ожидаемом формате. Мои штаты - это сочетани…
21 ноя '17 в 07:11
1
ответ
Как решить детерминированный MDP в нестационарной среде
Я ищу метод решения Марковского процесса принятия решений (MDP). Я знаю, что переход из одного состояния в другое является детерминированным, но среда не является стационарной. Это означает, что награда, которую получает агент, может быть разной при…
09 мар '18 в 12:03
1
ответ
Динамическое программирование процесса принятия решений Маркова с итерацией значения
Я узнаю о MDPи value iteration в самообучении, и я надеюсь, что кто-то может улучшить мое понимание. Рассмотрим проблему с 3-х сторонними кубиками, имеющими номера 1, 2, 3, Если вы бросаете 1 или 2 вы получаете это значение в $ но если вы бросите 3 …
26 авг '17 в 02:24
1
ответ
Частично наблюдаемый марковский процесс принятия решения
Я новичок в марковских процессах, и у меня есть некоторые основные (я думаю) вопросы относительно теории. Было бы здорово, если бы вы помогли мне разобраться со следующими вопросами: Что мы подразумеваем под контролируемыми действиями в частично наб…
27 ноя '17 в 13:28
0
ответов
Многоуровневая Марков Процесс принятия решения для инвентаризации в Python
Я новичок в MDP, если я собираюсь реализовать слайды 12,13,14 следующей ссылки для инвентаря: http://egon.cheme.cmu.edu/ewo/docs/SchaeferMDP.pdf Не могли бы вы помочь мне? Рисунок 1 Я хотел бы написать код для нескольких состояний MDP для Inventroy …
21 фев '18 в 06:50
2
ответа
Зачем нам нужна эксплуатация в RL(Q-Learning) для конвергенции?
Я реализую алгоритм Q-обучения, и я заметил, что мои Q-значения не сходятся к оптимальным Q-значениям, даже если политика сходится. Я определил стратегию выбора действий как эпсилон-жадный, а эпсилон уменьшается на 1/N, начиная с 1(N - общее количес…
29 мар '18 в 02:52
0
ответов
Расчет полезности в процессе декомпозиции Маркова
Я читаю о функциях полезности в книге "Искусственный интеллект" Стюарта Рассела и Питера Норвиг. В главе 17 проблема деквеста последовательных хвостов. Я не возражаю против того, как автор вычислил значения, показанные на рис. 17.3, с гамма-гамма-зн…
14 дек '18 в 12:26
0
ответов
Имитация инвентаризации нескольких местоположений на основе процесса принятия решения Маркова в Python и Simpy
Я хотел бы реализовать инвентаризацию с несколькими местоположениями, основанную на процессе принятия решений с помощью python, особенно sympy, но, поскольку я не являюсь экспертом в области управления питоном и ресурсами, у меня есть некоторые проб…
26 фев '18 в 03:34
0
ответов
Значение итерации для определения вероятности выигрыша в кости игры "Свинья"
Недавно я занимался оптимизацией игры в кости "Свинья" и наткнулся на статью Тодда Неллера "Оптимальная игра в игру" Свинья в кости " ". В этой статье он использует итерацию значения, чтобы определить вероятность выигрыша в игре из каждого возможног…
13 ноя '18 в 17:32
1
ответ
Политический заговор MDP для Лабиринта
У меня есть лабиринт 5х-5, указанный следующим образом. r = [1 0 1 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 0 1 1 0 1 0 1]; Где 1 - пути, а 0 - стены. Предположим, у меня есть функция foo (policy_vector, r), которая отображает элементы вектора политики на элем…
17 апр '18 в 13:37
1
ответ
Определить MDP по видимым переходам
Следующие переходы были замечены в процессе принятия решений по Маркову. попытаться определить это R A S′ S 0 U C B -1 L E C 0 D C A -1 R E C 0 D C A +1 R D C 0 U C B +1 R D C Мне нужно найти состояния, переходы, награды и вероятность переходов. Я р…
21 апр '18 в 14:17
0
ответов
Как Value Iteration определяет оптимальную политику?
Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику. В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значе…
09 окт '18 в 01:55
2
ответа
Государственное значение и государственные ценности действия с политикой - уравнение Беллмана с политикой
Я только начинаю с глубокого обучения подкреплению, и я пытаюсь разрушить эту концепцию. У меня есть это детерминированное уравнение Беллмана Когда я реализую Stochastacity из MDP, я получаю 2.6a Мое уравнение это предположение правильно. Я видел эт…
22 фев '18 в 17:05
1
ответ
Путаница в понимании формулы Q(s,a) для обучения усилению MDP?
Я пытался понять, почему теорема улучшения политики может быть применена к эпсилон-жадной политике. Доказательство начинается с математического определения - Я запутался в самой первой строке доказательства. Это уравнение является уравнением ожидани…
15 сен '18 в 12:24
2
ответа
Укрепление обучения с MDP для оптимизации доходов
Я хочу смоделировать услугу продажи мест в самолете как MDP(процесс принятия решения Маркова), чтобы использовать обучение с подкреплением для оптимизации доходов авиакомпаний, для этого мне нужно было определить, что будет: состояния, действия, пол…
07 июн '18 в 09:27