Описание тега markov-decision-process

Вопросы с тегом

0 ответов

Simpy может использоваться для определения сумм во времени (t+1) на основе времени (t) при моделировании процесса принятия решений Маркова.

Я новый пользователь с Simpy. Я хочу знать, когда это будет более полезным? Я в замешательстве, когда хочу определить суммы (во времени (t+1) на основе времени (t)) в процессе принятия решений по Маркову с использованием записи RL с помощью simpy (п…

21 фев '18 в 20:59

0 ответов

Марковский процесс принятия решений - допускается ли несколько выборок между эпохами принятия решений?

У меня просто есть простой вопрос о Марковском процессе принятия решений (MDP), на который я не смог получить прямого ответа из литературы: Я понимаю, что период принятия решений (время между эпохами принятия решений) в MDP является постоянным, в от…

markov-decision-process

12 янв '19 в 03:01

1 ответ

Следующее действие a из состояния s, является ли результат вероятным или детерминированным?

Я изо всех сил пытаюсь понять один аспект Марковского процесса принятия решений. Когда я нахожусь в состоянии s и выполняю действие a, является ли это детерминированным или стохастическим, чтобы прийти в состояние s+1? В большинстве примеров это каж…

reinforcement-learning stochastic-process markov-decision-process

16 ноя '17 в 15:18

0 ответов

pomdp лабиринт Pybrain не может быть запущен

Мне нужно изменить следующий лабиринт mdp на лабиринт pomdp, используя библиотеку pybrain. Следующий код реализует лабиринт mdp (учебники по Pybrain): rl.py from scipy import * #@unusedwildimport import matplotlib.pyplot as plt from pybrain.rl.envir…

reinforcement-learning maze pybrain markov-decision-process

05 июн '18 в 14:07

0 ответов

Как получить P и R матрицы для марковского процесса принятия решений в мире сетки?

Возьмите пример канонического мира сетки 3х4 ниже. Как бы выглядели матрицы P и R для этой проблемы? Я знаю, что P будет AxSxS, а R будет AxS, но у меня много проблем с размышлениями о том, как именно это работает. P должно быть 4 матрицы 12x12, есл…

python machine-learning markov-decision-process

12 апр '18 в 14:21

0 ответов

Моделирование доходности кредитной карты с помощью процесса принятия решений Маркова.

Это со ссылкой на документ, опубликованный по моделированию доходности кредитных карт обработанным Марковым решением. Я пытаюсь реализовать то же самое в python, используя Mdptoolbox, но не получаю вывод в ожидаемом формате. Мои штаты - это сочетани…

credit-card markov-decision-process value-iteration

21 ноя '17 в 07:11

1 ответ

Как решить детерминированный MDP в нестационарной среде

Я ищу метод решения Марковского процесса принятия решений (MDP). Я знаю, что переход из одного состояния в другое является детерминированным, но среда не является стационарной. Это означает, что награда, которую получает агент, может быть разной при…

reinforcement-learning expert-system markov-decision-process

09 мар '18 в 12:03

1 ответ

Динамическое программирование процесса принятия решений Маркова с итерацией значения

Я узнаю о MDPи value iteration в самообучении, и я надеюсь, что кто-то может улучшить мое понимание. Рассмотрим проблему с 3-х сторонними кубиками, имеющими номера 1, 2, 3, Если вы бросаете 1 или 2 вы получаете это значение в $ но если вы бросите 3 …

algorithm reinforcement-learning markov-decision-process value-iteration

26 авг '17 в 02:24

1 ответ

Частично наблюдаемый марковский процесс принятия решения

Я новичок в марковских процессах, и у меня есть некоторые основные (я думаю) вопросы относительно теории. Было бы здорово, если бы вы помогли мне разобраться со следующими вопросами: Что мы подразумеваем под контролируемыми действиями в частично наб…

artificial-intelligence probability reinforcement-learning expert-system markov-decision-process

27 ноя '17 в 13:28

0 ответов

Многоуровневая Марков Процесс принятия решения для инвентаризации в Python

Я новичок в MDP, если я собираюсь реализовать слайды 12,13,14 следующей ссылки для инвентаря: http://egon.cheme.cmu.edu/ewo/docs/SchaeferMDP.pdf Не могли бы вы помочь мне? Рисунок 1 Я хотел бы написать код для нескольких состояний MDP для Inventroy …

python-3.x reinforcement-learning inventory markov-decision-process

21 фев '18 в 06:50

2 ответа

Зачем нам нужна эксплуатация в RL(Q-Learning) для конвергенции?

Я реализую алгоритм Q-обучения, и я заметил, что мои Q-значения не сходятся к оптимальным Q-значениям, даже если политика сходится. Я определил стратегию выбора действий как эпсилон-жадный, а эпсилон уменьшается на 1/N, начиная с 1(N - общее количес…

reinforcement-learning q-learning convergence markov-decision-process

29 мар '18 в 02:52

0 ответов

Расчет полезности в процессе декомпозиции Маркова

Я читаю о функциях полезности в книге "Искусственный интеллект" Стюарта Рассела и Питера Норвиг. В главе 17 проблема деквеста последовательных хвостов. Я не возражаю против того, как автор вычислил значения, показанные на рис. 17.3, с гамма-гамма-зн…

reinforcement-learning markov-decision-process

14 дек '18 в 12:26

0 ответов

Имитация инвентаризации нескольких местоположений на основе процесса принятия решения Маркова в Python и Simpy

Я хотел бы реализовать инвентаризацию с несколькими местоположениями, основанную на процессе принятия решений с помощью python, особенно sympy, но, поскольку я не являюсь экспертом в области управления питоном и ресурсами, у меня есть некоторые проб…

python-3.x reinforcement-learning simpy inventory-management markov-decision-process

26 фев '18 в 03:34

0 ответов

Значение итерации для определения вероятности выигрыша в кости игры "Свинья"

Недавно я занимался оптимизацией игры в кости "Свинья" и наткнулся на статью Тодда Неллера "Оптимальная игра в игру" Свинья в кости " ". В этой статье он использует итерацию значения, чтобы определить вероятность выигрыша в игре из каждого возможног…

machine-learning dynamic-programming dice markov-decision-process value-iteration

13 ноя '18 в 17:32

1 ответ

Политический заговор MDP для Лабиринта

У меня есть лабиринт 5х-5, указанный следующим образом. r = [1 0 1 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1 0 1 1 0 1 0 1]; Где 1 - пути, а 0 - стены. Предположим, у меня есть функция foo (policy_vector, r), которая отображает элементы вектора политики на элем…

python-3.x matlab matplotlib matlab-figure markov-decision-process

17 апр '18 в 13:37

1 ответ

Определить MDP по видимым переходам

Следующие переходы были замечены в процессе принятия решений по Маркову. попытаться определить это R A S′ S 0 U C B -1 L E C 0 D C A -1 R E C 0 D C A +1 R D C 0 U C B +1 R D C Мне нужно найти состояния, переходы, награды и вероятность переходов. Я р…

artificial-intelligence reinforcement-learning policy markov-decision-process

21 апр '18 в 14:17

0 ответов

Как Value Iteration определяет оптимальную политику?

Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику. В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значе…

artificial-intelligence markov markov-decision-process value-iteration

09 окт '18 в 01:55

2 ответа

Государственное значение и государственные ценности действия с политикой - уравнение Беллмана с политикой

Я только начинаю с глубокого обучения подкреплению, и я пытаюсь разрушить эту концепцию. У меня есть это детерминированное уравнение Беллмана Когда я реализую Stochastacity из MDP, я получаю 2.6a Мое уравнение это предположение правильно. Я видел эт…

reinforcement-learning equation policy markov-decision-process mdp

22 фев '18 в 17:05

1 ответ

Путаница в понимании формулы Q(s,a) для обучения усилению MDP?

Я пытался понять, почему теорема улучшения политики может быть применена к эпсилон-жадной политике. Доказательство начинается с математического определения - Я запутался в самой первой строке доказательства. Это уравнение является уравнением ожидани…

machine-learning artificial-intelligence reinforcement-learning markov-chains markov-decision-process

15 сен '18 в 12:24

2 ответа

Укрепление обучения с MDP для оптимизации доходов

Я хочу смоделировать услугу продажи мест в самолете как MDP(процесс принятия решения Маркова), чтобы использовать обучение с подкреплением для оптимизации доходов авиакомпаний, для этого мне нужно было определить, что будет: состояния, действия, пол…

python optimization reinforcement-learning markov-decision-process

07 июн '18 в 09:27