Описание тега value-iteration

Вопросы с тегом

1 ответ

Как решить примеры изучения Grid в подкреплении, используя итерацию значений?

Я нахожу либо теорию, либо пример с питоном, который не подходит для начинающих. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для ите…

reinforcement-learning value-iteration

03 мар '18 в 12:15

0 ответов

Ускоренный доступ к 2D NumPy/ массиву или Large 1D Numpy/ массиву

Я выполняю расстановку приоритетов, для которой у меня есть матрица, которая имеет 1000*1000 ячеек (gridworld), к чьим ячейкам я должен обращаться неоднократно в течение истинного цикла для назначения (я по сути не перебираю список, но ко всем ячейк…

python numpy value-iteration

16 апр '18 в 17:35

0 ответов

Моделирование доходности кредитной карты с помощью процесса принятия решений Маркова.

Это со ссылкой на документ, опубликованный по моделированию доходности кредитных карт обработанным Марковым решением. Я пытаюсь реализовать то же самое в python, используя Mdptoolbox, но не получаю вывод в ожидаемом формате. Мои штаты - это сочетани…

credit-card markov-decision-process value-iteration

21 ноя '17 в 07:11

5 ответов

В чем разница между итерацией значения и итерацией политики?

В обучении с подкреплением, в чем разница между итерацией политики и итерацией значения? Насколько я понимаю, в итерации значения вы используете уравнение Беллмана для выбора оптимальной политики, тогда как в итерации политики вы случайным образом в…

machine-learning reinforcement-learning markov-models value-iteration

22 май '16 в 02:43

1 ответ

Динамическое программирование процесса принятия решений Маркова с итерацией значения

Я узнаю о MDPи value iteration в самообучении, и я надеюсь, что кто-то может улучшить мое понимание. Рассмотрим проблему с 3-х сторонними кубиками, имеющими номера 1, 2, 3, Если вы бросаете 1 или 2 вы получаете это значение в $ но если вы бросите 3 …

algorithm reinforcement-learning markov-decision-process value-iteration

26 авг '17 в 02:24

0 ответов

Оптимизация алгоритма итерации стоимости в обучении подкреплению

У меня есть одно сомнение, связанное с итерацией значения. Я пытался решить проблему "FrozenLake8x8-v0". Алгоритм, который я использовал, в основном рассчитывает вознаграждение для каждого состояния, если мы хотим сделать первые 1000 шагов из этого …

python reinforcement-learning value-iteration

17 дек '18 в 02:24

0 ответов

Значение итерации в gridworld

Я знаю, как получить 0,72 в первом изображении, но может кто-нибудь объяснить, как получить 0,78 и 0,43 в сетке второго изображения?

reinforcement-learning value-iteration

05 июн '18 в 19:09

0 ответов

Значение итерации не изучает ничего полезного

В настоящее время я пытаюсь выучить оптимальную политику для создания спортивной среды Open AI "Pendulum-v0". Я знаю, что существуют более подходящие методы для непрерывных доменов, но мы делаем несколько исторический курс об обучении подкреплению. …

dynamic-programming reinforcement-learning openai-gym pendulum value-iteration

29 ноя '18 в 20:45

1 ответ

Является ли метод поиска по дереву Монте-Карло или итерация значения (или что-то еще)?

Я беру урок Reinforcement Learning, и я не понимал, как объединить концепции итерации / итерации политики с Монте-Карло (а также TD/SARSA/Q-learning). В таблице ниже, как можно заполнить пустые ячейки: Должен ли / может быть быть двоичным да / нет, …

reinforcement-learning q-learning monte-carlo-tree-search temporal-difference value-iteration

07 май '18 в 18:28

0 ответов

Значение итерации для определения вероятности выигрыша в кости игры "Свинья"

Недавно я занимался оптимизацией игры в кости "Свинья" и наткнулся на статью Тодда Неллера "Оптимальная игра в игру" Свинья в кости " ". В этой статье он использует итерацию значения, чтобы определить вероятность выигрыша в игре из каждого возможног…

machine-learning dynamic-programming dice markov-decision-process value-iteration

13 ноя '18 в 17:32

6 ответов

Перебирать все отдельные значения словаря в списке словарей

Предполагая список словарей, цель состоит в том, чтобы перебрать все различные значения во всех словарях. Пример: d1={'a':1, 'c':3, 'e':5} d2={'b':2, 'e':5, 'f':6} l=[d1,d2] Итерация должна быть закончена 1,2,3,5,6, не имеет значения, если это набор…

python dictionary value-iteration

12 июл '18 в 10:24

0 ответов

Как Value Iteration определяет оптимальную политику?

Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику. В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значе…

artificial-intelligence markov markov-decision-process value-iteration

09 окт '18 в 01:55

0 ответов

Шаг по улучшению политики итерации политики

Здравствуйте, уважаемое сообщество Stackru! Сейчас я прохожу курс обучения по усилению и у меня возникла путаница с методом итераций политики. В итерации политики у нас есть случайная политика в начале и функции значений для каждого состояния. В час…

dynamic-programming reinforcement-learning planning value-iteration

09 ноя '18 в 17:41

4 ответа

Как избежать создания ненужных списков?

Я все время сталкиваюсь с ситуациями, когда я извлекаю некоторую информацию из файла или где-то еще, а затем вынужден массировать данные до конечной желаемой формы через несколько шагов. Например: def insight_pull(file): with open(file) as in_f: lin…

python file list-comprehension string-iteration value-iteration

08 дек '17 в 20:38

1 ответ

Почему итерация политики быстрее, чем итерация значения?

Мы знаем, что итерация политики дает нам политику напрямую и, следовательно, выполняется быстрее. Но может ли кто-нибудь объяснить это некоторыми примерами.

value-iteration

25 ноя '19 в 02:33

1 ответ

почему методы итерации политики и итерации значений дают разные результаты для оптимальных значений и оптимальной политики?

В настоящее время я изучаю динамическое программирование в обучении с подкреплением, в котором я столкнулся с двумя концепциями Value-Iteration и Policy-Iteration. Чтобы понять то же самое, я реализую пример gridworld из Sutton, который говорит: Нет…

python dynamic-programming reinforcement-learning policy value-iteration

08 сен '19 в 21:37

1 ответ

Определение функций с условными выражениями в Python

В настоящее время я работаю над кодированием докторской диссертации. В статье рассматривается выборочный дефолт, основанный на работе Arellano (2008). Вдохновлялся блокнотами @quantecon. Я пытаюсь создать функцию на Python, используя Numba, которая …

python economics fixed-point-iteration value-iteration

01 май '20 в 15:43

1 ответ

Эквивалентны ли эти две разные формулы для обновления Value-Iteration?

Изучая MDP из разных источников, я наткнулся на две разные формулы для обновления значения в алгоритме Value-Iteration. Первый (тот, что есть в Википедии и пара книг): . И второй (в некоторых вопросах здесь, в стеке и на слайдах моего курса): Для ко…

formula mdp value-iteration

10 дек '19 в 04:17

0 ответов

Попытайтесь реализовать алгоритм итерации значений, но получите неразрешимую ошибку

Я пытаюсь реализовать алгоритм итерации значений прямо сейчас. Задача в том, чтобы этот алгоритм был независимым, поэтому его можно было повторно использовать для разных задач (многоразово). Поэтому я написал код объектно-ориентированный. При его вы…

python reinforcement-learning object-oriented-analysis value-iteration

17 май '20 в 22:29

0 ответов

Итерация значения RL, задача с несколькими действиями в gridworld

Я только начинаю изучать обучение с подкреплением и пытаюсь понять основы. Я понимаю алгоритмы оценки политики, итерации политики и значения и могу решить простую задачу оптимизации gridworld с двумя конечными состояниями -5 или +5. Вознаграждение з…

python reinforcement-learning gridworld value-iteration

21 фев '21 в 21:54