Описание тега value-iteration

1 ответ

Как решить примеры изучения Grid в подкреплении, используя итерацию значений?

Я нахожу либо теорию, либо пример с питоном, который не подходит для начинающих. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для ите…
03 мар '18 в 12:15
0 ответов

Ускоренный доступ к 2D NumPy/ массиву или Large 1D Numpy/ массиву

Я выполняю расстановку приоритетов, для которой у меня есть матрица, которая имеет 1000*1000 ячеек (gridworld), к чьим ячейкам я должен обращаться неоднократно в течение истинного цикла для назначения (я по сути не перебираю список, но ко всем ячейк…
16 апр '18 в 17:35
0 ответов

Моделирование доходности кредитной карты с помощью процесса принятия решений Маркова.

Это со ссылкой на документ, опубликованный по моделированию доходности кредитных карт обработанным Марковым решением. Я пытаюсь реализовать то же самое в python, используя Mdptoolbox, но не получаю вывод в ожидаемом формате. Мои штаты - это сочетани…
5 ответов

В чем разница между итерацией значения и итерацией политики?

В обучении с подкреплением, в чем разница между итерацией политики и итерацией значения? Насколько я понимаю, в итерации значения вы используете уравнение Беллмана для выбора оптимальной политики, тогда как в итерации политики вы случайным образом в…
1 ответ

Динамическое программирование процесса принятия решений Маркова с итерацией значения

Я узнаю о MDPи value iteration в самообучении, и я надеюсь, что кто-то может улучшить мое понимание. Рассмотрим проблему с 3-х сторонними кубиками, имеющими номера 1, 2, 3, Если вы бросаете 1 или 2 вы получаете это значение в $ но если вы бросите 3 …
0 ответов

Оптимизация алгоритма итерации стоимости в обучении подкреплению

У меня есть одно сомнение, связанное с итерацией значения. Я пытался решить проблему "FrozenLake8x8-v0". Алгоритм, который я использовал, в основном рассчитывает вознаграждение для каждого состояния, если мы хотим сделать первые 1000 шагов из этого …
0 ответов

Значение итерации в gridworld

Я знаю, как получить 0,72 в первом изображении, но может кто-нибудь объяснить, как получить 0,78 и 0,43 в сетке второго изображения?
05 июн '18 в 19:09
0 ответов

Значение итерации не изучает ничего полезного

В настоящее время я пытаюсь выучить оптимальную политику для создания спортивной среды Open AI "Pendulum-v0". Я знаю, что существуют более подходящие методы для непрерывных доменов, но мы делаем несколько исторический курс об обучении подкреплению. …
1 ответ

Является ли метод поиска по дереву Монте-Карло или итерация значения (или что-то еще)?

Я беру урок Reinforcement Learning, и я не понимал, как объединить концепции итерации / итерации политики с Монте-Карло (а также TD/SARSA/Q-learning). В таблице ниже, как можно заполнить пустые ячейки: Должен ли / может быть быть двоичным да / нет, …
0 ответов

Значение итерации для определения вероятности выигрыша в кости игры "Свинья"

Недавно я занимался оптимизацией игры в кости "Свинья" и наткнулся на статью Тодда Неллера "Оптимальная игра в игру" Свинья в кости " ". В этой статье он использует итерацию значения, чтобы определить вероятность выигрыша в игре из каждого возможног…
6 ответов

Перебирать все отдельные значения словаря в списке словарей

Предполагая список словарей, цель состоит в том, чтобы перебрать все различные значения во всех словарях. Пример: d1={'a':1, 'c':3, 'e':5} d2={'b':2, 'e':5, 'f':6} l=[d1,d2] Итерация должна быть закончена 1,2,3,5,6, не имеет значения, если это набор…
12 июл '18 в 10:24
0 ответов

Как Value Iteration определяет оптимальную политику?

Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику. В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значе…
0 ответов

Шаг по улучшению политики итерации политики

Здравствуйте, уважаемое сообщество Stackru! Сейчас я прохожу курс обучения по усилению и у меня возникла путаница с методом итераций политики. В итерации политики у нас есть случайная политика в начале и функции значений для каждого состояния. В час…
4 ответа

Как избежать создания ненужных списков?

Я все время сталкиваюсь с ситуациями, когда я извлекаю некоторую информацию из файла или где-то еще, а затем вынужден массировать данные до конечной желаемой формы через несколько шагов. Например: def insight_pull(file): with open(file) as in_f: lin…
1 ответ

Почему итерация политики быстрее, чем итерация значения?

Мы знаем, что итерация политики дает нам политику напрямую и, следовательно, выполняется быстрее. Но может ли кто-нибудь объяснить это некоторыми примерами.
25 ноя '19 в 02:33
1 ответ

почему методы итерации политики и итерации значений дают разные результаты для оптимальных значений и оптимальной политики?

В настоящее время я изучаю динамическое программирование в обучении с подкреплением, в котором я столкнулся с двумя концепциями Value-Iteration и Policy-Iteration. Чтобы понять то же самое, я реализую пример gridworld из Sutton, который говорит: Нет…
1 ответ

Определение функций с условными выражениями в Python

В настоящее время я работаю над кодированием докторской диссертации. В статье рассматривается выборочный дефолт, основанный на работе Arellano (2008). Вдохновлялся блокнотами @quantecon. Я пытаюсь создать функцию на Python, используя Numba, которая …
1 ответ

Эквивалентны ли эти две разные формулы для обновления Value-Iteration?

Изучая MDP из разных источников, я наткнулся на две разные формулы для обновления значения в алгоритме Value-Iteration. Первый (тот, что есть в Википедии и пара книг): . И второй (в некоторых вопросах здесь, в стеке и на слайдах моего курса): Для ко…
10 дек '19 в 04:17
0 ответов

Попытайтесь реализовать алгоритм итерации значений, но получите неразрешимую ошибку

Я пытаюсь реализовать алгоритм итерации значений прямо сейчас. Задача в том, чтобы этот алгоритм был независимым, поэтому его можно было повторно использовать для разных задач (многоразово). Поэтому я написал код объектно-ориентированный. При его вы…
0 ответов

Итерация значения RL, задача с несколькими действиями в gridworld

Я только начинаю изучать обучение с подкреплением и пытаюсь понять основы. Я понимаю алгоритмы оценки политики, итерации политики и значения и могу решить простую задачу оптимизации gridworld с двумя конечными состояниями -5 или +5. Вознаграждение з…