Описание тега value-iteration
1
ответ
Как решить примеры изучения Grid в подкреплении, используя итерацию значений?
Я нахожу либо теорию, либо пример с питоном, который не подходит для начинающих. Мне просто нужно понять простой пример для понимания пошаговых итераций. Может ли кто-нибудь показать мне 1-ю и 2-ю итерации для изображения, которое я загрузил для ите…
03 мар '18 в 12:15
0
ответов
Ускоренный доступ к 2D NumPy/ массиву или Large 1D Numpy/ массиву
Я выполняю расстановку приоритетов, для которой у меня есть матрица, которая имеет 1000*1000 ячеек (gridworld), к чьим ячейкам я должен обращаться неоднократно в течение истинного цикла для назначения (я по сути не перебираю список, но ко всем ячейк…
16 апр '18 в 17:35
0
ответов
Моделирование доходности кредитной карты с помощью процесса принятия решений Маркова.
Это со ссылкой на документ, опубликованный по моделированию доходности кредитных карт обработанным Марковым решением. Я пытаюсь реализовать то же самое в python, используя Mdptoolbox, но не получаю вывод в ожидаемом формате. Мои штаты - это сочетани…
21 ноя '17 в 07:11
5
ответов
В чем разница между итерацией значения и итерацией политики?
В обучении с подкреплением, в чем разница между итерацией политики и итерацией значения? Насколько я понимаю, в итерации значения вы используете уравнение Беллмана для выбора оптимальной политики, тогда как в итерации политики вы случайным образом в…
22 май '16 в 02:43
1
ответ
Динамическое программирование процесса принятия решений Маркова с итерацией значения
Я узнаю о MDPи value iteration в самообучении, и я надеюсь, что кто-то может улучшить мое понимание. Рассмотрим проблему с 3-х сторонними кубиками, имеющими номера 1, 2, 3, Если вы бросаете 1 или 2 вы получаете это значение в $ но если вы бросите 3 …
26 авг '17 в 02:24
0
ответов
Оптимизация алгоритма итерации стоимости в обучении подкреплению
У меня есть одно сомнение, связанное с итерацией значения. Я пытался решить проблему "FrozenLake8x8-v0". Алгоритм, который я использовал, в основном рассчитывает вознаграждение для каждого состояния, если мы хотим сделать первые 1000 шагов из этого …
17 дек '18 в 02:24
0
ответов
Значение итерации в gridworld
Я знаю, как получить 0,72 в первом изображении, но может кто-нибудь объяснить, как получить 0,78 и 0,43 в сетке второго изображения?
05 июн '18 в 19:09
0
ответов
Значение итерации не изучает ничего полезного
В настоящее время я пытаюсь выучить оптимальную политику для создания спортивной среды Open AI "Pendulum-v0". Я знаю, что существуют более подходящие методы для непрерывных доменов, но мы делаем несколько исторический курс об обучении подкреплению. …
29 ноя '18 в 20:45
1
ответ
Является ли метод поиска по дереву Монте-Карло или итерация значения (или что-то еще)?
Я беру урок Reinforcement Learning, и я не понимал, как объединить концепции итерации / итерации политики с Монте-Карло (а также TD/SARSA/Q-learning). В таблице ниже, как можно заполнить пустые ячейки: Должен ли / может быть быть двоичным да / нет, …
07 май '18 в 18:28
0
ответов
Значение итерации для определения вероятности выигрыша в кости игры "Свинья"
Недавно я занимался оптимизацией игры в кости "Свинья" и наткнулся на статью Тодда Неллера "Оптимальная игра в игру" Свинья в кости " ". В этой статье он использует итерацию значения, чтобы определить вероятность выигрыша в игре из каждого возможног…
13 ноя '18 в 17:32
6
ответов
Перебирать все отдельные значения словаря в списке словарей
Предполагая список словарей, цель состоит в том, чтобы перебрать все различные значения во всех словарях. Пример: d1={'a':1, 'c':3, 'e':5} d2={'b':2, 'e':5, 'f':6} l=[d1,d2] Итерация должна быть закончена 1,2,3,5,6, не имеет значения, если это набор…
12 июл '18 в 10:24
0
ответов
Как Value Iteration определяет оптимальную политику?
Я понимаю, как реализовать итерацию значения. Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику. В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значе…
09 окт '18 в 01:55
0
ответов
Шаг по улучшению политики итерации политики
Здравствуйте, уважаемое сообщество Stackru! Сейчас я прохожу курс обучения по усилению и у меня возникла путаница с методом итераций политики. В итерации политики у нас есть случайная политика в начале и функции значений для каждого состояния. В час…
09 ноя '18 в 17:41
4
ответа
Как избежать создания ненужных списков?
Я все время сталкиваюсь с ситуациями, когда я извлекаю некоторую информацию из файла или где-то еще, а затем вынужден массировать данные до конечной желаемой формы через несколько шагов. Например: def insight_pull(file): with open(file) as in_f: lin…
08 дек '17 в 20:38
1
ответ
Почему итерация политики быстрее, чем итерация значения?
Мы знаем, что итерация политики дает нам политику напрямую и, следовательно, выполняется быстрее. Но может ли кто-нибудь объяснить это некоторыми примерами.
25 ноя '19 в 02:33
1
ответ
почему методы итерации политики и итерации значений дают разные результаты для оптимальных значений и оптимальной политики?
В настоящее время я изучаю динамическое программирование в обучении с подкреплением, в котором я столкнулся с двумя концепциями Value-Iteration и Policy-Iteration. Чтобы понять то же самое, я реализую пример gridworld из Sutton, который говорит: Нет…
08 сен '19 в 21:37
1
ответ
Определение функций с условными выражениями в Python
В настоящее время я работаю над кодированием докторской диссертации. В статье рассматривается выборочный дефолт, основанный на работе Arellano (2008). Вдохновлялся блокнотами @quantecon. Я пытаюсь создать функцию на Python, используя Numba, которая …
01 май '20 в 15:43
1
ответ
Эквивалентны ли эти две разные формулы для обновления Value-Iteration?
Изучая MDP из разных источников, я наткнулся на две разные формулы для обновления значения в алгоритме Value-Iteration. Первый (тот, что есть в Википедии и пара книг): . И второй (в некоторых вопросах здесь, в стеке и на слайдах моего курса): Для ко…
10 дек '19 в 04:17
0
ответов
Попытайтесь реализовать алгоритм итерации значений, но получите неразрешимую ошибку
Я пытаюсь реализовать алгоритм итерации значений прямо сейчас. Задача в том, чтобы этот алгоритм был независимым, поэтому его можно было повторно использовать для разных задач (многоразово). Поэтому я написал код объектно-ориентированный. При его вы…
17 май '20 в 22:29
0
ответов
Итерация значения RL, задача с несколькими действиями в gridworld
Я только начинаю изучать обучение с подкреплением и пытаюсь понять основы. Я понимаю алгоритмы оценки политики, итерации политики и значения и могу решить простую задачу оптимизации gridworld с двумя конечными состояниями -5 или +5. Вознаграждение з…
21 фев '21 в 21:54