SARSA (State-Action-Reward-State-Action) is an algorithm for learning a Markov decision process policy, used in the reinforcement learning area of machine learning.
1 ответ

Алгоритм Сарсы, почему Q-значения стремятся к нулю?

Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из спортзала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это. Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод, и я его п…
12 окт '16 в 19:23
1 ответ

Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?

Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она …
0 ответов

Расчет обновлений в SARSA с обратной ориентацией

Я работаю над заданием по программированию из курса RL Дэвида Сильвера (после просмотра всех 10 его лекций), сейчас пытаюсь реализовать Sarsa(λ). В то время как обычные и перспективные версии Sarsa кажутся мне достаточно понятными, у меня возникают …
13 сен '18 в 17:14
0 ответов

Как понять RLstep в Keepaway (сравните с Sarsa)

В "Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульмане. " Обучение усилению для робокопа ". Адаптивное поведение 13.3 (2005): 165-188.", Псевдокод RLstep, кажется, немного отличается от Сарсы (λ) Авторы говорят, что RLStep реализует. Вот псевдокод…
21 окт '16 в 00:32
2 ответа

Q-learning и SARSA с жадным отбором эквивалентны?

Разница между Q-learning и SARSA заключается в том, что Q-learning сравнивает текущее состояние и наилучшее возможное следующее состояние, тогда как SARSA сравнивает текущее состояние с фактическим следующим состоянием. Если используется политика жа…
29 сен '15 в 14:13
1 ответ

Алгоритм трассировки, порядок обновления

Я читаю Silver et al (2012) "Поиск различий во времени на компьютере" и пытаюсь понять порядок обновления для алгоритма трассировки приемлемости. В Алгоритме 1 и 2 статьи веса обновляются перед обновлением трассы приемлемости. Интересно, правильный …
1 ответ

Аппроксимация значения SARSA для полюса тележки

У меня есть вопрос по этому вопросу. Во входной ячейке 142 я вижу это модифицированное обновление w += alpha * (reward - discount * q_hat_next) * q_hat_grad где q_hat_next является Q(S', a') а также q_hat_grad является производной от Q(S, a) (предпо…
1 ответ

Внедрение SARSA с использованием Gradient Discent

Я успешно реализовал алгоритм SARSA (как одношаговый, так и с использованием трасс приемлемости), используя поиск в таблице. По сути, у меня есть матрица q-значений, где каждая строка соответствует состоянию, а каждый столбец - действию. Что-то врод…
1 ответ

Это ошибка в теме SARSA λ книги Саттона и Барто?

В sarsa λ с накопительными следами соответствия ( http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) данный алгоритм не совпадает с формулой. Формула говорит E ← ɣλE+1 где, когда [algo] обновляется сначала E ← E+1, затем E ← ɣλE, производ…
19 окт '16 в 19:20
1 ответ

Внедрение САРСА

Я узнал о реализации алгоритма SARSA и у меня возник вопрос. Я понимаю, что общий этап "обучения" принимает форму: Робот (r) находится в состоянии s. Доступны четыре действия: North (n), East (e), West (w) and South (s) такой, что список действий, a…
26 апр '15 в 14:54
1 ответ

Повторная инициализация трассы соответствия между эпизодами в реализации SARSA-Lambda

Я смотрю на эту реализацию SARSA-Lambda (то есть: SARSA со следами соответствия), и есть деталь, которую я до сих пор не понимаю. (Изображение из http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) Поэтому я понимаю, что все Q(s,a) обновля…
1 ответ

Эпизодическая полуградиентная сарса с нейронной сетью

Пытаясь реализовать Episodic Semi-gradient Sarsa with Нейронная сеть как аппроксиматор Мне было интересно, как я выбираю оптимальное действие на основе изученных в настоящее время весов сети. Если пространство действий дискретно, я могу просто рассч…
1 ответ

Влияние разной эпсилон-ценности на Q-learning и SARSA

Поскольку я начинаю в этой области, у меня возникли сомнения относительно того, как различные значения epsilon будут влиять на SARSA и Qlearning с помощью жадного алгоритма epsilon для выбора действий. Я понимаю, что когда эпсилон равен 0, действия …
2 ответа

Включение вероятностей перехода в САРСА

Я внедряю модель SARSA(лямбда) в C++, чтобы преодолеть некоторые ограничения (требующиеся для модели DP большого количества времени и пространства) моделей DP, которые, как мы надеемся, сократят время вычислений (для подобных исследований требуется …
20 дек '16 в 12:25
1 ответ

Дзета-переменная САРСА (лямда)

Что дзета представляет в методе критики? Я полагаю, что он отслеживает пары состояние-действие и представляет собой трассы приемлемости, которые являются временной записью действий-состояния, но что именно представляет дзета и как он выглядит в C++ …
0 ответов

Как манипулировать табличным алгоритмом Сарса в Python?

Поэтому я пытаюсь изменить алгоритм Tabular Sarsa с помощью трассировки приемлемости в Python. Это алгоритм, которому я следую. В моей ситуации у меня просто одно состояние и пять действий. Поэтому мой Q(s,a) будет просто Q(a), а e(s,a) будет просто…
24 янв '19 в 20:35
1 ответ

Глубокая нейронная сеть в сочетании с qlearning

В качестве пространства состояний я использую совместные позиции с камеры Kinect, но думаю, что она будет слишком большой (25 суставов x 30 в секунду), чтобы просто подавать ее в SARSA или Qlearning. Прямо сейчас я использую программу Kinect Gesture…
0 ответов

Когда САРСА лучше, чем ожидаемая САРСА?

Я прохожу курс обучения по усилению Cousera и застрял в этом вопросе с несколькими вариантами ответов. Я перепробовал более 40 разных ответов и не смог сделать это правильно. Очень ценю любые намеки на это. Спасибо! Когда САРСА лучше, чем ожидаемая …
08 окт '18 в 05:04
1 ответ

Сарса с нейронной сетью для решения задачи Mountain Car

Я пытаюсь реализовать Эпизодическую Полуградиентную Сарсу для Оценки, описанную в книге Саттона, чтобы решить Mountain Car Task, Приблизить q Я хочу использовать neural network, Поэтому я придумал этот код. Но, к сожалению, мой агент на самом деле н…
29 июл '17 в 15:24
8 ответов

В чем разница между Q-learning и SARSA?

Хотя я знаю, что SARSA работает по принципу политики, а Q-learning - вне политики, при взгляде на их формулы трудно (мне) увидеть разницу между этими двумя алгоритмами. Согласно книге " Усиленное обучение: введение" (Саттон и Барто). В алгоритме SAR…