Описание тега sarsa
SARSA (State-Action-Reward-State-Action) is an algorithm for learning a Markov decision process policy, used in the reinforcement learning area of machine learning.
1
ответ
Алгоритм Сарсы, почему Q-значения стремятся к нулю?
Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из спортзала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это. Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод, и я его п…
12 окт '16 в 19:23
1
ответ
Как не допустить взрыва трассы приемлемости в SARSA с лямбда = 1 для пар состояния-действия, которые посещаются огромное количество раз?
Я тестировал SARSA с лямбда = 1 в Windy Grid World, и если исследование вызывает многократное посещение одной и той же пары "состояние-действие" до достижения цели, трасса соответствия увеличивается каждый раз без какого-либо затухания, поэтому она …
24 июл '17 в 01:31
0
ответов
Расчет обновлений в SARSA с обратной ориентацией
Я работаю над заданием по программированию из курса RL Дэвида Сильвера (после просмотра всех 10 его лекций), сейчас пытаюсь реализовать Sarsa(λ). В то время как обычные и перспективные версии Sarsa кажутся мне достаточно понятными, у меня возникают …
13 сен '18 в 17:14
0
ответов
Как понять RLstep в Keepaway (сравните с Sarsa)
В "Стоуне, Питере, Ричарде С. Саттоне и Грегори Кульмане. " Обучение усилению для робокопа ". Адаптивное поведение 13.3 (2005): 165-188.", Псевдокод RLstep, кажется, немного отличается от Сарсы (λ) Авторы говорят, что RLStep реализует. Вот псевдокод…
21 окт '16 в 00:32
2
ответа
Q-learning и SARSA с жадным отбором эквивалентны?
Разница между Q-learning и SARSA заключается в том, что Q-learning сравнивает текущее состояние и наилучшее возможное следующее состояние, тогда как SARSA сравнивает текущее состояние с фактическим следующим состоянием. Если используется политика жа…
29 сен '15 в 14:13
1
ответ
Алгоритм трассировки, порядок обновления
Я читаю Silver et al (2012) "Поиск различий во времени на компьютере" и пытаюсь понять порядок обновления для алгоритма трассировки приемлемости. В Алгоритме 1 и 2 статьи веса обновляются перед обновлением трассы приемлемости. Интересно, правильный …
15 окт '18 в 00:06
1
ответ
Аппроксимация значения SARSA для полюса тележки
У меня есть вопрос по этому вопросу. Во входной ячейке 142 я вижу это модифицированное обновление w += alpha * (reward - discount * q_hat_next) * q_hat_grad где q_hat_next является Q(S', a') а также q_hat_grad является производной от Q(S, a) (предпо…
17 июл '18 в 01:26
1
ответ
Внедрение SARSA с использованием Gradient Discent
Я успешно реализовал алгоритм SARSA (как одношаговый, так и с использованием трасс приемлемости), используя поиск в таблице. По сути, у меня есть матрица q-значений, где каждая строка соответствует состоянию, а каждый столбец - действию. Что-то врод…
30 апр '15 в 21:48
1
ответ
Это ошибка в теме SARSA λ книги Саттона и Барто?
В sarsa λ с накопительными следами соответствия ( http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) данный алгоритм не совпадает с формулой. Формула говорит E ← ɣλE+1 где, когда [algo] обновляется сначала E ← E+1, затем E ← ɣλE, производ…
19 окт '16 в 19:20
1
ответ
Внедрение САРСА
Я узнал о реализации алгоритма SARSA и у меня возник вопрос. Я понимаю, что общий этап "обучения" принимает форму: Робот (r) находится в состоянии s. Доступны четыре действия: North (n), East (e), West (w) and South (s) такой, что список действий, a…
26 апр '15 в 14:54
1
ответ
Повторная инициализация трассы соответствия между эпизодами в реализации SARSA-Lambda
Я смотрю на эту реализацию SARSA-Lambda (то есть: SARSA со следами соответствия), и есть деталь, которую я до сих пор не понимаю. (Изображение из http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html) Поэтому я понимаю, что все Q(s,a) обновля…
27 апр '15 в 19:25
1
ответ
Эпизодическая полуградиентная сарса с нейронной сетью
Пытаясь реализовать Episodic Semi-gradient Sarsa with Нейронная сеть как аппроксиматор Мне было интересно, как я выбираю оптимальное действие на основе изученных в настоящее время весов сети. Если пространство действий дискретно, я могу просто рассч…
28 июл '17 в 15:35
1
ответ
Влияние разной эпсилон-ценности на Q-learning и SARSA
Поскольку я начинаю в этой области, у меня возникли сомнения относительно того, как различные значения epsilon будут влиять на SARSA и Qlearning с помощью жадного алгоритма epsilon для выбора действий. Я понимаю, что когда эпсилон равен 0, действия …
17 ноя '15 в 03:19
2
ответа
Включение вероятностей перехода в САРСА
Я внедряю модель SARSA(лямбда) в C++, чтобы преодолеть некоторые ограничения (требующиеся для модели DP большого количества времени и пространства) моделей DP, которые, как мы надеемся, сократят время вычислений (для подобных исследований требуется …
20 дек '16 в 12:25
1
ответ
Дзета-переменная САРСА (лямда)
Что дзета представляет в методе критики? Я полагаю, что он отслеживает пары состояние-действие и представляет собой трассы приемлемости, которые являются временной записью действий-состояния, но что именно представляет дзета и как он выглядит в C++ …
12 апр '18 в 01:31
0
ответов
Как манипулировать табличным алгоритмом Сарса в Python?
Поэтому я пытаюсь изменить алгоритм Tabular Sarsa с помощью трассировки приемлемости в Python. Это алгоритм, которому я следую. В моей ситуации у меня просто одно состояние и пять действий. Поэтому мой Q(s,a) будет просто Q(a), а e(s,a) будет просто…
24 янв '19 в 20:35
1
ответ
Глубокая нейронная сеть в сочетании с qlearning
В качестве пространства состояний я использую совместные позиции с камеры Kinect, но думаю, что она будет слишком большой (25 суставов x 30 в секунду), чтобы просто подавать ее в SARSA или Qlearning. Прямо сейчас я использую программу Kinect Gesture…
12 дек '15 в 23:00
0
ответов
Когда САРСА лучше, чем ожидаемая САРСА?
Я прохожу курс обучения по усилению Cousera и застрял в этом вопросе с несколькими вариантами ответов. Я перепробовал более 40 разных ответов и не смог сделать это правильно. Очень ценю любые намеки на это. Спасибо! Когда САРСА лучше, чем ожидаемая …
08 окт '18 в 05:04
1
ответ
Сарса с нейронной сетью для решения задачи Mountain Car
Я пытаюсь реализовать Эпизодическую Полуградиентную Сарсу для Оценки, описанную в книге Саттона, чтобы решить Mountain Car Task, Приблизить q Я хочу использовать neural network, Поэтому я придумал этот код. Но, к сожалению, мой агент на самом деле н…
29 июл '17 в 15:24
8
ответов
В чем разница между Q-learning и SARSA?
Хотя я знаю, что SARSA работает по принципу политики, а Q-learning - вне политики, при взгляде на их формулы трудно (мне) увидеть разницу между этими двумя алгоритмами. Согласно книге " Усиленное обучение: введение" (Саттон и Барто). В алгоритме SAR…
27 июл '11 в 17:46