Описание тега policy-gradient-descent
1
ответ
В биржевой торговле, как оценить количество акций
Я работаю над анализом и прогнозированием фондового рынка с использованием методов машинного обучения, особенно с усиленным обучением. Я пытаюсь предсказать короткую, длинную и плоскую. (купить, держать, продавать) . (любые предложения или материалы…
16 янв '19 в 06:17
1
ответ
Функция вознаграждения за политический градиент спуска в обучении подкрепления
В настоящее время я изучаю политику градиентного спуска в контексте обучения в области подкрепления. TL;DR, мой вопрос: "Каковы ограничения на функцию вознаграждения (в теории и на практике) и что будет хорошей функцией вознаграждения для случая ниж…
29 июн '18 в 00:29
0
ответов
Цели в градиентах политики при использовании CNN в качестве предиктора
Я хочу создать агент градиента политики, который сможет играть в Doom с помощью этого урока. Но теперь я столкнулся с проблемой: Какова цель в Policy Gradient? в этом уроке, в каждой эпохе, мы запускаем эпизод и собираем все данные, такие как состоя…
04 окт '18 в 10:31
1
ответ
Попытка реализовать опыт воспроизведения в Tensorflow
Я пытаюсь реализовать опыт воспроизведения в Tensorflow. Проблема, с которой я столкнулся, заключается в сохранении выходных данных для пробной версии моделей и одновременном обновлении градиента. Пара подходов, которые я пробовал, - сохранять получ…
03 июл '18 в 15:41
0
ответов
Как обработать непредопределенное пространство действий с помощью градиента политики
Я пытаюсь решить проблему с естественным языком, похожую на текстовую игру с усиленным обучением. Многие недавние модели обучения с подкреплением, основанные на глубоком обучении, имеют предопределенные выходные поля. Однако в текстовой игре следующ…
01 авг '18 в 10:59
0
ответов
Перевернутый маятник Укрепление
Я учусь усиленному обучению, и в качестве практики я пытаюсь стабилизировать перевернутый маятник (тренажерный зал: Pendulum-v0) в вертикальном положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите м…
02 авг '18 в 14:20
1
ответ
Multiclass Sigmoid для комплектации ДХО
Я работаю над проблемой глубокого обучения и хочу использовать Sigmoid для своего последнего слоя вместо softmax. Я застрял на том, что использовать для выбора действий. В частности, как я должен заменить две последние строки этого кода и чем: logit…
27 авг '18 в 15:15
0
ответов
Реализация градиента политики при большом количестве выходных классов
Мне известен этот хитрый способ реализации градиента политики (см. Его для справки: обучение подкреплению). В частности, определяется категориальная кросс-энтропия H(p, q) = sum(p_i * log(q_i)), За предпринятые действия, aмы можем установить p_a = a…
22 фев '19 в 01:02
1
ответ
Как накапливать потери по мини-партиям, а затем рассчитывать градиент
Мой главный вопрос: усреднение потерь - это то же самое, что усреднение градиента, и как мне накапливать потери по мини-партиям, а затем вычислять мой градиент? Я пытался реализовать градиент политики в Tensorflow и столкнулся с проблемой, при котор…
17 мар '19 в 16:59
0
ответов
Градиент политики в керасе предсказывает только одно действие
У меня проблемы с алгоритмом REINFORCE в керасе с играми Atari. После раунда около 30 эпизодов сеть сходится к одному действию. Но тот же алгоритм работает с CartPole-v1 и сходится со средней наградой 495,0 после раунда 350 эпизодов. Почему проблемы…
29 мар '19 в 15:01
0
ответов
Ray - RLlib - Ошибка с Custom env - пространство непрерывных действий - DDPG - обучение в автономном режиме?
Ошибка при использовании автономного режима для DDPG. пользовательские измерения среды (пространство действий и пространство состояний), похоже, не соответствуют тому, что ожидается в DDPG RLLIB trainer. Ubuntu, версия Ray 0.7 (последний луч), приме…
18 апр '19 в 06:09
0
ответов
Проблема с кодом градиента политики для pong-v0 в Keras
Я новичок в машинном обучении и пробую один код, написанный на pong-v0. Я использую метод градиента политики и вычисляю функцию преимущества, вычитая оценщик стоимости (базовый уровень) с дисконтированным вознаграждением. Затем умножаем функцию преи…
24 май '19 в 09:40
1
ответ
Как функция оценки помогает в градиенте политики?
Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но я застрял в части функции оценки. При поиске максимальных или минимальных точек в функции мы берем производную и устанавливаем ее равной нулю, а затем ищем точки, содержащи…
24 май '19 в 16:45
0
ответов
Детерминированная среда - градиент политики
У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать алгоритм, который использует PG, однако среда не стохастическая, а детерминированная. Могу ли я использовать перекрестную энтропию (ниже), чтобы максимиз…
04 июл '19 в 09:54
1
ответ
Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики?
Привет, сообщество Stackru, У меня проблема с методами градиента политики в обучении с подкреплением. В методах градиента политики мы увеличиваем / уменьшаем логарифмическую вероятность действия, основываясь на возврате (то есть общем вознаграждении…
10 июн '19 в 16:25
0
ответов
Алгоритм армирования внезапно теряет все, чему он научился
Я реализовал алгоритм подкрепления с использованием метода градиента ванильной политики для решения проблемы с карполом. Алгоритм, кажется, хорошо учится в течение нескольких сотен итераций, когда внезапно вознаграждение за все будущие эпизоды стано…
25 авг '19 в 06:14
0
ответов
Оптимизация проксимальной политики в настольных играх
Последние несколько дней я бездельничал с PPO, и мне удалось заставить его работать в некоторых примерах из спортзала. Затем я переключился на свое собственное окружение, представляющее собой настольную игру (соединение 4), но я не могу заставить ее…
14 авг '19 в 07:36
1
ответ
Градиент политики потерь - обучение по усилению
Я тренирую свою сеть, используя градиент политики и определяя потери как: self.loss = -tf.reduce_mean(tf.log(OUTPUT_NN)* self.REWARDS)) self.opt = tf.train.AdamOptimizer(self.lr).minimize(self.loss) Что я не понимаю, так это то, что функция потерь и…
03 июл '19 в 13:32
0
ответов
Почему мой агент всегда выполняет одно и то же действие в DQN - обучение с подкреплением
Я обучил агента RL по алгоритму DQN. После 20000 серий мои награды сходятся. Теперь, когда я тестирую этот агент, он всегда выполняет одно и то же действие независимо от состояния. Я нахожу это очень странным. Может кто-то помочь мне с этим. Есть ли…
09 окт '19 в 07:35
2
ответа
Как вы оцениваете обученного агента обучения с подкреплением, независимо от того, обучен он или нет?
Я новичок в обучении агентов обучения с подкреплением. Я читал об алгоритме PPO и использовал библиотеку стабильных базовых показателей для обучения агента с помощью PPO. Итак, мой вопрос заключается в том, как мне оценить обученного агента RL. Расс…
30 окт '19 в 16:24