Описание тега policy-gradient-descent

1 ответ

В биржевой торговле, как оценить количество акций

Я работаю над анализом и прогнозированием фондового рынка с использованием методов машинного обучения, особенно с усиленным обучением. Я пытаюсь предсказать короткую, длинную и плоскую. (купить, держать, продавать) . (любые предложения или материалы…
1 ответ

Функция вознаграждения за политический градиент спуска в обучении подкрепления

В настоящее время я изучаю политику градиентного спуска в контексте обучения в области подкрепления. TL;DR, мой вопрос: "Каковы ограничения на функцию вознаграждения (в теории и на практике) и что будет хорошей функцией вознаграждения для случая ниж…
0 ответов

Цели в градиентах политики при использовании CNN в качестве предиктора

Я хочу создать агент градиента политики, который сможет играть в Doom с помощью этого урока. Но теперь я столкнулся с проблемой: Какова цель в Policy Gradient? в этом уроке, в каждой эпохе, мы запускаем эпизод и собираем все данные, такие как состоя…
1 ответ

Попытка реализовать опыт воспроизведения в Tensorflow

Я пытаюсь реализовать опыт воспроизведения в Tensorflow. Проблема, с которой я столкнулся, заключается в сохранении выходных данных для пробной версии моделей и одновременном обновлении градиента. Пара подходов, которые я пробовал, - сохранять получ…
03 июл '18 в 15:41
0 ответов

Как обработать непредопределенное пространство действий с помощью градиента политики

Я пытаюсь решить проблему с естественным языком, похожую на текстовую игру с усиленным обучением. Многие недавние модели обучения с подкреплением, основанные на глубоком обучении, имеют предопределенные выходные поля. Однако в текстовой игре следующ…
0 ответов

Перевернутый маятник Укрепление

Я учусь усиленному обучению, и в качестве практики я пытаюсь стабилизировать перевернутый маятник (тренажерный зал: Pendulum-v0) в вертикальном положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите м…
1 ответ

Multiclass Sigmoid для комплектации ДХО

Я работаю над проблемой глубокого обучения и хочу использовать Sigmoid для своего последнего слоя вместо softmax. Я застрял на том, что использовать для выбора действий. В частности, как я должен заменить две последние строки этого кода и чем: logit…
0 ответов

Реализация градиента политики при большом количестве выходных классов

Мне известен этот хитрый способ реализации градиента политики (см. Его для справки: обучение подкреплению). В частности, определяется категориальная кросс-энтропия H(p, q) = sum(p_i * log(q_i)), За предпринятые действия, aмы можем установить p_a = a…
1 ответ

Как накапливать потери по мини-партиям, а затем рассчитывать градиент

Мой главный вопрос: усреднение потерь - это то же самое, что усреднение градиента, и как мне накапливать потери по мини-партиям, а затем вычислять мой градиент? Я пытался реализовать градиент политики в Tensorflow и столкнулся с проблемой, при котор…
0 ответов

Градиент политики в керасе предсказывает только одно действие

У меня проблемы с алгоритмом REINFORCE в керасе с играми Atari. После раунда около 30 эпизодов сеть сходится к одному действию. Но тот же алгоритм работает с CartPole-v1 и сходится со средней наградой 495,0 после раунда 350 эпизодов. Почему проблемы…
0 ответов

Ray - RLlib - Ошибка с Custom env - пространство непрерывных действий - DDPG - обучение в автономном режиме?

Ошибка при использовании автономного режима для DDPG. пользовательские измерения среды (пространство действий и пространство состояний), похоже, не соответствуют тому, что ожидается в DDPG RLLIB trainer. Ubuntu, версия Ray 0.7 (последний луч), приме…
0 ответов

Проблема с кодом градиента политики для pong-v0 в Keras

Я новичок в машинном обучении и пробую один код, написанный на pong-v0. Я использую метод градиента политики и вычисляю функцию преимущества, вычитая оценщик стоимости (базовый уровень) с дисконтированным вознаграждением. Затем умножаем функцию преи…
1 ответ

Как функция оценки помогает в градиенте политики?

Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но я застрял в части функции оценки. При поиске максимальных или минимальных точек в функции мы берем производную и устанавливаем ее равной нулю, а затем ищем точки, содержащи…
0 ответов

Детерминированная среда - градиент политики

У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать алгоритм, который использует PG, однако среда не стохастическая, а детерминированная. Могу ли я использовать перекрестную энтропию (ниже), чтобы максимиз…
1 ответ

Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики?

Привет, сообщество Stackru, У меня проблема с методами градиента политики в обучении с подкреплением. В методах градиента политики мы увеличиваем / уменьшаем логарифмическую вероятность действия, основываясь на возврате (то есть общем вознаграждении…
0 ответов

Алгоритм армирования внезапно теряет все, чему он научился

Я реализовал алгоритм подкрепления с использованием метода градиента ванильной политики для решения проблемы с карполом. Алгоритм, кажется, хорошо учится в течение нескольких сотен итераций, когда внезапно вознаграждение за все будущие эпизоды стано…
0 ответов

Оптимизация проксимальной политики в настольных играх

Последние несколько дней я бездельничал с PPO, и мне удалось заставить его работать в некоторых примерах из спортзала. Затем я переключился на свое собственное окружение, представляющее собой настольную игру (соединение 4), но я не могу заставить ее…
1 ответ

Градиент политики потерь - обучение по усилению

Я тренирую свою сеть, используя градиент политики и определяя потери как: self.loss = -tf.reduce_mean(tf.log(OUTPUT_NN)* self.REWARDS)) self.opt = tf.train.AdamOptimizer(self.lr).minimize(self.loss) Что я не понимаю, так это то, что функция потерь и…
0 ответов

Почему мой агент всегда выполняет одно и то же действие в DQN - обучение с подкреплением

Я обучил агента RL по алгоритму DQN. После 20000 серий мои награды сходятся. Теперь, когда я тестирую этот агент, он всегда выполняет одно и то же действие независимо от состояния. Я нахожу это очень странным. Может кто-то помочь мне с этим. Есть ли…
2 ответа

Как вы оцениваете обученного агента обучения с подкреплением, независимо от того, обучен он или нет?

Я новичок в обучении агентов обучения с подкреплением. Я читал об алгоритме PPO и использовал библиотеку стабильных базовых показателей для обучения агента с помощью PPO. Итак, мой вопрос заключается в том, как мне оценить обученного агента RL. Расс…