Описание тега policy-gradient-descent

Вопросы с тегом

1 ответ

В биржевой торговле, как оценить количество акций

Я работаю над анализом и прогнозированием фондового рынка с использованием методов машинного обучения, особенно с усиленным обучением. Я пытаюсь предсказать короткую, длинную и плоскую. (купить, держать, продавать) . (любые предложения или материалы…

16 янв '19 в 06:17

1 ответ

Функция вознаграждения за политический градиент спуска в обучении подкрепления

В настоящее время я изучаю политику градиентного спуска в контексте обучения в области подкрепления. TL;DR, мой вопрос: "Каковы ограничения на функцию вознаграждения (в теории и на практике) и что будет хорошей функцией вознаграждения для случая ниж…

reinforcement-learning policy-gradient-descent

29 июн '18 в 00:29

0 ответов

Цели в градиентах политики при использовании CNN в качестве предиктора

Я хочу создать агент градиента политики, который сможет играть в Doom с помощью этого урока. Но теперь я столкнулся с проблемой: Какова цель в Policy Gradient? в этом уроке, в каждой эпохе, мы запускаем эпизод и собираем все данные, такие как состоя…

neural-network artificial-intelligence reinforcement-learning q-learning policy-gradient-descent

04 окт '18 в 10:31

1 ответ

Попытка реализовать опыт воспроизведения в Tensorflow

Я пытаюсь реализовать опыт воспроизведения в Tensorflow. Проблема, с которой я столкнулся, заключается в сохранении выходных данных для пробной версии моделей и одновременном обновлении градиента. Пара подходов, которые я пробовал, - сохранять получ…

tensorflow assign policy-gradient-descent

03 июл '18 в 15:41

0 ответов

Как обработать непредопределенное пространство действий с помощью градиента политики

Я пытаюсь решить проблему с естественным языком, похожую на текстовую игру с усиленным обучением. Многие недавние модели обучения с подкреплением, основанные на глубоком обучении, имеют предопределенные выходные поля. Однако в текстовой игре следующ…

reinforcement-learning q-learning policy-gradient-descent

01 авг '18 в 10:59

0 ответов

Перевернутый маятник Укрепление

Я учусь усиленному обучению, и в качестве практики я пытаюсь стабилизировать перевернутый маятник (тренажерный зал: Pendulum-v0) в вертикальном положении, используя градиент политики: REINFORCE. У меня есть несколько вопросов, пожалуйста, помогите м…

python reinforcement-learning policy-gradient-descent

02 авг '18 в 14:20

1 ответ

Multiclass Sigmoid для комплектации ДХО

Я работаю над проблемой глубокого обучения и хочу использовать Sigmoid для своего последнего слоя вместо softmax. Я застрял на том, что использовать для выбора действий. В частности, как я должен заменить две последние строки этого кода и чем: logit…

tensorflow deep-learning reinforcement-learning policy-gradient-descent

27 авг '18 в 15:15

0 ответов

Реализация градиента политики при большом количестве выходных классов

Мне известен этот хитрый способ реализации градиента политики (см. Его для справки: обучение подкреплению). В частности, определяется категориальная кросс-энтропия H(p, q) = sum(p_i * log(q_i)), За предпринятые действия, aмы можем установить p_a = a…

reinforcement-learning policy-gradient-descent

22 фев '19 в 01:02

1 ответ

Как накапливать потери по мини-партиям, а затем рассчитывать градиент

Мой главный вопрос: усреднение потерь - это то же самое, что усреднение градиента, и как мне накапливать потери по мини-партиям, а затем вычислять мой градиент? Я пытался реализовать градиент политики в Tensorflow и столкнулся с проблемой, при котор…

python tensorflow reinforcement-learning policy-gradient-descent tensorflow-gradient

17 мар '19 в 16:59

0 ответов

Градиент политики в керасе предсказывает только одно действие

У меня проблемы с алгоритмом REINFORCE в керасе с играми Atari. После раунда около 30 эпизодов сеть сходится к одному действию. Но тот же алгоритм работает с CartPole-v1 и сходится со средней наградой 495,0 после раунда 350 эпизодов. Почему проблемы…

python keras reinforcement-learning policy-gradient-descent

29 мар '19 в 15:01

0 ответов

Ray - RLlib - Ошибка с Custom env - пространство непрерывных действий - DDPG - обучение в автономном режиме?

Ошибка при использовании автономного режима для DDPG. пользовательские измерения среды (пространство действий и пространство состояний), похоже, не соответствуют тому, что ожидается в DDPG RLLIB trainer. Ubuntu, версия Ray 0.7 (последний луч), приме…

reinforcement-learning offline ray policy-gradient-descent

18 апр '19 в 06:09

0 ответов

Проблема с кодом градиента политики для pong-v0 в Keras

Я новичок в машинном обучении и пробую один код, написанный на pong-v0. Я использую метод градиента политики и вычисляю функцию преимущества, вычитая оценщик стоимости (базовый уровень) с дисконтированным вознаграждением. Затем умножаем функцию преи…

python keras reinforcement-learning pong policy-gradient-descent

24 май '19 в 09:40

1 ответ

Как функция оценки помогает в градиенте политики?

Я пытаюсь изучить методы градиента политики для обучения с подкреплением, но я застрял в части функции оценки. При поиске максимальных или минимальных точек в функции мы берем производную и устанавливаем ее равной нулю, а затем ищем точки, содержащи…

reinforcement-learning policy-gradient-descent

24 май '19 в 16:45

0 ответов

Детерминированная среда - градиент политики

У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать алгоритм, который использует PG, однако среда не стохастическая, а детерминированная. Могу ли я использовать перекрестную энтропию (ниже), чтобы максимиз…

reinforcement-learning policy-gradient-descent

04 июл '19 в 09:54

1 ответ

Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики?

Привет, сообщество Stackru, У меня проблема с методами градиента политики в обучении с подкреплением. В методах градиента политики мы увеличиваем / уменьшаем логарифмическую вероятность действия, основываясь на возврате (то есть общем вознаграждении…

reinforcement-learning policy-gradient-descent

10 июн '19 в 16:25

0 ответов

Алгоритм армирования внезапно теряет все, чему он научился

Я реализовал алгоритм подкрепления с использованием метода градиента ванильной политики для решения проблемы с карполом. Алгоритм, кажется, хорошо учится в течение нескольких сотен итераций, когда внезапно вознаграждение за все будущие эпизоды стано…

reinforcement-learning policy-gradient-descent

25 авг '19 в 06:14

0 ответов

Оптимизация проксимальной политики в настольных играх

Последние несколько дней я бездельничал с PPO, и мне удалось заставить его работать в некоторых примерах из спортзала. Затем я переключился на свое собственное окружение, представляющее собой настольную игру (соединение 4), но я не могу заставить ее…

machine-learning reinforcement-learning policy-gradient-descent

14 авг '19 в 07:36

1 ответ

Градиент политики потерь - обучение по усилению

Я тренирую свою сеть, используя градиент политики и определяя потери как: self.loss = -tf.reduce_mean(tf.log(OUTPUT_NN)* self.REWARDS)) self.opt = tf.train.AdamOptimizer(self.lr).minimize(self.loss) Что я не понимаю, так это то, что функция потерь и…

tensorflow reinforcement-learning policy-gradient-descent

03 июл '19 в 13:32

0 ответов

Почему мой агент всегда выполняет одно и то же действие в DQN - обучение с подкреплением

Я обучил агента RL по алгоритму DQN. После 20000 серий мои награды сходятся. Теперь, когда я тестирую этот агент, он всегда выполняет одно и то же действие независимо от состояния. Я нахожу это очень странным. Может кто-то помочь мне с этим. Есть ли…

reinforcement-learning q-learning policy-gradient-descent

09 окт '19 в 07:35

2 ответа

Как вы оцениваете обученного агента обучения с подкреплением, независимо от того, обучен он или нет?

Я новичок в обучении агентов обучения с подкреплением. Я читал об алгоритме PPO и использовал библиотеку стабильных базовых показателей для обучения агента с помощью PPO. Итак, мой вопрос заключается в том, как мне оценить обученного агента RL. Расс…

artificial-intelligence reinforcement-learning montecarlo policy-gradient-descent

30 окт '19 в 16:24