Описание тега dqn

0 ответов

Как бороться с отложенным вознаграждением в MDP

В моей задаче MDP для состояния S(t) в момент времени t действие A(t) в момент времени t будет вознаграждено после времени k. Например,S1,A1,S2,A2,S3,A3,R1,S4,A4,R2…….Как я могу определить подходящую функцию вознаграждения в модели MDP? И если я хоч…
0 ответов

tenorflow не использует все ядра процессора

Я использую обучение с подкреплением в сочетании с нейронной сетью (DQN). У меня есть MacBook с 6-ядерным i7 и графическим процессором AMD. TensorFlow не видит GPU, поэтому автоматически использует CPU. Когда я запускаю сценарий, я вижу в мониторе а…
18 июл '20 в 01:13
1 ответ

Как продолжить обучение DQN или DDPG после прерывания предыдущего обучения? D

Когда я занимаюсь обучением с подкреплением, я должен каждый раз начинать обучение с самого начала. На это уходит много времени. Есть ли решение начать тренировку по результатам предыдущих тренировок? Спасибо.
1 ответ

Выполнение OpenAI Gym LunarLander значительно замедлилось по неизвестной причине

Я играл с OpenAI Gym LunarLander, тестируя нейронную сеть DQN. Я дошел до точки, когда он медленно учился. Поскольку я начал с проблемы CartPole, которая была решена за пару минут / эпизодов, я сначала думал, что LunarLander будет работать с такой ж…
22 апр '20 в 19:24
0 ответов

Несоответствие формы вывода нейронной сети

Итак, я создаю свою первую простую нейронную сеть DQN. Но я действительно борюсь с выходной формой моей сети. У меня есть вход со 139 функциями, что делает его input_shape=(None,139) и размером пакета 64. У меня есть 4 выхода для последнего слоя, та…
16 янв '20 в 16:43
0 ответов

Сеть CartPole Deep Q только ухудшается, убытки растут

Я попытался решить среду CartPole из тренажерного зала OpenAI, но моя модель, похоже, только ухудшилась. Это двойная (глубокая) сеть Q, которую я попытался собрать из нескольких ресурсов, но я не уверен, в чем моя ошибка. Я пробовал изменить количес…
0 ответов

AttributeError: объект 'DQN' не имеет атрибута 'save'

Нужна помощь. Строка.save() вызывает ошибку, что всозданной мной модели нет атрибута сохранения. Какие встроенные модули требуются для сохранения модели? ft = FeatureTransformer(env) D = ft.dimensions print(D) K = env.action_space.n print(K) sizes =…
24 ноя '19 в 21:25
1 ответ

Оценка Atari и награда в реализации rllib DQN

Я пытаюсь воспроизвести оценки DQN для Breakout с помощью RLLib. После 5 миллионов шагов средняя награда составляет 2,0, в то время как известная оценка Breakout с использованием DQN составляет 100+. Мне интересно, связано ли это с отсечением наград…
03 ноя '19 в 12:02
0 ответов

Python Deep Q Network Snake не учится

Поэтому я хотел объединить эту игру про змейку с DQN, которое я нашел в этой статье. Сначала я попытался изменить входной слой NN на вход 400. В игре поле 20 умножено на 20, поэтому я подумал, что могу отправить NN 2D-массив с 0 для нормальной ячейк…
03 дек '19 в 20:04
0 ответов

DQN дрожит во время учебы

я просто хочу, чтобы продолжить свое образование в области нейронных сетей и в настоящее время нахожусь в процессе проектирования свой собственный сценарий на основе на cartpole примере ( cartpole тренажерный зал-окр). Я использую tenorflow с пакето…
1 ответ

Почему рандомизация выборок модели обучения с подкреплением с помощью аппроксиматора нелинейных функций снижает дисперсию?

Я прочитал диссертацию DQN. Читая статью DQN, я обнаружил, что случайный выбор и изучение выборок уменьшают расхождение в RL с помощью нелинейного аппроксиматора функций. Если да, то почему обучение RL с использованием аппроксиматора нелинейных функ…
2 ответа

TypeError: __init__() отсутствует 1 обязательный позиционный аргумент: 'units' при использовании класса NoisyDense

Я пытаюсь реализовать в своей модели шумовые сети. Я нашел код на GitHub, который является реализацией класса NoisyDense. Я использовал этот класс внутри своей модели. Вот код: - class Agent: def __init__(self, state_size, strategy="t-dqn", reset_ev…
1 ответ

Нестабильные прогнозы DQN

Я реализовал DQN с нуля на java, все сделано на заказ. Я сделал это для игры в змейку, и результаты действительно хорошие. Но у меня проблема. Чтобы сделать сеть максимально стабильной, я использую replay memory а также target network. Сеть действит…
0 ответов

DQN вообще не обучается с Breakout-ram-v0?

Я пытаюсь обучить двойной DQN с буфером ответа в версии OpenAI Breakout Ram (пробовал как Breakout-ram-v0, так и Breakout-ram-v4). Код здесь (tf 2.0). Я перепробовал так много настроек параметров вместе со многими другими деталями. Оборудование огра…
1 ответ

как мне определить состояние для моей среды, подобной сетке?

Проблема, которую я хочу решить, на самом деле не так проста, но это своего рода игрушечная игра, которая помогает мне решить более серьезную проблему. поэтому у меня есть матрица 5x5 со значениями, равными 0: structure = np.zeros(25).reshape(5, 5) …
1 ответ

Получение ошибки "AttributeError: объект 'NoneType' не имеет атрибута 'shape'" при реализации Atari Breakout

Я сделал код для решения Atari Breakout. У меня небольшая проблема, но я не могу сказать, в чем она. Вот код Это проблема с памятью воспроизведения. try: next_states = torch.tensor(batch[3], dtype=torch.float32) except: import ipdb; ipdb.set_trace()…
12 апр '20 в 23:54
0 ответов

пространство дискретных действий в рамках базовой линии

Я работаю с алгоритмом DQN в стабильной базе. Мне нужно определить действие с двумя параметрами (например, a(i,j)). Можно ли определить его с помощью дискретного пространства действий, если да, то как я могу его определить? Большое спасибо за Вашу п…
01 май '20 в 21:52
0 ответов

Потеря периодического обучения Deep Q

Я пытаюсь обучить Double-DQN (с буфером воспроизведения опыта) на своей собственной проблеме, но сталкиваюсь с проблемой "периодических потерь". Когда убыток увеличивается, награда также увеличивается, но через некоторое время убыток уменьшается, и …
27 ноя '19 в 17:43
1 ответ

Проблема агента Tensorflow 2.0 DQN с настраиваемой средой

Итак, я следил за примером / учебником агента DQN и настраивал его, как в примере, с той лишь разницей, что я создал свою собственную среду Python, которую затем обернул в TensorFlow. Однако, как бы я ни формировал свои наблюдения и спецификации дей…
02 дек '19 в 17:55
0 ответов

Каков правильный подход к хранению состояния в DQN-HER данных временных рядов для CNN?

Вот сценарий: Я хочу преобразовать серию курсов акций за t шагов для использования в CNN, чтобы попытаться предсказать будущее состояние за t+n шагов. Я думаю, что нужно сделать следующее, но я понятия не имею, насколько это правильно или неправильн…
12 фев '20 в 15:27