Описание тега dqn
0
ответов
Как бороться с отложенным вознаграждением в MDP
В моей задаче MDP для состояния S(t) в момент времени t действие A(t) в момент времени t будет вознаграждено после времени k. Например,S1,A1,S2,A2,S3,A3,R1,S4,A4,R2…….Как я могу определить подходящую функцию вознаграждения в модели MDP? И если я хоч…
10 май '20 в 10:49
0
ответов
tenorflow не использует все ядра процессора
Я использую обучение с подкреплением в сочетании с нейронной сетью (DQN). У меня есть MacBook с 6-ядерным i7 и графическим процессором AMD. TensorFlow не видит GPU, поэтому автоматически использует CPU. Когда я запускаю сценарий, я вижу в мониторе а…
18 июл '20 в 01:13
1
ответ
Как продолжить обучение DQN или DDPG после прерывания предыдущего обучения? D
Когда я занимаюсь обучением с подкреплением, я должен каждый раз начинать обучение с самого начала. На это уходит много времени. Есть ли решение начать тренировку по результатам предыдущих тренировок? Спасибо.
08 июл '20 в 08:20
1
ответ
Выполнение OpenAI Gym LunarLander значительно замедлилось по неизвестной причине
Я играл с OpenAI Gym LunarLander, тестируя нейронную сеть DQN. Я дошел до точки, когда он медленно учился. Поскольку я начал с проблемы CartPole, которая была решена за пару минут / эпизодов, я сначала думал, что LunarLander будет работать с такой ж…
22 апр '20 в 19:24
0
ответов
Несоответствие формы вывода нейронной сети
Итак, я создаю свою первую простую нейронную сеть DQN. Но я действительно борюсь с выходной формой моей сети. У меня есть вход со 139 функциями, что делает его input_shape=(None,139) и размером пакета 64. У меня есть 4 выхода для последнего слоя, та…
16 янв '20 в 16:43
0
ответов
Сеть CartPole Deep Q только ухудшается, убытки растут
Я попытался решить среду CartPole из тренажерного зала OpenAI, но моя модель, похоже, только ухудшилась. Это двойная (глубокая) сеть Q, которую я попытался собрать из нескольких ресурсов, но я не уверен, в чем моя ошибка. Я пробовал изменить количес…
18 авг '20 в 21:55
0
ответов
AttributeError: объект 'DQN' не имеет атрибута 'save'
Нужна помощь. Строка.save() вызывает ошибку, что всозданной мной модели нет атрибута сохранения. Какие встроенные модули требуются для сохранения модели? ft = FeatureTransformer(env) D = ft.dimensions print(D) K = env.action_space.n print(K) sizes =…
24 ноя '19 в 21:25
1
ответ
Оценка Atari и награда в реализации rllib DQN
Я пытаюсь воспроизвести оценки DQN для Breakout с помощью RLLib. После 5 миллионов шагов средняя награда составляет 2,0, в то время как известная оценка Breakout с использованием DQN составляет 100+. Мне интересно, связано ли это с отсечением наград…
03 ноя '19 в 12:02
0
ответов
Python Deep Q Network Snake не учится
Поэтому я хотел объединить эту игру про змейку с DQN, которое я нашел в этой статье. Сначала я попытался изменить входной слой NN на вход 400. В игре поле 20 умножено на 20, поэтому я подумал, что могу отправить NN 2D-массив с 0 для нормальной ячейк…
03 дек '19 в 20:04
0
ответов
DQN дрожит во время учебы
я просто хочу, чтобы продолжить свое образование в области нейронных сетей и в настоящее время нахожусь в процессе проектирования свой собственный сценарий на основе на cartpole примере ( cartpole тренажерный зал-окр). Я использую tenorflow с пакето…
29 дек '19 в 13:44
1
ответ
Почему рандомизация выборок модели обучения с подкреплением с помощью аппроксиматора нелинейных функций снижает дисперсию?
Я прочитал диссертацию DQN. Читая статью DQN, я обнаружил, что случайный выбор и изучение выборок уменьшают расхождение в RL с помощью нелинейного аппроксиматора функций. Если да, то почему обучение RL с использованием аппроксиматора нелинейных функ…
28 янв '20 в 09:24
2
ответа
TypeError: __init__() отсутствует 1 обязательный позиционный аргумент: 'units' при использовании класса NoisyDense
Я пытаюсь реализовать в своей модели шумовые сети. Я нашел код на GitHub, который является реализацией класса NoisyDense. Я использовал этот класс внутри своей модели. Вот код: - class Agent: def __init__(self, state_size, strategy="t-dqn", reset_ev…
03 мар '20 в 09:27
1
ответ
Нестабильные прогнозы DQN
Я реализовал DQN с нуля на java, все сделано на заказ. Я сделал это для игры в змейку, и результаты действительно хорошие. Но у меня проблема. Чтобы сделать сеть максимально стабильной, я использую replay memory а также target network. Сеть действит…
08 мар '20 в 13:26
0
ответов
DQN вообще не обучается с Breakout-ram-v0?
Я пытаюсь обучить двойной DQN с буфером ответа в версии OpenAI Breakout Ram (пробовал как Breakout-ram-v0, так и Breakout-ram-v4). Код здесь (tf 2.0). Я перепробовал так много настроек параметров вместе со многими другими деталями. Оборудование огра…
28 мар '20 в 23:15
1
ответ
как мне определить состояние для моей среды, подобной сетке?
Проблема, которую я хочу решить, на самом деле не так проста, но это своего рода игрушечная игра, которая помогает мне решить более серьезную проблему. поэтому у меня есть матрица 5x5 со значениями, равными 0: structure = np.zeros(25).reshape(5, 5) …
12 апр '20 в 12:43
1
ответ
Получение ошибки "AttributeError: объект 'NoneType' не имеет атрибута 'shape'" при реализации Atari Breakout
Я сделал код для решения Atari Breakout. У меня небольшая проблема, но я не могу сказать, в чем она. Вот код Это проблема с памятью воспроизведения. try: next_states = torch.tensor(batch[3], dtype=torch.float32) except: import ipdb; ipdb.set_trace()…
12 апр '20 в 23:54
0
ответов
пространство дискретных действий в рамках базовой линии
Я работаю с алгоритмом DQN в стабильной базе. Мне нужно определить действие с двумя параметрами (например, a(i,j)). Можно ли определить его с помощью дискретного пространства действий, если да, то как я могу его определить? Большое спасибо за Вашу п…
01 май '20 в 21:52
0
ответов
Потеря периодического обучения Deep Q
Я пытаюсь обучить Double-DQN (с буфером воспроизведения опыта) на своей собственной проблеме, но сталкиваюсь с проблемой "периодических потерь". Когда убыток увеличивается, награда также увеличивается, но через некоторое время убыток уменьшается, и …
27 ноя '19 в 17:43
1
ответ
Проблема агента Tensorflow 2.0 DQN с настраиваемой средой
Итак, я следил за примером / учебником агента DQN и настраивал его, как в примере, с той лишь разницей, что я создал свою собственную среду Python, которую затем обернул в TensorFlow. Однако, как бы я ни формировал свои наблюдения и спецификации дей…
02 дек '19 в 17:55
0
ответов
Каков правильный подход к хранению состояния в DQN-HER данных временных рядов для CNN?
Вот сценарий: Я хочу преобразовать серию курсов акций за t шагов для использования в CNN, чтобы попытаться предсказать будущее состояние за t+n шагов. Я думаю, что нужно сделать следующее, но я понятия не имею, насколько это правильно или неправильн…
12 фев '20 в 15:27