Описание тега q-learning

Q-learning is a model-free reinforcement learning technique.
1 ответ

Обучение глубокому подкреплению против обучения подкреплению

В чем разница между глубоким подкрепляющим обучением и подкрепляющим обучением? Я в основном знаю, что такое обучение с подкреплением, но что означает конкретный термин в этом контексте?
1 ответ

Что-то не так с кодом Keras Q-learning Тренажерный зал OpenAI FrozenLake

Может быть, мой вопрос покажется глупым. Я изучаю алгоритм Q-обучения. Чтобы лучше понять это, я пытаюсь преобразовать код Tenzorflow этого примера FrozenLake в код Keras. Мой код: import gym import numpy as np import random from keras.layers import…
1 ответ

Количество значений Q для сети обучения с глубоким подкреплением

В настоящее время я занимаюсь разработкой сети обучения с глубоким подкреплением, однако у меня есть небольшое сомнение относительно количества q-значений, которые я буду иметь на выходе NN. У меня будет всего 150 q-значений, что лично мне кажется ч…
1 ответ

Повтор опыта делает моего агента хуже

Я "успешно" настроил Q-сеть для решения задачи "FrozenLake-v0" в спортзале OpenAI (по крайней мере, я думаю... не уверен на 100%, как я наберу очки - я получаю от 70 до 80 из 100 успешных эпизодов после 5к эпизодов тренировки без опыта переигровки).…
1 ответ

Как реализовать Deep Q-Learning градиентный спуск

Поэтому я пытаюсь реализовать алгоритм Deep Q-learning, созданный Google DeepMind, и думаю, что теперь у меня есть довольно хорошие навыки. И все же есть одна (довольно важная) вещь, которую я не очень понимаю, и я надеюсь, что вы могли бы помочь. Н…
1 ответ

Последовательность с максимальным счетом?

Скажем, у меня есть n-состояния S={s1,s2,s3, ..... sn }, и у меня есть оценка для каждого перехода, то есть T-матрица fe s1->s5 = 0.3, s4->s3 = 0.7, ....так далее. Какой алгоритм или процедуру я должен использовать, чтобы выбрать наилучшую оцененную…
1 ответ

Алгоритм торговли - действия в Q-learning/DQN

Следующее завершено с использованием MATLAB. Я пытаюсь построить торговый алгоритм с использованием обучения Deep Q. Я только что взял ежедневные цены на акции за годы и использую это в качестве учебного набора. Мое состояние пространства мое [money…
4 ответа

Q обучение: переучивание после изменения среды

Я реализовал Q обучение на сетке размера (n x n) с единственной наградой 100 в середине. Агент учится за 1000 эпох достичь цели следующим агентством: он выбирает с вероятностью 0,8 ход с наибольшим значением состояния-действия и выбирает случайный х…
2 ответа

Deep Q Network не учится

Я пытался написать код Deep Q Network, чтобы играть в игры Atari, используя Tensorflow и OpenAI Gym. Вот мой код: import tensorflow as tf import gym import numpy as np import os env_name = 'Breakout-v0' env = gym.make(env_name) num_episodes = 100 in…
1 ответ

Почему DQN дает одинаковые значения всем действиям в пространстве действий (2) для всех наблюдений

У меня есть алгоритм DQN, который учится (потери сходятся к 0), но, к сожалению, он изучает функцию значения Q, так что оба значения Q для каждого из 2 возможных действий очень похожи. Стоит отметить, что значения Q меняются очень мало за каждое наб…
1 ответ

Создание моей многоагентной среды путем глубокого обучения

Я должен создать свою собственную среду и применить алгоритм dqn в многоагентной среде. У меня есть 4 агента. Каждое состояние моей среды имеет 5 переменных state=[p1, p2, p3, p4,p5]на каждом временном шаге мы обновляем различные параметры всех сост…
1 ответ

Что такое фи в алгоритме Deep Q-learning?

Я пытаюсь создать обучающую футбольную игру с нуля с помощью Java, и я пытаюсь реализовать усиленное обучение с помощью алгоритма глубокого обучения Google DeepMind (хотя без сверточной сети). Я уже построил нейронную сеть и Q-learning, и теперь я п…
04 окт '16 в 09:39
2 ответа

Значения Q-Learning становятся слишком высокими

Недавно я попытался реализовать базовый алгоритм Q-Learning в Golang. Обратите внимание, что я новичок в Reinforcement Learning и AI в целом, поэтому ошибка вполне может быть моей. Вот как я реализовал решение для среды m,n,k-game: в каждый момент в…
1 ответ

MDP & Reinforcement Learning - Сравнение сходимости алгоритмов VI, PI и QLearning

Я реализовал алгоритмы VI (Value Iteration), PI (Policy Iteration) и QLearning с использованием Python. После сравнения результатов я кое-что заметил. Алгоритмы VI и PI сходятся к одним и тем же утилитам и политикам. С одинаковыми параметрами алгори…
1 ответ

Deepmind Deep Q Network (DQN) 3D Свертка

Я читал статью о глубокой природе в сети DQN. Я почти все об этом, кроме одного. Я не знаю, почему никто не задавал этот вопрос раньше, но он все равно кажется мне немного странным. Мой вопрос: вход для DQN - это изображение размером 84*84*4. Первый…
0 ответов

Простая нейронная сеть Q-Learning с использованием NumPy

import numpy as np from numpy import exp, array, random, dot R = np.matrix([[-1, -1, -1, -1,1, -1], # for correct action the reward is 1 and for wrong action it's -1 [-1, -1, -1, 1, -1, 1], [-1, -1, -1, 1, -1, -1], [-1, 1, 1, -1, 1, -1], [-1, 1, 1, …
30 янв '18 в 06:02
2 ответа

Python: обновление двумерного массива словарей

Я работаю над проектом q-learning, который включает в себя круг, решающий лабиринт, и это проблема с тем, как я обновляю значения Q, но я не уверен, где: я законно потратил 3 дня на эту тему, и я Я в моем конце ума. При ближайшем рассмотрении кажетс…
23 фев '18 в 23:00
2 ответа

Исследование Больцмана с более чем двумя действиями в Q-learning

Я использую исследование Больцмана в Q-learning, где у меня есть как минимум 10 действий в каждом штате. Я знаю, что только с двумя действиями, исследование Больцмана может быть применено довольно просто следующим образом: Рассчитайте pr1 и pr2 для …
1 ответ

Q-learning в нейронной сети - Mountain Car

Итак, я читал о Q-learning и нейронных сетях. Я считаю, что у меня есть правильная идея для этого, однако я хотел бы получить второе мнение о моем коде для NN и обновлении с Q-значениями. Я создал MatLab-реализацию задачи Mountain Car и мою нейронну…
2 ответа

Низкое использование графического процессора при работе Tensorflow

Я занимаюсь изучением глубокого подкрепления с использованием тренажерного зала Tensorflow и OpenAI. Моя проблема - низкая загрузка графического процессора. Погуглив эту проблему, я понял, что неправильно ожидать большого использования графического …