Описание тега q-learning
Q-learning is a model-free reinforcement learning technique.
1
ответ
Обучение глубокому подкреплению против обучения подкреплению
В чем разница между глубоким подкрепляющим обучением и подкрепляющим обучением? Я в основном знаю, что такое обучение с подкреплением, но что означает конкретный термин в этом контексте?
22 июн '16 в 16:00
1
ответ
Что-то не так с кодом Keras Q-learning Тренажерный зал OpenAI FrozenLake
Может быть, мой вопрос покажется глупым. Я изучаю алгоритм Q-обучения. Чтобы лучше понять это, я пытаюсь преобразовать код Tenzorflow этого примера FrozenLake в код Keras. Мой код: import gym import numpy as np import random from keras.layers import…
24 авг '17 в 19:57
1
ответ
Количество значений Q для сети обучения с глубоким подкреплением
В настоящее время я занимаюсь разработкой сети обучения с глубоким подкреплением, однако у меня есть небольшое сомнение относительно количества q-значений, которые я буду иметь на выходе NN. У меня будет всего 150 q-значений, что лично мне кажется ч…
23 апр '18 в 16:30
1
ответ
Повтор опыта делает моего агента хуже
Я "успешно" настроил Q-сеть для решения задачи "FrozenLake-v0" в спортзале OpenAI (по крайней мере, я думаю... не уверен на 100%, как я наберу очки - я получаю от 70 до 80 из 100 успешных эпизодов после 5к эпизодов тренировки без опыта переигровки).…
04 апр '18 в 09:54
1
ответ
Как реализовать Deep Q-Learning градиентный спуск
Поэтому я пытаюсь реализовать алгоритм Deep Q-learning, созданный Google DeepMind, и думаю, что теперь у меня есть довольно хорошие навыки. И все же есть одна (довольно важная) вещь, которую я не очень понимаю, и я надеюсь, что вы могли бы помочь. Н…
08 окт '16 в 12:54
1
ответ
Последовательность с максимальным счетом?
Скажем, у меня есть n-состояния S={s1,s2,s3, ..... sn }, и у меня есть оценка для каждого перехода, то есть T-матрица fe s1->s5 = 0.3, s4->s3 = 0.7, ....так далее. Какой алгоритм или процедуру я должен использовать, чтобы выбрать наилучшую оцененную…
19 янв '17 в 20:27
1
ответ
Алгоритм торговли - действия в Q-learning/DQN
Следующее завершено с использованием MATLAB. Я пытаюсь построить торговый алгоритм с использованием обучения Deep Q. Я только что взял ежедневные цены на акции за годы и использую это в качестве учебного набора. Мое состояние пространства мое [money…
06 июн '17 в 09:09
4
ответа
Q обучение: переучивание после изменения среды
Я реализовал Q обучение на сетке размера (n x n) с единственной наградой 100 в середине. Агент учится за 1000 эпох достичь цели следующим агентством: он выбирает с вероятностью 0,8 ход с наибольшим значением состояния-действия и выбирает случайный х…
30 дек '14 в 18:57
2
ответа
Deep Q Network не учится
Я пытался написать код Deep Q Network, чтобы играть в игры Atari, используя Tensorflow и OpenAI Gym. Вот мой код: import tensorflow as tf import gym import numpy as np import os env_name = 'Breakout-v0' env = gym.make(env_name) num_episodes = 100 in…
15 апр '18 в 10:27
1
ответ
Почему DQN дает одинаковые значения всем действиям в пространстве действий (2) для всех наблюдений
У меня есть алгоритм DQN, который учится (потери сходятся к 0), но, к сожалению, он изучает функцию значения Q, так что оба значения Q для каждого из 2 возможных действий очень похожи. Стоит отметить, что значения Q меняются очень мало за каждое наб…
02 авг '17 в 13:42
1
ответ
Создание моей многоагентной среды путем глубокого обучения
Я должен создать свою собственную среду и применить алгоритм dqn в многоагентной среде. У меня есть 4 агента. Каждое состояние моей среды имеет 5 переменных state=[p1, p2, p3, p4,p5]на каждом временном шаге мы обновляем различные параметры всех сост…
08 май '18 в 07:53
1
ответ
Что такое фи в алгоритме Deep Q-learning?
Я пытаюсь создать обучающую футбольную игру с нуля с помощью Java, и я пытаюсь реализовать усиленное обучение с помощью алгоритма глубокого обучения Google DeepMind (хотя без сверточной сети). Я уже построил нейронную сеть и Q-learning, и теперь я п…
04 окт '16 в 09:39
2
ответа
Значения Q-Learning становятся слишком высокими
Недавно я попытался реализовать базовый алгоритм Q-Learning в Golang. Обратите внимание, что я новичок в Reinforcement Learning и AI в целом, поэтому ошибка вполне может быть моей. Вот как я реализовал решение для среды m,n,k-game: в каждый момент в…
30 май '16 в 11:24
1
ответ
MDP & Reinforcement Learning - Сравнение сходимости алгоритмов VI, PI и QLearning
Я реализовал алгоритмы VI (Value Iteration), PI (Policy Iteration) и QLearning с использованием Python. После сравнения результатов я кое-что заметил. Алгоритмы VI и PI сходятся к одним и тем же утилитам и политикам. С одинаковыми параметрами алгори…
28 дек '17 в 17:36
1
ответ
Deepmind Deep Q Network (DQN) 3D Свертка
Я читал статью о глубокой природе в сети DQN. Я почти все об этом, кроме одного. Я не знаю, почему никто не задавал этот вопрос раньше, но он все равно кажется мне немного странным. Мой вопрос: вход для DQN - это изображение размером 84*84*4. Первый…
09 янв '16 в 10:26
0
ответов
Простая нейронная сеть Q-Learning с использованием NumPy
import numpy as np from numpy import exp, array, random, dot R = np.matrix([[-1, -1, -1, -1,1, -1], # for correct action the reward is 1 and for wrong action it's -1 [-1, -1, -1, 1, -1, 1], [-1, -1, -1, 1, -1, -1], [-1, 1, 1, -1, 1, -1], [-1, 1, 1, …
30 янв '18 в 06:02
2
ответа
Python: обновление двумерного массива словарей
Я работаю над проектом q-learning, который включает в себя круг, решающий лабиринт, и это проблема с тем, как я обновляю значения Q, но я не уверен, где: я законно потратил 3 дня на эту тему, и я Я в моем конце ума. При ближайшем рассмотрении кажетс…
23 фев '18 в 23:00
2
ответа
Исследование Больцмана с более чем двумя действиями в Q-learning
Я использую исследование Больцмана в Q-learning, где у меня есть как минимум 10 действий в каждом штате. Я знаю, что только с двумя действиями, исследование Больцмана может быть применено довольно просто следующим образом: Рассчитайте pr1 и pr2 для …
07 авг '12 в 12:47
1
ответ
Q-learning в нейронной сети - Mountain Car
Итак, я читал о Q-learning и нейронных сетях. Я считаю, что у меня есть правильная идея для этого, однако я хотел бы получить второе мнение о моем коде для NN и обновлении с Q-значениями. Я создал MatLab-реализацию задачи Mountain Car и мою нейронну…
13 авг '13 в 14:54
2
ответа
Низкое использование графического процессора при работе Tensorflow
Я занимаюсь изучением глубокого подкрепления с использованием тренажерного зала Tensorflow и OpenAI. Моя проблема - низкая загрузка графического процессора. Погуглив эту проблему, я понял, что неправильно ожидать большого использования графического …
26 янв '18 в 14:44