Описание тега q-learning

Описание тега Вопросы с тегом

Q-learning is a model-free reinforcement learning technique.

1 ответ

Обучение глубокому подкреплению против обучения подкреплению

В чем разница между глубоким подкрепляющим обучением и подкрепляющим обучением? Я в основном знаю, что такое обучение с подкреплением, но что означает конкретный термин в этом контексте?

22 июн '16 в 16:00

1 ответ

Что-то не так с кодом Keras Q-learning Тренажерный зал OpenAI FrozenLake

Может быть, мой вопрос покажется глупым. Я изучаю алгоритм Q-обучения. Чтобы лучше понять это, я пытаюсь преобразовать код Tenzorflow этого примера FrozenLake в код Keras. Мой код: import gym import numpy as np import random from keras.layers import…

python tensorflow keras artificial-intelligence q-learning

24 авг '17 в 19:57

1 ответ

Количество значений Q для сети обучения с глубоким подкреплением

В настоящее время я занимаюсь разработкой сети обучения с глубоким подкреплением, однако у меня есть небольшое сомнение относительно количества q-значений, которые я буду иметь на выходе NN. У меня будет всего 150 q-значений, что лично мне кажется ч…

deep-learning neural-network reinforcement-learning q-learning

23 апр '18 в 16:30

1 ответ

Повтор опыта делает моего агента хуже

Я "успешно" настроил Q-сеть для решения задачи "FrozenLake-v0" в спортзале OpenAI (по крайней мере, я думаю... не уверен на 100%, как я наберу очки - я получаю от 70 до 80 из 100 успешных эпизодов после 5к эпизодов тренировки без опыта переигровки).…

python tensorflow reinforcement-learning openai-gym q-learning

04 апр '18 в 09:54

1 ответ

Как реализовать Deep Q-Learning градиентный спуск

Поэтому я пытаюсь реализовать алгоритм Deep Q-learning, созданный Google DeepMind, и думаю, что теперь у меня есть довольно хорошие навыки. И все же есть одна (довольно важная) вещь, которую я не очень понимаю, и я надеюсь, что вы могли бы помочь. Н…

java algorithm deep-learning neural-network q-learning

08 окт '16 в 12:54

1 ответ

Последовательность с максимальным счетом?

Скажем, у меня есть n-состояния S={s1,s2,s3, ..... sn }, и у меня есть оценка для каждого перехода, то есть T-матрица fe s1->s5 = 0.3, s4->s3 = 0.7, ....так далее. Какой алгоритм или процедуру я должен использовать, чтобы выбрать наилучшую оцененную…

algorithm reinforcement-learning q-learning

19 янв '17 в 20:27

1 ответ

Алгоритм торговли - действия в Q-learning/DQN

Следующее завершено с использованием MATLAB. Я пытаюсь построить торговый алгоритм с использованием обучения Deep Q. Я только что взял ежедневные цены на акции за годы и использую это в качестве учебного набора. Мое состояние пространства мое [money…

reinforcement-learning algorithmic-trading quantitative-finance q-learning

06 июн '17 в 09:09

4 ответа

Q обучение: переучивание после изменения среды

Я реализовал Q обучение на сетке размера (n x n) с единственной наградой 100 в середине. Агент учится за 1000 эпох достичь цели следующим агентством: он выбирает с вероятностью 0,8 ход с наибольшим значением состояния-действия и выбирает случайный х…

algorithm machine-learning artificial-intelligence reinforcement-learning q-learning

30 дек '14 в 18:57

2 ответа

Deep Q Network не учится

Я пытался написать код Deep Q Network, чтобы играть в игры Atari, используя Tensorflow и OpenAI Gym. Вот мой код: import tensorflow as tf import gym import numpy as np import os env_name = 'Breakout-v0' env = gym.make(env_name) num_episodes = 100 in…

tensorflow neural-network artificial-intelligence reinforcement-learning q-learning

15 апр '18 в 10:27

1 ответ

Почему DQN дает одинаковые значения всем действиям в пространстве действий (2) для всех наблюдений

У меня есть алгоритм DQN, который учится (потери сходятся к 0), но, к сожалению, он изучает функцию значения Q, так что оба значения Q для каждого из 2 возможных действий очень похожи. Стоит отметить, что значения Q меняются очень мало за каждое наб…

machine-learning keras deep-learning computer-vision q-learning

02 авг '17 в 13:42

1 ответ

Создание моей многоагентной среды путем глубокого обучения

Я должен создать свою собственную среду и применить алгоритм dqn в многоагентной среде. У меня есть 4 агента. Каждое состояние моей среды имеет 5 переменных state=[p1, p2, p3, p4,p5]на каждом временном шаге мы обновляем различные параметры всех сост…

deep-learning reinforcement-learning q-learning multi-agent

08 май '18 в 07:53

1 ответ

Что такое фи в алгоритме Deep Q-learning?

Я пытаюсь создать обучающую футбольную игру с нуля с помощью Java, и я пытаюсь реализовать усиленное обучение с помощью алгоритма глубокого обучения Google DeepMind (хотя без сверточной сети). Я уже построил нейронную сеть и Q-learning, и теперь я п…

java deep-learning neural-network q-learning

04 окт '16 в 09:39

2 ответа

Значения Q-Learning становятся слишком высокими

Недавно я попытался реализовать базовый алгоритм Q-Learning в Golang. Обратите внимание, что я новичок в Reinforcement Learning и AI в целом, поэтому ошибка вполне может быть моей. Вот как я реализовал решение для среды m,n,k-game: в каждый момент в…

go floating-point reinforcement-learning q-learning

30 май '16 в 11:24

1 ответ

MDP & Reinforcement Learning - Сравнение сходимости алгоритмов VI, PI и QLearning

Я реализовал алгоритмы VI (Value Iteration), PI (Policy Iteration) и QLearning с использованием Python. После сравнения результатов я кое-что заметил. Алгоритмы VI и PI сходятся к одним и тем же утилитам и политикам. С одинаковыми параметрами алгори…

python machine-learning reinforcement-learning q-learning mdp

28 дек '17 в 17:36

1 ответ

Deepmind Deep Q Network (DQN) 3D Свертка

Я читал статью о глубокой природе в сети DQN. Я почти все об этом, кроме одного. Я не знаю, почему никто не задавал этот вопрос раньше, но он все равно кажется мне немного странным. Мой вопрос: вход для DQN - это изображение размером 84*84*4. Первый…

deep-learning conv-neural-network q-learning

09 янв '16 в 10:26

0 ответов

Простая нейронная сеть Q-Learning с использованием NumPy

import numpy as np from numpy import exp, array, random, dot R = np.matrix([[-1, -1, -1, -1,1, -1], # for correct action the reward is 1 and for wrong action it's -1 [-1, -1, -1, 1, -1, 1], [-1, -1, -1, 1, -1, -1], [-1, 1, 1, -1, 1, -1], [-1, 1, 1, …

python numpy neural-network q-learning

30 янв '18 в 06:02

2 ответа

Python: обновление двумерного массива словарей

Я работаю над проектом q-learning, который включает в себя круг, решающий лабиринт, и это проблема с тем, как я обновляю значения Q, но я не уверен, где: я законно потратил 3 дня на эту тему, и я Я в моем конце ума. При ближайшем рассмотрении кажетс…

python q-learning

23 фев '18 в 23:00

2 ответа

Исследование Больцмана с более чем двумя действиями в Q-learning

Я использую исследование Больцмана в Q-learning, где у меня есть как минимум 10 действий в каждом штате. Я знаю, что только с двумя действиями, исследование Больцмана может быть применено довольно просто следующим образом: Рассчитайте pr1 и pr2 для …

machine-learning reinforcement-learning q-learning

07 авг '12 в 12:47

1 ответ

Q-learning в нейронной сети - Mountain Car

Итак, я читал о Q-learning и нейронных сетях. Я считаю, что у меня есть правильная идея для этого, однако я хотел бы получить второе мнение о моем коде для NN и обновлении с Q-значениями. Я создал MatLab-реализацию задачи Mountain Car и мою нейронну…

matlab machine-learning neural-network artificial-intelligence q-learning

13 авг '13 в 14:54

2 ответа

Низкое использование графического процессора при работе Tensorflow

Я занимаюсь изучением глубокого подкрепления с использованием тренажерного зала Tensorflow и OpenAI. Моя проблема - низкая загрузка графического процессора. Погуглив эту проблему, я понял, что неправильно ожидать большого использования графического …

python tensorflow reinforcement-learning openai-gym q-learning

26 янв '18 в 14:44