Описание тега reinforcement-learning

Reinforcement learning is an area of machine learning and computer science concerned with how to select an action in a state that maximizes a numerical reward in a particular environment.
1 ответ

Отжиг эпсилона в эпсилон-жадной политике при использовании DQN

При использовании DQN мне сказали, что перед запоминанием лучше заполнить всю память воспроизведения. Мне интересно, как отжигать эпсилон, если я использую эпсилон-жадную политику. Скажем, объем памяти воспроизведения равен 10000, поэтому агент долж…
29 янв '18 в 06:44
2 ответа

Актер-критик модель никогда не сходится

Я пытаюсь реализовать Actor-Critic, используя Keras & Tensorflow. Однако, это никогда не сходится, и я не могу понять, почему. Я уменьшил скорость обучения, но она не изменилась. Код находится в python3.5.1 и tenorflow1.2.1 import gym import itertoo…
1 ответ

Усиленное обучение для тетриса

Я понимаю суть того, как это сделать, но не могу понять, как сохранить пары (State,Value) с Tetris, имеющим так много разных состояний, что использование хэш-карты не должно работать изначально из-за памяти. Может быть, вы можете отобразить разные с…
22 янв '17 в 14:13
1 ответ

Обучение глубокому подкреплению против обучения подкреплению

В чем разница между глубоким подкрепляющим обучением и подкрепляющим обучением? Я в основном знаю, что такое обучение с подкреплением, но что означает конкретный термин в этом контексте?
1 ответ

Количество значений Q для сети обучения с глубоким подкреплением

В настоящее время я занимаюсь разработкой сети обучения с глубоким подкреплением, однако у меня есть небольшое сомнение относительно количества q-значений, которые я буду иметь на выходе NN. У меня будет всего 150 q-значений, что лично мне кажется ч…
1 ответ

Объявите кодировку в реализации Open AI Gym на Python 3

Я изучаю обучение подкреплению и следую этому уроку. Я пытаюсь запустить экземпляр среды CartPole-v0 и получаю эту ошибку. import gym env = gym.make('CartPole-v0') env.reset() for _ in range(1000): env.render() env.step(env.action_space.sample()) Sy…
01 окт '18 в 08:26
1 ответ

Повтор опыта делает моего агента хуже

Я "успешно" настроил Q-сеть для решения задачи "FrozenLake-v0" в спортзале OpenAI (по крайней мере, я думаю... не уверен на 100%, как я наберу очки - я получаю от 70 до 80 из 100 успешных эпизодов после 5к эпизодов тренировки без опыта переигровки).…
0 ответов

Open AI Gym Cart-Pole на основах PPO2

Был на этом уже два дня и никуда не денется. Я хочу создать свою собственную спортивную среду и запустить ее с помощью базовых линий ppo2 (cnn). Я полагаю, что если я заставлю Cart Pole работать, мой env тоже будет работать. Мой код работает на Deep…
0 ответов

Определение входных данных для обучения глубокому укреплению пасьянса Клондайк

Я пытаюсь разработать алгоритм обучения с подкреплением для Пасьянса Клондайк, и столкнулся с некоторым препятствием. Я действительно не знаю, как лучше всего представить состояние игры в качестве входных данных для нейронной сети, я рассмотрел испо…
1 ответ

Q-обучение против временной разницы против обучения на основе модели

Я в курсе под названием "Интеллектуальные машины" в университете. Мы познакомились с 3 методами усиленного обучения, и с теми, которые нам дали интуицию, когда их использовать, и я цитирую: Q-Learning - лучше всего, когда MDP не может быть решена. И…
0 ответов

В обучающем агенте подкрепления обучения не происходит

Я пытаюсь реализовать метод глубокого детерминированного градиента в тензорном потоке и керасе, однако, похоже, застрял. Кажется, что обучения не происходит, действия, предпринимаемые моделью, вообще не меняются, и градиент, применяемый к сети актор…
1 ответ

Параметры обучения глубокого подкрепления и время обучения для простой игры

Я хочу узнать, как работает алгоритм глубокого подкрепления и сколько времени требуется для обучения себя в любой конкретной среде. Я придумал очень простой пример среды: Существует счетчик, который содержит целое число от 0 до 100. Его целью являет…
1 ответ

Создание настраиваемой среды openAI Gym

На ПК с Linux я пытаюсь создать настраиваемую открытую среду AI Gym, и я могу получить все эти шаги из блога, написанного с medium.com, включая pip install -e . но я получаю ошибку с конечным продуктом, создающим среду env = gym.make('BASoperator-v1…
1 ответ

Алгоритм Сарсы, почему Q-значения стремятся к нулю?

Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из спортзала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это. Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод, и я его п…
12 окт '16 в 19:23
1 ответ

Проблемы в обучении подкреплению: ошибка, настройка параметров и период обучения

В настоящее время я обучаю агента обучения подкреплению, используя простую нейронную сеть со 100 скрытыми элементами, чтобы решить игру 2048. Я использую алгоритм обучения подкрепления DQN (т.е. Q-learning с памятью воспроизведения), но с 2-х уровне…
19 июн '16 в 10:40
1 ответ

Алгоритм обучения подкреплению с использованием графики черепах не работает

В настоящее время пытаюсь реализовать алгоритм таблицы Q в моей среде, созданной с использованием графики черепахи. Когда я пытаюсь запустить алгоритм, который использует Q обучения, я получаю сообщение об ошибке: File "<ipython-input-1-cf5669494…
2 ответа

Укрепление обучения, где каждый штат является конечным

Мой вопрос не связан с реализацией обучения подкреплению, но должен понять концепцию RL, когда каждое состояние является конечным состоянием. Я приведу пример: робот учится играть в футбол, просто стреляя. Награда - это расстояние между мячом и стой…
25 фев '19 в 16:23
1 ответ

Как получается уравнение в "Стратегиях эволюции как масштабируемой альтернативе обучению усилению"?

Как излагается уравнение на странице 3 в документе OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления"?
0 ответов

Запустите тренажерный зал-беседку в Google Colab Laboratory

Я пытаюсь запустить тренажерный зал-беседку в Google Colab Laboratory.Существует проблема с запуском сервера беседки (беседка без графического интерфейса пользователя) на Colab.На дисплее было предупреждение: Unable to create X window. Rendering wil…
2 ответа

Как я могу получить доступ к весам повторяющейся ячейки в Tensorflow?

Одним из способов повышения стабильности в задачах глубокого Q-обучения является поддержание набора целевых весов для сети, которые обновляются медленно и используются для расчета целевых значений Q-значения. В результате в разное время в процедуре …