Описание тега reinforcement-learning
Reinforcement learning is an area of machine learning and computer science concerned with how to select an action in a state that maximizes a numerical reward in a particular environment.
1
ответ
Отжиг эпсилона в эпсилон-жадной политике при использовании DQN
При использовании DQN мне сказали, что перед запоминанием лучше заполнить всю память воспроизведения. Мне интересно, как отжигать эпсилон, если я использую эпсилон-жадную политику. Скажем, объем памяти воспроизведения равен 10000, поэтому агент долж…
29 янв '18 в 06:44
2
ответа
Актер-критик модель никогда не сходится
Я пытаюсь реализовать Actor-Critic, используя Keras & Tensorflow. Однако, это никогда не сходится, и я не могу понять, почему. Я уменьшил скорость обучения, но она не изменилась. Код находится в python3.5.1 и tenorflow1.2.1 import gym import itertoo…
01 авг '17 в 03:39
1
ответ
Усиленное обучение для тетриса
Я понимаю суть того, как это сделать, но не могу понять, как сохранить пары (State,Value) с Tetris, имеющим так много разных состояний, что использование хэш-карты не должно работать изначально из-за памяти. Может быть, вы можете отобразить разные с…
22 янв '17 в 14:13
1
ответ
Обучение глубокому подкреплению против обучения подкреплению
В чем разница между глубоким подкрепляющим обучением и подкрепляющим обучением? Я в основном знаю, что такое обучение с подкреплением, но что означает конкретный термин в этом контексте?
22 июн '16 в 16:00
1
ответ
Количество значений Q для сети обучения с глубоким подкреплением
В настоящее время я занимаюсь разработкой сети обучения с глубоким подкреплением, однако у меня есть небольшое сомнение относительно количества q-значений, которые я буду иметь на выходе NN. У меня будет всего 150 q-значений, что лично мне кажется ч…
23 апр '18 в 16:30
1
ответ
Объявите кодировку в реализации Open AI Gym на Python 3
Я изучаю обучение подкреплению и следую этому уроку. Я пытаюсь запустить экземпляр среды CartPole-v0 и получаю эту ошибку. import gym env = gym.make('CartPole-v0') env.reset() for _ in range(1000): env.render() env.step(env.action_space.sample()) Sy…
01 окт '18 в 08:26
1
ответ
Повтор опыта делает моего агента хуже
Я "успешно" настроил Q-сеть для решения задачи "FrozenLake-v0" в спортзале OpenAI (по крайней мере, я думаю... не уверен на 100%, как я наберу очки - я получаю от 70 до 80 из 100 успешных эпизодов после 5к эпизодов тренировки без опыта переигровки).…
04 апр '18 в 09:54
0
ответов
Open AI Gym Cart-Pole на основах PPO2
Был на этом уже два дня и никуда не денется. Я хочу создать свою собственную спортивную среду и запустить ее с помощью базовых линий ppo2 (cnn). Я полагаю, что если я заставлю Cart Pole работать, мой env тоже будет работать. Мой код работает на Deep…
20 апр '18 в 10:59
0
ответов
Определение входных данных для обучения глубокому укреплению пасьянса Клондайк
Я пытаюсь разработать алгоритм обучения с подкреплением для Пасьянса Клондайк, и столкнулся с некоторым препятствием. Я действительно не знаю, как лучше всего представить состояние игры в качестве входных данных для нейронной сети, я рассмотрел испо…
07 окт '18 в 21:12
1
ответ
Q-обучение против временной разницы против обучения на основе модели
Я в курсе под названием "Интеллектуальные машины" в университете. Мы познакомились с 3 методами усиленного обучения, и с теми, которые нам дали интуицию, когда их использовать, и я цитирую: Q-Learning - лучше всего, когда MDP не может быть решена. И…
09 дек '15 в 14:17
0
ответов
В обучающем агенте подкрепления обучения не происходит
Я пытаюсь реализовать метод глубокого детерминированного градиента в тензорном потоке и керасе, однако, похоже, застрял. Кажется, что обучения не происходит, действия, предпринимаемые моделью, вообще не меняются, и градиент, применяемый к сети актор…
24 мар '18 в 18:42
1
ответ
Параметры обучения глубокого подкрепления и время обучения для простой игры
Я хочу узнать, как работает алгоритм глубокого подкрепления и сколько времени требуется для обучения себя в любой конкретной среде. Я придумал очень простой пример среды: Существует счетчик, который содержит целое число от 0 до 100. Его целью являет…
27 окт '17 в 16:51
1
ответ
Создание настраиваемой среды openAI Gym
На ПК с Linux я пытаюсь создать настраиваемую открытую среду AI Gym, и я могу получить все эти шаги из блога, написанного с medium.com, включая pip install -e . но я получаю ошибку с конечным продуктом, создающим среду env = gym.make('BASoperator-v1…
03 дек '18 в 21:45
1
ответ
Алгоритм Сарсы, почему Q-значения стремятся к нулю?
Я пытаюсь реализовать алгоритм Sarsa для решения среды Frozen Lake из спортзала OpenAI. Я скоро начал работать с этим, но я думаю, что понимаю это. Я также понимаю, как работает алгоритм Sarsa, есть много сайтов, где можно найти псевдокод, и я его п…
12 окт '16 в 19:23
1
ответ
Проблемы в обучении подкреплению: ошибка, настройка параметров и период обучения
В настоящее время я обучаю агента обучения подкреплению, используя простую нейронную сеть со 100 скрытыми элементами, чтобы решить игру 2048. Я использую алгоритм обучения подкрепления DQN (т.е. Q-learning с памятью воспроизведения), но с 2-х уровне…
19 июн '16 в 10:40
1
ответ
Алгоритм обучения подкреплению с использованием графики черепах не работает
В настоящее время пытаюсь реализовать алгоритм таблицы Q в моей среде, созданной с использованием графики черепахи. Когда я пытаюсь запустить алгоритм, который использует Q обучения, я получаю сообщение об ошибке: File "<ipython-input-1-cf5669494…
17 май '18 в 13:05
2
ответа
Укрепление обучения, где каждый штат является конечным
Мой вопрос не связан с реализацией обучения подкреплению, но должен понять концепцию RL, когда каждое состояние является конечным состоянием. Я приведу пример: робот учится играть в футбол, просто стреляя. Награда - это расстояние между мячом и стой…
25 фев '19 в 16:23
1
ответ
Как получается уравнение в "Стратегиях эволюции как масштабируемой альтернативе обучению усилению"?
Как излагается уравнение на странице 3 в документе OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления"?
25 май '18 в 04:38
0
ответов
Запустите тренажерный зал-беседку в Google Colab Laboratory
Я пытаюсь запустить тренажерный зал-беседку в Google Colab Laboratory.Существует проблема с запуском сервера беседки (беседка без графического интерфейса пользователя) на Colab.На дисплее было предупреждение: Unable to create X window. Rendering wil…
20 фев '19 в 23:05
2
ответа
Как я могу получить доступ к весам повторяющейся ячейки в Tensorflow?
Одним из способов повышения стабильности в задачах глубокого Q-обучения является поддержание набора целевых весов для сети, которые обновляются медленно и используются для расчета целевых значений Q-значения. В результате в разное время в процедуре …
27 ноя '16 в 17:41