Описание тега rllib

0 ответов

Учебник Flow-Project 04 ошибка visualizer_rllib.py

Я новичок в потоке и работаю с примерами. В учебнике 04 пример визуализации я получаю ошибку атрибута. Код в ячейке !python ../flow/visualize/visualizer_rllib.py data/trained_ring 200 --horizon 2000 и я получаю ошибку: File "/Users/mac/anaconda3/env…
21 фев '20 в 17:18
0 ответов

Ray RLlib: Почему при обучении DQN снижается скорость обучения?

Нормальным ли является уменьшение пропускной способности и увеличение времени обучения при обучении агента Dueling DDQN? 7-кратное увеличение времени обучения после нескольких часов обучения является довольно значительным, ожидаете ли вы этого? Моя …
1 ответ

SyntaxError при запуске "python examples/train.py singleagent_ring"

Когда я бегу python examples/train.py singleagent_ringЯ обнаружил следующую ошибку: file "examples/train.py", line 201 **config ^ SyntaxError: invalid syntax Пожалуйста, помогите?
25 авг '20 в 21:29
0 ответов

Невозможно определить пользовательские метрики в Ray

Я использую фреймворк FLOW RL. Это позволяет мне использовать rllib и ray для моего алгоритма RL. Я пытался построить не обучающие данные на тензорной доске. Следуя документации по Ray ( ссылка), я попытался добавить собственные метрики. Поэтому мне…
15 ноя '19 в 22:19
1 ответ

Оценка Atari и награда в реализации rllib DQN

Я пытаюсь воспроизвести оценки DQN для Breakout с помощью RLLib. После 5 миллионов шагов средняя награда составляет 2,0, в то время как известная оценка Breakout с использованием DQN составляет 100+. Мне интересно, связано ли это с отсечением наград…
03 ноя '19 в 12:02
1 ответ

Можно ли указать "episodes_this_iter" с помощью алгоритма поиска Ray Tune?

Я новичок в программировании / Ray и у меня простой вопрос о том, какие параметры можно указать при использовании Ray Tune. В частности, в документации по настройке лучей говорится, что все автоматически заполняемые поля (steps_this_iter,epacial_thi…
09 янв '20 в 18:11
0 ответов

Реестр агентов A2C

Я думаю, что в файле ray/rllib/agent /registry.py для регистрации A2C Trainer есть ошибка. В данный момент: def _import_a2c(): from ray.rllib.agents import a3c return a3c.A2CTrainer В файле a3c.py нет переменной A2CTrainer, но в файле a2c.py есть. Д…
20 фев '20 в 22:37
1 ответ

Понимание графиков тензорной доски для PPO в RLLIB

Я новичок в Deep RL и хотел бы тренироваться в собственном тренажерном зале в RLLIB с алгоритмом PPO. Однако у меня возникают некоторые трудности с проверкой успешности настройки моих гиперпараметров. Помимо очевидной метрики Episode_reward_mean, ко…
13 мар '20 в 12:30
1 ответ

Как настроить многоагентный PPO rllib?

У меня очень простая многоагентная среда, настроенная для использования с ray.rllib, и я пытаюсь запустить простой базовый тест сценария обучения PPO и Random Policy следующим образом: register_env("my_env", lambda _: MyEnv(num_agents=2)) mock = MyE…
10 апр '20 в 13:54
0 ответов

Миграция проекта со stable_baselines на ray[rllib]

Я главный разработчик Jiminy, быстрого симулятора Python/C++ для многоартикулированных систем, совместимого со средой обучения openAI Gym. До сих пор я использовал stable_baselines для обучения с подкреплением, но хотел бы переключиться на ray[rllib…
0 ответов

RLlib изменяет форму наблюдения, добавляя [None] к кортежу формы

RLlib (версия 0.7.3) поставляется с формой наблюдения Box(10, 3), которую я хотел использовать с агентом FCN. Но библиотека, кажется, добавляет к этому еще одно измерение. Из-за этого дополнения RLlib пытается использовать для агента сеть техническо…
05 апр '20 в 23:03
1 ответ

AWS SageMaker RL с ray: ray.tune.error.TuneError: обучаемый объект не указан

У меня есть тренировочный сценарий, основанный на примере AWS SageMaker RL rl_network_compression_ray_custom, но измененный env, чтобы сделать базовый тренажерный зал env Asteroids-v0 (установка зависимостей в основной точке входа в тренировочный сц…
2 ответа

Количество временных шагов в одной итерации обучения RLlib

Я новичок в обучении с подкреплением и работаю над RL настраиваемой среды в тренажерном зале OpenAI с RLlib. Когда я создаю настраиваемую среду, нужно ли мне указывать количество серий в__init__()метод? ТАКЖЕ, когда я тренирую агента с for _ in rang…
04 июн '20 в 03:29
3 ответа

Измените Logdir обучения Ray RLlib вместо ~/ray_results

Я использую Ray и RLlib для обучения агентов RL в системе Ubuntu. Tensorboard используется для отслеживания прогресса обучения, указывая на него~/ray_resultsгде хранятся все файлы журнала для всех запусков. Ray Tune не используется. Например, при за…
0 ответов

scaling и batch_size для обучения нейронной сети в распределенном обучении с подкреплением

Я новичок в глубоком обучении с подкреплением и использую пакет Ray RLlib для своего обучения. Я хочу оценить масштабируемость моего обучения с 32,64,128 ядрами / процессорами. Насколько я понимаю, в распределенном обучении с подкреплением среда зап…
01 июл '20 в 01:56
0 ответов

Автоматическая настройка гиперпарамера для простого алгоритма обучения с подкреплением DQN

Я читал о RLlib, Ray Tune и других пакетах, которые предположительно находят оптимальные гиперпараметры для алгоритмов, но я до сих пор не понимаю, как это может работать с моим примером. Кто-нибудь знает, как я могу настроить RLlib или что-то подоб…
1 ответ

Создание пользовательской среды MA

Я ищу руководство по созданию фиктивного примера с несколькими агентами. Я пытался работать с документацией Rllib, но мне кажется, что я не понял подхода к созданию собственной многоагентной среды. Я бы хотел, чтобы несколько агентов начинали с разн…
18 авг '20 в 19:44
1 ответ

RLLib - Tensorflow - InvalidArgumentError: получено значение метки N, которое находится за пределами допустимого диапазона [0, N)

Я использую PPOTrainer RLLib с настраиваемой средой, я выполняю trainer.train() два раза первый завершается успешно, но когда я выполняю его во второй раз, он вылетает с ошибкой: lib / python3.7 / site-packages / tensorflow_core / python / client / …
10 дек '19 в 20:56
1 ответ

Есть ли способ обучить PPOTrainer в одной среде, а затем завершить обучение в немного измененной среде?

Я пытаюсь сначала обучить PPOTrainer на 250 итераций в простой среде, а затем закончить обучение в модифицированной среде. (Единственное различие между средами - это изменение одного из параметров конфигурации среды). Пока что я пробовал реализовать…
12 июн '20 в 04:03
0 ответов

Как запустить базовый пример распределенного ddppo

Я могу запустить кластер лучей с лучай вверх xyz.yaml Затем ssh-ing в него с помощью attachработает нормально, он также запускает рабочие экземпляры на aws. Ноrllib train - f atari-ddppo.yamlне запускает обучение на разных машинах, а ищет gpus на го…
21 июн '20 в 10:40