Описание тега stable-baselines

0 ответов

How to validate for reinforcement learning env?

Using any RL framework, while training the enc.rewards for every steps is been provided as output, but how to validate the output of reward and time for the env? What parameters should be considered to change the policy or lr or steps?
1 ответ

стабильная базовая линия с проблемой тензорного потока

В нем говорится: Stable-Baselines поддерживает версии Tensorflow от 1.8.0 до 1.15.0 и не работает с версиями Tensorflow 2.0.0 и выше. Итак, я попытался установить "sudo pip3 install tensorflow==1.15.0" Но я получаю сообщение: ОШИБКА: не удалось найт…
0 ответов

Простая среда обучения с подкреплением с использованием PPO и нескольких рабочих

Я новичок в области обучения армированию, и мне может понадобиться помощь. Я попытался реализовать свою собственную очень простую среду роботов. Разница в том, что я хочу использовать в качестве наблюдения угол одной оси 6 вместо декартовых координа…
1 ответ

Стабильные базовые показатели с сохранением модели PPO и ее повторным обучением

Здравствуйте, я использую пакет Stable baselines ( https://stable-baselines.readthedocs.io/), в частности, я использую PPO2, и я не уверен, как правильно сохранить свою модель... Я тренировал его в течение 6 виртуальных дней и получил свой средний д…
0 ответов

поиск вывода слоя в модели армирования, версия TF - 1.14

Я построил модель обучения с подкреплением классификации, используя политику MLP-LSTM. Я попытался классифицировать 6 различных типов вещей. теперь я хочу увидеть вывод слоя, введя данные в модель. я беру выходные данные слоев из модели без каких-ли…
0 ответов

При использовании MlpLnLstmPolicy в стабильных базовых показателях спросите о настраиваемых действиях в прогнозировании

Я успешно обучаю модель с помощью MlpLnLstmPolicy. и я также предсказываю, используя модель. Я хочу выполнить действие custum на определенном шаге, возможно ли это в lstm? Как в коде ниже def predict(): env = make_vec_env(HarmonyEnv, n_envs=8*4*2) m…
27 мар '20 в 03:11
0 ответов

проблема с добавлением логики для недопустимых движений в тренажерном зале openai и стабильной базе

Я хочу интегрировать свою среду в тренажерный зал openAI, а затем использовать стабильную библиотеку базовых показателей для ее тренировки. ссылка на стабильный базовый уровень: https://stable-baselines.readthedocs.io/ Метод обучения в стабильной ба…
0 ответов

На что ссылается "Nature CNN" в политике "Стабильных базовых показателей"?

Может быть, ответ, но сложно гуглить эффективно. В коде и документации Stable Baselines имеется ссылка на "Nature CNN", см. Политику github cnn в отношении стабильных базовых показателей, но на какую именно статью они ссылаются?
0 ответов

пространство дискретных действий в рамках базовой линии

Я работаю с алгоритмом DQN в стабильной базе. Мне нужно определить действие с двумя параметрами (например, a(i,j)). Можно ли определить его с помощью дискретного пространства действий, если да, то как я могу его определить? Большое спасибо за Вашу п…
01 май '20 в 21:52
0 ответов

Миграция проекта со stable_baselines на ray[rllib]

Я главный разработчик Jiminy, быстрого симулятора Python/C++ для многоартикулированных систем, совместимого со средой обучения openAI Gym. До сих пор я использовал stable_baselines для обучения с подкреплением, но хотел бы переключиться на ray[rllib…
0 ответов

Сделайте агента RL, чтобы он играл против человека

В своей настройке я использую стабильные базовые показатели, чтобы создать агента, который найдет хорошую политику для покупки и продажи на валютном рынке. С этой целью я сделал 3 вспомогательных файла для создания своей среды. Один - это спотовые к…
0 ответов

Как интегрировать пространство Dict тренажерного зала OpenAI в структуру обучения с подкреплением?

Я создаю тренажерный зал, и у меня есть несколько входных массивов в качестве входных (разных размеров). Самый простой способ интегрировать мою среду в тренажерный зал - использовать пространство Dict в качестве пространства моей среды (каждая из за…
0 ответов

Почему средняя награда за эпизод во время тренировки остается на уровне +100?

Я хочу создать класс обратного вызова, который проверяет каждые 200 шагов обучения, увеличилось ли среднее вознаграждение за эпизод модели, и если да, то сохраняет его. Я знаю, что уже существуетEvalCallback() класс в stable-baselines библиотека, но…
01 май '20 в 01:06
1 ответ

Как создать живой график matplotlib.pyplot в Google Colab?

К сожалению, невозможно создавать живые графики в блокноте Google Colab, используя %matplotlib notebook как в автономном ноутбуке jupyter на моем ПК. Я нашел два похожих вопроса, отвечая на вопрос, как добиться этого для сюжетных сюжетов ( ссылка_1,…
1 ответ

Как загрузить обученную модель protobuf TF1 в TF2?

Я создал и обучил модель с использованием stable-baselines, в которой используется Tensorflow 1. Теперь мне нужно использовать эту обученную модель в среде, где у меня есть доступ только к Tensorflow 2 или PyTorch. Я решил, что выберу Tensorflow 2, …
30 авг '20 в 14:06
1 ответ

Распространение неожиданных действий для пользовательской среды RL

Я работаю над созданием настраиваемой среды и обучаю на ней агента RL. Я использую стабильные базовые показатели, потому что они, кажется, реализуют все новейшие алгоритмы RL и, кажется, максимально приближены к принципу "подключи и работай" (я хоте…
3 ответа

Stable Baselines не работает с tenorflow

Поэтому я недавно вернулся к машинному обучению и решил начать курс Kaggle для "ConnectX" ( https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning). Я пытаюсь провести урок 4, в котором я использую stable-baselines + Tensorflow для…
05 июл '20 в 03:06
1 ответ

Зачем помощнику по оценке Stable Baselines среда?

При создании модели в Stable Baselines требуется среда. например env = gym.make('CartPole-v1') model = PPO2(MlpPolicy, env) Помощнику оценки также необходимо указать среду. т.е. mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=1…
09 июл '20 в 09:52
0 ответов

AssertionError: defaultdict(<функция mc_control_importance_sampling. <locals>. <lambda> at 0x7f31699ffe18>

Я работал над DQN, используя стабильные базовые показатели и дискретную среду с 3 действиями. Я использую руководство по RL https://github.com/dennybritz/reinforcement-learning/blob/master/MC/MC%20Control%20with%20Epsilon-Greedy%20Policies%20Solutio…
0 ответов

_pywrap_tf_optimizer.so: не удалось сопоставить сегмент из общего объекта

У меня стабильные базовые показатели агент, который использует Tensorflow и в конечном итоге вызывает_pywrap_tf_optimizer на экземпляре виртуальной машины GCP. Примерно через два-три дня обучения (что означает, что изначально код работал нормально),…