Описание тега stable-baselines

Вопросы с тегом

0 ответов

How to validate for reinforcement learning env?

Using any RL framework, while training the enc.rewards for every steps is been provided as output, but how to validate the output of reward and time for the env? What parameters should be considered to change the policy or lr or steps?

02 май '20 в 09:41

1 ответ

стабильная базовая линия с проблемой тензорного потока

В нем говорится: Stable-Baselines поддерживает версии Tensorflow от 1.8.0 до 1.15.0 и не работает с версиями Tensorflow 2.0.0 и выше. Итак, я попытался установить "sudo pip3 install tensorflow==1.15.0" Но я получаю сообщение: ОШИБКА: не удалось найт…

python-3.x tensorflow ubuntu pip stable-baselines

27 май '20 в 14:53

0 ответов

Простая среда обучения с подкреплением с использованием PPO и нескольких рабочих

Я новичок в области обучения армированию, и мне может понадобиться помощь. Я попытался реализовать свою собственную очень простую среду роботов. Разница в том, что я хочу использовать в качестве наблюдения угол одной оси 6 вместо декартовых координа…

python reinforcement-learning openai-gym stable-baselines

16 июн '20 в 11:25

1 ответ

Стабильные базовые показатели с сохранением модели PPO и ее повторным обучением

Здравствуйте, я использую пакет Stable baselines ( https://stable-baselines.readthedocs.io/), в частности, я использую PPO2, и я не уверен, как правильно сохранить свою модель... Я тренировал его в течение 6 виртуальных дней и получил свой средний д…

python tensorflow reinforcement-learning stable-baselines

02 фев '20 в 18:51

0 ответов

поиск вывода слоя в модели армирования, версия TF - 1.14

Я построил модель обучения с подкреплением классификации, используя политику MLP-LSTM. Я попытался классифицировать 6 различных типов вещей. теперь я хочу увидеть вывод слоя, введя данные в модель. я беру выходные данные слоев из модели без каких-ли…

python-3.x tensorflow reinforcement-learning keras-layer stable-baselines

25 фев '20 в 15:13

0 ответов

При использовании MlpLnLstmPolicy в стабильных базовых показателях спросите о настраиваемых действиях в прогнозировании

Я успешно обучаю модель с помощью MlpLnLstmPolicy. и я также предсказываю, используя модель. Я хочу выполнить действие custum на определенном шаге, возможно ли это в lstm? Как в коде ниже def predict(): env = make_vec_env(HarmonyEnv, n_envs=8*4*2) m…

python lstm stable-baselines

27 мар '20 в 03:11

0 ответов

проблема с добавлением логики для недопустимых движений в тренажерном зале openai и стабильной базе

Я хочу интегрировать свою среду в тренажерный зал openAI, а затем использовать стабильную библиотеку базовых показателей для ее тренировки. ссылка на стабильный базовый уровень: https://stable-baselines.readthedocs.io/ Метод обучения в стабильной ба…

reinforcement-learning openai-gym stable-baselines

30 мар '20 в 15:09

0 ответов

На что ссылается "Nature CNN" в политике "Стабильных базовых показателей"?

Может быть, ответ, но сложно гуглить эффективно. В коде и документации Stable Baselines имеется ссылка на "Nature CNN", см. Политику github cnn в отношении стабильных базовых показателей, но на какую именно статью они ссылаются?

neural-network conv-neural-network reinforcement-learning stable-baselines policy-gradient-descent

08 апр '20 в 02:39

0 ответов

пространство дискретных действий в рамках базовой линии

Я работаю с алгоритмом DQN в стабильной базе. Мне нужно определить действие с двумя параметрами (например, a(i,j)). Можно ли определить его с помощью дискретного пространства действий, если да, то как я могу его определить? Большое спасибо за Вашу п…

stable-baselines dqn discrete-space

01 май '20 в 21:52

0 ответов

Миграция проекта со stable_baselines на ray[rllib]

Я главный разработчик Jiminy, быстрого симулятора Python/C++ для многоартикулированных систем, совместимого со средой обучения openAI Gym. До сих пор я использовал stable_baselines для обучения с подкреплением, но хотел бы переключиться на ray[rllib…

machine-learning pytorch ray stable-baselines rllib

07 май '20 в 16:50

0 ответов

Сделайте агента RL, чтобы он играл против человека

В своей настройке я использую стабильные базовые показатели, чтобы создать агента, который найдет хорошую политику для покупки и продажи на валютном рынке. С этой целью я сделал 3 вспомогательных файла для создания своей среды. Один - это спотовые к…

python-3.x reinforcement-learning stable-baselines

28 фев '20 в 13:13

0 ответов

Как интегрировать пространство Dict тренажерного зала OpenAI в структуру обучения с подкреплением?

Я создаю тренажерный зал, и у меня есть несколько входных массивов в качестве входных (разных размеров). Самый простой способ интегрировать мою среду в тренажерный зал - использовать пространство Dict в качестве пространства моей среды (каждая из за…

reinforcement-learning openai-gym stable-baselines

07 апр '20 в 23:08

0 ответов

Почему средняя награда за эпизод во время тренировки остается на уровне +100?

Я хочу создать класс обратного вызова, который проверяет каждые 200 шагов обучения, увеличилось ли среднее вознаграждение за эпизод модели, и если да, то сохраняет его. Я знаю, что уже существуетEvalCallback() класс в stable-baselines библиотека, но…

python openai-gym stable-baselines

01 май '20 в 01:06

1 ответ

Как создать живой график matplotlib.pyplot в Google Colab?

К сожалению, невозможно создавать живые графики в блокноте Google Colab, используя %matplotlib notebook как в автономном ноутбуке jupyter на моем ПК. Я нашел два похожих вопроса, отвечая на вопрос, как добиться этого для сюжетных сюжетов ( ссылка_1,…

python matplotlib google-colaboratory openai-gym stable-baselines

30 апр '20 в 21:22

1 ответ

Как загрузить обученную модель protobuf TF1 в TF2?

Я создал и обучил модель с использованием stable-baselines, в которой используется Tensorflow 1. Теперь мне нужно использовать эту обученную модель в среде, где у меня есть доступ только к Tensorflow 2 или PyTorch. Я решил, что выберу Tensorflow 2, …

tensorflow tensorflow2.0 stable-baselines

30 авг '20 в 14:06

1 ответ

Распространение неожиданных действий для пользовательской среды RL

Я работаю над созданием настраиваемой среды и обучаю на ней агента RL. Я использую стабильные базовые показатели, потому что они, кажется, реализуют все новейшие алгоритмы RL и, кажется, максимально приближены к принципу "подключи и работай" (я хоте…

python reinforcement-learning stable-baselines

03 июн '20 в 17:34

3 ответа

Stable Baselines не работает с tenorflow

Поэтому я недавно вернулся к машинному обучению и решил начать курс Kaggle для "ConnectX" ( https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning). Я пытаюсь провести урок 4, в котором я использую stable-baselines + Tensorflow для…

python tensorflow stable-baselines

05 июл '20 в 03:06

1 ответ

Зачем помощнику по оценке Stable Baselines среда?

При создании модели в Stable Baselines требуется среда. например env = gym.make('CartPole-v1') model = PPO2(MlpPolicy, env) Помощнику оценки также необходимо указать среду. т.е. mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=1…

stable-baselines

09 июл '20 в 09:52

0 ответов

AssertionError: defaultdict(<функция mc_control_importance_sampling. <locals>. <lambda> at 0x7f31699ffe18>

Я работал над DQN, используя стабильные базовые показатели и дискретную среду с 3 действиями. Я использую руководство по RL https://github.com/dennybritz/reinforcement-learning/blob/master/MC/MC%20Control%20with%20Epsilon-Greedy%20Policies%20Solutio…

python deep-learning reinforcement-learning q-learning stable-baselines

13 авг '20 в 21:57

0 ответов

_pywrap_tf_optimizer.so: не удалось сопоставить сегмент из общего объекта

У меня стабильные базовые показатели агент, который использует Tensorflow и в конечном итоге вызывает_pywrap_tf_optimizer на экземпляре виртуальной машины GCP. Примерно через два-три дня обучения (что означает, что изначально код работал нормально),…

python tensorflow google-cloud-platform .so stable-baselines

04 сен '20 в 01:42