Как запустить базовый пример распределенного ddppo

Question

Как запустить базовый пример распределенного ddppo

Я могу запустить кластер лучей с

лучай вверх xyz.yaml

Затем ssh-ing в него с помощью attachработает нормально, он также запускает рабочие экземпляры на aws. Ноrllib train - f atari-ddppo.yamlне запускает обучение на разных машинах, а ищет gpus на голове. Сообщение об ошибке:

ray.tune.error.TuneError: недостаточно ресурсов кластера для запуска пробной версии: пробная версия запросила 4 процессора, 3 графических процессора, но в кластере всего 4 процессора, 1 графический процессор, 34,91 ГиБ кучи, объекты 12,01 ГиБ (узел 1.0:........). Проходитьqueue_trials=True в ray.tune.run() или в командной строке для постановки испытаний в очередь до тех пор, пока кластер не масштабируется или ресурсы не станут доступными.

Я предполагал, что ресурсы будут автоматически распределяться между рабочими (p2.xlarge).

Но мое основное понимание состоит в том, что после того, как экземпляры создаются автоматически с помощью aws-full.yaml, простой функции "function.remote()" должно быть достаточно для запуска рабочих на свободных ресурсах локально или на другом компьютере.

Есть идеи?

0

ray rllib

Источник

user3819370 21 июн '20 в 10:40

0 ответов

Другие вопросы по тегам ray rllib