Как запустить базовый пример распределенного ddppo
Я могу запустить кластер лучей с
лучай вверх xyz.yaml
Затем ssh-ing в него с помощью attach
работает нормально, он также запускает рабочие экземпляры на aws. Ноrllib train - f atari-ddppo.yaml
не запускает обучение на разных машинах, а ищет gpus на голове. Сообщение об ошибке:
ray.tune.error.TuneError: недостаточно ресурсов кластера для запуска пробной версии: пробная версия запросила 4 процессора, 3 графических процессора, но в кластере всего 4 процессора, 1 графический процессор, 34,91 ГиБ кучи, объекты 12,01 ГиБ (узел 1.0:........). Проходить
queue_trials=True
в ray.tune.run() или в командной строке для постановки испытаний в очередь до тех пор, пока кластер не масштабируется или ресурсы не станут доступными.
Я предполагал, что ресурсы будут автоматически распределяться между рабочими (p2.xlarge).
Но мое основное понимание состоит в том, что после того, как экземпляры создаются автоматически с помощью aws-full.yaml, простой функции "function.remote()" должно быть достаточно для запуска рабочих на свободных ресурсах локально или на другом компьютере.
Есть идеи?