Распространение DCGAN с хороводом на Sagemaker

Я пытаюсь распределить свою рабочую нагрузку на несколько графических процессоров с помощью AWS Sagemaker. Я использую собственный алгоритм для DCGAN с tenorflow 2.0. Пока код отлично работает на одном графическом процессоре. Я решил реализовать тот же код, но с распределением хороводов по нескольким графическим процессорам, чтобы сократить время выполнения. Код при изменении с оригинала на хоровод, похоже, работает так же, и время обучения примерно такое же. Однако, когда я распечатываю hvd.size(), я получаю только размер 1, независимо от наличия нескольких графических процессоров. Tensorflow распознает все существующие графические процессоры; Хоровод, нет.

Я пробовал запускать свой код как на Sagemaker, так и на экземпляре EC2 в контейнере докеров, и в обеих средах сохраняется одна и та же проблема.

Вот ссылка на мой репозиторий на github:

Вот

Я также пробовал использовать другую нейронную сеть полностью из репозитория horovod, обновленную до tf2.0:

гвдмнист

На данный момент я пытаюсь использовать только графический процессор в одном экземпляре и не пытаюсь использовать несколько экземпляров.

Я думаю, что мне может не хватать какой-то зависимости в образе докера, либо это, либо есть какая-то предварительная команда для запуска. Я действительно не знаю.

Спасибо.

0 ответов

Другие вопросы по тегам