Распространение DCGAN с хороводом на Sagemaker
Я пытаюсь распределить свою рабочую нагрузку на несколько графических процессоров с помощью AWS Sagemaker. Я использую собственный алгоритм для DCGAN с tenorflow 2.0. Пока код отлично работает на одном графическом процессоре. Я решил реализовать тот же код, но с распределением хороводов по нескольким графическим процессорам, чтобы сократить время выполнения. Код при изменении с оригинала на хоровод, похоже, работает так же, и время обучения примерно такое же. Однако, когда я распечатываю hvd.size(), я получаю только размер 1, независимо от наличия нескольких графических процессоров. Tensorflow распознает все существующие графические процессоры; Хоровод, нет.
Я пробовал запускать свой код как на Sagemaker, так и на экземпляре EC2 в контейнере докеров, и в обеих средах сохраняется одна и та же проблема.
Вот ссылка на мой репозиторий на github:
Я также пробовал использовать другую нейронную сеть полностью из репозитория horovod, обновленную до tf2.0:
На данный момент я пытаюсь использовать только графический процессор в одном экземпляре и не пытаюсь использовать несколько экземпляров.
Я думаю, что мне может не хватать какой-то зависимости в образе докера, либо это, либо есть какая-то предварительная команда для запуска. Я действительно не знаю.
Спасибо.