Доступен ли NCCL2 в док-контейнере?

Я собираюсь построить бесконечный кластер GPU для глубокого изучения. Поскольку существует несколько хостов, я хотел бы упростить развертывание с помощью nvidia-docker(Dockerfile) . У многих систем глубокого обучения есть свой официальный контейнер (Dockerfile), поэтому я считаю, что для многих это естественно.

Я знаю, как скопировать предварительно загруженные библиотеки NCCL2 в докер-контейнер, но я никогда не пробовал и не проверял, доступна ли передача GPUDirect RDMA между двумя док-контейнерами, установленными на разных хостах. И я не смог найти никаких ресурсов, где кто-то пытался бы реализовать такой Dockerfile для распределенного глубокого обучения с NCCL2.

Есть ли кто-нибудь, кто пытался внедрить докер-контейнеры для распределенного глубокого обучения с NCCL2?

0 ответов

Другие вопросы по тегам