Может ли infiniband ускорить распределенное обучение без GPUDirect?

У меня есть две машины 4x2080ti. Я хочу обучить свою распределенную модель Pytorch распределенному бэкэнду NCCL. Но обучение идет медленно, потому что эти две машины соединены сетевой картой 1000M. Поэтому я хочу использовать две карты Infiniband для соединения этих двух машин. Но мой графический процессор - GeForce, а не Tesla. Вопрос в том, может ли Infiniband ускорить обучение, если GPU не поддерживает GPUDirect?

Благодарю.

0 ответов

Другие вопросы по тегам