Как эффективно выполнять двухточечное копирование памяти для графических процессоров без прямого доступа к NVLINK?

Question

Как эффективно выполнять двухточечное копирование памяти для графических процессоров без прямого доступа к NVLINK?

Я пытаюсь установить связь точка-точка на рабочей станции DGX с 8 графическими процессорами. Я могу добиться хорошей производительности, используя cudaMemcpyPeer между графическими процессорами с прямым доступом к NVLINK. Но у некоторых графических процессоров нет прямого доступа друг к другу. Я думаю, что могу использовать некоторые графические процессоры в качестве промежуточной точки для использования NVLINK. Таким образом, данные можно передавать без использования PCIe. Но мне сложно написать план маршрутизации для каждого устройства вручную. Есть ли лучший API или решение?

-1

cuda gpu nvidia nvlink

Источник

user13212970 28 июл '20 в 22:20

0 ответов

Другие вопросы по тегам cuda gpu nvidia nvlink