Как эффективно выполнять двухточечное копирование памяти для графических процессоров без прямого доступа к NVLINK?
Я пытаюсь установить связь точка-точка на рабочей станции DGX с 8 графическими процессорами. Я могу добиться хорошей производительности, используя cudaMemcpyPeer между графическими процессорами с прямым доступом к NVLINK. Но у некоторых графических процессоров нет прямого доступа друг к другу. Я думаю, что могу использовать некоторые графические процессоры в качестве промежуточной точки для использования NVLINK. Таким образом, данные можно передавать без использования PCIe. Но мне сложно написать план маршрутизации для каждого устройства вручную. Есть ли лучший API или решение?