Поддерживает ли Distributed TensorFlow соединения InfiniBand "из коробки"?
У нас есть кластер с межсоединениями InfiniBand. Я знаю, что Distributed TF использует gRPC для обработки сетевых вызовов, но мне было интересно, было ли что-то особенное, необходимое для увеличения скорости соединений InfiniBand при использовании gRPC.
1 ответ
Решение
Я думаю, что ответ - нет. Технически не Tensorflow нуждается в поддержке Infiniband, а скорее в уровне gRPC.
Выполнение быстрого запроса Infiniband в github gRPC-репозитории и получение нулевых результатов укрепляет мое предположение: https://github.com/grpc?query=infiniband