dgemm nvblas gpu offload

У меня было тестовое приложение, которое выполняет умножение матриц, и попытался разгрузить на GPU с Nvblas.

#include <armadillo>
#include <iostream>
using namespace arma;
using namespace std;
int main(int argc, char *argv[]) {
    int m = atoi(argv[1]);
    int k = atoi(argv[2]);
    int n = atoi(argv[3]);
    int t = atoi(argv[4]);
    std::cout << "m::" << m << "::k::" << k << "::n::" << n << std::endl;
    mat A;
    A = randu<mat>(m, k);
    mat B;
    B = randu<mat>(k, n);
    mat C;
    C.zeros(m, n);
    cout << "norm c::" << arma::norm(C, "fro") << std::endl;
    tic();
    for (int i = 0; i < t; i++) {
      C = A * B;
    }
    cout << "time taken ::" << toc()/t << endl;
    cout << "norm c::" << arma::norm(C, "fro") << std::endl;
  }

Я скомпилировал код следующим образом.

ЦПУ

g++ testmm.cpp -I$ARMADILLO_INCLUDE_DIR -lopenblas -L$OPENBLAS_ROOT/lib/ --std=c+11 -o a.cpu.out

GPU

g++ testmm.cpp -I$ARMADILLO_INCLUDE_DIR -lopenblas -L$OPENBLAS_ROOT/lib/ --std=c+11 -lnvblas -L$CUDATOOLKIT_HOME/lib64 -o a.cuda.out

Когда я запускаю a.cpu.out и a.cuda.out с 4096, 4096 и 4096, они оба занимают одно и то же время около 11 секунд. Я не вижу сокращения времени с a.gpu.out. В файле nvblas.conf я оставляю все по умолчанию, за исключением (a) изменения пути для активной памяти openblas (b)auto_pin. Я вижу, что nvblas.log говорит, что использует "Устройства 0" и никаких других выходных данных. Nvidia-smi не показывает никакого увеличения активности gpu, а nvprof показывает кучу cudaMalloc, cudamemcpy, возможностей устройства запросов и т. Д. Но никакого вызова gemm нет.

Символ ldd на a.cuda.out показывает, что он связан с nvblas, cublas, cudart и библиотекой openblas cpu. Я делаю какие-либо ошибки здесь?

1 ответ

Решение

Порядок ссылки был проблемой там. Проблема была решена, когда я сделал следующее для GPU.

GPU

g++ testmm.cpp -lnvblas -L$CUDATOOLKIT_HOME/lib64 -I$ARMADILLO_INCLUDE_DIR -lopenblas -L$OPENBLAS_ROOT/lib/ --std=c+11 -o a.cuda.out

С учетом вышесказанного, когда я сбросил таблицы символов, я вижу следующий вывод.

nm a.cuda.out | grep -is dgemm
             U cblas_dgemm
             U dgemm_@@libnvblas.so.9.1 <-- this shows correct linking and ability to offload to gpu.

Если это не связано должным образом, проблемное связывание будет следующим.

nm a.cuda.out | grep -is dgemm
             U cblas_dgemm
             U dgemm_  <-- there will not be a libnvblas here showing it is a problem.

Даже если ldd покажет nvblas, cublas, cudart, openblas в обоих вышеописанных случаях, при выполнении программы dgemm всегда будет openblas.

Другие вопросы по тегам