Как скомпилировать / связать код с различными вычислительными возможностями против cublas_device?

Я работаю с динамическим параллелизмом (и cublas) в одном из моих ядер и хочу предоставить резервное ядро ​​для sm_20. В maxentropy_cuda.cu я написал оба ядра и использовал CUDA_ARCH для компиляции ядра динамического параллелизма только для архитектуры>=3.5. Это отлично работает.

Часть Makefile:

    nvcc $(NVCCFLAGS) -gencode arch=compute_35,code=sm_35 -gencode arch=compute_20,code=sm_20 $(CINCL) -M maxentropy_cuda.cu -o maxentropy_cuda.d 
    nvcc --device-c $(NVCCFLAGS) -gencode arch=compute_35,code=sm_35 -gencode arch=compute_20,code=sm_20 -x cu maxentropy_cuda.cu -o maxentropy_cuda.o 

Когда я связываю это с ядрами в другом файле:

    nvcc --cudart static --relocatable-device-code=true -link -gencode arch=compute_35,code=sm_35  -gencode arch=compute_20,code=sm_20 $(LIBPATHS) -o main main.o selgen.o maxentropy.o maxentropy_omp.o maxentropy_cuda.o maxentropy_kernels.o $(OBJINFRA) $(LIBS)  -lcublas_device  -lcudadevrt

Я получаю следующую ошибку:

nvlink fatal   : could not find compatible device code in /opt/cuda/lib64/libcublas_device.a
make: *** [main] Error 255

Конечно, мне не нужно libcublas_device для резервного ядра...

Есть ли способ получить обе вычислительные возможности в одном двоичном файле? (Я использую CUDA 5.5)

РЕДАКТИРОВАТЬ: Пример (не проверял вывод...):

#include <stdio.h>
#include <cuda_runtime.h>
#include <cublas_v2.h>


__global__ void calc_dev(double* u, double* s, double* r) {
#if __CUDA_ARCH__<350
    printf("should not have been called - compiled for the wrong CUDA architecture");
#else

    cublasHandle_t cnpHandle;
    cublasStatus_t status = cublasCreate(&cnpHandle);

    if (status != CUBLAS_STATUS_SUCCESS)    {
        printf("error while initializing cublas\n");
        return;
    }

    status = cublasDdot(cnpHandle,5,u,1,s,1,r);
    cudaDeviceSynchronize();
    if (status != CUBLAS_STATUS_SUCCESS)        {
        printf("cublas error: u x s\n");
        return;
    }
#endif
}

void calc_host(double* u, double* s, double* r) {
    cublasHandle_t cnpHandle;
    cublasStatus_t status = cublasCreate(&cnpHandle);
    cublasSetPointerMode(cnpHandle, CUBLAS_POINTER_MODE_DEVICE);

    if (status != CUBLAS_STATUS_SUCCESS)    {
        printf("error while initializing cublas\n");
        return;
    }

    status = cublasDdot(cnpHandle,5,u,1,s,1,r);
    cudaThreadSynchronize();
    if (status != CUBLAS_STATUS_SUCCESS)        {
        printf("cublas error: u x s\n");
        return;
    }
}


int main(int argc, char** argv) {
    const int n = 5;

    double u[n] = {0,1,2,4,8};
    double s[n] = {1, 0.64570312500000004,
              0.44203125000000004, 0.65804687500000003, 0.71976562500000008};
    double r = 0.0;
    double *dev_s,*dev_u,*dev_r;
    cudaMalloc( (void**)&dev_s, sizeof(double)*n);
    cudaMalloc( (void**)&dev_u, sizeof(double)*n);
    cudaMalloc( (void**)&dev_r, sizeof(double));
    cudaMemcpy( dev_s, s, n*sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_u, u, n*sizeof(double), cudaMemcpyHostToDevice);

    #if __CUDA_ARCH__>=350
        calc_dev<<<1,1>>>(dev_s,dev_u,dev_r);
    #else
        calc_host(dev_s,dev_u,dev_r);
    #endif

    cudaMemcpy( &r, dev_r, sizeof(double), cudaMemcpyDeviceToHost);
    printf("%.3f\n",r);
    return 0;
}

Nsight:

make all 
Building file: ../main.cu
Invoking: NVCC Compiler
/usr/local/cuda-5.5/bin/nvcc -G -g -O0 -gencode arch=compute_20,code=sm_20 -gencode arch=compute_35,code=sm_35 -odir "" -M -o "main.d" "../main.cu"
/usr/local/cuda-5.5/bin/nvcc --device-c -G -O0 -g -gencode arch=compute_20,code=sm_20 -gencode arch=compute_35,code=sm_35  -x cu -o  "main.o" "../main.cu"
Finished building: ../main.cu

Building target: test_sm_compatibility
Invoking: NVCC Linker
/usr/local/cuda-5.5/bin/nvcc --cudart static --relocatable-device-code=true -gencode arch=compute_20,code=sm_20 -gencode arch=compute_35,code=sm_35 -link -o  "test_sm_compatibility"  ./main.o   -lcublas -lcublas_device
nvlink fatal   : could not find compatible device code in /usr/local/cuda-5.5/bin/../targets/x86_64-linux/lib/libcublas_device.a
make: *** [test_sm_compatibility] Error 255

1 ответ

Это возможно сейчас в CUDA 6.0

Пример, который вы разместили, компилирует как есть, используя команды компиляции, которые вы показали.

Единственная трудность заключается в том, что существует множество предупреждений nvlink, которые необходимо игнорировать:

nvlink warning : SM Arch ('sm_20') not found in '/usr/local/cuda/bin/..//lib64/libcublas_device.a'

Однако правильный исполняемый файл построен правильно.

Другие вопросы по тегам