CUDA float2 объединяется

У меня возникают проблемы с объединением операций чтения при использовании типа данных float2 в CUDA.

Я попытался сделать простой пример для запуска в визуальном профилировщике, но он всегда возвращает несвязанные чтения. Если бы кто-нибудь мог пролить свет на это, я был бы очень благодарен, спасибо.

#include <stdio.h>
#include <cuda_runtime_api.h>

__global__ void kernel(float2 *in, float2 *out) {
        int idx=blockIdx.x*blockDim.x+threadIdx.x;
        float2 d=in[idx];
        d.x = 100.f;

        out[idx] = d;
}

int main() {
  const int dataSize=32;
  float2 *in;
  cudaMalloc((void**)&in,dataSize*sizeof(float2));

  float2 *out;
  cudaMalloc((void**)&out,dataSize*sizeof(float2));
  kernel<<<1,32>>>(in,out);
  return 0;
}

1 ответ

Решение

Я задавал этот вопрос на форумах NVIDIA. Оказывается, загрузка векторов не оптимизирована в режиме отладки. Форумы

Другие вопросы по тегам