CUDA float2 объединяется
У меня возникают проблемы с объединением операций чтения при использовании типа данных float2 в CUDA.
Я попытался сделать простой пример для запуска в визуальном профилировщике, но он всегда возвращает несвязанные чтения. Если бы кто-нибудь мог пролить свет на это, я был бы очень благодарен, спасибо.
#include <stdio.h>
#include <cuda_runtime_api.h>
__global__ void kernel(float2 *in, float2 *out) {
int idx=blockIdx.x*blockDim.x+threadIdx.x;
float2 d=in[idx];
d.x = 100.f;
out[idx] = d;
}
int main() {
const int dataSize=32;
float2 *in;
cudaMalloc((void**)&in,dataSize*sizeof(float2));
float2 *out;
cudaMalloc((void**)&out,dataSize*sizeof(float2));
kernel<<<1,32>>>(in,out);
return 0;
}
1 ответ
Решение
Я задавал этот вопрос на форумах NVIDIA. Оказывается, загрузка векторов не оптимизирована в режиме отладки. Форумы