Делать CUB blockradixsort на чипе полностью?

Я читаю документацию и примеры CUB:

#include <cub/cub.cuh>   // or equivalently <cub/block/block_radix_sort.cuh>
__global__ void ExampleKernel(...)
{
    // Specialize BlockRadixSort for 128 threads owning 4 integer items each
typedef cub::BlockRadixSort<int, 128, 4> BlockRadixSort;
    // Allocate shared memory for BlockRadixSort
__shared__ typename BlockRadixSort::TempStorage temp_storage;
    // Obtain a segment of consecutive items that are blocked across threads
int thread_keys[4];
...
    // Collectively sort the keys
BlockRadixSort(temp_storage).Sort(thread_keys);
...
}

В примере каждый поток имеет 4 ключа. Похоже, что thread_keys будет размещен в глобальной локальной памяти. Если бы у меня был только 1 ключ на поток, я мог бы объявить "int thread_key;" и сделать эту переменную только в реестре?

BlockRadixSort (temp_storage).Sort () принимает указатель на ключ в качестве параметра. Значит ли это, что ключи должны быть в глобальной памяти?

Я хотел бы использовать этот код, но я хочу, чтобы каждый поток держал один ключ в регистре и сохранял его на кристалле в регистре / разделяемой памяти после их сортировки. Заранее спасибо!

1 ответ

Вы можете сделать это, используя разделяемую память (которая будет держать ее "на кристалле"). Я не уверен, что знаю, как это сделать, используя строго регистры, не разрушая BlockRadixSort объект.

Вот пример кода, который использует разделяемую память для хранения начальных данных, которые будут отсортированы, и конечных отсортированных результатов. Этот образец в основном настроен для одного элемента данных на поток, так как это, кажется, то, что вы просите. Нетрудно расширить его до нескольких элементов в потоке, и я сделал для этого большую часть сантехники, за исключением синтеза данных и отладочных распечаток:

#include <cub/cub.cuh>
#include <stdio.h>
#define nTPB 32
#define ELEMS_PER_THREAD 1

// Block-sorting CUDA kernel (nTPB threads each owning ELEMS_PER THREAD integers)
__global__ void BlockSortKernel()
{
    __shared__ int my_val[nTPB*ELEMS_PER_THREAD];
    using namespace cub;
    // Specialize BlockRadixSort collective types
    typedef BlockRadixSort<int, nTPB, ELEMS_PER_THREAD> my_block_sort;
    // Allocate shared memory for collectives
    __shared__ typename my_block_sort::TempStorage sort_temp_stg;

    // need to extend synthetic data for ELEMS_PER_THREAD > 1
    my_val[threadIdx.x*ELEMS_PER_THREAD]  = (threadIdx.x + 5)%nTPB; // synth data
    __syncthreads();
    printf("thread %d data = %d\n", threadIdx.x,  my_val[threadIdx.x*ELEMS_PER_THREAD]);

    // Collectively sort the keys
    my_block_sort(sort_temp_stg).Sort(*static_cast<int(*)[ELEMS_PER_THREAD]>(static_cast<void*>(my_val+(threadIdx.x*ELEMS_PER_THREAD))));
    __syncthreads();

    printf("thread %d sorted data = %d\n", threadIdx.x,  my_val[threadIdx.x*ELEMS_PER_THREAD]);
}

int main(){
    BlockSortKernel<<<1,nTPB>>>();
    cudaDeviceSynchronize();

}

Кажется, это работает правильно для меня, в данном случае я использовал RHEL 5.5/gcc 4.1.2, CUDA 6.0 RC и CUB v1.2.0 (что довольно недавно).

Насколько я могу судить, странное / безобразное статическое приведение в порядок необходимо, потому что CUB Sort ожидает ссылку на массив длины, равный параметру настройки ITEMS_PER_THREAD(т.е. ELEMS_PER_THREAD):

   __device__ __forceinline__ void Sort(
        Key     (&keys)[ITEMS_PER_THREAD],          
        int     begin_bit   = 0,                   
        int     end_bit     = sizeof(Key) * 8)      
   { ...
Другие вопросы по тегам