Ядро SPMM с компилятором ispc дает неверные ошибочные результаты

Я пытаюсь написать ядро ​​для выполнения умножения разреженных матриц с плотной матрицей, но ядро, записанное в ispc, не выводит правильную матрицу результатов.

Ниже приведено ядро, которое у меня есть для нормального последовательного выполнения без поддержки компилятора ispc.

      template <typename IndexType, typename ValueType>
void __spmm_csr_serial_host(const IndexType num_rows, 
                            const IndexType num_cols,
                            const IndexType *Ap, 
                            const IndexType *Aj, 
                            const ValueType *Ax, 
                            const ValueType *x,    
                                  ValueType *y)    
{
    for (IndexType i = 0; i < num_rows; i++){
        const IndexType row_start = Ap[i];
        const IndexType row_end   = Ap[i+1];
        for (IndexType j = 0; j < num_cols; j++) {
            IndexType idx = i*num_cols + j;
            ValueType sum = y[idx];
            for (IndexType jj = row_start; jj < row_end; jj++) {            
                const IndexType k = Aj[jj];  //column index
                sum += x[k*num_cols + j] * Ax[jj];
            }
            y[idx] = sum; 
        }
    }
}

Вышеупомянутое последовательное ядро ​​работает нормально и выводит желаемый результат. Я изменил код, как показано ниже, для поддержки ispc.

      export void __spmm_csr_ispc(uniform int num_rows, 
                            uniform int num_cols,
                            uniform int Ap[], 
                            uniform int Aj[], 
                            uniform float Ax[], 
                            uniform float B[],    
                            uniform float C[])  {

    foreach (i = 0 ... num_rows) {
        int row_start = Ap[i];
        int row_end   = Ap[i+1];
        for (int j = 0; j < num_cols; j++) {
            float sum = 0.0f;
            for (int jj = row_start; jj < row_end; jj++) {            
                int k = Aj[jj];                     // column index
                float aValue = Ax[jj];              // a mat value from column index
                float bValue = B[k*num_cols + j];
                sum += aValue * bValue;
            }
            C[i*num_cols + j] = sum; 
        }
    }
}

Ядро ispc не дает правильных результатов, и я как бы застрял на этом этапе.ispc также не позволяет нам иметь операторы печати внутри ядра. Приветствуется любая помощь по исправлению ошибки или отладке ошибки.

0 ответов

Другие вопросы по тегам