Ядро SPMM с компилятором ispc дает неверные ошибочные результаты
Я пытаюсь написать ядро для выполнения умножения разреженных матриц с плотной матрицей, но ядро, записанное в ispc, не выводит правильную матрицу результатов.
Ниже приведено ядро, которое у меня есть для нормального последовательного выполнения без поддержки компилятора ispc.
template <typename IndexType, typename ValueType>
void __spmm_csr_serial_host(const IndexType num_rows,
const IndexType num_cols,
const IndexType *Ap,
const IndexType *Aj,
const ValueType *Ax,
const ValueType *x,
ValueType *y)
{
for (IndexType i = 0; i < num_rows; i++){
const IndexType row_start = Ap[i];
const IndexType row_end = Ap[i+1];
for (IndexType j = 0; j < num_cols; j++) {
IndexType idx = i*num_cols + j;
ValueType sum = y[idx];
for (IndexType jj = row_start; jj < row_end; jj++) {
const IndexType k = Aj[jj]; //column index
sum += x[k*num_cols + j] * Ax[jj];
}
y[idx] = sum;
}
}
}
Вышеупомянутое последовательное ядро работает нормально и выводит желаемый результат. Я изменил код, как показано ниже, для поддержки ispc.
export void __spmm_csr_ispc(uniform int num_rows,
uniform int num_cols,
uniform int Ap[],
uniform int Aj[],
uniform float Ax[],
uniform float B[],
uniform float C[]) {
foreach (i = 0 ... num_rows) {
int row_start = Ap[i];
int row_end = Ap[i+1];
for (int j = 0; j < num_cols; j++) {
float sum = 0.0f;
for (int jj = row_start; jj < row_end; jj++) {
int k = Aj[jj]; // column index
float aValue = Ax[jj]; // a mat value from column index
float bValue = B[k*num_cols + j];
sum += aValue * bValue;
}
C[i*num_cols + j] = sum;
}
}
}
Ядро ispc не дает правильных результатов, и я как бы застрял на этом этапе.ispc также не позволяет нам иметь операторы печати внутри ядра. Приветствуется любая помощь по исправлению ошибки или отладке ошибки.