Оптимизация кода с использованием встроенных функций Intel SSE для векторизации
Я впервые работаю с SSE. Я пытаюсь преобразовать простой кусок кода в более быструю версию, используя встроенную функцию Intel SSE (до SSE4.2). Кажется, я столкнулся с рядом ошибок.
Скалярная версия кода: (простое умножение матриц)
void mm(int n, double *A, double *B, double *C)
{
int i,j,k;
double tmp;
for(i = 0; i < n; i++)
for(j = 0; j < n; j++) {
tmp = 0.0;
for(k = 0; k < n; k++)
tmp += A[n*i+k] *
B[n*k+j];
C[n*i+j] = tmp;
}
}
Это моя версия: я включил #include
void mm_sse(int n, double *A, double *B, double *C)
{
int i,j,k;
double tmp;
__m128d a_i, b_i, c_i;
for(i = 0; i < n; i++)
for(j = 0; j < n; j++) {
tmp = 0.0;
for(k = 0; k < n; k+=4)
a_i = __mm_load_ps(&A[n*i+k]);
b_i = __mm_load_ps(&B[n*k+j]);
c_i = __mm_load_ps(&C[n*i+j]);
__m128d tmp1 = __mm_mul_ps(a_i,b_i);
__m128d tmp2 = __mm_hadd_ps(tmp1,tmp1);
__m128d tmp3 = __mm_add_ps(tmp2,tmp3);
__mm_store_ps(&C[n*i+j], tmp3);
}
}
Куда я иду с этим не так? Я получаю несколько ошибок, как это:
mm_vec.c (84): ошибка: значение типа "int" нельзя присвоить объекту типа "__m128d" a_i = __mm_load_ps(&A[n*i+k]);
Вот как я собираю: icc -O2 mm_vec.c -o vec
Может кто-нибудь, пожалуйста, помогите мне преобразовать этот код точно. Спасибо!
ОБНОВИТЬ:
По вашим предложениям я внес следующие изменения:
void mm_sse(int n, float *A, float *B, float *C)
{
int i,j,k;
float tmp;
__m128 a_i, b_i, c_i;
for(i = 0; i < n; i++)
for(j = 0; j < n; j++) {
tmp = 0.0;
for(k = 0; k < n; k+=4)
a_i = _mm_load_ps(&A[n*i+k]);
b_i = _mm_load_ps(&B[n*k+j]);
c_i = _mm_load_ps(&C[n*i+j]);
__m128 tmp1 = _mm_mul_ps(a_i,b_i);
__m128 tmp2 = _mm_hadd_ps(tmp1,tmp1);
__m128 tmp3 = _mm_add_ps(tmp2,tmp3);
_mm_store_ps(&C[n*i+j], tmp3);
}
}
Но теперь я, кажется, получаю ошибку сегментации. Я знаю это, возможно, потому что я не обращаюсь к индексам массива должным образом для массива A,B,C. Я очень новичок в этом и не уверен, как поступить с этим.
Пожалуйста, помогите мне определить правильный подход к обработке этого кода.
2 ответа
Ошибка, которую вы видите, состоит в том, что у вас слишком много подчеркиваний в именах функций, например:
__mm_mul_ps
должно быть:
_mm_mul_ps // Just one underscore up front
поэтому компилятор C предполагает, что они возвращают int
так как он не видел декларацию.
Помимо этого, есть и другие проблемы - вы, кажется, смешиваете вызовы для одинарного и двойного плавающих вариантов одной и той же инструкции.
Например, у вас есть:
__m128d a_i, b_i, c_i;
но вы звоните:
__mm_load_ps(&A[n*i+k]);
который возвращает __m128
не __m128d
- Вы хотели позвонить:
_mm_load_pd
вместо. Аналогично для других инструкций, если вы хотите, чтобы они работали над парами двойников.
Если вы видите необъяснимые ошибки сегментации и в коде SSE, я склонен предположить, что у вас есть проблемы с выравниванием памяти - указатели, передаваемые встроенным функциям SSE (в основном 1), должны быть выровнены на 16 байт. Вы можете проверить это с помощью простого утверждения в вашем коде или проверить это в отладчике (вы ожидаете, что последняя цифра указателя будет 0, если она выровнена правильно).
Если он не выровнен правильно, вы должны убедиться, что это так. Для вещей, не выделенных с new
/ malloc()
Вы можете сделать это с расширением компилятора (например, с помощью gcc):
float a[16] __attribute__ ((aligned (16)));
При условии, что ваша версия gcc имеет достаточно большое максимальное выравнивание, чтобы поддерживать это и несколько других предостережений по поводу выравнивания стека. Для динамически распределенного хранилища вы захотите использовать расширение для конкретной платформы, например posix_memalign
выделить подходящее хранилище:
float *a=NULL;
posix_memalign(&a, __alignof__(__m128), sizeof(float)*16);
(Я думаю, что могли бы быть более хорошие, портативные способы сделать это с C++11, но я еще не уверен на 100% в этом).
1 Существуют некоторые инструкции, которые позволяют выполнять выравнивание нагрузок и хранилищ, но они ужасно медленны по сравнению с выровненными нагрузками и их следует избегать, если это вообще возможно.
Вы должны убедиться, что ваши загрузки и хранилища всегда имеют доступ к 16-байтовым выровненным адресам. Кроме того, если вы не можете гарантировать это по какой-либо причине, используйте _mm_loadu_ps
/_mm_storeu_ps
вместо _mm_load_ps
/_mm_store_ps
- это будет менее эффективно, но не приведет к сбою на неправильных адресах.