Уменьшение суммы беззнаковых байтов без переполнения с использованием SSE2 на Intel
Я пытаюсь найти уменьшение суммы 32 элементов (каждый 1-байтовых данных) на процессоре Intel i3. Я сделал это:
s=0;
for (i=0; i<32; i++)
{
s = s + a[i];
}
Тем не менее, это занимает больше времени, так как мое приложение представляет собой приложение в реальном времени, требующее гораздо меньше времени. Обратите внимание, что окончательная сумма может быть больше 255.
Есть ли способ, которым я могу реализовать это, используя инструкции SIMD SSE2 низкого уровня? К сожалению, я никогда не использовал SSE. Я пытался найти функцию sse2 для этой цели, но она также недоступна. Гарантируется ли (sse) сокращение времени вычислений для таких задач небольшого размера?
Какие-либо предложения??
Примечание: я реализовал аналогичные алгоритмы, используя OpenCL и CUDA, и это работало отлично, но только когда размер проблемы был большим. Для небольших задач стоимость накладных расходов была больше. Не уверен, как это работает на SSE
2 ответа
Вы можете злоупотреблять PSADBW
быстро рассчитать небольшие горизонтальные суммы.
Как то так: (не проверено)
pxor xmm0, xmm0
psadbw xmm0, [a + 0]
pxor xmm1, xmm1
psadbw xmm1, [a + 16]
paddw xmm0, xmm1
pshufd xmm1, xmm0, 2
paddw xmm0, xmm1 ; low word in xmm0 is the total sum
Попытка встроенной версии:
Я никогда не использую встроенные функции, поэтому этот код, вероятно, не имеет никакого смысла. Разборка выглядела хорошо, хотя.
uint16_t sum_32(const uint8_t a[32])
{
__m128i zero = _mm_xor_si128(zero, zero);
__m128i sum0 = _mm_sad_epu8(
zero,
_mm_load_si128(reinterpret_cast<const __m128i*>(a)));
__m128i sum1 = _mm_sad_epu8(
zero,
_mm_load_si128(reinterpret_cast<const __m128i*>(&a[16])));
__m128i sum2 = _mm_add_epi16(sum0, sum1);
__m128i totalsum = _mm_add_epi16(sum2, _mm_shuffle_epi32(sum2, 2));
return totalsum.m128i_u16[0];
}
Это немного затянуто, но все равно должно быть как минимум в 2 раза быстрее, чем скалярный код:
uint16_t sum_32(const uint8_t a[32])
{
const __m128i vk0 = _mm_set1_epi8(0); // constant vector of all 0s for use with _mm_unpacklo_epi8/_mm_unpackhi_epi8
__m128i v = _mm_load_si128(a); // load first vector of 8 bit values
__m128i vl = _mm_unpacklo_epi8(v, vk0); // unpack to two vectors of 16 bit values
__m128i vh = _mm_unpackhi_epi8(v, vk0);
__m128i vsum = _mm_add_epi16(vl, vh);
v = _mm_load_si128(&a[16]); // load second vector of 8 bit values
vl = _mm_unpacklo_epi8(v, vk0); // unpack to two vectors of 16 bit values
vh = _mm_unpackhi_epi8(v, vk0);
vsum = _mm_add_epi16(vsum, vl);
vsum = _mm_add_epi16(vsum, vh);
// horizontal sum
vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 8));
vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 4));
vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 2));
return _mm_extract_epi16(vsum, 0);
}
Обратите внимание, что a[]
должно быть 16 байтов.
Вы можете улучшить этот код, используя _mm_hadd_epi16
,
Есть еще один способ найти сумму всех элементов массива с помощью инструкций SSE. В коде используются следующие конструкции SSE.
- __m256 регистр
- _mm256_store_ps(float *a, __m256 b)
- _mm256_add_ps(__m256 a, __m256 b)
Код работает для массива с плавающей запятой любого размера.
float sse_array_sum(float *a, int size)
{
/*
* sum += a[i] (for all i in domain)
*/
float *sse_sum, sum=0;
if(size >= 8)
{
// sse_sum[8]
posix_memalign((void **)&sse_sum, 32, 8*sizeof(float));
__m256 temp_sum;
__m256* ptr_a = (__m256*)a;
int itrs = size/8-1;
// sse_sum[0:7] = a[0:7]
temp_sum = *ptr_a;
a += 8;
ptr_a++;
for(int i=0; i<itrs; i++, ptr_a++, a+=8)
temp_sum = _mm256_add_ps(temp_sum, *ptr_a);
_mm256_store_ps(sse_sum, temp_sum);
for(int i=0; i<8; i++) sum += sse_sum[i];
}
// if size is not divisible by 8
int rmd_itrs = size%8;
// Note: a is pointing to remainder elements
for(int i=0; i<rmd_itrs; i++) sum += a[i];
return sum;
}
float seq_array_sum(float *a, int size)
{
/*
* sum += a[i] (for all i)
*/
float sum = 0;
for(int i=0; i<size; i++) sum += a[i];
return sum;
}
Контрольный показатель:
size = 64000000
a [i] = 3141592,65358 для всех i в домене
время последовательной версии: 194 мс
Время версии SSE: 49 мс
Спецификация машины:
Потоки на ядро: 2
ядра на сокет: 2
Сокета
: 1
МГц ЦП: 1700.072
ОС: Ubuntu