Уменьшение суммы беззнаковых байтов без переполнения с использованием SSE2 на Intel

Question

Уменьшение суммы беззнаковых байтов без переполнения с использованием SSE2 на Intel

Я пытаюсь найти уменьшение суммы 32 элементов (каждый 1-байтовых данных) на процессоре Intel i3. Я сделал это:

s=0; 
for (i=0; i<32; i++)
{
    s = s + a[i];
}

Тем не менее, это занимает больше времени, так как мое приложение представляет собой приложение в реальном времени, требующее гораздо меньше времени. Обратите внимание, что окончательная сумма может быть больше 255.

Есть ли способ, которым я могу реализовать это, используя инструкции SIMD SSE2 низкого уровня? К сожалению, я никогда не использовал SSE. Я пытался найти функцию sse2 для этой цели, но она также недоступна. Гарантируется ли (sse) сокращение времени вычислений для таких задач небольшого размера?

Какие-либо предложения??

Примечание: я реализовал аналогичные алгоритмы, используя OpenCL и CUDA, и это работало отлично, но только когда размер проблемы был большим. Для небольших задач стоимость накладных расходов была больше. Не уверен, как это работает на SSE

15

x86 simd sse sse2 sse3

Источник

user486408 07 июн '12 в 13:13

2 ответа

Другие вопросы по тегам x86 simd sse sse2 sse3

user555045 07 июн '12 в 14:11 2012-06-07 14:11 · Answer 1 · 2012-06-07 14:11

Вы можете злоупотреблять PSADBW быстро рассчитать небольшие горизонтальные суммы.

Как то так: (не проверено)

pxor xmm0, xmm0
psadbw xmm0, [a + 0]
pxor xmm1, xmm1
psadbw xmm1, [a + 16]
paddw xmm0, xmm1
pshufd xmm1, xmm0, 2
paddw xmm0, xmm1 ; low word in xmm0 is the total sum

Попытка встроенной версии:

Я никогда не использую встроенные функции, поэтому этот код, вероятно, не имеет никакого смысла. Разборка выглядела хорошо, хотя.

uint16_t sum_32(const uint8_t a[32])
{
    __m128i zero = _mm_xor_si128(zero, zero);
    __m128i sum0 = _mm_sad_epu8(
                        zero,
                        _mm_load_si128(reinterpret_cast<const __m128i*>(a)));
    __m128i sum1 = _mm_sad_epu8(
                        zero,
                        _mm_load_si128(reinterpret_cast<const __m128i*>(&a[16])));
    __m128i sum2 = _mm_add_epi16(sum0, sum1);
    __m128i totalsum = _mm_add_epi16(sum2, _mm_shuffle_epi32(sum2, 2));
    return totalsum.m128i_u16[0];
}

user253056 07 июн '12 в 15:20 2012-06-07 15:20 · Answer 2 · 2012-06-07 15:20

Это немного затянуто, но все равно должно быть как минимум в 2 раза быстрее, чем скалярный код:

uint16_t sum_32(const uint8_t a[32])
{
    const __m128i vk0 = _mm_set1_epi8(0);   // constant vector of all 0s for use with _mm_unpacklo_epi8/_mm_unpackhi_epi8
    __m128i v = _mm_load_si128(a);          // load first vector of 8 bit values
    __m128i vl = _mm_unpacklo_epi8(v, vk0); // unpack to two vectors of 16 bit values
    __m128i vh = _mm_unpackhi_epi8(v, vk0);
    __m128i vsum = _mm_add_epi16(vl, vh);
    v = _mm_load_si128(&a[16]);             // load second vector of 8 bit values
    vl = _mm_unpacklo_epi8(v, vk0);         // unpack to two vectors of 16 bit values
    vh = _mm_unpackhi_epi8(v, vk0);
    vsum = _mm_add_epi16(vsum, vl);
    vsum = _mm_add_epi16(vsum, vh);
    // horizontal sum
    vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 8));
    vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 4));
    vsum = _mm_add_epi16(vsum, _mm_srli_si128(vsum, 2));
    return _mm_extract_epi16(vsum, 0);
}

Обратите внимание, что a[] должно быть 16 байтов.

Вы можете улучшить этот код, используя _mm_hadd_epi16,

user11646122 31 мар '20 в 08:59 2020-03-31 08:59 · Answer 3 · 2020-03-31 08:59

Есть еще один способ найти сумму всех элементов массива с помощью инструкций SSE. В коде используются следующие конструкции SSE.

__m256 регистр
_mm256_store_ps(float *a, __m256 b)
_mm256_add_ps(__m256 a, __m256 b)

Код работает для массива с плавающей запятой любого размера.

float sse_array_sum(float *a, int size)
{
    /*
     *   sum += a[i] (for all i in domain)
     */

    float *sse_sum, sum=0;
    if(size >= 8)
    {
        // sse_sum[8]
        posix_memalign((void **)&sse_sum, 32, 8*sizeof(float));

        __m256 temp_sum;
        __m256* ptr_a = (__m256*)a;
        int itrs = size/8-1;

        // sse_sum[0:7] = a[0:7]
        temp_sum = *ptr_a;
        a += 8;
        ptr_a++;

        for(int i=0; i<itrs; i++, ptr_a++, a+=8)
            temp_sum = _mm256_add_ps(temp_sum, *ptr_a);

        _mm256_store_ps(sse_sum, temp_sum);
        for(int i=0; i<8; i++)  sum += sse_sum[i];
    }

    // if size is not divisible by 8
    int rmd_itrs = size%8;
    // Note: a is pointing to remainder elements
    for(int i=0; i<rmd_itrs; i++)   sum += a[i];

    return sum;
}


float seq_array_sum(float *a, int size)
{
    /*
     *  sum += a[i] (for all i)
     */

    float sum = 0;
    for(int i=0; i<size; i++)   sum += a[i];
    return sum;
}

Контрольный показатель:

size = 64000000
a [i] = 3141592,65358 для всех i в домене

время последовательной версии: 194 мс
Время версии SSE: 49 мс

Спецификация машины:

Потоки на ядро: 2
ядра на сокет: 2 Сокета
: 1
МГц ЦП: 1700.072
ОС: Ubuntu