Использование инструкций FMA (слитое умножение) для сложного умножения

Я хотел бы использовать имеющиеся объединенные инструкции процессора сложения и умножения, чтобы помочь в сложном умножении массива приличного размера. По сути, основная математика выглядит так:

void ComplexMultiplyAddToArray(float* pDstR, float* pDstI, const float* pSrc1R, const float* pSrc1I, const float* pSrc2R, const float* pSrc2I, int len)
{
    for (int i = 0; i < len; ++i)
    {
        const float fSrc1R = pSrc1R[i];
        const float fSrc1I = pSrc1I[i];
        const float fSrc2R = pSrc2R[i];
        const float fSrc2I = pSrc2I[i];

        //  Perform complex multiplication on the input and accumulate with the output
        pDstR[i] += fSrc1R*fSrc2R - fSrc1I*fSrc2I;
        pDstI[i] += fSrc1R*fSrc2I + fSrc2R*fSrc1I;
    }
}

Как вы, вероятно, видите, данные структурированы так, что у нас есть отдельные массивы действительных и мнимых чисел. Теперь предположим, что у меня есть следующие функции, доступные как встроенные функции для отдельных инструкций, которые выполняютb+c и b-c соответственно:

float fmadd(float a, float b, float c);
float fmsub(float a, float b, float c);

Наивно, я вижу, что я могу заменить 2 умножения, одно сложение и одно вычитание одним fmadd и одним fmsub, вот так:

//  Perform complex multiplication on the input and accumulate with the output
pDstR[i] += fmsub(fSrc1R, fSrc2R, fSrc1I*fSrc2I);
pDstI[i] += fmadd(fSrc1R, fSrc2I, fSrc2R*fSrc1I);

Это приводит к очень скромным улучшениям производительности, а также, я полагаю, к точности, но я думаю, что мне действительно не хватает чего-то, где математическая математика может быть изменена так, что я могу заменить еще пару комбинаций "мульт / добавление" или "мульт / суб". В каждой строке есть дополнительное прибавление и дополнительное умножение, которое, как мне кажется, я могу преобразовать в одну FMA, но, к сожалению, я не могу понять, как это сделать, не меняя порядок операций и получая неправильный результат. Есть математические эксперты с идеями?

Ради вопроса, целевая платформа, вероятно, не так важна, так как я знаю, что такого рода инструкции существуют на разных платформах.

2 ответа

Решение

Это хорошее начало. Вы можете уменьшить еще одно дополнение:

//  Perform complex multiplication on the input and accumulate with the output
pDstR[i] += fmsub(fSrc1R, fSrc2R, fSrc1I*fSrc2I);
pDstI[i] += fmadd(fSrc1R, fSrc2I, fSrc2R*fSrc1I);

Здесь вы можете использовать другой fmadd в расчете на мнимую часть:

pDstI[i] = fmadd(fSrc1R, fSrc2I, fmadd(fSrc2R, fSrc1I, pDstI[i]));

Точно так же вы можете сделать то же самое с реальной частью, но вам нужно отрицать аргумент. Если это делает вещи быстрее или медленнее, во многом зависит от микросинхронизации архитектуры, над которой вы работаете:

pDstR[i] = fmsub(fSrc1R, fSrc2R, fmadd(fSrc1I, fSrc2I, -pDstR[i]));

Кстати, вы можете получить дополнительные улучшения производительности, если вы объявите свои целевые массивы как не имеющие псевдонимов с помощью restrict ключевое слово. Прямо сейчас компилятор должен предположить, что pDstR и pDstI могут перекрываться или указывать на один и тот же кусок памяти. Это предотвратит загрузку компилятором pDstI[i] перед записью в pDstR[i].

После этого может помочь некоторая осторожная развертка цикла, если компилятор этого еще не сделал. Проверьте вывод ассемблера вашего компилятора!

Я нашел следующее (с небольшой помощью), кажется, приводит к правильному ответу:

pDstR[i] = fmsub(fSrc1R, fSrc2R, fmsub(fSrc1I, fSrc2I, pDstR[i]));
pDstI[i] = fmadd(fSrc1R, fSrc2I, fmadd(fSrc2R, fSrc1I, pDstI[i]));

Но, как ни странно, на AVX производительность не улучшается так сильно, как если бы в математической математике оставалась часть с реальным результатом, используя половину FMA, а при воображаемом результате используйте полную FMA:

pDstR[i] += fmsub(fSrc1R, fSrc2R, fSrc1I*fSrc2I);
pDstI[i] = fmadd(fSrc1R, fSrc2I, fmadd(fSrc2R, fSrc1I, pDstI[i]));

Спасибо всем за помощь.

Другие вопросы по тегам