Есть ли способ помочь авто-векторизации компилятора испускать арифметику сатурации в LLVM?
У меня есть несколько для циклов, которые делают насыщенные арифметические операции. Например:
Реализация насыщенного добавления в моем случае выглядит следующим образом:
static void addsat(Vector &R, Vector &A, Vector &B)
{
int32_t a, b, r;
int32_t max_add;
int32_t min_add;
const int32_t SAT_VALUE = (1<<(16-1))-1;
const int32_t SAT_VALUE2 = (-SAT_VALUE - 1);
const int32_t sat_cond = (SAT_VALUE <= 0x7fffffff);
const uint32_t SAT = 0xffffffff >> 16;
for (int i=0; i<R.length; i++)
{
a = static_cast<uint32_t>(A.data[i]);
b = static_cast<uint32_t>(B.data[i]);
max_add = (int32_t)0x7fffffff - a;
min_add = (int32_t)0x80000000 - a;
r = (a>0 && b>max_add) ? 0x7fffffff : a + b;
r = (a<0 && b<min_add) ? 0x80000000 : a + b;
if ( sat_cond == 1)
{
std_max(r,r,SAT_VALUE2);
std_min(r,r,SAT_VALUE);
}
else
{
r = static_cast<uint16_t> (static_cast<int32_t> (r));
}
R.data[i] = static_cast<uint16_t>(r);
}
}
Я вижу, что в x86 есть свойство paddsat, которое могло бы стать идеальным решением для этого цикла. Я делаю код автоматически векторизованным, но с комбинацией нескольких операций в соответствии с моим кодом. Я хотел бы знать, что может быть лучшим способом написать этот цикл, чтобы auto-vectorizer находил правильное соответствие операции addat.
Структура вектора:
struct V {
static constexpr int length = 32;
unsigned short data[32];
};
Используемый компилятор - clang 3.8, и код был скомпилирован для архитектуры AVX2 Haswell x86-64.