SIMD: внедрить _mm256_max_epu64_ и _mm256_min_epu64_
Я хочу задать вопрос о SIMD. Я не понимаю AVX512
в моем процессоре, но хочу иметь _mm256_max_epu64.
Как мы можем реализовать эту функцию с AVX2
?
Здесь я пытаюсь получить мой тривиальный. Возможно мы можем позволить этому быть обсуждением и улучшить это.
#define SIMD_INLINE inline __attribute__ ((always_inline))
SIMD_INLINE __m256i __my_mm256_max_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) > *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
РЕДАКТИРОВАТЬ в качестве резюме:
У нас была дискуссия о __mm256
без знака сравнения. Я дал свою тривиальную реализацию выше, просто следуя очень базовой концепции: __m256i
просто эквивалентно 4 uint64_t
или 4 float
, которые также составляют 256 бит вместе.
Тогда у нас был ответ от @chtz, который делает больше AVX
смысл с вызовом более битовых функций программирования из AVX
,
В итоге получается, что эти два результата реализации в одной сборке благодаря CLang
, Пример сборки из проводника компилятора
Другая _mm256_min_epu64_
добавлено. Это просто отражение _mm256_max_epu64_
выше. Облегчить поиск для будущего использования.
SIMD_INLINE __m256i __my_mm256_min_epu64_(__m256i a, __m256i b) {
uint64_t *val_a = (uint64_t*) &a;
uint64_t *val_b = (uint64_t*) &b;
uint64_t e[4];
for (size_t i = 0; i < 4; ++i) e[i] = (*(val_a + i) < *(val_b + i)) ? *(val_a + i) : *(val_b + i);
return _mm256_set_epi64x(e[3], e[2], e[1], e[0]);
}
1 ответ
Простейшим решением будет сочетание _mm256_cmpgt_epi64
со смесью. Однако, если вы хотите максимум без знака, вам нужно сначала вычесть 1<<63
от каждого элемента (до сравнения, а не до смешивания). Здесь нет _mm256_blendv_epu64
инструкция, но можно использовать _mm256_blendv_epi8
так как маска будет установлена на каждый бит соответствующих элементов. Также обратите внимание, что вычитание самого верхнего бита может быть сделано немного быстрее xor
:
__m256i pmax_epu64(__m256i a, __m256i b)
{
__m256i signbit = _mm256_set1_epi64x(0x8000'0000'0000'0000);
__m256i mask = _mm256_cmpgt_epi64(_mm256_xor_si256(a,signbit),_mm256_xor_si256(b,signbit));
return _mm256_blendv_epi8(b,a,mask);
}
На самом деле, Clang почти удается получить те же инструкции из вашего кода: https://godbolt.org/z/afhdOa Он использует только vblendvpd
вместо vpblendvb
, что может привести к задержкам (см. комментарий @PeterCordes).
С некоторой бит-твидлингом вы могли бы на самом деле сохранить настройку регистра для знака. Сравнение без знака дает одинаковый результат, если совпадают знаки обоих операндов, и противоположные результаты, если они не совпадают, т.е.
unsigned_greater_than(signed a, signed b) == (a<0) ^ (b<0) ^ (a>b)
Это можно использовать, если вы используете _mm256_blendv_pd
с некоторым кастингом как _mm256_blendv_epi64
(потому что теперь действителен только самый верхний бит):
__m256i _mm256_blendv_epi64(__m256i a, __m256i b, __m256i mask)
{
return _mm256_castpd_si256(_mm256_blendv_pd(
_mm256_castsi256_pd(a),_mm256_castsi256_pd(b),_mm256_castsi256_pd(mask)));
}
__m256i pmax_epu64_b(__m256i a, __m256i b)
{
__m256i opposite_sign = _mm256_xor_si256(a,b);
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi64(b,a,_mm256_xor_si256(mask, opposite_sign));
}
Просто для справки, подписанный максимум, конечно, просто:
__m256i pmax_epi64(__m256i a, __m256i b)
{
__m256i mask = _mm256_cmpgt_epi64(a,b);
return _mm256_blendv_epi8(b,a,mask);
}