Добавление нескольких слов с использованием флага переноса

GCC имеет 128-битные целые числа. Используя их, я могу заставить компилятор использовать mul (или же imul только с одним операндом) инструкции. Например

uint64_t x,y;
unsigned __in128 z = (unsigned __int128)x*y;

производит mul, Я использовал это для создания функции от 128x128 до 256 (см. Конец этого вопроса перед обновлением, чтобы найти код для этого, если вам интересно).

Теперь я хочу сделать 256-битное сложение, и я не нашел способа заставить компилятор использовать ADC кроме как с использованием сборки. Я мог бы использовать ассемблер, но я хочу встроенные функции для эффективности. Компилятор уже создает эффективную функцию от 128x128 до 256 (по той причине, которую я объяснил в начале этого вопроса), поэтому я не понимаю, почему я должен переписать это также в сборке (или любых других функциях, которые компилятор уже эффективно реализует),

Вот встроенная функция сборки, которую я придумал:

#define ADD256(X1, X2, X3, X4, Y1, Y2, Y3, Y4) \
 __asm__ __volatile__ ( \
 "addq %[v1], %[u1] \n" \
 "adcq %[v2], %[u2] \n" \
 "adcq %[v3], %[u3] \n" \
 "adcq %[v4], %[u4] \n" \
 : [u1] "+&r" (X1), [u2] "+&r" (X2), [u3] "+&r" (X3), [u4] "+&r" (X4) \
 : [v1]  "r" (Y1), [v2]  "r" (Y2), [v3]  "r" (Y3), [v4]  "r" (Y4)) 

(вероятно, не каждому выводу нужен ранний модификатор clobber, но я получаю неправильный результат, по крайней мере, без последних двух)

А вот функция, которая делает то же самое в C

void add256(int256 *x, int256 *y) {
    uint64_t t1, t2;
    t1 = x->x1; x->x1 += y->x1;
    t2 = x->x2; x->x2 += y->x2 + ((x->x1) < t1);
    t1 = x->x3; x->x3 += y->x3 + ((x->x2) < t2);
                x->x4 += y->x4 + ((x->x3) < t1);
}

Зачем нужна сборка для этого? Почему компилятор не может скомпилировать add256 функция использовать флаги переноса? Есть ли способ заставить компилятор сделать это (например, я могу изменить add256 так что он этим занимается)? Что кто-то должен сделать для компилятора, который не поддерживает встроенную сборку (напишите все функции в сборке?) Почему для этого нет встроенного?

Вот функция от 128х128 до 256

void muldwu128(int256 *w, uint128 u, uint128 v) {
   uint128 t;
   uint64_t u0, u1, v0, v1, k, w1, w2, w3;

   u0 = u >> 64L;
   u1 = u;
   v0 = v >> 64L;
   v1 = v;

   t = (uint128)u1*v1;
   w3 = t;
   k = t >> 64L;

   t = (uint128)u0*v1 + k;
   w2 = t;
   w1 = t >> 64L;
   t = (uint128)u1*v0 + w2;
   k = t >> 64L;

   w->hi = (uint128)u0*v0 + w1 + k;
   w->lo = (t << 64L) + w3;

}

Некоторый тип определяет:

typedef          __int128  int128;
typedef unsigned __int128 uint128;

typedef union {
    struct {
        uint64_t x1;
        uint64_t x2;
         int64_t x3;
         int64_t x4;
    };
    struct {
        uint128 lo;
         int128 hi;
    };
} int256;

Обновить:

Мой вопрос в значительной степени дублирует эти вопросы:

  1. получить-GCC-к-использованию переносного-логику-для-произвольной точности-арифметической-без-инлайн-сборка
  2. эффективность-128-битовый аддитивный с помощью переноски флаг
  3. добавление нескольких слов в c.

У Intel есть хорошая статья ( New Instructions Support Large Integer Arithmetic), в которой рассматриваются большие целочисленные арифметики и три новые инструкции MULX, ADCX, ADOX. Они пишут:

Внутренние определения mulx, adcx и adox также будут интегрированы в компиляторы. Это первый пример инструкции типа "добавить с переносом", реализуемой с помощью встроенных функций. Встроенная поддержка позволит пользователям реализовать целочисленную арифметику с использованием языков программирования более высокого уровня, таких как C/C++.

Внутренние

unsigned __int64 umul128(unsigned __int64 a, unsigned __int64 b, unsigned __int64 * hi);
unsigned char _addcarry_u64(unsigned char c_in, unsigned __int64 a, unsigned __int64 b, unsigned __int64 *out);
unsigned char _addcarryx_u64(unsigned char c_in, unsigned __int64 a, unsigned __int64 b, unsigned __int64 *out);

Кстати, MSVC уже имеет _umul128 свойственный Так что, хотя MSVC не имеет __int128 _umul128 внутренний может быть использован для генерации mul и, следовательно, 128-битное умножение.

MULX Учебное пособие доступно с BMI2 в Haswell. ADCX а также ADOX инструкции доступны для процессоров Broadwell. Жаль, что нет внутренней ADC который был доступен с 8086 года в 1979 году. Это решило бы проблему встроенной сборки.

Изменить: на самом деле __int128 буду использовать mulx если определен BMI2 (например, с использованием -mbmi2 или же - march=haswell).

Редактировать:

Я попробовал добавить Clang с помощью встроенных переносчиков, как это было предложено Lưu Vĩnh Phúc

void add256(int256 *x, int256 *y) {
    unsigned long long carryin=0, carryout;
    x->x1 = __builtin_addcll(x->x1, y->x1, carryin, &carryout); carryin = carryout;
    x->x2 = __builtin_addcll(x->x2, y->x2, carryin, &carryout); carryin = carryout;
    x->x3 = __builtin_addcll(x->x3, y->x3, carryin, &carryout); carryin = carryout;
    x->x4 = __builtin_addcll(x->x4, y->x4, carryin, &carryout);  
}

но это не генерируется ADC и это сложнее, чем я ожидаю.

1 ответ

Я нашел решение с помощью ICC 13.0.01, используя _addcarry_u64 свойственный

void add256(uint256 *x, uint256 *y) {
    unsigned char c = 0;
    c = _addcarry_u64(c, x->x1, y->x1, &x->x1);
    c = _addcarry_u64(c, x->x2, y->x2, &x->x2);
    c = _addcarry_u64(c, x->x3, y->x3, &x->x3);
        _addcarry_u64(c, x->x4, y->x4, &x->x4);
}

производит

L__routine_start_add256_0:
add256:
        xorl      %r9d, %r9d                                    #25.9
        movq      (%rsi), %rax                                  #22.9
        addq      %rax, (%rdi)                                  #22.9
        movq      8(%rsi), %rdx                                 #23.9
        adcq      %rdx, 8(%rdi)                                 #23.9
        movq      16(%rsi), %rcx                                #24.9
        adcq      %rcx, 16(%rdi)                                #24.9
        movq      24(%rsi), %r8                                 #25.9
        adcq      %r8, 24(%rdi)                                 #25.9
        setb      %r9b                                          #25.9
        ret                                                     #26.1

Я собрал с -O3, Я не знаю как включить adx с МУС. Может мне нужен ICC 14?

Это точно 1 addq и три adcq как я и ожидал.

С Clang результат с помощью -O3 -madx беспорядок

add256(uint256*, uint256*):                  # @add256(uint256*, uint256*)
movq    (%rsi), %rax
xorl    %ecx, %ecx
xorl    %edx, %edx
addb    $-1, %dl
adcq    %rax, (%rdi)
addb    $-1, %cl
movq    (%rdi), %rcx
adcxq   %rax, %rcx
setb    %al
movq    8(%rsi), %rcx
movb    %al, %dl
addb    $-1, %dl
adcq    %rcx, 8(%rdi)
addb    $-1, %al
movq    8(%rdi), %rax
adcxq   %rcx, %rax
setb    %al
movq    16(%rsi), %rcx
movb    %al, %dl
addb    $-1, %dl
adcq    %rcx, 16(%rdi)
addb    $-1, %al
movq    16(%rdi), %rax
adcxq   %rcx, %rax
setb    %al
movq    24(%rsi), %rcx
addb    $-1, %al
adcq    %rcx, 24(%rdi)
retq

Без включения -madx в Clang результат не намного лучше.

Редактировать: по- видимому MSVC уже имеет_addcarry_u64, Я попробовал, и это так же хорошо, как ICC (1x add и 3х adc).

Другие вопросы по тегам