Сумма массива с плавающей точкой в ​​сборке

Я реализую функцию в сборке x86, вызванную из программы на C, чтобы добавить массив с плавающей точкой. Первый аргумент функции - это указатель на массив, а второй - количество элементов. Когда я запускаю код в Linux, я получаю ошибку сегментации. Что я сделал не так?

.text
.globl floatsum

floatsum:
push %ebp
movl %esp, %ebp

movl  8(%ebp), %eax
movl 12(%ebp), %edx
shrl $2, %edx

xorps %xmm0, %xmm0
loop:
testl %edx, %edx
je end  
movaps (%eax), %xmm1
addps %xmm1, %xmm0
addl $16, %eax
decl %edx
jmp loop 

end:
                            #         3       2      1       0
movaps %xmm0, %xmm1         # xmm0:   w       z      y       x 
                            # xmm1:   z       w      x       y
shufps $0xb1, %xmm1, %xmm1  #        10      11      00      01  = 0xb1
addps  %xmm1, %xmm0         # xmm0:  w+z     z+w     y+x     x+y
movaps %xmm0, %xmm1         # xmm1:  w+z     z+w     y+x     x+y
                            # xmm1:  x+y     y+x     z+w     w+z
shufps $0x1b, %xmm1, %xmm1  #        00      01      10      11  = 0x1b
addps  %xmm1, %xmm0         # xmm0:  w+z+x+y z+w+y+x y+x+z+w x+y+w+z
                            #
#movd %xmm0, %eax
#pushl %eax

finst:

flds (%esp)
popl %eax

movl %ebp, %esp
popl %ebp
ret

// C Code

#include <stdio.h>
#include <stdlib.h>


float
floatsum(float *array, size_t number_of_items);

float
floatsum_c(float *array, size_t number_of_items){
float sum;
size_t i;

sum=0.0;
for(i=0; i<number_of_items;i++){
    sum+=array[i];
}
return sum;
}

float *
create_array(size_t number_of_items){
float *array;
size_t i;

array=calloc(number_of_items, sizeof(float));
if(array){
    for(i=0; i<number_of_items; i++){
        array[i]=1.0+(float)i;
    }
   }
   return array;
 }

int
main(int argc, char **argv){
float *a;
float result;
size_t number_of_items, i;

number_of_items=8;
a=create_array(number_of_items);
if(a){
    result=floatsum_c(a, number_of_items);
    printf("Sum (c version): %f\n", result);    
    result=floatsum(a, number_of_items);
    printf("Sum (asm version): %f\n", result);  
    free(a);
}

return 0;
}

1 ответ

Решение

Как упоминал Павел, это, вероятно, проблема выравнивания. Из вашего кода C ясно, что ваш массив с плавающей запятой не гарантированно выровнен по 16-байтовой границе. Ошибка в этой строке:

movaps (%eax), %xmm1

Причина в том, что MOVAPS имеет это требование:

Если операндом источника или назначения является операнд памяти, операнд должен быть выровнен по 16-байтной (128-битной версии) или 32-байтовой (VEX.256-кодированной версии) границе, или исключение общей защиты (#GP) будет быть сгенерированным.

Поскольку вы работаете с 128-битными векторными регистрами, вам необходимо 16-байтовое выравнивание. У вас есть два варианта:

  • Измените MOVAPS на MOVUPS, чтобы получить доступ к памяти без выравнивания
  • Измените код на C, чтобы создать массив с плавающей точкой, выровненный по 16-байтовой границе

Первое решение потребует:

movaps (%eax), %xmm1

быть измененным на;

movups (%eax), %xmm1

Второе решение - избегать использования calloc и использовать функцию, которая позволяет создавать объекты с 16-байтовым выравниванием. Если вы используете C11, то вы можете использовать функцию align_alloc и memset для обнуления массива. Ваш create_array может выглядеть так:

float *
create_array(size_t number_of_items)
{
    float *array = NULL;
    size_t i;

    array=(float *)aligned_alloc(16, number_of_items * sizeof(*array));
    if(array){
        memset (array, 0x00, number_of_items * sizeof(*array));
        for(i=0; i<number_of_items; i++){
            array[i]=1.0+(float)i;
        }
    }
    return array;
}

Если вы не используете C11, вы можете использовать функцию POSIX posix_memalign и memset в Linux. Код может выглядеть примерно так:

float *
create_array(size_t number_of_items)
{
    float *array = NULL;
    size_t i;

    if (!posix_memalign((void **)&array, 16, number_of_items * sizeof(*array))){
        memset (array, 0x00, number_of_items * sizeof(*array));
        for(i=0; i<number_of_items; i++){
            array[i]=1.0+(float)i;
        }
    }
    return array;
}

Вам также необходимо раскомментировать следующие строки:

#movd %xmm0, %eax
#pushl %eax

чтобы они выглядели так:

movd %xmm0, %eax
pushl %eax

Примечание. Хотя я использую memset для обнуления массива с плавающей точкой, как это делает calloc, он на самом деле не нужен в вашем коде, поскольку впоследствии вы инициализируете все элементы для определенных значений. В вашем случае вызов memset может быть удален.

Другие вопросы по тегам