Математические функции занимают больше циклов после запуска любой функции Intel AVX
Я заметил, что математические функции (такие как ceil, round,...) занимают больше циклов ЦП после запуска любой функции Intel AVX.
Смотрите следующий пример:
#include <stdio.h>
#include <math.h>
#include <immintrin.h>
static unsigned long int get_rdtsc(void)
{
unsigned int a, d;
asm volatile("rdtsc" : "=a" (a), "=d" (d));
return (((unsigned long int)a) | (((unsigned long int)d) << 32));
}
#define NUM_ITERATIONS 10000000
void run_round()
{
unsigned long int t1, t2, res, i;
double d = 3.2;
t1 = get_rdtsc();
for (i = 0 ; i < NUM_ITERATIONS ; ++i) {
res = round(d*i);
}
t2 = get_rdtsc();
printf("round res %lu total cycles %lu CPI %lu\n", res, t2 - t1, (t2 - t1) / NUM_ITERATIONS);
}
int main ()
{
__m256d a;
run_round();
a = _mm256_set1_pd(1);
run_round();
return 0;
}
скомпилировать с помощью: gcc -Wall -lm -mavx foo.c
Выход:
раунд рез 31999997 всего циклов 224725952 ИПЦ 22
раунд рез 31999997 всего циклов 1900864520 ИПЦ 190
Пожалуйста, порекомендуйте.
1 ответ
Разберите сгенерированный код.
Я предполагаю, что происходит дополнительное сохранение / восстановление регистра или что-то в этом роде.