Добавить упакованную пару значений с плавающей запятой половинной точности на AMD GPU, например, инструкцию NVidia add.f16x2?
Что является эквивалентом или аналогом инструкции NVIDIA с плавающей запятой половинной точности на платформе AMD GPU? Или найдите способ реализовать ту же функцию, что и в следующем фрагменте кода платформы NVIDIA GPU:
static inline __device__ uint32_t hadd2(uint32_t a, uint32_t b) {
uint32_t c;
asm volatile("add.f16x2 %0, %1, %2;\n" : "=r"(c) : "r"(a), "r"(b));
return c;
}
на платформе AMD GPU.