Добавить упакованную пару значений с плавающей запятой половинной точности на AMD GPU, например, инструкцию NVidia add.f16x2?

Что является эквивалентом или аналогом инструкции NVIDIA с плавающей запятой половинной точности на платформе AMD GPU? Или найдите способ реализовать ту же функцию, что и в следующем фрагменте кода платформы NVIDIA GPU:

      static inline __device__ uint32_t hadd2(uint32_t a, uint32_t b) {
    uint32_t c;
    asm volatile("add.f16x2 %0, %1, %2;\n" : "=r"(c) : "r"(a), "r"(b));
    return c;
}

на платформе AMD GPU.

0 ответов

Другие вопросы по тегам