Встроенная сборка HIP-Clang
Что такое эквивалент Hip-Clang этой функции CUDA?
__device__ __forceinline__ uint32_t add_cc(uint32_t a, uint32_t b)
{
uint32_t r;
asm volatile ("add.cc.u32 %0, %1, %2;" : "=r"(r) : "r"(a), "r"(b));
return r;
}
Я переношу проект CUDA в HIP-Clang, который содержит встроенную сборку PTX. Функция используется для реализации сложения с множественной точностью в графическом процессоре NVIDIA. Я старался:
asm volatile ("add.cc.u32 %0, %1, %2;" : "=r"(r) : "r"(a), "r"(b)); //invalid instruction
asm volatile ("V_ADD_CO_U32 %0, %1, %2;" : "=r"(r) : "r"(a), "r"(b)); //invalid operand for instruction
asm volatile ("V_ADD_CO_U32 %0, %1, %2;" : "=v"(r) : "v"(a), "v"(b)); //operands are not valid for this GPU or mode
Целевое оборудование — RX 6800. Версия AMD clang 14.0.0.
Является ли RDNA2 правильной ссылкой на набор инструкций ?
Является ли это руководство пользователя LLVM по серверной части AMDGPU применимым справочником?