Описание тега ptxas

Описание тега Вопросы с тегом

NonePtxas - это ассемблер для параллельного выполнения потоков.

1 ответ

Предотвращение ненужных операций MOV во встроенном PTX

При записи PTX в отдельный файл параметр ядра может быть загружен в регистр с помощью: .reg .u32 test; ld.param.u32 test, [test_param]; Однако при использовании встроенного PTX в примечании к приложению Использование встроенного PTX в CUDA (версия 0…

cuda inline-assembly ptxas

31 мар '12 в 14:51

1 ответ

Компилировать код ptx на GPU NVIDIA?

Я хочу перехватывать на уровне PTX программы opencl на GPU NVIDIA. Я предполагаю, что рутина, вероятно, будет выглядеть так. Сначала я пишу программу opencl (код хоста и устройства), используя компилятор NVIDIA для создания соответствующего кода ptx…

cuda gpu opencl nvidia ptxas

09 июл '12 в 06:22

1 ответ

OpenCL: несоответствие пространства состояний между инструкцией и адресом

Я пишу программу OpenCL и при сборке я получаю эту ошибку: Build Log: ptxas application ptx input, line 268; error : State space mismatch between instruction and address in instruction 'ld' ptxas application ptx input, line 269; error : State space …

c++ opencl ptxas

02 июл '12 в 08:10

1 ответ

Что делает опция --abi-compile=yes в CUDA ptxas (что стоит регистров)?

PTID-оптимизатор NVIDIA CUDA, ptxas, имеет следующую опцию: --abi-compile <yes|no> (-abi) Enable/Disable the compiling of functions using ABI. Default value: 'yes'. Что это за ABI? А что происходит при отключении? Кажется, это приводит к умень…

cuda gpgpu abi ptxas

28 фев '16 в 22:10

1 ответ

CUDA: --ptxas-options=-v разделяемая память и cudaFuncAttributes.sharedSizeBytes не совпадают

Я пытаюсь использовать reqRegs а также sharedSizeBytes в cudaFuncAttributes структура для динамической оптимизации размера блока ядра во время выполнения. Моя текущая реализация снимает текст stdout с nvcc --ptxas-options=-v обнаружить регистр и исп…

c++ c cuda ptxas

11 июл '14 в 19:01

1 ответ

Установка 32-битного размера адреса во встроенном PTX

Я нахожусь в процессе преобразования PTX, записанного в виде отдельного файла, для встроенного PTX. В отдельном файле PTX я определял ISA и цель следующим образом: .version 1.2 .target sm_13 В файле PTX, созданном компилятором, после добавления PTX …

cuda inline-assembly nvcc ptxas

31 мар '12 в 18:38

1 ответ

Свойства функции для __internal_trig_reduction_slowpathd

На данный момент я пытаюсь оптимизировать некоторые ядра CUDA... Если скомпилировать с опцией --ptxas-options=-v, я получу информацию о регистрах% co. В моем случае я всегда получаю дополнительные строки, которые не имеют смысла для меня: ptxas : in…

c cuda nvcc ptxas

05 июн '13 в 13:20

1 ответ

Отладка встроенного PTX в Parallel Nsight

Можно ли просматривать регистры PTX при переходе через встроенный PTX в Parallel Nsight? Я могу установить точки останова на встроенном PTX и пройти через него, но при наведении курсора на регистры PTX не отображаются их значения. Я могу включить SA…

cuda inline-assembly nvcc nsight ptxas

03 апр '12 в 02:50

2 ответа

Странные результаты для профилированных выполненных инструкций и выданных инструкций в графическом процессоре Fermi (GTX 580)

Мое ядро имеет версию ptx: .version 2.2 .target sm_20, texmode_independent .entry histogram( .param .u32 .ptr .global .align 4 histogram_param_0, .param .u32 .ptr .global .align 4 histogram_param_1 ) { .reg .f32 %f<2>; .reg .s32 %r<12>…

cuda gpu opencl gpgpu ptxas

06 июл '11 в 08:14

1 ответ

Отдельная компиляция NVCC с выходом PTX

Просто чтобы посмотреть, какой код генерирует CUDA, мне нравится компилировать в ptx в дополнение к объектному файлу. Поскольку некоторые из моих циклов развертывания могут занять довольно много времени, я хотел бы иметь возможность компилировать *.…

gcc cuda nvcc ptxas

21 янв '14 в 04:37

1 ответ

Интерпретация выходных данных --ptxas-options=-v

Я пытаюсь понять использование ресурсов для каждого из моих потоков CUDA для рукописного ядра. Я собрал свой kernel.cu подать в kernel.o файл с nvcc -arch=sm_20 -ptxas-options=-v и я получил следующий вывод ptxas info : Compiling entry function '_Z1…

memory cuda gpu-constant-memory ptxas

12 сен '12 в 12:29

1 ответ

CUDA ptxas Error "функция использует слишком много общих данных"

Я никогда раньше не использовал CUDA или C++, но я пытаюсь запустить Ramses GPU ( http://www.maisondelasimulation.fr/projects/RAMSES-GPU/html/download.html. Из-за ошибки в автогене. sh Я использовал./configure и получил этот рабочий. Таким образом, …

c++ cuda ptxas

14 май '14 в 07:45

1 ответ

CUDA: ошибочная статистика lmem отображается для sm_20?

Ядро CUDA, скомпилированное с опцией --ptxas-options=-v кажется, отображает ошибочную статистику lmem (локальная память), когда sm_20 Архитектура GPU уточняется. То же самое дает значимую статистику sm_10 / sm_11 / sm_12 / sm_13 архитектуры. Может к…

cuda nvcc ptxas

24 фев '11 в 06:52

2 ответа

Как я могу реализовать пользовательскую элементарную функцию, включающую несколько переменных?

Я хотел бы реализовать эту атомарную функцию в CUDA: __device__ float lowest; // global var __device__ int lowIdx; // global var float realNum; // thread reg var int index; // thread reg var if(realNum < lowest) { lowest= realNum; // the new lowe…

cuda atomic gpu-atomics ptxas

01 июл '13 в 18:46

1 ответ

Дополнительное использование регистра с помощью if

Я работал над большим ядром cuda и заметил, что ядро использует 43 регистра на поток. Чтобы понять, что происходит, я написал небольшую программу для определения использования регистра. Я заметил, что всякий раз, когда я использую if, использовани…

if-statement cuda gpu register-allocation ptxas

19 июл '12 в 15:53

1 ответ

Отчет об использовании регистра NVCC в функции device

Я пытаюсь получить некоторую информацию об использовании регистра в моих ядрах CUDA, используя опцию NVCC --ptxas-options=v и хотя с глобальными функциями все в порядке, у меня возникли некоторые трудности с устройством, так как ptxas info : Used N …

cuda gpu nvcc ptxas

30 авг '17 в 09:45

2 ответа

Интерпретация подробного вывода ptxas, часть II

Этот вопрос является продолжением Интерпретации подробного вывода ptxas, часть I. Когда мы собираем ядро .ptx файл с ptxas -vили скомпилируйте его из .cu файл с -ptxas-options=-vмы получаем несколько строк вывода, таких как: ptxas info : Compiling e…

cuda gpu-shared-memory verbose gpu-constant-memory ptxas

16 май '19 в 20:41

1 ответ

Как правильно поддерживать инструкции `shfl()` и `shfl_sync()`?

Насколько я понимаю, CUDA 10.1 удалил shfl инструкции: PTX ISA версии 6.4 удаляет следующие функции: Поддержка для shfl и голосовать за инструкции без .sync квалификатор был удален для.targetsm_70 и выше. Эта поддержка устарела с версии PTX ISA 6.0,…

cuda ptx ptxas

29 апр '19 в 21:57

0 ответов

Почему nvcc отказывается связывать эту простую программу для кооперативных групп?

Рассмотрим следующую программу CUDA в файле с именем foo.cu: #include <cooperative_groups.h> #include <stdio.h> __global__ void my_kernel() { auto g = cooperative_groups::this_grid(); g.sync(); } int main(int, char **) { cudaLaunchCooper…

cuda linker linker-errors ptxas gpu-cooperative-groups

25 дек '19 в 21:38

1 ответ

Как отключить предупреждение ptxas о неопределенном размере стека?

При компиляции кода устройства CUDA вы можете получить ошибку (с разрывом строки для удобства чтения): ptxas warning : Stack size for entry function '_ZN7kernels11print_stuffIiEEvv' cannot be statically determined Это может иметь несколько причин, н…

cuda compiler-warnings nvcc ptxas assembler-warnings

30 дек '19 в 02:46