Описание тега ptxas
NonePtxas - это ассемблер для параллельного выполнения потоков.
1
ответ
Предотвращение ненужных операций MOV во встроенном PTX
При записи PTX в отдельный файл параметр ядра может быть загружен в регистр с помощью: .reg .u32 test; ld.param.u32 test, [test_param]; Однако при использовании встроенного PTX в примечании к приложению Использование встроенного PTX в CUDA (версия 0…
31 мар '12 в 14:51
1
ответ
Компилировать код ptx на GPU NVIDIA?
Я хочу перехватывать на уровне PTX программы opencl на GPU NVIDIA. Я предполагаю, что рутина, вероятно, будет выглядеть так. Сначала я пишу программу opencl (код хоста и устройства), используя компилятор NVIDIA для создания соответствующего кода ptx…
09 июл '12 в 06:22
1
ответ
OpenCL: несоответствие пространства состояний между инструкцией и адресом
Я пишу программу OpenCL и при сборке я получаю эту ошибку: Build Log: ptxas application ptx input, line 268; error : State space mismatch between instruction and address in instruction 'ld' ptxas application ptx input, line 269; error : State space …
02 июл '12 в 08:10
1
ответ
Что делает опция --abi-compile=yes в CUDA ptxas (что стоит регистров)?
PTID-оптимизатор NVIDIA CUDA, ptxas, имеет следующую опцию: --abi-compile <yes|no> (-abi) Enable/Disable the compiling of functions using ABI. Default value: 'yes'. Что это за ABI? А что происходит при отключении? Кажется, это приводит к умень…
28 фев '16 в 22:10
1
ответ
CUDA: --ptxas-options=-v разделяемая память и cudaFuncAttributes.sharedSizeBytes не совпадают
Я пытаюсь использовать reqRegs а также sharedSizeBytes в cudaFuncAttributes структура для динамической оптимизации размера блока ядра во время выполнения. Моя текущая реализация снимает текст stdout с nvcc --ptxas-options=-v обнаружить регистр и исп…
11 июл '14 в 19:01
1
ответ
Установка 32-битного размера адреса во встроенном PTX
Я нахожусь в процессе преобразования PTX, записанного в виде отдельного файла, для встроенного PTX. В отдельном файле PTX я определял ISA и цель следующим образом: .version 1.2 .target sm_13 В файле PTX, созданном компилятором, после добавления PTX …
31 мар '12 в 18:38
1
ответ
Свойства функции для __internal_trig_reduction_slowpathd
На данный момент я пытаюсь оптимизировать некоторые ядра CUDA... Если скомпилировать с опцией --ptxas-options=-v, я получу информацию о регистрах% co. В моем случае я всегда получаю дополнительные строки, которые не имеют смысла для меня: ptxas : in…
05 июн '13 в 13:20
1
ответ
Отладка встроенного PTX в Parallel Nsight
Можно ли просматривать регистры PTX при переходе через встроенный PTX в Parallel Nsight? Я могу установить точки останова на встроенном PTX и пройти через него, но при наведении курсора на регистры PTX не отображаются их значения. Я могу включить SA…
03 апр '12 в 02:50
2
ответа
Странные результаты для профилированных выполненных инструкций и выданных инструкций в графическом процессоре Fermi (GTX 580)
Мое ядро имеет версию ptx: .version 2.2 .target sm_20, texmode_independent .entry histogram( .param .u32 .ptr .global .align 4 histogram_param_0, .param .u32 .ptr .global .align 4 histogram_param_1 ) { .reg .f32 %f<2>; .reg .s32 %r<12>…
06 июл '11 в 08:14
1
ответ
Отдельная компиляция NVCC с выходом PTX
Просто чтобы посмотреть, какой код генерирует CUDA, мне нравится компилировать в ptx в дополнение к объектному файлу. Поскольку некоторые из моих циклов развертывания могут занять довольно много времени, я хотел бы иметь возможность компилировать *.…
21 янв '14 в 04:37
1
ответ
Интерпретация выходных данных --ptxas-options=-v
Я пытаюсь понять использование ресурсов для каждого из моих потоков CUDA для рукописного ядра. Я собрал свой kernel.cu подать в kernel.o файл с nvcc -arch=sm_20 -ptxas-options=-v и я получил следующий вывод ptxas info : Compiling entry function '_Z1…
12 сен '12 в 12:29
1
ответ
CUDA ptxas Error "функция использует слишком много общих данных"
Я никогда раньше не использовал CUDA или C++, но я пытаюсь запустить Ramses GPU ( http://www.maisondelasimulation.fr/projects/RAMSES-GPU/html/download.html. Из-за ошибки в автогене. sh Я использовал./configure и получил этот рабочий. Таким образом, …
14 май '14 в 07:45
1
ответ
CUDA: ошибочная статистика lmem отображается для sm_20?
Ядро CUDA, скомпилированное с опцией --ptxas-options=-v кажется, отображает ошибочную статистику lmem (локальная память), когда sm_20 Архитектура GPU уточняется. То же самое дает значимую статистику sm_10 / sm_11 / sm_12 / sm_13 архитектуры. Может к…
24 фев '11 в 06:52
2
ответа
Как я могу реализовать пользовательскую элементарную функцию, включающую несколько переменных?
Я хотел бы реализовать эту атомарную функцию в CUDA: __device__ float lowest; // global var __device__ int lowIdx; // global var float realNum; // thread reg var int index; // thread reg var if(realNum < lowest) { lowest= realNum; // the new lowe…
01 июл '13 в 18:46
1
ответ
Дополнительное использование регистра с помощью if
Я работал над большим ядром cuda и заметил, что ядро использует 43 регистра на поток. Чтобы понять, что происходит, я написал небольшую программу для определения использования регистра. Я заметил, что всякий раз, когда я использую if, использовани…
19 июл '12 в 15:53
1
ответ
Отчет об использовании регистра NVCC в функции __device__
Я пытаюсь получить некоторую информацию об использовании регистра в моих ядрах CUDA, используя опцию NVCC --ptxas-options=v и хотя с глобальными функциями все в порядке, у меня возникли некоторые трудности с устройством, так как ptxas info : Used N …
30 авг '17 в 09:45
2
ответа
Интерпретация подробного вывода ptxas, часть II
Этот вопрос является продолжением Интерпретации подробного вывода ptxas, часть I. Когда мы собираем ядро .ptx файл с ptxas -vили скомпилируйте его из .cu файл с -ptxas-options=-vмы получаем несколько строк вывода, таких как: ptxas info : Compiling e…
16 май '19 в 20:41
1
ответ
Как правильно поддерживать инструкции `__shfl()` и `__shfl_sync()`?
Насколько я понимаю, CUDA 10.1 удалил shfl инструкции: PTX ISA версии 6.4 удаляет следующие функции: Поддержка для shfl и голосовать за инструкции без .sync квалификатор был удален для.targetsm_70 и выше. Эта поддержка устарела с версии PTX ISA 6.0,…
29 апр '19 в 21:57
0
ответов
Почему nvcc отказывается связывать эту простую программу для кооперативных групп?
Рассмотрим следующую программу CUDA в файле с именем foo.cu: #include <cooperative_groups.h> #include <stdio.h> __global__ void my_kernel() { auto g = cooperative_groups::this_grid(); g.sync(); } int main(int, char **) { cudaLaunchCooper…
25 дек '19 в 21:38
1
ответ
Как отключить предупреждение ptxas о неопределенном размере стека?
При компиляции кода устройства CUDA вы можете получить ошибку (с разрывом строки для удобства чтения): ptxas warning : Stack size for entry function '_ZN7kernels11print_stuffIiEEvv' cannot be statically determined Это может иметь несколько причин, н…
30 дек '19 в 02:46