Описание тега ptx
Parallel Thread Execution (PTX) - это архитектура набора команд виртуальной машины, используемая в среде программирования Nvidia CUDA.
1
ответ
Базовые блоки в CUDA
Есть ли способ просмотреть информацию о базовых блоках для исходного кода CUDA? Я пытаюсь скомпилировать код CUDA так, чтобы вывод, который он мне дал, был файлом со всеми перечисленными базовыми блоками. Но до сих пор я не смог найти ни одной опции…
11 сен '15 в 01:17
1
ответ
PTX команда для чтения определенного количества бит за раз
Я понимаю, что это достижимо с помощью цикла с функциями управления битами, однако мне интересно, есть ли более быстрый и более прямой способ сделать это. Я использую около 64 бит в качестве заголовка для моей структуры данных, что может быть много …
26 май '16 в 09:59
1
ответ
PTX - разница между.local и.param
Я изучаю PTX, и я не понимаю разницу между .param а также .local государственные пространства. .local переменные, видимые потокам и хранящиеся в их стеке (который, кстати, является памятью потоков) .param переменные, используемые для размещения объе…
15 июл '13 в 10:04
1
ответ
Отсутствует встроенная буква ограничения CUDA PTX для 8-битных переменных, чтобы отключить кэш L1 для 8-битной переменной (bool)
ВСТУПЛЕНИЕ В этом вопросе мы можем узнать, как отключить кэш L1 для одной переменной. Вот принятый ответ: Как уже упоминалось выше, вы можете использовать встроенный PTX, вот пример: __device__ __inline__ double ld_gbl_cg(const double *addr) { doubl…
10 янв '13 в 15:55
2
ответа
Cuda error CUDA_ERROR_NO_BINARY_FOR_GPU
У меня есть код PTX, который не загружается. Я запускаю это на 650M, с OSX. Другие примеры CUDA отлично работают в системе, но при загрузке модуля я всегда получаю ошибку 209: CUDA_ERROR_NO_BINARY_FOR_GPU Что мне не хватает? .version 3.1 .target sm_…
02 мар '13 в 00:02
2
ответа
Как мне сделать обратное shfl.idx (т.е. разброс по варпу вместо сбора по деформации)?
С помощью инструкции CUDA shfl.idx мы выполняем то, что по сути является сборкой внутри деформации: каждая линия обеспечивает базовую линию и исходную линию и получает данные исходной линии. А как насчет обратной операции, разброс? Я имею в виду, не…
07 фев '18 в 00:11
1
ответ
CUDA: компиляция LLVM IR с использованием NVPTX
Для моего проекта я генерирую инструкции PTX для некоторых функций двумя различными способами. Первый метод использует CUDA C для реализации функций и nvcc для их компиляции, используя nvcc -ptx <file>.cu -o <file>.ptx, Другой метод запи…
26 май '14 в 15:10
1
ответ
nvcc: фатальная ошибка: опция '--cubin (-cubin)' не разрешена при компиляции для нескольких экземпляров кода GPU
При попытке скомпилировать модуль графического процессора OpenCV 2.4.8 с VS2010 на машине Win7 x64 с GTX760, CUDA v5.0, после каждой процедуры сборки объекта появляется следующая ошибка: nvcc: фатальная ошибка: опция '--cubin (-cubin)' не разрешена …
06 июн '14 в 15:05
1
ответ
В чем разница между инструкциями prefetch и prefetchu ptx?
Здесь в документации указано, что prefetch а также prefetchu инструкции ptx "строка предварительной выборки, содержащая общий адрес на указанном уровне иерархии памяти в указанном пространстве состояний". Также упоминается, что синтаксис prefetch{.…
06 апр '15 в 00:03
1
ответ
Использование SIMD-видеоинструкций во встроенной Ptx сборке CUDA
Я хочу использовать видеоинструкцию SIMD (vadd4, vmax4 и т. Д.), Раздел 8.7.13 в http://docs.nvidia.com/cuda/pdf/ptx_isa_3.1.pdf Я попробовал следующее в моем коде asm("vadd4.u32.u32.u32 %0, %1, %2, %3;" : "=r"(i) : "r"(j) : "r"(k) : "r"(l)); где i,…
25 июн '13 в 02:39
1
ответ
Сборка Ptx прервана из-за ошибок
Я пытался написать программу для умножения матрицы и вектора CSR на C/CUDA 5.5 в MS Visual Studio 2012, но столкнулся с ошибкой ptx. Листинг моего кода: __global__ void multKernelSymm(double* s, double* u, double* val, int* rowPtr, int* colInd) { in…
16 апр '14 в 10:22
1
ответ
Стек устройств CUDA и синхронизация; Инструкция SSY
Редактировать: этот вопрос является новой версией оригинала, поэтому первые несколько ответов могут быть неактуальными. Мне любопытно, какое влияние вызов функции устройства с принудительным отсутствием встраивания оказывает на синхронизацию внутри …
11 сен '12 в 20:26
1
ответ
Код операции NVPTX для шестнадцатеричного кода в LLVM
В LLVM, когда исходный файл CUDA компилируется в файл PTX, генерируются коды операций. Теперь какой раздел в LLVM преобразует эти коды операций в файле PTX в двоичный файл (шестнадцатеричный код) (т. Е. Конечный исполняемый файл). Поиск по lvm/lib/T…
10 май '16 в 03:44
1
ответ
Как настроить GCC для разгрузки OpenMP 4.5 на GPGPU Nvidia PTX
Выпустив gcc 7.1, мы можем теперь настроить gcc для openmp 4.5, разгрузить GPGPU Nvidia PTX. Это то, что они говорят в примечании к выпуску (приблизительно). Поэтому мой вопрос: есть ли специальные флаги для активации этой конфигурации при компиляци…
04 май '17 в 16:59
2
ответа
Какова цель использования нескольких "арочных" флагов в компиляторе Nvidia NVCC?
Недавно я понял, как NVCC компилирует код устройства CUDA для различных вычислительных архитектур. Насколько я понимаю, при использовании опции -gencode NVCC "arch" - это минимальная вычислительная архитектура, требуемая приложением программиста, а …
11 июл '13 в 16:54
2
ответа
Какой самый эффективный способ вычислить идентификатор деформации / линии в 1-D сетке?
В CUDA каждый поток знает свой индекс блока в сетке и индекс потока в блоке. Но два важных значения явно не доступны для него: Индекс в качестве полосы в пределах его варпа (его "идентификатор полосы") Индекс деформации, для которой он является поло…
02 июн '17 в 20:55
1
ответ
cuda - минимальный пример, высокое использование регистра
Рассмотрим эти три тривиальных минимальных ядра. Их использование регистра намного выше, чем я ожидаю. Зачем? A: __global__ void Kernel_A() { //empty } соответствующий PTX: ptxas info : Compiling entry function '_Z8Kernel_Av' for 'sm_20' ptxas info …
20 июн '13 в 14:16
0
ответов
НЕДОСТУПНО выполнено! ошибка при попытке создать PTX
Я пытаюсь сгенерировать код PTX для ядра примера программы "nbody" (nbody_kernel.cu) с использованием clang/LLVM версии 3.2. Программа nbody CUDA доступна в SDK от Nvidia. Я имею в виду проект https://github.com/jholewinski/llvm-ptx-samples. Ниже пр…
08 мар '13 в 21:06
1
ответ
CUDA PTX, драйвер API - как получить глобальную переменную из ядра после выполнения
Вот часть кода ядра - объявление переменных и желаемой операции для каждого потока .global.f32 sum = 0.0 .reg.f32 reg; atom.global.add.f32 reg, [sum], val; Я хочу добавить разные переменные в каждом потоке к глобальной переменной sum. Я полагаю, что…
21 янв '16 в 19:17
1
ответ
32-битные CUDA/PTX и 64-битные
Компиляторы CUDA имеют опции для создания 32-битных или 64-битных PTX. В чем разница между этими? Это как для x86, графические процессоры NVidia на самом деле имеют 32-битные и 64-битные ISA? Или это связано только с кодом хоста?
17 дек '13 в 02:05