Описание тега compute-capability

CUDA (с вычислительными возможностями) использует подмножество языка C без рекурсии и указателей на функции, а также некоторые простые расширения.
1 ответ

Свойства устройства CUDA и возможности вычислений при компиляции

Давайте предположим, что у меня есть код, который позволяет пользователю передать threads_per_block вызвать ядро. Затем я хочу проверить, допустим ли ввод (например, <=512 для вычислительных возможностей CC <2.0 и 1024 для CC >=2.0). Теперь мне инте…
18 май '11 в 14:22
2 ответа

Почему nvlink предупреждает меня об отсутствии объектного кода sm_20 (вычислительная возможность 2.0)?

Я работаю с CUDA 6.5 на машине с картой GTX Titan (вычислительная способность 3.5). Я строю свой код только с -gencode=arch=compute_30,code=sm_30 -gencode=arch=compute_35,code=sm_35 - и когда я связываю свой бинарный файл, nvlink говорит: nvlink war…
12 фев '16 в 13:00
2 ответа

Скомпилируйте код CUDA с помощью cmake и возможностью вычислений 3.5

Мне нужно скомпилировать код CUDA, который использует динамический параллелизм с помощью cmake. Код является: #include &lt;stdio.h&gt; __global__ void childKernel() { printf("Hello "); } __global__ void parentKernel() { childKernel&lt;&lt;&lt;1,1&gt…
20 ноя '17 в 16:02
3 ответа

Какую утилиту / двоичный файл можно вызвать для определения вычислительных возможностей графического процессора nVIDIA?

Предположим, у меня установлена ​​система с одним графическим процессором, и, возможно, я также установил последнюю версию CUDA. Я хочу определить, каковы вычислительные возможности моего графического процессора. Если бы я мог скомпилировать код, эт…
19 ноя '16 в 16:50
3 ответа

Невозможно использовать графический процессор с Tensorflow

У меня установлен tenorflow с CUDA 7.5 и cuDNN 5.0. Моя видеокарта - NVIDIA Geforce 820M с возможностью 2.1. Однако я получаю эту ошибку. Ignoring visible gpu device (device: 0, name: GeForce 820M, pci bus id: 0000:08:00.0) with Cuda compute capabil…
25 окт '16 в 08:21
1 ответ

CUDA Compute Capability Обратная совместимость

В настоящее время я работаю с кодом CUDA, скомпилированным для вычислительных возможностей 5.2. Моя машина имеет вычислительную способность 5,2 ГП (GeForce GTX 970). Тем не менее, мой вопрос: будет ли код, скомпилированный для вычислительных возможн…
24 авг '16 в 06:51
2 ответа

Максимальное количество параллельных ядер и архитектура виртуального кода

Итак, я нашел этот ресурс в Википедии Максимальное количество резидентных сеток на устройство (параллельное выполнение ядра) и для каждой вычислительной возможности он говорит о количестве одновременных ядер, которое, как я предполагаю, является мак…
11 дек '16 в 22:03
0 ответов

Обработка двойных значений в CUDA ( Compute Capability 1.1)

Мой код рассчитывает 3D-DCT, для большого набора данных. Он работает на GeForce 9400M, вычислительная способность 1.1 (насколько я знаю, не поддерживает двойную точность). Есть ли способ его включить или правильно обработать значения?
27 мар '13 в 18:17
1 ответ

Информация об устройстве OpenCL и вычислительные возможности CUDA

CUDA от nVIDIA имеет концепцию вычислительных возможностей, согласно которой объединяет множество важных флагов функций и числовых параметров. Что касается OpenCL, я знаю о clGetDeviceInfo, но разница между тем, что охватывают определения CUDA CC, и…
28 янв '16 в 16:49
1 ответ

Возможность CUDA и версия CUDA: совместимо?

У меня есть одна машина с графическим процессором CUDA с возможностью вычислений 1.1. Я хочу переустановить CUDA, и я думаю, что я пойду с 5.0; Есть ли такая вещь, как совместимость между возможностями CUDA и версией CUDA? Будут ли у меня проблемы с…
30 янв '13 в 09:24
1 ответ

Поведение кеша в Compute Capability 7.5

Это мои предположения: Есть два типа загрузок: кэшированные и некэшированные. В первом трафик идет через L1 и L2, а во втором - только через L2. Поведение по умолчанию в Compute Capability 6.x и 7.x - это кэшированный доступ. Строка кэша L1 составля…
20 авг '20 в 06:34
4 ответа

Как я могу заставить CMake автоматически определять значение CUDA_ARCHITECTURES?

Более новые версии CMake (3.18 и новее) "осведомлены" о выборе архитектур CUDA, на которые нацелена компиляция кода CUDA. Цели имеют свойство, которое, если установлено, генерирует соответствующий -gencode arch=whatever,code=whateverварианты компиля…
0 ответов

Установка ограничения в сценарии задания slurm для вычислительных возможностей графического процессора

Я пытаюсь установить ограничение, чтобы моя работа выполнялась только на графических процессорах с вычислительной мощностью выше (или равной) 7. Вот мой сценарий с именем torch_gpu_sanity_venv385-11.slurm: #!/bin/bash #SBATCH --partition=gpu-L --gre…
15 сен '21 в 00:54
1 ответ

Как перейти с CUDA 11.4 на 10.2 и добавить sm_35 - ошибка CUDA: на устройстве нет образа ядра, доступного для выполнения

Я пытаюсь запустить код на Pytorch, но получаю сообщение об ошибке: RuntimeError: CUDA error: no kernel image is available for execution on the device Я сузил проблему до несоответствия версий CUDA. Моя машина имеет 2 графических процессора: GeForce…
28 сен '21 в 18:29
1 ответ

Эквивалент __reduce_max_sync() до 8.x в CUDA

cuda-memcheck обнаружил состояние гонки в коде, который выполняет следующие действия: condition = /*different in each thread*/; shared int owner[nWarps]; /* ... owner[i] is initialized to blockDim.x+1 */ if(condition) { owner[threadIdx.x/32] = thre…
2 ответа

CUDA atomicAdd_block не определен

Согласно Руководству по программированию CUDA , «атомарные функции являются атомарными только по отношению к другим операциям, выполняемым потоками определенного набора ... атомарность всего блока: атомарность для всех потоков CUDA в текущей програм…
03 ноя '21 в 01:25
1 ответ

Понимание использования планировщика Warp в CUDA: максимальное количество одновременных деформаций против резидентных деформаций

В вычислительных возможностях CUDA 8.6 каждый потоковый мультипроцессор (SM) имеет четыре планировщика деформации. Каждый планировщик варпов может одновременно планировать до 16 варпов, а это означает, что теоретически одновременно может выполняться…
07 июл '23 в 16:26
1 ответ

Идиома CMake относительно минимальной проверки микроархитектуры

Предположим, у меня есть проект CUDA, и я пишу его . В моем проекте есть несколько.cuисходные файлы с ядрами, каждое из которых имеет минимальную поддерживаемую версию микроархитектуры NVIDIA. В моемCMakeLists.txt, я бы хотел иметь возможность... Об…
18 июл '23 в 11:55
1 ответ

CUDA -arch для старых графических процессоров, компилируя только хост-код, вызывающий API CUDA или сторонние библиотеки.

Предположим, что установленная версия CUDA поддерживает мой старый графический процессор только при передаче -arch=sm_35. В противном случае ядра не выполняются. Предположим, что теперь я вызываю только API-интерфейсы среды выполнения CUDA (cudaMall…
20 окт '23 в 22:18
0 ответов

Предупреждение Tensorflow: TensorFlow не был создан с использованием двоичных файлов ядра CUDA, совместимых с вычислительными возможностями 8.6.

У меня старый процессор Intel Core i7 950 без поддержки AVX , новый графический процессор NVIDIA RTX 3060 Ti с вычислительными возможностями 8.6 и ОС Windows 10. Несмотря на то, что дистрибутив Tensorflow по умолчанию требует поддержки AVX, после МН…
23 сен '23 в 17:03