Описание тега compute-capability
CUDA (с вычислительными возможностями) использует подмножество языка C без рекурсии и указателей на функции, а также некоторые простые расширения.
1
ответ
Свойства устройства CUDA и возможности вычислений при компиляции
Давайте предположим, что у меня есть код, который позволяет пользователю передать threads_per_block вызвать ядро. Затем я хочу проверить, допустим ли ввод (например, <=512 для вычислительных возможностей CC <2.0 и 1024 для CC >=2.0). Теперь мне инте…
18 май '11 в 14:22
2
ответа
Почему nvlink предупреждает меня об отсутствии объектного кода sm_20 (вычислительная возможность 2.0)?
Я работаю с CUDA 6.5 на машине с картой GTX Titan (вычислительная способность 3.5). Я строю свой код только с -gencode=arch=compute_30,code=sm_30 -gencode=arch=compute_35,code=sm_35 - и когда я связываю свой бинарный файл, nvlink говорит: nvlink war…
12 фев '16 в 13:00
2
ответа
Скомпилируйте код CUDA с помощью cmake и возможностью вычислений 3.5
Мне нужно скомпилировать код CUDA, который использует динамический параллелизм с помощью cmake. Код является: #include <stdio.h> __global__ void childKernel() { printf("Hello "); } __global__ void parentKernel() { childKernel<<<1,1>…
20 ноя '17 в 16:02
3
ответа
Какую утилиту / двоичный файл можно вызвать для определения вычислительных возможностей графического процессора nVIDIA?
Предположим, у меня установлена система с одним графическим процессором, и, возможно, я также установил последнюю версию CUDA. Я хочу определить, каковы вычислительные возможности моего графического процессора. Если бы я мог скомпилировать код, эт…
19 ноя '16 в 16:50
3
ответа
Невозможно использовать графический процессор с Tensorflow
У меня установлен tenorflow с CUDA 7.5 и cuDNN 5.0. Моя видеокарта - NVIDIA Geforce 820M с возможностью 2.1. Однако я получаю эту ошибку. Ignoring visible gpu device (device: 0, name: GeForce 820M, pci bus id: 0000:08:00.0) with Cuda compute capabil…
25 окт '16 в 08:21
1
ответ
CUDA Compute Capability Обратная совместимость
В настоящее время я работаю с кодом CUDA, скомпилированным для вычислительных возможностей 5.2. Моя машина имеет вычислительную способность 5,2 ГП (GeForce GTX 970). Тем не менее, мой вопрос: будет ли код, скомпилированный для вычислительных возможн…
24 авг '16 в 06:51
2
ответа
Максимальное количество параллельных ядер и архитектура виртуального кода
Итак, я нашел этот ресурс в Википедии Максимальное количество резидентных сеток на устройство (параллельное выполнение ядра) и для каждой вычислительной возможности он говорит о количестве одновременных ядер, которое, как я предполагаю, является мак…
11 дек '16 в 22:03
0
ответов
Обработка двойных значений в CUDA ( Compute Capability 1.1)
Мой код рассчитывает 3D-DCT, для большого набора данных. Он работает на GeForce 9400M, вычислительная способность 1.1 (насколько я знаю, не поддерживает двойную точность). Есть ли способ его включить или правильно обработать значения?
27 мар '13 в 18:17
1
ответ
Информация об устройстве OpenCL и вычислительные возможности CUDA
CUDA от nVIDIA имеет концепцию вычислительных возможностей, согласно которой объединяет множество важных флагов функций и числовых параметров. Что касается OpenCL, я знаю о clGetDeviceInfo, но разница между тем, что охватывают определения CUDA CC, и…
28 янв '16 в 16:49
1
ответ
Возможность CUDA и версия CUDA: совместимо?
У меня есть одна машина с графическим процессором CUDA с возможностью вычислений 1.1. Я хочу переустановить CUDA, и я думаю, что я пойду с 5.0; Есть ли такая вещь, как совместимость между возможностями CUDA и версией CUDA? Будут ли у меня проблемы с…
30 янв '13 в 09:24
1
ответ
Поведение кеша в Compute Capability 7.5
Это мои предположения: Есть два типа загрузок: кэшированные и некэшированные. В первом трафик идет через L1 и L2, а во втором - только через L2. Поведение по умолчанию в Compute Capability 6.x и 7.x - это кэшированный доступ. Строка кэша L1 составля…
20 авг '20 в 06:34
4
ответа
Как я могу заставить CMake автоматически определять значение CUDA_ARCHITECTURES?
Более новые версии CMake (3.18 и новее) "осведомлены" о выборе архитектур CUDA, на которые нацелена компиляция кода CUDA. Цели имеют свойство, которое, если установлено, генерирует соответствующий -gencode arch=whatever,code=whateverварианты компиля…
02 июл '21 в 13:13
0
ответов
Установка ограничения в сценарии задания slurm для вычислительных возможностей графического процессора
Я пытаюсь установить ограничение, чтобы моя работа выполнялась только на графических процессорах с вычислительной мощностью выше (или равной) 7. Вот мой сценарий с именем torch_gpu_sanity_venv385-11.slurm: #!/bin/bash #SBATCH --partition=gpu-L --gre…
15 сен '21 в 00:54
1
ответ
Как перейти с CUDA 11.4 на 10.2 и добавить sm_35 - ошибка CUDA: на устройстве нет образа ядра, доступного для выполнения
Я пытаюсь запустить код на Pytorch, но получаю сообщение об ошибке: RuntimeError: CUDA error: no kernel image is available for execution on the device Я сузил проблему до несоответствия версий CUDA. Моя машина имеет 2 графических процессора: GeForce…
28 сен '21 в 18:29
1
ответ
Эквивалент __reduce_max_sync() до 8.x в CUDA
cuda-memcheck обнаружил состояние гонки в коде, который выполняет следующие действия: condition = /*different in each thread*/; shared int owner[nWarps]; /* ... owner[i] is initialized to blockDim.x+1 */ if(condition) { owner[threadIdx.x/32] = thre…
16 окт '21 в 17:23
2
ответа
CUDA atomicAdd_block не определен
Согласно Руководству по программированию CUDA , «атомарные функции являются атомарными только по отношению к другим операциям, выполняемым потоками определенного набора ... атомарность всего блока: атомарность для всех потоков CUDA в текущей програм…
03 ноя '21 в 01:25
1
ответ
Понимание использования планировщика Warp в CUDA: максимальное количество одновременных деформаций против резидентных деформаций
В вычислительных возможностях CUDA 8.6 каждый потоковый мультипроцессор (SM) имеет четыре планировщика деформации. Каждый планировщик варпов может одновременно планировать до 16 варпов, а это означает, что теоретически одновременно может выполняться…
07 июл '23 в 16:26
1
ответ
Идиома CMake относительно минимальной проверки микроархитектуры
Предположим, у меня есть проект CUDA, и я пишу его . В моем проекте есть несколько.cuисходные файлы с ядрами, каждое из которых имеет минимальную поддерживаемую версию микроархитектуры NVIDIA. В моемCMakeLists.txt, я бы хотел иметь возможность... Об…
18 июл '23 в 11:55
1
ответ
CUDA -arch для старых графических процессоров, компилируя только хост-код, вызывающий API CUDA или сторонние библиотеки.
Предположим, что установленная версия CUDA поддерживает мой старый графический процессор только при передаче -arch=sm_35. В противном случае ядра не выполняются. Предположим, что теперь я вызываю только API-интерфейсы среды выполнения CUDA (cudaMall…
20 окт '23 в 22:18
0
ответов
Предупреждение Tensorflow: TensorFlow не был создан с использованием двоичных файлов ядра CUDA, совместимых с вычислительными возможностями 8.6.
У меня старый процессор Intel Core i7 950 без поддержки AVX , новый графический процессор NVIDIA RTX 3060 Ti с вычислительными возможностями 8.6 и ОС Windows 10. Несмотря на то, что дистрибутив Tensorflow по умолчанию требует поддержки AVX, после МН…
23 сен '23 в 17:03