CUDA (Compute Unified Device Architecture) - это платформа параллельных вычислений и модель программирования для графических процессоров NVIDIA (графических процессоров). CUDA предоставляет интерфейс для графических процессоров NVIDIA с помощью различных языков программирования, библиотек и API.
2 ответа

Настройка NVIDIA VisionWorks в сообществе Visual Studio 2013

Кажется, у меня возникают трудности с настройкой VisionWorks, чтобы я мог использовать его с VS2013. Вот что я сделал до сих пор: Добавлено C:\Program Files\NVIDIA VisionWorks\include в C/C++ > Общие> Дополнительные каталоги включения Добавлено C:\P…
08 апр '16 в 11:05
1 ответ

Разрешить статический большой массив в Cuda

Gpu, на котором я работаю, - это Tesla C2075 с 6 ГБ видеопамяти. И ОС Ubuntu 64 битная с набором инструментов CUDA 5.5. Что мне нужно сделать, чтобы глобальный __device__ статические массивы больше 2gb? Я не смог найти много похожих тем в Google или…
05 ноя '14 в 15:16
1 ответ

Многочисленные ошибки определения функций cuSparse при связывании файлов CUDA в исполняемом файле

Мой проект состоит из пяти файлов CUDA: main.cu jacobian_kernel.cu hermite_kernel.cu cuSolver_LU.cpp Utilities.cu, последний из которых адаптирован из этого репозитория GitHub, вместе с его Utilities.h заголовочный файл; три заголовка args.h linear_…
28 ноя '16 в 23:15
1 ответ

Могу ли я использовать в CUDA atomic-операции на удаленном GPU-RAM через GPUDirect 2.0 P2P?

Например, я могу использовать атомарные операции CUDA atomicAdd(ptr, val), atomicCAS(ptr, old, new),... на его глобальной памяти (GPU-RAM). С CUDA 6.5. Но могу ли я использовать эти атомарные операции для удаленной глобальной памяти через GPUDirect …
18 янв '15 в 18:47
0 ответов

Почему я получаю сообщение "pycuda._driver.LogicError: ошибка cuInit: неправильный порядковый номер устройства"?

У меня есть два графических процессора, CUDA и TensorFlow работают правильно, nvidia-smi Результаты +-----------------------------------------------------------------------------+ | NVIDIA-SMI 396.24.02 Driver Version: 396.24.02 | |-----------------…
10 июл '18 в 12:15
1 ответ

Заголовочные файлы CUDA 5.0

Я борюсь с чьим-то ужасно написанным проектом и пытаюсь скомпилировать его как можно скорее... (лучший подход - это сделать это правильно, но время - проблема)... в любом случае, они, кажется, написали это со старшим API, где #include <cuda.h>…
16 май '13 в 16:25
2 ответа

Cuda эквивалентно alloca

Мне интересно, есть ли CUDA-эквивалент функции alloca. Мне нужно создать массивы с плавающей точкой, которые будут служить аргументами для математической функции, которую я пытаюсь оптимизировать. Проблема в том, что я не хочу знать количество аргум…
29 фев '16 в 12:42
2 ответа

Стратегии для выбора времени ядра CUDA: плюсы и минусы?

При синхронизации ядер CUDA следующее не работает, потому что ядро ​​не блокирует выполнение программы CPU во время выполнения: start timer kernel<<<g,b>>>(); end timer Я видел три основных способа (успешно) синхронизировать ядра C…
03 дек '12 в 01:51
0 ответов

Cuda на машине без графического процессора

Я пытаюсь научиться программированию cuda, и у меня не система GPU (нет GPU). поэтому, когда выяснилось, что cuda до 3.0 поддерживает эмуляцию устройства, я установил набор инструментов cuda 3.0, а также установил Visual Studio 2008, так как многие …
12 июл '15 в 14:12
1 ответ

Различная занятость между калькулятором и nvprof

Я использую nvprof для измерения достигнутой занятости, и я нахожу это как Достигнутая вместимость 0,344031 0,344031 0,344031 но используя калькулятор занятости, я нахожу 75%. Результаты: Active Threads per Multiprocessor 1536 Active Warps per Multi…
05 май '14 в 09:32
1 ответ

Передача памяти ЦП в GPU - cudaMemcpy() против динамического ресурса Direct3D с Map()

У меня есть конвейер потокового видео, который выполняет кодирование кадров RGB32 в H.264. Я ориентируюсь на аппаратное обеспечение NVIDIA, поэтому я планировал использовать CUDA для преобразования цветового пространства из RGB32 в NV12. Я посмотрел…
21 дек '14 в 14:02
1 ответ

Использование thrust::max_element в проекте CUDA C

В проекте CUDA C я хотел бы попробовать использовать библиотеку Thrust, чтобы найти максимальный элемент в массиве с плавающей точкой. Кажется, мне нужна функция Thrust thrust::max_element(). Массив, в котором я хочу использовать эту функцию, являет…
03 дек '15 в 12:49
1 ответ

CUDA: могут ли устройство и код работать параллельно до истечения срока жизни, пинг-понг данных?

Я программирую матричное векторное умножение с помощью Cuda. Матрица находится в блоках, поэтому каждый поток может хранить один блок матрицы в общей памяти (как локальные переменные потока). Я также отправляю вектор в качестве аргумента, умножение …
17 дек '11 в 01:22
1 ответ

Как определить поток устройства назначения в cudaMemcpyPeerAsync()?

Я делаю асинхронный memcpy от gpu0 до gpu1 с помощью cudaMemcpyPeerAsync (). cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже? Я использую поток…
22 сен '13 в 05:54
1 ответ

Функция CUDA для увеличения значений массива

Когда я использую этот код в cuda, он только увеличивает a[0],a[1],a[2] other было 0 (не увеличилось) __global__ void inc2(int * a){ int i= threadIdx.x; i%=10; atomicAdd(&(a[i]),1); } когда я пишу __global__ void inc2(int * a){ int i= threadIdx.…
25 авг '14 в 21:43
1 ответ

Необъяснимый крах CUDA

У меня на компьютере выделенный графический процессор (не используется для отображения). Это свойства: Device 0: "Tesla C2050" CUDA Driver Version / Runtime Version 6.0 / 6.0 CUDA Capability Major/Minor version number: 2.0 Total amount of global mem…
23 май '14 в 15:45
1 ответ

Переход от многопоточной программы к ЦПУ на C++

Я создал программу, которая должна вызывать функцию несколько раз (много!!) с разными входными параметрами. Чтобы ускорить процесс, я использовал многопоточность так: std::vector< MTDPDS* > mtdpds_list; boost::thread_group thread_gp; for (size…
21 июл '17 в 16:46
1 ответ

Почему пересекающиеся передачи данных в CUDA медленнее, чем ожидалось?

Когда я запускаю simpleMultiCopy в SDK (4.0) на Tesla C2050, я получаю следующие результаты: [simpleMultiCopy] starting... [Tesla C2050] has 14 MP(s) x 32 (Cores/MP) = 448 (Cores) > Device name: Tesla C2050 > CUDA Capability 2.0 hardware with …
09 фев '12 в 12:59
0 ответов

Есть ли шаблонные математические функции в cuda?

Я искал шаблонную математическую функцию в cuda, и я не могу найти ее. В обычном C++, если я вызываю std::sqrt, он шаблонизируется и будет исполнять другую версию в зависимости от того, является ли аргумент float или double. Я хочу что-то вроде этог…
24 мар '16 в 00:07
2 ответа

Ошибка компиляции CUDA после установки

Я хотел начать программирование CUDA с C++ и установил инструментарий v9.0 с официального сайта Nvidia. Я запустил deviceQuery.cpp на VS 2017, и все работало отлично: CUDA Device Query (Runtime API) version (CUDART static linking) Detected 1 CUDA Ca…
12 дек '17 в 19:42