Описание тега cuda

Описание тега Вопросы с тегом

CUDA (Compute Unified Device Architecture) - это платформа параллельных вычислений и модель программирования для графических процессоров NVIDIA (графических процессоров). CUDA предоставляет интерфейс для графических процессоров NVIDIA с помощью различных языков программирования, библиотек и API.

2 ответа

Настройка NVIDIA VisionWorks в сообществе Visual Studio 2013

Кажется, у меня возникают трудности с настройкой VisionWorks, чтобы я мог использовать его с VS2013. Вот что я сделал до сих пор: Добавлено C:\Program Files\NVIDIA VisionWorks\include в C/C++ > Общие> Дополнительные каталоги включения Добавлено C:\P…

08 апр '16 в 11:05

1 ответ

Разрешить статический большой массив в Cuda

Gpu, на котором я работаю, - это Tesla C2075 с 6 ГБ видеопамяти. И ОС Ubuntu 64 битная с набором инструментов CUDA 5.5. Что мне нужно сделать, чтобы глобальный __device__ статические массивы больше 2gb? Я не смог найти много похожих тем в Google или…

cuda

05 ноя '14 в 15:16

1 ответ

Многочисленные ошибки определения функций cuSparse при связывании файлов CUDA в исполняемом файле

Мой проект состоит из пяти файлов CUDA: main.cu jacobian_kernel.cu hermite_kernel.cu cuSolver_LU.cpp Utilities.cu, последний из которых адаптирован из этого репозитория GitHub, вместе с его Utilities.h заголовочный файл; три заголовка args.h linear_…

c++ cuda linker nvcc cusolver

28 ноя '16 в 23:15

1 ответ

Могу ли я использовать в CUDA atomic-операции на удаленном GPU-RAM через GPUDirect 2.0 P2P?

Например, я могу использовать атомарные операции CUDA atomicAdd(ptr, val), atomicCAS(ptr, old, new),... на его глобальной памяти (GPU-RAM). С CUDA 6.5. Но могу ли я использовать эти атомарные операции для удаленной глобальной памяти через GPUDirect …

cuda nvidia gpgpu multi-gpu gpudirect

18 янв '15 в 18:47

0 ответов

Почему я получаю сообщение "pycuda._driver.LogicError: ошибка cuInit: неправильный порядковый номер устройства"?

У меня есть два графических процессора, CUDA и TensorFlow работают правильно, nvidia-smi Результаты +-----------------------------------------------------------------------------+ | NVIDIA-SMI 396.24.02 Driver Version: 396.24.02 | |-----------------…

python-3.x cuda pycuda

10 июл '18 в 12:15

1 ответ

Заголовочные файлы CUDA 5.0

Я борюсь с чьим-то ужасно написанным проектом и пытаюсь скомпилировать его как можно скорее... (лучший подход - это сделать это правильно, но время - проблема)... в любом случае, они, кажется, написали это со старшим API, где #include <cuda.h>…

c++ cuda

16 май '13 в 16:25

2 ответа

Cuda эквивалентно alloca

Мне интересно, есть ли CUDA-эквивалент функции alloca. Мне нужно создать массивы с плавающей точкой, которые будут служить аргументами для математической функции, которую я пытаюсь оптимизировать. Проблема в том, что я не хочу знать количество аргум…

cuda

29 фев '16 в 12:42

2 ответа

Стратегии для выбора времени ядра CUDA: плюсы и минусы?

При синхронизации ядер CUDA следующее не работает, потому что ядро не блокирует выполнение программы CPU во время выполнения: start timer kernel<<<g,b>>>(); end timer Я видел три основных способа (успешно) синхронизировать ядра C…

cuda nvidia gpgpu code-timing

03 дек '12 в 01:51

0 ответов

Cuda на машине без графического процессора

Я пытаюсь научиться программированию cuda, и у меня не система GPU (нет GPU). поэтому, когда выяснилось, что cuda до 3.0 поддерживает эмуляцию устройства, я установил набор инструментов cuda 3.0, а также установил Visual Studio 2008, так как многие …

c++ cuda

12 июл '15 в 14:12

1 ответ

Различная занятость между калькулятором и nvprof

Я использую nvprof для измерения достигнутой занятости, и я нахожу это как Достигнутая вместимость 0,344031 0,344031 0,344031 но используя калькулятор занятости, я нахожу 75%. Результаты: Active Threads per Multiprocessor 1536 Active Warps per Multi…

cuda profiling

05 май '14 в 09:32

1 ответ

Передача памяти ЦП в GPU - cudaMemcpy() против динамического ресурса Direct3D с Map()

У меня есть конвейер потокового видео, который выполняет кодирование кадров RGB32 в H.264. Я ориентируюсь на аппаратное обеспечение NVIDIA, поэтому я планировал использовать CUDA для преобразования цветового пространства из RGB32 в NV12. Я посмотрел…

cuda nvidia direct3d11

21 дек '14 в 14:02

1 ответ

Использование thrust::max_element в проекте CUDA C

В проекте CUDA C я хотел бы попробовать использовать библиотеку Thrust, чтобы найти максимальный элемент в массиве с плавающей точкой. Кажется, мне нужна функция Thrust thrust::max_element(). Массив, в котором я хочу использовать эту функцию, являет…

cuda max thrust

03 дек '15 в 12:49

1 ответ

CUDA: могут ли устройство и код работать параллельно до истечения срока жизни, пинг-понг данных?

Я программирую матричное векторное умножение с помощью Cuda. Матрица находится в блоках, поэтому каждый поток может хранить один блок матрицы в общей памяти (как локальные переменные потока). Я также отправляю вектор в качестве аргумента, умножение …

cuda ipc

17 дек '11 в 01:22

1 ответ

Как определить поток устройства назначения в cudaMemcpyPeerAsync()?

Я делаю асинхронный memcpy от gpu0 до gpu1 с помощью cudaMemcpyPeerAsync (). cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже? Я использую поток…

cuda gpu

22 сен '13 в 05:54

1 ответ

Функция CUDA для увеличения значений массива

Когда я использую этот код в cuda, он только увеличивает a[0],a[1],a[2] other было 0 (не увеличилось) __global__ void inc2(int * a){ int i= threadIdx.x; i%=10; atomicAdd(&(a[i]),1); } когда я пишу __global__ void inc2(int * a){ int i= threadIdx.…

cuda

25 авг '14 в 21:43

1 ответ

Необъяснимый крах CUDA

У меня на компьютере выделенный графический процессор (не используется для отображения). Это свойства: Device 0: "Tesla C2050" CUDA Driver Version / Runtime Version 6.0 / 6.0 CUDA Capability Major/Minor version number: 2.0 Total amount of global mem…

cuda

23 май '14 в 15:45

1 ответ

Переход от многопоточной программы к ЦПУ на C++

Я создал программу, которая должна вызывать функцию несколько раз (много!!) с разными входными параметрами. Чтобы ускорить процесс, я использовал многопоточность так: std::vector< MTDPDS* > mtdpds_list; boost::thread_group thread_gp; for (size…

c++ multithreading cuda gpu gpu-programming

21 июл '17 в 16:46

1 ответ

Почему пересекающиеся передачи данных в CUDA медленнее, чем ожидалось?

Когда я запускаю simpleMultiCopy в SDK (4.0) на Tesla C2050, я получаю следующие результаты: [simpleMultiCopy] starting... [Tesla C2050] has 14 MP(s) x 32 (Cores/MP) = 448 (Cores) > Device name: Tesla C2050 > CUDA Capability 2.0 hardware with …

cuda

09 фев '12 в 12:59

0 ответов

Есть ли шаблонные математические функции в cuda?

Я искал шаблонную математическую функцию в cuda, и я не могу найти ее. В обычном C++, если я вызываю std::sqrt, он шаблонизируется и будет исполнять другую версию в зависимости от того, является ли аргумент float или double. Я хочу что-то вроде этог…

c++ cuda

24 мар '16 в 00:07

2 ответа

Ошибка компиляции CUDA после установки

Я хотел начать программирование CUDA с C++ и установил инструментарий v9.0 с официального сайта Nvidia. Я запустил deviceQuery.cpp на VS 2017, и все работало отлично: CUDA Device Query (Runtime API) version (CUDART static linking) Detected 1 CUDA Ca…

c++ cuda

12 дек '17 в 19:42