Описание тега cublas

Библиотека NVIDIA CUDA Basic Linear Algebra Subroutines (cuBLAS) - это версия полной стандартной библиотеки BLAS с ускорением на GPU для использования с графическими процессорами с поддержкой CUDA.
0 ответов

deviceId для использования функции cublasXtDeviceSelect

Мне нужно использовать функцию cublasXtDeviceSelect (дескриптор cublasXtHandle_t, int nbDevices, int deviceId[]) из кубласной библиотеки. У меня есть два графических процессора, но я хочу работать с одним из них. Мне интересно, как я могу получить и…
04 ноя '16 в 03:34
2 ответа

Добавьте скаляр к вектору в BLAS (cuBLAS/CUDA)

Я не знаю, пропускаю ли я что-то очевидное, но, несмотря на то, что я гуглюсь вокруг, я не вижу способа просто добавить скаляр к вектору (или матрице), используя операции BLAS. Я пытаюсь сделать это в cuBLAS/CUDA, поэтому я воспользуюсь любым способ…
27 дек '12 в 07:31
1 ответ

Противоречие cublasDgetrfBatched и cublasDtrsmBatched, когда нужно решать массив линейных систем с использованием cuBLAS

У меня много плотных линейных систем, которые я хочу решить в пакетном формате cuBLAS. Так что мой план использовать cublasDgetrfBatched для пакетной декомпозиции LU Затем используйте cublasDtrsmBatched для пакетной нижней треугольной и пакетной вер…
24 окт '17 в 19:13
1 ответ

Как преобразовать плотный вектор в разреженный вектор в CUDA?

У меня большой плотный вектор (не матрица) в памяти GPU: [1,3,0,0,4,0,0] и хочу преобразовать его в разреженный формат: значения = [1,3,4]; индекс = [0,1,4] Я знаю, что могу позвонить cusparse<t>dense2csc() в cuSPARSE, но он предназначен для м…
09 мар '17 в 05:04
0 ответов

Ускорение нейронной сети GPU

Я пытаюсь реализовать нейронную сеть для работы на GPU с использованием библиотек Thrust и CUBLAS, но у меня много проблем с тем, чтобы она работала быстрее, чем наша текущая многопоточная и векторизованная реализация ЦП. В сети есть один скрытый сл…
21 фев '14 в 19:14
1 ответ

cublasSgemm неверный __global__ читать

При попытке выполнить тензорно-матричное произведение с использованием cublasSgemm рутина, адрес за пределами ошибки происходит, пример которого приведен ниже: ========= Invalid __global__ read of size 4 ========= at 0x000019f8 in sgemm_sm35_ldg_nn_…
21 окт '15 в 16:30
1 ответ

cublassgemm для основной строки матрицы

Я действительно пытался реализовать функцию в C для умножения на матрицу старших строк в cublas. Я не знаю, где я ошибаюсь. В функции ниже A, B и C - указатели на матрицу строк, правильно распределенную. Я хотел бы оставить возможность перевести мат…
21 сен '15 в 16:25
1 ответ

Рассчитать матричные детерминанты с помощью API устройства cublas

Я пытаюсь оценить скалярную функцию f(x), где x является k-мерным вектором (т.е. f:R^k->R). Во время оценки мне нужно выполнить много матричных операций: инверсию, умножение и поиск матричных определителей и трасс для матриц среднего размера (больши…
29 ноя '16 в 11:26
1 ответ

MATLAB дает другой результат, чем CUBLAS + Kernel

У меня есть следующий код MATLAB: [N, d] = size(X); % data size and dimensions R = rand(d,dt); % Form a random matrix with elements in [0,1] % Random projection Y = X * R; w=720; % hashing step b = w * rand(dt,1); % Compute the hash codes of the dat…
23 фев '15 в 12:58
1 ответ

CudaMemcpy и cublas блокируются в одноранговом режиме?

Я хотел бы скопировать память между двумя устройствами CUDA (с поддержкой UVA), вызвав cudaMemcpy, Мне было интересно, если вызов является синхронным по отношению к хосту? Я знаю что cudaMemcpy внутри одного устройства происходит асинхронность, но к…
14 мар '14 в 15:37
1 ответ

Стандартный интерфейс Fortran для cuBLAS

Я использую коммерческое программное обеспечение для моделирования в Linux, которое выполняет интенсивные манипуляции с матрицами. Программное обеспечение по умолчанию использует Intel MKL, но позволяет мне заменить его собственной библиотекой BLAS/…
16 сен '13 в 02:42
1 ответ

Неквадратные матрицы C-порядка в cuBLAS (нумба)

Я пытаюсь использовать функции cuBLAS в пакете Anaconda Numba, и у меня возникла проблема. Мне нужно, чтобы входные матрицы были в C-порядке. Вывод может быть в порядке Fortran. Я могу запустить пример сценария, поставляемого с пакетом, здесь. Скрип…
25 июл '17 в 15:29
1 ответ

cuSolver не возвращает правильное решение

Я пытаюсь использовать решатель линейной системы QR в cuSOLVER, это #include <cusparse_v2.h> #include <stdio.h> #include <cuda.h> #include <cuda_runtime.h> #include "device_launch_parameters.h" #include <iostream> #incl…
21 мар '18 в 15:00
1 ответ

Обратная матрица cuBLAS намного медленнее, чем MATLAB

В моем текущем проекте я пытаюсь вычислить инверсию большой (n > 2000) матрицы с помощью cuBLAS. Выполняется обратный расчет, но по какой-то причине время расчета значительно медленнее, чем при выполнении в MATLAB. Я приложил пример расчета, выполне…
09 июн '16 в 16:05
1 ответ

Уточнение ведущего измерения в CUBLAS при транспонировании

Для матрицы A документация только утверждает, что соответствующий параметр ведущего измерения lda относится к: ведущий размер двумерного массива, используемый для хранения матрицы A Таким образом, я предполагаю, что это просто количество строк A зад…
04 май '13 в 17:05
2 ответа

Theano: cublasSgemm не удалось (14) внутренняя операция не удалась

Иногда, через некоторое время работы нормально, я получаю такую ​​ошибку с Theano / CUDA: RuntimeError: cublasSgemm failed (14) an internal operation failed unit=0 N=0, c.dims=[512 2048], a.dim=[512 493], alpha=%f, beta=%f, a=%p, b=%p, c=%p sa_0=%d,…
28 янв '15 в 08:41
2 ответа

Как пользоваться библиотекой cublas

Я новичок в Cuda. Я хочу использовать функционал cublas в программах cuda и хотел бы узнать, как его использовать. Поскольку моя программа выдает ошибку, то есть *"файл cublas_v2.h отсутствует"*, когда я пытаюсь запустить его на GPU.
15 мар '13 в 22:45
0 ответов

Keras с бэкэндом Tensorflow: не удалось уничтожить дескриптор cudnn: CUDNN_STATUS_BAD_PARAM

Получил эту ошибку вида ошибки в обычном приложении keras resnet50. Эти ошибки бесполезны. Можно как нибудь отладить? /usr/local/lib/python2.7/dist-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `fl…
09 фев '18 в 12:20
1 ответ

Компиляция моей программы CUDA с библиотеками, предоставленными в наборе инструментов

Я написал простую программу CUDA C++, имитирующую диффузию на 2D матрице. У меня возникли проблемы, когда я попытался использовать некоторые из библиотек, представленных в Toolkit. Я хотел бы заменить свое крайне неэффективное матричное транспониров…
19 мар '17 в 09:54
1 ответ

Как передать общий указатель на функцию cublas?

Я пытаюсь запустить функцию cublas из ядра следующим образом: __device__ void doLinear(const float *W,const float *input, unsigned i, float *out, unsigned o) { unsigned idx = blockIdx.x*blockDim.x+threadIdx.x; const float alpha = 1.0f; const float b…
22 июл '15 в 18:15