CUDA внутренний продукт с матрицей

Я пытаюсь использовать CUDA для ускорения расчета внутреннего продукта:

<x, W.x> = xT.W.x 

где W - квадратная матрица размера N и вектор x размера N.

Фактически, я должен сделать это внутреннее произведение для большого числа векторов, но для той же матрицы W. Кроме того, N велико.

Любое предложение о возможном алгоритме?

0 ответов

Другие вопросы по тегам