CUDA внутренний продукт с матрицей
Я пытаюсь использовать CUDA для ускорения расчета внутреннего продукта:
<x, W.x> = xT.W.x
где W - квадратная матрица размера N и вектор x размера N.
Фактически, я должен сделать это внутреннее произведение для большого числа векторов, но для той же матрицы W. Кроме того, N велико.
Любое предложение о возможном алгоритме?