Описание тега gpu-local-memory

Пространство памяти в программировании GPU, которое зависит от потока с точки зрения доступа, но физически находится в глобальной памяти GPU; это, возможно, лучше назвать "локальной глобальной памятью потока"
1 ответ

Почему простая функция CUDA требует так много локальной памяти?

Я написал простую функцию на CUDA. Это изменить размер изображения в два раза. Для изображения с разрешением 1920*1080 для выполнения этой функции требуется ~20 мс. Я пробовал другой способ оптимизировать эту функцию. И я обнаружил, что, возможно, и…
12 дек '14 в 15:02
1 ответ

Затраты на разлив регистров локальной памяти CUDA

У меня есть ядро, которое использует много регистров и сильно разливает их в локальную память. 4688 bytes stack frame, 4688 bytes spill stores, 11068 bytes spill loads ptxas info : Used 255 registers, 348 bytes cmem[0], 56 bytes cmem[2] Поскольку ут…
26 май '14 в 19:29
1 ответ

Является ли локальная память медленнее, чем разделяемая в CUDA?

Я нашел только замечание, что локальная память медленнее, чем память регистров, типа два на поток. Общая память должна быть быстрой, но быстрее ли она, чем локальная [потока]? То, что я хочу сделать, это своего рода медианный фильтр, но с заданным п…
2 ответа

Локальная память: презентация cuda

Я читал этот презентационный документ: http://on-demand.gputechconf.com/gtc-express/2011/presentations/register_spilling.pdf На 3-й странице презентации автор заявляет: Хранение всегда происходит до загрузки - только потоки GPU могут получить доступ…
13 мар '17 в 17:32
2 ответа

Доступ к локальной памяти объединен?

Предположим, я объявляю локальную переменную в функции ядра CUDA для каждого потока: float f = ...; // some calculations here Предположим также, что объявленная переменная была помещена компилятором в локальную память (которая такая же, как глобальн…
06 сен '11 в 07:09
4 ответа

В ядре CUDA как сохранить массив в "локальной памяти потоков"?

Я пытаюсь разработать небольшую программу с CUDA, но, поскольку она была МЕДЛЕННОЙ, я провел несколько тестов и немного погуглил. Я обнаружил, что хотя отдельные переменные по умолчанию хранятся в локальной памяти потоков, массивы обычно не хранятся…
24 апр '12 в 11:36
1 ответ

CUDA эффективное использование общей / локальной памяти?

Я все еще немного не уверен, когда дело доходит до общей / локальной памяти в CUDA. В настоящее время у меня есть ядро, в ядре каждый поток выделяет объект списка. Что-то вроде этого __global__ void TestDynamicListPerThread() { //Creates a dynamic l…
1 ответ

Объем локальной памяти на поток CUDA

Я прочитал в документации NVIDIA ( http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html, таблица #12), что объем локальной памяти на поток 512 Ko для моего GPU (GTX 580, вычислительная мощность 2.0). Я безуспешно пытался проверить это огр…
02 мар '15 в 12:56
1 ответ

Локальная, глобальная, постоянная и разделяемая память

Я прочитал некоторую документацию CUDA, которая относится к локальной памяти. (В основном это ранняя документация.) Свойства устройства сообщают о размере локальной памяти (для каждого потока). Что означает "локальная" память? Что такое "локальная" …
0 ответов

Поддержка Numba для объявления локальной памяти на устройстве AMD?

У меня есть код, который изначально был написан для работы с CUDA и использует локальную память, объявленную так: numba.cuda.local.array(shape, type) что здорово. Я сейчас портирую этот код в ROCm, и я не вижу здесь эквивалента в документации Numba:…
17 авг '20 в 18:21
1 ответ

Поддерживает ли Vulkan совместное использование памяти и манипулирование локальной подгруппой?

В OpenCL я мог бы использовать __localвсякий раз, когда я хотел манипулировать памятью подгруппы. Аналогично CUDA имеет __shared__ключевое слово. Есть ли у Vulkan что-то подобное? Я ничего не вижу в руководстве по подгруппе https://www.khronos.org/b…
22 авг '21 в 19:00
0 ответов

Нет выгоды от использования локальной памяти на Intel UHD 620

Я новичок в этих вещах GPGPU и теперь экспериментирую с OpenCL для кластеризации k-средних. В образовательных целях я пытаюсь добиться максимальной производительности для расчета таблицы расстояний в квадрате с N точками и только одним центроидом. Я…
06 сен '21 в 11:24
1 ответ

Заставить все потоки в рабочей группе выполнять одну и ту же ветвь if/else

Я хотел бы использовать оптимизацию локальной/разделяемой памяти, чтобы уменьшить доступ к глобальной памяти, поэтому у меня в основном есть эта функция float __attribute__((always_inline)) test_unoptimized(const global float* data, ...) { // ... fo…
1 ответ

Локальная память OpenCL существует на графическом процессоре Mali/Adreno

Действительно ли локальная память OpenCL существует на графических процессорах Mali/Adreno или они существуют только в некоторых специальных мобильных телефонах? Если они существуют, в каком случае мы должны использовать локальную память, такую ​​к…
22 мар '22 в 07:47
1 ответ

Есть ли руководство по регистру и локальной памяти в программировании cuda?

Количество регистров ограничено в GPU, например A100. Каждый поток не может использовать более 255 регистров. Но во время моего теста, даже не выше 255, компилятор использует локальную память вместо регистра. Есть ли более подробное руководство о то…
22 ноя '22 в 08:41