Описание тега unified-memory

1 ответ

Cuda объединенная память против cudaMalloc

Я пытаюсь провести некоторый сравнительный анализ, чтобы убедиться, что использование подхода CUDA Unified Memory(UM) не повлияет на производительность. Я выполняю БПФ. Один способ использования UM, другой способ использования cudaMalloc После этого…
01 фев '18 в 17:51
1 ответ

Нужно ли предоставлять контекст Gpu при создании единой памяти?

Вопрос 1) Когда я вызываю API драйвера CUDA, обычно мне нужно сначала передать контекст (который представляет время выполнения графического процессора) в текущий поток. Для нормальных cuMalloc, память будет выделена на том GPU, указанном контекстом.…
25 май '17 в 13:26
1 ответ

Переподписка памяти GPU с отображенной памятью, унифицированной виртуальной адресацией и унифицированной памятью

Я рассматриваю возможности обработки данных на GPU, который слишком велик для памяти GPU, и у меня есть несколько вопросов. Если я правильно понимаю, что с отображенной памятью данные находятся в основной памяти и передаются в GPU только при обращен…
20 сен '17 в 22:23
1 ответ

Поведение и производительность унифицированной памяти по сравнению с закрепленной памятью хоста

Я студент, который в настоящее время работает над проектом, который состоит из написания определенной программы в CUDA. Я считаю, что предмет этой программы не имеет отношения к вопросу; но я должен отметить, что мой профессор предложил мне использо…
15 апр '17 в 09:35
1 ответ

Можем ли мы скопировать "нормальную" память GPU в "унифицированную" память?

У нас есть две памяти GPU, одна выделена cuMalloc как обычная память устройства, другой выделяется с cuMallocManaged как единая память. Можно ли копировать между ними? и если мы используем драйвер API, какое направление я должен использовать? float*…
09 июн '17 в 14:47
1 ответ

Может ли объединенная память CUDA быть записана другим потоком процессора?

Я пишу программу, которая получает изображения с камеры и обрабатывает их с помощью CUDA. Чтобы добиться максимальной производительности, я передаю объединенный буфер памяти CUDA в библиотеку сбора изображений, которая записывает данные в буфер в др…
08 фев '19 в 14:38
1 ответ

Единая память и структура с массивами

У меня есть большой массив структур структур на CUDA, который является постоянным и доступен только для моего приложения. Очень упрощенный пример будет struct Graph{ Node * nodes; int nNode; } struct Node{ int* pos; int nPos; } Моим ядрам нужно буде…
16 июл '18 в 15:27
1 ответ

Мониторинг памяти выполнения Spark

Я хочу иметь возможность отслеживать память выполнения Spark, а не память, доступную в SparkUI. Я имею в виду, память выполнения НЕ память исполнителя. Под памятью выполнения я имею в виду: Этот регион используется для буферизации промежуточных данн…
1 ответ

Проблемы cudaMallocManaged() на Nvidia p100

Я пытаюсь скомпилировать и запустить следующий код на Nvidia P100. Я использую CentOS 6.9, версию драйвера 396.37 и CUDA-9.2. Похоже, что эти версии драйвера /cuda совместимы. #include <stdio.h> #include <cuda_runtime_api.h> int main(int…
01 окт '18 в 15:02
0 ответов

Сколько памяти вы можете передать и из функции ядра в cuda c?

Я делаю программу, которая читает из входных данных два числа, N и K, затем читает N целых чисел и сохраняет их в массив. Цель программы состоит в том, чтобы вычислить максимальное среднее значение всех сегментов длиной не менее K. Затем она выводит…
25 окт '18 в 10:30
0 ответов

Всегда ли управляемая память CUDA копируется обратно на хост перед выполнением ядра?

Я работаю в групповом проекте, который выполняет параллельную обработку данных треугольника. Программа взаимодействует с внешним API, который может добавлять новые полигоны, удалять их или обновлять матрицы преобразования (аналогично тому, как работ…
29 янв '18 в 23:51
2 ответа

CUDA - единая память (по крайней мере, Паскаль)

Я хотел бы получить некоторые разъяснения об объединенной памяти, как она действительно работает и как эффективно ее использовать. Насколько я знаю, мы используем cudaMallocManaged(ptr, size); выделить массив объединенной памяти. Начиная с архитекту…
04 июн '18 в 11:35
1 ответ

Как я могу уменьшить очень длительную задержку инициализации CUDA?

Инициализация CUDA во вновь созданном процессе может занять довольно много времени - полсекунды или более на многих современных машинах серверного уровня. Как объясняет@RobertCrovella, инициализация CUDA обычно включает создание модели унифицированн…
0 ответов

Замена cudaMemcpy2D на cudaMemPrefetchAsync

Я пытаюсь сделать асинхронную передачу памяти (хост на устройство) данных, находящихся в объединенной памяти, так же, как cudaMemcpy2DAsync() предлагает, т. е. используя значение шага для целевого (устройства) памяти. Однако, насколько я понимаю: Я …
29 май '19 в 13:54
1 ответ

Как применить Unified Memory к существующей выровненной памяти хоста

Я участвую в интеграции CUDA в некоторые существующие программы. Программное обеспечение, в которое я интегрирую, псевдо-в реальном времени, поэтому оно имеет библиотеку диспетчера памяти, которая вручную передает указатели из одного большого выделе…
30 апр '19 в 18:50
1 ответ

Функциональное ключевое слово для унифицированного распределения памяти cuda

Я начинаю с программирования CUDA, и в качестве начала реализации интегратора частиц я создал класс интегратора, который хранит данные о частицах и должен иметь возможность их интегрировать. Данные поступают из другого класса контейнера, и я хочу ра…
24 окт '19 в 12:57
1 ответ

утечка унифицированной памяти cuda

Я писал программу, которая выполняет базовое обнаружение объектов с помощью cuda. Я столкнулся с проблемой, когда я выделяю объединенную память с помощью cudaMallocManaged, выполняю с ней некоторую обработку, а затем освобождаю ее с помощью cudaFree…
21 апр '20 в 17:57
1 ответ

Использование атомарных арифметических операций в многопроцессорном или многопроцессорном CUDA Unified Memory

Я пытаюсь реализовать программу CUDA, использующую унифицированную память. У меня есть два объединенных массива, и иногда их нужно обновлять атомарно. В приведенном ниже вопросе есть ответ для среды с одним графическим процессором, но я не уверен, к…
08 июн '20 в 19:58
1 ответ

Есть ли PyTorch с вилкой CUDA Unified GPU-CPU Memory?

Таким образом, обучение модели DNN может быть сложной задачей, когда пакет одного изображения занимает 15 ГБ. Скорость для меня не так важна, но для больших партий (и моделей) важна. Так что мне интересно, есть ли PyTorch с вилкой CUDA Unified Memor…
08 июл '20 в 19:42
1 ответ

Почему данные переносятся с хоста на устройство, когда ЦП пытается прочитать управляемую память, инициализированную графическим процессором?

В следующем тестовом коде мы инициализируем данные с помощью графического процессора, а затем получаем доступ к данным с помощью процессора. У меня есть 2 вопроса о результатах профилирования от nvprof. Почему одни данные переносятся с хоста на устр…
18 авг '20 в 10:09