Описание тега nvprof

NoneNvprof - это профилировщик командной строки, который позволяет собирать и просматривать таймеры и события ЦП и ГП в программах CUDA.
1 ответ

Нвпроф с мпич

Я пытаюсь профилировать код MPI/OpenACC Fortran. Я нашел сайт, который подробно описывает, как запустить nvprof с MPI здесь. Примеры приведены для OpenMPI. Тем не менее, я ограничен MPICH и не могу найти эквивалент. Кто-нибудь знает, что это будет?
09 июн '16 в 14:05
1 ответ

CUDA одновременный запуск ядра не работает

Я пишу программу CUDA для обработки изображений. Такое же ядро ​​"processOneChannel" будет запущено для каналов RGB. Ниже я пытаюсь указать потоки для трех запусков ядра, чтобы они могли обрабатываться одновременно. Но nvprof говорит, что они все ещ…
09 апр '16 в 21:53
1 ответ

Что именно измеряет профиль мощности NVPROF?

Я использовал NVPROF для получения профиля мощности графических процессоров NVIDIA с архитектурой Kepler. Мой вопрос: что именно мы видим? Если я правильно понимаю, есть шина 12 В и 3,3 В, питающая графический процессор, и графический процессор може…
15 авг '15 в 03:45
1 ответ

Отметка времени в графическом процессоре

Я ищу, чтобы собрать след событий, которые происходят на уровне устройства на GPU. Фон / аналогия на процессоре: На процессоре, когда процесс A запущен, он может быть прерван другим процессом B уровня пользователя, процессами системы / ядра, различн…
31 мар '18 в 15:55
0 ответов

Nvprof: неправильные результаты

Я пытаюсь измерить gld_throughput а также gst_throughput моего ядра с nvprof, Мой kenrel - это умножение 2 массивов с различными измерениями. Все было замечательно, когда я неожиданно измерил пропускную способность умножения огромных массивов (8192x…
12 ноя '17 в 21:56
1 ответ

Замораживание системы при запуске даже основных программ CUDA

Получив новый игровой ноутбук, я захотел изучить и попробовать немного программирования на CUDA. Итак, я последовал за публикацией в блоге "Еще более легкое введение в CUDA" и написал самую первую программу CUDA, в которую были добавлены 1M числа с …
09 ноя '18 в 05:31
0 ответов

Трассировка nvprof gpu в метрическом режиме не дает подробностей для каждого вызова

Я реализовал SVD с помощью функции PyTorch SVD GPU, и я использую nvprof для профилирования. --print-gpu-trace дает мне отдельные вызовы ядра, отсортированные в хронологическом порядке, которые я использую для определения сетки и размера блока. Это …
20 окт '17 в 17:13
2 ответа

Как наблюдать за событиями и метриками CUDA для подраздела исполняемого файла (например, только во время выполнения ядра)?

Я знаком с использованием nvprof для доступа к событиям и метрикам бенчмарка, например, nvprof --system-profiling on --print-gpu-trace -o (file name) --events inst_issued1 ./benchmarkname system-profiling on --print-gpu-trace -o (filename) Команда д…
17 сен '15 в 17:16
1 ответ

Как я могу получить доступ к числовым идентификаторам потоков, которые можно увидеть в nvprof, используя cudaStream_t?

В nvprof я могу видеть идентификаторы потока для каждого потока выполнения cuda, который я использую (0, 13, 15 и т. Д.) Учитывая переменную потока, я хотел бы иметь возможность распечатать идентификатор потока. В настоящее время я не могу найти как…
30 май '17 в 15:54
1 ответ

Низкая эффективность процессора при почти одинаковых ядрах CUDA

Я создал три синтетических ядра CUDA, которые почти все выполняют только арифметические операции. Все три ядра одинаковы, за исключением того, что каждое из них выполняет различное количество операций. Ядро № 1 выполняет 8 операций, Ядро № 2 выполня…
08 апр '18 в 22:30
1 ответ

Опция nvprof для пропускной способности

Как правильно выбрать измерение полосы пропускания с помощью nvprof --metrics из командной строки? Я использую flop_dp_efficiency для получения процента пиковых значений FLOPS, но в руководстве, похоже, есть много вариантов измерения пропускной спос…
09 июн '16 в 17:36
0 ответов

nvprof показывает ошибку с TensorFlow

Я пытаюсь запустить nvprof с cifar10_multigpu_train.py, Я использую следующую команду /home/ibm/tensorflow/third_party/gpus/cuda/bin/nvprof python cifar10_multi_gpu_train.py Он запускает приложение, но через некоторое время показывает следующие ошиб…
27 фев '17 в 19:46
1 ответ

Экспорт вывода CUDA nvprof в визуальный профилировщик

Я хотел бы извлечь данные из моего приложения GPU, чтобы проверить его пределы. Я должен использовать nvprof, потому что приложение работает на удаленном сервере, поэтому я должен создать файл для локального импорта в Visual Profiler. Я пытался созд…
21 янв '16 в 21:15
1 ответ

Выходы NVIDIA nvprof для FLOPS

Я вижу, что nvprof может профилировать количество флопов в ядре (используя параметры, как показано ниже). Также, когда я просматриваю документацию (здесь http://docs.nvidia.com/cuda... там говорится, что flop_count_sp - это "Число операций с плавающ…
06 июн '17 в 11:17
1 ответ

Как профилировать код CUDA на безголовом узле?

Я работаю над приложением CUDA, которое я хотел бы профилировать. До сих пор я использовал только профилировщик командной строки, nvprof, который просто отображает обобщенную статистику. Я думал об использовании профилировщика GUI, NVVP. Проблема в …
07 ноя '17 в 21:34
1 ответ

Понимание метрики IPC от Nvprof и GPGPUsim

SM Pascal имеет 4 планировщика на SM, когда мы получаем что-то вроде 3 в качестве IPC, означает ли это 3 инструкции, запланированные SM в цикле? Кроме того, NVPROF учитывает среднее значение IPC всех SM для этого ядра и сообщает об этом? если один S…
13 июл '18 в 01:34
0 ответов

Tensorflow - Профиль Custom Op

Мне интересен способ измерить детальную производительность пользовательского Tensorflow Op при работе на GPU. До сих пор я пробовал подход этого поста, используя временную шкалу, а также внутренний Tensorflow Profiler (tf.profiler.Profiler). Оба даю…
04 дек '18 в 07:53
1 ответ

Почему операции в двух потоках CUDA не перекрываются?

Моя программа представляет собой конвейер, который содержит несколько ядер и memcpys. Каждая задача будет проходить через один и тот же конвейер с разными входными данными. Хост-код сначала выбирает канал, инкапсуляцию памяти блокнота и объекты CUDA…
15 янв '19 в 14:47
0 ответов

Показатели производительности CUDA

Каковы глобальный уровень и локальный уровень? Как рассчитать их. Я не использовал текстурную память в моем ядре. Почему l2_tex_read_hit_rate отличен от нуля? Является ли частота попаданий в кэш единой кэш-памяти? Вот часть метрической информации, к…
15 сен '17 в 19:41
0 ответов

Что вы делаете, если kill -KILL не работает на экземпляре nvprof?

У меня есть несколько экземпляров nvprof, порожденных из скрипта, который я энергично использовал Ctrl+C. Сценарий завершился, но есть несколько процессов nvprof со статусом D (непрерывный сон), которые все еще живы, и я не могу ничего сделать с мои…
24 июл '18 в 13:39