Описание тега nvprof
NoneNvprof - это профилировщик командной строки, который позволяет собирать и просматривать таймеры и события ЦП и ГП в программах CUDA.
1
ответ
Нвпроф с мпич
Я пытаюсь профилировать код MPI/OpenACC Fortran. Я нашел сайт, который подробно описывает, как запустить nvprof с MPI здесь. Примеры приведены для OpenMPI. Тем не менее, я ограничен MPICH и не могу найти эквивалент. Кто-нибудь знает, что это будет?
09 июн '16 в 14:05
1
ответ
CUDA одновременный запуск ядра не работает
Я пишу программу CUDA для обработки изображений. Такое же ядро "processOneChannel" будет запущено для каналов RGB. Ниже я пытаюсь указать потоки для трех запусков ядра, чтобы они могли обрабатываться одновременно. Но nvprof говорит, что они все ещ…
09 апр '16 в 21:53
1
ответ
Что именно измеряет профиль мощности NVPROF?
Я использовал NVPROF для получения профиля мощности графических процессоров NVIDIA с архитектурой Kepler. Мой вопрос: что именно мы видим? Если я правильно понимаю, есть шина 12 В и 3,3 В, питающая графический процессор, и графический процессор може…
15 авг '15 в 03:45
1
ответ
Отметка времени в графическом процессоре
Я ищу, чтобы собрать след событий, которые происходят на уровне устройства на GPU. Фон / аналогия на процессоре: На процессоре, когда процесс A запущен, он может быть прерван другим процессом B уровня пользователя, процессами системы / ядра, различн…
31 мар '18 в 15:55
0
ответов
Nvprof: неправильные результаты
Я пытаюсь измерить gld_throughput а также gst_throughput моего ядра с nvprof, Мой kenrel - это умножение 2 массивов с различными измерениями. Все было замечательно, когда я неожиданно измерил пропускную способность умножения огромных массивов (8192x…
12 ноя '17 в 21:56
1
ответ
Замораживание системы при запуске даже основных программ CUDA
Получив новый игровой ноутбук, я захотел изучить и попробовать немного программирования на CUDA. Итак, я последовал за публикацией в блоге "Еще более легкое введение в CUDA" и написал самую первую программу CUDA, в которую были добавлены 1M числа с …
09 ноя '18 в 05:31
0
ответов
Трассировка nvprof gpu в метрическом режиме не дает подробностей для каждого вызова
Я реализовал SVD с помощью функции PyTorch SVD GPU, и я использую nvprof для профилирования. --print-gpu-trace дает мне отдельные вызовы ядра, отсортированные в хронологическом порядке, которые я использую для определения сетки и размера блока. Это …
20 окт '17 в 17:13
2
ответа
Как наблюдать за событиями и метриками CUDA для подраздела исполняемого файла (например, только во время выполнения ядра)?
Я знаком с использованием nvprof для доступа к событиям и метрикам бенчмарка, например, nvprof --system-profiling on --print-gpu-trace -o (file name) --events inst_issued1 ./benchmarkname system-profiling on --print-gpu-trace -o (filename) Команда д…
17 сен '15 в 17:16
1
ответ
Как я могу получить доступ к числовым идентификаторам потоков, которые можно увидеть в nvprof, используя cudaStream_t?
В nvprof я могу видеть идентификаторы потока для каждого потока выполнения cuda, который я использую (0, 13, 15 и т. Д.) Учитывая переменную потока, я хотел бы иметь возможность распечатать идентификатор потока. В настоящее время я не могу найти как…
30 май '17 в 15:54
1
ответ
Низкая эффективность процессора при почти одинаковых ядрах CUDA
Я создал три синтетических ядра CUDA, которые почти все выполняют только арифметические операции. Все три ядра одинаковы, за исключением того, что каждое из них выполняет различное количество операций. Ядро № 1 выполняет 8 операций, Ядро № 2 выполня…
08 апр '18 в 22:30
1
ответ
Опция nvprof для пропускной способности
Как правильно выбрать измерение полосы пропускания с помощью nvprof --metrics из командной строки? Я использую flop_dp_efficiency для получения процента пиковых значений FLOPS, но в руководстве, похоже, есть много вариантов измерения пропускной спос…
09 июн '16 в 17:36
0
ответов
nvprof показывает ошибку с TensorFlow
Я пытаюсь запустить nvprof с cifar10_multigpu_train.py, Я использую следующую команду /home/ibm/tensorflow/third_party/gpus/cuda/bin/nvprof python cifar10_multi_gpu_train.py Он запускает приложение, но через некоторое время показывает следующие ошиб…
27 фев '17 в 19:46
1
ответ
Экспорт вывода CUDA nvprof в визуальный профилировщик
Я хотел бы извлечь данные из моего приложения GPU, чтобы проверить его пределы. Я должен использовать nvprof, потому что приложение работает на удаленном сервере, поэтому я должен создать файл для локального импорта в Visual Profiler. Я пытался созд…
21 янв '16 в 21:15
1
ответ
Выходы NVIDIA nvprof для FLOPS
Я вижу, что nvprof может профилировать количество флопов в ядре (используя параметры, как показано ниже). Также, когда я просматриваю документацию (здесь http://docs.nvidia.com/cuda... там говорится, что flop_count_sp - это "Число операций с плавающ…
06 июн '17 в 11:17
1
ответ
Как профилировать код CUDA на безголовом узле?
Я работаю над приложением CUDA, которое я хотел бы профилировать. До сих пор я использовал только профилировщик командной строки, nvprof, который просто отображает обобщенную статистику. Я думал об использовании профилировщика GUI, NVVP. Проблема в …
07 ноя '17 в 21:34
1
ответ
Понимание метрики IPC от Nvprof и GPGPUsim
SM Pascal имеет 4 планировщика на SM, когда мы получаем что-то вроде 3 в качестве IPC, означает ли это 3 инструкции, запланированные SM в цикле? Кроме того, NVPROF учитывает среднее значение IPC всех SM для этого ядра и сообщает об этом? если один S…
13 июл '18 в 01:34
0
ответов
Tensorflow - Профиль Custom Op
Мне интересен способ измерить детальную производительность пользовательского Tensorflow Op при работе на GPU. До сих пор я пробовал подход этого поста, используя временную шкалу, а также внутренний Tensorflow Profiler (tf.profiler.Profiler). Оба даю…
04 дек '18 в 07:53
1
ответ
Почему операции в двух потоках CUDA не перекрываются?
Моя программа представляет собой конвейер, который содержит несколько ядер и memcpys. Каждая задача будет проходить через один и тот же конвейер с разными входными данными. Хост-код сначала выбирает канал, инкапсуляцию памяти блокнота и объекты CUDA…
15 янв '19 в 14:47
0
ответов
Показатели производительности CUDA
Каковы глобальный уровень и локальный уровень? Как рассчитать их. Я не использовал текстурную память в моем ядре. Почему l2_tex_read_hit_rate отличен от нуля? Является ли частота попаданий в кэш единой кэш-памяти? Вот часть метрической информации, к…
15 сен '17 в 19:41
0
ответов
Что вы делаете, если kill -KILL не работает на экземпляре nvprof?
У меня есть несколько экземпляров nvprof, порожденных из скрипта, который я энергично использовал Ctrl+C. Сценарий завершился, но есть несколько процессов nvprof со статусом D (непрерывный сон), которые все еще живы, и я не могу ничего сделать с мои…
24 июл '18 в 13:39