Описание тега nsight-compute
1
ответ
Что такое «длинное» и «короткое» табло по сравнению с MIO/L1TEX?
В последних микроархитектурах NVIDIA появилась новая (?) Систематика причин остановки деформации / состояний планировщика деформации. Два элемента в этой таксономии: Краткое табло - зависимость табло от операции очереди MIO. Длинное табло - зависимо…
09 фев '21 в 20:14
1
ответ
Какие зависимости выполнения графического процессора имеют фиксированную задержку (вызывая остановку ожидания)?
В последних микроархитектурах NVIDIA появилась новая (?) Таксономия причин остановки деформации / состояний планировщика деформации. Одним из них является : Подождите : Warp остановился в ожидании зависимости выполнения с фиксированной задержкой. Ка…
14 мар '21 в 17:15
0
ответов
NSight Compute сообщает «Несоответствие файлов», хотя это правильный файл.
Я профилирую программу, которая берет свое ядро из .cuфайл динамически компилирует его с помощью NVRTC и запускает его. Профилирование раньше работало нормально, и оно все еще работает, но - исходное представление будет представлять только включен…
18 мар '21 в 13:04
1
ответ
Использование ncu для профилирования pagefault в объединенной памяти
есть ли возможность профилировать приложение CUDA для унифицированной виртуальной памяти с помощью Nsight Compute (NCU)? Например, я хочу знать, сколько времени тратится на обработку ошибок страницы и миграцию.
02 июл '21 в 01:43
1
ответ
Отфильтруйте частичное имя ядра с помощью Nsight Compute
Я пытаюсь выполнить фильтрацию по частичному имени при профилировании ядер в моей программе с помощью NVIDIA Nsight Compute 2021.2.1. Я считаю, что раньше срабатывало использование подстрок или регулярных выражений для соответствия более чем одному …
09 авг '21 в 17:21
0
ответов
Nsight Compute показывает только столбец Live Registers на исходной странице
Я запускаю следующую команду для сбора данных: sudo /usr/local/cuda-11.4/bin/ncu -f -o new_report ./out --target-processes all а потом ncu-ui new_report.ncu-repдля просмотра отчета. Я приложил снимок экрана с тем, где должны быть столбцы , но, как в…
09 сен '21 в 08:43
1
ответ
Nsight Compute сообщает: «Профилирование не поддерживается на этом устройстве» - почему?
У меня есть машина с графическим процессором NVIDA GTX 1050 Ti (вычислительная мощность 6.1), и я пытаюсь профилировать ядро в программе, которую я создал с помощью CUDA 11.4. Мой дистрибутив ОС - Devuan GNU/Linux 4 Chimaera (~= Debian 11 Bullseye…
17 окт '21 в 00:09
2
ответа
Как связать источник программы NVRTC с файлом?
Я использую NVRTC для компиляции ядра. Соответствующий вызов API: nvrtcResult nvrtcCreateProgram ( nvrtcProgram* prog, const char* src, const char* name, int numHeaders, const char** headers, const char** includeNames ) Как видите, источник — это не…
31 дек '20 в 09:48
0
ответов
Как понимать такие метрики, как l1tex__data_bank_conflicts_pipe_lsu_mem_global?
Конфликты банков возникают при доступе к общей памяти во время загрузки/сохранения. Когда я использую код, показанный ниже: __global__ void bank_conf(const int* dev_a, int size) { extern __shared__ int cache; int tidx = blockIdx.x * blockDim.x + thr…
01 мар '22 в 12:09
1
ответ
Вычисление NSIGHT: SOL SM против Roofline
Я запустил cuda-11.2 nsight-compute на своем ядре cuda. Он сообщает, что SOL SM составляет 79,44%, что я интерпретирую как довольно близкое к максимуму. SOL L1 составляет 48,38% Когда я изучаю диаграмму Roofline , я вижу, что мой измеренный результа…
08 янв '21 в 17:04
0
ответов
Профилирование кода с помощью вычислений nsight на Pascal завершается сбоем при использовании пулов памяти cuda
Я хотел бы использовать Nsight Compute для графических процессоров Pascal для профилирования программы, использующей пулы памяти CUDA. Я использую Linux, CUDA 11.5, драйвер 495.46. Nsight Compute — это версия 2019.5.0, последняя версия, поддерживающ…
03 мар '22 в 10:30
2
ответа
Что показывает NSight Compute по причине задержки, которая не «поддерживается»?
В Руководстве по профилированию CUDA перечислены различные причины выборочных остановок деформации, например, выделение, барьер, дроссельная заслонка LG и т. д. И профайлер NSight Compute показывает их распределение как часть результатов профилирова…
02 фев '21 в 14:31
2
ответа
Могу ли я перейти к профилированию конкретного вызова определенного ядра?
Я использую графический интерфейс NSight Compute (ncu-ui) для профилирования ядер в определенном приложении. Мое приложение вызывает ядро my_kernel_1тысячи раз, затем вызывает тысячи раз. Я не хочу профилировать все вызовы всех ядер; Я просто хочу п…
15 май '22 в 14:28
1
ответ
ncu-ui не запускается: не удалось загрузить плагин платформы Qt «xcb» в «», хотя он был найден
я пытаюсь запустить ncu-uiграфический интерфейс профилировщика в системе CentOS 7 Linux (с использованием ncu-ui 2022.1), как в качестве пользователя root, так и в качестве обычного пользователя. Я получаю сообщение об ошибке: qt.qpa.plugin: Could n…
28 апр '22 в 11:25
0
ответов
Профилирование поведения блоков ядра CUDA
Профилирую ядро, работа которого в разных блоках неравномерна: Различные блоки могут считывать или записывать разное количество данных. Некоторые блоки могут считывать в основном кэшированные данные, а другие нет. Некоторые блоки могут применять бол…
22 май '22 в 15:10
0
ответов
NSight Compute Grid Size Несовместимая единица измерения
Я запускаю векторное ядро следующим образом: //cuda processing sequence step 1 is complete int blocks = 1; // modify this line for experimentation int threads = 1024; // modify this line for experimentation vadd<<<blocks, threads>>&…
10 май '22 в 14:57
0
ответов
Отключение профилировщика ncu при сохранении запущенной профилируемой программы
В настоящее время я использую Nsight Compute CLI для профилирования обучения DNN. Я использую следующую команду для запуска и подключения профилировщика к программе. (Я буду сокращать часть метрик, так как это не является основной задачей этой темы.…
15 авг '22 в 12:40
0
ответов
Могу ли я с помощью профилировщика вычислений NSight проверить частоту попаданий в кэш для определенной области памяти?
Ядро моего графического процессора считывает данные из разных входных буферов. Я хочу проверить, удается ли мне получить кэш-попадания для чтения из одного из этих буферов. Можно ли ограничить подсчет метрик попадания/промаха кэша определенным диапа…
01 мар '23 в 12:58
1
ответ
Почему значение вычислительной пропускной способности отличается от фактической производительности/пиковой производительности?
Я хочу построить модель линии крыши для своих ядер. Итак, я запускаю ncu командой ncu --csv --target-processes all --set линия крыши mpirun -n 1 ./run_pselinv_linux_release_v2.0 -H H3600.csc -file ./tmpfile The roofline setсобирает достаточно данных…
11 сен '22 в 14:15
1
ответ
Несбалансированное чтение и запись памяти в CUDA
Я заметил несбалансированный объем чтения и записи памяти при профилировании нижнего ядра cuda с помощью ncu. __global__ void kernel(void* mem, int n) { int* ptr = reinterpret_cast<int*>(mem); for (int offset = (threadIdx.x + blockIdx.x * bloc…
29 июн '23 в 03:42