Разница во времени, сообщаемая НВВП и счетчиками

Question

Разница во времени, сообщаемая НВВП и счетчиками

Я запускаю ядро программ CUDA. Я наблюдаю, что существует значительная разница между временем, сообщаемым счетчиками GPU и NVVP для выполнения ядра. Почему такая разница обычно наблюдается?

0

cuda

Источник

user997704 19 сен '12 в 15:13

1 ответ

Решение

Другие вопросы по тегам cuda

user124092 19 сен '12 в 20:10 2012-09-19 20:10 · Accepted Answer · 2012-09-19 20:10

Nsight Visual Studio Edition и Visual Profiler поддерживают два механизма для определения продолжительности работы ядра. Оба эти метода приведут к получению значения, меньшего и более точного, чем то, о котором сообщает CUevent/cudaEvent. Методы следующие:

Параллельное время ядра
Это режим по умолчанию, используемый Nsight 2.x и Visual Profiler 5.0 для создания временной шкалы. Длительность ядра определяется как время от начала выполнения кода ядра на устройстве до момента его завершения. Это не может быть измерено с использованием событий CUDA.
Сериализированное время ядра
Это режим по умолчанию, используемый инструментами при сборе счетчиков PM для каждого ядра. Длительность ядра определяется как время, в течение которого графический процессор обрабатывает запрос на запуск, пока графический процессор не простаивает после завершения работы ядра. Этот режим специально отключает параллельное выполнение ядра. Почти во всех случаях сообщаемая длительность будет немного больше, чем длительность параллельной трассировки ядра, поскольку она включает время для запуска графическим процессором первого блока и время для графического процессора для завершения всех хранилищ памяти.
Время проведения CUDA
Синхронизация событий CUDA выполняется путем вызова cu/cudaEventRecord до и после запуска ядра в том же потоке. Каждая запись события вставляет команду в push-буфер GPU. Когда команда достигает GPU, она записывает метку времени в память. Можно запустить две записи событий без запуска. Это позволяет разработчику измерить время GPU между двумя командами отметки времени. Этот метод имеет следующие недостатки, и поэтому я рекомендую разработчикам использовать инструменты (Nsight, Visual Profiler и CUPTI):

Длительность, предоставляемая в каждом из этих режимов, будет обеспечивать разные значения. Кроме того, определение продолжительности, предоставляемое инструментами, и определение, доступное посредством использования событий, отличается.

Инструменты NVIDIA определяют продолжительность как можно лучше, начиная с момента, когда графический процессор начинает работать с ядром, до того момента, когда графический процессор завершает работу с ядром. Если разработчик заинтересован в сборе этой информации, он должен взглянуть на CUPTI SDK, включенный в комплект инструментов.