Профилирование поведения блоков ядра CUDA
Профилирую ядро, работа которого в разных блоках неравномерна:
- Различные блоки могут считывать или записывать разное количество данных.
- Некоторые блоки могут считывать в основном кэшированные данные, а другие нет.
- Некоторые блоки могут применять больше состояний обработки
и т.п.
Теперь я хотел бы профилировать это поведение и, более конкретно, хотел бы увидеть аспекты распределения поведения блоков по всем блокам. Тем не менее, ncu-ui, по-видимому, в основном/исключительно сообщает об агрегировании статистики из всех блоков в целом.
Как мне получить и визуализировать информацию о различиях в поведении блоков?