Nvprof: неправильные результаты
Я пытаюсь измерить gld_throughput
а также gst_throughput
моего ядра с nvprof
, Мой kenrel - это умножение 2 массивов с различными измерениями. Все было замечательно, когда я неожиданно измерил пропускную способность умножения огромных массивов (8192x8192), и в результате получился "OVERFLOW". После этого, когда я измеряю пропускную способность умножения меньших массивов, которую я уже измерял, пропускная способность намного меньше, чем пропускная способность, которую я имел. Но время исполнения всегда одинаково. Поэтому я полагаю, что небольшая пропускная способность не является правильной, потому что если бы это было так, мое время выполнения было бы намного больше. Есть идеи?