Описание тега warp-scheduler
1
ответ
CUDA Kepler: недостаточно ALU
Согласно белой странице Kepler, размер основы для GPU на основе Kepler равен 32, и каждый мультипроцессор содержит 4 графика деформации, которые выбирают две независимые инструкции из выбранного деформации. Это означает, что каждый тактовый цикл, 32…
28 май '14 в 16:06
1
ответ
cuda: накладные расходы на деформацию деформации против дополнительной арифметики
Конечно, деформация деформации, через if а также switch Заявлений, следует избегать любой ценой на графических процессорах. Но каковы издержки дивергенции деформации (планирование только некоторых потоков для выполнения определенных строк) по сравне…
24 май '13 в 16:07
2
ответа
Блоки, темы, размер
Было много дискуссий о том, как выбрать #blocks & blockSize, но я все еще что-то упустил. Многие из моих проблем касаются этого вопроса: как блоки / деформации CUDA отображаются на ядрах CUDA? (Для упрощения обсуждения достаточно памяти perThread и …
07 июн '12 в 14:51
1
ответ
Есть ли способ явно сопоставить поток с определенным перекосом в CUDA?
Скажем, динамический анализ был выполнен на программе CUDA, так что определенные потоки были лучше, находясь в одной и той же деформации. Например, давайте представим, что у нас есть 1024 потока cuda и размер основы 32. После динамического анализа м…
24 мар '17 в 22:11
2
ответа
Как блоки / деформации / потоки CUDA отображаются на ядра CUDA?
Я использую CUDA в течение нескольких недель, но у меня есть некоторые сомнения по поводу распределения блоков / варпов / потоков.Я изучаю архитектуру с дидактической точки зрения (университетский проект), поэтому достижение максимальной производите…
05 май '12 в 09:58
1
ответ
Почему в SM GPU есть два планировщика деформации?
Я читаю технический документ NVIDIA Fermi и запутываюсь, когда подсчитываю количество ядер SP, планировщиков. Согласно техническому документу, в каждом SM имеется два планировщика деформации и два блока отправки команд, что позволяет одновременно вы…
04 май '16 в 14:19
1
ответ
Как из-за перекоса вызвать еще один перекос в состоянии ожидания?
Как вы можете видеть в заголовке вопроса, я хочу знать, как деформация приводит к тому, что другая деформация переходит в состояние ожидания. Я много читаю Q/A в SO, но не могу найти ответ. В любой момент может быть запущен только один перекос в бло…
27 фев '18 в 09:19
1
ответ
Какова задержка времени выдачи инструкций планировщиков деформации в CUDA?
У меня сложилось впечатление, что (один) планировщик деформации в вычислительных возможностях 1.x GPU выдает одну инструкцию на деформацию каждые 4 цикла, и, поскольку задержка арифметического конвейера составляет 24 цикла, его можно полностью скрыт…
26 авг '13 в 13:36
1
ответ
Общая память cuda и планирование выполнения блоков
Я хотел бы прояснить состояние выполнения с разделяемой памятью CUDA и выполнить блок на основе количества общей памяти, используемой на блок. государственный Я использую GTX480 NVIDIA карту, которая имеет 48 КБ общей памяти на блок и 15 потоковых м…
29 сен '12 в 10:28
1
ответ
Деформации CUDA и расхождение нитей
Я пытаюсь понять перекосы CUDA и расхождение потоков. Предположим, у меня есть ядро умножения наивных матриц для умножения матриц nxn. __global__ void matrix_multiply(float* a, float* b, float* c, int n) { int row = blockIdx.y + blockDim.y + threa…
15 окт '14 в 01:14
1
ответ
Вопросы резидентских перекосов CUDA
Я использую CUDA уже месяц, а сейчас пытаюсь прояснить, сколько варпов / блоков необходимо, чтобы скрыть задержку обращений к памяти. Я думаю, что это связано с максимумом резидентных перекосов на мультипроцессоре. Согласно Таблице 13 в CUDA_C_Progr…
12 янв '17 в 07:53
1
ответ
В графическом процессоре NVIDIA могут ли ld/st и арифметические инструкции (например, int32 fp32) выполняться одновременно в одном и том же sm?
Особенно архитектура Тьюринга и Ампера,В одном и том же планировщике sm и warp,Могут ли варпы одновременно запускать ld/st и другие арифметические инструкции? Я хочу знать, как работает варп-планировщик
17 янв '23 в 08:47