Описание тега warp-scheduler

1 ответ

CUDA Kepler: недостаточно ALU

Согласно белой странице Kepler, размер основы для GPU на основе Kepler равен 32, и каждый мультипроцессор содержит 4 графика деформации, которые выбирают две независимые инструкции из выбранного деформации. Это означает, что каждый тактовый цикл, 32…
28 май '14 в 16:06
1 ответ

cuda: накладные расходы на деформацию деформации против дополнительной арифметики

Конечно, деформация деформации, через if а также switch Заявлений, следует избегать любой ценой на графических процессорах. Но каковы издержки дивергенции деформации (планирование только некоторых потоков для выполнения определенных строк) по сравне…
24 май '13 в 16:07
2 ответа

Блоки, темы, размер

Было много дискуссий о том, как выбрать #blocks & blockSize, но я все еще что-то упустил. Многие из моих проблем касаются этого вопроса: как блоки / деформации CUDA отображаются на ядрах CUDA? (Для упрощения обсуждения достаточно памяти perThread и …
07 июн '12 в 14:51
1 ответ

Есть ли способ явно сопоставить поток с определенным перекосом в CUDA?

Скажем, динамический анализ был выполнен на программе CUDA, так что определенные потоки были лучше, находясь в одной и той же деформации. Например, давайте представим, что у нас есть 1024 потока cuda и размер основы 32. После динамического анализа м…
24 мар '17 в 22:11
2 ответа

Как блоки / деформации / потоки CUDA отображаются на ядра CUDA?

Я использую CUDA в течение нескольких недель, но у меня есть некоторые сомнения по поводу распределения блоков / варпов / потоков.Я изучаю архитектуру с дидактической точки зрения (университетский проект), поэтому достижение максимальной производите…
05 май '12 в 09:58
1 ответ

Почему в SM GPU есть два планировщика деформации?

Я читаю технический документ NVIDIA Fermi и запутываюсь, когда подсчитываю количество ядер SP, планировщиков. Согласно техническому документу, в каждом SM имеется два планировщика деформации и два блока отправки команд, что позволяет одновременно вы…
04 май '16 в 14:19
1 ответ

Как из-за перекоса вызвать еще один перекос в состоянии ожидания?

Как вы можете видеть в заголовке вопроса, я хочу знать, как деформация приводит к тому, что другая деформация переходит в состояние ожидания. Я много читаю Q/A в SO, но не могу найти ответ. В любой момент может быть запущен только один перекос в бло…
27 фев '18 в 09:19
1 ответ

Какова задержка времени выдачи инструкций планировщиков деформации в CUDA?

У меня сложилось впечатление, что (один) планировщик деформации в вычислительных возможностях 1.x GPU выдает одну инструкцию на деформацию каждые 4 цикла, и, поскольку задержка арифметического конвейера составляет 24 цикла, его можно полностью скрыт…
26 авг '13 в 13:36
1 ответ

Общая память cuda и планирование выполнения блоков

Я хотел бы прояснить состояние выполнения с разделяемой памятью CUDA и выполнить блок на основе количества общей памяти, используемой на блок. государственный Я использую GTX480 NVIDIA карту, которая имеет 48 КБ общей памяти на блок и 15 потоковых м…
29 сен '12 в 10:28
1 ответ

Деформации CUDA и расхождение нитей

Я пытаюсь понять перекосы CUDA и расхождение потоков. Предположим, у меня есть ядро ​​умножения наивных матриц для умножения матриц nxn. __global__ void matrix_multiply(float* a, float* b, float* c, int n) { int row = blockIdx.y + blockDim.y + threa…
15 окт '14 в 01:14
1 ответ

Вопросы резидентских перекосов CUDA

Я использую CUDA уже месяц, а сейчас пытаюсь прояснить, сколько варпов / блоков необходимо, чтобы скрыть задержку обращений к памяти. Я думаю, что это связано с максимумом резидентных перекосов на мультипроцессоре. Согласно Таблице 13 в CUDA_C_Progr…
12 янв '17 в 07:53
1 ответ

В графическом процессоре NVIDIA могут ли ld/st и арифметические инструкции (например, int32 fp32) выполняться одновременно в одном и том же sm?

Особенно архитектура Тьюринга и Ампера,В одном и том же планировщике sm и warp,Могут ли варпы одновременно запускать ld/st и другие арифметические инструкции? Я хочу знать, как работает варп-планировщик