Описание тега amd-gcn

0 ответов

GCM не получает на устройствах на базе ColorOS

У меня есть приложение для Android, которое отправляет и получает сообщения FCM (Google Firebase Messages). Он отлично работает, так как я могу получать сообщения, когда мое приложение не находится в forground или не использует его, так как на нем з…
2 ответа

Шаблон доступа к глобальной памяти OpenCL (AMD GCN) для векторизованных данных: шаг за шагом и непрерывность

Я собираюсь улучшить производительность ядра OCL и хочу уточнить, как работают транзакции памяти и какой шаблон доступа к памяти действительно лучше (и почему). Ядро снабжено векторами из 8 целых чисел, которые определены как массив: int v [8], это …
06 окт '17 в 15:43
0 ответов

Оптимизированные ядра, работающие на AMD GCN OpenCL, работают только с ~1024 байтами за раз?

Я начинаю разрабатывать свою первую серьезную программу OpenCL и хочу убедиться, что понимаю, как настроен мой AMD R9 290x. Архитектура GCN 2.0. Так что я просто скажу, что я понимаю, и, надеюсь, кто-то там скажет мне, где я прав или нет? Мне кажетс…
26 сен '17 в 22:06
0 ответов

Хороший способ поделиться полосой переноса флага в сборке AMD GCN?

Мне нужно добавить два ulong. Первая половина (младшие 32 бита) каждого номера сохраняется в дорожках с четным идентификатором, а вторая половина (старшие 32 бита) сохраняется в дорожке рядом с ней (следующий нечетный идентификатор). Таким образом, …
26 окт '18 в 17:29
1 ответ

Почему AMD GCN использует ненулевое значение NULL?

Этот коммит говорит: В цели amdgcn нулевые указатели в глобальном, постоянном и общем адресном пространстве принимают значение 0, а нулевые указатели в частном и локальном адресном пространстве принимают значение -1. Как они используют эти два разн…
12 дек '16 в 14:21
1 ответ

Работает ли uint2 быстрее, чем ulong в OpenCL на картах AMD GCN?

Какой из расчетов "+" быстрее? 1) uint2 a, b, c; с = а + б; 2) Улонг а, б, в; с = а + б;
21 авг '18 в 20:50
0 ответов

Можно ли получить доступ ко всем 64 КБ Global Data Sharea (GDS) на графических процессорах AMD GCN2+?

Я пытаюсь использовать Global Data Share (GDS) на AMD RX 480 для своего приложения на Linux или Windows. Хотя в Руководстве по спецификации GCN3 указано, что вы можете получить доступ к GDS без ограничений, установив соответствующее значение в регис…
15 мар '17 в 01:14
0 ответов

Как запустить две рабочие группы на один вычислительный блок на картах AMD GCN

Обычно один вычислительный блок может выполнять только одну рабочую группу. Но документ AMD говорит, что на одном вычислительном устройстве может работать несколько волновых фронтов. Как я могу это сделать? Это функция OpenCL для этого? Или мне нужн…
18 авг '18 в 19:13
1 ответ

V_SUB_F64 в наборе инструкций AMD GCN и VEGA

Почему в наборе инструкций AMD GCN и VEGA нет инструкции "V_SUB_F64"? Как они реализуют вычитание двойной точности?
08 июн '18 в 14:26
0 ответов

Избегайте загрязнения кэша L1 на устройстве GCN

У меня есть ядро, которое записывает результаты в глобальный буфер; эти результаты никогда не считываются обратно в ядро ​​(они обрабатываются другим ядром позднее). Поэтому я не хочу, чтобы эти данные находились в кэше L1, если я могу помочь. Есть …
20 сен '17 в 00:51
1 ответ

SIMD-16 и SIMD-32 преимущества / недостатки?

Совсем недавно AMD выпустила новую архитектуру GPU под названием rDNA в своей новой линейке графических процессоров Navi. После прочтения определенной статьи и видео о глубоком погружении в архитектуру я понял следующее (не стесняйтесь исправлять, е…
0 ответов

Как читать и писать в Global Data Share в AMD GCN?

Я пытаюсь использовать GDS в AMD GPU, но не могу заставить его работать. Мой графический процессор - AMD RX580. Я использовал это ядро ​​OpenCL: __kernel __attribute__((reqd_work_group_size(64, 1, 1))) void localVarExample(__global int *res) { int i…
08 июл '19 в 23:58
1 ответ

Каков наилучший способ доступа к памяти в этой проблеме с N-корпусом, решенной на AMD Radeon RX580?

Я вычисляю траектории N частиц, которые движутся в своем поле силы тяжести. Я написал следующее ядро ​​OpenCL: #define G 100.0f #define EPS 1.0f float2 f (float2 r_me, __constant float *m, __global float2 *r, size_t s, size_t n) { size_t i; float2 r…
09 сен '19 в 17:00
0 ответов

Что касается декодера JPEG, как запланировать IB(косвенный буфер на RB(кольцевой буфер)

Я понимаю код ядра AMD JPEG decoder (jpeg_v2_0.c). В этом коде для планирования IB(косвенного буфера) в кольцевом буфере есть некоторые функции, такие как insert_start, emit_ib, Insert_end и т. Д., В которых они записывают некоторые команды последов…
20 мар '20 в 07:44
0 ответов

Можно ли в OpenCL взять массив, содержащий сборку GCN, и выполнить его (JIT)?

Я относительно новичок в OpenCL, и мне было интересно об этом. Я слышал, что на некоторых процессорах AMD можно выполнять JIT через OpenCL. Если бы это работало синтаксически, как в С ++, я бы просто написал что-то вроде: uint jitCode[MaxProgramSize…
27 янв '20 в 23:17
0 ответов

Размер AMD Wavefront и конфликты банков

Архитектура GCN имеет волновой фронт размером 64, но в локальной памяти всего 32 банка. Как можно избежать конфликтов, если все потоки должны писать, очевидно, только 32 из 64 могут сделать это, не вызывая конфликта, что я пропускаю? Как ds_permute_…
12 окт '20 в 22:52
1 ответ

Падение производительности при умножении матриц для определенных размеров на AMD Polaris

У меня есть код OpenCL, который умножает 2 матрицы (GEMM) на M = 4096, N = 4096 и K = 16. (т.е. матрицы 4096 x 16 с плавающей запятой) Я запускаю его на Polaris 560, 16CU GPU. Код: https://github.com/artyom-beilis/oclblas/blob/master/gemm/gemm.cl Я …
27 июн '21 в 11:17
0 ответов

Добавить упакованную пару значений с плавающей запятой половинной точности на AMD GPU, например, инструкцию NVidia add.f16x2?

Что является эквивалентом или аналогом инструкции NVIDIA с плавающей запятой половинной точности на платформе AMD GPU? Или найдите способ реализовать ту же функцию, что и в следующем фрагменте кода платформы NVIDIA GPU: static inline __device__ uint…
0 ответов

Выполнение инструкции в GPGPU

Я изучаю аппаратное обеспечение графического процессора (архитектура AMD GCN). Я немного смущен выполнением инструкций. Позвольте мне привести пример: for(i=0;i<64;i++) c[i] = a[i] + b[i] для приведенного выше кода. Предполагая, что деформация/во…
11 фев '23 в 03:19
1 ответ

Как решить _pickle.UnpicklingError

Я пытался загрузить и запустить код 2s-AGCN по этой ссылке GitHub : я успешно сгенерировал данные. Но при попытке обучить модель, запустив main.py, я столкнулся с этой ошибкой: [ Mon Feb 20 21:32:20 2023 ] Training epoch: 1 0%| | 0/588 [00:22<?, …
21 фев '23 в 03:09