Описание тега openacc
Интерфейс прикладной программы OpenACC описывает набор директив компилятора для указания циклов и областей кода в стандартных C, C++ и Fortran, которые должны быть выгружены с центрального процессора на подключенный ускоритель, обеспечивая переносимость между операционными системами, центральными процессорами и ускорителями.
1
ответ
CuFFT пакетный против одного преобразования
Документация NVIDIA cuda для cuFFT гласит: "Эти пакетные преобразования имеют более высокую производительность, чем отдельные преобразования" (подробнее на: http://docs.nvidia.com/cuda/cufft/index.html Следуйте за нами: @GPUComputing on Twitter | NV…
21 фев '18 в 01:32
3
ответа
OpenACC использует библиотеку math.h
Привет, я использовал компиляторы CAPS OpenACC, но, похоже, компилятор не может связать функции со стандартным math.h. На самом деле, в моем случае, функция sqrt используется в моем коде в цикле ускорения. Когда я компилирую код, выдается ошибка ниж…
11 мар '13 в 03:27
1
ответ
Нвпроф с мпич
Я пытаюсь профилировать код MPI/OpenACC Fortran. Я нашел сайт, который подробно описывает, как запустить nvprof с MPI здесь. Примеры приведены для OpenMPI. Тем не менее, я ограничен MPICH и не могу найти эквивалент. Кто-нибудь знает, что это будет?
09 июн '16 в 14:05
1
ответ
Могу ли я отладить openACC с помощью cuda-gdb? Или другие средства отладки?
Я использую CAPS OpenACC на CUDA. Я пытаюсь отладить cuda-gdb. И я могу нормально отлаживать c/ C++ код с помощью cuda-gdb. Другими словами, я не смог отладить кодовый код. Есть ли кто-нибудь, кто отлаживал openACC на cuda? или я не могу поставить т…
11 май '13 в 22:25
1
ответ
Отнимает ли OpenACC от обычного рендеринга на GPU?
Я пытаюсь выяснить, могу ли я использовать OpenACC вместо обычных вызовов последовательного выполнения ЦП. Обычно мое программирование полностью посвящено 3D-программированию, или как-то обычно использует графический процессор. Обработка изображений…
24 май '14 в 03:51
1
ответ
OpenACCArray функция подкачки
Пытаясь создать объектно-ориентированную реализацию OpenACC, я наткнулся на этот вопрос. Оттуда я взял код, предоставленный @mat-colgrove на GTC15 (код доступен по адресу http://www.pgroup.com/lit/samples/gtc15_S5233.tar). Поскольку меня интересует,…
25 авг '16 в 07:28
2
ответа
RBM без улучшений с OpenACC на коде пока
Алгоритм RBM - это алгоритм с открытым исходным кодом. Исходный код доступен здесь: https://github.com/yusugomori/DeepLearning/tree/master/cpp Я пытался добиться улучшения с помощью OpenACC различными способами, но последовательный код все еще лучше…
05 дек '16 в 14:07
2
ответа
OpenACC должен иметь стандартную информационную ошибку
Я пытаюсь распараллелить простую программу mandelbrot c, но я получаю эту ошибку, которая не связана с обычной информацией. Кроме того, я не уверен, должен ли я копировать данные в параллельный раздел и из него. PS Я относительно новичок в параллель…
31 май '17 в 01:14
1
ответ
Что нужно, чтобы разгрузка OpenACC/OpenMP4.0 на nvidia/mic работала с GCC?
Я пытаюсь понять, как именно я могу использовать OpenACC для выгрузки вычислений на мой графический процессор nvidia на GCC 5.3. Чем больше я гуглю, тем больше путаюсь. Все руководства, которые я нахожу, включают перекомпиляцию всего gcc вместе с дв…
09 июл '16 в 15:40
1
ответ
Проверка использования памяти NVIDIA __shared__ при наличии директивы кеша
Я экспериментирую с предложением кеша OpenACC, используя PGI 14.10. У меня есть простой цикл, основанный на слайде в [1]: #include <stdlib.h> int main(int argc, char **argv) { int N = 1024; int *restrict x = (int *)malloc(sizeof(int) * N); int…
18 дек '14 в 08:39
1
ответ
Ошибка зависимости вложенного цикла OpenACC
Пожалуйста, мне нужна помощь с использованием модели параллельных вычислений OpenACC (C++). Проблема заключается в следующем: Существует зависимость между переменными W, hbias, vbias (она должна обновляться на каждой итерации) и вычислением средств …
26 янв '17 в 23:55
2
ответа
Планирование OpenACC
Скажи, что у меня есть такая конструкция: for(int i=0;i<5000;i++){ const int upper_bound = f(i); #pragma acc parallel loop for(int j=0;j<upper_bound;j++){ //Do work... } } куда f является монотонно убывающей функцией i, поскольку num_gangs, nu…
19 июн '18 в 18:02
2
ответа
Параметры для use_device() openACC
Разрешено ли передавать объекты вместо указателя на следующую директиву прагма в соответствии с host_data use_device(myobject) здесь код, Pn - объект, а Pn.P - указатель на массив, в котором хранятся данные #pragma acc data pcopyin( rank,N ) { #prag…
22 фев '18 в 20:34
2
ответа
Использование OpenACC для распараллеливания вложенных циклов
Я очень новичок в openacc и обладаю только знаниями высокого уровня, поэтому любая помощь и объяснение того, что я делаю неправильно, будут оценены. Я пытаюсь ускорить (распараллелить) не такой простой вложенный цикл, который обновляет уплощенный (о…
24 авг '15 в 19:56
1
ответ
Могут ли компиляторы PGI выводить сгенерированный код Cuda в файл
Я хотел бы, чтобы сгенерированный код CUDA был сохранен в файле для проверки. Возможно ли это с компиляторами OpenAcc и PGI?
21 окт '15 в 15:38
0
ответов
Потребление памяти OpenACC
У меня есть программа на C++, которая имеет очень странное потребление памяти, поэтому, когда я использую -ta= многоядерный (и все циклы выполняются на многоядерном компьютере), моя программа "ест" ~700 МБ, а когда я запускаю с -ta=tesla:managed, я …
18 дек '18 в 20:27
1
ответ
Как реализовать определяемое пользователем сокращение с помощью OpenACC?
Есть ли способ реализовать пользовательское сокращение с помощью OpenACC, аналогичное объявлению сокращения в OpenMP? Чтобы я мог написать что-то вроде#pragma acc loop reduction(my_function:my_result) Или как правильно реализовать эффективное сокращ…
21 янв '19 в 18:35
2
ответа
Сокращение времени запуска ядер в пошаговом цикле - OpenACC
Я пытаюсь реализовать OpenACC на некотором коде Фортрана, который у меня есть. Код состоит из внешнего пошагового цикла (который нельзя распараллелить), и внутри цикла есть несколько вложенных циклов. Эти вложенные циклы могут быть распараллелены, н…
24 янв '19 в 21:46
0
ответов
Необходимо, чтобы память хоста была заблокирована на странице для достижения асинхронной передачи данных и вычислений на устройстве с помощью компилятора pgi?
Я тестировал асинхронную передачу данных между устройством nvidia-K80 на хост и суперпозицией ядра gpu с OpenACC. Мне удалось увидеть суперпозицию передачи и вычисления данных с помощью профилировщика nvprof при компиляции со следующей строкой. pgC+…
28 янв '19 в 17:36
1
ответ
Каковы возможности объединения CUDA, OpenCL и OpenACC в одной программе?
Каждый язык имеет свои преимущества и недостатки, но какие преимущества он предлагает объединить их все?
13 июн '18 в 10:54