Описание тега openacc

Интерфейс прикладной программы OpenACC описывает набор директив компилятора для указания циклов и областей кода в стандартных C, C++ и Fortran, которые должны быть выгружены с центрального процессора на подключенный ускоритель, обеспечивая переносимость между операционными системами, центральными процессорами и ускорителями.
1 ответ

CuFFT пакетный против одного преобразования

Документация NVIDIA cuda для cuFFT гласит: "Эти пакетные преобразования имеют более высокую производительность, чем отдельные преобразования" (подробнее на: http://docs.nvidia.com/cuda/cufft/index.html Следуйте за нами: @GPUComputing on Twitter | NV…
21 фев '18 в 01:32
3 ответа

OpenACC использует библиотеку math.h

Привет, я использовал компиляторы CAPS OpenACC, но, похоже, компилятор не может связать функции со стандартным math.h. На самом деле, в моем случае, функция sqrt используется в моем коде в цикле ускорения. Когда я компилирую код, выдается ошибка ниж…
11 мар '13 в 03:27
1 ответ

Нвпроф с мпич

Я пытаюсь профилировать код MPI/OpenACC Fortran. Я нашел сайт, который подробно описывает, как запустить nvprof с MPI здесь. Примеры приведены для OpenMPI. Тем не менее, я ограничен MPICH и не могу найти эквивалент. Кто-нибудь знает, что это будет?
09 июн '16 в 14:05
1 ответ

Могу ли я отладить openACC с помощью cuda-gdb? Или другие средства отладки?

Я использую CAPS OpenACC на CUDA. Я пытаюсь отладить cuda-gdb. И я могу нормально отлаживать c/ C++ код с помощью cuda-gdb. Другими словами, я не смог отладить кодовый код. Есть ли кто-нибудь, кто отлаживал openACC на cuda? или я не могу поставить т…
11 май '13 в 22:25
1 ответ

Отнимает ли OpenACC от обычного рендеринга на GPU?

Я пытаюсь выяснить, могу ли я использовать OpenACC вместо обычных вызовов последовательного выполнения ЦП. Обычно мое программирование полностью посвящено 3D-программированию, или как-то обычно использует графический процессор. Обработка изображений…
24 май '14 в 03:51
1 ответ

OpenACCArray функция подкачки

Пытаясь создать объектно-ориентированную реализацию OpenACC, я наткнулся на этот вопрос. Оттуда я взял код, предоставленный @mat-colgrove на GTC15 (код доступен по адресу http://www.pgroup.com/lit/samples/gtc15_S5233.tar). Поскольку меня интересует,…
25 авг '16 в 07:28
2 ответа

RBM без улучшений с OpenACC на коде пока

Алгоритм RBM - это алгоритм с открытым исходным кодом. Исходный код доступен здесь: https://github.com/yusugomori/DeepLearning/tree/master/cpp Я пытался добиться улучшения с помощью OpenACC различными способами, но последовательный код все еще лучше…
05 дек '16 в 14:07
2 ответа

OpenACC должен иметь стандартную информационную ошибку

Я пытаюсь распараллелить простую программу mandelbrot c, но я получаю эту ошибку, которая не связана с обычной информацией. Кроме того, я не уверен, должен ли я копировать данные в параллельный раздел и из него. PS Я относительно новичок в параллель…
31 май '17 в 01:14
1 ответ

Что нужно, чтобы разгрузка OpenACC/OpenMP4.0 на nvidia/mic работала с GCC?

Я пытаюсь понять, как именно я могу использовать OpenACC для выгрузки вычислений на мой графический процессор nvidia на GCC 5.3. Чем больше я гуглю, тем больше путаюсь. Все руководства, которые я нахожу, включают перекомпиляцию всего gcc вместе с дв…
09 июл '16 в 15:40
1 ответ

Проверка использования памяти NVIDIA __shared__ при наличии директивы кеша

Я экспериментирую с предложением кеша OpenACC, используя PGI 14.10. У меня есть простой цикл, основанный на слайде в [1]: #include <stdlib.h> int main(int argc, char **argv) { int N = 1024; int *restrict x = (int *)malloc(sizeof(int) * N); int…
18 дек '14 в 08:39
1 ответ

Ошибка зависимости вложенного цикла OpenACC

Пожалуйста, мне нужна помощь с использованием модели параллельных вычислений OpenACC (C++). Проблема заключается в следующем: Существует зависимость между переменными W, hbias, vbias (она должна обновляться на каждой итерации) и вычислением средств …
26 янв '17 в 23:55
2 ответа

Планирование OpenACC

Скажи, что у меня есть такая конструкция: for(int i=0;i<5000;i++){ const int upper_bound = f(i); #pragma acc parallel loop for(int j=0;j<upper_bound;j++){ //Do work... } } куда f является монотонно убывающей функцией i, поскольку num_gangs, nu…
19 июн '18 в 18:02
2 ответа

Параметры для use_device() openACC

Разрешено ли передавать объекты вместо указателя на следующую директиву прагма в соответствии с host_data use_device(myobject) здесь код, Pn - объект, а Pn.P - указатель на массив, в котором хранятся данные #pragma acc data pcopyin( rank,N ) { #prag…
22 фев '18 в 20:34
2 ответа

Использование OpenACC для распараллеливания вложенных циклов

Я очень новичок в openacc и обладаю только знаниями высокого уровня, поэтому любая помощь и объяснение того, что я делаю неправильно, будут оценены. Я пытаюсь ускорить (распараллелить) не такой простой вложенный цикл, который обновляет уплощенный (о…
24 авг '15 в 19:56
1 ответ

Могут ли компиляторы PGI выводить сгенерированный код Cuda в файл

Я хотел бы, чтобы сгенерированный код CUDA был сохранен в файле для проверки. Возможно ли это с компиляторами OpenAcc и PGI?
21 окт '15 в 15:38
0 ответов

Потребление памяти OpenACC

У меня есть программа на C++, которая имеет очень странное потребление памяти, поэтому, когда я использую -ta= многоядерный (и все циклы выполняются на многоядерном компьютере), моя программа "ест" ~700 МБ, а когда я запускаю с -ta=tesla:managed, я …
18 дек '18 в 20:27
1 ответ

Как реализовать определяемое пользователем сокращение с помощью OpenACC?

Есть ли способ реализовать пользовательское сокращение с помощью OpenACC, аналогичное объявлению сокращения в OpenMP? Чтобы я мог написать что-то вроде#pragma acc loop reduction(my_function:my_result) Или как правильно реализовать эффективное сокращ…
21 янв '19 в 18:35
2 ответа

Сокращение времени запуска ядер в пошаговом цикле - OpenACC

Я пытаюсь реализовать OpenACC на некотором коде Фортрана, который у меня есть. Код состоит из внешнего пошагового цикла (который нельзя распараллелить), и внутри цикла есть несколько вложенных циклов. Эти вложенные циклы могут быть распараллелены, н…
24 янв '19 в 21:46
0 ответов

Необходимо, чтобы память хоста была заблокирована на странице для достижения асинхронной передачи данных и вычислений на устройстве с помощью компилятора pgi?

Я тестировал асинхронную передачу данных между устройством nvidia-K80 на хост и суперпозицией ядра gpu с OpenACC. Мне удалось увидеть суперпозицию передачи и вычисления данных с помощью профилировщика nvprof при компиляции со следующей строкой. pgC+…
28 янв '19 в 17:36
1 ответ

Каковы возможности объединения CUDA, OpenCL и OpenACC в одной программе?

Каждый язык имеет свои преимущества и недостатки, но какие преимущества он предлагает объединить их все?
13 июн '18 в 10:54