Как отлаживать приведенную ниже программу DPC++ с выгруженным на GPU ядром?

Я хочу запустить программу DPC++ в Intel GNU Project Debugger. Я загрузил Intel GDB из Intel OneAPI Basekit. Он поставляется с предустановленным OneAPI Basekit.

Ссылка для скачивания:

[https://software.intel.com/content/www/us/en/develop/tools/oneapi/base-toolkit.html#gs.ynm6aj]

Как отлаживать приведенную ниже программу DPC++ с выгруженным на GPU ядром? Как переключаться между подчиненными и потоками? Просмотрите приведенный ниже код.

      #include <CL/sycl.hpp>
#include <iostream>
// Location of file: <oneapi-root>/dev-utilities/<version>/include
#include "dpc_common.hpp"
#include "selector.hpp"

using namespace std;
using namespace sycl;

// A device function, called from inside the kernel.
static size_t GetDim(id<1> wi, int dim) {
  return wi[dim];
}

int main(int argc, char *argv[]) {
  constexpr size_t length = 64;
  int input[length];
  int output[length];

  // Initialize the input
  for (int i = 0; i < length; i++)
    input[i] = i + 100;

  try {
    CustomSelector selector(GetDeviceType(argc, argv));
    queue q(selector, dpc_common::exception_handler);
    cout << "[SYCL] Using device: ["
         << q.get_device().get_info<info::device::name>()
         << "] from ["
         << q.get_device().get_platform().get_info<info::platform::name>()
         << "]\n";

    range data_range{length};
    buffer buffer_in{input, data_range};
    buffer buffer_out{output, data_range};

    q.submit([&](auto &h) {
      accessor in(buffer_in, h, read_only);
      accessor out(buffer_out, h, write_only);

      // kernel-start
      h.parallel_for(data_range, [=](id<1> index) {
        size_t id0 = GetDim(index, 0);
        int element = in[index];  // breakpoint-here
        int result = element + 50;
        if (id0 % 2 == 0) {
          result = result + 50;  // then-branch
        } else {
          result = -1;  // else-branch
        }
        out[index] = result;
      });
      // kernel-end
    });

    q.wait_and_throw();
  } catch (sycl::exception const& e) {
    cout << "fail; synchronous exception occurred: " << e.what() << "\n";
    return -1;
  }

  // Verify the output
  for (int i = 0; i < length; i++) {
    int result = (i % 2 == 0) ? (input[i] + 100) : -1;
    if (output[i] != result) {
      cout << "fail; element " << i << " is " << output[i] << "\n";
      return -1;
    }
  }

  cout << "success; result is correct.\n";
  return 0;
}

1 ответ

Список потоков приложения можно просмотреть с помощью отладчика. Печатная информация включает идентификаторы потоков и местоположения, в которых потоки в настоящее время остановлены. Для потоков графического процессора отладчик также распечатывает активные полосы SIMD.GDB отображает потоки в следующем формате:

      <inferior_number>.<thread_number>:<SIMD Lane/s>

Вы можете переключить поток, а также полосу SIMD, чтобы изменить контекст, используя команду «thread», такую ​​как «thread 3: 4», «thread: 6» или «thread 7». Первая команда выполняет переключение на поток 3 и дорожку SIMD 4. Вторая команда переключает на дорожку 6 SIMD в текущем потоке. Третья команда переключает на поток 7. Выбранная по умолчанию дорожка будет либо ранее выбранной полосой, если она активна, либо первой активной полосой в потоке. Для получения дополнительных сведений перейдите по приведенной ниже ссылке, в которой объясняется, как отлаживать код на устройстве с графическим процессором.

[https://software.intel.com/content/www/us/en/develop/documentation/debugging-dpcpp-linux/top/debug-a-dpc-application-on-a-gpu/basic-debugging-1.html]

Другие вопросы по тегам