Параллелизм в сервере Spark Job

Мы работаем над Qubole с Spark версии 2.0.2.

У нас есть многоэтапный процесс, в котором все промежуточные шаги записывают свои выходные данные в HDFS, а затем эти выходные данные используются на уровне отчетов.

Согласно нашему варианту использования, мы хотим избежать записи в HDFS и сохранить все промежуточные выходные данные в виде временных таблиц в spark и напрямую записывать окончательный вывод уровня отчетов.

Для этой реализации мы хотели использовать сервер заданий, предоставляемый Qubole, но когда мы пытаемся инициировать несколько запросов на сервере заданий, сервер заданий последовательно запускает мои задания.

Я наблюдал такое же поведение в кластере Databricks.

Кластер, который мы используем - 30 узлов, r4.2xlarge.

У кого-нибудь есть опыт запуска нескольких заданий с помощью сервера заданий?

Помощь сообщества будет принята с благодарностью!

0 ответов

Другие вопросы по тегам