Задание pyspark в qubole завершается с ошибкой "Повторная попытка вывода исключений при чтении"

У меня есть задание pyspark, запущенное через qubole, которое завершается ошибкой со следующей ошибкой.

Qubole > Shell Command failed, exit code unknown
Qubole > 2016-12-03 17:36:53,097 ERROR shellcli.py:231 - run - Retrying exception reading mapper output: (22, 'The requested URL returned error: 404 Not Found')

Qubole > 2016-12-03 17:36:53,358 ERROR shellcli.py:262 - run - Retrying exception reading mapper logs: (22, 'The requested URL returned error: 404 Not Found')

Задание выполняется со следующими конфигурациями:

--num-executors 38 --executor-cores 2 --executor-memory 12288M --driver-memory 4000M --conf spark.storage.memoryFraction=0.3 --conf spark.yarn.executor.memoryOverhead=1024

Кластер содержит 30 рабов. m2.2xlarge, 4 основных узла и подчиненные узлы.

Любое понимание основной причины проблемы будет полезно.

1 ответ

Во многих случаях - вышеприведенная ошибка действительно не является основной причиной отказа. В qubole задание spark отправляется с помощью shellCli ( 1 команда mapper, которая вызывает основной задание pyspark с использованием spark-submit на одном из подчиненных узлов) - и поскольку тот же процесс shellCli вызывает драйвер в режиме yarn-client - часто, если этот процесс идет плохо по любой причине (например, проблемы с памятью драйвера), тогда вы можете решить эту проблему. Другая менее вероятная причина может быть - сетевое подключение, когда уровень qubole не может подключиться к узлу процесса / ведомого, где выполняется это задание 1 mapper invoker.

Другие вопросы по тегам