Проблема с искрой при вызове "Завершение работы" до сообщения об окончательном статусе (Закрыто)
Я пытаюсь запустить искру на работающем кластере Hadoop. Когда я запускаю свою работу на Python с небольшим размером набора данных, кажется, все работает нормально. Однако, когда я использую больший набор данных, задача не выполняется, и в диспетчере ресурсов hadoop я получаю диагностику:
Отключение ловушки вызывается до того, как будет сообщено окончательное состояние
Команда, которую я использую для запуска задания:
spark-submit --master yarn --deploy-mode cluster --conf \
spark.yarn.appMasterEnv.SPARK_HOME=/dev/null --conf \
spark.executorEnv.SPARK_HOME=/dev/null project-spark.py
Это всего лишь тестовый код, который генерирует некоторые данные и запускает алгоритм Spark KMeans на сгенерированных данных.
Любые идеи, что я должен делать? Любая помощь очень ценится...
Также я использую Spark v2.0.0 в кластере Hadoop v2.6.0, состоящем из 4 рабочих, и использую Anaconda2 v4.1.1
____ обновление
Как предложил @rakesh.rakshit, я выполнил задание с параметрами --master yarn-client
и контролировал задачу. Я обнаружил, что, как предположил @ShuaiYuan, на самом деле у меня была часть памяти, которая не выполнялась с помощью функций Spark, которая вызывала проблему.
Кроме того, похоже, что от Spark 1.4.0 не требуется устанавливать SPARK_HOME
переменная, так как эта проблема была решена.