SparkR Ошибка в if (returnStatus!=0)

Я установил спарк-кластер на EC2 с 20 узлами и установил все IP-адреса узлов в conf/slave мастера и запустил задание со SparkR и 50 срезами. Мои узлы являются двухъядерными с 4 ГБ памяти и в конце моей работы собирают результаты в CSV-файл, который должен содержать около 15000 строк (и 7 столбцов с плавающей запятой). Задание некоторое время работает нормально (6000 с), пока я не получу следующую ошибку от мастера (это не из главного журнала spakr, а из окна терминала, где я выполняю задание spark):

16/03/21 22:39:31 INFO TaskSetManager: Finished task 27.0 in stage 0.0 (TID 27) in 5954810 ms on ip-xxx-yy-xx-zzz.somewhere.compute.internal (8/40)
16/03/21 22:39:38 INFO TaskSetManager: Finished task 12.0 in stage 0.0 (TID 12) in 5962190 ms on ip-xxx-xx-xx-xxx.somewhere.compute.internal (9/40)
Error in if (returnStatus != 0) { : argument is of length zero
Calls: <Anonymous> -> <Anonymous> -> .local -> callJMethod -> invokeJava
Execution halted
16/03/21 22:40:16 INFO SparkContext: Invoking stop() from shutdown hook
16/03/21 22:40:16 INFO SparkUI: Stopped Spark web UI at http://172.31.21.134:4040
16/03/21 22:40:16 INFO DAGScheduler: Job 0 failed: collect at NativeMethodAccessorImpl.java:-2, took 6001.135894 s
16/03/21 22:40:16 INFO DAGScheduler: ShuffleMapStage 0 (RDD at RRDD.scala:36) failed in 6000.500 s
16/03/21 22:40:16 ERROR RBackendHandler: collect on 16 failed
16/03/21 22:40:16 ERROR LiveListenerBus: SparkListenerBus has already stopped! Dropping event SparkListenerStageCompleted(org.apache.spark.scheduler.StageInfo@6c9d21b2)
16/03/21 22:40:16 ERROR LiveListenerBus: SparkListenerBus has already stopped! Dropping event SparkListenerJobEnd(0,1458600016592,JobFailed(org.apache.spark.SparkException: Job 0 cancelled because SparkContext was shut down))
16/03/21 22:40:16 INFO SparkDeploySchedulerBackend: Shutting down all executors

Я проверил в журналах рабочих и вижу следующие две строки в конце файла журнала:

16/03/21 22:40:16 INFO CoarseGrainedExecutorBackend: Driver commanded
a shutdown 16/03/21 22:40:16 ERROR CoarseGrainedExecutorBackend:
RECEIVED SIGNAL 15: SIGTERM

и затем журнал резко останавливается (никаких других ошибок или предупреждений раньше). Я не вижу никаких намеков на то, что может вызвать сбой в файле журнала, я только предполагаю, что это может быть ошибка нехватки памяти, потому что когда я запускаю на сокращенном наборе входных данных, он работает нормально. Я что-то пропустил?

0 ответов

Другие вопросы по тегам