Искра работы сервера аварии

Я запускаю работу с использованием искрового сервера заданий (занимает +-10 минут). Задание случайным образом завершается сбоем во время его выполнения (примерно 1 раз на 2) со следующим исключением для исполнителя:

ОШИБКА 2016-10-13 19:22:58,617 Logging.scala:95 - org.apache.spark.executor.Executor: Исключение в задаче 24.0 на этапе 1.0 (TID 25)
org.apache.spark.TaskKilledException: null
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:217) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1] в java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) [na:1.8.0_101] в java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_101] в java.lang.Thread.run(Thread.java:745)) [na: 1.8.0_101] ОШИБКА 2016-10-13 19:22:58,617 Logging.scala:95 - org.apache.spark.storage.DiskBlockObjectWriter: исключение исключения при восстановлении частичной записи в файл /var/lib/spark/rdd/spark-4e4b3899-3ba4-47ad-b3af-5a4431321c5a/executor-0e09bdd5-44ef-4cb1-9c18-7659de428f6b/blockmgr-cce06e16-035b-4536-b8be-99c14e897576b6-fb8-db8.nio.channels.ClosedByInterruptException: ноль в java.nio.channels.spi.AbstractInterruptibleChannel.end(AbstractInterruptibleChannel.java:202) ~[na:1.8.0_101]
    at sun.nio.ch.FileChannelImpl.truncate(FileChannelImpl.java:372) ~[na:1.8.0_101] в org.apache.spark.storage.DiskBlockObjectWriter.) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:79) [spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] ОШИБКА 2016-10-13 19:22: 58,617 Logging.scala: 95 - org.apache.spark.storage.DiskBlockObjectWriter: необнаруженное исключение при восстановлении частичной записи в файл / var / lib / spark / rdd / spark-4e4b3899-3ba4-47ad-b3af-5a4431321c5a / executor-0e09bdd5 44ef-4cb1-9c18-7659de428f6b/blockmgr-cce06e16-035b-4536-b8be-99c14e89757e/2b/temp_shuffle_ba04b671-f5a3-49c4-901e-879ead59f48a
java.nio.channels.ClosedByInterruptException: null
    at java.nio.channels.spi.AbstractInterruptibleChannel.end(AbstractInterruptibleChannel.java:202) ~[na:1.8.0_01].ch.FileChannelImpl.truncate(FileChannelImpl.java:372) ~[na:1.8.0_101]
    at org.apache.spark.storage.DiskBlockObjectWriter.revertPartialWritesAndClose(DiskBlockObjectWriter.scala:164) ~ 10.6-ядро.jar: 1.6.2.1] в org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.stop(BypassMergeSortShuffleWriter.java:226) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в org.apache. spark.scheduler.ShuffleMapTask.runTask (ShuffleMapTask.scala: 79) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в org.apache.spark.scheduler.ShuffleMapTask.runTask 41 (ShuffleMalaTask): [spark-core_2.10-1.6.2.1.jar: 1.6.2.1] в org.apache.spark.scheduler.Task.run(Task.scala:89) [spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:227) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1142) [na: 1.8.0_101] в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:617) [na: 0_101] в java.lang.Thread.run(Thread.java:745) [na:1.8.0_101] в org.apache.spark.scheduler.Task.run (Task.scala: 89) [spark-core_2.10- 1.6.2.1.jar: 1.6.2.1] в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 227) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1142) [na: 1.8.0_101] в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:617) [na: 1.8.0_01].lang.Thread.run (Thread.java:745) [na: 1.8.0_101] ОШИБКА 2016-10-13 19:22:58,617 Logging.scala:95 - org.apache.spark.storage.DiskBlockObjectWriter: необработанное исключение во время возврат частичной записи в файл /var/lib/spark/rdd/spark-4e4b3899-3ba4-47ad-b3af-5a4431321c5a/executor-0e09bdd5-44ef-4cb1-9c18-7659de428f6b/blockmgr-cce06e16-035b-4536-b8be-99c14e89757e/2b/temp_shuffle_ba04b671-f5a3-49c4-901e-879ead59f48a
java.nio.channels.ClosedByInterruptException: null в java.nio.channels.spi.AbstractInterruptible: канал.нан..0_101] в sun.nio.ch.FileChannelImpl.truncate (FileChannelImpl.java:372) ~ [na: 1.8.0_101] в org.apache.spark.storage.DiskBlockObjectWriter.revertPartialWritesAndClose (DiskBlockObalWriter): -core_2.10-1.6.2.1.jar:1.6.2.1]
    at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.stop(BypassMergeSortShuffleWriter.java:226) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в org.apache.spark.scheduler.ShuffleMapTask.runTask (ShuffleMapTask.scala: 79) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в org.apache.spark.scheduler.ShuffleMapTask. runTask (ShuffleMapTask.scala: 41) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в org.apache.spark.scheduler.Task.run (Task.scala: 89) [spark-core_2.10 -1.6.2.1.jar: 1.6.2.1] at org.apache.spark.executor.Executor $ TaskRunner.run (Executor.s cala: 227) [spark-core_2.10-1.6.2.1.jar:1.6.2.1] в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1142) [na: 1.8.0_101] в java.util. concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:617) [na: 1.8.0_101] в java.lang.Thread.run(Thread.java:745) [na:1.8.0_101]
....

Журнал драйверов:

[2016-10-14 10: 07: 22,701] INFO oassDAGScheduler [1efb38e8-eaa4-4bdc-8df7-b5047f713c02] [akka://JobServer/user/context-supervisor/9027f2fd-com.my.sparkJob] - задание 0 не выполнено: runJob at RDDFunctions.scala:37, заняло 94.010942 с
[2016-10-14 10:07:22,704] ИНФОРМАЦИЯ sjJobStatusActor [] [akka://JobServer/user/context-supervisor/9027f2fd-com.my.sparkJob/status-actor] - задание 1efb38e8-eaa4-4bdc-8df7 -b5047f713c02 закончил с ошибкой
[2016-10-14 10:07:22,705] ИНФОРМАЦИЯ aaDeadLetterActorRef [] [akka://JobServer/deadLetters] - сообщение [spark.jobserver.CommonMessages$JobErroredOut] от актера [akka://JobServer/user/context-supervisor/9027f2fd-com.my.sparkJob/status-actor#-2093845382] Актеру [akka: // JobServer / deadLetters] не был доставлен. [10] встреченные мертвые буквы, больше не будут регистрироваться. Это ведение журнала можно отключить или отрегулировать с помощью параметров конфигурации "akka.log-dead-letters" и "akka.log-dead-letters-while-shutdown".
[2016-10-14 10:07:22,705] ПРЕДУПРЕЖДЕНИЕ sjJobManagerActor [] [akka://JobServer/user/context-supervisor/9027f2fd-com.my.sparkJob] - Исключение из задания 1efb38e8-eaa4-4bdc-8df7-b5047f713c: 
org.apache.spark.SparkException: задание прервано из-за сбоя этапа: исключение при получении результата задания: java.lang.NullPointerException
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1431) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1419) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1418) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59) ~[scala-library-2.10.6.jar:na]
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47) ~[scala-library-2.10.6.jar:na]
    в org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1418) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:799) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:799) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в scala.Option.foreach(Option.scala:236) ~[scala-library-2.10.6.jar:na]
    в org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:799) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1640) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1599) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1588) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:620) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.SparkContext.runJob(SparkContext.scala:1832) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.SparkContext.runJob(SparkContext.scala:1845) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в org.apache.spark.SparkContext.runJob(SparkContext.scala:1922) ~[spark-core_2.10-1.6.2.1.jar:1.6.2.1]
    в com.datastax.spark.connector.RDDFunctions.saveToCassandra(RDDFunctions.scala:37) ~[spark-cassandra-connector_2.10-1.6.0.jar:1.6.0]
    в com.my.sparkJob.init(sparkJob.scala:228) ~[csm-spark-2016-10-14T10_04_36.212+02_00.jar:na]
    at com.my.sparkJob$.runJob(sparkJob.scala:166) ~[csm-spark-2016-10-14T10_04_36.212+02_00.jar:na]
    at com.my.sparkJob$.runJob(sparkJob.scala:122) ~[csm-spark-2016-10-14T10_04_36.212+02_00.jar:na]
    at com.my.sparkJob$.runJob(sparkJob.scala:119) ~[csm-spark-2016-10-14T10_04_36.212+02_00.jar:na]
    at spark.jobserver.JobManagerActor$$anonfun$spark$jobserver$JobManagerActor$$getJobFuture$4.apply(JobManagerActor.scala:235) ~[spark-job-server.jar:0.5.2.501]
    в scala.concurrent.impl.Future$PromiseCompletingRunnable.liftedTree1$1(Future.scala:24) ~[scala-library-2.10.6.jar:na]
    в scala.concurrent.impl.Future$PromiseCompletingRunnable.run(Future.scala:24) ~[scala-library-2.10.6.jar:na]
    в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1142) [na: 1.8.0_101]
    в java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) [na:1.8.0_101]
    at java.lang.Thread.run(Thread.java:745) [na:1.8.0_101]
[2016-10-14 10:07:22,708] INFO  sjLocalContextSupervisorActor [] [akka://JobServer/user/context-supervisor] - Отключение контекста 9027f2fd-com.my.sparkJob

У нас нет проблем с запуском работы с помощью spark-submit. Задание запускается с тем же объемом памяти / ядра на исполнителе с помощью сервера заданий (0.6.2 с DSE).

Любое предложение?

0 ответов

Другие вопросы по тегам