Сбой проверки HDFS в Spark Streaming

После развертывания задания потоковой передачи Spark на отдельном кластере Spark у меня возникли некоторые проблемы с контрольными точками. Журнал консоли выдает подсказку:

WARN ReliableCheckpointRDD: Error writing partitioner org.apache.spark.HashPartitioner@2 to hdfs://10.254.25.21:8020/path/1914a5db-96be-4634-b2ce-ee867119fd95/rdd-18129

Я использую HashPartitioner по умолчанию, разделяющий данные на два раздела. Я установил в своей директории контрольных точек HDFS свой мастер Spark и порт HDFS следующим образом:

ssc.checkpoint("hdfs://10.254.25.21:8020/path")

В моей работе я никогда не звоню вручную .checkpoint(duration) на любой DStream сам. Но я получил много потоков с состоянием в результате вызовов PairDStreams mapWithState(). Код перехвата исключения можно найти в строке ReliableCheckpointRDD 209ff. К сожалению, я не смог найти никаких ссылок на эту ошибку в Интернете.

В моей работе исключение генерируется для каждого сохраняющего состояние DStream при каждом запуске контрольной точки.

Любая помощь приветствуется!

Правка № 1

Это не влияет на правильность результатов. И все же мне интересно, ухудшается ли производительность, поскольку я делаю некоторый анализ производительности.

0 ответов

Другие вопросы по тегам