Сбой проверки HDFS в Spark Streaming
После развертывания задания потоковой передачи Spark на отдельном кластере Spark у меня возникли некоторые проблемы с контрольными точками. Журнал консоли выдает подсказку:
WARN ReliableCheckpointRDD: Error writing partitioner org.apache.spark.HashPartitioner@2 to hdfs://10.254.25.21:8020/path/1914a5db-96be-4634-b2ce-ee867119fd95/rdd-18129
Я использую HashPartitioner по умолчанию, разделяющий данные на два раздела. Я установил в своей директории контрольных точек HDFS свой мастер Spark и порт HDFS следующим образом:
ssc.checkpoint("hdfs://10.254.25.21:8020/path")
В моей работе я никогда не звоню вручную .checkpoint(duration)
на любой DStream сам. Но я получил много потоков с состоянием в результате вызовов PairDStreams mapWithState(). Код перехвата исключения можно найти в строке ReliableCheckpointRDD 209ff. К сожалению, я не смог найти никаких ссылок на эту ошибку в Интернете.
В моей работе исключение генерируется для каждого сохраняющего состояние DStream при каждом запуске контрольной точки.
Любая помощь приветствуется!
Правка № 1
Это не влияет на правильность результатов. И все же мне интересно, ухудшается ли производительность, поскольку я делаю некоторый анализ производительности.