Spark Checkpoint

Я создал RDD следующим образом:

scala> val x = List(1,2,3,4)
x: List[Int] = List(1, 2, 3, 4)

scala> val y = sc.parallelize(ls,2)
y: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at <console>:29

scala> val z = y.map( c => c*2)
z: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[11] at map at <console>:31

scala> sc.setCheckpointDir("/tmp/chk")

scala> z.checkpoint

scala> z.count
res32: Long = 4

У меня вопрос, как читать данные из каталога контрольных точек

1 ответ

Как отмечает @Yuval Itzchakov, нам не нужно играть с контрольными точками. Контрольные точки используются Spark для обеспечения отказоустойчивости. Он широко используется в потоковых заданиях для состояния контрольной точки, а при отказе исполнителя может быть создан новый и данные могут быть загружены из контрольных точек.

Контрольные точки также имеют проблемы, когда вы изменяете свой код и хотите продолжить с того места, где было остановлено ваше последнее выполнение задания, так как он хранит код вместе с состоянием.

Вы на самом деле смотрите на persistили же cache вместо СДР?

Другие вопросы по тегам