Записать Spark Dstream в один файл в Google Cloud Storage
Кто-нибудь работал над scala-разработкой для записи искровых потоков в один объединенный файл в облачном хранилище Google . На самом деле, я попробовал несколько методов, и все они не работали, поэтому я пытаюсь работать с новым, основанным на использовании метода saveAsNewAPIHadoopFile . Может ли кто-нибудь подтвердить, что этот метод позволяет записывать потоки в один сцепленный файл?
Я использовал этот метод в начале, но у меня есть несколько файлов деталей, которые не являются моей целевой выходной информацией, фактически для каждого сообщения, которое я получаю, файл детали:
val data = pubsubStream.map(message => new String(message.getData(), StandardCharsets.UTF_8))
data.foreachRDD{ rdd =>
import sparkSession.implicits._
val df = rdd.toDF()
df.repartition(1).write.mode("append").save(output)
}
ssc.start()
ssc.awaitTermination()
Для метода saveAsNewAPIHadoopFile я получаю ошибки компиляции, кто-нибудь знает, как его использовать. С уважением