Записать Spark Dstream в один файл в Google Cloud Storage

Кто-нибудь работал над scala-разработкой для записи искровых потоков в один объединенный файл в облачном хранилище Google . На самом деле, я попробовал несколько методов, и все они не работали, поэтому я пытаюсь работать с новым, основанным на использовании метода saveAsNewAPIHadoopFile . Может ли кто-нибудь подтвердить, что этот метод позволяет записывать потоки в один сцепленный файл?

Я использовал этот метод в начале, но у меня есть несколько файлов деталей, которые не являются моей целевой выходной информацией, фактически для каждого сообщения, которое я получаю, файл детали:

val data = pubsubStream.map(message => new String(message.getData(), StandardCharsets.UTF_8))


 data.foreachRDD{ rdd =>
  import sparkSession.implicits._
  val df = rdd.toDF()
  df.repartition(1).write.mode("append").save(output)



}
ssc.start()
ssc.awaitTermination()

Для метода saveAsNewAPIHadoopFile я получаю ошибки компиляции, кто-нибудь знает, как его использовать. С уважением

0 ответов

Другие вопросы по тегам