pyspark + режим добавления создает новый файл вместо добавления к существующему файлу

Question

pyspark + режим добавления создает новый файл вместо добавления к существующему файлу

Я использую pyspark и записываю свой фрейм данных в файл csv с разделами. Я запланировал запуск этой искровой работы каждые 5 минут. Итак, вместо того, чтобы создавать файл каждые 5 минут, я хочуappendв существующий файл, так что я могу получать один файл в час. Я пробовал следующее:

df.write.mode('append').partitionBy("year", "month", "day").option("header", "true"). \
    csv('<required_path>')

Этот код создает несколько файлов в day папка вместо одного файла.

Что не так с этой реализацией?

Спасибо.

0

pyspark write

Источник

user3497321 25 июн '20 в 13:01

0 ответов

Другие вопросы по тегам pyspark write