pyspark + режим добавления создает новый файл вместо добавления к существующему файлу
Я использую pyspark и записываю свой фрейм данных в файл csv с разделами. Я запланировал запуск этой искровой работы каждые 5 минут. Итак, вместо того, чтобы создавать файл каждые 5 минут, я хочуappend
в существующий файл, так что я могу получать один файл в час. Я пробовал следующее:
df.write.mode('append').partitionBy("year", "month", "day").option("header", "true"). \
csv('<required_path>')
Этот код создает несколько файлов в day
папка вместо одного файла.
Что не так с этой реализацией?
Спасибо.