Я сталкиваюсь с проблемой с выводом писателя CSV pyspark2.2

Question

Я сталкиваюсь с проблемой с выводом писателя CSV pyspark2.2

Я хочу перенести код pyspark с 1.6 на 2.x. В 1.6 я использовал синтаксис

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .format(file_format) \
    .option("header", "true") \
    .save(nfs_path)

И получал вывод в формате ниже.

часть-00000

часть-00001

,,

Я запустил один и тот же код в pyspark2.2, он дал мне разные имена файлов частей

часть-00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

часть-00001-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

Затем я изменяю код согласно 2.x

input_df.repartition(number_of_files) \
    .write.mode(file_saveMode) \
    .option("header", "true") \
    .csv(nfs_path)

Но все тот же результат

часть-00000-2feefae7-47d7-4f1a-ade6-7dbd07f42f54-c000.csv

Может кто-нибудь помочь, почему это происходит?

0

python pyspark apache-spark-2.2

Источник

user3596552 02 июн '18 в 14:58

0 ответов

Другие вопросы по тегам python pyspark apache-spark-2.2