Имя выходного файла в конечную папку в pyspark

Я хочу записать данные в выходную папку без стандартного формата искры:

Есть ли способ вывести данные только с определенным именем файла и расширением (json)?

Заранее благодарю за любую помощь!

1 ответ

Решение

Нет, нет. Это не предполагаемый вариант использования Spark, чтобы собрать все в один раздел, а затем записать его. Для обеспечения единообразного поведения количество разделов DataFrame игнорируется при записи набора данных, папка всегда создается, причем каждый файл в этой папке связан с обрабатываемым разделом.

Однако, если вы знаете, что драйвер может содержать раздел, вы можете использовать стандартные функции Python:

import json
data = [row.asDict() for row in dataframe.collect()]
with open("name_of_file.json", "w") as fh:
    json.dump(obj=data, fp=fh)

Обратите внимание, что в этом случае вы не получите формат JSONlines, но есть способы обойти это тоже.

Другие вопросы по тегам