Имя выходного файла в конечную папку в pyspark

Question

Имя выходного файла в конечную папку в pyspark

Я хочу записать данные в выходную папку без стандартного формата искры:

Есть ли способ вывести данные только с определенным именем файла и расширением (json)?

Заранее благодарю за любую помощь!

1

pyspark azure-data-lake-gen2

Источник

user9467540 09 дек '19 в 21:34

1 ответ

Решение

Другие вопросы по тегам pyspark azure-data-lake-gen2

user2476444 09 дек '19 в 23:16 2019-12-09 23:16 · Accepted Answer · 2019-12-09 23:16

Нет, нет. Это не предполагаемый вариант использования Spark, чтобы собрать все в один раздел, а затем записать его. Для обеспечения единообразного поведения количество разделов DataFrame игнорируется при записи набора данных, папка всегда создается, причем каждый файл в этой папке связан с обрабатываемым разделом.

Однако, если вы знаете, что драйвер может содержать раздел, вы можете использовать стандартные функции Python:

import json
data = [row.asDict() for row in dataframe.collect()]
with open("name_of_file.json", "w") as fh:
    json.dump(obj=data, fp=fh)

Обратите внимание, что в этом случае вы не получите формат JSONlines, но есть способы обойти это тоже.