Как создать меньшее подмножество большого файла, используя спарк

У меня есть куча больших связанных файлов. Я хочу создать меньшие файлы с подмножеством данных из больших файлов. Как я могу добиться этого с помощью Apache Spark?

Я могу загрузить эти файлы, применить преобразования и создать подмножество записей в наборе данных. Я могу сделать df.show() чтобы просмотреть их в системном драйвере. Но я не мог найти способ записать их в файл.

Все, что я хочу, - это вывод df.show в файл. Spark уже агрегирует результаты в драйверную программу для отображения этих данных. Почему нет способа записать их в файл!

Я вижу похожие вопросы. Но не вижу определенного ответа. coalesce(1) не будет работать для меня, так как он слишком большой, чтобы сохранить в памяти одного раздела.

Если запись файла невозможна, какой другой вариант у меня есть, чтобы получить этот набор данных в таком месте, как база данных или что-то подобное? Я пробовал S3, но это занимает очень много времени и генерирует огромное количество файлов.

1 ответ

Просто limit данные:

df: DataFrame

df.limit(10).write.format(...).save(...)
Другие вопросы по тегам