Как создать меньшее подмножество большого файла, используя спарк
У меня есть куча больших связанных файлов. Я хочу создать меньшие файлы с подмножеством данных из больших файлов. Как я могу добиться этого с помощью Apache Spark?
Я могу загрузить эти файлы, применить преобразования и создать подмножество записей в наборе данных. Я могу сделать df.show()
чтобы просмотреть их в системном драйвере. Но я не мог найти способ записать их в файл.
Все, что я хочу, - это вывод df.show в файл. Spark уже агрегирует результаты в драйверную программу для отображения этих данных. Почему нет способа записать их в файл!
Я вижу похожие вопросы. Но не вижу определенного ответа. coalesce(1)
не будет работать для меня, так как он слишком большой, чтобы сохранить в памяти одного раздела.
Если запись файла невозможна, какой другой вариант у меня есть, чтобы получить этот набор данных в таком месте, как база данных или что-то подобное? Я пробовал S3, но это занимает очень много времени и генерирует огромное количество файлов.
1 ответ
Просто limit
данные:
df: DataFrame
df.limit(10).write.format(...).save(...)