Как перестать увеличивать размер паркетных файлов при записи на диск, сделав переразметку

Question

Как перестать увеличивать размер паркетных файлов при записи на диск, сделав переразметку

Я пытаюсь объединить небольшие файлы размером менее 512 МБ в каталог hdfs. После объединения размер файлов на диске больше входного. Есть ли способ эффективно контролировать размер.

      Df=spark.read.parquet("/./")
Magic_number=(total size of input file / 512)

Df.repartition(Magic_number).write.save("/./")

Переразметка вызывает много перетасовок, а входные файлы имеют формат паркета.

0

apache-spark file disk controlling

Источник

user11393015 27 сен '21 в 16:51

1 ответ

Другие вопросы по тегам apache-spark file disk controlling

user10773088 27 сен '21 в 20:04 2021-09-27 20:04 · Answer 1 · 2021-09-27 20:04

      import org.apache.spark.util.SizeEstimator
val numBytes = SizeEstimator.estimate(df)

val desiredBytesPerFile = ???

df.coalesce(numBytes / desiredBytesPerFile).write.save("/./")

Это даст вам приблизительно количество байтов записи на файл.

0

Источник

user10773088 27 сен '21 в 20:04