Spark можно вручную указать количество разделов при выполнении textFile
Искра автоматически определит количество разделов в зависимости от размера входного файла. У меня есть два вопроса:
Могу ли я указать номер раздела, а не позволить спарк решить, сколько разделов?
Насколько плохо перетасовать, делая перераспределение? Это действительно дорого для производительности? В моем случае мне нужно переразметить "1", чтобы записать в один файл Parquet, раздел был "31". Насколько плохо? Зачем?
1 ответ
Не в состоянии сделать это, количество разделов определяется размером файла.
Перераспределение и объединение - это две функции, которые используются для перераспределения данных после их чтения.