Spark можно вручную указать количество разделов при выполнении textFile

Искра автоматически определит количество разделов в зависимости от размера входного файла. У меня есть два вопроса:

Могу ли я указать номер раздела, а не позволить спарк решить, сколько разделов?

Насколько плохо перетасовать, делая перераспределение? Это действительно дорого для производительности? В моем случае мне нужно переразметить "1", чтобы записать в один файл Parquet, раздел был "31". Насколько плохо? Зачем?

1 ответ

Не в состоянии сделать это, количество разделов определяется размером файла.

Перераспределение и объединение - это две функции, которые используются для перераспределения данных после их чтения.

Другие вопросы по тегам