Время Spark GC очень велико, вызывая медленное выполнение задачи

Я использую приложение spark на кластере из 5 узлов. Каждый узел имеет конфигурацию 16 ядер и 64 ГБ оперативной памяти.

В моем приложении 4 этапа. 3 этапа выполняются быстро для 4 этапа, т.е. mapToPair занимает слишком много времени (почти 4 часа).

Ниже приведена статистика работы для работы Исполнители GC Time

Я также проверил журналы исполнителей, не увидел ошибок / исключений. Не могли бы вы предложить мне, если какие-либо изменения конфигурации должны быть сделаны для повышения производительности?

2 ответа

Можно попробовать переразбить dataframe внутри приложения и увеличить ядра, с partitons=cores и еще раз проверить.

Другие вопросы по тегам