Время Spark GC очень велико, вызывая медленное выполнение задачи
Я использую приложение spark на кластере из 5 узлов. Каждый узел имеет конфигурацию 16 ядер и 64 ГБ оперативной памяти.
В моем приложении 4 этапа. 3 этапа выполняются быстро для 4 этапа, т.е. mapToPair занимает слишком много времени (почти 4 часа).
Ниже приведена статистика работы для работы
Я также проверил журналы исполнителей, не увидел ошибок / исключений. Не могли бы вы предложить мне, если какие-либо изменения конфигурации должны быть сделаны для повышения производительности?
2 ответа
Можно попробовать переразбить dataframe внутри приложения и увеличить ядра, с partitons=cores и еще раз проверить.
https://spark.apache.org/docs/latest/tuning.html
первая попытка.config("spark.executor.memory","8g")
http://www.oracle.com/technetwork/articles/java/g1gc-1984535.html