Отладка неудачных перемешиваний в Hadoop Map уменьшает

Я вижу, как увеличивается размер входного файла. Неудачные тасования увеличиваются, а время выполнения задания увеличивается нелинейно.

например.

75GB took 1h
86GB took 5h

Я также вижу увеличение среднего времени перемешивания в 10 раз

например.

75GB 4min
85GB 41min

Может кто-нибудь указать мне направление для отладки этого?

1 ответ

Всякий раз, когда вы уверены, что ваши алгоритмы верны, могут возникнуть проблемы с автоматическим разделением томов жесткого диска или фрагментацией где-то после этого порога в 75 ГБ, поскольку вы, вероятно, используете ту же файловую систему для кэширования результатов.

Другие вопросы по тегам