Отладка неудачных перемешиваний в Hadoop Map уменьшает
Я вижу, как увеличивается размер входного файла. Неудачные тасования увеличиваются, а время выполнения задания увеличивается нелинейно.
например.
75GB took 1h
86GB took 5h
Я также вижу увеличение среднего времени перемешивания в 10 раз
например.
75GB 4min
85GB 41min
Может кто-нибудь указать мне направление для отладки этого?
1 ответ
Всякий раз, когда вы уверены, что ваши алгоритмы верны, могут возникнуть проблемы с автоматическим разделением томов жесткого диска или фрагментацией где-то после этого порога в 75 ГБ, поскольку вы, вероятно, используете ту же файловую систему для кэширования результатов.