Скорость приема HDFS часто резко падает от всех агентов Flume. Как расследовать / исправить?
У меня есть кластер Hadoop хорошего размера, с несколькими агентами Flume (1 агент на машину, а не часть кластера), выполняющими запись в HDFSSink. Почти 95% времени частота завершения пакета Sink соответствует частоте исходных событий, что свидетельствует о минимальном использовании размера канала. Это идеальный сценарий.
Но время от времени все приемники агентов начинают страдать от очень низкой частоты выполнения пакетов и резервного копирования каналов, что, я думаю, является результатом снижения скорости загрузки HDFS. Это восстанавливается автоматически через несколько часов.
Какие-нибудь идеи / указатели относительно того, как исследовать / исправить этот сценарий?