Использование Spark структурированного потокового кластера

Я создавал искровое структурированное потоковое приложение и пытаюсь понять развертывание на EMR.

Приложение делает следующее;

  • Подписаться на тему Кафки
  • Агрегировать по временному окну и идентификатору пользователя

(чтобы избежать невозможности получения нескольких агрегаций одного и того же потока)

  • Напиши обратно Кафке
  • Подписаться на агрегированную тему дважды
  • Сделайте несколько глобальных агрегаций по пользователям в каждом окне
  • Присоединяйтесь к двум потокам
  • Выходной финальный поток

Я указываю местоположение контрольной точки для объединенного потока и конечного потока и применяю водяные знаки в течение 6 минут к потокам, к которым присоединяюсь. Я установил курок на 6 минут.

Все работает, как и ожидалось, загрузка процессора и памяти каждые 6 минут. Однако использование кластерной сети увеличивается для каждого пакета (см. Прикрепленное изображение). Что может быть причиной этого?

Использование сети за последний час, каждая партия видит увеличение использования

Использование сети более 2 часов показывает тенденцию к росту

0 ответов

Другие вопросы по тегам