Использование Spark структурированного потокового кластера
Я создавал искровое структурированное потоковое приложение и пытаюсь понять развертывание на EMR.
Приложение делает следующее;
- Подписаться на тему Кафки
- Агрегировать по временному окну и идентификатору пользователя
(чтобы избежать невозможности получения нескольких агрегаций одного и того же потока)
- Напиши обратно Кафке
- Подписаться на агрегированную тему дважды
- Сделайте несколько глобальных агрегаций по пользователям в каждом окне
- Присоединяйтесь к двум потокам
- Выходной финальный поток
Я указываю местоположение контрольной точки для объединенного потока и конечного потока и применяю водяные знаки в течение 6 минут к потокам, к которым присоединяюсь. Я установил курок на 6 минут.
Все работает, как и ожидалось, загрузка процессора и памяти каждые 6 минут. Однако использование кластерной сети увеличивается для каждого пакета (см. Прикрепленное изображение). Что может быть причиной этого?