Использование Spark структурированного потокового кластера

Question

Использование Spark структурированного потокового кластера

Я создавал искровое структурированное потоковое приложение и пытаюсь понять развертывание на EMR.

Приложение делает следующее;

Подписаться на тему Кафки
Агрегировать по временному окну и идентификатору пользователя

(чтобы избежать невозможности получения нескольких агрегаций одного и того же потока)

Напиши обратно Кафке
Подписаться на агрегированную тему дважды
Сделайте несколько глобальных агрегаций по пользователям в каждом окне
Присоединяйтесь к двум потокам
Выходной финальный поток

Я указываю местоположение контрольной точки для объединенного потока и конечного потока и применяю водяные знаки в течение 6 минут к потокам, к которым присоединяюсь. Я установил курок на 6 минут.

Все работает, как и ожидалось, загрузка процессора и памяти каждые 6 минут. Однако использование кластерной сети увеличивается для каждого пакета (см. Прикрепленное изображение). Что может быть причиной этого?

0

apache-spark spark-streaming spark-structured-streaming emr

Источник

user4809830 14 май '18 в 13:15

0 ответов

Другие вопросы по тегам apache-spark spark-streaming spark-structured-streaming emr