Как скорость обработки и интервал триггера взаимодействуют в искровой структурированной потоковой передаче?

Я хотел бы понять следующее:

В структурированной потоковой передаче Spark существует понятие триггера, который сообщает, через какой интервал спарк попытается прочитать данные, чтобы начать обработку. Я хотел бы знать, как долго может длиться операция чтения? В частности, в контексте Кафки, что именно происходит? Допустим, мы настроили искру для получения последних смещений всегда. Что я хочу знать, так это то, пытается ли Spark считывать произвольный объем данных (начиная с того места, где он был остановлен до последнего доступного смещения) для каждого триггера? Что если операция чтения длиннее интервала? Что должно произойти в этот момент?

Интересно, можно ли установить время операции подготовки, как в каждом триггере, продолжать готовиться в течение этого времени? Или же скорость фактически контролируется двумя следующими способами: (1) Вручную с maxOffsetsPerTrigger, и в этом случае триггер на самом деле не имеет значения, (2) Выберите триггер, который имеет смысл в отношении того, сколько данных у вас может быть доступно и быть в состоянии обрабатывать между триггерами. Параметры секунд звучат довольно сложно для калибровки.

Если бы кто-то мог попытаться уточнить это для меня, был бы очень признателен.

Спасибо

0 ответов

Другие вопросы по тегам