Kafka KStream присоединиться к KStream | перезапустить производительность

Я планирую объединить две темы как KStreams в течение длительного периода (~1 неделя). Предполагая, что в этом окне будут накоплены сотни миллионов записей, сколько времени потребуется присоединяющемуся потребителю для перезапуска? Я спрашиваю об этом, потому что мне не удалось найти информацию о том, сколько записей из окна хранится в кэше потребителя.

1 ответ

Решение

По умолчанию данные, которые буферизируются в окне, хранятся в RocksDB, то есть на локальном диске. Следовательно, при перезапуске (на той же машине) ничего не нужно перезагружать, поскольку данные уже доступны.

Если вы перезагрузитесь на другом компьютере, все содержимое хранилища необходимо будет перечитать из темы Kafka (которая создает резервную копию хранилища, чтобы гарантировать отказоустойчивость). Сколько времени это займет, зависит от многих факторов, и это трудно оценить. Вы можете зарегистрировать "обратный вызов восстановления", чтобы отслеживать процесс восстановления. Это должно дать вам возможность провести несколько экспериментов, чтобы понять, сколько времени это может занять.

Другие вопросы по тегам