Чтение дублированных сообщений через контрольные точки flink
Я пытаюсь использовать Apache Flink 1.6.0 для чтения некоторых сообщений из темы кафки, преобразования их и, наконец, отправки их в другую тему кафки. Я использую точки сохранения, чтобы сохранить состояние приложения в случае отмены и повторного запуска. Проблема в том, что у меня есть дублирование при чтении сообщений после перезагрузки. Кафка версия 011. Спасибо за любой полезный комментарий.
1 ответ
Чтобы избежать дубликатов, необходимо пройти Semantic.EXACTLY_ONCE
при настройке производителя кафки. См. Документацию для получения более подробной информации о потере и дублировании данных при работе с Kafka.