Какие методы согласования данных доступны для проверки потоков Debezium CDC?
Я пытался найти онлайн-документацию или блоги о подходах к проверке полноты сквозного сбора CDC, также известной как «согласование данных». В моей компании мы используем как Debezium для PG, так и Mongo для захвата потоков изменений и их репликации в нашу DWH Snowflake через Kafka. Существуют ли специальные методы, позволяющие убедиться, что WAL или оплог на 100 % соответствуют захваченным событиям? Может быть, выставляя примитивы для операций подсчета / контрольной суммы WAL / oplog в качестве полей метрик / метаданных для сравнения с подсчетами событий изменения? Хотя есть несколько предложений, которые призваны помочь в этом (например , BryteFlow, Redgate), мне любопытно узнать, существуют ли специальные или открытые подходы к этой проблеме, и есть ли какие-либо онлайн-ресурсы, которые я мог пропустить.
Кроме того, я очень удивлен, что это больше обсуждается в блогах и в Интернете, учитывая, насколько важно иметь уверенность в потоках репликации. У меня был только ограниченный успех, я нашел только следующие ресурсы:
- https://sirupsen.com/napkin/problem-14-using-checksums-to-verify
- https://www.guru99.com/what-is-data-reconciliation.html
- https://blog.metamirror.io/cdc-drift-and-reconciliation-6cc524aa8c28
- https://shopify.engineering/capturing-every-change-shopify-sharded-monolith
- https://aws.amazon.com/blogs/big-data/build-a-distributed-big-data-reconciliation-engine-using-amazon-emr-and-amazon-athena/