Как сравнить репликацию в больших данных

Постановка задачи -

Репликации являются обычными задачами в отрасли, и в равной степени важно проверять репликацию, если реплицированная база данных содержит те же данные, что и исходная база данных.

Пример -

У меня есть база данных D1, и для целей тестирования я копирую базу данных D1 в базу данных D2.

После завершения репликации я хочу проверить, идентичны ли обе базы данных, что можно сделать с помощью сравнения на уровне строк, однако это худшее решение для больших баз данных, где длина данных может быть в терабайтах.

Могут ли эксперты здесь предоставить решение или какой-либо намек на такие проблемы в реальном времени?

1 ответ

Могут ли специалисты здесь предоставить решение?

Каждая база данных решает проблему по-своему. Метод, который используется, зависит от архитектуры базы данных. Примеры:

  • Архитектура Кассандры + процесс, напоминающий репликацию,
  • Несколько "вещей" использует деревья Меркле. Например, в качестве репликации можно рассматривать команду "git clone". Новая реплика создана. Архитектура Git использует деревья Markle для соединения своих "внутренних файлов", так что это решение для самопроверки. То же самое касается биткойн-блокчейна,
  • когда существует потребность в "живой репликации" или, что лучше, в распределенных вычислениях, можно использовать более продвинутые решения, такие как Paxos.

(...) есть ли подсказка для таких задач в реальном времени?

Я не уверен, что вы хотели спросить, в чем заключаются проблемы, так что на всякий случай: с одной базой данных D1, реплицированной на D2, трудно сравнивать из-за объема данных, но самое главное, потому что D1 находится в реальном мире. По сценарию "живая" база данных, которая постоянно меняется.

Другие вопросы по тегам