Является ли дублированный ключ законной проблемой при сканировании базы данных KV на основе LSM-дерева?
Привет, я узнал, что один ключ может отображаться более одного раза в базе данных на основе LSM-дерева. Это связано с тем, что ключ записывается на диск путем добавления вместо перезаписи.
Я понимаю, что если мы хотим прочитать значение ключа, мы можем просто прочитать файлы данных в обратном порядке времени и просто использовать первое встреченное значение.
Однако что, если мы хотим просканировать всю базу данных на наличие какого-то аналитического запроса? В этом случае мы должны сканировать все файлы данных на диске, потому что мы не можем игнорировать ни один ключ. Но если мы просканируем все файлы данных, то если ключ появится более одного раза, это дублирование приведет к нарушению корректности, верно?
Спасибо.