Как оценить увеличение размера данных после создания нового индекса диапазона в MarkLogic?
Я хочу создать новый индекс диапазона элементов в моей базе данных ML. Как я могу оценить размер этого нового индекса? Я использую ML 8.0-3.2.
2 ответа
Лучше всего выполнить тест на репрезентативной выборке данных, а затем экстраполировать.
Строковые индексы совместно используют уникальные значения и уникальные токены в пределах подставки, поэтому размер будет сильно зависеть от количества различных значений, и это сложно предварительно вычислить.
Для других типов данных размер зависит от количества фактических значений в контенте. Если бы вы знали, что в среднем на документ и N документов было в среднем k значений, вы бы ожидали 8*N*k
байты или 16*N*k
байт, если у вас есть позиции включены. Индексы с плавающей точкой - половина этого размера; Точечные индексы двойные, если вы используете двойную точность.
Ключевые данные хранятся в MARKLOGIC_DATA_DIR (зависит от вашей установки) в подкаталоге Forests/<Forest Name>/
наряду с неключевыми данными. Ключевые и неключевые данные являются зависимыми. Если вы намереваетесь оценить, сколько дополнительного дискового пространства потребуется, если вы добавите новый индекс, возьмите размер всех каталогов лесов для вашей базы данных без этого индекса, затем добавьте индекс и вычтите.
Да, я знаю, что это не похоже на "оценку". Все остальное - приблизительное предположение.
Для "грубого предположения" - "это зависит" - и любое предположение должно быть нормализовано, если попытаться. В основном типичный размер текстового индекса соответствует the number of distinct terms * 8 * num-docs-that-have-that-term
,
Каждая запись индекса будет содержать как минимум одно 64-битное значение для каждого документа, содержащего этот термин. Кроме того, он (возможно, совместно с другими индексами) будет хранить закодированную версию этого термина.
Это "грубое предположение" может быть отклонено в 10 раз или более - в зависимости от вида индекса и распределения данных, сжатия и шифрования и т. Д. Следовательно, вам следует действительно сравнивать до и после индексации аналогичных индексов.