Метрики производительности в базах данных NoSQL
Я пытаюсь провести сравнительный анализ базы данных NoSQL (т.е. Cassandra) с помощью инструмента сравнительного анализа YCSB. Для этого мне, очевидно, необходимо установить показатели производительности, по которым я буду измерять производительность. Я решаю выбрать Read
, write
а также update
, Теперь я совершенно не уверен, что они являются правильными метриками для выбора, или могут быть что-то вроде Scale-up
и / или elastic speedup
Стоит ли выбирать? Пожалуйста, дайте мне предложение.
1 ответ
Вы упомянули задержку операции (чтение, запись, обновление). Это определенно очень важный показатель, поэтому вы должны разработать тесты, которые показывают, как изменяется задержка в этих сценариях:
- Задержка срабатывания при различных нагрузках (операций в секунду).
- Задержка операций для различных рабочих нагрузок (учитывайте различные сочетания или процент операций в рабочей нагрузке).
- (Менее важно) Задержка операции для разных распространений ключевой популярности.
Кроме того, другие вещи, которые вы можете проверить:
- Упругое ускорение: влияние (на задержку работы) добавления серверов в сети.
- Отказоустойчивость: влияние (на задержку работы) случайного отказа серверов.
- Балансировка нагрузки: насколько хороша БД в балансировке нагрузки между серверами, учитывая разные распределения популярности ключей и разную временную локализацию в рабочих нагрузках.
- Масштабируемость: как наличие большего или меньшего количества узлов влияет на задержку работы. В этом случае серверы НЕ добавляются в сеть (это будет эксперимент с эластичным ускорением).
- Если вы проводите эксперименты на EC2, то как выбор типа экземпляра EC2 (средний, большой и т. Д.) Влияет на производительность.
Кроме того, рассмотрите возможность использования гистограмм или прямоугольников для наблюдения влияния на задержку, поскольку построение графиков только средних значений не позволяет измерить изменчивость задержки.
Наконец, взгляните на этот документ VLDB для большего количества идей.