Вторичный индекс Кассандры против индексации DSE solr

Я хотел бы знать разницу в производительности для вторичного индекса Cassandra по сравнению с индексацией Solr DSE, размещенной на CF.

У нас есть несколько CF, на которые мы не поместили вторичные индексы, потому что у нас сложилось впечатление, что вторичные индексы (в конечном итоге) вызовут значительные проблемы производительности для тяжелых CF чтения / записи. Мы пытаемся обратиться к Solr, чтобы разрешить поиск этих CF, но похоже, что загрузка схемы индекса изменяет CF, чтобы иметь вторичные индексы в интересующих столбцах.

Хотите знать, отличается ли индексация Solr от вторичной индексации Кассандры? И приведет ли это в конечном итоге к медленным запросам (вставкам / чтениям) для CF с большими наборами данных и интенсивным чтением / записью? Если да, посоветуете ли вы пользовательскую индексацию (чего мы хотели бы избежать)? Кстати, мы также используем (пытаясь использовать) Solr для его пространственного поиска.

Спасибо за любые советы / ссылки, которые вы можете дать.


ОБНОВЛЕНИЕ: чтобы лучше понять, почему я задаю эти вопросы и посмотреть, задаю ли я правильный вопрос (ы) - описание нашего варианта использования:

Мы собираем сенсорные события - много! Мы храним их как во временных рядах CF (EventTL), так и в тощих CF (Event). Поскольку мы интенсивно пишем (вставляем и обновляем) в Event CF, мы не размещаем никаких вторичных индексов. В настоящее время наши запросы ограничиваются отдельными событиями через Event или временным диапазоном событий через EventTL (если только мы не создадим дополнительные толстые CF, чтобы разрешить запросы диапазона по другим свойствам событий).

Вот где DSE (Solr+Cassandra) может помочь нам. Мы подумали, что использование поиска Solr позволит нам избежать создания лишних жирных CF, чтобы разрешить поиск по другим свойствам событий, и позволит нам искать сразу по нескольким свойствам (location + text/properties). Однако анализ того, как меняется определение Event CF после добавления схемы индекса для Event через Solr, показывает, что были созданы вторичные индексы. Это приводит к вопросу о том, будут ли эти индексы создавать проблемы для вставки / обновления строк в событии (в конце концов). Нам необходимо иметь возможность вставлять новые события "быстро" - потому что события могут поступать со скоростью 1000+ в секунду.

2 ответа

Решение

Поскольку ваш вариант использования - пространственный поиск, я не думаю, что функция вторичного индекса Cassandra будет работать для вас. Вот довольно краткая статья о вторичных индексах, которые могут оказаться полезными: http://www.datastax.com/docs/1.1/ddl/indexes

Вы должны быть в состоянии сделать это с Solr.

Вот сообщение, которое должно быть актуально для вас:

http://digbigdata.com/geospatial-search-cassandra-datastax-enterprise/

Хотите знать, отличается ли индексация Solr от вторичной индексации Кассандры?

DSE Search использует API вторичной индексации Cassandra.

И приведет ли это в конечном итоге к медленным запросам (вставкам / чтениям) для CF с большими наборами данных и интенсивным чтением / записью?

Планирование емкости Lucene и Solr - хорошая идея, прежде чем превышать порог оптимальной производительности для данного кластера серверов.

Если да, посоветуете ли вы пользовательскую индексацию (чего мы хотели бы избежать)? Кстати, мы также (пытаемся использовать) Solr для его пространственного поиска.

Поисковые запросы DSE выполняются так же быстро, как запросы Apache Solr.

Другие вопросы по тегам