Эластичный поиск - подходящая ли это база данных для команды аналитиков?

Я являюсь членом группы аналитики, которая недавно переместила свое хранилище данных в Elastic Search. Доступ к DW осуществляется через Dremio.

Однако у меня возникли сомнения относительно того, является ли Elastic Search подходящей базой данных для группы аналитиков, которая выполняет множество повседневных аналитических операций. Я бы предпочел, чтобы мы хранили наш DW в одном из BigQuery/Snowflake/Redshift и использовали инструмент "dbt" для преобразования данных и записи их обратно в БД.

Я не могу найти инструмент, похожий на "dbt", для выполнения быстрого преобразования данных после чтения из эластичного поиска, а Dremio не является достаточно зрелым инструментом для этого. Я хотел бы узнать ваши мысли об Elastic Search и о том, подходит ли БД для повседневной аналитики.

Я ценю ваши ответы.

Изменить: я работаю в интернет-магазине. Наши данные ни в каком смысле не являются "большими данными". Порядка нескольких тысяч заказов в день. Большая часть нашей работы - это ответы на запросы различных команд / отделов. Некоторые из этих вопросов выходят за рамки простого запроса. Мы должны создавать индивидуальные витрины данных, которые включают несколько промежуточных этапов. В результате нам нужен инструмент, который позволил бы нам быстро преобразовывать данные и помещать набор результатов в базу данных. Одним из таких инструментов является "dbt", но он не поддерживает эластичный поиск. Итак, вопрос в том, есть ли подходящий инструмент для этой работы или эластичный поиск не подходит для нашего варианта использования.

1 ответ

Принимая во внимание

Наши данные ни в каком смысле не являются "большими данными".

скорее всего, ElasticSearch не подходит. Единственная причина использовать ES - это множество поисковых запросов с фильтрацией "содержит" по полям текстового типа и только в том случае, если набор данных слишком велик для достаточно быстрой обработки этих запросов SQL-совместимой базой данных.

Похоже, PostgreSQL справится с этой задачей. Если вам нужна колоночная БД для быстрых OLAP-запросов (агрегатов), вы можете проверить ClickHouse с открытым исходным кодом.

Наконец, Dremio - не единственный инструмент бизнес-аналитики, который может работать с ElasticSearch (или PostgreSQL, ClickHouse и т. Д.). Некоторые инструменты бизнес-аналитики позволяют использовать "безболезненные" сценарии для измерений / мер, и вы можете рассчитывать многие вещи непосредственно в запросах ES.

В зависимости от того, какие конкретные метрики вам нужны, агрегирование ES может поддерживать множество базовых метрик. По соображениям стоимости и меньшей инфраструктуры для поддержки и уменьшения сложности я обычно советую компаниям начинать с этого, прежде чем начинать проектировать или преждевременно оптимизировать.

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html

Другие вопросы по тегам