Поддержка PrestoDB для прибл.

Question

Поддержка PrestoDB для прибл.

Я оцениваю распределенные механизмы запросов для аналитических запросов (как интерактивных, так и пакетных) для крупномасштабных данных (~100 ГБ). Одним из требований является низкая задержка (<= 1 с) для отдельных запросов, где приемлемы приблизительные результаты (с ошибкой до 5%).

PrestoDB, кажется, поддерживает это с помощью прибл. Насколько я понимаю, для этого используется HyperLogLog. Однако, если данные не будут сохранены в свернутом виде вместе со значениями HyperLogLog, их придется вычислять на лету. Я не думаю, что мои запросы закончатся за секунду для больших наборов данных.

Поддерживает ли он накопление с вычислением HyperLogLog во время приема (аналогично Druid)? Учитывая, что в отличие от Druid, PrestoDB запрашивает данные из внешних хранилищ (Hive/Cassandra/RDBMS и т. Д.), Я не уверен, что сведения о времени приема поддерживаются, если только собственное хранилище Presto их не поддерживает. Может кто-нибудь подтвердить, пожалуйста?

0

prestodb approximate hyperloglog

Источник

user5408341 14 авг '17 в 12:36

2 ответа

Другие вопросы по тегам prestodb approximate hyperloglog

user65458 14 авг '17 в 14:04 2017-08-14 14:04 · Answer 1 · 2017-08-14 14:04

Нет такой вещи, как "родной магазин Престо". Presto - это механизм выполнения запросов с архитектурой коннекторов, позволяющий подключать несколько уровней хранения.

Если вы хотите, чтобы приблизительное число отличалось для всего набора данных, вы можете вычислить статистику таблицы (при использовании Presto с Hive это в настоящее время необходимо сделать в Hive).

Если вы хотите приблизительный подсчет для динамического выбора данных, вам все равно нужно прочитать данные. Тогда вы не получите второй задержки с таким большим набором данных. Тем не менее, вы можете объединить approx_distinct (или используйте обычный count(distinct ..)) с TABLESAMPLE ограничить размер прочитанных данных.

user8658563 22 сен '17 в 22:59 2017-09-22 22:59 · Answer 2 · 2017-09-22 22:59

Вы можете попробовать Verdict, который может значительно снизить затраты на обработку запросов, применяя статистику и приблизительную обработку запросов, обеспечивая точность 99,9%. Он работает на всех SQL-движках, включая Apache Hive, Apache Impala, Apache Spark, Amazon Redshift и т. Д.

Вы можете скачать исходный код здесь. После загрузки и некоторой простой настройки вы можете выполнить запрос, как обычно, и получить результаты за гораздо более короткое время.