Описание тега hyperloglog

Hyperloglog is an approximate technique for computing the number of distinct entries in a set.
1 ответ

Пояснение к алгоритму HyperLogLog

Прежде всего позвольте мне начать с того, что я прочитал этот вопрос. Так что, прогуливаясь по Интернету, я наткнулся на этот алгоритм, и мне стало интересно, как он работает. Прочитав об этом, я понял, как он подсчитывает количество просмотров, исп…
27 май '17 в 21:23
0 ответов

Аналитика базы данных Teradata Aster - функции SQL-MR - приблизительно независимы?

Я нахожусь в незавидном положении при написании рекомендаций по повышению производительности для платформы данных, у меня нет доступа к рабочему экземпляру - базе данных Teradata Aster. Так что я не могу просто попробовать это. У кого-нибудь есть оп…
15 июн '18 в 18:35
2 ответа

Лучший метод пересечения огромных HyperLogLogs в Redis

Проблема проста: мне нужно найти оптимальную стратегию для реализации точных объединений HyperLogLog на основе их представления Redis - это включает обработку их разреженных / плотных представлений, если структура данных экспортируется для использов…
07 май '15 в 16:20
0 ответов

Сохранение и чтение гиперлога из БД

Я пытаюсь реализовать алгоритм Hyperloglog в моем приложении (угловой). Я нашел библиотеку hyperloglog32(npm), но у меня проблемы с сохранением и чтением из БД (mongo). Объект, который я пытаюсь сохранить, выглядит так: <Buffer 00 00 00 00 00 00 …
21 фев '19 в 16:29
3 ответа

Быстрый способ оценить количество элементов выше заданного порога? Вероятностная структура данных?

У меня есть большой список значений, составленный в диапазоне от 0 до 100 000 (для ясности представлен здесь как буквы). В каждом входе может быть несколько тысяч элементов. [a a a a b b b b c f d b c f ... ] Я хочу найти количество чисел с количест…
11 окт '15 в 19:26
1 ответ

Реализация HyperLogLog на Redis не распознана

Я пытаюсь запустить простой код, который просто вставляет значение в ключ, используя операцию PFADD, но я получаю эту ошибку: ResponseError: неизвестная команда 'PFADD' Мой код выглядит следующим образом: import pandas as pd import redis r = redis.S…
22 ноя '16 в 22:10
1 ответ

Реализация HyperLogLog с помощью Spark Batch + Cassandra

Я ищу реализовать алгоритм HyperLogLog для подсчета отдельных пользователей для разных сегментов аудитории (или фильтров). Я пользуюсь Cassandra + Spark batch. Хотите знать, если Кассандра предоставляет какую-либо поддержку для типа HyperLogLog. Я н…
16 ноя '16 в 01:02
6 ответов

Алгоритмы LogLog и HyperLogLog для подсчета больших мощностей

Где я могу найти правильную реализацию алгоритма LogLog? Я пытался реализовать это самостоятельно, но мой черновой вариант реализации дает странные результаты. Вот оно: function LogLog(max_error, max_count) { function log2(x) { return Math.log(x) / …
1 ответ

Аппроксимация количества элементов для операций логического множества - ("HyperLogLog" для AND/OR/XOR)

В настоящее время мы сталкиваемся с интересной проблемой. Мы хотели бы оценить мощность набора без необходимости хранить каждый отдельный элемент (как правило, битовые карты / битовые наборы - хороший подход). Очень хорошим алгоритмом является так н…
2 ответа

BigQuery: Как объединить эскизы HLL в оконную функцию? (Посчитайте разные значения по скользящему окну)

Пример соответствующей схемы таблицы: +---------------------------+-------------------+ | activity_date - TIMESTAMP | user_id - STRING | +---------------------------+-------------------+ | 2017-02-22 17:36:08 UTC | fake_id_i24385787 | +-------------…
21 фев '19 в 20:39
1 ответ

Счетчик сгруппирован по категории, автору и дате в Redis

Я внедряю систему, которая хранит большое количество данных в реляционной БД. Данные можно классифицировать по категориям и иметь автора. Я хочу получить количество элементов, сгруппированных по дате, категории и автору, а также сумму всех элементов…
27 апр '15 в 15:52
1 ответ

Как вы тестируете реализацию Hyperloglog?

Существует так много реализаций Hyperloglog, но как проверить / протестировать реализацию Hyperloglog? Чтобы проверить это "точность", это поведение, связанное с ошибкой? Просто бросить несколько статических тестовых случаев выглядит очень неэффекти…
08 янв '16 в 18:07
2 ответа

Есть ли эффективный способ уменьшить ошибку в HyperLogLog (Redis)?

В redis мы рассматриваем hyperLogLog как установленный для отдельных элементов. Как известно, для каждого ключа HLL потребляет только 12 КБ памяти и производит приближения со стандартной ошибкой 0,81%. Так как у меня есть так много элементов для под…
2 ответа

Поддержка PrestoDB для прибл.

Я оцениваю распределенные механизмы запросов для аналитических запросов (как интерактивных, так и пакетных) для крупномасштабных данных (~100 ГБ). Одним из требований является низкая задержка (<= 1 с) для отдельных запросов, где приемлемы приблизите…
14 авг '17 в 12:36
1 ответ

Как получить в семье независимую универсальную хеш-функцию?

Я пытаюсь реализовать алгоритм подсчета гиперлоглогов с использованием стохастического усреднения. Для этого мне нужно много независимых универсальных хеш-функций для хеширования элементов в разных подпотоках. Я обнаружил, что в hashlib доступно все…
20 апр '16 в 07:57
1 ответ

Redis Hyperloglog - побочный эффект PFCOUNT

Redis недавно выпустил свою новую структуру данных под названием HyperLogLog. Это позволяет нам вести подсчет уникальных объектов и занимает только 12 Кбайт. Чего я не понимаю, так это того, что команда Redis PFCOUNT технически называется командой з…
19 апр '14 в 00:31
0 ответов

Удаляйте дубликаты с помощью структурированной потоковой передачи Spark

Я работаю над реализацией потокового приложения Spark, и мне нужно удалить дубликаты строк на основе указанного столбца. Я использую следующий код Scala, но получаю ошибки. val intermediateDataframe = df.select(COLUMN_UUID, FUNCTIONAL_ID) .withColum…
1 ответ

Redis HLL слишком много ложных срабатываний

Журнал Hyperlog - это вероятностный алгоритм. Согласно документу Redis HLL, мы можем получить 0,81% ошибок, но я получаю ошибки, такие как 17-20%. Я думаю, что-то не так.. Это мой простой сценарий тестирования Perl. Есть ли какая-то ошибка #!/usr/bi…
21 мар '17 в 10:27
1 ответ

Атомно-вероятностный подсчет и набор членства в MongoDB

Я ищу, чтобы сделать вероятностный подсчет и установить членство, используя такие структуры, как фильтры Блума и гиперлоглог. Я предполагаю, что могу хранить такие структуры как двоичные данные, но я не хочу использовать оптимистическую блокировку (…
28 апр '15 в 18:41
2 ответа

Применение HyperLogLog к выборке населения

Алгоритм HyperLogLog от Flajolet и др. Описывает умный способ оценки мощности множества, используя только небольшой объем памяти. Тем не менее, он учитывает все N элементов исходного набора в расчете. Что если бы у нас был доступ только к небольшой …
25 ноя '12 в 16:01