Расстояние между двумя фильтрами Блума
Я хочу сравнить два больших списка строк (возможно, до 4^31 элементов). Я пробовал Jaccard distance и MinHash (используя Perl на данный момент), которые дают хорошие результаты, но у меня проблема с памятью. Поэтому я представлял свои списки в виде фильтров Блума.
Есть ли способ приблизить расстояние Жакара, используя фильтры Блума в качестве входных данных? Или для этого есть альтернатива фильтрам Блума?