Описание тега minhash
MinHash is a probabilistic hashing technique for quickly estimating how similar two sets are.
2
ответа
Лучший метод пересечения огромных HyperLogLogs в Redis
Проблема проста: мне нужно найти оптимальную стратегию для реализации точных объединений HyperLogLog на основе их представления Redis - это включает обработку их разреженных / плотных представлений, если структура данных экспортируется для использов…
07 май '15 в 16:20
2
ответа
Генерация случайных хеш-функций для алгоритма LSH Minhash
Я программирую алгоритм хеширования в Java, который требует от меня генерирования произвольного числа случайных хеш-функций (в моем случае 240 хеш-функций) и запускаю любое количество целых чисел через него (в настоящий момент 2000). Для этого я ген…
10 июл '14 в 12:11
1
ответ
Должны ли мы считать два набора одинаковыми, если их строки содержат одинаковые хэши, но в разном порядке?
Предположим, у нас есть сигнатуры minhash для двух наборов, и мы хотим вычислить сходство Жакара двух наборов. У нас есть: -> S1 S2 h1 0 1 h2 1 2 h3 2 0 h4 3 3 S1 и S2 имеют одинаковые подписи в разных порядках. Является ли сходство Жакара 1/8 ил…
20 фев '16 в 13:18
1
ответ
Mahout minhash org.apache.hadoop.io.LongWritable не может быть приведен к org.apache.hadoop.io.Text
Я использую: hadoop-1.2.1 и mahout-distribution-0.8 Когда я пытаюсь запустить метод HASHMIN с помощью следующей команды: $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.minhash.MinHashDriver -i tce-data/cv.vec -o tce-data/out/cv/minHashDriver/ …
11 сен '13 в 00:21
6
ответов
Можете ли вы предложить хорошую реализацию minhash?
Я пытаюсь найти реализацию с открытым исходным кодом minhash, которую я могу использовать для своей работы. Функциональность, в которой я нуждаюсь, очень проста, учитывая набор в качестве входных данных, реализация должна возвращать свой minhash. Ре…
26 янв '13 в 03:01
0
ответов
Спарк МинХашЛШ никогда не прогрессирует
Я новичок в спарке, но я пытаюсь создать сетевые кластеры, используя предоставленные пользователем теги или атрибуты. Сначала я использую алгоритм jaccard minhash для получения оценок сходства, а затем запускаю его с помощью алгоритма кластеризации …
20 июл '17 в 15:24
1
ответ
Как мне найти k-ближайшие значения в n-мерном пространстве?
Я читал о kd-деревьях, но они неэффективны, когда размерность пространства высока. У меня есть база данных значений, и я хочу найти значения, которые находятся в пределах определенного расстояния Хемминга запроса. Например, база данных представляет …
06 мар '10 в 13:49
0
ответов
Сериализация против модели векторного пространства для minhash
Datasketch для minhash не использует модель векторного пространства, это быстрее, чем преобразование данных в модель векторного пространства для вычисления и сравнения minhash? Ссылка на набор данных: Datasketch
16 янв '18 в 08:24
1
ответ
Реализация LSH для поиска кластеров
Привет, ребята. Я очень новичок в области обмена стеками, и сейчас я занимаюсь исследованием теории графов. Набор вопросов, которые я собираюсь задать, очень вводный, так как я программист начального уровня (не знаком с хэшированием, сегментами, век…
02 дек '14 в 08:33
0
ответов
Как рассчитать сигнатуру Minhash для заданной матрицы характеристик с помощью Spark
У меня есть DataSet следующее: +----+---------+-------------------------+ |key |value |vector | +----+---------+-------------------------+ |key0|[a, d] |(5,[0,2],[1.0,1.0]) | |key1|[c] |(5,[1],[1.0]) | |key2|[b, d, e]|(5,[0,3,4],[1.0,1.0,1.0])| |key…
03 фев '18 в 23:18
2
ответа
Реализация локально-чувствительного хеширования с минимальным хешем
Я прочитал много уроков, документов и фрагментов кода, реализующих LSH (хеширование с учетом локальных особенностей) с минимальным хэшированием. LSH пытается найти коэффициент Жакара для двух множеств, хэшируя случайные подмножества и агрегируя по н…
07 янв '13 в 21:11
1
ответ
Реализация minhash LSH с использованием Spark (Java)
Это довольно долго, и я сожалею об этом. Я пытался реализовать алгоритм Minhash LSH, рассмотренный в главе 3, используя Spark (Java). Я использую игрушку, как это: +--------+------+------+------+------+ |element | doc0 | doc1 | doc2 | doc3 | +------…
05 фев '18 в 02:35
2
ответа
Хранение результата Minhash
Результатом является фиксированное количество массивов, скажем, списков (все одинаковой длины) в python. Можно было бы также видеть это как матрицу, поэтому в c я бы использовал массив, где каждая ячейка указывала бы на другой массив. Как это сделат…
05 май '16 в 23:50
1
ответ
MinHashing vs SimHashing
Предположим, у меня есть пять наборов, которые я бы хотел сгруппировать. Я понимаю, что техника SimHashing описана здесь: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ может дать три кластера ({A}, {B,C,D} а также {E})…
12 июн '15 в 14:50
2
ответа
Как хешировать векторы в сегменты в локально-чувствительном хешировании (с использованием расстояния jaccard)?
Я внедряю приложение поиска соседей, которое найдет похожие документы. До сих пор я прочитал значительную часть материалов, связанных с LSH (теория, лежащая в основе LSH, является своего рода путаницей, и я пока не могу понять ее на 100%). Мой код с…
08 апр '14 в 20:04
0
ответов
Использование битовой выборки для построения minhash
Я использовал эту прекрасную статью о хешировании, чувствительном к локальности, чтобы построить свою собственную схему хеширования, чувствительной к локальности, которая разветвляется в знании предметной области - я имею в виду мое знание только то…
05 фев '18 в 10:45
1
ответ
Как получить Пересечение и Объединение двух Серий в Пандах с неуникальными значениями?
Если бы у меня было 2 объекта Серии, вот так: [0,0,1] [1,0,0] Как бы я получил пересечение и объединение двух? Они содержат только логические значения, что означает, что они не являются уникальными значениями. У меня есть большая логическая матрица.…
18 ноя '17 в 05:29
1
ответ
Как кластеризовать наборы (пользователи / документы) с распределенным MinHash, используя технику объединения?
У меня есть большие сомнения в том, как я должен кластеризовать наборы, используя MinHash вместе с техникой объединения. Я предполагаю, что все читатели хорошо знают MinHash, поэтому я не буду определять большинство используемых мной терминов. Моя ц…
24 май '16 в 13:51
0
ответов
MinHash Реализация Spark
Я пытаюсь реализовать алгоритм MinHash, как описано в главе 3, как можно проще в Spark. Я много искал везде. Ну, я решил следить за реализацией этого блога, как предлагает Билл Дим: https: //blog.cluster-text.com/tag/minhash/ Я просто чувствую, что …
10 окт '16 в 10:10
2
ответа
Выбор между SimHash и MinHash для производственной системы
Я знаком с техниками LSH (локально-чувствительное хеширование) SimHash и MinHash. SimHash использует косинусное сходство с реальными данными. MinHash вычисляет сходство сходства по двоичным векторам. Но я не могу решить, какой из них будет лучше исп…
30 дек '14 в 20:59