Описание тега simhash
Алгоритм обнаружения сходства между хешами.
2
ответа
Схожесть хеш-функции (simhash)
У меня проблема с использованием хэш-функции. Я должен назначить некоторый номер (128 бит или 64 бит) каждому слову в документе. Таким образом, хеш-значение "сходства" должно быть близко к "похожему". Это означает, что если имеет значение подобия =>…
23 апр '12 в 06:58
1
ответ
Как сравнить сходство документов с алгоритмом Симхаша?
В настоящее время я создаю программу, которая может вычислить почти одинаковую оценку в совокупности текстовых документов (+5000 документов). Я использую Simhash для создания уникального документа (благодаря этому репозиторию github) мои данные: dat…
13 апр '18 в 15:14
1
ответ
Python Simhash не работает на Ubuntu
У меня те же настройки и код на Mac для запуска simhash, он работает. Но когда я запускаю его в Ubuntu, он жалуется, что в реализации самого simhash есть ошибка. Сталкивались ли вы с такой проблемой? objs = [(str (k), Simhash (v)) для k, v в index_d…
21 апр '14 в 20:07
1
ответ
MinHashing vs SimHashing
Предположим, у меня есть пять наборов, которые я бы хотел сгруппировать. Я понимаю, что техника SimHashing описана здесь: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ может дать три кластера ({A}, {B,C,D} а также {E})…
12 июн '15 в 14:50
1
ответ
Рассчитать попарно симхаш "расстояния"
Я хочу построить матрицу попарных расстояний, где "расстояния" - это оценки сходства между двумя строками, как здесь реализовано. Я подумал об использовании парного метода sci-kit Learn, чтобы сделать это, как я использовал его раньше для других выч…
30 авг '13 в 00:48
2
ответа
Выбор между SimHash и MinHash для производственной системы
Я знаком с техниками LSH (локально-чувствительное хеширование) SimHash и MinHash. SimHash использует косинусное сходство с реальными данными. MinHash вычисляет сходство сходства по двоичным векторам. Но я не могу решить, какой из них будет лучше исп…
30 дек '14 в 20:59
1
ответ
Сравнение веб-страниц - simhash и обработка граничного узла DOM
Это еще не проблема программирования! Но я смотрю, как бы вы сравнили веб-страницы, чтобы увидеть, являются ли страницы одинаковыми / похожими. Это личный проект, а не для работы / школы... (просто говори!) Я нашел несколько базовых реализаций simha…
11 янв '12 в 16:32
3
ответа
Реализация SimHash в Java?
Кто-нибудь сталкивался с функцией simhash, реализованной в Java? Я уже искал это, но ничего не мог найти.
15 дек '09 в 15:48
2
ответа
Simhash как алгоритм для сравнения двух текстовых документов
Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной. Входной текстовый документ может быть точно совпадает или частично изменен. Алгоритм должен быть очень быстрым. В настоящее время я нашел s…
13 июн '11 в 14:57
2
ответа
Сделать алгоритм Sim Hash (локально-чувствительное хеширование) более точным?
У меня есть "записи" (в основном строки CSV) с двумя именами и одним адресом. Мне нужно найти записи, которые похожи друг на друга: в основном имена и части адреса выглядят "одинаково", как если бы они были интерпретированы человеком. Я использовал …
30 ноя '11 в 14:43
0
ответов
Как выделить индексный номер с помощью SimhashIndex() для набора данных документа?
Этот код реализует функцию Simhash из четырех наборов данных. import re from simhash import Simhash, SimhashIndex def get_features(s): width = 3 s = s.lower() s = re.sub(r'[^\w]+', '', s) return [s[i:i + width] for i in range(max(len(s) - width + 1,…
18 июн '18 в 15:02
0
ответов
MongoDB поддерживает поиск по битам XOR и бит?
Я хотел бы перейти от MYSQL к MongoDB, один из вопросов, на который я не могу найти ответ, если я могу получить или смоделировать XOR и Bit Count, которые мне нужны. В MYSQL я бы сделал: SELECT BIT_COUNT(SimHash ^ $SimHash) as simhash ... ORDER BY s…
03 фев '16 в 10:38
1
ответ
Расстояние Хэмминга (питон Симхаша), выдающее неожиданное значение
Я проверял модуль Simhash ( https://github.com/leonsim/simhash). Я предполагаю, что расстояние Simhash ("String"). (Simhash ("Другая строка")) - это расстояние Хемминга между двумя строками. Теперь я не уверен, что полностью понимаю этот метод "get_…
25 июл '16 в 14:29
1
ответ
Как обнаружить похожий текст на больших данных?
Как я только знаю, simhash и minhash доступны для этой задачи. Но все эти алгоритмы должны пересекать всю текстовую базу данных, что будет довольно ужасно. Есть ли оптимизация или другой алгоритм, который может решить задачу? Все, что я придумаю, - …
18 ноя '15 в 16:05
0
ответов
Возможно ли применить алгоритм Симхаша между документом тестирования и набором данных обучения?
( Как сравнить сходство документов с алгоритмом Симхаша?) По мере продвижения к этому вопросу, возможно ли, что мы сможем применить этот алгоритм при проверке сходства между тестовым документом и набором обучающего документа. также это осуществимый …
08 июн '18 в 12:28
1
ответ
Панды: матричный расчет по значениям
У меня есть датафрейм, как это: apple aple apply apple 0 0 0 aple 0 0 0 apply 0 0 0 Я хочу рассчитать расстояние до строки, например, apple -> aple и т. Д. Мой конечный результат здесь: apple aple apply apple 0 32 14 aple 32 0 30 apply 14 30 0 В нас…
18 сен '14 в 08:38
4
ответа
Хэш-функция, которая отображает аналогичные входы на аналогичные выходы
Существует ли хэш-функция, в которой небольшие изменения во входных данных приводят к небольшим изменениям в выходных данных? Например, что-то вроде: hash("Foo") => 9e107d9d372bb6826bd81d3542a419d6 hash("Foo!") => 9e107d9d372bb6826bd81d3542a41…
06 ноя '09 в 11:35
2
ответа
Какой более выгодный минхаш по сравнению с симхашем?
Я работаю с simhash, но также вижу, что minhash более эффективен.Но я не понимаю.Пожалуйста, объясните мне: что более выгодно, чем симхаш?
15 апр '16 в 12:35
0
ответов
Реализация SimHash в R
Есть ли реализация simhash в R? (SimHash - это алгоритм хеширования, созданный Моисеем Чарикарисом, который дает аналогичным объектам похожие хеши
14 июл '15 в 00:34
0
ответов
Требуется разъяснение о мин / сим-хешировании + LSH
У меня есть разумное понимание методики обнаружения похожих документов, состоящей в том, чтобы сначала вычислить их сигнатуры minhash (из их черепицы или n-грамм), а затем использовать алгоритм на основе LSH для их эффективной кластеризации (то есть…
11 янв '14 в 00:02