Simhash как алгоритм для сравнения двух текстовых документов

Question

Simhash как алгоритм для сравнения двух текстовых документов

Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной. Входной текстовый документ может быть точно совпадает или частично изменен. Алгоритм должен быть очень быстрым.

В настоящее время я нашел simhash, чтобы взять отпечаток из коллекционных документов. Есть ли другой алгоритм, чтобы сделать то же самое?

1

string hash similarity simhash

Источник

user628568 13 июн '11 в 14:57

2 ответа

Решение

Методы LSH (локально-чувствительное хеширование) являются общими методами индексации. Они очень эффективны в поиске приблизительных ближайших соседей.

SimHash - это один алгоритм хеширования для LSH. Он использует косинусное сходство с реальными данными.

MinHash - еще один алгоритм хеширования для LSH. Он вычисляет сходство сходства по двоичным векторам.

Добыча массивных данных, глава 3, Ананд Раджараман и Джефф Уллман. является хорошим введением в проблемное пространство и MinHash в частности.

2

Источник

user1987762 30 дек '14 в 00:41

Другие вопросы по тегам string hash similarity simhash

user840879 06 авг '11 в 06:13 2011-08-06 06:13 · Accepted Answer · 2011-08-06 06:13

Пробовали ли вы методы LSH(хеширование с учетом локальных особенностей)

1

Источник

user840879 06 авг '11 в 06:13