Simhash как алгоритм для сравнения двух текстовых документов

Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной. Входной текстовый документ может быть точно совпадает или частично изменен. Алгоритм должен быть очень быстрым.

В настоящее время я нашел simhash, чтобы взять отпечаток из коллекционных документов. Есть ли другой алгоритм, чтобы сделать то же самое?

2 ответа

Решение

Пробовали ли вы методы LSH(хеширование с учетом локальных особенностей)

Методы LSH (локально-чувствительное хеширование) являются общими методами индексации. Они очень эффективны в поиске приблизительных ближайших соседей.

SimHash - это один алгоритм хеширования для LSH. Он использует косинусное сходство с реальными данными.

MinHash - еще один алгоритм хеширования для LSH. Он вычисляет сходство сходства по двоичным векторам.

Добыча массивных данных, глава 3, Ананд Раджараман и Джефф Уллман. является хорошим введением в проблемное пространство и MinHash в частности.

Другие вопросы по тегам