Simhash как алгоритм для сравнения двух текстовых документов
Проблема в том, что у меня есть коллекция текстовых документов, я хочу подобрать наиболее похожий на входной. Входной текстовый документ может быть точно совпадает или частично изменен. Алгоритм должен быть очень быстрым.
В настоящее время я нашел simhash, чтобы взять отпечаток из коллекционных документов. Есть ли другой алгоритм, чтобы сделать то же самое?
2 ответа
Пробовали ли вы методы LSH(хеширование с учетом локальных особенностей)
Методы LSH (локально-чувствительное хеширование) являются общими методами индексации. Они очень эффективны в поиске приблизительных ближайших соседей.
SimHash - это один алгоритм хеширования для LSH. Он использует косинусное сходство с реальными данными.
MinHash - еще один алгоритм хеширования для LSH. Он вычисляет сходство сходства по двоичным векторам.
Добыча массивных данных, глава 3, Ананд Раджараман и Джефф Уллман. является хорошим введением в проблемное пространство и MinHash в частности.