Схожесть хеш-функции (simhash)

У меня проблема с использованием хэш-функции. Я должен назначить некоторый номер (128 бит или 64 бит) каждому слову в документе. Таким образом, хеш-значение "сходства" должно быть близко к "похожему". Это означает, что если имеет значение подобия =>10022(скажем), то похоже =>10025. который должен рядом с похожим словом. также значение хеша с другим именем должно совпадать. это означает, что хэш-значение "john" также должно быть близко к " michel" или "sita"... и так далее. Если какое-либо тело имеет какое-либо представление об этом.

Заранее спасибо.:)

2 ответа

Решение

Это не работает таким образом, сначала вы должны найти общую модель для примера значения доступных данных, а затем использовать его для сообщений журнала потоковой передачи.

Существует библиотека под названием OpenNLP, поэтому с помощью этой библиотеки вы можете узнать, что это за слово. тогда, как вы сказали, что для подобного слова, как имена, может быть записана хеш-функция, в которой имя или глаголы, и таким образом можно получить аналогичное хеш-значение. Благодарю.

Другие вопросы по тегам