Схожесть хеш-функции (simhash)
У меня проблема с использованием хэш-функции. Я должен назначить некоторый номер (128 бит или 64 бит) каждому слову в документе. Таким образом, хеш-значение "сходства" должно быть близко к "похожему". Это означает, что если имеет значение подобия =>10022(скажем), то похоже =>10025. который должен рядом с похожим словом. также значение хеша с другим именем должно совпадать. это означает, что хэш-значение "john" также должно быть близко к " michel" или "sita"... и так далее. Если какое-либо тело имеет какое-либо представление об этом.
Заранее спасибо.:)
2 ответа
Это не работает таким образом, сначала вы должны найти общую модель для примера значения доступных данных, а затем использовать его для сообщений журнала потоковой передачи.
Существует библиотека под названием OpenNLP, поэтому с помощью этой библиотеки вы можете узнать, что это за слово. тогда, как вы сказали, что для подобного слова, как имена, может быть записана хеш-функция, в которой имя или глаголы, и таким образом можно получить аналогичное хеш-значение. Благодарю.