Как выполнить Семантическое Сходство в документе

Question

Как выполнить Семантическое Сходство в документе

Я делаю проект, в котором мне нужно ранжировать текстовый документ в соответствии с поисковым запросом, как поисковая система, но мне нужно ранжировать документы, имеющие семантическое сходство слова или предложения, я не могу начать с того, как найти семантическое сходство, используя Java. Есть ли какая-либо ссылка или любая статья, с помощью которой я могу начать находить семантическое сходство слов в документах или любую идею.

0

information-retrieval

Источник

user3477015 25 июн '14 в 11:23

2 ответа

Другие вопросы по тегам information-retrieval

user2587272 27 июн '14 в 07:06 2014-06-27 07:06 · Answer 1 · 2014-06-27 07:06

Посмотрите на эту демонстрацию для семантического сходства

Показывает демо для разных алгоритмов. Вы можете увидеть, какой из них работает для вас, и попытаться пойти с этим. Также этот "полульный" модуль может быть использован с помощью Java, я думаю. Вы можете попробовать использовать его, я еще не пробовал, но демонстрация для того же на этой странице. Спасибо:)

user2711596 26 июн '14 в 11:33 2014-06-26 11:33 · Answer 2 · 2014-06-26 11:33

Стандартный способ представления документов в пространстве терминов состоит в том, чтобы рассматривать термины как взаимно ортогональные или независимые друг от друга, например, термины "атомарный" и "ядерный", хотя они являются синонимами и, следовательно, взаимозаменяемыми, рассматриваются как отдельные, тогда как семантическое сходство между эта пара слов должна быть довольно высокой.

Таким образом, для реализации оценки, основанной на семантическом сходстве, вам необходимо знать связь между парой слов, для которой вы можете использовать любое из следующих.

Внешний ресурс, такой как Wordnet или библиотека семантического сходства, такая как DISCO.
Методология анализа корпусов, такая как скрытый семантический анализ (LSA), которая уменьшает размерность термина пространство путем объединения семантически похожих терминов, таких как "атомарный" и "ядерный".