Лучший способ сопоставить 2 текстовых документа
Я пытаюсь создать такое программное обеспечение, которое интеллектуально делает 2 текстовых документа, вроде проверки соответствия текста, а не как DIFF. Я искал в Google довольно много, и я нашел 2 вещи - Graph & TFIDF.
Но я запутался между ними обоими, я не знаю, какой из них лучше, а также есть ли другой метод для сопоставления текстовых документов
1 ответ
Вы смотрели на измерение сходства документа по косинусному расстоянию? Косинусное сходство - это мера сходства между двумя векторами пространства внутренних произведений, которое измеряет косинус угла между ними http://en.wikipedia.org/wiki/Cosine_similarity
Если у вас есть Документы A и B, Вы можете создать два вектора терминов для документа A и B. Вектор термина A будет содержать слова из документа A и частоту каждого слова в документе. Вместо необработанной частоты слов вы можете взвешивать TF-IDF. То же самое относится и к документу B. Получив вектор терминов A и B, вы можете рассчитать косинусное сходство векторов терминов A и B, представляющих документы A и B. Перед созданием векторов терминов вы выполняете некоторые задачи предварительной обработки, такие как фильтрация стоп-слов.