Матрица вероятности перехода для предложений
У меня есть предложения, хранящиеся в виде строк, извлеченных из документа. Я хочу применить стандартное косинусное сходство к предложениям. Как мне это сделать?
2 ответа
Прежде всего, прочитайте о матрице Term-Document
Затем перейдите к вычислению косинуса с помощью калькулятора сходства косинусов
Если вы заинтересованы в интеллектуальном анализе текста, тогда переходите к SVD и, наконец, к латентному семантическому анализу
Ну, у вас уже есть формула в Википедии. Каждый из Ai
это слово, поэтому сначала вам нужно вычислить частоту слов в вашем документе. Вы должны быть в состоянии создать карту вхождений слов. Затем вы представляете каждое предложение вектором слов и можете применить формулу.