Матрица вероятности перехода для предложений

У меня есть предложения, хранящиеся в виде строк, извлеченных из документа. Я хочу применить стандартное косинусное сходство к предложениям. Как мне это сделать?

2 ответа

Прежде всего, прочитайте о матрице Term-Document

Затем перейдите к вычислению косинуса с помощью калькулятора сходства косинусов

Если вы заинтересованы в интеллектуальном анализе текста, тогда переходите к SVD и, наконец, к латентному семантическому анализу

Ну, у вас уже есть формула в Википедии. Каждый из Ai это слово, поэтому сначала вам нужно вычислить частоту слов в вашем документе. Вы должны быть в состоянии создать карту вхождений слов. Затем вы представляете каждое предложение вектором слов и можете применить формулу.

Другие вопросы по тегам