Определите наиболее важные предложения текста

Я работаю над инструментом, который позволит пользователям обобщать выбранный текст.

Я хочу сделать это, определив х количество наиболее важных предложений текста (определяется пользователем / рассчитывается на основе длины текста), а затем для каждого из этих "основных предложений" я хочу сопровождать предложение х количеством большинство связанных / похожих предложений к этому основному предложению. Таким образом, я надеюсь охватить несколько важных частей текста в несколько строк, а не одну большую часть (тему) текста. Я знаю, что не каждый текст будет иметь несколько доступных предметов, чтобы иметь достаточно много основных предложений, количество основных предложений и связанных предложений будет зависеть от самого текста.

Для определения этих важных предложений я в настоящее время основываюсь на примере этого руководства, в котором используются оценки пересечений между предложениями для ранжирования каждого предложения текста. Пока что это привело к достойным результатам, но иногда результаты не столь качественны.

Поэтому я ищу другие методы для извлечения наиболее важных предложений. После небольшого поиска расстояние Левенштейна появилось несколько раз, чтобы сравнить строки.

Могу ли я использовать расстояние Левенштейна для вычисления LD между каждым предложением и добавить общую сумму LD для каждого предложения, возвращая количество предложений x с наименьшим агрегированным числом расстояний Левенштейна - это приведет к репрезентативному ранжированию наиболее важных предложений текста?

Если нет, я должен придерживаться метода пересечения или я должен рассмотреть альтернативу?

Я также рассматриваю возможность использования tf–idf для "предварительной обработки" предложения, чтобы сохранить только ценные слова в текстовых предложениях.

0 ответов

Другие вопросы по тегам