Определите наиболее важные предложения текста
Я работаю над инструментом, который позволит пользователям обобщать выбранный текст.
Я хочу сделать это, определив х количество наиболее важных предложений текста (определяется пользователем / рассчитывается на основе длины текста), а затем для каждого из этих "основных предложений" я хочу сопровождать предложение х количеством большинство связанных / похожих предложений к этому основному предложению. Таким образом, я надеюсь охватить несколько важных частей текста в несколько строк, а не одну большую часть (тему) текста. Я знаю, что не каждый текст будет иметь несколько доступных предметов, чтобы иметь достаточно много основных предложений, количество основных предложений и связанных предложений будет зависеть от самого текста.
Для определения этих важных предложений я в настоящее время основываюсь на примере этого руководства, в котором используются оценки пересечений между предложениями для ранжирования каждого предложения текста. Пока что это привело к достойным результатам, но иногда результаты не столь качественны.
Поэтому я ищу другие методы для извлечения наиболее важных предложений. После небольшого поиска расстояние Левенштейна появилось несколько раз, чтобы сравнить строки.
Могу ли я использовать расстояние Левенштейна для вычисления LD между каждым предложением и добавить общую сумму LD для каждого предложения, возвращая количество предложений x с наименьшим агрегированным числом расстояний Левенштейна - это приведет к репрезентативному ранжированию наиболее важных предложений текста?
Если нет, я должен придерживаться метода пересечения или я должен рассмотреть альтернативу?
Я также рассматриваю возможность использования tf–idf для "предварительной обработки" предложения, чтобы сохранить только ценные слова в текстовых предложениях.