Как я могу получить популярные теги / ключевые слова из коллекции неструктурированных фрагментов текста?

Я храню небольшие куски текста - скажем, около 100 - 200 слов - в базе данных NoSQL, и мне нужно отображать ключевые слова / теги среди всех этих кусков.

Я знаю API-интерфейсы анализа текста, такие как алхимия, которые извлекают сущности из одного фрагмента текста, но я хочу, чтобы среди всех этих блоков были ключевые слова / теги.

Должен ли я хранить ключевые слова для каждого фрагмента текста, а затем проводить исчерпывающий подсчет ключевых слов? В этом случае каждое ключевое слово может немного отличаться и может привести к фрагментации похожих ключевых слов.

1 ответ

Не всегда необходимо, чтобы фильтрация сущностей давала вам результат (хотя это и служит основной цели). Если вы хотите, чтобы он был более эффективным, вы должны удалить стоп-слова, сделать ствол, разговор с UpperCase на LowerCase, исправить орфографию, а затем использовать HashMap для поиска частот. Используя эту частоту, вы можете отфильтровать топ 100-200 объектов / тегов.

Надеюсь, это поможет.

Другие вопросы по тегам