Как я могу получить популярные теги / ключевые слова из коллекции неструктурированных фрагментов текста?
Я храню небольшие куски текста - скажем, около 100 - 200 слов - в базе данных NoSQL, и мне нужно отображать ключевые слова / теги среди всех этих кусков.
Я знаю API-интерфейсы анализа текста, такие как алхимия, которые извлекают сущности из одного фрагмента текста, но я хочу, чтобы среди всех этих блоков были ключевые слова / теги.
Должен ли я хранить ключевые слова для каждого фрагмента текста, а затем проводить исчерпывающий подсчет ключевых слов? В этом случае каждое ключевое слово может немного отличаться и может привести к фрагментации похожих ключевых слов.
1 ответ
Не всегда необходимо, чтобы фильтрация сущностей давала вам результат (хотя это и служит основной цели). Если вы хотите, чтобы он был более эффективным, вы должны удалить стоп-слова, сделать ствол, разговор с UpperCase на LowerCase, исправить орфографию, а затем использовать HashMap для поиска частот. Используя эту частоту, вы можете отфильтровать топ 100-200 объектов / тегов.
Надеюсь, это поможет.