Как я могу получить популярные теги / ключевые слова из коллекции неструктурированных фрагментов текста?

Question

Как я могу получить популярные теги / ключевые слова из коллекции неструктурированных фрагментов текста?

Я храню небольшие куски текста - скажем, около 100 - 200 слов - в базе данных NoSQL, и мне нужно отображать ключевые слова / теги среди всех этих кусков.

Я знаю API-интерфейсы анализа текста, такие как алхимия, которые извлекают сущности из одного фрагмента текста, но я хочу, чтобы среди всех этих блоков были ключевые слова / теги.

Должен ли я хранить ключевые слова для каждого фрагмента текста, а затем проводить исчерпывающий подсчет ключевых слов? В этом случае каждое ключевое слово может немного отличаться и может привести к фрагментации похожих ключевых слов.

1

full-text-search text-analysis

Источник

user3334317 28 окт '14 в 01:34

1 ответ

Другие вопросы по тегам full-text-search text-analysis

user3929053 21 май '15 в 05:01 2015-05-21 05:01 · Answer 1 · 2015-05-21 05:01

Не всегда необходимо, чтобы фильтрация сущностей давала вам результат (хотя это и служит основной цели). Если вы хотите, чтобы он был более эффективным, вы должны удалить стоп-слова, сделать ствол, разговор с UpperCase на LowerCase, исправить орфографию, а затем использовать HashMap для поиска частот. Используя эту частоту, вы можете отфильтровать топ 100-200 объектов / тегов.

Надеюсь, это поможет.