Нужен термин периодичность отчета по всему индексу

Я хотел бы получить отчет о частоте терминов для относительно большого индекса.

Это фон того, что я пытаюсь сделать. Я сформулировал то, что называется группировкой, которая есть не что иное, как наборы результатов. Скажем, в моем индексе содержится миллион документов, размер группы этих результатов будет примерно 4000 или 5000. В этом наборе результатов я хотел бы найти интересные ключевые слова, возможно, создать из них отчет для анализа.

Я все еще на стадии исследования, поэтому я хотел бы увидеть наиболее часто используемые термины и их частоту (TTF) не только для одного слова, но и для 1, 2, 3 слов, появляющихся в последовательности. Пример, который я мог бы привести для 3-х слов: "Стандарты расширенного шифрования". Для меня очень высока вероятность встретить шум для предметов из 1 слова, но я предполагаю, что я мог бы игнорировать их, определяя стоп-слова.

Я перешел к терминам "Векторы терминов", но это не то, что мне нужно, поскольку он фокусируется на одном документе, но не на наборе результатов (или на всем индексе). Кроме того, у меня нет входных ключевых слов, так как моя цель - выяснить их.

У меня есть опыт работы с SOLR и ES, и эта проблема, с которой я сталкиваюсь, является относительно новой. Я просмотрел различные документы, но не смог сузиться (может быть, я не провел достаточно времени!). Может кто-нибудь, пожалуйста, укажите мне правильное место, чтобы посмотреть на эту проблему?

0 ответов

Другие вопросы по тегам