Тема моделирования с помощью молотка

Я пытаюсь использовать тему моделирования с Маллетом, но у меня есть вопрос.

Как мне узнать, когда мне нужно перестроить модель? Например, у меня есть такое количество документов, которые я сканировал из Интернета, используя моделирование тем, предоставленное Маллетом, я мог бы создавать модели и выводить из них документы. Но со временем, с новыми данными, которые я просканировал, могут появиться новые предметы. В таком случае, как я узнаю, должен ли я перестроить модель от старта до текущего?

Я думал об этом для документов, которые я сканировал каждый месяц. Может кто-нибудь, пожалуйста, посоветуйте?

Итак, является ли моделирование тем более подходящим для текста по фиксированному количеству тем (входной параметр k, количество тем). Если нет, то как мне определить, какой номер использовать?

1 ответ

Решение

Ответы на ваши вопросы в значительной степени зависят от типа данных, с которыми вы работаете, и размера корпуса.

Что касается частоты, я боюсь, что вам просто нужно оценить, как часто ваши данные изменяются значимым образом, и реконструировать с такой скоростью. Вы можете начать с недели и посмотреть, приведут ли новые данные к существенно иной модели. Если нет, попробуйте две недели и так далее.

Количество выбранных тем определяется тем, что вы ищете в модели. Чем выше число, тем более детализированы результаты. Если вам нужен широкий обзор того, что находится в вашем корпусе, вы можете выбрать, скажем, 10 тем. Для более детального просмотра вы можете использовать 200 или другое подходящее большое число.

Надеюсь, это поможет.

Другие вопросы по тегам