Тема моделирования с помощью молотка
Я пытаюсь использовать тему моделирования с Маллетом, но у меня есть вопрос.
Как мне узнать, когда мне нужно перестроить модель? Например, у меня есть такое количество документов, которые я сканировал из Интернета, используя моделирование тем, предоставленное Маллетом, я мог бы создавать модели и выводить из них документы. Но со временем, с новыми данными, которые я просканировал, могут появиться новые предметы. В таком случае, как я узнаю, должен ли я перестроить модель от старта до текущего?
Я думал об этом для документов, которые я сканировал каждый месяц. Может кто-нибудь, пожалуйста, посоветуйте?
Итак, является ли моделирование тем более подходящим для текста по фиксированному количеству тем (входной параметр k, количество тем). Если нет, то как мне определить, какой номер использовать?
1 ответ
Ответы на ваши вопросы в значительной степени зависят от типа данных, с которыми вы работаете, и размера корпуса.
Что касается частоты, я боюсь, что вам просто нужно оценить, как часто ваши данные изменяются значимым образом, и реконструировать с такой скоростью. Вы можете начать с недели и посмотреть, приведут ли новые данные к существенно иной модели. Если нет, попробуйте две недели и так далее.
Количество выбранных тем определяется тем, что вы ищете в модели. Чем выше число, тем более детализированы результаты. Если вам нужен широкий обзор того, что находится в вашем корпусе, вы можете выбрать, скажем, 10 тем. Для более детального просмотра вы можете использовать 200 или другое подходящее большое число.
Надеюсь, это поможет.