text2vec - Слова тем обновляются с новыми данными?
В настоящее время я выполняю тему моделирования с использованием LDA из text2vec
пакет. Мне удалось создать матрицу DTM, а затем применить LDA
И его fit_transform
метод с n_topics=50
,
Когда я смотрю на главные слова из каждой темы, у меня возник вопрос. Я планирую применить модель к новым данным впоследствии, и есть вероятность появления новых слов, которые ранее не встречались в модели. Сможет ли модель по-прежнему назначать каждое слово в соответствующей теме? Кроме того, будут ли эти слова также добавлены в тему, чтобы я мог найти их с помощью get_top_words
?
Спасибо за ответ!
1 ответ
Идея статистического обучения заключается в том, что базовые распределения данных "поезд" и "тест" более или менее одинаковы. Так что, если ваши новые документы содержат совершенно другое распространение, вы не можете ожидать, что LDA будет работать волшебным образом. Это верно для любой другой модели.
Во время вывода фиксируется распределение тематических слов (оно выучилось на этапе обучения). Так get_top_words
всегда будет возвращать одни и те же слова после обучения модели.
И, конечно же, новые слова не будут включены автоматически - матрица Document-Term, построенная из словаря (который вы выучили до создания DTM), и новые документы также будут содержать только слова из фиксированного словаря.