text2vec - Слова тем обновляются с новыми данными?

В настоящее время я выполняю тему моделирования с использованием LDA из text2vec пакет. Мне удалось создать матрицу DTM, а затем применить LDA И его fit_transform метод с n_topics=50,

Когда я смотрю на главные слова из каждой темы, у меня возник вопрос. Я планирую применить модель к новым данным впоследствии, и есть вероятность появления новых слов, которые ранее не встречались в модели. Сможет ли модель по-прежнему назначать каждое слово в соответствующей теме? Кроме того, будут ли эти слова также добавлены в тему, чтобы я мог найти их с помощью get_top_words?

Спасибо за ответ!

1 ответ

Решение

Идея статистического обучения заключается в том, что базовые распределения данных "поезд" и "тест" более или менее одинаковы. Так что, если ваши новые документы содержат совершенно другое распространение, вы не можете ожидать, что LDA будет работать волшебным образом. Это верно для любой другой модели.

Во время вывода фиксируется распределение тематических слов (оно выучилось на этапе обучения). Так get_top_words всегда будет возвращать одни и те же слова после обучения модели.

И, конечно же, новые слова не будут включены автоматически - матрица Document-Term, построенная из словаря (который вы выучили до создания DTM), и новые документы также будут содержать только слова из фиксированного словаря.

Другие вопросы по тегам