Что будет дальше после моделирования темы в LDA
Я новичок в теме моделирования.
Поэтому я надеюсь, что кто-то опытный сможет ответить на мои вопросы. Вот упрощенный формат моих данных: 1. У меня есть CSV-файл размером 1000*2. (смесь тем) 2. Каждая строка представляет собой документ и идентификатор документа. каждый документ может состоять из нескольких строк, и документ может выглядеть следующим образом: например, фильм о Гарри Поттере. Мне нравится смотреть.
Итак, я хотел найти естественные кластеры / темы из моделей тем и вручную назначить метки кластерам на основе терминов TOP.
Поэтому я разбил каждый документ на отдельные токены и использовал LDA, а затем использовал наименьший показатель сложности, чтобы получить оптимальный кластер.
После использования LDA я составил Визуализации наиболее часто встречающихся терминов для каждой темы.
Тем не менее, 1. Я не уверен, должен ли я делать bi/n грамм - если так, как это сделать? Потому что я знаю, что есть некоторые термины, которые должны встречаться вместе. 2. Должен ли я использовать сетевой график, чтобы увидеть, как различные термины соотносятся друг с другом? Или разные темы связывают вместе? 3. Не уверен, правильно ли я поступаю