Настройка данных для динамического моделирования тем
Я пытаюсь научиться динамическому моделированию темы (чтобы уловить семантические изменения в словах) из данных, удаленных из PUBMED. Я смог получить данные в виде xml, извлечь из него "абстрактный" текст и информацию о дате и сохранить их в формате csv. (Но это только часть данных.)
Формат получен
Год | месяц | день |abstractText
Я планирую использовать Gensim LDA для моей модели
Я никогда раньше не занимался моделированием тем, и мне нужна ваша помощь, чтобы помочь мне пройти этот процесс по одному шагу за раз.
Вопросы:
- CSV является предпочтительным форматом для подачи в Gensim LDA?
- для динамического моделирования, как временной аспект данных должен быть захвачен и использован в модели?
- Есть ли лучший способ организовать данные, чем в CSV-файлах?
- Должен ли я использовать bodytext вместо реферата для этого?
Надеюсь, я многому научусь из этого. Заранее спасибо.