Настройка данных для динамического моделирования тем

Я пытаюсь научиться динамическому моделированию темы (чтобы уловить семантические изменения в словах) из данных, удаленных из PUBMED. Я смог получить данные в виде xml, извлечь из него "абстрактный" текст и информацию о дате и сохранить их в формате csv. (Но это только часть данных.)

Формат получен

Год | месяц | день |abstractText

Я планирую использовать Gensim LDA для моей модели

Я никогда раньше не занимался моделированием тем, и мне нужна ваша помощь, чтобы помочь мне пройти этот процесс по одному шагу за раз.

Вопросы:

  1. CSV является предпочтительным форматом для подачи в Gensim LDA?
  2. для динамического моделирования, как временной аспект данных должен быть захвачен и использован в модели?
  3. Есть ли лучший способ организовать данные, чем в CSV-файлах?
  4. Должен ли я использовать bodytext вместо реферата для этого?

Надеюсь, я многому научусь из этого. Заранее спасибо.

0 ответов

Другие вопросы по тегам