Настройка данных для динамического моделирования тем

Question

Настройка данных для динамического моделирования тем

Я пытаюсь научиться динамическому моделированию темы (чтобы уловить семантические изменения в словах) из данных, удаленных из PUBMED. Я смог получить данные в виде xml, извлечь из него "абстрактный" текст и информацию о дате и сохранить их в формате csv. (Но это только часть данных.)

Формат получен

Год | месяц | день |abstractText

Я планирую использовать Gensim LDA для моей модели

Я никогда раньше не занимался моделированием тем, и мне нужна ваша помощь, чтобы помочь мне пройти этот процесс по одному шагу за раз.

Вопросы:

CSV является предпочтительным форматом для подачи в Gensim LDA?
для динамического моделирования, как временной аспект данных должен быть захвачен и использован в модели?
Есть ли лучший способ организовать данные, чем в CSV-файлах?
Должен ли я использовать bodytext вместо реферата для этого?

Надеюсь, я многому научусь из этого. Заранее спасибо.

2

python text-mining gensim topic-modeling pubmed

Источник

user2283660 02 дек '17 в 18:13

0 ответов

Другие вопросы по тегам python text-mining gensim topic-modeling pubmed