Выявление интереса / темы из текста

Question

Выявление интереса / темы из текста

Я пытаюсь построить модель, которая будет пытаться идентифицировать интересующую категорию / тему предоставленного текста. Например:

Магазин для свадебных сари свадьбы от нашего изнурительного разнообразия красивых и дизайнерских сари. Получите выгодные предложения, качественную вышивку и бесплатную международную доставку.

разрешил бы категорию верхнего уровня как:

Мода или Свадебная Мода

Чтобы добиться этого, я использовал скрытое распределение Дирихле (LDA), которое является моделью тем, которая генерирует темы на основе частоты слов из набора документов.

Итак, я получил темы документа, как показано ниже, но не нашел способа отобразить их в понятном для человека формате.

тема № 0 (0,500): 0,100* Sare + 0,060 * стажер + 0,060 * получить + 0,060 * сделка + 0,060 * выпуск + 0,060 * дизайн + 0,060 * бесплатно + 0,060*qualiti + 0,060 * магазин + 0,060 * отлично
тема № 1 (0,500): 0,063* SARE + 0,063* Beauti + 0,063* Delivery + 0,063* стежок + 0,063* Varieti + 0,063* WED + 0,062 * Свадебные + 0,062 * Great + 0,062 * Shop + 0,062 * qualiti

Я использовал этот скрипт для реализации вышеуказанных вещей.

Таким образом, вопрос в том, как сопоставить вышеуказанные темы с удобочитаемой категорией, такой как мода?

0

python nltk gensim lda nltk-trainer

Источник

user1495125 01 окт '16 в 12:55

0 ответов

Другие вопросы по тегам python nltk gensim lda nltk-trainer