Выявление интереса / темы из текста
Я пытаюсь построить модель, которая будет пытаться идентифицировать интересующую категорию / тему предоставленного текста. Например:
Магазин для свадебных сари свадьбы от нашего изнурительного разнообразия красивых и дизайнерских сари. Получите выгодные предложения, качественную вышивку и бесплатную международную доставку.
разрешил бы категорию верхнего уровня как:
Мода или Свадебная Мода
Чтобы добиться этого, я использовал скрытое распределение Дирихле (LDA), которое является моделью тем, которая генерирует темы на основе частоты слов из набора документов.
Итак, я получил темы документа, как показано ниже, но не нашел способа отобразить их в понятном для человека формате.
тема № 0 (0,500): 0,100* Sare + 0,060 * стажер + 0,060 * получить + 0,060 * сделка + 0,060 * выпуск + 0,060 * дизайн + 0,060 * бесплатно + 0,060*qualiti + 0,060 * магазин + 0,060 * отлично
тема № 1 (0,500): 0,063* SARE + 0,063* Beauti + 0,063* Delivery + 0,063* стежок + 0,063* Varieti + 0,063* WED + 0,062 * Свадебные + 0,062 * Great + 0,062 * Shop + 0,062 * qualiti
Я использовал этот скрипт для реализации вышеуказанных вещей.
Таким образом, вопрос в том, как сопоставить вышеуказанные темы с удобочитаемой категорией, такой как мода?