Использование тематического моделирования Java toolkit

Question

Использование тематического моделирования Java toolkit

Я работаю над классификацией текста и хочу использовать Тематические модели (LDA). Мой корпус состоит как минимум из 24 000 персидских новостных документов. каждый документ в корпусе представлен в формате пар (ключевое слово, вес), извлеченных из новостей.

Я видел два набора инструментов Java: молоток и трубочку. Я прочитал учебник по импорту данных, и он получает данные в виде обычного текста, а не в моем формате. Есть ли способ, которым я мог бы изменить это?

Также прочитайте немного о lingpipe, пример из учебника использовал массивы целых чисел. Это удобно для больших данных?

Мне нужно знать, какая реализация LDA лучше для меня? Есть ли другая реализация, которая подходит моим данным? (на Java)

0

topic-modeling mallet lingpipe

Источник

user3017468 18 фев '15 в 13:41

1 ответ

Решение

Другие вопросы по тегам topic-modeling mallet lingpipe

user2439905 03 июн '15 в 20:36 2015-06-03 20:36 · Accepted Answer · 2015-06-03 20:36

Из файла веса ключевых слов вы можете создать искусственный текст, содержащий слова в произвольном порядке с заданными весами. Запустите mallet для сгенерированных текстов, чтобы получить темы.

0

Источник

user2439905 03 июн '15 в 20:36