Использование тематического моделирования Java toolkit

Я работаю над классификацией текста и хочу использовать Тематические модели (LDA). Мой корпус состоит как минимум из 24 000 персидских новостных документов. каждый документ в корпусе представлен в формате пар (ключевое слово, вес), извлеченных из новостей.

Я видел два набора инструментов Java: молоток и трубочку. Я прочитал учебник по импорту данных, и он получает данные в виде обычного текста, а не в моем формате. Есть ли способ, которым я мог бы изменить это?

Также прочитайте немного о lingpipe, пример из учебника использовал массивы целых чисел. Это удобно для больших данных?

Мне нужно знать, какая реализация LDA лучше для меня? Есть ли другая реализация, которая подходит моим данным? (на Java)

1 ответ

Решение

Из файла веса ключевых слов вы можете создать искусственный текст, содержащий слова в произвольном порядке с заданными весами. Запустите mallet для сгенерированных текстов, чтобы получить темы.

Другие вопросы по тегам