Инструмент моделирования тем для большого набора данных (30 ГБ)

Я ищу инструмент для моделирования тем, который может быть применим к большому набору данных.

Мой текущий набор данных для обучения составляет 30 ГБ. Я пробовал моделирование темы MALLET, но всегда получал OutOfMemoryError.

Если у вас есть какие-либо советы, пожалуйста, дайте мне знать.

3 ответа

Вам доступно много вариантов, и этот ответ не зависит от того, как они сравниваются.

Я думаю, что важной вещью с таким большим набором данных является метод приближенного апостериорного вывода, а не обязательно программная реализация. Согласно этой статье, онлайн вариационный байесовский вывод гораздо более эффективен с точки зрения времени и пространства, чем выборка Гиббса. Хотя я никогда не использовал его, пакет gensim выглядит хорошо. Он написан на python, и на веб-странице проекта есть подробные руководства.

Для кода, который приходит прямо из источника, см. Веб-страницу Дэвида Блея, одного из авторов модели LDA, здесь. Он ссылается на несколько реализаций на разных языках (R, Java, C++).

Я предлагаю использовать инструмент "больших данных", такой как graphlab, который поддерживает моделирование тем: http://docs.graphlab.org/topic_modeling.html

Инструментарий GraphLab Create для тематической модели (с привязками Python API) должен уметь обрабатывать такой большой набор данных.

Другие вопросы по тегам