Скрытое распределение Дирихле, LDA, представляет собой генеративную модель, которая позволяет группам, которые не наблюдают, объяснять наборы наблюдений, что объясняет, почему некоторые части данных похожи.
0 ответов

Matlab Face Recognition с использованием SVM выводит тот же класс

В следующем коде реализуется дискриминантный анализ и SVM Фишера с использованием LIBSVM. Я пытаюсь классифицировать тестовое изображение, используя бинарную древовидную структуру и SVM(libsvm), но каждый раз следующий код выводит один и тот же клас…
10 дек '17 в 14:29
1 ответ

Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?

Я попытался запустить этот код из github (после 1-2-3 шагов), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Открытые автором темы находятся здесь. Тем не менее, Stanford Topic Modeling Toolbox не производит каталог lda-output д…
0 ответов

Меченый LDA(скрытое распределение дирихле) в PyMC3

Я пытаюсь создать модель с меткой LDA, как описано в этой статье (раздел 3.2). То, что я до сих пор это: # settings entityTypesSize = 100 minibatchSize = 10 entityStringsSize = 100 model = pm.Model() with pm.Model() as model: alpha = pm.Gamma(alpha=…
13 дек '16 в 12:30
1 ответ

Понимание LDA Преобразованный Корпус в Gensim

Я попытался исследовать содержимое корпуса BOW и LDA[BOW Corpus] (преобразованный моделью LDA, обученной на этом корпусе, скажем, с 35 темами), и обнаружил следующий вывод: DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)] LDA 1 : [(29, 0.8057142…
07 май '14 в 05:48
0 ответов

Как отображать тематические слова, используя sklearn api в gensim

Я пытаюсь выполнить LDATransformer, используя gensim api, и затем я хочу получить тематические слова, используя только следующий код: from gensim.sklearn_api.ldamodel import LdaTransformer print("Loading docs for lda input...") docs = get_lda_input_…
15 ноя '18 в 13:50
1 ответ

Неэффективность тематического моделирования для кластеризации текста

Я попытался сделать кластеризацию текста с использованием LDA, но это не дает мне четких кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from itertoo…
20 мар '18 в 09:17
1 ответ

Искра Распределенная LAModel и LocalLDAModel

Я пытаюсь обучить тематическую модель для кластеризации и тематической связки документов. Мои обучающие коды показаны ниже, время итерации будет установлено как 20 по умолчанию. По умолчанию оптимизатором будет EM. val ldaModel = new LDA(). setK(500…
28 фев '18 в 12:04
0 ответов

Помеченный LDA в Стэнфордском инструменте моделирования тем

Я использую Stanford Topic Modeling Toolbox v.0.3 для выполнения LabeledLDA. Я смог обучить модель LabeledLDA, используя предоставленную документацию ( example-6-llda-learn.scala). Как я могу предсказать метки для нового набора данных? Я попытался и…
27 июл '11 в 23:46
1 ответ

Консоль R выдает данные независимо от ошибки, а приложение Shiny - не из-за ошибки. Как я могу обойти ошибку в приложении Shiny?

Когда я запускаю приведенный ниже код в консоли R, я получаю следующую ошибку в строке 10: "Ошибка в lda.default(x, grouping, ...): переменные 5 6 кажутся постоянными внутри групп" Однако остальная часть кода все еще обрабатывается и данные выводятс…
10 фев '17 в 15:54
1 ответ

LDA Mahout только одна тема

Я пытаюсь следовать примеру использования LDA для данных Reuters, как указано в книге Mahout In Action. Однако, независимо от того, сколько раз я его запускаю, я всегда получаю только одну тему. Я выполнил команду как указано: mahout lda -i reuters-…
28 июн '12 в 19:58
0 ответов

В R, как я могу получить доверительный интервал групповых средних, полученных из lda()

У меня есть data.table MEG с непрерывной независимой переменной (называемой "метрикой") и категориально зависимой переменной (называемой "командой"), и я хочу, чтобы модель предсказывала "команду" по данной "метрике", т. Е. Мне нужно среднее значени…
10 авг '14 в 04:06
1 ответ

LatentDirichletAllocation python

Я использую следующий код для LatentDirichletAllocation через Scikit библиотеки Python: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words='english') tf = tf_vectorizer.fit_transform(documents) lda_model = LatentDirichletAllocation(n_…
28 май '18 в 10:16
2 ответа

LDA для тематического моделирования в Python

Я новичок в Python и пытаюсь использовать пакет LDA ( https://pypi.python.org/pypi/lda). У меня есть список названий и тем, с которыми связана каждая. Тем не менее, я понятия не имею, как использовать пакет в первую очередь. Я прочитал документацию …
05 дек '14 в 00:48
1 ответ

get_document_topics возвращает пустой список.

Я использую Gensim для моделирования темы. После обучения модели lda я вызываю get_document_topics для нового документа, чтобы получить распространение темы. Однако для некоторых документов возвращаемое значение представляет собой пустой список. Вот…
23 дек '18 в 04:44
1 ответ

Gensim LdaMulticore не запускается из командной строки

Я использую Gensim LdaMulticore для извлечения тем. Он отлично работает из записной книжки Jupyter/Ipython, но когда я запускаю из командной строки, цикл запускается бесконечно. Как только выполнение прибывает в функцию LdaMulticore, выполнение начи…
18 авг '17 в 13:45
0 ответов

Как удалить апостроф с помощью Regex в моделировании темы LDA?

Я новичок в теме моделирования и начинаю изучать его с помощью молотка в Java. Согласно моим требованиям, я должен принимать документы со строкой []. Итак, код documents.addThruPipe(new StringArrayIterator(data)); topicModel = new ParallelTopicModel…
22 апр '18 в 14:30
1 ответ

Как использовать LDA gensim для проведения поиска по запросам?

Я пытаюсь понять, как LDA можно использовать для извлечения текста, и в настоящее время я использую модель LdaModel от gensim для реализации LDA, здесь: https://radimrehurek.com/gensim/models/ldamodel.html. Мне удалось определить k тем и их наиболее…
3 ответа

Инструмент моделирования тем для большого набора данных (30 ГБ)

Я ищу инструмент для моделирования тем, который может быть применим к большому набору данных. Мой текущий набор данных для обучения составляет 30 ГБ. Я пробовал моделирование темы MALLET, но всегда получал OutOfMemoryError. Если у вас есть какие-либ…
14 июл '14 в 10:18
1 ответ

Выделение скрытого распределения Дирихле (LDA) за счет ограничения размера слова для корпусных документов

Я генерировал темы с набором данных о клиентах, используя распределение скрытого дирихле (LDA) в python(пакет gensim). При создании токенов я выбираю из рецензий только слова длиной>= 3 (используя RegexpTokenizer): from nltk.tokenize import RegexpTo…
17 апр '16 в 06:18
0 ответов

Маллет LDA ArrayIndexOutOfBoundsException при обучении модели

Я пытаюсь построить модель с 500 или 1000 тем на наборе данных документов 1M с LDA Маллет. После 60 итераций я получаю ArrayIndexOutOfBoundsException, Сообщение об ошибке, как показано ниже: <60> LL/token: -7.64386 overflow on type 8 java.lang…
23 дек '16 в 15:27