Описание тега lda
Скрытое распределение Дирихле, LDA, представляет собой генеративную модель, которая позволяет группам, которые не наблюдают, объяснять наборы наблюдений, что объясняет, почему некоторые части данных похожи.
0
ответов
Matlab Face Recognition с использованием SVM выводит тот же класс
В следующем коде реализуется дискриминантный анализ и SVM Фишера с использованием LIBSVM. Я пытаюсь классифицировать тестовое изображение, используя бинарную древовидную структуру и SVM(libsvm), но каждый раз следующий код выводит один и тот же клас…
10 дек '17 в 14:29
1
ответ
Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?
Я попытался запустить этот код из github (после 1-2-3 шагов), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Открытые автором темы находятся здесь. Тем не менее, Stanford Topic Modeling Toolbox не производит каталог lda-output д…
18 апр '12 в 19:59
0
ответов
Меченый LDA(скрытое распределение дирихле) в PyMC3
Я пытаюсь создать модель с меткой LDA, как описано в этой статье (раздел 3.2). То, что я до сих пор это: # settings entityTypesSize = 100 minibatchSize = 10 entityStringsSize = 100 model = pm.Model() with pm.Model() as model: alpha = pm.Gamma(alpha=…
13 дек '16 в 12:30
1
ответ
Понимание LDA Преобразованный Корпус в Gensim
Я попытался исследовать содержимое корпуса BOW и LDA[BOW Corpus] (преобразованный моделью LDA, обученной на этом корпусе, скажем, с 35 темами), и обнаружил следующий вывод: DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)] LDA 1 : [(29, 0.8057142…
07 май '14 в 05:48
0
ответов
Как отображать тематические слова, используя sklearn api в gensim
Я пытаюсь выполнить LDATransformer, используя gensim api, и затем я хочу получить тематические слова, используя только следующий код: from gensim.sklearn_api.ldamodel import LdaTransformer print("Loading docs for lda input...") docs = get_lda_input_…
15 ноя '18 в 13:50
1
ответ
Неэффективность тематического моделирования для кластеризации текста
Я попытался сделать кластеризацию текста с использованием LDA, но это не дает мне четких кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from itertoo…
20 мар '18 в 09:17
1
ответ
Искра Распределенная LAModel и LocalLDAModel
Я пытаюсь обучить тематическую модель для кластеризации и тематической связки документов. Мои обучающие коды показаны ниже, время итерации будет установлено как 20 по умолчанию. По умолчанию оптимизатором будет EM. val ldaModel = new LDA(). setK(500…
28 фев '18 в 12:04
0
ответов
Помеченный LDA в Стэнфордском инструменте моделирования тем
Я использую Stanford Topic Modeling Toolbox v.0.3 для выполнения LabeledLDA. Я смог обучить модель LabeledLDA, используя предоставленную документацию ( example-6-llda-learn.scala). Как я могу предсказать метки для нового набора данных? Я попытался и…
27 июл '11 в 23:46
1
ответ
Консоль R выдает данные независимо от ошибки, а приложение Shiny - не из-за ошибки. Как я могу обойти ошибку в приложении Shiny?
Когда я запускаю приведенный ниже код в консоли R, я получаю следующую ошибку в строке 10: "Ошибка в lda.default(x, grouping, ...): переменные 5 6 кажутся постоянными внутри групп" Однако остальная часть кода все еще обрабатывается и данные выводятс…
10 фев '17 в 15:54
1
ответ
LDA Mahout только одна тема
Я пытаюсь следовать примеру использования LDA для данных Reuters, как указано в книге Mahout In Action. Однако, независимо от того, сколько раз я его запускаю, я всегда получаю только одну тему. Я выполнил команду как указано: mahout lda -i reuters-…
28 июн '12 в 19:58
0
ответов
В R, как я могу получить доверительный интервал групповых средних, полученных из lda()
У меня есть data.table MEG с непрерывной независимой переменной (называемой "метрикой") и категориально зависимой переменной (называемой "командой"), и я хочу, чтобы модель предсказывала "команду" по данной "метрике", т. Е. Мне нужно среднее значени…
10 авг '14 в 04:06
1
ответ
LatentDirichletAllocation python
Я использую следующий код для LatentDirichletAllocation через Scikit библиотеки Python: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, stop_words='english') tf = tf_vectorizer.fit_transform(documents) lda_model = LatentDirichletAllocation(n_…
28 май '18 в 10:16
2
ответа
LDA для тематического моделирования в Python
Я новичок в Python и пытаюсь использовать пакет LDA ( https://pypi.python.org/pypi/lda). У меня есть список названий и тем, с которыми связана каждая. Тем не менее, я понятия не имею, как использовать пакет в первую очередь. Я прочитал документацию …
05 дек '14 в 00:48
1
ответ
get_document_topics возвращает пустой список.
Я использую Gensim для моделирования темы. После обучения модели lda я вызываю get_document_topics для нового документа, чтобы получить распространение темы. Однако для некоторых документов возвращаемое значение представляет собой пустой список. Вот…
23 дек '18 в 04:44
1
ответ
Gensim LdaMulticore не запускается из командной строки
Я использую Gensim LdaMulticore для извлечения тем. Он отлично работает из записной книжки Jupyter/Ipython, но когда я запускаю из командной строки, цикл запускается бесконечно. Как только выполнение прибывает в функцию LdaMulticore, выполнение начи…
18 авг '17 в 13:45
0
ответов
Как удалить апостроф с помощью Regex в моделировании темы LDA?
Я новичок в теме моделирования и начинаю изучать его с помощью молотка в Java. Согласно моим требованиям, я должен принимать документы со строкой []. Итак, код documents.addThruPipe(new StringArrayIterator(data)); topicModel = new ParallelTopicModel…
22 апр '18 в 14:30
1
ответ
Как использовать LDA gensim для проведения поиска по запросам?
Я пытаюсь понять, как LDA можно использовать для извлечения текста, и в настоящее время я использую модель LdaModel от gensim для реализации LDA, здесь: https://radimrehurek.com/gensim/models/ldamodel.html. Мне удалось определить k тем и их наиболее…
26 апр '18 в 01:39
3
ответа
Инструмент моделирования тем для большого набора данных (30 ГБ)
Я ищу инструмент для моделирования тем, который может быть применим к большому набору данных. Мой текущий набор данных для обучения составляет 30 ГБ. Я пробовал моделирование темы MALLET, но всегда получал OutOfMemoryError. Если у вас есть какие-либ…
14 июл '14 в 10:18
1
ответ
Выделение скрытого распределения Дирихле (LDA) за счет ограничения размера слова для корпусных документов
Я генерировал темы с набором данных о клиентах, используя распределение скрытого дирихле (LDA) в python(пакет gensim). При создании токенов я выбираю из рецензий только слова длиной>= 3 (используя RegexpTokenizer): from nltk.tokenize import RegexpTo…
17 апр '16 в 06:18
0
ответов
Маллет LDA ArrayIndexOutOfBoundsException при обучении модели
Я пытаюсь построить модель с 500 или 1000 тем на наборе данных документов 1M с LDA Маллет. После 60 итераций я получаю ArrayIndexOutOfBoundsException, Сообщение об ошибке, как показано ниже: <60> LL/token: -7.64386 overflow on type 8 java.lang…
23 дек '16 в 15:27