Описание тега topic-modeling

Тематические модели описывают частоту появления тем в документах и ​​тексте. "Тема" - это группа слов, которые обычно встречаются вместе.
0 ответов

Меченый LDA(скрытое распределение дирихле) в PyMC3

Я пытаюсь создать модель с меткой LDA, как описано в этой статье (раздел 3.2). То, что я до сих пор это: # settings entityTypesSize = 100 minibatchSize = 10 entityStringsSize = 100 model = pm.Model() with pm.Model() as model: alpha = pm.Gamma(alpha=…
13 дек '16 в 12:30
0 ответов

pyLDAvis: загрузить визуализацию json с диска и показать визуализацию

Я новичок в Python и pyLDAvis. Я был в состоянии экспортировать визуализацию как HTML и данные как JSON. Однако я хотел знать, есть ли способ загрузить данные с диска и показать визуализацию. Я не хочу запускать модель каждый раз, чтобы подготовить …
04 сен '18 в 20:36
2 ответа

Отрицательные значения: оцените Gensim LDA с согласованностью темы

В настоящее время я пытаюсь оценить мои тематические модели с помощью gensim topiccoherencemodel: from gensim.models.coherencemodel import CoherenceModel cm_u_mass = CoherenceModel(model = model1, corpus = corpus1, coherence = 'u_mass') coherence_u_…
30 май '18 в 14:34
0 ответов

Как получить распределение вероятностей для темы в молотке?

С помощью молотка я могу получить определенное количество тем и их слов. Как я могу убедиться, что тематические слова имеют распределение вероятностей (т.е. сумма к одному)? Например, если я запустил его, как показано ниже, как я могу использовать в…
2 ответа

LDA для тематического моделирования в Python

Я новичок в Python и пытаюсь использовать пакет LDA ( https://pypi.python.org/pypi/lda). У меня есть список названий и тем, с которыми связана каждая. Тем не менее, я понятия не имею, как использовать пакет в первую очередь. Я прочитал документацию …
05 дек '14 в 00:48
2 ответа

Тематическая модель молотка - противоречивые результаты с сериализованным файлом

Я тренирую тематическую модель с Маллетом и хочу сериализовать ее для последующего использования. Я запустил его на двух тестовых документах, а затем десериализовал его и запустил загруженную модель на тех же документах, и результаты оказались совер…
10 ноя '14 в 20:15
1 ответ

get_document_topics возвращает пустой список.

Я использую Gensim для моделирования темы. После обучения модели lda я вызываю get_document_topics для нового документа, чтобы получить распространение темы. Однако для некоторых документов возвращаемое значение представляет собой пустой список. Вот…
23 дек '18 в 04:44
0 ответов

Как удалить апостроф с помощью Regex в моделировании темы LDA?

Я новичок в теме моделирования и начинаю изучать его с помощью молотка в Java. Согласно моим требованиям, я должен принимать документы со строкой []. Итак, код documents.addThruPipe(new StringArrayIterator(data)); topicModel = new ParallelTopicModel…
22 апр '18 в 14:30
1 ответ

Как использовать LDA gensim для проведения поиска по запросам?

Я пытаюсь понять, как LDA можно использовать для извлечения текста, и в настоящее время я использую модель LdaModel от gensim для реализации LDA, здесь: https://radimrehurek.com/gensim/models/ldamodel.html. Мне удалось определить k тем и их наиболее…
3 ответа

Инструмент моделирования тем для большого набора данных (30 ГБ)

Я ищу инструмент для моделирования тем, который может быть применим к большому набору данных. Мой текущий набор данных для обучения составляет 30 ГБ. Я пробовал моделирование темы MALLET, но всегда получал OutOfMemoryError. Если у вас есть какие-либ…
14 июл '14 в 10:18
1 ответ

Реализация словаря Gensim

Мне просто было интересно узнать о реализации словаря gensim. У меня есть следующий код: def build_dictionary(documents): dictionary = corpora.Dictionary(documents) dictionary.save('/tmp/deerwester.dict') # store the dictionary return dictionary и я…
12 авг '13 в 09:38
0 ответов

Маллет LDA ArrayIndexOutOfBoundsException при обучении модели

Я пытаюсь построить модель с 500 или 1000 тем на наборе данных документов 1M с LDA Маллет. После 60 итераций я получаю ArrayIndexOutOfBoundsException, Сообщение об ошибке, как показано ниже: <60> LL/token: -7.64386 overflow on type 8 java.lang…
23 дек '16 в 15:27
1 ответ

Что такое функция оценки в моделировании темы с использованием библиотеки молотка

Я новичок в моделировании тем и пытаюсь использовать библиотеку Маллета, но у меня есть вопрос. Я использую простую параллельную реализацию LDA, чтобы найти темы для некоторых случаев. Мой вопрос, что такое функция оценки в ParallelTopicModel? У мен…
05 ноя '14 в 23:36
0 ответов

ПОЛУЧИТЕ названия тем для каждого документа

Я пытаюсь создать тему моделирования для документов, используя пример в этой ссылке https://www.w3cschool.cn/doc_scikit_learn/scikit_learn-auto_examples-applications-topics_extraction_with_nmf_lda.html Мой вопрос Как я могу узнать, какие документы с…
17 фев '19 в 07:56
1 ответ

LDA/LSI Моделирование тем в Gensim с предопределенным списком тем

У меня есть комплект документов. У меня также есть названия тем, на основе которых я хочу классифицировать документы. Я предпочитаю использовать LDA в Gensim. Есть ли способ кормить свой собственный список тем в алгоритме моделирования темы?
01 июн '17 в 07:23
1 ответ

Ошибка чтения CSV в Stanford Topic Modeling Toolbox

Я пытаюсь использовать Stanford Topic Modeling Toolbox (TMT), чтобы опробовать тематическое моделирование [0]. Я новичок в Scala. Тем не менее, я не могу подготовить свой набор данных, прочитав файл CSV. Вот мой код import scalanlp.io._; val source …
11 ноя '12 в 13:59
1 ответ

Как получить распространение document_topics всего документа в LDA Gensim?

Я новичок в Python, и мне нужно построить проект LDA. После некоторого шага предварительной обработки вот мой код: dictionary = Dictionary(docs) corpus = [dictionary.doc2bow(doc) for doc in docs] from gensim.models import LdaModel num_topics = 10 ch…
0 ответов

Модель темы BTM для краткого текста в R

Я хочу сделать модель темы Biterm в R вместо LDA, потому что LDA может не работать хорошо при работе с документами короткой длины. Весь код, который я нашел, предназначен для Python. Может кто-нибудь проинструктировать меня, как сделать это в R, пож…
03 ноя '17 в 16:57
0 ответов

Настройка данных для динамического моделирования тем

Я пытаюсь научиться динамическому моделированию темы (чтобы уловить семантические изменения в словах) из данных, удаленных из PUBMED. Я смог получить данные в виде xml, извлечь из него "абстрактный" текст и информацию о дате и сохранить их в формате…
02 дек '17 в 18:13
1 ответ

Объект 'float' не имеет атрибута 'encode'

Этот код предназначен для индексации и сортировки в каждом кластере, чтобы определить, какие из n верхних (я выбрал n=6) слов являются ближайшими к центроиду кластера. Во всяком случае, я обнаружил такого рода ошибки: объект "float" не имеет атрибут…