Описание тега topicmodels

NoneTopicmodels - это пакет R, реализующий тематическое моделирование латентного распределения Дирихле.
0 ответов

Как получить распределение вероятностей для темы в молотке?

С помощью молотка я могу получить определенное количество тем и их слов. Как я могу убедиться, что тематические слова имеют распределение вероятностей (т.е. сумма к одному)? Например, если я запустил его, как показано ниже, как я могу использовать в…
0 ответов

Установка бета-значения при обучении LDA с помощью тематических моделей пакета R

Я использую тематические модели пакета R для обучения LDA следующим образом: LDA (x, k, method = "VEM", control = list (..., alpha = 0,05, ...), model = NULL, ...), где x - это матрица терминов моего документа, а k - количество тем. Я обнаружил, что…
17 окт '17 в 12:31
1 ответ

Почему я получаю ошибку в 1:nrow(count): аргумент длины 0

Я делаю тему моделирования с использованием topicmodels Пакет в R. Я создаю объект Corpus, делаю некоторую базовую предварительную обработку, а затем создаю DocumentTermMatrix: library(topicmodels) #Set parameters for Gibbs sampling burnin <- 400…
29 дек '17 в 13:24
1 ответ

Можно ли найти последующую вероятность того, что темы, созданные с помощью LDA, встречаются в данном документе? Как, если так?

Как может или не может быть очевидно из вопроса, я довольно новичок в R, и я мог бы помочь с этим. При создании тематических моделей я экспериментировал с LDA и LDAvis - код в (A) и (B) ниже. LDA в (A) позволяет мне найти апостериорную вероятность т…
28 дек '16 в 10:27
0 ответов

Неопределенный символ: gsl_multimin_fdfminimizer_conjugate_fr при попытке установить топические модели в R

Я пытался установить topicmodels пакет в R на несколько минут. Я прочитал много уроков и установил пакет gsl, но все еще получаю эту ошибку: Error: package or namespace load failed for ‘topicmodels’ in dyn.load(file, DLLpath = DLLpath, ...): impossí…
28 сен '17 в 00:34
0 ответов

Дополнительный аргумент seedwords в функции LDA() из topicmodels

Я ищу подробный пример скрытого распределения дирихле (LDA) с начальными словами, указанными для пакета topicmodels в R. Основная функция принимает форму:LDA (x, k, method = "Gibbs", control = NULL, model = NULL,...) И в документации только говоритс…
20 ноя '18 в 09:29
1 ответ

Графики смежных тем

Я пытаюсь построить сеть распределения слов по темам (отношение к теме). используя этот код [источник]: post <- topicmodels::posterior(ldaOut) cor_mat <- cor(t(post[["terms"]])) cor_mat[ cor_mat < .05 ] <- 0 diag(cor_mat) <- 0 graph &…
06 сен '17 в 19:21
2 ответа

Перемаркируйте номер темы в STM

Для презентации я бы хотел пометить номер темы моделирования темы STM (например, заменить "тема 40" на "тема 1"). Я, однако, не уверен, где я должен измениться (где хранятся номера тем?).
24 фев '18 в 03:27
1 ответ

Тематическое моделирование: LDA и BTM

Кто-нибудь знает здесь о теме моделирования? Мне очень нужна помощь. 1) Что такое тематическое моделирование 2) Что такое скрытое распределение Дирихле и тематическое моделирование Biterm? 3) В чем разница между LDA и BTM? 4) Как они работают? Я наш…
15 янв '19 в 19:52
0 ответов

Согласованность в авторской теме Modelling- Выбор модели

Мы пытаемся определить оптимальное количество тематических моделей после запуска алгоритма, используя показатель когерентности (u_mass). Вот график, который мы получили, когда построили количество тем в зависимости от оценки когерентности u_mass: Мы…
31 окт '18 в 01:35
0 ответов

DocumentTermMatrix() возвращает 0 терминов в пакете tm

У меня есть такой объект: str(apps) chr [1:17517] "35 44 33 40 33 40 44 38 33 37 37" ... В каждой строке число разделяется пробелом. corpus<-Corpus(VectorSource(apps)) dtm<-DocumentTermMatrix(corpus) str(dtm) List of 6 $ i : int(0) $ j : int(0…
11 авг '15 в 02:46
1 ответ

Quanteda с topicmodels: удаленные стоп-слова появляются в результатах (китайский)

Мой код: library(quanteda) library(topicmodels) # Some raw text as a vector postText <- c("普京 称 俄罗斯 未 乌克兰 施压 来自 头 条 新闻", "长期 电脑 前进 食 致癌 环球网 报道 乌克兰 学者 认为 电脑 前进 食 会 引发 癌症 等 病症 电磁 辐射 作用 电脑 旁 水 食物 会 逐渐 变质 有害 物质 累积 尽管 人体 短期 内 会 感到 适 会 渐渐 引发 出 癌症 阿尔茨海默…
24 мар '16 в 21:16
1 ответ

LDA с topicmodels (R), как я могу увидеть, к каким темам относятся разные документы, с сохранением заголовков документов?

Я ценю ответ Бена здесь: LDA с тематическими моделями, как я могу увидеть, к каким темам принадлежат разные документы? Мой вопрос: как сохранить заголовки документов на последнем шаге? Например: Вручную создайте три документа.txt в отдельных текстов…
30 янв '18 в 06:14
2 ответа

R тема моделей LDA

Я использую LDA на небольшом корпусе из 2 документов (предложений) для тестирования. Следующий код возвращает распределения по теме и по теме документа, которые вообще не подходят для входных документов. Запуск точно такой же возвращает в Python раз…
12 сен '17 в 15:45
0 ответов

ggplot2 в настоящее время не поддерживает свободные масштабы с не декартовой системой координат или ordin_flip

С результатами тематической модели LDA я пытаюсь создать 30 горизонтальных столбчатых диаграмм, чтобы показать главные слова в сравнении с их вероятностями. png("airport.png") top_terms %>% mutate(term = reorder(term, beta)) %>% ggplot(aes(ter…
08 янв '17 в 03:12
1 ответ

Могут ли text2vec и topicmodels генерировать похожие темы с подходящими настройками параметров для LDA?

Мне было интересно, как отличаются результаты разных пакетов, следовательно, алгоритмов и могут ли параметры быть установлены таким образом, чтобы создавать похожие темы. Я посмотрел на пакеты text2vec а также topicmodels особенно. Я использовал при…
17 окт '17 в 10:43
0 ответов

Что будет дальше после моделирования темы в LDA

Я новичок в теме моделирования. Поэтому я надеюсь, что кто-то опытный сможет ответить на мои вопросы. Вот упрощенный формат моих данных: 1. У меня есть CSV-файл размером 1000*2. (смесь тем) 2. Каждая строка представляет собой документ и идентификато…
13 июн '18 в 11:04
0 ответов

Удалите короткие документы из DTM плюс фильтр tfidf в R Предварительная обработка Тематических моделей

Я пытаюсь предварительно обработать корпус для моделирования тем в R. На первом этапе я хочу удалить короткие документы, т.е. документы, содержащие менее 50 слов (после удаления стоп-слова). После этого я хочу оставить только те термины со значениям…
16 янв '18 в 20:19
0 ответов

Как сделать тему моделирования?

Я впервые попробовал свои силы в тематическом моделировании. Попытался запустить код виньетки, но получил следующие ошибки; library(pacman) p_load("tm", "SnowballCC", "RColorBrewer", "ggplot2", "wordcloud", "biclust", "cluster", "igraph", "fpc", "Rc…
12 янв '18 в 13:30
0 ответов

Проблема с ggplot для составления тем и ДАТЫ набора данных twitter в LDA

Я пытался построить график плотности для тем и даты твитов, как это https://rpubs.com/Alexreda/224494. Однако после удаления пустых строк DTM, я не могу найти способ удалить соответствующие даты для этого. dtm <- as.DocumentTermMatrix(tdm) rowTot…
01 ноя '18 в 03:32