Описание тега topicmodels
NoneTopicmodels - это пакет R, реализующий тематическое моделирование латентного распределения Дирихле.
0
ответов
Как получить распределение вероятностей для темы в молотке?
С помощью молотка я могу получить определенное количество тем и их слов. Как я могу убедиться, что тематические слова имеют распределение вероятностей (т.е. сумма к одному)? Например, если я запустил его, как показано ниже, как я могу использовать в…
21 окт '15 в 05:39
0
ответов
Установка бета-значения при обучении LDA с помощью тематических моделей пакета R
Я использую тематические модели пакета R для обучения LDA следующим образом: LDA (x, k, method = "VEM", control = list (..., alpha = 0,05, ...), model = NULL, ...), где x - это матрица терминов моего документа, а k - количество тем. Я обнаружил, что…
17 окт '17 в 12:31
1
ответ
Почему я получаю ошибку в 1:nrow(count): аргумент длины 0
Я делаю тему моделирования с использованием topicmodels Пакет в R. Я создаю объект Corpus, делаю некоторую базовую предварительную обработку, а затем создаю DocumentTermMatrix: library(topicmodels) #Set parameters for Gibbs sampling burnin <- 400…
29 дек '17 в 13:24
1
ответ
Можно ли найти последующую вероятность того, что темы, созданные с помощью LDA, встречаются в данном документе? Как, если так?
Как может или не может быть очевидно из вопроса, я довольно новичок в R, и я мог бы помочь с этим. При создании тематических моделей я экспериментировал с LDA и LDAvis - код в (A) и (B) ниже. LDA в (A) позволяет мне найти апостериорную вероятность т…
28 дек '16 в 10:27
0
ответов
Неопределенный символ: gsl_multimin_fdfminimizer_conjugate_fr при попытке установить топические модели в R
Я пытался установить topicmodels пакет в R на несколько минут. Я прочитал много уроков и установил пакет gsl, но все еще получаю эту ошибку: Error: package or namespace load failed for ‘topicmodels’ in dyn.load(file, DLLpath = DLLpath, ...): impossí…
28 сен '17 в 00:34
0
ответов
Дополнительный аргумент seedwords в функции LDA() из topicmodels
Я ищу подробный пример скрытого распределения дирихле (LDA) с начальными словами, указанными для пакета topicmodels в R. Основная функция принимает форму:LDA (x, k, method = "Gibbs", control = NULL, model = NULL,...) И в документации только говоритс…
20 ноя '18 в 09:29
1
ответ
Графики смежных тем
Я пытаюсь построить сеть распределения слов по темам (отношение к теме). используя этот код [источник]: post <- topicmodels::posterior(ldaOut) cor_mat <- cor(t(post[["terms"]])) cor_mat[ cor_mat < .05 ] <- 0 diag(cor_mat) <- 0 graph &…
06 сен '17 в 19:21
2
ответа
Перемаркируйте номер темы в STM
Для презентации я бы хотел пометить номер темы моделирования темы STM (например, заменить "тема 40" на "тема 1"). Я, однако, не уверен, где я должен измениться (где хранятся номера тем?).
24 фев '18 в 03:27
1
ответ
Тематическое моделирование: LDA и BTM
Кто-нибудь знает здесь о теме моделирования? Мне очень нужна помощь. 1) Что такое тематическое моделирование 2) Что такое скрытое распределение Дирихле и тематическое моделирование Biterm? 3) В чем разница между LDA и BTM? 4) Как они работают? Я наш…
15 янв '19 в 19:52
0
ответов
Согласованность в авторской теме Modelling- Выбор модели
Мы пытаемся определить оптимальное количество тематических моделей после запуска алгоритма, используя показатель когерентности (u_mass). Вот график, который мы получили, когда построили количество тем в зависимости от оценки когерентности u_mass: Мы…
31 окт '18 в 01:35
0
ответов
DocumentTermMatrix() возвращает 0 терминов в пакете tm
У меня есть такой объект: str(apps) chr [1:17517] "35 44 33 40 33 40 44 38 33 37 37" ... В каждой строке число разделяется пробелом. corpus<-Corpus(VectorSource(apps)) dtm<-DocumentTermMatrix(corpus) str(dtm) List of 6 $ i : int(0) $ j : int(0…
11 авг '15 в 02:46
1
ответ
Quanteda с topicmodels: удаленные стоп-слова появляются в результатах (китайский)
Мой код: library(quanteda) library(topicmodels) # Some raw text as a vector postText <- c("普京 称 俄罗斯 未 乌克兰 施压 来自 头 条 新闻", "长期 电脑 前进 食 致癌 环球网 报道 乌克兰 学者 认为 电脑 前进 食 会 引发 癌症 等 病症 电磁 辐射 作用 电脑 旁 水 食物 会 逐渐 变质 有害 物质 累积 尽管 人体 短期 内 会 感到 适 会 渐渐 引发 出 癌症 阿尔茨海默…
24 мар '16 в 21:16
1
ответ
LDA с topicmodels (R), как я могу увидеть, к каким темам относятся разные документы, с сохранением заголовков документов?
Я ценю ответ Бена здесь: LDA с тематическими моделями, как я могу увидеть, к каким темам принадлежат разные документы? Мой вопрос: как сохранить заголовки документов на последнем шаге? Например: Вручную создайте три документа.txt в отдельных текстов…
30 янв '18 в 06:14
2
ответа
R тема моделей LDA
Я использую LDA на небольшом корпусе из 2 документов (предложений) для тестирования. Следующий код возвращает распределения по теме и по теме документа, которые вообще не подходят для входных документов. Запуск точно такой же возвращает в Python раз…
12 сен '17 в 15:45
0
ответов
ggplot2 в настоящее время не поддерживает свободные масштабы с не декартовой системой координат или ordin_flip
С результатами тематической модели LDA я пытаюсь создать 30 горизонтальных столбчатых диаграмм, чтобы показать главные слова в сравнении с их вероятностями. png("airport.png") top_terms %>% mutate(term = reorder(term, beta)) %>% ggplot(aes(ter…
08 янв '17 в 03:12
1
ответ
Могут ли text2vec и topicmodels генерировать похожие темы с подходящими настройками параметров для LDA?
Мне было интересно, как отличаются результаты разных пакетов, следовательно, алгоритмов и могут ли параметры быть установлены таким образом, чтобы создавать похожие темы. Я посмотрел на пакеты text2vec а также topicmodels особенно. Я использовал при…
17 окт '17 в 10:43
0
ответов
Что будет дальше после моделирования темы в LDA
Я новичок в теме моделирования. Поэтому я надеюсь, что кто-то опытный сможет ответить на мои вопросы. Вот упрощенный формат моих данных: 1. У меня есть CSV-файл размером 1000*2. (смесь тем) 2. Каждая строка представляет собой документ и идентификато…
13 июн '18 в 11:04
0
ответов
Удалите короткие документы из DTM плюс фильтр tfidf в R Предварительная обработка Тематических моделей
Я пытаюсь предварительно обработать корпус для моделирования тем в R. На первом этапе я хочу удалить короткие документы, т.е. документы, содержащие менее 50 слов (после удаления стоп-слова). После этого я хочу оставить только те термины со значениям…
16 янв '18 в 20:19
0
ответов
Как сделать тему моделирования?
Я впервые попробовал свои силы в тематическом моделировании. Попытался запустить код виньетки, но получил следующие ошибки; library(pacman) p_load("tm", "SnowballCC", "RColorBrewer", "ggplot2", "wordcloud", "biclust", "cluster", "igraph", "fpc", "Rc…
12 янв '18 в 13:30
0
ответов
Проблема с ggplot для составления тем и ДАТЫ набора данных twitter в LDA
Я пытался построить график плотности для тем и даты твитов, как это https://rpubs.com/Alexreda/224494. Однако после удаления пустых строк DTM, я не могу найти способ удалить соответствующие даты для этого. dtm <- as.DocumentTermMatrix(tdm) rowTot…
01 ноя '18 в 03:32