Описание тега term-document-matrix
A document-term matrix or term-document matrix is a mathematical matrix that describes the frequency of terms that occur in a collection of documents. In a document-term matrix, rows correspond to documents in the collection and columns correspond to terms. There are various schemes for determining the value that each entry in the matrix should take. One such scheme is tf-idf. They are useful in the field of natural language processing.
1
ответ
Создание матрицы терминов из документа Excel с использованием R
Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть CSV-файл с заголовками статей в отдельных с…
10 ноя '13 в 20:15
2
ответа
Чтение матрицы терминов-документов из CSV с использованием Python
Причина, по которой классический csv reader не работает с массивами терминов, заключается в том, что первый столбец файла csv - это термины, а не значения. Таким образом, файл имеет следующий синтаксис: "";"label1";"label2";"label3" ... "term1";1;0;…
08 май '13 в 17:06
1
ответ
Мой DocumentTermMatrix сводится к нулю столбцов
train <- read.delim('train.tsv', header= T, fileEncoding= "windows-1252",stringsAsFactors=F) Train.tsv содержит 1,56,060 строк текста с 4 именами столбцов Phrase, PhraseID, SentenceID и Sentiment(в масштабе от 0 до 4). Столбец Phrase содержит тек…
31 янв '15 в 05:35
0
ответов
Как удалить пустые документы из Term-Document-Matrix в R
Итак, я создал матрицу терминов документов из корпуса в R: tdm_tfidf <-TermDocumentMatrix(corpus,control=list(weighting=weightTfIdf)) Однако есть предупреждение, что TDM содержит пустые документы: Warning: In weighting(x) : empty document(s): 54 …
31 мар '18 в 13:18
2
ответа
Как выделить числовой вектор биграмм из матрицы TDM
У меня большой числовой (46201 элементов, 3,3 Мб) в R. tdm_pairs.matrix <- as.matrix(tdm_pairs) top_pairs <- colSums(tdm_pairs.matrix) head(sort(top_pairs, decreasing = T),2) i know i dont i think i can i just i want 46 42 41 31 30 28 Я пыталс…
26 июл '15 в 00:46
2
ответа
Как выбрать только подмножество корпусных терминов для создания TermDocumentMatrix в TM
У меня огромный корпус, и меня интересует только появление нескольких терминов, которые я знаю заранее. Есть ли способ создать матрицу документа термина из корпуса, используя tm пакет, где должны использоваться только те термины, которые я указал за…
19 ноя '14 в 03:12
1
ответ
Почему стоп-слова не отфильтровываются в корпоративных матричных терминах?
Я строю матрицу терм-документа, используя tm библиотека. # Create corpus. corporize <- function(dir_to_corporize) { crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"), readerControl=list(reader=readPlain, language="en_EN"…
19 авг '15 в 20:45
1
ответ
Создать DFM шаг за шагом с Quanteda
Я хочу проанализировать большой (n=500 000) корпус документов. я использую quanteda в ожидании, что будет быстрее, чем tm_map() от tm, Я хочу продолжить шаг за шагом, а не использовать автоматический способ с dfm(), У меня есть причины для этого: в …
13 авг '16 в 09:54
3
ответа
Эффективная матрица срочных документов с NLTK
Я пытаюсь создать матрицу срочных документов с NLTK и пандами. Я написал следующую функцию: def fnDTM_Corpus(xCorpus): import pandas as pd '''to create a Term Document Matrix from a NLTK Corpus''' fd_list = [] for x in range(0, len(xCorpus.fileids()…
09 апр '13 в 10:46
0
ответов
Почему я не могу создать матрицу терминов документа?
Я использую R 3.3.0 и по какой-то причине не могу создать DTM, не получив сообщение об ошибке: Error in UseMethod("meta", x) : no applicable method for 'meta' applied to an object of class "try-error" In addition: Warning messages: 1: In mclapply(x$…
28 окт '16 в 17:22
1
ответ
Ошибка: наследует (doc, "TextDocument") не ИСТИНА
Я запускаю следующий фрагмент кода tdm = TermDocumentMatrix(ctext,control=list(minWordLength=1)) print(tdm) inspect(tdm[10:20,11:18]) out = findFreqTerms(tdm,lowfreq=5) print(out) Когда я запускаю его в консоли, он работает нормально. Однако, когда …
17 мар '16 в 06:33
2
ответа
Термин частотной матрицы
У меня есть такая строка: м<- "abcdabcdbcadacbddabcc..." Я хотел бы создать такую матрицу: Как я могу сделать это в r?
23 май '14 в 13:45
1
ответ
Использование lapply для матрицы терминов документов для расчета частоты слов
Учитывая три TermDocumentMatrix, text1, text2 и text3, я хотел бы вычислить частоту слов для каждого из них во фрейм данных и связать все фреймы данных. Три образца - у меня есть сотни на самом деле, поэтому мне нужно это функционализировать. Легко …
18 мар '15 в 19:40
1
ответ
Тм автоматически игнорирует очень короткие строки?
Вот мой код: пример 1: a <- c("ab cd de","ENERGIZER A23 12V ALKALINE BATTERi") a1 <- VCorpus(VectorSource(a)) a2 <- TermDocumentMatrix(a1,control = list(stemming=T)) inspect(a2) Результат: Docs Terms 1 2 12v 0 1 a23 0 1 alkalin 0 1 batteri …
09 ноя '16 в 02:39
3
ответа
TermDocumentMatrix иногда выдает ошибку
Я создаю Облако слов на основе твитов из разных спортивных команд. Этот код успешно выполняется примерно 1 из 10: handle <- 'arsenal' txt <- searchTwitter(handle,n=1000,lang='en') t <- sapply(txt,function(x) x$getText()) t <- gsub('http.…
06 сен '14 в 10:31
1
ответ
R: TermDocumentMatrix - ошибка при создании
Я пытаюсь получить данные из твиттера и создать облако слов, но мой код выдает ошибку при создании TermDocumentMatrix. Мой код, как показано ниже twitter_search_data <- searchTwitter(searchString = text_to_search ,n = 500) twitter_search_text <…
07 май '16 в 13:10
1
ответ
TermDocumentMatrix as.matrix использует большие объемы памяти
В настоящее время я использую пакет tm для извлечения терминов для кластеризации для обнаружения дубликатов в приличной базе данных из 25 тыс. Элементов (30 МБ), которая запускается на моем рабочем столе, но когда я пытаюсь запустить ее на своем сер…
08 дек '14 в 10:27
3
ответа
Как создать облака слов для текстовых файлов в каталоге в R
Я пытаюсь создать wordcloud для каждого текстового файла в каталоге. Это четыре президентских объявления. Я продолжаю получать следующее сообщение: > cname <- file.path("C:", "texts") > cname [1] "C:/texts" > cname <- file.path("C:\\U…
11 май '15 в 05:28
1
ответ
Общий способ избежать специальных символов в R
Ниже приводится серия тем электронной почты. DF- data.frame. Обратите внимание, я импортировал это из листа Excel. EmailSubject Buy the stunning new phone The game changer is here. Experience a phone ahead of its time. Thank You Chennai Limited Peri…
05 дек '17 в 04:40
2
ответа
Как отфильтровать матрицу документов терминов по частоте появления каждого термина
У меня есть матричный документ. Я хочу установить это подмножество и оставить только те термины, которые встречались более определенного числа раз, т.е. сумма строки должна быть больше определенного числа. Есть ли быстрый способ добиться этого? Кста…
03 мар '17 в 07:36