Описание тега term-document-matrix

Описание тега Вопросы с тегом

A document-term matrix or term-document matrix is a mathematical matrix that describes the frequency of terms that occur in a collection of documents. In a document-term matrix, rows correspond to documents in the collection and columns correspond to terms. There are various schemes for determining the value that each entry in the matrix should take. One such scheme is tf-idf. They are useful in the field of natural language processing.

1 ответ

Создание матрицы терминов из документа Excel с использованием R

Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть CSV-файл с заголовками статей в отдельных с…

r csv matrix tm term-document-matrix

10 ноя '13 в 20:15

2 ответа

Чтение матрицы терминов-документов из CSV с использованием Python

Причина, по которой классический csv reader не работает с массивами терминов, заключается в том, что первый столбец файла csv - это термины, а не значения. Таким образом, файл имеет следующий синтаксис: "";"label1";"label2";"label3" ... "term1";1;0;…

python csv large-data term-document-matrix

08 май '13 в 17:06

1 ответ

Мой DocumentTermMatrix сводится к нулю столбцов

train <- read.delim('train.tsv', header= T, fileEncoding= "windows-1252",stringsAsFactors=F) Train.tsv содержит 1,56,060 строк текста с 4 именами столбцов Phrase, PhraseID, SentenceID и Sentiment(в масштабе от 0 до 4). Столбец Phrase содержит тек…

r text-mining tm term-document-matrix

31 янв '15 в 05:35

0 ответов

Как удалить пустые документы из Term-Document-Matrix в R

Итак, я создал матрицу терминов документов из корпуса в R: tdm_tfidf <-TermDocumentMatrix(corpus,control=list(weighting=weightTfIdf)) Однако есть предупреждение, что TDM содержит пустые документы: Warning: In weighting(x) : empty document(s): 54 …

r text-mining corpus term-document-matrix

31 мар '18 в 13:18

2 ответа

Как выделить числовой вектор биграмм из матрицы TDM

У меня большой числовой (46201 элементов, 3,3 Мб) в R. tdm_pairs.matrix <- as.matrix(tdm_pairs) top_pairs <- colSums(tdm_pairs.matrix) head(sort(top_pairs, decreasing = T),2) i know i dont i think i can i just i want 46 42 41 31 30 28 Я пыталс…

r vector n-gram term-document-matrix

26 июл '15 в 00:46

2 ответа

Как выбрать только подмножество корпусных терминов для создания TermDocumentMatrix в TM

У меня огромный корпус, и меня интересует только появление нескольких терминов, которые я знаю заранее. Есть ли способ создать матрицу документа термина из корпуса, используя tm пакет, где должны использоваться только те термины, которые я указал за…

r tm corpus term-document-matrix

19 ноя '14 в 03:12

1 ответ

Почему стоп-слова не отфильтровываются в корпоративных матричных терминах?

Я строю матрицу терм-документа, используя tm библиотека. # Create corpus. corporize <- function(dir_to_corporize) { crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"), readerControl=list(reader=readPlain, language="en_EN"…

r tm term-document-matrix

19 авг '15 в 20:45

1 ответ

Создать DFM шаг за шагом с Quanteda

Я хочу проанализировать большой (n=500 000) корпус документов. я использую quanteda в ожидании, что будет быстрее, чем tm_map() от tm, Я хочу продолжить шаг за шагом, а не использовать автоматический способ с dfm(), У меня есть причины для этого: в …

r quanteda text-analysis term-document-matrix

13 авг '16 в 09:54

3 ответа

Эффективная матрица срочных документов с NLTK

Я пытаюсь создать матрицу срочных документов с NLTK и пандами. Я написал следующую функцию: def fnDTM_Corpus(xCorpus): import pandas as pd '''to create a Term Document Matrix from a NLTK Corpus''' fd_list = [] for x in range(0, len(xCorpus.fileids()…

python pandas nltk term-document-matrix

09 апр '13 в 10:46

0 ответов

Почему я не могу создать матрицу терминов документа?

Я использую R 3.3.0 и по какой-то причине не могу создать DTM, не получив сообщение об ошибке: Error in UseMethod("meta", x) : no applicable method for 'meta' applied to an object of class "try-error" In addition: Warning messages: 1: In mclapply(x$…

r term-document-matrix

28 окт '16 в 17:22

1 ответ

Ошибка: наследует (doc, "TextDocument") не ИСТИНА

Я запускаю следующий фрагмент кода tdm = TermDocumentMatrix(ctext,control=list(minWordLength=1)) print(tdm) inspect(tdm[10:20,11:18]) out = findFreqTerms(tdm,lowfreq=5) print(out) Когда я запускаю его в консоли, он работает нормально. Однако, когда …

r term-document-matrix

17 мар '16 в 06:33

2 ответа

Термин частотной матрицы

У меня есть такая строка: м<- "abcdabcdbcadacbddabcc..." Я хотел бы создать такую матрицу: Как я могу сделать это в r?

r text-mining word-frequency term-document-matrix

23 май '14 в 13:45

1 ответ

Использование lapply для матрицы терминов документов для расчета частоты слов

Учитывая три TermDocumentMatrix, text1, text2 и text3, я хотел бы вычислить частоту слов для каждого из них во фрейм данных и связать все фреймы данных. Три образца - у меня есть сотни на самом деле, поэтому мне нужно это функционализировать. Легко …

r lapply term-document-matrix

18 мар '15 в 19:40

1 ответ

Тм автоматически игнорирует очень короткие строки?

Вот мой код: пример 1: a <- c("ab cd de","ENERGIZER A23 12V ALKALINE BATTERi") a1 <- VCorpus(VectorSource(a)) a2 <- TermDocumentMatrix(a1,control = list(stemming=T)) inspect(a2) Результат: Docs Terms 1 2 12v 0 1 a23 0 1 alkalin 0 1 batteri …

r tm term-document-matrix

09 ноя '16 в 02:39

3 ответа

TermDocumentMatrix иногда выдает ошибку

Я создаю Облако слов на основе твитов из разных спортивных команд. Этот код успешно выполняется примерно 1 из 10: handle <- 'arsenal' txt <- searchTwitter(handle,n=1000,lang='en') t <- sapply(txt,function(x) x$getText()) t <- gsub('http.…

r word-cloud term-document-matrix

06 сен '14 в 10:31

1 ответ

R: TermDocumentMatrix - ошибка при создании

Я пытаюсь получить данные из твиттера и создать облако слов, но мой код выдает ошибку при создании TermDocumentMatrix. Мой код, как показано ниже twitter_search_data <- searchTwitter(searchString = text_to_search ,n = 500) twitter_search_text &lt…

r term-document-matrix mclapply

07 май '16 в 13:10

1 ответ

TermDocumentMatrix as.matrix использует большие объемы памяти

В настоящее время я использую пакет tm для извлечения терминов для кластеризации для обнаружения дубликатов в приличной базе данных из 25 тыс. Элементов (30 МБ), которая запускается на моем рабочем столе, но когда я пытаюсь запустить ее на своем сер…

r tm term-document-matrix

08 дек '14 в 10:27

3 ответа

Как создать облака слов для текстовых файлов в каталоге в R

Я пытаюсь создать wordcloud для каждого текстового файла в каталоге. Это четыре президентских объявления. Я продолжаю получать следующее сообщение: > cname <- file.path("C:", "texts") > cname [1] "C:/texts" > cname <- file.path("C:\\U…

r text-mining word-cloud quanteda term-document-matrix

11 май '15 в 05:28

1 ответ

Общий способ избежать специальных символов в R

Ниже приводится серия тем электронной почты. DF- data.frame. Обратите внимание, я импортировал это из листа Excel. EmailSubject Buy the stunning new phone The game changer is here. Experience a phone ahead of its time. Thank You Chennai Limited Peri…

r dataframe gsub term-document-matrix

05 дек '17 в 04:40

2 ответа

Как отфильтровать матрицу документов терминов по частоте появления каждого термина

У меня есть матричный документ. Я хочу установить это подмножество и оставить только те термины, которые встречались более определенного числа раз, т.е. сумма строки должна быть больше определенного числа. Есть ли быстрый способ добиться этого? Кста…

r tm term-document-matrix

03 мар '17 в 07:36