Описание тега tm

Описание тега Вопросы с тегом

Пакет tm (сокращение от Text Mining Infrastructure в R) обеспечивает основу для приложений интеллектуального анализа текста в R.

1 ответ

Создание матрицы терминов из документа Excel с использованием R

Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть CSV-файл с заголовками статей в отдельных с…

r csv matrix tm term-document-matrix

10 ноя '13 в 20:15

1 ответ

Различия в dtm различаются в зависимости от tf/tfidf, один и тот же корпус

Кто-нибудь может объяснить? Мое понимание: tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 Таким образом, точная пропорция должна быть одинаковой в двух DTM, созданных с помощью пр…

r text-processing tf-idf tm

29 ноя '16 в 12:35

1 ответ

Мой DocumentTermMatrix сводится к нулю столбцов

train <- read.delim('train.tsv', header= T, fileEncoding= "windows-1252",stringsAsFactors=F) Train.tsv содержит 1,56,060 строк текста с 4 именами столбцов Phrase, PhraseID, SentenceID и Sentiment(в масштабе от 0 до 4). Столбец Phrase содержит тек…

r text-mining tm term-document-matrix

31 янв '15 в 05:35

1 ответ

Тм пакет: stemCompletion не работает

У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …

r text-mining tm stemming text-analysis

16 янв '17 в 10:10

0 ответов

tm_map имеет ошибку параллельного::mclapply в R 3.0.1 на Linux

Я использую R 3.0.1 на платформе: i486-pc-linux-gnu (32-разрядная версия). Я пытаюсь использовать tm_map из библиотеки tm. У меня 4080 слов в моем списке SmartStopWord. Но когда я выполняю этот код: library(tm) Get_Corpus <- system.file("texts","…

r tm mclapply

21 фев '14 в 10:53

3 ответа

Что такое функция getText в текстовом майнинге? Откуда это взялось? [р]

Я следую примеру майнинга текста из Social Media Mining с R от Натана Даннермана и Ричарда Хейманна: Книга. После вытащить твиты с помощью searchTwitter функция, которую использует автор sapply на list чтобы извлечь текстовую часть следующим образом…

r twitter text-mining tm

11 мар '15 в 14:49

0 ответов

Добавлены стоп-слова, но, похоже, не работает

Я добавил несколько слов в свой список стоп-слов, но когда я обрабатываю его и смотрю на частоту слов, одно из слов кажется застрявшим. myStopwords <- c(stopwords('english'), "glove", "kgi") corp <- tm_map(corp, removeWords, myStopwords) Затем…

r tm stop-words

10 авг '17 в 13:48

1 ответ

Ошибка при предварительной обработке пакета tm в R

Я пытаюсь выполнить некоторую предварительную обработку с помощью пакета tm в R. Я написал следующие строки: corpus <- Corpus(VectorSource(Data)) corpus <- tm_map(corpus , asPlain) corpus <- tmMap(corpus , removeSignature) Как вы можете вид…

r package tm

06 мар '15 в 22:48

1 ответ

Можно ли удалить части или разделы документов в корпусе пакета R tm?

Я построил корпус с пакетом R tm, состоящим из нескольких статей, и я хотел бы удалить раздел "Справочные материалы" из всех их. Это возможно?

r tm corpus

12 янв '16 в 13:54

2 ответа

Объединение двухчленной матрицы в R

У меня есть две матрицы термина документа. Я не могу принять объединение этих двух матриц в качестве матрицы двух разных длин. A <- data.frame(name = c( "X-ray right leg arteries", "x-ray left shoulder", "x-ray leg arteries", "x-ray leg with 20km…

r tm cosine

16 фев '18 в 09:10

2 ответа

Text Mining - удалить пунктуацию, не удаляя кавычки и тире

Я занимался майнингом текстов. Я создал матрицу DTM, используя следующие шаги. corpus1<-VCorpus(VectorSource(resume1$Dat1)) corpus1<-tm_map(corpus1,content_transformer(tolower)) corpus1<-tm_map(corpus1,content_transformer(trimWhiteSpace)) d…

r text-mining tm

08 июн '15 в 07:19

0 ответов

Нет применимого метода для 'tm_map', примененного к объекту класса "персонаж"

Мои данные выглядят так: 1. Good quality, love the taste, the only ramen noodles we buy but they're available at the local Korean grocery store for a bit less so no need to buy on Amazon really. 2. Great flavor and taste. Prompt delivery.We will reo…

r matrix text-mining tm

04 авг '17 в 19:48

3 ответа

Изменение структуры фрейма данных в R

Мне нужна помощь с реструктуризацией моего фрейма данных. В настоящее время у меня есть следующая структура данных: Текущая структура данных Мне нужно добраться до этого: post 229 comments 220 badge 209 washington 160 Обратите внимание, что мне не н…

r dataframe plyr tm

20 апр '16 в 07:09

1 ответ

Несколько результатов одной переменной при применении метода "stemCompletion"

У меня есть корпус, содержащий данные журнала 15 наблюдений за 3 переменными (ID, заголовок, аннотация). Используя R Studio, я читаю данные из файла.csv (одна строка на наблюдение). При выполнении некоторых операций по добыче текста у меня возникли …

r rstudio tm stemming

05 окт '14 в 16:23

2 ответа

Как выбрать только подмножество корпусных терминов для создания TermDocumentMatrix в TM

У меня огромный корпус, и меня интересует только появление нескольких терминов, которые я знаю заранее. Есть ли способ создать матрицу документа термина из корпуса, используя tm пакет, где должны использоваться только те термины, которые я указал за…

r tm corpus term-document-matrix

19 ноя '14 в 03:12

1 ответ

R - Анализ текста - вводящие в заблуждение результаты

Я делаю некоторый текстовый анализ комментариев от клиентов банка, связанных с ипотекой, и я нахожу пару вещей, которые я понимаю. 1) После очистки данных без применения слов Stemming Words и проверки размера TDM количество терминов (2173) меньше, ч…

r text-mining tm text-analysis qdap

09 сен '18 в 23:20

1 ответ

Ошибка при установке старых пакетов в R

Я пытаюсь установить 0,6-2 версию библиотеки ТМ. Я скачал файл tar.gz из архива и в RStudio выбрал Инструменты -> Архив -> Пакет архивного файла, чтобы установить его. Однако я получаю следующую ошибку. Может кто-нибудь помочь мне исправить это, пож…

r gcc rstudio tm

02 мар '17 в 20:28

1 ответ

Поддержка пользовательских метаданных с настраиваемыми функциями для tm_map

У меня есть функция, которую я использую для перевода токенов на основе словаря ключ / значение. dictionary <- c("casa", "barco", "carro", "arbol") names(dictionary) <- c("home", "boat", "car", "tree") translate2 <- function (text, dictiona…

r nlp tm

12 янв '14 в 23:11

0 ответов

Пользовательская функция не может быть передана через функцию content_transformer в пакете tm

Я пытаюсь провести анализ текста с использованием пакета TM в г. Я в системе Windows. Я создал простую функцию для преобразования существительных во множественном числе в единый формат. пожалуйста, смотрите прикрепленный для кода. to_single<-func…

r tm text-analysis

26 июн '17 в 19:56

1 ответ

Почему стоп-слова не отфильтровываются в корпоративных матричных терминах?

Я строю матрицу терм-документа, используя tm библиотека. # Create corpus. corporize <- function(dir_to_corporize) { crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"), readerControl=list(reader=readPlain, language="en_EN"…

r tm term-document-matrix

19 авг '15 в 20:45