Пакет tm (сокращение от Text Mining Infrastructure в R) обеспечивает основу для приложений интеллектуального анализа текста в R.
1 ответ

Создание матрицы терминов из документа Excel с использованием R

Для анализа настроений с использованием веб-майнинга плагина tm я должен создать TermDocumentMatrix, как показано в примере кода ниже: http://www.inside-r.org/packages/cran/tm/docs/tm_tag_score У меня есть CSV-файл с заголовками статей в отдельных с…
10 ноя '13 в 20:15
1 ответ

Различия в dtm различаются в зависимости от tf/tfidf, один и тот же корпус

Кто-нибудь может объяснить? Мое понимание: tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 Таким образом, точная пропорция должна быть одинаковой в двух DTM, созданных с помощью пр…
29 ноя '16 в 12:35
1 ответ

Мой DocumentTermMatrix сводится к нулю столбцов

train <- read.delim('train.tsv', header= T, fileEncoding= "windows-1252",stringsAsFactors=F) Train.tsv содержит 1,56,060 строк текста с 4 именами столбцов Phrase, PhraseID, SentenceID и Sentiment(в масштабе от 0 до 4). Столбец Phrase содержит тек…
31 янв '15 в 05:35
1 ответ

Тм пакет: stemCompletion не работает

У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …
16 янв '17 в 10:10
0 ответов

tm_map имеет ошибку параллельного::mclapply в R 3.0.1 на Linux

Я использую R 3.0.1 на платформе: i486-pc-linux-gnu (32-разрядная версия). Я пытаюсь использовать tm_map из библиотеки tm. У меня 4080 слов в моем списке SmartStopWord. Но когда я выполняю этот код: library(tm) Get_Corpus <- system.file("texts","…
21 фев '14 в 10:53
3 ответа

Что такое функция getText в текстовом майнинге? Откуда это взялось? [р]

Я следую примеру майнинга текста из Social Media Mining с R от Натана Даннермана и Ричарда Хейманна: Книга. После вытащить твиты с помощью searchTwitter функция, которую использует автор sapply на list чтобы извлечь текстовую часть следующим образом…
11 мар '15 в 14:49
0 ответов

Добавлены стоп-слова, но, похоже, не работает

Я добавил несколько слов в свой список стоп-слов, но когда я обрабатываю его и смотрю на частоту слов, одно из слов кажется застрявшим. myStopwords <- c(stopwords('english'), "glove", "kgi") corp <- tm_map(corp, removeWords, myStopwords) Затем…
10 авг '17 в 13:48
1 ответ

Ошибка при предварительной обработке пакета tm в R

Я пытаюсь выполнить некоторую предварительную обработку с помощью пакета tm в R. Я написал следующие строки: corpus <- Corpus(VectorSource(Data)) corpus <- tm_map(corpus , asPlain) corpus <- tmMap(corpus , removeSignature) Как вы можете вид…
06 мар '15 в 22:48
1 ответ

Можно ли удалить части или разделы документов в корпусе пакета R tm?

Я построил корпус с пакетом R tm, состоящим из нескольких статей, и я хотел бы удалить раздел "Справочные материалы" из всех их. Это возможно?
12 янв '16 в 13:54
2 ответа

Объединение двухчленной матрицы в R

У меня есть две матрицы термина документа. Я не могу принять объединение этих двух матриц в качестве матрицы двух разных длин. A <- data.frame(name = c( "X-ray right leg arteries", "x-ray left shoulder", "x-ray leg arteries", "x-ray leg with 20km…
16 фев '18 в 09:10
2 ответа

Text Mining - удалить пунктуацию, не удаляя кавычки и тире

Я занимался майнингом текстов. Я создал матрицу DTM, используя следующие шаги. corpus1<-VCorpus(VectorSource(resume1$Dat1)) corpus1<-tm_map(corpus1,content_transformer(tolower)) corpus1<-tm_map(corpus1,content_transformer(trimWhiteSpace)) d…
08 июн '15 в 07:19
0 ответов

Нет применимого метода для 'tm_map', примененного к объекту класса "персонаж"

Мои данные выглядят так: 1. Good quality, love the taste, the only ramen noodles we buy but they're available at the local Korean grocery store for a bit less so no need to buy on Amazon really. 2. Great flavor and taste. Prompt delivery.We will reo…
04 авг '17 в 19:48
3 ответа

Изменение структуры фрейма данных в R

Мне нужна помощь с реструктуризацией моего фрейма данных. В настоящее время у меня есть следующая структура данных: Текущая структура данных Мне нужно добраться до этого: post 229 comments 220 badge 209 washington 160 Обратите внимание, что мне не н…
20 апр '16 в 07:09
1 ответ

Несколько результатов одной переменной при применении метода "stemCompletion"

У меня есть корпус, содержащий данные журнала 15 наблюдений за 3 переменными (ID, заголовок, аннотация). Используя R Studio, я читаю данные из файла.csv (одна строка на наблюдение). При выполнении некоторых операций по добыче текста у меня возникли …
05 окт '14 в 16:23
2 ответа

Как выбрать только подмножество корпусных терминов для создания TermDocumentMatrix в TM

У меня огромный корпус, и меня интересует только появление нескольких терминов, которые я знаю заранее. Есть ли способ создать матрицу документа термина из корпуса, используя tm пакет, где должны использоваться только те термины, которые я указал за…
19 ноя '14 в 03:12
1 ответ

R - Анализ текста - вводящие в заблуждение результаты

Я делаю некоторый текстовый анализ комментариев от клиентов банка, связанных с ипотекой, и я нахожу пару вещей, которые я понимаю. 1) После очистки данных без применения слов Stemming Words и проверки размера TDM количество терминов (2173) меньше, ч…
09 сен '18 в 23:20
1 ответ

Ошибка при установке старых пакетов в R

Я пытаюсь установить 0,6-2 версию библиотеки ТМ. Я скачал файл tar.gz из архива и в RStudio выбрал Инструменты -> Архив -> Пакет архивного файла, чтобы установить его. Однако я получаю следующую ошибку. Может кто-нибудь помочь мне исправить это, пож…
02 мар '17 в 20:28
1 ответ

Поддержка пользовательских метаданных с настраиваемыми функциями для tm_map

У меня есть функция, которую я использую для перевода токенов на основе словаря ключ / значение. dictionary <- c("casa", "barco", "carro", "arbol") names(dictionary) <- c("home", "boat", "car", "tree") translate2 <- function (text, dictiona…
12 янв '14 в 23:11
0 ответов

Пользовательская функция не может быть передана через функцию content_transformer в пакете tm

Я пытаюсь провести анализ текста с использованием пакета TM в г. Я в системе Windows. Я создал простую функцию для преобразования существительных во множественном числе в единый формат. пожалуйста, смотрите прикрепленный для кода. to_single<-func…
26 июн '17 в 19:56
1 ответ

Почему стоп-слова не отфильтровываются в корпоративных матричных терминах?

Я строю матрицу терм-документа, используя tm библиотека. # Create corpus. corporize <- function(dir_to_corporize) { crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"), readerControl=list(reader=readPlain, language="en_EN"…
19 авг '15 в 20:45