Добавлены стоп-слова, но, похоже, не работает

Question

Добавлены стоп-слова, но, похоже, не работает

Я добавил несколько слов в свой список стоп-слов, но когда я обрабатываю его и смотрю на частоту слов, одно из слов кажется застрявшим.

myStopwords <- c(stopwords('english'), "glove", "kgi")
corp <- tm_map(corp, removeWords, myStopwords)

Затем я создаю TDM и запускаю частоту слов, и появляется "перчатка". Существуют и другие варианты, такие как "перчаточная перчатка" и "перчатка", которые я ожидаю увидеть там, но не сама "перчатка". Я что-то пропустил?

Пример строк из источника CSV:

KGI 999 SZ11 ПЕРЧАТКА ИЗ КОЖИ
ПЕРЧАТКА KGI 10054BC10 SZ 10,5
SAL ILPG10A1010H ПЕРЧАТКИ LTHR

Код:

corp <- Corpus(DataframeSource(x))
corp <- tm_map(corp, tolower)
corp <- tm_map(corp, PlainTextDocument)
corp <- tm_map(corp, removePunctuation)
corp <- tm_map(corp, removeNumbers)
myStopwords <- c(stopwords('english'), "glove", "kgi")
corp <- tm_map(corp, removeWords, myStopwords)
corp <- tm_map(corp, stemDocument)
corp <- tm_map(corp, stripWhitespace)

tdm <- TermDocumentMatrix(corp)

# print terms
dimnames(tdm)$Terms
save(tdm, file="tdm.RData")
# frequent terms
which(apply(tdm, 1, sum) > 20)
findFreqTerms(tdm, lowfreq=20)

1

r tm stop-words

Источник

user8445841 10 авг '17 в 13:48

0 ответов

Другие вопросы по тегам r tm stop-words