Добавлены стоп-слова, но, похоже, не работает
Я добавил несколько слов в свой список стоп-слов, но когда я обрабатываю его и смотрю на частоту слов, одно из слов кажется застрявшим.
myStopwords <- c(stopwords('english'), "glove", "kgi")
corp <- tm_map(corp, removeWords, myStopwords)
Затем я создаю TDM и запускаю частоту слов, и появляется "перчатка". Существуют и другие варианты, такие как "перчаточная перчатка" и "перчатка", которые я ожидаю увидеть там, но не сама "перчатка". Я что-то пропустил?
Пример строк из источника CSV:
- KGI 999 SZ11 ПЕРЧАТКА ИЗ КОЖИ
- ПЕРЧАТКА KGI 10054BC10 SZ 10,5
- SAL ILPG10A1010H ПЕРЧАТКИ LTHR
Код:
corp <- Corpus(DataframeSource(x))
corp <- tm_map(corp, tolower)
corp <- tm_map(corp, PlainTextDocument)
corp <- tm_map(corp, removePunctuation)
corp <- tm_map(corp, removeNumbers)
myStopwords <- c(stopwords('english'), "glove", "kgi")
corp <- tm_map(corp, removeWords, myStopwords)
corp <- tm_map(corp, stemDocument)
corp <- tm_map(corp, stripWhitespace)
tdm <- TermDocumentMatrix(corp)
# print terms
dimnames(tdm)$Terms
save(tdm, file="tdm.RData")
# frequent terms
which(apply(tdm, 1, sum) > 20)
findFreqTerms(tdm, lowfreq=20)