Стебель с квантедой
Я использую следующую команду, чтобы сделать stemming с помощью Quanteda
myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers = TRUE, remove_symbols = TRUE), stopwords(source = "smart")),
ngrams = c(1,2))
Однако я получаю это предупреждение в конце:
Warning message:
Argument stem not used.
Есть ли другой вариант реализации quanteda
?
1 ответ
Да, ты хочешь tokens_wordstem()
, В вашем примере вы поставляете stem = TRUE
к tokens()
аргумент, а не к dfm()
вызов. tokens()
не имеет stem
в качестве аргумента (как говорится в предупреждении).
Для наглядности предлагаю использовать оператор трубы %>%
чтобы увидеть последовательность операций более четко.
library("quanteda")
## Package version: 1.4.0
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.
##
## Attaching package: 'quanteda'
## The following object is masked from 'package:utils':
##
## View
df2 <- data_char_sampletext
quanteda_options(verbose = TRUE)
df2 %>%
tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%
tokens_remove(stopwords(source = "smart")) %>%
tokens_wordstem() %>%
tokens_ngrams(n = c(1, 2)) %>%
dfm()
## removed 0 features
##
## removed 72 features
## Creating a dfm from a tokens input...
## ... lowercasing
## ... found 1 document, 375 features
## ... created a 1 x 375 sparse dfm
## ... complete.
## Elapsed time: 0.038 seconds.
## Document-feature matrix of: 1 document, 375 features (0.0% sparse).