Как я могу создать матрицу tf-idf с символьной функцией n-грамм?

Как я могу использовать пакет text2vec для создания матрицы tdf-idf с символьными функциями n-граммы?

1 ответ

Решение

Как насчет:

library(text2vec)
data("movie_review")
it = itoken(movie_review$review, tolower, char_tokenizer)
v = create_vocabulary(it, ngram = c(3, 3), sep_ngram = "_")
dtm = create_dtm(it, vectorizer = vocab_vectorizer(v))

PS В будущем, пожалуйста, попробуйте привести какой-нибудь воспроизводимый пример того, что вы пытались решить свою проблему.

Другие вопросы по тегам