n-грамм в ошибке R: неверный аргумент 'times'

Question

n-грамм в ошибке R: неверный аргумент 'times'

Я пытаюсь следовать этому примеру, но попал в ошибку.

> library("RWeka")
> library("tm")
Loading required package: NLP
> data("crude")
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
> tdm <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))
Error in rep(seq_along(x), sapply(tflist, length)) : 
  invalid 'times' argument
In addition: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
  scheduled core 1 encountered error in user code, all values of the job will be affected

Есть идеи?

0

r tm rweka

Источник

user1156245 27 июл '16 в 23:43

1 ответ

Решение

Другие вопросы по тегам r tm rweka

user1069256 02 авг '16 в 10:00 2016-08-02 10:00 · Accepted Answer · 2016-08-02 10:00

Просто используйте лучшую / современную упаковку. Я могу предложить несколько вариантов:

Используйте text2vec вместо tm, Смотрите виньетки для примеров. (Я автор).
Стоит проверить Quanteda
Если по какой-то причине вам нравится tm, попробуйте пакет токенизаторов заменить RWeka токенайзер ngram.