Проблемы генерации нграмм
У меня есть следующий объект data.table
trigramTable_sample
ngram queryWord predict
1: the_poststamp_there the_poststamp there
2: seeing_these_big-time seeing_these big-time
3: gainey_is_14-under gainey_is 14-under
4: good_as_notepad good_as notepad
5: the_copernicus_cultural the_copernicus cultural
---
3700632: hard_yoga_for hard_yoga for
3700633: descendâ_into_the descendâ_into the
3700634: when_he_arrive when_he arrive
3700635: ludicrous_thing_to ludicrous_thing to
3700636: has_proved_his has_proved his
Я сгенерировал исходные токены с помощью следующей функции quanteda
trigramToken<- tokens(qCorpus, what = "word", remove_symbols = TRUE, remove_numbers = TRUE,
remove_punct = TRUE, remove_twitter = TRUE, remove_url = TRUE, remove_separators = TRUE, ngrams = 3L,
concatenator = "_")
В столбце прогнозирования я не хочу иметь дефис, который соединяет 2 слова (большое) и смешанное число и слово (до 14). Как я собираюсь избавиться от этих цифр и знаков препинания. Что-то отсутствует в аргументах, передаваемых функции токенов? Любая помощь приветствуется. Спасибо