Проблемы генерации нграмм

Question

Проблемы генерации нграмм

У меня есть следующий объект data.table

trigramTable_sample

                       ngram       queryWord  predict
  1:     the_poststamp_there   the_poststamp    there
  2:   seeing_these_big-time    seeing_these big-time
  3:      gainey_is_14-under       gainey_is 14-under
  4:         good_as_notepad         good_as  notepad
  5: the_copernicus_cultural  the_copernicus cultural
     ---                                                 
3700632:           hard_yoga_for       hard_yoga      for
3700633:       descendâ_into_the   descendâ_into      the
3700634:          when_he_arrive         when_he   arrive
3700635:      ludicrous_thing_to ludicrous_thing       to
3700636:          has_proved_his      has_proved      his

Я сгенерировал исходные токены с помощью следующей функции quanteda

trigramToken<- tokens(qCorpus, what = "word", remove_symbols = TRUE, remove_numbers = TRUE, 
remove_punct = TRUE, remove_twitter = TRUE, remove_url = TRUE, remove_separators = TRUE, ngrams = 3L, 
concatenator = "_")

В столбце прогнозирования я не хочу иметь дефис, который соединяет 2 слова (большое) и смешанное число и слово (до 14). Как я собираюсь избавиться от этих цифр и знаков препинания. Что-то отсутствует в аргументах, передаваемых функции токенов? Любая помощь приветствуется. Спасибо

0

r language-model

Источник

user9044978 15 мар '18 в 01:24

0 ответов

Другие вопросы по тегам r language-model