Стоп-слова R не удаляются

Я пытаюсь удалить стоп-слова перед запуском word2vec.

# Remove stop-words.
custom_stopwords <- 'this\\b|\\curatr\\b|\\content\\b|\\i\\b|\\it\\b|\\curatr\\b|\\course\\b|\\expire\\b|\\run\\b|\\id\\b|\\the\\b|\\</s>'
stopwords_regex <- paste(stopwords('SMART'), collapse = '\\b|\\b')
stopwords_regex <- paste0('\\b', stopwords_regex, '\\b', custom_stopwords, '\\b')
doc <- stringr::str_replace_all(doc, stopwords_regex, '')
doc <- stringr::str_replace_all(doc,"[0-9]", '')

# Write text file with stop-words removed.
print(doc)
cat(doc, file="temp.txt",sep="\n",append=TRUE)

# Train word2vec model 
model <- word2vec("temp.txt")

Когда я регистрирую stopwords_regex, синтаксис выглядит правильно:

начинается:

"\\ba\\b|\\ba's\\b|\\bable\\b|\\ ...

и заканчивается:

run\\b|\\id\\b|\\the\\b|\\</s>\\b"

Но слова стоп-слов не удаляются из переменной doc (отфильтрованный документ)

0 ответов

Другие вопросы по тегам