Стоп-слова R не удаляются
Я пытаюсь удалить стоп-слова перед запуском word2vec.
# Remove stop-words.
custom_stopwords <- 'this\\b|\\curatr\\b|\\content\\b|\\i\\b|\\it\\b|\\curatr\\b|\\course\\b|\\expire\\b|\\run\\b|\\id\\b|\\the\\b|\\</s>'
stopwords_regex <- paste(stopwords('SMART'), collapse = '\\b|\\b')
stopwords_regex <- paste0('\\b', stopwords_regex, '\\b', custom_stopwords, '\\b')
doc <- stringr::str_replace_all(doc, stopwords_regex, '')
doc <- stringr::str_replace_all(doc,"[0-9]", '')
# Write text file with stop-words removed.
print(doc)
cat(doc, file="temp.txt",sep="\n",append=TRUE)
# Train word2vec model
model <- word2vec("temp.txt")
Когда я регистрирую stopwords_regex, синтаксис выглядит правильно:
начинается:
"\\ba\\b|\\ba's\\b|\\bable\\b|\\ ...
и заканчивается:
run\\b|\\id\\b|\\the\\b|\\</s>\\b"
Но слова стоп-слов не удаляются из переменной doc (отфильтрованный документ)