Можно ли удалить части или разделы документов в корпусе пакета R tm?
Я построил корпус с пакетом R tm, состоящим из нескольких статей, и я хотел бы удалить раздел "Справочные материалы" из всех их. Это возможно?
1 ответ
Вы имеете в виду раздел в документах? Да:
library(tm)
txt <- c("Reference Section 1: Foo", "Reference Section 2: Bar")
corp <- Corpus(VectorSource(txt))
removeRefSec <- content_transformer(function(x) sub("^Reference Section \\d+: ", "", x))
corp[[1]]
# <<PlainTextDocument>>
# Metadata: 7
# Content: chars: 24
removeRefSec(corp[[1]])
# <<PlainTextDocument>>
# Metadata: 7
# Content: chars: 3
corp <- tm_map(corp, removeRefSec)
corp[[2]]
# <<PlainTextDocument>>
# Metadata: 7
# Content: chars: 3