Поддержка пользовательских метаданных с настраиваемыми функциями для tm_map

У меня есть функция, которую я использую для перевода токенов на основе словаря ключ / значение.

dictionary <- c("casa", "barco", "carro", "arbol")
names(dictionary) <- c("home", "boat", "car", "tree")

translate2 <- function (text, dictionary) {
  text_out <- character(0)
  for (i in 1:length(text)) {
    text.split <- strsplit(text[i], "\\s")
    translation <- dictionary[unlist(text.split)]
    text_out <- append(text_out, paste(translation, sep="", collapse=" "))
  PlainTextDocument(text_out, id = ID(text), author = Author(text))

Эта функция работает правильно для мета `Автор:


text <- "My car is on the tree next to my home under the boat"
corpus <- Corpus(VectorSource(text))
meta(corpus, "Author", type="local") <- "Kant"
meta(corpus, "TextID", type="local") <- "121212"
meta(corpus[[1]], "Author")
# [1] "Kant"

corpus <- tm_map(corpus, translate2, dictionary)
meta(corpus[[1]], "Author")
# [1] "Kant" 
# NA carro NA NA NA arbol NA NA NA casa NA NA barco

Но когда я пытаюсь передать пользовательскую мета как TextID со слегка измененной версией функции

translate1 <- function (text, dictionary) {
  text_out <- character(0)
  for (i in 1:length(text)) {
    text.split <- strsplit(text[i], "\\s")
    translation <- dictionary[unlist(text.split)]
    text_out <- append(text_out, paste(translation, sep="", collapse=" "))
  PlainTextDocument(text_out, id = ID(text), author = Author(text), 
                    TextID = TextID(text))

я получил

text <- "My car is on the tree next to my home under the boat"
corpus <- Corpus(VectorSource(text))
meta(corpus, "Author", type="local") <- "Kant"
meta(corpus, "TextID", type="local") <- "121212"
meta(corpus[[1]], "Author")
# [1] "Kant"
meta(corpus[[1]], "TextID")
# [1] "121212"

corpus <- tm_map(corpus, translate1, dictionary)
# Error in PlainTextDocument(text_out, id = ID(text), author = Author(text),  : 
#                              unused argument (TextID = TextID(text)) 

1 ответ

Есть несколько проблем с вашим подходом:

  1. PlainTextDocument не имеет аргументов TextID (это вызвало вашу ошибку)
  2. Там нет функции с именем TextID

От ?PlainTextDocumentкажется, что искомый аргумент называется localmetadata,

Вот версия translate1 это, кажется, работает как ожидалось:

translate1 <- function (text, dictionary) {
  text_out <- character(0)
  for (i in 1:length(text)) {
    text.split <- strsplit(text[i], "\\s")
    translation <- dictionary[unlist(text.split)]
    text_out <- append(text_out, paste(translation, sep="", collapse=" "))
  PlainTextDocument(text_out, id = ID(text), author = Author(text), 
                    localmetadata = list(TextID = meta(text, "TextID")))

text <- "My car is on the tree next to my home under the boat"
corpus <- Corpus(VectorSource(text))
meta(corpus, "Author", type="local") <- "Kant"
meta(corpus, "TextID", type="local") <- "121212"
meta(corpus[[1]], "Author")
# [1] "Kant"
meta(corpus[[1]], "TextID")
# [1] "121212"

corpus <- tm_map(corpus, translate1, dictionary)
meta(corpus[[1]], "Author")
# [1] "Kant"
meta(corpus[[1]], "TextID")
# [1] "121212"
# NA carro NA NA NA arbol NA NA NA casa NA NA barco
Другие вопросы по тегам