Несколько результатов одной переменной при применении метода "stemCompletion"
У меня есть корпус, содержащий данные журнала 15 наблюдений за 3 переменными (ID, заголовок, аннотация). Используя R Studio, я читаю данные из файла.csv (одна строка на наблюдение). При выполнении некоторых операций по добыче текста у меня возникли некоторые проблемы при использовании метода stemCompletion. После применения stemCompletion я заметил, что результаты представлены для каждой линии ствола.csv три раза. Все остальные методы tm (например, stemDocument) дают только один результат. Мне интересно, почему это происходит и как я мог решить проблему
Я использовал код ниже:
data.corpus <- Corpus(DataframeSource(data))
data.corpuscopy <- data.corpus
data.corpus <- tm_map(data.corpus, stemDocument)
data.corpus <- tm_map(data.corpus, stemCompletion, dictionary=data.corpuscopy)
Отдельные результаты после применения stemDocument, например,
"> data.corpus[[1]]
physic environ sourc innov investig attribut innov space
investig physic space intersect innov innov relev attribut physic space innov reflect chang natur innov technolog advanc servic mean chang argu develop innov space similar embodi divers set valu collabor open sustain use literatur review interview benchmark examin relationship physic environ innov literatur review interview underlin innov communic human centr process result five attribut innov space present collabor enabl modifi smart attract reflect provid perspect challeng support innov creation develop physic space add conceptu develop innov space outlin physic space innov servic"
И после использования stemCompletion результаты появляются три раза:
"$`1`
physical environment source innovation investigation attributes innovation space investigation physical space intersect innovation innovation relevant attributes physical space innovation reflect changes nature innovation technological advancements service meanwhile changes argues develop innovation space similarity embodies diversified set valuable collaboration open sustainability used literature review interviews benchmarking examine relationships physical environment innovation literature review interviews underline innovation communicative human centred processes result five attributes innovation space present collaboration enablers modifiability smartness attractiveness reflect provide perspectives challenge support innovation creation develop physical space addition conceptual develop innovation space outlines physical space innovation service
physical environment source innovation investigation attributes innovation space investigation physical space intersect innovation innovation relevant attributes physical space innovation reflect changes nature innovation technological advancements service meanwhile changes argues develop innovation space similarity embodies diversified set valuable collaboration open sustainability used literature review interviews benchmarking examine relationships physical environment innovation literature review interviews underline innovation communicative human centred processes result five attributes innovation space present collaboration enablers modifiability smartness attractiveness reflect provide perspectives challenge support innovation creation develop physical space addition conceptual develop innovation space outlines physical space innovation service
physical environment source innovation investigation attributes innovation space investigation physical space intersect innovation innovation relevant attributes physical space innovation reflect changes nature innovation technological advancements service meanwhile changes argues develop innovation space similarity embodies diversified set valuable collaboration open sustainability used literature review interviews benchmarking examine relationships physical environment innovation literature review interviews underline innovation communicative human centred processes result five attributes innovation space present collaboration enablers modifiability smartness attractiveness reflect provide perspectives challenge support innovation creation develop physical space addition conceptual develop innovation space outlines physical space innovation service"
Ниже приведен пример воспроизводимого примера:
Файл.csv, содержащий три наблюдения трех переменных:
ID;Text A;Text B
1;Below is the first title;Innovation and Knowledge Management
2;And now the second Title;Organizational Performance and Learning are very important
3;The third title;Knowledge plays an important rule in organizations
И ниже метод, который я использовал
data = read.csv2("Test.csv")
data[,2]=as.character(data[,2])
data[,3]=as.character(data[,3])
corpus <- Corpus(DataframeSource(data))
corpuscopy <- corpus
corpus <- tm_map(corpus, stemDocument)
corpus[[1]]
corpus <- tm_map(corpus, stemCompletion, dictionary=corpuscopy)
inspect(corpus[1:3])
Мне кажется, что это зависит от количества переменных, используемых в.csv, но я понятия не имею, почему.
1 ответ
Кажется, что-то странное в stemCompletion
функция. Не очевидно, как использовать stemCompletion
в tm
версия 0.6. Здесь есть хороший обходной путь, который я использовал для этого ответа.
Сначала создайте файл CSV, который у вас есть:
dat <- read.csv2( text =
"ID;Text A;Text B
1;Below is the first title;Innovation and Knowledge Management
2;And now the second Title;Organizational Performance and Learning are very important
3;The third title;Knowledge plays an important rule in organizations")
write.csv2(dat, "Test.csv", row.names = FALSE)
Прочитайте это, преобразуйте в корпус и используйте слова:
data = read.csv2("Test.csv")
data[,2]=as.character(data[,2])
data[,3]=as.character(data[,3])
corpus <- Corpus(DataframeSource(data))
corpuscopy <- corpus
library(SnowballC)
corpus <- tm_map(corpus, stemDocument)
Посмотрите, что это работает:
inspect(corpus)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>
1
Below is the first titl
Innovat and Knowledg Manag
[[2]]
<<PlainTextDocument (metadata: 7)>>
2
And now the second Titl
Organiz Perform and Learn are veri import
[[3]]
<<PlainTextDocument (metadata: 7)>>
3
The third titl
Knowledg play an import rule in organ
Вот хороший обходной путь, чтобы получить stemCompletion
за работой:
stemCompletion_mod <- function(x,dict=corpuscopy) {
PlainTextDocument(stripWhitespace(paste(stemCompletion(unlist(strsplit(as.character(x)," ")),dictionary=dict, type="shortest"),sep="", collapse=" ")))
}
Проверьте вывод, чтобы убедиться, что стебли были завершены нормально:
lapply(corpus, stemCompletion_mod)
[[1]]
<<PlainTextDocument (metadata: 7)>>
1 Below is the first title Innovation and Knowledge Management
[[2]]
<<PlainTextDocument (metadata: 7)>>
2 And now the second Title Organizational Performance and Learning are NA important
[[3]]
<<PlainTextDocument (metadata: 7)>>
3 The third title Knowledge plays an important rule in organizations
Успех!