R: Изменить многострочный символ на корпус одного документа
Я читаю в файле твитов. Каждый твит находится в отдельной строке. Когда я использую readLines(), результатом является символ с тысячами строк.
Использование пакета tm дает мне объект VCorpus с тысячами документов, и в результате TermDocumentMatrix представляет собой огромный мусор.
Вот пример:
x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(x))
inspect(c)
Я мог бы перебирать строки и вставлять их вместе, но это кажется крайне неэффективным.
1 ответ
Одно решение я нашел:
x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(concat(x,collapse=" ")))
inspect(c)
Не кажется слишком эффективным, по сравнению с чтением в твитах в первую очередь одной строкой.