R: Изменить многострочный символ на корпус одного документа

Я читаю в файле твитов. Каждый твит находится в отдельной строке. Когда я использую readLines(), результатом является символ с тысячами строк.

Использование пакета tm дает мне объект VCorpus с тысячами документов, и в результате TermDocumentMatrix представляет собой огромный мусор.

Вот пример:

x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(x))
inspect(c)

Я мог бы перебирать строки и вставлять их вместе, но это кажется крайне неэффективным.

1 ответ

Одно решение я нашел:

x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(concat(x,collapse=" ")))
inspect(c)

Не кажется слишком эффективным, по сравнению с чтением в твитах в первую очередь одной строкой.

Другие вопросы по тегам