quanteda не создает корпус из объекта corpusSource

Я использую Windows 7 с 32-разрядной операционной системой с 4 ГБ ОЗУ, из которых только 3 ГБ доступны из-за 32-разрядных ограничений. Я отключил все остальное и вижу, что у меня есть около 1 ГБ кэшированного и 1 ГБ доступного перед запуском. "Свободная" память меняется, но иногда равна 0.

Использование quanteda - я читаю файл twitter.txt с помощью команды textfile(), которая успешно создает объект corpusSource объемом 157 МБ. Когда я делаю следующий шаг, чтобы преобразовать его в "корпус" с помощью команды corpus() R, проходит через него и создает очень маленький пустой файл с четырьмя элементами, каждый из которых содержит 0... Код и выходные данные следующие:

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)

Corpus consisting of 1 document.

              Text Types Tokens Sentences
 en_US.twitter.txt     0      0         0

Source:  C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:   

Warning message:
In nsentence.character(object, ...) :
  nsentence() does not correctly count sentences in all lower-cased text

.... Любое понимание того, почему это может происходить?

1 ответ

textfile()

дает вам символьный вектор, с одним элементом для всего файла. Вы, вероятно, хотите использовать

readlines()

как в:

precorp <- readlines(twitterfile)

это даст вам символьный вектор с элементом для каждой строки в файле. corpus() будет затем обрабатывать каждый элемент вектора как документ при создании вашего корпуса.

Другие вопросы по тегам