quanteda не создает корпус из объекта corpusSource
Я использую Windows 7 с 32-разрядной операционной системой с 4 ГБ ОЗУ, из которых только 3 ГБ доступны из-за 32-разрядных ограничений. Я отключил все остальное и вижу, что у меня есть около 1 ГБ кэшированного и 1 ГБ доступного перед запуском. "Свободная" память меняется, но иногда равна 0.
Использование quanteda - я читаю файл twitter.txt с помощью команды textfile(), которая успешно создает объект corpusSource объемом 157 МБ. Когда я делаю следующий шаг, чтобы преобразовать его в "корпус" с помощью команды corpus() R, проходит через него и создает очень маленький пустой файл с четырьмя элементами, каждый из которых содержит 0... Код и выходные данные следующие:
twitterfile <- "./final/en_US/en_US.twitter.txt"
precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)
Corpus consisting of 1 document.
Text Types Tokens Sentences
en_US.twitter.txt 0 0 0
Source: C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:
Warning message:
In nsentence.character(object, ...) :
nsentence() does not correctly count sentences in all lower-cased text
.... Любое понимание того, почему это может происходить?
1 ответ
textfile()
дает вам символьный вектор, с одним элементом для всего файла. Вы, вероятно, хотите использовать
readlines()
как в:
precorp <- readlines(twitterfile)
это даст вам символьный вектор с элементом для каждой строки в файле. corpus() будет затем обрабатывать каждый элемент вектора как документ при создании вашего корпуса.