koRPus — команда tokenize для большой папки с текстовыми файлами
Я добился определенного прогресса в том, чтобы заставить koRpus анализировать мои данные, но есть нерешенные проблемы.
Команда «tokenize», похоже, работает. Я запускаю следующую строку кода:
word <- tokenize("/Users/gdballingrud/Desktop/WPSCASES 1/", lang="en")
И он создает объект «Большой krp.text». Однако размер файла (5,6 МБ) намного меньше размера файла, на который я ссылаюсь в коде (260 МБ). Кроме того, когда я использую команду «удобочитаемость» для генерации оценок анализа текста (например:)
all <- readability(word)
Он возвращает один показатель удобочитаемости для всего объекта krp.text (я имею в виду, по одному показателю удобочитаемости).
Мне нужны оценки удобочитаемости для каждого файла Word, который у меня есть в моей папке, и мне нужно использовать koRpus (другие, такие как Quanteda, не генерируют некоторые необходимые мне показатели удобочитаемости, такие как LIX и text-redundandz-index от kuntzsch).
Есть ли у кого-нибудь достаточно опыта работы с koRpus, чтобы указать, что я сделал неправильно? Повторяющиеся проблемы: 1) заставить команду tokenize распознавать каждый файл в моей папке и 2) получить оценки удобочитаемости для каждого отдельного файла.
Спасибо, Гордон