koRPus — команда tokenize для большой папки с текстовыми файлами

Я добился определенного прогресса в том, чтобы заставить koRpus анализировать мои данные, но есть нерешенные проблемы.

Команда «tokenize», похоже, работает. Я запускаю следующую строку кода:

      word <- tokenize("/Users/gdballingrud/Desktop/WPSCASES 1/", lang="en")

И он создает объект «Большой krp.text». Однако размер файла (5,6 МБ) намного меньше размера файла, на который я ссылаюсь в коде (260 МБ). Кроме того, когда я использую команду «удобочитаемость» для генерации оценок анализа текста (например:)

      all <- readability(word)

Он возвращает один показатель удобочитаемости для всего объекта krp.text (я имею в виду, по одному показателю удобочитаемости).

Мне нужны оценки удобочитаемости для каждого файла Word, который у меня есть в моей папке, и мне нужно использовать koRpus (другие, такие как Quanteda, не генерируют некоторые необходимые мне показатели удобочитаемости, такие как LIX и text-redundandz-index от kuntzsch).

Есть ли у кого-нибудь достаточно опыта работы с koRpus, чтобы указать, что я сделал неправильно? Повторяющиеся проблемы: 1) заставить команду tokenize распознавать каждый файл в моей папке и 2) получить оценки удобочитаемости для каждого отдельного файла.

Спасибо, Гордон

0 ответов

Другие вопросы по тегам