Ошибки в команде tokenize для загрузки файлов Word для анализа удобочитаемости
У меня есть вопрос о пакетах и коде для анализа текста. Общая идея заключается в том, что я пытаюсь выполнить анализ читабельности коллекции из примерно 4000 файлов Word. Я хотел бы провести любой из таких анализов, но теперь проблема заключается в том, чтобы заставить R распознавать загруженные файлы как данные, готовые для анализа. Но я получаю сообщения об ошибках. Позвольте мне показать, что я сделал до сих пор. У меня есть три отдельные команды, потому что я разбил файл из 4000 файлов на три отдельных, потому что, очевидно, файл был слишком объемным, чтобы его можно было прочитать целиком целиком. Итак, я разделил файлы на три примерно одинаковые папки. Они называются «WPSCASES» с первого по третий. Вот мой код с сообщениями об ошибках для каждой команды, записанными ниже:
token <- tokenize("/Users/Gordon/Desktop/WPSCASES ONE/",lang="en",doc_id="sample")
Код такой же для других папок; имя папки другое, но в остальном идентично.
Сообщение об ошибке гласит:
Ошибка в nchar(tagged.text[, "token"], type = "width"): неверная многобайтовая строка, элемент 348
Сообщения об ошибках одинаковы для двух других команд. Но номер «элемента» другой. Это 925 для второй папки и 4302 для третьей.
token2 <- tokenize("/Users/Gordon/Desktop/WPSCASES2/",lang="en",doc_id="sample")
token3 <- tokenize("/Users/Gordon/Desktop/WPSCASES3/",lang="en",doc_id="sample")
Это другие команды, если это полезно.
Я попытался выяснить, соответствует ли «элемент», упомянутый в сообщении об ошибке, файлу с таким номером в порядке следования файлов. Но поскольку в папке 3 нет 4300 файлов, я думаю, что это маловероятно. Пожалуйста, дайте мне знать, если вы можете выяснить, как это исправить, чтобы я мог начать использовать команды «koRpus», такие как «читаемость» и его потомство.
Спасибо, Гордон