Ошибки в команде tokenize для загрузки файлов Word для анализа удобочитаемости

Question

Ошибки в команде tokenize для загрузки файлов Word для анализа удобочитаемости

У меня есть вопрос о пакетах и коде для анализа текста. Общая идея заключается в том, что я пытаюсь выполнить анализ читабельности коллекции из примерно 4000 файлов Word. Я хотел бы провести любой из таких анализов, но теперь проблема заключается в том, чтобы заставить R распознавать загруженные файлы как данные, готовые для анализа. Но я получаю сообщения об ошибках. Позвольте мне показать, что я сделал до сих пор. У меня есть три отдельные команды, потому что я разбил файл из 4000 файлов на три отдельных, потому что, очевидно, файл был слишком объемным, чтобы его можно было прочитать целиком целиком. Итак, я разделил файлы на три примерно одинаковые папки. Они называются «WPSCASES» с первого по третий. Вот мой код с сообщениями об ошибках для каждой команды, записанными ниже:

token <- tokenize("/Users/Gordon/Desktop/WPSCASES ONE/",lang="en",doc_id="sample")

Код такой же для других папок; имя папки другое, но в остальном идентично.

Сообщение об ошибке гласит:

Ошибка в nchar(tagged.text[, "token"], type = "width"): неверная многобайтовая строка, элемент 348

Сообщения об ошибках одинаковы для двух других команд. Но номер «элемента» другой. Это 925 для второй папки и 4302 для третьей.

token2 <- tokenize("/Users/Gordon/Desktop/WPSCASES2/",lang="en",doc_id="sample")

token3 <- tokenize("/Users/Gordon/Desktop/WPSCASES3/",lang="en",doc_id="sample")

Это другие команды, если это полезно.

Я попытался выяснить, соответствует ли «элемент», упомянутый в сообщении об ошибке, файлу с таким номером в порядке следования файлов. Но поскольку в папке 3 нет 4300 файлов, я думаю, что это маловероятно. Пожалуйста, дайте мне знать, если вы можете выяснить, как это исправить, чтобы я мог начать использовать команды «koRpus», такие как «читаемость» и его потомство.

Спасибо, Гордон

0

r tokenize readability korpus

Источник

user14159126 30 дек '20 в 00:31

0 ответов

Другие вопросы по тегам r tokenize readability korpus