Загрузка файлов Word в R для анализа читабельности

Со времени моего последнего вопроса я добился значительного прогресса. Я пытаюсь выполнить анализ читабельности в R с помощью koRpus в папке из ~4200 файлов Word. У меня есть два способа сделать это. Я опишу более простой и свои проблемы с ним.

Моя попытка загрузить файлы в R для анализа состоит в команде "tokenize". Я попытался загрузить их все сразу, и R постоянно выдавал мне сообщения об ошибках, утверждая, что у него недостаточно памяти, несмотря на несколько моих попыток увеличить объем памяти.

Итак, я разделил файлы на три папки. Я использую следующие команды, к каждой из которых прилагается сообщение об ошибке:

token <- tokenize("/Users/Gordon/Desktop/WPSCASES ONE/",lang="en",doc_id="sample")

# Error in nchar(tagged.text[, "token"], type = "width") : # invalid multibyte string, element 348

token2 <- tokenize("/Users/Gordon/Desktop/WPSCASES2/",lang="en",doc_id="sample")

#Error in nchar(tagged.text[, "token"], type = "width") : invalid multibyte string, element 925

token3 <- tokenize("/Users/Gordon/Desktop/WPSCASES3/",lang="en",doc_id="sample")

#Error in nchar(tagged.text[, "token"], type = "width") : invalid multibyte string, element 4302

Файлы с названием WPSCASES - это папки, в которых хранятся многие мои файлы Word. Если кто-нибудь знает, как решить эту проблему, дайте мне знать. Эти сообщения об ошибках для меня непонятны.

0 ответов

Другие вопросы по тегам