проблемы с чтением файлов Word в R с помощью readtext

Простите, если это элементарная проблема. Я пытаюсь использовать такие пакеты, как "readtext" и "koRpus", впервые для этого моего проекта, и мне трудно заставить R читать текстовые файлы, которые я хочу, чтобы он прочитал, поэтому я могу сделать несколько Coleman- Расчеты оценки удобочитаемости Liau.

У меня есть папка на моем рабочем столе, содержащая чуть более 4000 файлов слов (.docx). Я хочу получить оценку CL для каждого. Наконец-то мне удалось загрузить такие пакеты, как readtext, но возникли проблемы с разделами справки в этом пакете.

Разделы справки почти всегда содержат примеры загрузки текста с использованием файлов, которые предварительно загружены в формате readtext. Однако я хочу использовать свою собственную папку, полную файлов. Итак, вот код, который я использовал до сих пор для загрузки папки:

liwc <- readtext(paste0("C:/Users/Gordon/Desktop/WPSCASES/", "/word/*.docx"), 
             docvarsfrom = "filenames",
             docvarnames = c("document", "language"),
             sep= "_")

Сообщение об ошибке, которое я получаю (каждый раз), выглядит так:

Ошибка в list_files(file, ignore_missing, TRUE, verbosity): File "" не существует.

Насколько я могу судить, он сообщает мне, что предоставленный мной каталог файлов не существует (но, конечно, он существует). Я пробовал много разных мелких корректировок: я пытался превратить свой файл (названный "WPSCASES") в zip-файл; Я попытался превратить файловый каталог в объект и поместить его в команду readtext, например:

directory <- ("C:/Users/Gordon/Desktop/WPSCASES/")

liwc <- readtext(paste0(directory, "/word/*.docx"), 
             docvarsfrom = "filenames",
             docvarnames = c("document", "language"),
             sep= "_")

Но безуспешно.

Цель состоит в том, чтобы загрузить эти 4000 с лишним текстовых файлов в R, чтобы я мог начать вычислять некоторые оценки Коулмана-Ляу для каждого файла. Будем очень признательны за любые советы по этому поводу.

Гордон

0 ответов

Другие вопросы по тегам