получение R для распознавания файла, полного файлов Word, для анализа koRpus

Мне нужна помощь с загрузкой данных текстового файла в R для анализа с помощью таких пакетов, как koRpus.

Проблема, с которой я столкнулся, заключается в том, чтобы заставить R распознавать папку, полную файлов Word (около 4000) как данные, которые я затем могу заставить koRpus выполнять анализ, такой как индексация Коулмана-Лиау. Если это вообще возможно, я предпочитаю работать с файлами Word. Ключевая проблема - это борьба за то, чтобы заставить R распознавать текстовые файлы (Word) в большом количестве (то есть все одновременно), чтобы koRpus мог делать свое дело с этими файлами.

Все мои попытки выполнить эту работу были тщетными, но я знаю, что полезность таких пакетов, как koRpus, была бы ограничена, если бы не было возможности заставить пакет выполнять свою работу с большой коллекцией файлов одновременно.

Я надеюсь, что эта проблема окажется для кого-то осмысленной и что есть разумное решение.

Спасибо, Гордон

1 ответ

Решение

Похоже на readtext package должен быть в состоянии помочь вам.

library(readtext)

Просто укажите папку в readtext()вызов. Вот так:

doc_df <- 
  readtext("doc_files/")

Я не знаком с koRpus пакет, но text Столбец в созданном фрейме данных должен содержать то, что необходимо для дальнейшей функции, которую вы хотите использовать.

doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"     
#> [3] "Test3: lorem ipsum bla bla" 

В ответ на ваши комментарии:

Похоже, в вашей папке есть несколько типов файлов, и вы пытаетесь их отфильтровать, чтобы только docxфайлы обрабатываются. В readtextКажется, что команда поддерживает такую ​​фильтрацию, но в документации сказано, что это зависит от ОС. Я предлагаю фильтровать файлы в папке с помощью R dir() команда, перед вызовом readtext():

a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)
Другие вопросы по тегам