получение R для распознавания файла, полного файлов Word, для анализа koRpus
Мне нужна помощь с загрузкой данных текстового файла в R для анализа с помощью таких пакетов, как koRpus.
Проблема, с которой я столкнулся, заключается в том, чтобы заставить R распознавать папку, полную файлов Word (около 4000) как данные, которые я затем могу заставить koRpus выполнять анализ, такой как индексация Коулмана-Лиау. Если это вообще возможно, я предпочитаю работать с файлами Word. Ключевая проблема - это борьба за то, чтобы заставить R распознавать текстовые файлы (Word) в большом количестве (то есть все одновременно), чтобы koRpus мог делать свое дело с этими файлами.
Все мои попытки выполнить эту работу были тщетными, но я знаю, что полезность таких пакетов, как koRpus, была бы ограничена, если бы не было возможности заставить пакет выполнять свою работу с большой коллекцией файлов одновременно.
Я надеюсь, что эта проблема окажется для кого-то осмысленной и что есть разумное решение.
Спасибо, Гордон
1 ответ
Похоже на
readtext
package должен быть в состоянии помочь вам.
library(readtext)
Просто укажите папку в
readtext()
вызов. Вот так:
doc_df <-
readtext("doc_files/")
Я не знаком с
koRpus
пакет, но
text
Столбец в созданном фрейме данных должен содержать то, что необходимо для дальнейшей функции, которую вы хотите использовать.
doc_df$text
#> [1] "Test1: a little bit of text" "Test2: no further text"
#> [3] "Test3: lorem ipsum bla bla"
В ответ на ваши комментарии:
Похоже, в вашей папке есть несколько типов файлов, и вы пытаетесь их отфильтровать, чтобы только
docx
файлы обрабатываются. В
readtext
Кажется, что команда поддерживает такую фильтрацию, но в документации сказано, что это зависит от ОС. Я предлагаю фильтровать файлы в папке с помощью R
dir()
команда, перед вызовом
readtext()
:
a <- dir("doc_files/", pattern = "docx", full.names = TRUE)
doc_df <- readtext(a)