rvest и чтение HTML-файлов из локального каталога
У меня есть много файлов HTML, хранящихся в локальном каталоге. В идеале я хотел бы использовать rvest для извлечения узлов таблицы, создания некоторого представления о фрейме данных и экспорта файлов в виде файлов.txt. Я не уверен, как правильно импортировать файлы HTML в структуру, которую может обработать rvest.
Что я пытался до сих пор:
# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)
# Set file path
folder <- 'path to directory'
extension <- '.html'
# Read files to list
htmls <- lapply(X=html,
FUN=function(file){
.con <- file(description=paste(folder, file, sep='/'))
.html <- readLines(.con)
close(.con)
names(.html) <- file
.html
})
А потом, мучительно, с помощью regex + lapply/sapply, чтобы перебрать файлы и извлечь таблицы.
Рекомендации по более эффективному рабочему процессу и / или как лучше оптимизировать Rvest?