rvest и чтение HTML-файлов из локального каталога

У меня есть много файлов HTML, хранящихся в локальном каталоге. В идеале я хотел бы использовать rvest для извлечения узлов таблицы, создания некоторого представления о фрейме данных и экспорта файлов в виде файлов.txt. Я не уверен, как правильно импортировать файлы HTML в структуру, которую может обработать rvest.

Что я пытался до сих пор:

# Load libraries
library(tm)
library(RCurl)
library(XML)
library(rvest)
library(stringr)

# Set file path
folder <- 'path to directory'
extension <- '.html'

# Read files to list 
htmls <- lapply(X=html,
                FUN=function(file){
                  .con <- file(description=paste(folder, file, sep='/'))
                  .html <- readLines(.con)
                  close(.con)
                  names(.html)  <- file
                  .html
                })

А потом, мучительно, с помощью regex + lapply/sapply, чтобы перебрать файлы и извлечь таблицы.

Рекомендации по более эффективному рабочему процессу и / или как лучше оптимизировать Rvest?

0 ответов

Другие вопросы по тегам