R {xml_node} для простого текста при сохранении тегов?
Я хотел бы сделать именно то, что xml2::xml_text()
или же rvest::html_text()
делать, но сохранять теги вместо замены, например <br>
с \n
, Цель состоит в том, чтобы, например, очистить веб-страницу, извлечь нужные мне узлы и сохранить обычный HTML-код в переменной, как write_html()
будет хранить его в файле.
Как я могу это сделать?
1 ответ
По иронии судьбы получается, что as.character()
работает просто отлично.
Следовательно:
library(rvest)
html <- read_html("http://stackru.com")
res <– html %>%
html_node("h1") %>%
as.character()
> res
[1] "<h1 class=\"-title\">Learn, Share, Build</h1>"
Это желаемый результат в моем текущем случае использования.
С другой стороны, для сравнения, если нужно удалить теги:
res <- html %>%
html_node("h1") %>%
html_text()
> res
[1] "Learn, Share, Build"