Sumbit запросы в Википедии через R
Я пытаюсь разработать R-скрипт, который берет строку и отправляет ее в окно поиска в Википедии. После достижения страницы этой строки R-программа должна извлечь все таблицы со страницы. Например, если строка "Манчестер Юнайтед", R-скрипт должен отправить запрос в Википедию, который перенесет его на страницу "Манчестер Юнайтед", извлечет все таблицы и преобразует их в фреймы данных.
PS: я только начал испытывать веб-скребинг в R, поэтому любая помощь будет принята с благодарностью.
1 ответ
Этот вопрос будет закрыт, так как в настоящее время он немного широк, но в основном вы можете использовать readHTMLTable
функция от XML
пакет. Это полезная служебная функция, которая будет обрабатывать основные HTML-таблицы.
appURL <- "http://en.wikipedia.org/wiki/Manchester United"
library(XML)
out <- readHTMLTable(appURL)
> head(out[[1]], 2)
V1 V2 V3
1 Full name Manchester United Football Club <NA>
2 Nickname(s) The Red Devils[1] <NA>
Там может быть R пакетов, которые могут использовать любой API, который может существовать для Википедии. Быстрый поиск дал, например, http://cran.r-project.org/web/packages/WikipediR/index.html.