Веб-очистка динамического стола

Я хочу соскрести данные из таблицы на этой странице

Но оба GET от httr или же read_html от rvest не могу прочитать таблицу. Я проверил структуру этой веб-страницы и не могу найти ни одного запроса POST или GET о получении данных при загрузке веб-страницы.

1 ответ

Решение

Из исходного кода страницы видно, что таблица встроена во фрейм. URL для самой таблицы находится по этой ссылке.

Так что вы можете попробовать:

u <- "http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1466632112484&V_YEAR=2016&V_waterplace=%27%E5%90%89%E6%9E%97%E6%BA%AA%E6%B5%AA%E5%8F%A3%27"

mytable <- u %>%
  read_html() %>%
  html_node("table") %>%
  html_table()

затем некоторая очистка, чтобы иметь дело с неанглийскими символами.

Другие вопросы по тегам